torch_frame.datasets

真实世界数据集

Titanic

来自泰坦尼克号 Kaggle 竞赛的泰坦尼克号数据集。

AdultCensusIncome

来自Kaggle的Adult Census Income数据集。

ForestCoverType

来自Kaggle的Forest Cover Type数据集。

Dota2

Dota2 Game Results 数据集。

Mushroom

蘑菇分类Kaggle竞赛数据集。

PokerHand

Poker Hand 数据集。

BankMarketing

Bank Marketing 数据集。

TabularBenchmark

一组在"为什么基于树的模型在表格数据上仍然优于深度学习?"中引入的表格基准数据集。

Yandex

"Revisiting Deep Learning Models for Tabular Data"使用的Yandex数据集集合。

KDDCensusIncome

KDD Census Income 数据集。

MultimodalTextBenchmark

用于"Benchmarking Multimodal AutoML for Tabular Data with Text Fields"的带有文本列的表格数据基准数据集。

DataFrameBenchmark

一组用于表格学习的标准化数据集,涵盖分类和数值特征。

DataFrameTextBenchmark

一组用于带有文本列的表格学习的数据集,涵盖分类、数值、多分类和时间戳特征。

Mercari

来自Kaggle的Mercari价格建议挑战数据集。

Movielens1M

MovieLens 1M评分数据集,由GroupLens Research从MovieLens网站收集,包含电影(3,883个节点)和用户(6,040个节点),它们之间大约有100万条评分。

AmazonFineFoodReviews

Amazon Fine Food Reviews 数据集。

DiamondImages

来自Kaggle的Diamond Images数据集。

合成数据集

FakeDataset

用于测试目的的假数据集。

其他数据集

HuggingFaceDatasetDict

将Hugging Face的datasets.DatasetDict数据集加载到带有预定义分割信息的torch_frame.data.Dataset中。