torch_frame.datasets.DataFrameBenchmark

class DataFrameBenchmark(root: str, task_type: TaskType, scale: str, idx: int, split_random_state: int = 42)[source]

基础类：Dataset

一组用于表格学习的标准化数据集，涵盖分类和数值特征。这些数据集根据其任务类型和规模进行分类。

Parameters:

root (str) – 根目录。
task_type (TaskType) – 任务类型。可以是 TaskType.BINARY_CLASSIFICATION, TaskType.MULTICLASS_CLASSIFICATION, 或 TaskType.REGRESSION
scale (str) – 数据集的规模。"small" 表示5K到50K行。"medium" 表示50K到500K行。"large" 表示超过500K行。
idx (int) – 通过task_type和scale指定的类别中数据集的索引。

统计:

任务	缩放	索引	#行数	#cols（数值）	#cols（分类）	#classes	类对象	缺失值比例
二元分类	小	0	32,561	4	8	2	AdultCensusIncome()	0.0%
二元分类	小	1	8,124	0	22	2	Mushroom()	0.0%
二元分类	小	2	45,211	7	9	2	银行营销()	0.0%
二元分类	小	3	13,376	10	0	2	表格基准测试(name=’MagicTelescope’)	0.0%
二元分类	小	4	10,578	7	0	2	表格基准测试(name=’bank-marketing’)	0.0%
二元分类	小	5	20,634	8	0	2	表格基准测试(name=’california’)	0.0%
二元分类	小	6	16,714	10	0	2	表格基准测试(name=’credit’)	0.0%
二元分类	小	7	13,272	20	1	2	表格基准测试(name=’default-of-credit-card-clients’)	0.0%
二元分类	小	8	38,474	7	1	2	表格基准测试(name=’electricity’)	0.0%
二元分类	小	9	7,608	18	5	2	表格基准测试(name=’eye_movements’)	0.0%
二元分类	小	10	10,000	22	0	2	表格基准测试(name=’heloc’)	0.0%
二元分类	小	11	13,488	16	0	2	表格基准测试(name=’house_16H’)	0.0%
二元分类	小	12	10,082	26	0	2	表格基准测试(name=’pol’)	0.0%
二元分类	小	13	48,842	6	8	2	Yandex(name=’adult’)	0.0%
二元分类	中等	0	92,650	0	116	2	Dota2()	0.0%
二元分类	中等	1	199,523	7	34	2	KDDCensusIncome()	0.0%
二元分类	中等	2	71,090	7	0	2	表格基准测试(name=’Diabetes130US’)	0.0%
二元分类	中等	3	72,998	50	0	2	表格基准测试(name=’MiniBooNE’)	0.0%
二元分类	中等	4	58,252	23	8	2	表格基准测试(name=’albert’)	0.0%
二元分类	中等	5	423,680	10	44	2	表格基准测试(name=’covertype’)	0.0%
二元分类	中等	6	57,580	54	0	2	表格基准测试(name=’jannis’)	0.0%
二元分类	中等	7	111,762	24	8	2	表格基准测试(name=’road-safety’)	0.0%
二元分类	中等	8	98,050	28	0	2	Yandex(name='higgs_small')	0.0%
二元分类	大	0	940,160	24	0	2	表格基准测试(name=’Higgs’)	0.0%
多类分类	中等	0	108,000	128	0	1,000	Yandex(name=’aloi’)	0.0%
多类分类	中等	1	65,196	27	0	100	Yandex(name=’helena’)	0.0%
多类分类	中等	2	83,733	54	0	4	Yandex(name=’jannis’)	0.0%
多类分类	大	0	581,012	10	44	7	ForestCoverType()	0.0%
多类分类	大	1	1,025,010	5	5	10	PokerHand()	0.0%
多类分类	大	2	581,012	54	0	7	Yandex(name=’covtype’)	0.0%
回归	小	0	17,379	6	5	1	表格基准测试(name=’Bike_Sharing_Demand’)	0.0%
回归	小	1	10,692	7	4	1	表格基准测试(name=’Brazilian_houses’)	0.0%
回归	小	2	8,192	21	0	1	表格基准测试(name=’cpu_act’)	0.0%
回归	小	3	16,599	16	0	1	表格基准测试(name=’elevators’)	0.0%
回归	小	4	21,613	15	2	1	表格基准测试(name=’house_sales’)	0.0%
回归	小	5	20,640	8	0	1	表格基准测试(name=’houses’)	0.0%
回归	小	6	10,081	6	0	1	表格基准测试(name=’sulfur’)	0.0%
回归	小	7	21,263	79	0	1	表格基准测试(name=’superconduct’)	0.0%
回归	小	8	8,885	252	3	1	表格基准测试(name=’topo_2_1’)	0.0%
回归	小	9	8,641	3	1	1	表格基准测试(name=’visualizing_soil’)	0.0%
回归	小	10	6,497	11	0	1	表格基准测试(name=’wine_quality’)	0.0%
回归	小	11	8,885	42	0	1	表格基准测试(name=’yprop_4_1’)	0.0%
回归	小	12	20,640	8	0	1	Yandex(name=’california_housing’)	0.0%
回归	中等	0	188,318	25	99	1	表格基准测试(name=’Allstate_Claims_Severity’)	0.0%
回归	中等	1	241,600	3	6	1	表格基准测试(name=’SGEMM_GPU_kernel_performance’)	0.0%
回归	中等	2	53,940	6	3	1	表格基准测试(name=’diamonds’)	0.0%
回归	中等	3	163,065	3	0	1	表格基准测试(name=’medical_charges’)	0.0%
回归	中等	4	394,299	4	2	1	表格基准测试(name=’particulate-matter-ukair-2017’)	0.0%
回归	中等	5	52,031	3	1	1	表格基准测试(name=’seattlecrime6’)	0.0%
回归	大	0	1,000,000	5	0	1	表格基准测试(name=’Airlines_DepDelay_1M’)	0.0%
回归	大	1	5,465,575	8	0	1	表格基准测试(name=’delays_zurich_transport’)	0.0%
回归	大	2	581,835	9	0	1	表格基准测试(name=’nyc-taxi-green-dec-2016’)	0.0%
回归	大	3	1,200,192	136	0	1	Yandex(name=’microsoft’)	0.0%
回归	大	4	709,877	699	0	1	Yandex(name=’yahoo’)	0.0%
回归	大	5	515,345	90	0	1	Yandex(name=’year’)	0.0%

classmethod datasets_available(task_type: TaskType, scale: str) → list[tuple[str, dict[str, Any]]][source]: 可用于给定task_type和scale的数据集列表。

classmethod num_datasets_available(task_type: TaskType, scale: str)[source]: 可用于给定task_type和scale的数据集数量。

materialize(*args, **kwargs) → Dataset[来源]

将数据集具体化为张量表示。从这一点开始，数据集应被视为只读。

Parameters:

device (torch.device, optional) – 用于加载 TensorFrame 对象的设备。（默认值：None）
path (str, optional) – 如果指定了路径并且缓存文件存在，这将尝试加载保存的TensorFrame对象和col_stats。如果指定了路径但缓存文件不存在，这将执行物化操作，然后将TensorFrame对象和col_stats保存到path。如果path是None，这将物化数据集而不进行缓存。(默认值: None)
col_stats (Dict[str, Dict[StatType, Any]], optional) – 可选的
provided (用户提供的col_stats。如果没有) –
统计 (的) –
(默认 (从数据框本身计算得出。) – None)