torch_frame.datasets.DataFrameBenchmark
- class DataFrameBenchmark(root: str, task_type: TaskType, scale: str, idx: int, split_random_state: int = 42)[source]
基础类:
Dataset一组用于表格学习的标准化数据集,涵盖分类和数值特征。这些数据集根据其任务类型和规模进行分类。
- Parameters:
统计:
任务
缩放
索引
#行数
#cols(数值)
#cols(分类)
#classes
类对象
缺失值比例
二元分类
小
0
32,561
4
8
2
AdultCensusIncome()
0.0%
二元分类
小
1
8,124
0
22
2
Mushroom()
0.0%
二元分类
小
2
45,211
7
9
2
银行营销()
0.0%
二元分类
小
3
13,376
10
0
2
表格基准测试(name=’MagicTelescope’)
0.0%
二元分类
小
4
10,578
7
0
2
表格基准测试(name=’bank-marketing’)
0.0%
二元分类
小
5
20,634
8
0
2
表格基准测试(name=’california’)
0.0%
二元分类
小
6
16,714
10
0
2
表格基准测试(name=’credit’)
0.0%
二元分类
小
7
13,272
20
1
2
表格基准测试(name=’default-of-credit-card-clients’)
0.0%
二元分类
小
8
38,474
7
1
2
表格基准测试(name=’electricity’)
0.0%
二元分类
小
9
7,608
18
5
2
表格基准测试(name=’eye_movements’)
0.0%
二元分类
小
10
10,000
22
0
2
表格基准测试(name=’heloc’)
0.0%
二元分类
小
11
13,488
16
0
2
表格基准测试(name=’house_16H’)
0.0%
二元分类
小
12
10,082
26
0
2
表格基准测试(name=’pol’)
0.0%
二元分类
小
13
48,842
6
8
2
Yandex(name=’adult’)
0.0%
二元分类
中等
0
92,650
0
116
2
Dota2()
0.0%
二元分类
中等
1
199,523
7
34
2
KDDCensusIncome()
0.0%
二元分类
中等
2
71,090
7
0
2
表格基准测试(name=’Diabetes130US’)
0.0%
二元分类
中等
3
72,998
50
0
2
表格基准测试(name=’MiniBooNE’)
0.0%
二元分类
中等
4
58,252
23
8
2
表格基准测试(name=’albert’)
0.0%
二元分类
中等
5
423,680
10
44
2
表格基准测试(name=’covertype’)
0.0%
二元分类
中等
6
57,580
54
0
2
表格基准测试(name=’jannis’)
0.0%
二元分类
中等
7
111,762
24
8
2
表格基准测试(name=’road-safety’)
0.0%
二元分类
中等
8
98,050
28
0
2
Yandex(name='higgs_small')
0.0%
二元分类
大
0
940,160
24
0
2
表格基准测试(name=’Higgs’)
0.0%
多类分类
中等
0
108,000
128
0
1,000
Yandex(name=’aloi’)
0.0%
多类分类
中等
1
65,196
27
0
100
Yandex(name=’helena’)
0.0%
多类分类
中等
2
83,733
54
0
4
Yandex(name=’jannis’)
0.0%
多类分类
大
0
581,012
10
44
7
ForestCoverType()
0.0%
多类分类
大
1
1,025,010
5
5
10
PokerHand()
0.0%
多类分类
大
2
581,012
54
0
7
Yandex(name=’covtype’)
0.0%
回归
小
0
17,379
6
5
1
表格基准测试(name=’Bike_Sharing_Demand’)
0.0%
回归
小
1
10,692
7
4
1
表格基准测试(name=’Brazilian_houses’)
0.0%
回归
小
2
8,192
21
0
1
表格基准测试(name=’cpu_act’)
0.0%
回归
小
3
16,599
16
0
1
表格基准测试(name=’elevators’)
0.0%
回归
小
4
21,613
15
2
1
表格基准测试(name=’house_sales’)
0.0%
回归
小
5
20,640
8
0
1
表格基准测试(name=’houses’)
0.0%
回归
小
6
10,081
6
0
1
表格基准测试(name=’sulfur’)
0.0%
回归
小
7
21,263
79
0
1
表格基准测试(name=’superconduct’)
0.0%
回归
小
8
8,885
252
3
1
表格基准测试(name=’topo_2_1’)
0.0%
回归
小
9
8,641
3
1
1
表格基准测试(name=’visualizing_soil’)
0.0%
回归
小
10
6,497
11
0
1
表格基准测试(name=’wine_quality’)
0.0%
回归
小
11
8,885
42
0
1
表格基准测试(name=’yprop_4_1’)
0.0%
回归
小
12
20,640
8
0
1
Yandex(name=’california_housing’)
0.0%
回归
中等
0
188,318
25
99
1
表格基准测试(name=’Allstate_Claims_Severity’)
0.0%
回归
中等
1
241,600
3
6
1
表格基准测试(name=’SGEMM_GPU_kernel_performance’)
0.0%
回归
中等
2
53,940
6
3
1
表格基准测试(name=’diamonds’)
0.0%
回归
中等
3
163,065
3
0
1
表格基准测试(name=’medical_charges’)
0.0%
回归
中等
4
394,299
4
2
1
表格基准测试(name=’particulate-matter-ukair-2017’)
0.0%
回归
中等
5
52,031
3
1
1
表格基准测试(name=’seattlecrime6’)
0.0%
回归
大
0
1,000,000
5
0
1
表格基准测试(name=’Airlines_DepDelay_1M’)
0.0%
回归
大
1
5,465,575
8
0
1
表格基准测试(name=’delays_zurich_transport’)
0.0%
回归
大
2
581,835
9
0
1
表格基准测试(name=’nyc-taxi-green-dec-2016’)
0.0%
回归
大
3
1,200,192
136
0
1
Yandex(name=’microsoft’)
0.0%
回归
大
4
709,877
699
0
1
Yandex(name=’yahoo’)
0.0%
回归
大
5
515,345
90
0
1
Yandex(name=’year’)
0.0%
- classmethod datasets_available(task_type: TaskType, scale: str) list[tuple[str, dict[str, Any]]][source]
可用于给定
task_type和scale的数据集列表。
- classmethod num_datasets_available(task_type: TaskType, scale: str)[source]
可用于给定
task_type和scale的数据集数量。
- materialize(*args, **kwargs) Dataset[来源]
将数据集具体化为张量表示。从这一点开始,数据集应被视为只读。
- Parameters:
device (torch.device, optional) – 用于加载
TensorFrame对象的设备。(默认值:None)path (str, optional) – 如果指定了路径并且缓存文件存在,这将尝试加载保存的
TensorFrame对象和col_stats。如果指定了路径但缓存文件不存在,这将执行物化操作,然后将TensorFrame对象和col_stats保存到path。如果path是None,这将物化数据集而不进行缓存。(默认值:None)provided (用户提供的col_stats。如果没有) –
统计 (的) –
(默认 (从数据框本身计算得出。) –
None)