torch_frame.datasets.TabularBenchmark
- class TabularBenchmark(root: str, name: str)[source]
基础类:
Dataset一组在“为什么基于树的模型在表格数据上仍然优于深度学习?”中引入的表格基准数据集。
统计:
名称
#行数
#cols(数值)
#cols(分类)
#classes
任务
缺失值比例
albert
58,252
23
8
2
二元分类
0.0%
compas-two-years
4,966
2
9
2
二元分类
0.0%
覆盖类型
423,680
10
44
2
二元分类
0.0%
信用卡客户默认值
13,272
20
1
2
二元分类
0.0%
电力
38,474
7
1
2
二元分类
0.0%
眼动
7,608
18
5
2
二元分类
0.0%
道路安全
111,762
24
8
2
二元分类
0.0%
生物反应
3,434
419
0
2
二元分类
0.0%
糖尿病130美国
71,090
7
0
2
二元分类
0.0%
希格斯
940,160
24
0
2
二元分类
0.0%
魔法望远镜
13,376
10
0
2
二元分类
0.0%
MiniBooNE
72,998
50
0
2
二元分类
0.0%
银行营销
10,578
7
0
2
二元分类
0.0%
加利福尼亚
20,634
8
0
2
二元分类
0.0%
信用
16,714
10
0
2
二元分类
0.0%
heloc
10,000
22
0
2
二元分类
0.0%
house_16H
13,488
16
0
2
二元分类
0.0%
jannis
57,580
54
0
2
二元分类
0.0%
pol
10,082
26
0
2
二元分类
0.0%
analcatdata_supreme
4,052
1
6
1
回归
0.0%
Airlines_DepDelay_1M
1,000,000
5
0
1
回归
0.0%
Allstate_索赔_严重性
188,318
25
99
1
回归
0.0%
自行车共享需求
17,379
6
5
1
回归
0.0%
巴西房屋
10,692
7
4
1
回归
0.0%
梅赛德斯奔驰绿色制造
4,209
1
358
1
回归
0.0%
SGEMM_GPU_kernel_performance
241,600
3
6
1
回归
0.0%
钻石
53,940
6
3
1
回归
0.0%
房屋销售
21,613
15
2
1
回归
0.0%
医疗费用
163,065
3
0
1
回归
0.0%
颗粒物-英国空气-2017
394,299
4
2
1
回归
0.0%
西雅图犯罪6
52,031
3
1
1
回归
0.0%
topo_2_1
8,885
252
3
1
回归
0.0%
可视化土壤
8,641
3
1
1
回归
0.0%
cpu_act
8,192
21
0
1
回归
0.0%
电梯
16,599
16
0
1
回归
0.0%
房屋
20,640
8
0
1
回归
0.0%
苏黎世交通延误
5,465,575
8
0
1
回归
0.0%
纽约市绿色出租车-2016年12月
581,835
9
0
1
回归
0.0%
硫
10,081
6
0
1
回归
0.0%
超导
21,263
79
0
1
回归
0.0%
葡萄酒质量
6,497
11
0
1
回归
0.0%
yprop_4_1
8,885
42
0
1
回归
0.0%