torch_frame.datasets.TabularBenchmark

class TabularBenchmark(root: str, name: str)[source]

基础类:Dataset

一组在“为什么基于树的模型在表格数据上仍然优于深度学习?”中引入的表格基准数据集。

统计:

名称

#行数

#cols(数值)

#cols(分类)

#classes

任务

缺失值比例

albert

58,252

23

8

2

二元分类

0.0%

compas-two-years

4,966

2

9

2

二元分类

0.0%

覆盖类型

423,680

10

44

2

二元分类

0.0%

信用卡客户默认值

13,272

20

1

2

二元分类

0.0%

电力

38,474

7

1

2

二元分类

0.0%

眼动

7,608

18

5

2

二元分类

0.0%

道路安全

111,762

24

8

2

二元分类

0.0%

生物反应

3,434

419

0

2

二元分类

0.0%

糖尿病130美国

71,090

7

0

2

二元分类

0.0%

希格斯

940,160

24

0

2

二元分类

0.0%

魔法望远镜

13,376

10

0

2

二元分类

0.0%

MiniBooNE

72,998

50

0

2

二元分类

0.0%

银行营销

10,578

7

0

2

二元分类

0.0%

加利福尼亚

20,634

8

0

2

二元分类

0.0%

信用

16,714

10

0

2

二元分类

0.0%

heloc

10,000

22

0

2

二元分类

0.0%

house_16H

13,488

16

0

2

二元分类

0.0%

jannis

57,580

54

0

2

二元分类

0.0%

pol

10,082

26

0

2

二元分类

0.0%

analcatdata_supreme

4,052

1

6

1

回归

0.0%

Airlines_DepDelay_1M

1,000,000

5

0

1

回归

0.0%

Allstate_索赔_严重性

188,318

25

99

1

回归

0.0%

自行车共享需求

17,379

6

5

1

回归

0.0%

巴西房屋

10,692

7

4

1

回归

0.0%

梅赛德斯奔驰绿色制造

4,209

1

358

1

回归

0.0%

SGEMM_GPU_kernel_performance

241,600

3

6

1

回归

0.0%

钻石

53,940

6

3

1

回归

0.0%

房屋销售

21,613

15

2

1

回归

0.0%

医疗费用

163,065

3

0

1

回归

0.0%

颗粒物-英国空气-2017

394,299

4

2

1

回归

0.0%

西雅图犯罪6

52,031

3

1

1

回归

0.0%

topo_2_1

8,885

252

3

1

回归

0.0%

可视化土壤

8,641

3

1

1

回归

0.0%

cpu_act

8,192

21

0

1

回归

0.0%

电梯

16,599

16

0

1

回归

0.0%

房屋

20,640

8

0

1

回归

0.0%

苏黎世交通延误

5,465,575

8

0

1

回归

0.0%

纽约市绿色出租车-2016年12月

581,835

9

0

1

回归

0.0%

10,081

6

0

1

回归

0.0%

超导

21,263

79

0

1

回归

0.0%

葡萄酒质量

6,497

11

0

1

回归

0.0%

yprop_4_1

8,885

42

0

1

回归

0.0%