torch_frame.datasets.DataFrameBenchmark

class DataFrameBenchmark(root: str, task_type: TaskType, scale: str, idx: int, split_random_state: int = 42)[source]

基础类:Dataset

一组用于表格学习的标准化数据集,涵盖分类和数值特征。这些数据集根据其任务类型和规模进行分类。

Parameters:
  • root (str) – 根目录。

  • task_type (TaskType) – 任务类型。可以是 TaskType.BINARY_CLASSIFICATION, TaskType.MULTICLASS_CLASSIFICATION, 或 TaskType.REGRESSION

  • scale (str) – 数据集的规模。"small" 表示5K到50K行。"medium" 表示50K到500K行。"large" 表示超过500K行。

  • idx (int) – 通过task_typescale指定的类别中数据集的索引。

统计:

任务

缩放

索引

#行数

#cols(数值)

#cols(分类)

#classes

类对象

缺失值比例

二元分类

0

32,561

4

8

2

AdultCensusIncome()

0.0%

二元分类

1

8,124

0

22

2

Mushroom()

0.0%

二元分类

2

45,211

7

9

2

银行营销()

0.0%

二元分类

3

13,376

10

0

2

表格基准测试(name=’MagicTelescope’)

0.0%

二元分类

4

10,578

7

0

2

表格基准测试(name=’bank-marketing’)

0.0%

二元分类

5

20,634

8

0

2

表格基准测试(name=’california’)

0.0%

二元分类

6

16,714

10

0

2

表格基准测试(name=’credit’)

0.0%

二元分类

7

13,272

20

1

2

表格基准测试(name=’default-of-credit-card-clients’)

0.0%

二元分类

8

38,474

7

1

2

表格基准测试(name=’electricity’)

0.0%

二元分类

9

7,608

18

5

2

表格基准测试(name=’eye_movements’)

0.0%

二元分类

10

10,000

22

0

2

表格基准测试(name=’heloc’)

0.0%

二元分类

11

13,488

16

0

2

表格基准测试(name=’house_16H’)

0.0%

二元分类

12

10,082

26

0

2

表格基准测试(name=’pol’)

0.0%

二元分类

13

48,842

6

8

2

Yandex(name=’adult’)

0.0%

二元分类

中等

0

92,650

0

116

2

Dota2()

0.0%

二元分类

中等

1

199,523

7

34

2

KDDCensusIncome()

0.0%

二元分类

中等

2

71,090

7

0

2

表格基准测试(name=’Diabetes130US’)

0.0%

二元分类

中等

3

72,998

50

0

2

表格基准测试(name=’MiniBooNE’)

0.0%

二元分类

中等

4

58,252

23

8

2

表格基准测试(name=’albert’)

0.0%

二元分类

中等

5

423,680

10

44

2

表格基准测试(name=’covertype’)

0.0%

二元分类

中等

6

57,580

54

0

2

表格基准测试(name=’jannis’)

0.0%

二元分类

中等

7

111,762

24

8

2

表格基准测试(name=’road-safety’)

0.0%

二元分类

中等

8

98,050

28

0

2

Yandex(name='higgs_small')

0.0%

二元分类

0

940,160

24

0

2

表格基准测试(name=’Higgs’)

0.0%

多类分类

中等

0

108,000

128

0

1,000

Yandex(name=’aloi’)

0.0%

多类分类

中等

1

65,196

27

0

100

Yandex(name=’helena’)

0.0%

多类分类

中等

2

83,733

54

0

4

Yandex(name=’jannis’)

0.0%

多类分类

0

581,012

10

44

7

ForestCoverType()

0.0%

多类分类

1

1,025,010

5

5

10

PokerHand()

0.0%

多类分类

2

581,012

54

0

7

Yandex(name=’covtype’)

0.0%

回归

0

17,379

6

5

1

表格基准测试(name=’Bike_Sharing_Demand’)

0.0%

回归

1

10,692

7

4

1

表格基准测试(name=’Brazilian_houses’)

0.0%

回归

2

8,192

21

0

1

表格基准测试(name=’cpu_act’)

0.0%

回归

3

16,599

16

0

1

表格基准测试(name=’elevators’)

0.0%

回归

4

21,613

15

2

1

表格基准测试(name=’house_sales’)

0.0%

回归

5

20,640

8

0

1

表格基准测试(name=’houses’)

0.0%

回归

6

10,081

6

0

1

表格基准测试(name=’sulfur’)

0.0%

回归

7

21,263

79

0

1

表格基准测试(name=’superconduct’)

0.0%

回归

8

8,885

252

3

1

表格基准测试(name=’topo_2_1’)

0.0%

回归

9

8,641

3

1

1

表格基准测试(name=’visualizing_soil’)

0.0%

回归

10

6,497

11

0

1

表格基准测试(name=’wine_quality’)

0.0%

回归

11

8,885

42

0

1

表格基准测试(name=’yprop_4_1’)

0.0%

回归

12

20,640

8

0

1

Yandex(name=’california_housing’)

0.0%

回归

中等

0

188,318

25

99

1

表格基准测试(name=’Allstate_Claims_Severity’)

0.0%

回归

中等

1

241,600

3

6

1

表格基准测试(name=’SGEMM_GPU_kernel_performance’)

0.0%

回归

中等

2

53,940

6

3

1

表格基准测试(name=’diamonds’)

0.0%

回归

中等

3

163,065

3

0

1

表格基准测试(name=’medical_charges’)

0.0%

回归

中等

4

394,299

4

2

1

表格基准测试(name=’particulate-matter-ukair-2017’)

0.0%

回归

中等

5

52,031

3

1

1

表格基准测试(name=’seattlecrime6’)

0.0%

回归

0

1,000,000

5

0

1

表格基准测试(name=’Airlines_DepDelay_1M’)

0.0%

回归

1

5,465,575

8

0

1

表格基准测试(name=’delays_zurich_transport’)

0.0%

回归

2

581,835

9

0

1

表格基准测试(name=’nyc-taxi-green-dec-2016’)

0.0%

回归

3

1,200,192

136

0

1

Yandex(name=’microsoft’)

0.0%

回归

4

709,877

699

0

1

Yandex(name=’yahoo’)

0.0%

回归

5

515,345

90

0

1

Yandex(name=’year’)

0.0%

classmethod datasets_available(task_type: TaskType, scale: str) list[tuple[str, dict[str, Any]]][source]

可用于给定task_typescale的数据集列表。

classmethod num_datasets_available(task_type: TaskType, scale: str)[source]

可用于给定task_typescale的数据集数量。

materialize(*args, **kwargs) Dataset[来源]

将数据集具体化为张量表示。从这一点开始,数据集应被视为只读。

Parameters:
  • device (torch.device, optional) – 用于加载 TensorFrame 对象的设备。(默认值:None

  • path (str, optional) – 如果指定了路径并且缓存文件存在,这将尝试加载保存的TensorFrame对象和col_stats。如果指定了路径但缓存文件不存在,这将执行物化操作,然后将TensorFrame对象和col_stats保存到path。如果pathNone,这将物化数据集而不进行缓存。(默认值: None)

  • col_stats (Dict[str, Dict[StatType, Any]], optional) – 可选的

  • provided (用户提供的col_stats。如果没有) –

  • 统计 () –

  • (默认 (从数据框本身计算得出。) – None)