torch_frame.datasets.DataFrameTextBenchmark

class DataFrameTextBenchmark(root: str, task_type: TaskType, scale: str, idx: int, text_stype: torch_frame.stype = stype.text_embedded, col_to_text_embedder_cfg: dict[str, TextEmbedderConfig] | TextEmbedderConfig | None = None, col_to_text_tokenizer_cfg: dict[str, TextTokenizerConfig] | TextTokenizerConfig | None = None, split_random_state: int = 42)[source]

基础类:Dataset

一组用于带有文本列的表格学习的数据集,涵盖分类、数值、多分类和时间戳特征。这些数据集根据其任务类型和规模进行分类。

Parameters:
  • root (str) – 根目录。

  • task_type (TaskType) – 任务类型。可以是 TaskType.BINARY_CLASSIFICATION, TaskType.MULTICLASS_CLASSIFICATION, 或 TaskType.REGRESSION

  • scale (str) – 数据集的规模。"small" 表示5K到50K行。"medium" 表示50K到500K行。"large" 表示超过500K行。

  • text_stype (torch_frame.stype) – 用于数据集中文本列的文本类型。(默认: torch_frame.text_embedded).

  • idx (int) – 通过task_typescale指定的类别中数据集的索引。

统计:

任务

缩放

索引

#行数

#cols(数值)

#cols(分类)

#cols (文本)

#cols(其他)

#classes

类对象

缺失值比例

二元分类

0

15,907

0

3

2

0

2

多模态文本基准(name=’fake_job_postings2’)

23.8%

二元分类

中等

0

125,000

29

0

1

0

2

多模态文本基准(name=’jigsaw_unintended_bias100K’)

41.4%

二元分类

中等

1

108,128

1

3

3

2

2

多模态文本基准(name=’kick_starter_funding’)

0.0%

多类分类

0

6,364

0

1

1

0

4

多模态文本基准(name=’product_sentiment_machine_hack’)

0.0%

多类分类

1

25,355

14

0

1

0

6

多模态文本基准(name=’news_channel’)

0.0%

多类分类

2

19,802

0

3

2

1

6

多模态文本基准(name=’data_scientist_salary’)

12.3%

多类分类

3

22,895

26

47

13

3

10

多模态文本基准(name=’melbourne_airbnb’)

9.6%

多类分类

中等

0

105,154

2

2

1

0

30

多模态文本基准(name=’wine_reviews’)

1.0%

多类分类

中等

1

114,000

11

5

3

0

114

HuggingFaceDatasetDict(path=’maharshipandya/spotify-tracks-dataset’, target_col=’track_genre’)

0.0%

多类分类

0

568,454

2

3

2

0

5

AmazonFineFoodReviews()

0.0%

回归

0

6,079

0

1

3

0

1

多模态文本基准(name=’google_qa_answer_type_reason_explanation’)

0.0%

回归

1

6,079

0

1

3

0

1

多模态文本基准(name=’google_qa_question_type_reason_explanation’)

0.0%

回归

2

6,237

2

3

3

0

1

多模态文本基准(name=’bookprice_prediction’)

1.7%

回归

3

13,575

2

1

2

0

1

多模态文本基准(name=’jc_penney_products’)

13.7%

回归

4

23,486

1

3

2

0

1

多模态文本基准(name=’women_clothing_review’)

1.8%

回归

5

30,009

3

0

1

0

1

多模态文本基准(name=’news_popularity2’)

0.0%

回归

6

28,328

2

5

1

3

1

多模态文本基准(name=’ae_price_prediction’)

6.1%

回归

7

47,439

18

8

2

11

1

多模态文本基准(name=’california_house_price’)

13.8%

回归

中等

0

125,000

0

6

2

1

1

多模态文本基准(name=’mercari_price_suggestion100K’)

3.4%

回归

0

1,482,535

1

4

2

1

1

Mercari()

0.0%

classmethod datasets_available(task_type: TaskType, scale: str) list[tuple[str, dict[str, Any]]][source]

可用于给定task_typescale的数据集列表。

classmethod num_datasets_available(task_type: TaskType, scale: str)[source]

可用于给定task_typescale的数据集数量。

materialize(*args, **kwargs) Dataset[source]

将数据集具体化为张量表示。从这一点开始,数据集应被视为只读。

Parameters:
  • device (torch.device, optional) – 用于加载 TensorFrame 对象的设备。(默认值:None

  • path (str, optional) – 如果指定了路径并且缓存文件存在,这将尝试加载保存的TensorFrame对象和col_stats。如果指定了路径但缓存文件不存在,这将执行物化操作,然后将TensorFrame对象和col_stats保存到path。如果pathNone,这将物化数据集而不进行缓存。(默认值: None)

  • col_stats (Dict[str, Dict[StatType, Any]], optional) – 可选的

  • provided (用户提供的col_stats。如果没有) –

  • 统计 () –

  • (默认 (从数据框本身计算得出。) – None)