torch_frame.datasets.DataFrameTextBenchmark
- class DataFrameTextBenchmark(root: str, task_type: TaskType, scale: str, idx: int, text_stype: torch_frame.stype = stype.text_embedded, col_to_text_embedder_cfg: dict[str, TextEmbedderConfig] | TextEmbedderConfig | None = None, col_to_text_tokenizer_cfg: dict[str, TextTokenizerConfig] | TextTokenizerConfig | None = None, split_random_state: int = 42)[source]
基础类:
Dataset一组用于带有文本列的表格学习的数据集,涵盖分类、数值、多分类和时间戳特征。这些数据集根据其任务类型和规模进行分类。
- Parameters:
root (str) – 根目录。
task_type (TaskType) – 任务类型。可以是
TaskType.BINARY_CLASSIFICATION,TaskType.MULTICLASS_CLASSIFICATION, 或TaskType.REGRESSIONscale (str) – 数据集的规模。
"small"表示5K到50K行。"medium"表示50K到500K行。"large"表示超过500K行。text_stype (torch_frame.stype) – 用于数据集中文本列的文本类型。(默认:
torch_frame.text_embedded).idx (int) – 通过
task_type和scale指定的类别中数据集的索引。
统计:
任务
缩放
索引
#行数
#cols(数值)
#cols(分类)
#cols (文本)
#cols(其他)
#classes
类对象
缺失值比例
二元分类
小
0
15,907
0
3
2
0
2
多模态文本基准(name=’fake_job_postings2’)
23.8%
二元分类
中等
0
125,000
29
0
1
0
2
多模态文本基准(name=’jigsaw_unintended_bias100K’)
41.4%
二元分类
中等
1
108,128
1
3
3
2
2
多模态文本基准(name=’kick_starter_funding’)
0.0%
多类分类
小
0
6,364
0
1
1
0
4
多模态文本基准(name=’product_sentiment_machine_hack’)
0.0%
多类分类
小
1
25,355
14
0
1
0
6
多模态文本基准(name=’news_channel’)
0.0%
多类分类
小
2
19,802
0
3
2
1
6
多模态文本基准(name=’data_scientist_salary’)
12.3%
多类分类
小
3
22,895
26
47
13
3
10
多模态文本基准(name=’melbourne_airbnb’)
9.6%
多类分类
中等
0
105,154
2
2
1
0
30
多模态文本基准(name=’wine_reviews’)
1.0%
多类分类
中等
1
114,000
11
5
3
0
114
HuggingFaceDatasetDict(path=’maharshipandya/spotify-tracks-dataset’, target_col=’track_genre’)
0.0%
多类分类
大
0
568,454
2
3
2
0
5
AmazonFineFoodReviews()
0.0%
回归
小
0
6,079
0
1
3
0
1
多模态文本基准(name=’google_qa_answer_type_reason_explanation’)
0.0%
回归
小
1
6,079
0
1
3
0
1
多模态文本基准(name=’google_qa_question_type_reason_explanation’)
0.0%
回归
小
2
6,237
2
3
3
0
1
多模态文本基准(name=’bookprice_prediction’)
1.7%
回归
小
3
13,575
2
1
2
0
1
多模态文本基准(name=’jc_penney_products’)
13.7%
回归
小
4
23,486
1
3
2
0
1
多模态文本基准(name=’women_clothing_review’)
1.8%
回归
小
5
30,009
3
0
1
0
1
多模态文本基准(name=’news_popularity2’)
0.0%
回归
小
6
28,328
2
5
1
3
1
多模态文本基准(name=’ae_price_prediction’)
6.1%
回归
小
7
47,439
18
8
2
11
1
多模态文本基准(name=’california_house_price’)
13.8%
回归
中等
0
125,000
0
6
2
1
1
多模态文本基准(name=’mercari_price_suggestion100K’)
3.4%
回归
大
0
1,482,535
1
4
2
1
1
Mercari()
0.0%
- classmethod datasets_available(task_type: TaskType, scale: str) list[tuple[str, dict[str, Any]]][source]
可用于给定
task_type和scale的数据集列表。
- classmethod num_datasets_available(task_type: TaskType, scale: str)[source]
可用于给定
task_type和scale的数据集数量。
- materialize(*args, **kwargs) Dataset[source]
将数据集具体化为张量表示。从这一点开始,数据集应被视为只读。
- Parameters:
device (torch.device, optional) – 用于加载
TensorFrame对象的设备。(默认值:None)path (str, optional) – 如果指定了路径并且缓存文件存在,这将尝试加载保存的
TensorFrame对象和col_stats。如果指定了路径但缓存文件不存在,这将执行物化操作,然后将TensorFrame对象和col_stats保存到path。如果path是None,这将物化数据集而不进行缓存。(默认值:None)provided (用户提供的col_stats。如果没有) –
统计 (的) –
(默认 (从数据框本身计算得出。) –
None)