torch_frame.datasets.MultimodalTextBenchmark
- class MultimodalTextBenchmark(root: str, name: str, text_stype: torch_frame.stype = stype.text_embedded, col_to_text_embedder_cfg: dict[str, TextEmbedderConfig] | TextEmbedderConfig | None = None, col_to_text_tokenizer_cfg: dict[str, TextTokenizerConfig] | TextTokenizerConfig | None = None)[source]
基础类:
Dataset
用于“Benchmarking Multimodal AutoML for Tabular Data with Text Fields”的带有文本列的表格数据基准数据集。一些回归数据集的目标列已从对数尺度转换为原始尺度。
- Parameters:
name (str) – 要下载的数据集的名称。
text_stype (torch_frame.stype) – 用于数据集中文本列的文本类型。(默认:
torch_frame.text_embedded
)
统计:
名称
#行数
#cols(数值)
#cols(分类)
#cols (文本)
#cols(其他)
#classes
任务
缺失值比例
产品情感机器黑客
6,364
0
1
1
0
4
多类分类
0.0%
拼图意外偏见100K
125,000
29
0
1
0
2
二元分类
41.4%
新闻频道
25,355
14
0
1
0
6
多类分类
0.0%
葡萄酒评论
105,154
2
2
1
0
30
多类分类
1.0%
数据科学家薪资
19,802
0
3
2
1
6
多类分类
12.3%
墨尔本_airbnb
22,895
26
47
13
3
10
多类分类
9.6%
imdb_genre_prediction
1,000
7
1
2
1
2
二元分类
0.0%
kick_starter_funding
108,128
1
3
3
2
2
二元分类
0.0%
虚假职位发布2
15,907
0
3
2
0
2
二元分类
23.8%
google_qa_answer_type_reason_explanation
6,079
0
1
3
0
1
回归
0.0%
google_qa_question_type_reason_explanation
6,079
0
1
3
0
1
回归
0.0%
书籍价格预测
6,237
2
3
3
0
1
回归
1.7%
jc_penney_products
13,575
2
1
2
0
1
回归
13.7%
女装评论
23,486
1
3
2
0
1
回归
1.8%
news_popularity2
30,009
3
0
1
0
1
回归
0.0%
ae_price_prediction
28,328
2
5
1
3
1
回归
6.1%
加州房价
47,439
18
8
2
11
1
回归
13.8%
mercari_price_suggestion100K
125,000
0
6
2
1
1
回归
3.4%