torch_frame.datasets.DataFrameTextBenchmark

class DataFrameTextBenchmark(root: str, task_type: TaskType, scale: str, idx: int, text_stype: torch_frame.stype = stype.text_embedded, col_to_text_embedder_cfg: dict[str, TextEmbedderConfig] | TextEmbedderConfig | None = None, col_to_text_tokenizer_cfg: dict[str, TextTokenizerConfig] | TextTokenizerConfig | None = None, split_random_state: int = 42)[source]

基础类：Dataset

一组用于带有文本列的表格学习的数据集，涵盖分类、数值、多分类和时间戳特征。这些数据集根据其任务类型和规模进行分类。

Parameters:

root (str) – 根目录。
task_type (TaskType) – 任务类型。可以是 TaskType.BINARY_CLASSIFICATION, TaskType.MULTICLASS_CLASSIFICATION, 或 TaskType.REGRESSION
scale (str) – 数据集的规模。"small" 表示5K到50K行。"medium" 表示50K到500K行。"large" 表示超过500K行。
text_stype (torch_frame.stype) – 用于数据集中文本列的文本类型。(默认: torch_frame.text_embedded).
idx (int) – 通过task_type和scale指定的类别中数据集的索引。

统计:

任务	缩放	索引	#行数	#cols（数值）	#cols（分类）	#cols (文本)	#cols（其他）	#classes	类对象	缺失值比例
二元分类	小	0	15,907	0	3	2	0	2	多模态文本基准(name=’fake_job_postings2’)	23.8%
二元分类	中等	0	125,000	29	0	1	0	2	多模态文本基准(name=’jigsaw_unintended_bias100K’)	41.4%
二元分类	中等	1	108,128	1	3	3	2	2	多模态文本基准(name=’kick_starter_funding’)	0.0%
多类分类	小	0	6,364	0	1	1	0	4	多模态文本基准(name=’product_sentiment_machine_hack’)	0.0%
多类分类	小	1	25,355	14	0	1	0	6	多模态文本基准(name=’news_channel’)	0.0%
多类分类	小	2	19,802	0	3	2	1	6	多模态文本基准(name=’data_scientist_salary’)	12.3%
多类分类	小	3	22,895	26	47	13	3	10	多模态文本基准(name=’melbourne_airbnb’)	9.6%
多类分类	中等	0	105,154	2	2	1	0	30	多模态文本基准(name=’wine_reviews’)	1.0%
多类分类	中等	1	114,000	11	5	3	0	114	HuggingFaceDatasetDict(path=’maharshipandya/spotify-tracks-dataset’, target_col=’track_genre’)	0.0%
多类分类	大	0	568,454	2	3	2	0	5	AmazonFineFoodReviews()	0.0%
回归	小	0	6,079	0	1	3	0	1	多模态文本基准(name=’google_qa_answer_type_reason_explanation’)	0.0%
回归	小	1	6,079	0	1	3	0	1	多模态文本基准(name=’google_qa_question_type_reason_explanation’)	0.0%
回归	小	2	6,237	2	3	3	0	1	多模态文本基准(name=’bookprice_prediction’)	1.7%
回归	小	3	13,575	2	1	2	0	1	多模态文本基准(name=’jc_penney_products’)	13.7%
回归	小	4	23,486	1	3	2	0	1	多模态文本基准(name=’women_clothing_review’)	1.8%
回归	小	5	30,009	3	0	1	0	1	多模态文本基准(name=’news_popularity2’)	0.0%
回归	小	6	28,328	2	5	1	3	1	多模态文本基准(name=’ae_price_prediction’)	6.1%
回归	小	7	47,439	18	8	2	11	1	多模态文本基准(name=’california_house_price’)	13.8%
回归	中等	0	125,000	0	6	2	1	1	多模态文本基准(name=’mercari_price_suggestion100K’)	3.4%
回归	大	0	1,482,535	1	4	2	1	1	Mercari()	0.0%

classmethod datasets_available(task_type: TaskType, scale: str) → list[tuple[str, dict[str, Any]]][source]: 可用于给定task_type和scale的数据集列表。

classmethod num_datasets_available(task_type: TaskType, scale: str)[source]: 可用于给定task_type和scale的数据集数量。

materialize(*args, **kwargs) → Dataset[source]

将数据集具体化为张量表示。从这一点开始，数据集应被视为只读。

Parameters:

device (torch.device, optional) – 用于加载 TensorFrame 对象的设备。（默认值：None）
path (str, optional) – 如果指定了路径并且缓存文件存在，这将尝试加载保存的TensorFrame对象和col_stats。如果指定了路径但缓存文件不存在，这将执行物化操作，然后将TensorFrame对象和col_stats保存到path。如果path是None，这将物化数据集而不进行缓存。(默认值: None)
col_stats (Dict[str, Dict[StatType, Any]], optional) – 可选的
provided (用户提供的col_stats。如果没有) –
统计 (的) –
(默认 (从数据框本身计算得出。) – None)