torch_frame.data.Dataset
- class Dataset(df: DataFrame, col_to_stype: dict[str, torch_frame.stype], target_col: str | None = None, split_col: str | None = None, col_to_sep: str | None | dict[str, str | None] = None, col_to_text_embedder_cfg: dict[str, TextEmbedderConfig] | TextEmbedderConfig | None = None, col_to_text_tokenizer_cfg: dict[str, TextTokenizerConfig] | TextTokenizerConfig | None = None, col_to_image_embedder_cfg: dict[str, ImageEmbedderConfig] | ImageEmbedderConfig | None = None, col_to_time_format: str | None | dict[str, str | None] = None)[来源]
基类:
ABC
用于创建表格数据集的基类。
- Parameters:
df (DataFrame) – 表格数据框。
col_to_stype (Dict[str, torch_frame.stype]) – 一个将数据框中的每一列映射到语义类型的字典。
split_col (str, optional) – 存储预定义拆分信息的列。该列应仅包含
0
,1
, 或2
。(默认值:None
)。col_to_sep (Union[str, Dict[str, Optional[str]]]) – 一个字典或字符串/
None
,用于指定多分类列的分隔符/定界符。如果指定了字符串/None
,则所有多分类列将使用相同的分隔符。请注意,如果指定了None
,则假定多分类以list
的形式给出。如果给出了字典,则我们为每列使用指定的分隔符。(默认值:None
)col_to_text_embedder_cfg (TextEmbedderConfig 或 dict, 可选) – 一个文本嵌入配置或配置字典,指定将文本嵌入为向量的
text_embedder
和指定text_embedder
的迷你批次大小的batch_size
。(默认值:None
)col_to_text_tokenizer_cfg (TextTokenizerConfig 或 dict, 可选) – 一个文本分词器配置或配置字典,指定将句子映射到张量字典列表的
text_tokenizer
。列表中的每个元素对应于每个句子,键是模型的输入参数,如input_ids
,值是张量,如标记。batch_size
指定text_tokenizer
的小批量大小。(默认值:None
)col_to_time_format (Union[str, Dict[str, Optional[str]]], optional) – 一个 字典或字符串,用于指定时间戳列的格式。有关格式的更多信息,请参阅strfttime文档。 如果指定了字符串,则所有时间戳列将使用相同的格式。如果提供了字典,我们将为每列使用不同的格式。 如果未指定,将使用pandas的内部to_datetime函数自动解析时间列。 (默认值:
None
)
- static download_url(url: str, root: str, filename: str | None = None, *, log: bool = True) str [source]
将
url
的内容下载到指定的文件夹root
。
- property num_rows
数据集的行数。
- materialize(device: torch.device | None = None, path: str | None = None, col_stats: dict[str, dict[StatType, Any]] | None = None) Dataset [source]
将数据集具体化为张量表示。从这一点开始,数据集应被视为只读。
- Parameters:
device (torch.device, optional) – 加载
TensorFrame
对象的设备。 (默认:None
)path (str, optional) – 如果指定了路径并且存在缓存文件,这将尝试加载保存的
TensorFrame
对象和col_stats
。如果指定了path
但缓存文件不存在,这将执行实例化并保存TensorFrame
对象和col_stats
到path
。如果path
是None
,这将实例化数据集而不进行缓存。(默认值:None
)provided (用户提供的col_stats。如果没有) –
统计 (的) –
(默认 (从数据框本身计算得出。) –
None
)
- property tensor_frame: TensorFrame
返回数据集的
TensorFrame
。
- index_select(index: Union[int, list[int], range, slice, Tensor]) Dataset [source]
返回从指定索引
index
开始的数据集子集。
- get_split(split: str) Dataset [source]
返回属于给定训练分割的数据集子集(如
split_col
中所定义)。- Parameters:
split (str) – 分割名称(可以是
"train"
,"val"
, 或"test"
.
- split() tuple[torch_frame.data.dataset.Dataset, torch_frame.data.dataset.Dataset, torch_frame.data.dataset.Dataset] [source]
将数据集分割为训练集、验证集和测试集。