torch_frame.data.Dataset
- class Dataset(df: DataFrame, col_to_stype: dict[str, torch_frame.stype], target_col: str | None = None, split_col: str | None = None, col_to_sep: str | None | dict[str, str | None] = None, col_to_text_embedder_cfg: dict[str, TextEmbedderConfig] | TextEmbedderConfig | None = None, col_to_text_tokenizer_cfg: dict[str, TextTokenizerConfig] | TextTokenizerConfig | None = None, col_to_image_embedder_cfg: dict[str, ImageEmbedderConfig] | ImageEmbedderConfig | None = None, col_to_time_format: str | None | dict[str, str | None] = None)[来源]
基类:
ABC用于创建表格数据集的基类。
- Parameters:
df (DataFrame) – 表格数据框。
col_to_stype (Dict[str, torch_frame.stype]) – 一个将数据框中的每一列映射到语义类型的字典。
split_col (str, optional) – 存储预定义拆分信息的列。该列应仅包含
0,1, 或2。(默认值:None)。col_to_sep (Union[str, Dict[str, Optional[str]]]) – 一个字典或字符串/
None,用于指定多分类列的分隔符/定界符。如果指定了字符串/None,则所有多分类列将使用相同的分隔符。请注意,如果指定了None,则假定多分类以list的形式给出。如果给出了字典,则我们为每列使用指定的分隔符。(默认值:None)col_to_text_embedder_cfg (TextEmbedderConfig 或 dict, 可选) – 一个文本嵌入配置或配置字典,指定将文本嵌入为向量的
text_embedder和指定text_embedder的迷你批次大小的batch_size。(默认值:None)col_to_text_tokenizer_cfg (TextTokenizerConfig 或 dict, 可选) – 一个文本分词器配置或配置字典,指定将句子映射到张量字典列表的
text_tokenizer。列表中的每个元素对应于每个句子,键是模型的输入参数,如input_ids,值是张量,如标记。batch_size指定text_tokenizer的小批量大小。(默认值:None)col_to_time_format (Union[str, Dict[str, Optional[str]]], optional) – 一个 字典或字符串,用于指定时间戳列的格式。有关格式的更多信息,请参阅strfttime文档。 如果指定了字符串,则所有时间戳列将使用相同的格式。如果提供了字典,我们将为每列使用不同的格式。 如果未指定,将使用pandas的内部to_datetime函数自动解析时间列。 (默认值:
None)
- static download_url(url: str, root: str, filename: str | None = None, *, log: bool = True) str[source]
将
url的内容下载到指定的文件夹root。
- property num_rows
数据集的行数。
- materialize(device: torch.device | None = None, path: str | None = None, col_stats: dict[str, dict[StatType, Any]] | None = None) Dataset[source]
将数据集具体化为张量表示。从这一点开始,数据集应被视为只读。
- Parameters:
device (torch.device, optional) – 加载
TensorFrame对象的设备。 (默认:None)path (str, optional) – 如果指定了路径并且存在缓存文件,这将尝试加载保存的
TensorFrame对象和col_stats。如果指定了path但缓存文件不存在,这将执行实例化并保存TensorFrame对象和col_stats到path。如果path是None,这将实例化数据集而不进行缓存。(默认值:None)provided (用户提供的col_stats。如果没有) –
统计 (的) –
(默认 (从数据框本身计算得出。) –
None)
- property tensor_frame: TensorFrame
返回数据集的
TensorFrame。
- index_select(index: Union[int, list[int], range, slice, Tensor]) Dataset[source]
返回从指定索引
index开始的数据集子集。
- get_split(split: str) Dataset[source]
返回属于给定训练分割的数据集子集(如
split_col中所定义)。- Parameters:
split (str) – 分割名称(可以是
"train","val", 或"test".
- split() tuple[torch_frame.data.dataset.Dataset, torch_frame.data.dataset.Dataset, torch_frame.data.dataset.Dataset][source]
将数据集分割为训练集、验证集和测试集。