torch_frame.data.DataFrameToTensorFrameConverter

class DataFrameToTensorFrameConverter(col_to_stype: dict[str, torch_frame.stype], col_stats: dict[str, dict[StatType, Any]], target_col: str | None = None, col_to_sep: dict[str, str | None] | None = None, col_to_text_embedder_cfg: dict[str, TextEmbedderConfig] | None = None, col_to_text_tokenizer_cfg: dict[str, TextTokenizerConfig] | None = None, col_to_image_embedder_cfg: dict[str, ImageEmbedderConfig] | None = None, col_to_time_format: dict[str, str | None] = None)[来源]

基础类：object

一个将数据框转换为TensorFrame的转换器。

请注意，此对象应在Dataset对象内部通过dataset.convert_to_tensor_frame构建。

Parameters:

col_to_stype (Dict[str, torch_frame.stype]) – 一个字典，将数据框中的每一列映射到一个语义类型。
col_stats (Dict[str, Dict[StatType, Any]]) – 一个将列名映射到统计信息的字典。可通过 dataset.col_stats 获取。
target_col (str, optional) – 用作目标的列。 (默认: None)
col_to_sep (Dict[str, Optional[str]], optional) – 一个字典，用于指定多分类列的分隔符/定界符。（默认值：None）
col_to_text_embedder_cfg (Dict[str, TextEmbedderConfig, optional]) – 一个配置字典，指定将文本嵌入向量的text_embedder和指定text_embedder的迷你批次大小的batch_size。（默认值：None）
col_to_text_tokenizer_cfg (Dict[str, TextTokenizerConfig], optional) – 一个文本分词器配置的字典，指定 text_tokenizer 将句子映射为张量字典的列表。列表中的每个元素对应每个句子，键是模型的输入参数，如 input_ids，值是张量，如标记。batch_size 指定 text_tokenizer 的小批量大小。（默认值：None）
col_to_time_format (Dict[str, Optional[str]], optional) – 一个字典，用于指定时间戳列的时间格式。有关格式的更多信息，请参见strfttime。如果指定了一个字符串，则所有时间戳列将使用相同的格式。如果提供了一个字典，我们将为每列使用不同的格式。如果未指定，将使用Pandas内部的to_datetime函数自动解析时间列。(默认值: None)