torch_frame.data.DataFrameToTensorFrameConverter

class DataFrameToTensorFrameConverter(col_to_stype: dict[str, torch_frame.stype], col_stats: dict[str, dict[StatType, Any]], target_col: str | None = None, col_to_sep: dict[str, str | None] | None = None, col_to_text_embedder_cfg: dict[str, TextEmbedderConfig] | None = None, col_to_text_tokenizer_cfg: dict[str, TextTokenizerConfig] | None = None, col_to_image_embedder_cfg: dict[str, ImageEmbedderConfig] | None = None, col_to_time_format: dict[str, str | None] = None)[来源]

基础类:object

一个将数据框转换为TensorFrame的转换器。

请注意,此对象应在Dataset对象内部通过dataset.convert_to_tensor_frame构建。

Parameters:
  • col_to_stype (Dict[str, torch_frame.stype]) – 一个字典,将数据框中的每一列映射到一个语义类型。

  • col_stats (Dict[str, Dict[StatType, Any]]) – 一个将列名映射到统计信息的字典。可通过 dataset.col_stats 获取。

  • target_col (str, optional) – 用作目标的列。 (默认: None)

  • col_to_sep (Dict[str, Optional[str]], optional) – 一个字典,用于指定多分类列的分隔符/定界符。(默认值:None

  • col_to_text_embedder_cfg (Dict[str, TextEmbedderConfig, optional]) – 一个配置字典,指定将文本嵌入向量的text_embedder和指定text_embedder的迷你批次大小的batch_size。(默认值:None

  • col_to_text_tokenizer_cfg (Dict[str, TextTokenizerConfig], optional) – 一个文本分词器配置的字典,指定 text_tokenizer 将句子映射为张量字典的列表。列表中的每个元素对应每个句子, 键是模型的输入参数,如 input_ids,值是张量,如标记。batch_size 指定 text_tokenizer 的小批量大小。(默认值:None

  • col_to_time_format (Dict[str, Optional[str]], optional) – 一个字典,用于指定时间戳列的时间格式。有关格式的更多信息,请参见strfttime。如果指定了一个字符串,则所有时间戳列将使用相同的格式。如果提供了一个字典,我们将为每列使用不同的格式。如果未指定,将使用Pandas内部的to_datetime函数自动解析时间列。(默认值: None)