torch_frame.data.DataFrameToTensorFrameConverter
- class DataFrameToTensorFrameConverter(col_to_stype: dict[str, torch_frame.stype], col_stats: dict[str, dict[StatType, Any]], target_col: str | None = None, col_to_sep: dict[str, str | None] | None = None, col_to_text_embedder_cfg: dict[str, TextEmbedderConfig] | None = None, col_to_text_tokenizer_cfg: dict[str, TextTokenizerConfig] | None = None, col_to_image_embedder_cfg: dict[str, ImageEmbedderConfig] | None = None, col_to_time_format: dict[str, str | None] = None)[来源]
基础类:
object一个将数据框转换为
TensorFrame的转换器。请注意,此对象应在
Dataset对象内部通过dataset.convert_to_tensor_frame构建。- Parameters:
col_to_stype (Dict[str,
torch_frame.stype]) – 一个字典,将数据框中的每一列映射到一个语义类型。col_stats (Dict[str, Dict[StatType, Any]]) – 一个将列名映射到统计信息的字典。可通过
dataset.col_stats获取。col_to_sep (Dict[str, Optional[str]], optional) – 一个字典,用于指定多分类列的分隔符/定界符。(默认值:
None)col_to_text_embedder_cfg (Dict[str, TextEmbedderConfig, optional]) – 一个配置字典,指定将文本嵌入向量的
text_embedder和指定text_embedder的迷你批次大小的batch_size。(默认值:None)col_to_text_tokenizer_cfg (Dict[str, TextTokenizerConfig], optional) – 一个文本分词器配置的字典,指定
text_tokenizer将句子映射为张量字典的列表。列表中的每个元素对应每个句子, 键是模型的输入参数,如input_ids,值是张量,如标记。batch_size指定text_tokenizer的小批量大小。(默认值:None)col_to_time_format (Dict[str, Optional[str]], optional) – 一个字典,用于指定时间戳列的时间格式。有关格式的更多信息,请参见strfttime。如果指定了一个字符串,则所有时间戳列将使用相同的格式。如果提供了一个字典,我们将为每列使用不同的格式。如果未指定,将使用Pandas内部的to_datetime函数自动解析时间列。(默认值:
None)