torch_frame.config.TextTokenizerConfig

class TextTokenizerConfig(text_tokenizer: Callable[[list[str]], TextTokenizationOutputs], batch_size: int | None = None)[source]

基础类:object

文本分词器,将字符串/句子列表映射到MultiNestedTensor的字典中。

Parameters:
  • text_tokenizer (callable) – 一个可调用的文本分词器,它接收一个字符串列表作为输入,并输出一个字典列表。每个字典包含作为文本编码器模型参数的键,以及对应的张量值,如标记和注意力掩码。

  • batch_size (int, optional) – 用于分词时的批量大小。如果设置为 None,文本嵌入将以全批量的方式获取。(默认值:None