torch_frame.config.TextTokenizerConfig

class TextTokenizerConfig(text_tokenizer: Callable[[list[str]], TextTokenizationOutputs], batch_size: int | None = None)[source]

基础类：object

文本分词器，将字符串/句子列表映射到MultiNestedTensor的字典中。

Parameters:

text_tokenizer (callable) – 一个可调用的文本分词器，它接收一个字符串列表作为输入，并输出一个字典列表。每个字典包含作为文本编码器模型参数的键，以及对应的张量值，如标记和注意力掩码。
batch_size (int, optional) – 用于分词时的批量大小。如果设置为 None，文本嵌入将以全批量的方式获取。（默认值：None）