基础分词器¶

class torchtune.modules.tokenizers.BaseTokenizer(*args, **kwargs)[source]¶

实现了encode和decode方法的抽象令牌编码模型。参见SentencePieceBaseTokenizer和 TikTokenBaseTokenizer以了解此协议的示例实现。

decode(token_ids: List[int], **kwargs: Dict[str, Any]) → str[source]¶

给定一个令牌ID列表，返回解码后的文本，可选择包括特殊令牌。

Parameters:

Returns:

解码后的文本。

Return type:

str

encode(text: str, **kwargs: Dict[str, Any]) → List[int][source]¶

给定一个字符串，返回编码后的标记ID列表。

Parameters:

Returns:

编码后的令牌ID列表。

Return type:

列表[int]