基础分词器¶ class torchtune.modules.tokenizers.BaseTokenizer(*args, **kwargs)[source]¶ 实现了encode和decode方法的抽象令牌编码模型。 参见SentencePieceBaseTokenizer和 TikTokenBaseTokenizer以了解此协议的示例实现。 decode(token_ids: List[int], **kwargs: Dict[str, Any]) → str[source]¶ 给定一个令牌ID列表,返回解码后的文本,可选择包括特殊令牌。 Parameters: token_ids (List[int]) – 要解码的token id列表。 **kwargs (Dict[str, Any]) – kwargs. Returns: 解码后的文本。 Return type: str encode(text: str, **kwargs: Dict[str, Any]) → List[int][source]¶ 给定一个字符串,返回编码后的标记ID列表。 Parameters: text (str) – 要编码的文本。 **kwargs (Dict[str, Any]) – kwargs. Returns: 编码后的令牌ID列表。 Return type: 列表[int]