Shortcuts

基础分词器

class torchtune.modules.tokenizers.BaseTokenizer(*args, **kwargs)[source]

实现了encodedecode方法的抽象令牌编码模型。 参见SentencePieceBaseTokenizerTikTokenBaseTokenizer以了解此协议的示例实现。

decode(token_ids: List[int], **kwargs: Dict[str, Any]) str[source]

给定一个令牌ID列表,返回解码后的文本,可选择包括特殊令牌。

Parameters:
  • token_ids (List[int]) – 要解码的token id列表。

  • **kwargs (Dict[str, Any]) – kwargs.

Returns:

解码后的文本。

Return type:

str

encode(text: str, **kwargs: Dict[str, Any]) List[int][source]

给定一个字符串,返回编码后的标记ID列表。

Parameters:
  • text (str) – 要编码的文本。

  • **kwargs (Dict[str, Any]) – kwargs.

Returns:

编码后的令牌ID列表。

Return type:

列表[int]