nemo_utils
支持Nemo模型的工具。
类
基于Nemo SentencePieceTokenizer的自定义分词器。 |
函数
从Nemo分词器配置构建分词器。 |
|
从解码的NEMO权重目录加载分词器。 |
- class CustomSentencePieceTokenizer
基础:
PreTrainedTokenizer基于Nemo SentencePieceTokenizer的自定义分词器。
此SentencePieceTokenizer的扩展是为了使API与HuggingFace的tokenizers保持一致,以便在examples/tensorrt_llm/scripts/nemo_example.sh脚本中运行评估工具。
- __init__(*args, **kwargs)
构造函数方法,额外检查非传统SentencePieceTokenizer变体。
- batch_decode(ids, **kwargs)
为评估脚本引入的方法,以提高HF分词器API的一致性。
- batch_encode_plus(texts, **kwargs)
为评估脚本引入的方法,以提高HF分词器API的一致性。
注意:kwargs 被忽略。
- decode(ids, **kwargs)
为评估脚本引入的HF分词器API一致性方法。
注意:kwargs 被忽略。
- encode(text, return_tensors=None, max_length=None, **kwargs)
为评估脚本引入的方法,以提高HF tokenizers API的一致性。
注意:除了return_tensors和max_length之外的其他kwargs参数将被忽略。
- property eos_token
结束标记。
- property eos_token_id
eos_token_id。
- property pad_token
填充标记。
- property pad_token_id
pad_token_id.
- get_nemo_tokenizer(tokenizer_cfg_path)
从Nemo分词器配置构建分词器。
参考get_nmt_tokenizer函数的逻辑,了解如何在Nemo中实例化分词器,参见 https://github.com/NVIDIA/NeMo/blob/main/nemo/collections/nlp/modules/common/tokenizer_utils.py。
- Parameters:
tokenizer_cfg_path (str) –
- get_tokenzier(tokenizer_dir_or_path)
从解码的NEMO权重目录加载分词器。
- Parameters:
tokenizer_dir_or_path (Path) –
- Return type:
预训练分词器