nemo_utils

支持Nemo模型的工具。

类

基于Nemo SentencePieceTokenizer的自定义分词器。

函数

`get_nemo_tokenizer`	从Nemo分词器配置构建分词器。
`get_tokenzier`	从解码的NEMO权重目录加载分词器。

class CustomSentencePieceTokenizer

基础：PreTrainedTokenizer

基于Nemo SentencePieceTokenizer的自定义分词器。

此SentencePieceTokenizer的扩展是为了使API与HuggingFace的tokenizers保持一致，以便在examples/tensorrt_llm/scripts/nemo_example.sh脚本中运行评估工具。

batch_encode_plus(texts, **kwargs)

为评估脚本引入的方法，以提高HF分词器API的一致性。

注意：kwargs 被忽略。

decode(ids, **kwargs)

为评估脚本引入的HF分词器API一致性方法。

注意：kwargs 被忽略。

encode(text, return_tensors=None, max_length=None, **kwargs)

为评估脚本引入的方法，以提高HF tokenizers API的一致性。

注意：除了return_tensors和max_length之外的其他kwargs参数将被忽略。

get_nemo_tokenizer(tokenizer_cfg_path)

从Nemo分词器配置构建分词器。

get_tokenzier(tokenizer_dir_or_path)

从解码的NEMO权重目录加载分词器。