nemo_utils

支持Nemo模型的工具。

CustomSentencePieceTokenizer

基于Nemo SentencePieceTokenizer的自定义分词器。

函数

get_nemo_tokenizer

从Nemo分词器配置构建分词器。

get_tokenzier

从解码的NEMO权重目录加载分词器。

class CustomSentencePieceTokenizer

基础:PreTrainedTokenizer

基于Nemo SentencePieceTokenizer的自定义分词器。

此SentencePieceTokenizer的扩展是为了使API与HuggingFace的tokenizers保持一致,以便在examples/tensorrt_llm/scripts/nemo_example.sh脚本中运行评估工具。

__init__(*args, **kwargs)

构造函数方法,额外检查非传统SentencePieceTokenizer变体。

batch_decode(ids, **kwargs)

为评估脚本引入的方法,以提高HF分词器API的一致性。

batch_encode_plus(texts, **kwargs)

为评估脚本引入的方法,以提高HF分词器API的一致性。

注意:kwargs 被忽略。

decode(ids, **kwargs)

为评估脚本引入的HF分词器API一致性方法。

注意:kwargs 被忽略。

encode(text, return_tensors=None, max_length=None, **kwargs)

为评估脚本引入的方法,以提高HF tokenizers API的一致性。

注意:除了return_tensors和max_length之外的其他kwargs参数将被忽略。

property eos_token

结束标记。

property eos_token_id

eos_token_id。

property pad_token

填充标记。

property pad_token_id

pad_token_id.

get_nemo_tokenizer(tokenizer_cfg_path)

从Nemo分词器配置构建分词器。

参考get_nmt_tokenizer函数的逻辑,了解如何在Nemo中实例化分词器,参见 https://github.com/NVIDIA/NeMo/blob/main/nemo/collections/nlp/modules/common/tokenizer_utils.py

Parameters:

tokenizer_cfg_path (str) –

get_tokenzier(tokenizer_dir_or_path)

从解码的NEMO权重目录加载分词器。

Parameters:

tokenizer_dir_or_path (Path) –

Return type:

预训练分词器