paddlespeech.text.models.ernie_linear.dataset 模块

class paddlespeech.text.models.ernie_linear.dataset.PuncDataset(train_path, vocab_path, punc_path, seq_len=100)[来源]

基础： Dataset

方法

加载词汇表
预处理

load_vocab(vocab_path, extra_word_list=[], encoding='utf-8')[来源]

preprocess(txt_seqs: list)[来源]

class paddlespeech.text.models.ernie_linear.dataset.PuncDatasetFromErnieTokenizer(train_path, punc_path, pretrained_token='ernie-1.0', seq_len=100)[来源]

基础： Dataset

方法

加载词汇表
预处理

load_vocab(vocab_path, extra_word_list=[], encoding='utf-8')[来源]

preprocess(txt_seqs: list)[来源]