paddlespeech.text.models.ernie_linear.dataset 模块

class paddlespeech.text.models.ernie_linear.dataset.PuncDataset(train_path, vocab_path, punc_path, seq_len=100)[来源]

基础: Dataset

方法

加载词汇表

预处理

load_vocab(vocab_path, extra_word_list=[], encoding='utf-8')[来源]
preprocess(txt_seqs: list)[来源]
class paddlespeech.text.models.ernie_linear.dataset.PuncDatasetFromErnieTokenizer(train_path, punc_path, pretrained_token='ernie-1.0', seq_len=100)[来源]

基础: Dataset

方法

加载词汇表

预处理

load_vocab(vocab_path, extra_word_list=[], encoding='utf-8')[来源]
preprocess(txt_seqs: list)[来源]