paddlespeech.t2s.datasets.preprocess_utils模块
- paddlespeech.t2s.datasets.preprocess_utils.compare_duration_and_mel_length(sentences, utt, mel)[来源]
检查持续时间错误,纠正句子[utt](如果可能),否则弹出句子[utt] 参数:
句子 (字典): sentences[utt] = [phones_list ,durations_list]
utt (字符串): utt_id
mel (np.ndarry): 特征 (num_frames, n_mels)
- paddlespeech.t2s.datasets.preprocess_utils.get_input_token(sentence, output_path, dataset='baker')[来源]
从训练数据中获取手机设置并保存
参数:句子 (字典): 句子: {'utt': ([字符], [整数])} 输出路径 (字符串或路径): 保存 phone_id_map 的路径
- paddlespeech.t2s.datasets.preprocess_utils.get_phn_dur(file_name)[来源]
读取 MFA 持续时间.txt
参数:file_name (str or Path): gen_duration_from_textgrid.py 结果的路径
- Returns:
字典: 句子: {'utt': ([char], [int])}
- paddlespeech.t2s.datasets.preprocess_utils.get_phones_tones(sentence, phones_output_path, tones_output_path, dataset='baker')[来源]
从训练数据中获取电话设置和音调设置并保存
Args:句子 (Dict): 句子: {'utt': ([char], [int])} phones_output_path (str or path): 保存 phone_id_map 的路径 tones_output_path (str or path): 保存 tone_id_map 的路径
- paddlespeech.t2s.datasets.preprocess_utils.get_sentences_svs(file_name, dataset: str = 'opencpop', sample_rate: int = 24000, n_shift: int = 128)[来源]
读取标签文件
参数:
file_name (str or Path): gen_duration_from_textgrid.py结果的路径 dataset (str): 数据集名称
- Returns:
字典:句子的相关信息,包括 [电话ID(整数)]、[电话框架(整数)]、[备注ID(整数)]、[备注时长(浮点数)]、[是否含糊(整数)]、文本(字符串)、说话者姓名(字符串)
- paddlespeech.t2s.datasets.preprocess_utils.merge_silence(sentence)[来源]
合并静默
参数:
句子 (字典): 句子: {'utt': (([字符], [整数]), 字符串)}