paddlespeech.t2s.datasets.preprocess_utils模块

paddlespeech.t2s.datasets.preprocess_utils.compare_duration_and_mel_length(sentences, utt, mel)[来源]: 检查持续时间错误，纠正句子[utt]（如果可能），否则弹出句子[utt] 参数：

句子 (字典): sentences[utt] = [phones_list ,durations_list]
utt (字符串): utt_id
mel (np.ndarry): 特征 (num_frames, n_mels)

paddlespeech.t2s.datasets.preprocess_utils.get_input_token(sentence, output_path, dataset='baker')[来源]: 从训练数据中获取手机设置并保存
参数：

句子 (字典): 句子: {'utt': ([字符], [整数])} 输出路径 (字符串或路径): 保存 phone_id_map 的路径

paddlespeech.t2s.datasets.preprocess_utils.get_phn_dur(file_name)[来源]

读取 MFA 持续时间.txt
参数：

file_name (str or Path): gen_duration_from_textgrid.py 结果的路径

Returns:: 字典: 句子: {'utt': ([char], [int])}

paddlespeech.t2s.datasets.preprocess_utils.get_phones_tones(sentence, phones_output_path, tones_output_path, dataset='baker')[来源]: 从训练数据中获取电话设置和音调设置并保存
Args:

句子 (Dict): 句子: {'utt': ([char], [int])} phones_output_path (str or path): 保存 phone_id_map 的路径 tones_output_path (str or path): 保存 tone_id_map 的路径

paddlespeech.t2s.datasets.preprocess_utils.get_sentences_svs(file_name, dataset: str = 'opencpop', sample_rate: int = 24000, n_shift: int = 128)[来源]

读取标签文件

参数：

file_name (str or Path): gen_duration_from_textgrid.py结果的路径 dataset (str): 数据集名称

Returns:: 字典：句子的相关信息，包括 [电话ID（整数）]、[电话框架（整数）]、[备注ID（整数）]、[备注时长（浮点数）]、[是否含糊（整数）]、文本（字符串）、说话者姓名（字符串）

paddlespeech.t2s.datasets.preprocess_utils.get_spk_id_map(speaker_set, output_path)[来源]

paddlespeech.t2s.datasets.preprocess_utils.merge_silence(sentence)[来源]

合并静默

参数：

句子 (字典): 句子: {'utt': (([字符], [整数]), 字符串)}

paddlespeech.t2s.datasets.preprocess_utils.note2midi(notes: List[str]) → List[str][来源]

将备注字符串转换为备注ID，例如: ["C1"] -> [24]

Args:: notes (List[str]): 笔记字符串的列表
Returns:: List[str]：备忘录ID的列表

paddlespeech.t2s.datasets.preprocess_utils.time2frame(times: List[float], sample_rate: int = 24000, n_shift: int = 128) → List[int][来源]

将音素持续时间(s)转换为帧

Args:: times (List[float]): 音素持续时间 sample_rate (int, optional): 采样率。默认为24000。 n_shift (int, optional): 帧移。默认为128。
Returns:: List[int]：帧的音素持续时间