paddlespeech.t2s.datasets.preprocess_utils模块

paddlespeech.t2s.datasets.preprocess_utils.compare_duration_and_mel_length(sentences, utt, mel)[来源]

检查持续时间错误,纠正句子[utt](如果可能),否则弹出句子[utt] 参数:

句子 (字典): sentences[utt] = [phones_list ,durations_list]
utt (字符串): utt_id
mel (np.ndarry): 特征 (num_frames, n_mels)

paddlespeech.t2s.datasets.preprocess_utils.get_input_token(sentence, output_path, dataset='baker')[来源]

从训练数据中获取手机设置并保存
参数:

句子 (字典): 句子: {'utt': ([字符], [整数])} 输出路径 (字符串或路径): 保存 phone_id_map 的路径

paddlespeech.t2s.datasets.preprocess_utils.get_phn_dur(file_name)[来源]

读取 MFA 持续时间.txt
参数:

file_name (str or Path): gen_duration_from_textgrid.py 结果的路径

Returns:

字典: 句子: {'utt': ([char], [int])}

paddlespeech.t2s.datasets.preprocess_utils.get_phones_tones(sentence, phones_output_path, tones_output_path, dataset='baker')[来源]

从训练数据中获取电话设置和音调设置并保存

Args:

句子 (Dict): 句子: {'utt': ([char], [int])} phones_output_path (str or path): 保存 phone_id_map 的路径 tones_output_path (str or path): 保存 tone_id_map 的路径

paddlespeech.t2s.datasets.preprocess_utils.get_sentences_svs(file_name, dataset: str = 'opencpop', sample_rate: int = 24000, n_shift: int = 128)[来源]

读取标签文件

参数:

file_name (str or Path): gen_duration_from_textgrid.py结果的路径 dataset (str): 数据集名称

Returns:

字典:句子的相关信息,包括 [电话ID(整数)]、[电话框架(整数)]、[备注ID(整数)]、[备注时长(浮点数)]、[是否含糊(整数)]、文本(字符串)、说话者姓名(字符串)

paddlespeech.t2s.datasets.preprocess_utils.get_spk_id_map(speaker_set, output_path)[来源]
paddlespeech.t2s.datasets.preprocess_utils.merge_silence(sentence)[来源]

合并静默

参数:

句子 (字典): 句子: {'utt': (([字符], [整数]), 字符串)}

paddlespeech.t2s.datasets.preprocess_utils.note2midi(notes: List[str]) List[str][来源]

将备注字符串转换为备注ID,例如: ["C1"] -> [24]

Args:

notes (List[str]): 笔记字符串的列表

Returns:

List[str]:备忘录ID的列表

paddlespeech.t2s.datasets.preprocess_utils.time2frame(times: List[float], sample_rate: int = 24000, n_shift: int = 128) List[int][来源]

将音素持续时间(s)转换为帧

Args:

times (List[float]): 音素持续时间 sample_rate (int, optional): 采样率。默认为24000。 n_shift (int, optional): 帧移。默认为128。

Returns:

List[int]:帧的音素持续时间