音频样本
语音合成的主要过程包括:
通过
text frontend模块将原始文本转换为字符/音素。通过
Acoustic models将字符/音素转换为声学特征,例如线性谱图、梅尔谱图、LPC特征等。通过
Vocoders将声学特征转换为波形。
训练Tacotron2、TransformerTTS和WaveFlow时,默认使用英语单语者TTS数据集LJSpeech。然而,训练SpeedySpeech、FastSpeech2和ParallelWaveGAN时,默认使用中文单语者数据集CSMSC。
在未来, PaddleSpeech TTS 将主要使用中文TTS数据集作为默认示例。
在这里,我们将显示三种类型的音频样本:
分析/合成(真实光谱图 + 声码器)
TTS (声学模型 + 语音合成器)
带有/没有文本前端的中文TTS(主要是声调变化)
分析/合成
从真实光谱图生成的音频样本,使用了编码解码器。
LJSpeech(English)| 文本 | GT | WaveFlow |
|---|---|---|
| 打印,在我们目前关注的唯一意义上,实际上与展览中代表的大多数甚至所有艺术和工艺都有所不同 | ||
| 相对现代。 |
audio 元素。
|
audio 元素。
|
| 尽管中国人在荷兰的木匠之前用浮雕木块制作印刷品已经有几个世纪,但通过类似的过程 |
audio element.
|
audio element.
|
| 制作了块书,块书是真正印刷书籍的直接前身 |
audio element.
|
audio element.
|
| 十五世纪中叶可视为活字印刷艺术的发明。 |
audio element.
|
audio element.
|
CSMSC(Chinese)
| 文字 | GT (转换为24k) | ParallelWaveGAN |
|---|---|---|
| 昨日,这名“伤者”与医生全部被警方依法刑事拘留 |
audio element.
|
audio element.
|
| 钱伟长想到上海来办学校是经过深思熟虑的。 |
audio element.
|
audio element.
|
| 她见我一进门就骂,吃饭时也骂,骂得我抬不起头。 |
audio element.
|
audio element.
|
| 李述德在离开之前,只说了一句“柱驼杀父亲了” |
audio element.
|
audio element.
|
| 这种车票和保险单捆绑出售属于重复性购买。 |
audio element.
|
audio element.
|
文本转语音
由TTS系统生成的音频样本。文本首先通过文本到谱图模型转化为谱图,然后谱图由声码器转换为原始音频。
LJSpeech(English)| 文本 | TransformerTTS + WaveFlow | Tacotron2 + WaveFlow |
|---|---|---|
| 生活就像一盒巧克力,你永远不知道你会得到什么。 |
audio 元素。
|
audio 元素。
|
| 有了巨大的力量,必然会伴随巨大的责任。 |
audio 元素。
|
audio 元素。
|
| 生存还是毁灭,这是个问题。 |
audio 元素。
|
audio 元素。
|
| 人可以被毁灭,但不能被打败。 |
audio element.
|
audio element.
|
| 不要因为一次的挫折而放弃你所决心要努力的目标。 |
audio element.
|
audio element.
|
| 死亡只是生命的一部分,是我们所有人注定要经历的事情。 |
audio 元素。
|
audio 元素。
|
| 我认为用语言赢得战争很难。 |
audio 元素。
|
audio 元素。
|
| 不要与意志坚定的人争论,因为他们可能会改变事实! |
audio 元素。
|
audio 元素。
|
| 我爱你三千遍。 |
audio 元素。
|
audio 元素。
|
CSMSC(Chinese)
| 文本 | SpeedySpeech + ParallelWaveGAN | FastSpeech2 + ParallelWaveGAN |
|---|---|---|
| 凯莫瑞安联合体的经济崩溃,迫在眉睫。 |
audio element.
|
audio element.
|
| 对于所有想要离开那片废土,去寻找更美好生活的人来说。 |
audio element.
|
audio element.
|
| 克哈,是你们所有人安全的港湾。 |
audio element.
|
audio element.
|
| 为了保护尤摩扬人民不受异虫的残害,我所做的,比他们自己的领导委员会都多。 |
audio element.
|
audio element.
|
| 无论他们如何诽谤我,我将继续为所有泰伦人的最大利益,而努力奋斗。 |
audio element.
|
audio element.
|
| 身为你们的元首,我带领泰伦人实现了人类统治领地和经济的扩张。 |
audio element.
|
audio element.
|
| 我们将继续成长,用行动回击那些只会说风凉话,不愿意和我们相向而行的害群之马。 |
audio element.
|
audio element.
|
| 帝国武装力量,无数的优秀儿女,正时刻守卫着我们的家园大门,但是他们孤木难支。 |
audio element.
|
audio element.
|
| 凡是今天应征入伍者,所获的所有刑罚罪责,减半。 |
audio element.
|
audio element.
|
| 快速语音合成2-变压器 + 并行波GAN |
|---|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
|
|
audio 元素。
|
audio 元素。
|
多说话人文本转语音
PaddleSpeech 还支持多说话人文本转语音(TTS),我们提供由 FastSpeech2 + ParallelWaveGAN 生成的音频示例,我们使用 AISHELL-3 多说话人 TTS 数据集。每一行是不同的人。
| 目标音色 | 生成的 |
|---|---|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
FastSpeech2中的样式控制
在我们的 FastSpeech2 中,我们可以控制 duration、pitch 和 energy。
我们在这里提供了持续时间控制的音频示例。 duration 指的是音素的持续时间,当我们减少持续时间时,音频的速度会增加,而当我们增加 duration 时,音频的速度会减少。
句子中不同音素的duration可以具有不同的比例(当你想放慢一个词而保持句子中其他词的速度时)。在这里,我们使用不同音素的固定比例来控制音频的speed。
FastSpeech2中的持续时间控制可以控制音频的速度,同时保持音调。(在某些语音工具中,提高速度会提高音调,反之亦然。)
| 速度(0.8倍) | 速度(1倍) | 速度(1.2倍) |
|---|---|---|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
| 机器人 | 儿童 |
|---|---|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
带有/不带文本前端的中文语音合成
我们在 PaddleSpeech TTS 中提供一个完整的中文文本前端模块。 Text Normalization 和 G2P 是文本前端中最重要的模块,我们假设文本已经归一化,主要在这里比较 G2P 模块。
我们在这里使用 FastSpeech2 + ParallelWaveGAN。
| 文本 | 带文本前端 | 不带文本前端 |
|---|---|---|
| 他只是一个纸老虎。 |
audio element.
|
audio element.
|
| 手表厂有五种好产品。 |
audio element.
|
audio element.
|
| 老板的轿车需要保养。 |
audio element.
|
audio element.
|
| 我们所有人都好喜欢你呀。 |
audio element.
|
audio element.
|
| 岂有此理。 |
audio element.
|
audio element.
|
| 虎骨酒多少钱一瓶。 |
audio element.
|
audio element.
|
| 这件事情需要冷处理。 |
audio element.
|
audio element.
|
| 这个老奶奶是个大喇叭。 |
audio element.
|
audio element.
|
| 我喜欢说相声。 |
audio element.
|
audio element.
|
| 有一天,我路过了一栋楼。 |
audio element.
|
audio element.
|
针对CSMSC微调FastSpeech2
针对CSMSC数据集的tts_finetune/tts3微调演示。
在对CSMSC进行微调时,我们认为 Freeze encoder > Non Frozen > Freeze encoder && duration_predictor 对音频质量的影响。
audio element.
| 冻结方法 | train_num=10, bs=10, epoch=100, lr=1e-4 | train_num=18, bs=18, epoch=100, lr=1e-4 | train_num=97, bs=64, epoch=100, lr=1e-4 | train_num=196, bs=64, epoch=100, lr=1e-4 |
|---|---|---|---|---|
| 未冻结 |
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
| 冻结编码器 |
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|
| 冻结编码器 && 持续预测器 |
audio 元素。
|
audio 元素。
|
audio 元素。
|
audio 元素。
|