音频样本

语音合成的主要过程包括:

  1. 通过 text frontend 模块将原始文本转换为字符/音素。

  2. 通过 Acoustic models 将字符/音素转换为声学特征,例如线性谱图、梅尔谱图、LPC特征等。

  3. 通过 Vocoders 将声学特征转换为波形。

训练Tacotron2TransformerTTSWaveFlow时,默认使用英语单语者TTS数据集LJSpeech。然而,训练SpeedySpeechFastSpeech2ParallelWaveGAN时,默认使用中文单语者数据集CSMSC

在未来, PaddleSpeech TTS 将主要使用中文TTS数据集作为默认示例。

在这里,我们将显示三种类型的音频样本:

  1. 分析/合成(真实光谱图 + 声码器)

  2. TTS (声学模型 + 语音合成器)

  3. 带有/没有文本前端的中文TTS(主要是声调变化)

分析/合成

从真实光谱图生成的音频样本,使用了编码解码器。

LJSpeech(English)
文本 GT WaveFlow
打印,在我们目前关注的唯一意义上,实际上与展览中代表的大多数甚至所有艺术和工艺都有所不同
相对现代。
尽管中国人在荷兰的木匠之前用浮雕木块制作印刷品已经有几个世纪,但通过类似的过程
制作了块书,块书是真正印刷书籍的直接前身
十五世纪中叶可视为活字印刷艺术的发明。

CSMSC(Chinese)
文字 GT (转换为24k) ParallelWaveGAN
昨日,这名“伤者”与医生全部被警方依法刑事拘留
钱伟长想到上海来办学校是经过深思熟虑的。
她见我一进门就骂,吃饭时也骂,骂得我抬不起头。
李述德在离开之前,只说了一句“柱驼杀父亲了”
这种车票和保险单捆绑出售属于重复性购买。


文本转语音

由TTS系统生成的音频样本。文本首先通过文本到谱图模型转化为谱图,然后谱图由声码器转换为原始音频。

LJSpeech(English)
文本 TransformerTTS + WaveFlow Tacotron2 + WaveFlow
生活就像一盒巧克力,你永远不知道你会得到什么。
有了巨大的力量,必然会伴随巨大的责任。
生存还是毁灭,这是个问题。
人可以被毁灭,但不能被打败。
不要因为一次的挫折而放弃你所决心要努力的目标。
死亡只是生命的一部分,是我们所有人注定要经历的事情。
我认为用语言赢得战争很难。
不要与意志坚定的人争论,因为他们可能会改变事实!
我爱你三千遍。

CSMSC(Chinese)
文本 SpeedySpeech + ParallelWaveGAN FastSpeech2 + ParallelWaveGAN
凯莫瑞安联合体的经济崩溃,迫在眉睫。
对于所有想要离开那片废土,去寻找更美好生活的人来说。
克哈,是你们所有人安全的港湾。
为了保护尤摩扬人民不受异虫的残害,我所做的,比他们自己的领导委员会都多。
无论他们如何诽谤我,我将继续为所有泰伦人的最大利益,而努力奋斗。
身为你们的元首,我带领泰伦人实现了人类统治领地和经济的扩张。
我们将继续成长,用行动回击那些只会说风凉话,不愿意和我们相向而行的害群之马。
帝国武装力量,无数的优秀儿女,正时刻守卫着我们的家园大门,但是他们孤木难支。
凡是今天应征入伍者,所获的所有刑罚罪责,减半。

快速语音合成2-变压器 + 并行波GAN


多说话人文本转语音

PaddleSpeech 还支持多说话人文本转语音(TTS),我们提供由 FastSpeech2 + ParallelWaveGAN 生成的音频示例,我们使用 AISHELL-3 多说话人 TTS 数据集。每一行是不同的人。

目标音色 生成的


FastSpeech2中的样式控制

在我们的 FastSpeech2 中,我们可以控制 durationpitchenergy

我们在这里提供了持续时间控制的音频示例。 duration 指的是音素的持续时间,当我们减少持续时间时,音频的速度会增加,而当我们增加 duration 时,音频的速度会减少。

句子中不同音素的duration可以具有不同的比例(当你想放慢一个词而保持句子中其他词的速度时)。在这里,我们使用不同音素的固定比例来控制音频的speed

FastSpeech2中的持续时间控制可以控制音频的速度,同时保持音调。(在某些语音工具中,提高速度会提高音调,反之亦然。)

速度(0.8倍) 速度(1倍) 速度(1.2倍)


我们在这里提供音调控制的音频演示。

当我们将一句话的音高设置为平均值,并将tones的音素设置为1时,我们将获得一种robot-style音色。

当我们提高成年女性的音高(以固定比例),我们将得到一个 child-style 音色。

句子中不同音素的 pitch 也可以具有不同的比例。

正常音频位于上一张表的第二列。

机器人 儿童