音频样本

语音合成的主要过程包括：

训练Tacotron2、TransformerTTS和WaveFlow时，默认使用英语单语者TTS数据集LJSpeech。然而，训练SpeedySpeech、FastSpeech2和ParallelWaveGAN时，默认使用中文单语者数据集CSMSC。

在未来， PaddleSpeech TTS 将主要使用中文TTS数据集作为默认示例。

在这里，我们将显示三种类型的音频样本：

分析/合成

从真实光谱图生成的音频样本，使用了编码解码器。

LJSpeech(English)

文本	GT	WaveFlow
打印，在我们目前关注的唯一意义上，实际上与展览中代表的大多数甚至所有艺术和工艺都有所不同
相对现代。
尽管中国人在荷兰的木匠之前用浮雕木块制作印刷品已经有几个世纪，但通过类似的过程
制作了块书，块书是真正印刷书籍的直接前身
十五世纪中叶可视为活字印刷艺术的发明。

CSMSC(Chinese)

由TTS系统生成的音频样本。文本首先通过文本到谱图模型转化为谱图，然后谱图由声码器转换为原始音频。

LJSpeech(English)

CSMSC(Chinese)

文本	SpeedySpeech + ParallelWaveGAN	FastSpeech2 + ParallelWaveGAN
凯莫瑞安联合体的经济崩溃，迫在眉睫。
对于所有想要离开那片废土，去寻找更美好生活的人来说。
克哈，是你们所有人安全的港湾。
为了保护尤摩扬人民不受异虫的残害，我所做的，比他们自己的领导委员会都多。
无论他们如何诽谤我，我将继续为所有泰伦人的最大利益，而努力奋斗。
身为你们的元首，我带领泰伦人实现了人类统治领地和经济的扩张。
我们将继续成长，用行动回击那些只会说风凉话，不愿意和我们相向而行的害群之马。
帝国武装力量，无数的优秀儿女，正时刻守卫着我们的家园大门，但是他们孤木难支。
凡是今天应征入伍者，所获的所有刑罚罪责，减半。

PaddleSpeech 还支持多说话人文本转语音（TTS），我们提供由 FastSpeech2 + ParallelWaveGAN 生成的音频示例，我们使用 AISHELL-3 多说话人 TTS 数据集。每一行是不同的人。

在我们的 FastSpeech2 中，我们可以控制 duration、pitch 和 energy。

我们在这里提供了持续时间控制的音频示例。 duration 指的是音素的持续时间，当我们减少持续时间时，音频的速度会增加，而当我们增加 duration 时，音频的速度会减少。

句子中不同音素的duration可以具有不同的比例（当你想放慢一个词而保持句子中其他词的速度时）。在这里，我们使用不同音素的固定比例来控制音频的speed。

FastSpeech2中的持续时间控制可以控制音频的速度，同时保持音调。（在某些语音工具中，提高速度会提高音调，反之亦然。）

我们在这里提供音调控制的音频演示。

当我们将一句话的音高设置为平均值，并将tones的音素设置为1时，我们将获得一种robot-style音色。

当我们提高成年女性的音高（以固定比例），我们将得到一个 child-style 音色。

句子中不同音素的 pitch 也可以具有不同的比例。

正常音频位于上一张表的第二列。