PaddleSpeech

PaddleSpeech是什么？

PaddleSpeech是一个基于PaddlePaddle平台的开源工具包，专注于语音识别（自动语音识别，ASR）和语音合成（TTS）这两项重要任务，包含涉及先进和有影响力模型的模块。

PaddleSpeech ASR 主要由以下组件组成：

PaddleSpeech ASR为您提供了完整的ASR管道，包括：

数据准备
- 建立词汇
- 计算倒谱均值和方差归一化 (CMVN)
- 特征提取
  - 线性
  - fbank（也支持kaldi特征）
  - mfcc
声学模型
- Deepspeech2（流式和非流式）
- 变压器 (流式和非流式)
- 变换器（流式和非流式）
解码器
- ctc 贪婪搜索 (用于 DeepSpeech2、Transformer 和 Conformer)
- ctc beam search（用于DeepSpeech2、Transformer和Conformer）
- 注意解码（用于变换器和一致体）
- 注意重评分（用于变换器和一致器）

语音转文本可以帮助您非常简单地训练ASR模型。

TTS主要由以下组件组成：

PaddleSpeech TTS 为您提供完整的 TTS 流水线，包括：

文本转语音帮助您通过简单的命令训练 TTS 模型。