PaddleSpeech
PaddleSpeech是什么?
PaddleSpeech是一个基于PaddlePaddle平台的开源工具包,专注于语音识别(自动语音识别,ASR)和语音合成(TTS)这两项重要任务,包含涉及先进和有影响力模型的模块。
PaddleSpeech能做什么?
语音转文本
PaddleSpeech ASR 主要由以下组件组成:
模型的实现和常用的神经网络层。
数据集抽象和常见数据预处理流程。
准备运行的实验。
PaddleSpeech ASR为您提供了完整的ASR管道,包括:
数据准备
建立词汇
计算倒谱均值和方差归一化 (CMVN)
特征提取
线性
fbank(也支持kaldi特征)
mfcc
声学模型
Deepspeech2(流式和非流式)
变压器 (流式和非流式)
变换器(流式和非流式)
解码器
ctc 贪婪搜索 (用于 DeepSpeech2、Transformer 和 Conformer)
ctc beam search(用于DeepSpeech2、Transformer和Conformer)
注意解码(用于变换器和一致体)
注意重评分(用于变换器和一致器)
语音转文本可以帮助您非常简单地训练ASR模型。
文本转语音
TTS主要由以下组件组成:
模型的实现和常用的神经网络层。
数据集抽象和常见数据预处理流程。
准备运行的实验。
PaddleSpeech TTS 为您提供完整的 TTS 流水线,包括:
文本前端
基于规则的中文前端。
声学模型
快语音2
快速语音
变换器文本到语音
Tacotron2
声码器
多频带MelGAN
并行 WaveGAN
波流
语音克隆
从说话人验证到多说话人文本到语音合成的迁移学习
GE2E
文本转语音帮助您通过简单的命令训练 TTS 模型。