PaddleSpeech

PaddleSpeech是什么?

PaddleSpeech是一个基于PaddlePaddle平台的开源工具包,专注于语音识别(自动语音识别,ASR)和语音合成(TTS)这两项重要任务,包含涉及先进和有影响力模型的模块。

PaddleSpeech能做什么?

语音转文本

PaddleSpeech ASR 主要由以下组件组成:

  • 模型的实现和常用的神经网络层。

  • 数据集抽象和常见数据预处理流程。

  • 准备运行的实验。

PaddleSpeech ASR为您提供了完整的ASR管道,包括:

  • 数据准备

    • 建立词汇

    • 计算倒谱均值和方差归一化 (CMVN)

    • 特征提取

      • 线性

      • fbank(也支持kaldi特征)

      • mfcc

  • 声学模型

    • Deepspeech2(流式和非流式)

    • 变压器 (流式和非流式)

    • 变换器(流式和非流式)

  • 解码器

    • ctc 贪婪搜索 (用于 DeepSpeech2、Transformer 和 Conformer)

    • ctc beam search(用于DeepSpeech2、Transformer和Conformer)

    • 注意解码(用于变换器和一致体)

    • 注意重评分(用于变换器和一致器)

语音转文本可以帮助您非常简单地训练ASR模型。

文本转语音

TTS主要由以下组件组成:

  • 模型的实现和常用的神经网络层。

  • 数据集抽象和常见数据预处理流程。

  • 准备运行的实验。

PaddleSpeech TTS 为您提供完整的 TTS 流水线,包括:

  • 文本前端

    • 基于规则的中文前端。

  • 声学模型

    • 快语音2

    • 快速语音

    • 变换器文本到语音

    • Tacotron2

  • 声码器

    • 多频带MelGAN

    • 并行 WaveGAN

    • 波流

  • 语音克隆

    • 从说话人验证到多说话人文本到语音合成的迁移学习

    • GE2E

文本转语音帮助您通过简单的命令训练 TTS 模型。