发布的模型

!!! 自从 PaddlePaddle 从 2.5.0 版本开始支持 0-D 张量,PaddleSpeech 静态模型将无法使用,请重新导出静态模型。

语音转文本模型

语音识别模型

声学模型

训练数据

基于标记

大小

描述

CER

WER

语音时长

示例链接

推理类型

static_model

Ds2 Online Wenetspeech ASR0 Model

Wenetspeech 数据集

字符基础

1.2 GB

2 个卷积层 + 5 个 LSTM 层

0.152 (测试网络,无语言模型)
0.2417 (测试会议,无语言模型)
0.053 (aishell,有语言模型)

-

10000 小时

-

onnx/inference/python

-

Ds2 Online Aishell ASR0 模型

Aishell 数据集

基于字符

491 MB

2 个卷积层 + 5 个 LSTM 层

0.0666

-

151 小时

D2 Online Aishell ASR0

onnx/inference/python

-

Ds2 Offline Aishell ASR0 模型

Aishell 数据集

基于字符

1.4 GB

2 个卷积层 + 5 个双向 LSTM 层

0.0554

-

151 小时

Ds2 Offline Aishell ASR0

推理/python

-

Conformer Online Wenetspeech ASR1 Model

WenetSpeech 数据集

基于字符

457 MB

编码器:Conformer,解码器:Transformer,解码方法:注意力重新评分

0.11 (test_net) 0.1879 (test_meeting)

-

10000 小时

-

python

-

Conformer U2PP 在线 Wenetspeech ASR1 模型

WenetSpeech 数据集

基于字符

540 MB

编码器: Conformer, 解码器: BiTransformer, 解码方法: 注意力重评分

0.047198 (aishell 测试_-1) 0.059212 (aishell 测试_16)

-

10000小时

-

python

FP32 INT8

Conformer Online Aishell ASR1 模型

Aishell 数据集

基于字符

189 MB

编码器:Conformer, 解码器:Transformer, 解码方法: 注意力重新评分

0.051968

-

151 小时

Conformer Online Aishell ASR1

python

-

Conformer Offline Aishell ASR1 Model

Aishell 数据集

字符为基础

189 MB

编码器:Conformer,解码器:Transformer,解码方法:注意力重排序

0.0460

-

151 小时

Conformer Offline Aishell ASR1

python

-

Transformer Aishell ASR1 模型

Aishell 数据集

字符型

128 MB

编码器:Transformer,解码器:Transformer,解码方法:注意力重新评分

0.0523

151 小时

Transformer Aishell ASR1

python

-

Ds2 Offline Librispeech ASR0 模型

Librispeech 数据集

基于字符

1.3 GB

2 个卷积层 + 5 个双向 LSTM 层

-

0.0467

960 小时

Ds2 Offline Librispeech ASR0

推断/python

-

Conformer Librispeech ASR1 模型

Librispeech 数据集

基于子词

191 MB

编码器:Conformer,解码器:Transformer,解码方法:注意力重评分

-

0.0338

960 小时

Conformer Librispeech ASR1

python

-

Transformer Librispeech ASR1 模型

Librispeech 数据集

基于子词

131 MB

编码器:Transformer,解码器:Transformer,解码方法:注意力重评分

-

0.0381

960 小时

Transformer Librispeech ASR1

python

-

Transformer Librispeech ASR2 模型

Librispeech 数据集

基于子词

131 MB

编码器: Transformer, 解码器: Transformer, 解码方法: JoinCTC w/ LM

-

0.0240

960 h

Transformer Librispeech ASR2

python

-

Conformer TALCS ASR1 模型

TALCS 数据集

基于子词

470 MB

编码器:Conformer, 解码器:Transformer, 解码方法: 注意力重评分

-

0.0844

587 小时

Conformer TALCS ASR1

python

-

自监督预训练模型

模型

预训练方法

预训练数据

微调数据

大小

描述

CER

WER

示例链接

Wav2vec2-large-960h-lv60-self 模型

wav2vec2

Librispeech 和 LV-60k 数据集 (5.3w 小时)

-

1.18 GB

预训练的 Wav2vec2.0 模型

-

-

-

Wav2vec2ASR-large-960h-librispeech 模型

wav2vec2

Librispeech 和 LV-60k 数据集 (5.3w h)

Librispeech (960 h)

718 MB

编码器: Wav2vec2.0, 解码器: CTC, 解码方法: 贪婪搜索

-

0.0189

Wav2vecASR Librispeech ASR3

Wav2vec2-large-wenetspeech-self 模型

wav2vec2

Wenetspeech 数据集 (1w h)

-

714 MB

预训练的 Wav2vec2.0 模型

-

-

-

Wav2vec2ASR-large-aishell1 模型

wav2vec2

Wenetspeech 数据集 (1w 小时)

aishell1 (训练集)

1.18 GB

编码器: Wav2vec2.0, 解码器: CTC, 解码方法: 贪婪搜索

0.0510

-

-

Hubert-large-lv60 Model

hubert

LV-60k 数据集

-

1.18 GB

预训练的 hubert 模型

-

-

-

Hubert-large-100h-librispeech 模型

hubert

LV-60k 数据集

librispeech train-clean-100

1.27 GB

编码器: Hubert, 解码器: 线性 + CTC, 解码方法: 贪婪搜索

-

0.0587

HubertASR Librispeech ASR4

Whisper 模型

演示链接

训练数据

大小

描述

字符错误率

模型

Whisper

来自互联网的680kh

大型:5.8G,中型:2.9G,小型:923M,基础:277M,微型:145M

编码器:变压器,解码器:变压器,解码方法:贪婪搜索

0.027(大型,Librispeech)

whisper-large whisper-medium whisper-medium-English-only whisper-small whisper-small-English-only whisper-base whisper-base-English-only whisper-tiny whisper-tiny-English-only

基于NGram的语言模型

语言模型

训练数据

基于令牌

大小

描述

英语语言模型

CommonCrawl(en.00)

基于词的

8.3 GB

修剪参数为 0 1 1 1 1;
约 18.5 亿个 n-grams;
'trie' 二进制格式,使用参数 '-a 22 -q 8 -b 8'

Mandarin LM Small

百度内部语料库

字符级

2.8 GB

修剪为 0 1 2 4 4;
大约 0.13 亿 n-grams;
使用默认设置的 'probing' 二进制

Mandarin LM Large

百度内部语料库

基于字符

70.4 GB

无剪枝;
大约 37 亿 n-grams;
'probing' 二进制文件,使用默认设置

语音翻译模型

模型

训练数据

基于令牌

大小

描述

BLEU

示例链接

(仅适用于CLI)Transformer FAT-ST MTL En-Zh

Ted-En-Zh

Spm

编码器:Transformer, 解码器:Transformer,
解码方法:注意力

20.80

Transformer Ted-En-Zh ST1

文本转语音模型

声学模型

模型类型

数据集

示例链接

预训练模型

静态 / ONNX / Paddle-Lite 模型

大小(静态)

Tacotron2

LJSpeech

tacotron2-ljspeech

tacotron2_ljspeech_ckpt_0.2.0.zip

Tacotron2

CSMSC

tacotron2-csmsc

tacotron2_csmsc_ckpt_0.2.0.zip

tacotron2_csmsc_static_0.2.0.zip

103MB

TransformerTTS

LJSpeech

transformer-ljspeech

transformer_tts_ljspeech_ckpt_0.4.zip

SpeedySpeech

CSMSC

speedyspeech-csmsc

speedyspeech_csmsc_ckpt_0.2.0.zip

speedyspeech_csmsc_static_0.2.0.zip speedyspeech_csmsc_onnx_0.2.0.zip speedyspeech_csmsc_pdlite_1.3.0.zip

13MB

FastSpeech2

CSMSC

fastspeech2-csmsc

fastspeech2_nosil_baker_ckpt_0.4.zip

fastspeech2_csmsc_static_0.2.0.zip fastspeech2_csmsc_onnx_0.2.0.zip fastspeech2_csmsc_pdlite_1.3.0.zip

157MB

快速语音合成2-变换器

中文普通话语音合成数据集

fastspeech2-csmsc

fastspeech2_conformer_baker_ckpt_0.5.zip

FastSpeech2-CNN解码器

中文语音合成数据集

fastspeech2-csmsc

fastspeech2_cnndecoder_csmsc_ckpt_1.0.0.zip

fastspeech2_cnndecoder_csmsc_static_1.0.0.zip fastspeech2_cnndecoder_csmsc_streaming_static_1.0.0.zip fastspeech2_cnndecoder_csmsc_onnx_1.0.0.zip fastspeech2_cnndecoder_csmsc_streaming_onnx_1.0.0.zip fastspeech2_cnndecoder_csmsc_pdlite_1.3.0.zip fastspeech2_cnndecoder_csmsc_streaming_pdlite_1.3.0.zip

84MB

快速语音合成2

AISHELL-3

fastspeech2-aishell3

fastspeech2_aishell3_ckpt_1.1.0.zip

fastspeech2_aishell3_static_1.1.0.zip fastspeech2_aishell3_onnx_1.1.0.zip fastspeech2_aishell3_pdlite_1.3.0.zip

147MB

FastSpeech2

LJSpeech

fastspeech2-ljspeech

fastspeech2_nosil_ljspeech_ckpt_0.5.zip

fastspeech2_ljspeech_static_1.1.0.zip fastspeech2_ljspeech_onnx_1.1.0.zip fastspeech2_ljspeech_pdlite_1.3.0.zip

145MB

快速语音合成2

VCTK

fastspeech2-vctk

fastspeech2_vctk_ckpt_1.2.0.zip

fastspeech2_vctk_static_1.1.0.zip fastspeech2_vctk_onnx_1.1.0.zip fastspeech2_vctk_pdlite_1.3.0.zip

145MB

FastSpeech2

中文_英文

fastspeech2-zh_en

fastspeech2_mix_ckpt_1.2.0.zip

fastspeech2_mix_static_0.2.0.zip fastspeech2_mix_onnx_0.2.0.zip

145MB

快Speech2

男性-中文

fastspeech2_male_zh_ckpt_1.4.0.zip

fastspeech2_male_zh_static_1.4.0.zip fastspeech2_male_zh_onnx_1.4.0.zip

146MB

FastSpeech2

男声-英语

fastspeech2_male_en_ckpt_1.4.0.zip

fastspeech2_male_en_static_1.4.0.zip fastspeech2_male_en_onnx_1.4.0.zip

145MB

FastSpeech2

男声混合

fastspeech2_male_mix_ckpt_1.4.0.zip

fastspeech2_male_mix_static_1.4.0.zip fastspeech2_male_mix_onnx_1.4.0.zip

146MB

FastSpeech2

粤语

fastspeech2-canton

fastspeech2_canton_ckpt_1.4.0.zip

fastspeech2_canton_static_1.4.0.zipfastspeech2_canton_onnx_1.4.0.zip

146MB

声码器

模型类型

数据集

示例链接

预训练模型

静态 / ONNX / Paddle-Lite 模型

大小(静态)

波动流

LJSpeech

waveflow-ljspeech

waveflow_ljspeech_ckpt_0.3.zip

并行 WaveGAN

CSMSC

PWGAN-csmsc

pwg_baker_ckpt_0.4.zip

pwg_baker_static_0.4.zip pwgan_csmsc_onnx_0.2.0.zip pwgan_csmsc_pdlite_1.3.0.zip

4.8MB

并行WaveGAN

LJSpeech

PWGAN-ljspeech

pwg_ljspeech_ckpt_0.5.zip

pwgan_ljspeech_static_1.1.0.zip pwgan_ljspeech_onnx_1.1.0.zip pwgan_ljspeech_pdlite_1.3.0.zip

4.8MB

并行 WaveGAN

AISHELL-3

PWGAN-aishell3

pwg_aishell3_ckpt_0.5.zip

pwgan_aishell3_static_1.1.0.zip pwgan_aishell3_onnx_1.1.0.zip pwgan_aishell3_pdlite_1.3.0.zip

4.8MB

并行WaveGAN

VCTK

PWGAN-vctk

pwg_vctk_ckpt_0.5.zip

pwgan_vctk_static_1.1.0.zip pwgan_vctk_onnx_1.1.0.zip pwgan_vctk_pdlite_1.3.0.zip

4.8MB

多频带MelGAN

CSMSC

MB MelGAN-csmsc

mb_melgan_csmsc_ckpt_0.1.1.zip
mb_melgan_baker_finetune_ckpt_0.5.zip

mb_melgan_csmsc_static_0.1.1.zip mb_melgan_csmsc_onnx_0.2.0.zip mb_melgan_csmsc_pdlite_1.3.0.zip

7.6MB

风格 MelGAN

CSMSC

Style MelGAN-csmsc

style_melgan_csmsc_ckpt_0.1.1.zip

HiFiGAN

CSMSC

HiFiGAN-csmsc

hifigan_csmsc_ckpt_0.1.1.zip

hifigan_csmsc_static_0.1.1.zip hifigan_csmsc_onnx_0.2.0.zip hifigan_csmsc_pdlite_1.3.0.zip

46MB

HiFiGAN

LJSpeech

HiFiGAN-ljspeech

hifigan_ljspeech_ckpt_0.2.0.zip

hifigan_ljspeech_static_1.1.0.zip hifigan_ljspeech_onnx_1.1.0.zip hifigan_ljspeech_pdlite_1.3.0.zip

49MB

HiFiGAN

AISHELL-3

HiFiGAN-aishell3

hifigan_aishell3_ckpt_0.2.0.zip

hifigan_aishell3_static_1.1.0.zip hifigan_aishell3_onnx_1.1.0.zip hifigan_aishell3_pdlite_1.3.0.zip

46MB

HiFiGAN

VCTK

HiFiGAN-vctk

hifigan_vctk_ckpt_0.2.0.zip

hifigan_vctk_static_1.1.0.zip hifigan_vctk_onnx_1.1.0.zip hifigan_vctk_pdlite_1.3.0.zip

46MB

WaveRNN

中文语音合成数据集

WaveRNN-csmsc

wavernn_csmsc_ckpt_0.2.0.zip

wavernn_csmsc_static_0.2.0.zip

18MB

并行WaveGAN

pwg_male_ckpt_1.4.0.zip

pwgan_male_static_1.4.0.zip pwgan_male_onnx_1.4.0.zip

4.8M

HiFiGAN

男性

hifigan_male_ckpt_1.4.0.zip

hifigan_male_static_1.4.0.zip hifigan_male_onnx_1.4.0.zip

46M

语音克隆

模型类型

数据集

示例链接

预训练模型

GE2E

AISHELL-3等

ge2e

ge2e_ckpt_0.3.zip

GE2E + Tacotron2

AISHELL-3

ge2e-Tacotron2-aishell3

tacotron2_aishell3_ckpt_vc0_0.2.0.zip

GE2E + FastSpeech2

AISHELL-3

ge2e-fastspeech2-aishell3

fastspeech2_nosil_aishell3_vc1_ckpt_0.5.zip

音频分类模型

模型类型

数据集

示例链接

预训练模型

静态模型

PANN

音频集

audioset_tagging_cnn

panns_cnn6.pdparams, panns_cnn10.pdparams, panns_cnn14.pdparams

panns_cnn6_static.tar.gz(18M), panns_cnn10_static.tar.gz(19M), panns_cnn14_static.tar.gz(289M)

PANN

ESC-50

pann-esc50

esc50_cnn6.tar.gz, esc50_cnn10.tar.gz, esc50_cnn14.tar.gz

讲话人验证模型

模型类型

数据集

示例链接

预训练模型

静态模型

ECAPA-TDNN

VoxCeleb

voxceleb_ecapatdnn

ecapatdnn.tar.gz

-

标点恢复模型

模型类型

数据集

示例链接

预训练模型

厄尼线性

IWLST2012_zh

iwslt2012_punc0

ernie_linear_p3_iwslt2012_zh_ckpt_0.1.1.zip