发布的模型
!!! 自从 PaddlePaddle 从 2.5.0 版本开始支持 0-D 张量,PaddleSpeech 静态模型将无法使用,请重新导出静态模型。
语音转文本模型
语音识别模型
声学模型 |
训练数据 |
基于标记 |
大小 |
描述 |
CER |
WER |
语音时长 |
示例链接 |
推理类型 |
static_model |
|---|---|---|---|---|---|---|---|---|---|---|
Wenetspeech 数据集 |
字符基础 |
1.2 GB |
2 个卷积层 + 5 个 LSTM 层 |
0.152 (测试网络,无语言模型) |
- |
10000 小时 |
- |
onnx/inference/python |
- |
|
Aishell 数据集 |
基于字符 |
491 MB |
2 个卷积层 + 5 个 LSTM 层 |
0.0666 |
- |
151 小时 |
onnx/inference/python |
- |
||
Aishell 数据集 |
基于字符 |
1.4 GB |
2 个卷积层 + 5 个双向 LSTM 层 |
0.0554 |
- |
151 小时 |
推理/python |
- |
||
WenetSpeech 数据集 |
基于字符 |
457 MB |
编码器:Conformer,解码器:Transformer,解码方法:注意力重新评分 |
0.11 (test_net) 0.1879 (test_meeting) |
- |
10000 小时 |
- |
python |
- |
|
WenetSpeech 数据集 |
基于字符 |
540 MB |
编码器: Conformer, 解码器: BiTransformer, 解码方法: 注意力重评分 |
0.047198 (aishell 测试_-1) 0.059212 (aishell 测试_16) |
- |
10000小时 |
- |
python |
||
Aishell 数据集 |
基于字符 |
189 MB |
编码器:Conformer, 解码器:Transformer, 解码方法: 注意力重新评分 |
0.051968 |
- |
151 小时 |
python |
- |
||
Aishell 数据集 |
字符为基础 |
189 MB |
编码器:Conformer,解码器:Transformer,解码方法:注意力重排序 |
0.0460 |
- |
151 小时 |
python |
- |
||
Aishell 数据集 |
字符型 |
128 MB |
编码器:Transformer,解码器:Transformer,解码方法:注意力重新评分 |
0.0523 |
151 小时 |
python |
- |
|||
Librispeech 数据集 |
基于字符 |
1.3 GB |
2 个卷积层 + 5 个双向 LSTM 层 |
- |
0.0467 |
960 小时 |
推断/python |
- |
||
Librispeech 数据集 |
基于子词 |
191 MB |
编码器:Conformer,解码器:Transformer,解码方法:注意力重评分 |
- |
0.0338 |
960 小时 |
python |
- |
||
Librispeech 数据集 |
基于子词 |
131 MB |
编码器:Transformer,解码器:Transformer,解码方法:注意力重评分 |
- |
0.0381 |
960 小时 |
python |
- |
||
Librispeech 数据集 |
基于子词 |
131 MB |
编码器: Transformer, 解码器: Transformer, 解码方法: JoinCTC w/ LM |
- |
0.0240 |
960 h |
python |
- |
||
TALCS 数据集 |
基于子词 |
470 MB |
编码器:Conformer, 解码器:Transformer, 解码方法: 注意力重评分 |
- |
0.0844 |
587 小时 |
python |
- |
自监督预训练模型
模型 |
预训练方法 |
预训练数据 |
微调数据 |
大小 |
描述 |
CER |
WER |
示例链接 |
|---|---|---|---|---|---|---|---|---|
wav2vec2 |
Librispeech 和 LV-60k 数据集 (5.3w 小时) |
- |
1.18 GB |
预训练的 Wav2vec2.0 模型 |
- |
- |
- |
|
wav2vec2 |
Librispeech 和 LV-60k 数据集 (5.3w h) |
Librispeech (960 h) |
718 MB |
编码器: Wav2vec2.0, 解码器: CTC, 解码方法: 贪婪搜索 |
- |
0.0189 |
||
wav2vec2 |
Wenetspeech 数据集 (1w h) |
- |
714 MB |
预训练的 Wav2vec2.0 模型 |
- |
- |
- |
|
wav2vec2 |
Wenetspeech 数据集 (1w 小时) |
aishell1 (训练集) |
1.18 GB |
编码器: Wav2vec2.0, 解码器: CTC, 解码方法: 贪婪搜索 |
0.0510 |
- |
- |
|
hubert |
LV-60k 数据集 |
- |
1.18 GB |
预训练的 hubert 模型 |
- |
- |
- |
|
hubert |
LV-60k 数据集 |
librispeech train-clean-100 |
1.27 GB |
编码器: Hubert, 解码器: 线性 + CTC, 解码方法: 贪婪搜索 |
- |
0.0587 |
Whisper 模型
演示链接 |
训练数据 |
大小 |
描述 |
字符错误率 |
模型 |
|---|---|---|---|---|---|
来自互联网的680kh |
大型:5.8G,中型:2.9G,小型:923M,基础:277M,微型:145M |
编码器:变压器,解码器:变压器,解码方法:贪婪搜索 |
0.027(大型,Librispeech) |
whisper-large whisper-medium whisper-medium-English-only whisper-small whisper-small-English-only whisper-base whisper-base-English-only whisper-tiny whisper-tiny-English-only |
基于NGram的语言模型
语言模型 |
训练数据 |
基于令牌 |
大小 |
描述 |
|---|---|---|---|---|
基于词的 |
8.3 GB |
修剪参数为 0 1 1 1 1; |
||
百度内部语料库 |
字符级 |
2.8 GB |
修剪为 0 1 2 4 4; |
|
百度内部语料库 |
基于字符 |
70.4 GB |
无剪枝; |
语音翻译模型
模型 |
训练数据 |
基于令牌 |
大小 |
描述 |
BLEU |
示例链接 |
|---|---|---|---|---|---|---|
(仅适用于CLI)Transformer FAT-ST MTL En-Zh |
Ted-En-Zh |
Spm |
编码器:Transformer, 解码器:Transformer, |
20.80 |
文本转语音模型
声学模型
声码器
语音克隆
模型类型 |
数据集 |
示例链接 |
预训练模型 |
|---|---|---|---|
GE2E |
AISHELL-3等 |
||
GE2E + Tacotron2 |
AISHELL-3 |
||
GE2E + FastSpeech2 |
AISHELL-3 |
音频分类模型
模型类型 |
数据集 |
示例链接 |
预训练模型 |
静态模型 |
|---|---|---|---|---|
PANN |
音频集 |
panns_cnn6.pdparams, panns_cnn10.pdparams, panns_cnn14.pdparams |
panns_cnn6_static.tar.gz(18M), panns_cnn10_static.tar.gz(19M), panns_cnn14_static.tar.gz(289M) |
|
PANN |
ESC-50 |
讲话人验证模型
模型类型 |
数据集 |
示例链接 |
预训练模型 |
静态模型 |
|---|---|---|---|---|
ECAPA-TDNN |
VoxCeleb |
- |
标点恢复模型
模型类型 |
数据集 |
示例链接 |
预训练模型 |
|---|---|---|---|
厄尼线性 |
IWLST2012_zh |