基于离散单元的自动语音识别
基于离散单元的自动语音识别
这是ESPnet2中ASR2配方的模板。与ASR1的区别在于,它使用离散标记作为输入,而非传统的音频/频谱特征。
目录
配方流程
ASR2配方包含15个阶段。
- 数据准备
数据准备阶段。
ESPnet格式:
它会调用local/data.sh在data/目录下创建Kaldi风格的数据目录,用于训练集、验证集和测试集。这与asr1任务的处理方式相同。
另请参阅:
- 速度扰动
通过速度扰动增强训练数据。将生成data/${train_set}_spXX(XX表示速度因子)。此步骤是可选的。
- Wav格式
将wav.scp中的音频文件统一转换为单一格式(wav/flac/kaldi_ark)。
- 移除长/短数据
根据以下条件移除话语
- 话语过短/过长。
- 目标文本中的零长度。
- 生成离散标记
输入语音信号的离散标记被生成。对于ASR2任务,输入是离散标记(来自自监督学习(SSL)特征),目标是ASR转录文本。获取离散标记(通常为整数)后,它们将被转换为CJK字符,这在分词时更为方便。
数据准备的输入/目标/流程
- Stages:
- 为训练集/验证集/测试集生成SSL特征。
- 在训练数据的子集上训练K-Means模型。
- 为训练/验证/测试集生成基于K-Means的离散标记。
- (可选) 如果能够获取强制对齐数据,可测量离散标记的质量。
- 生成转储原始文件夹
此阶段将训练所需的文件从dump/extracted文件夹移动到dump/raw文件夹。
- 输入和输出令牌列表生成
为输入和目标生成标记列表(BPE / 字符 / 等)。
- 语言模型统计信息收集
基于神经网络(NN)的语言模型(LM)是ASR任务的可选组件。您可以通过设置--use_lm false跳过第5-8阶段。统计计算阶段会收集LM文本的形状信息,并计算用于LM训练的统计数据。
- 语言模型训练
基于神经网络的LM模型训练阶段。您可以通过--lm_config和--lm_args选项来更改训练设置。
另请参阅:
- 语言模型困惑度
基于神经网络的LM评估阶段。困惑度(PPL)是针对训练好的模型计算的
另请参阅:
- N-gram语言模型训练
基于N-gram的语言模型训练阶段。
- ASR统计信息收集
统计计算阶段。该阶段收集ASR训练中输入和输出文本的形状信息。
- ASR 训练
ASR模型训练阶段。您可以通过--asr_config和--asr_args选项更改训练设置。
另请参阅:
- ASR推理
ASR推理阶段。
- ASR评分
ASR评分阶段:计算错误率(字符/单词/标记)。
- (可选) 打包结果以上传
打包阶段。它将训练好的模型文件打包,准备上传至Hugging Face。
另请参阅:
17: (可选) 上传模型
将训练好的模型上传至Hugging Face以便分享。更多信息请参阅Docs。
如何运行
LibriSpeech 训练
这里,我们展示使用egs2/librispeech/asr2运行配方的流程。
进入配方目录。
$ cd egs2/librispeech/asr2如果想更改下载目录,请修改db.sh中的LIBRISPEECH变量。
$ vim db.sh如需使用作业调度器,请修改cmd.sh和conf/*.conf文件。详情请参阅using job scheduling system。
$ vim cmd.sh运行run.sh脚本,该脚本会执行上述所有阶段的操作。
$ ./run.sh相关工作
@INPROCEEDINGS{9054224,
author={Baevski, Alexei and Mohamed, Abdelrahman},
booktitle={ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={Effectiveness of Self-Supervised Pre-Training for ASR},
year={2020},
volume={},
number={},
pages={7694-7698},
doi={10.1109/ICASSP40776.2020.9054224}}
@article{chang2023exploration,
title={Exploration of Efficient End-to-End ASR using Discretized Input from Self-Supervised Learning},
author={Chang, Xuankai and Yan, Brian and Fujita, Yuya and Maekaku, Takashi and Watanabe, Shinji},
journal={arXiv preprint arXiv:2305.18108},
year={2023}
}