使用NeMo进行自动语音识别
本示例演示如何在Label Studio中使用NeMo进行ASR(自动语音识别)。
如果您想转录并修正音频数据,请使用此模型。
开始之前
在开始之前,您必须安装Label Studio ML后端。
本教程使用nemo_asr
示例。
标注界面
本示例使用Label Studio预置的音频转录模板(位于音频处理 > 音频转录下)。
<View>
<Audio name="audio" value="$audio" zoom="true" hotkey="ctrl+enter" />
<Header value="Provide Transcription" />
<TextArea name="transcription" toName="audio"
rows="4" editable="true" maxSubmissions="1" />
</View>
但你可以使用任何其他结合了和
元素的标注界面。
警告:如果您使用Label Studio托管的文件(即通过导入操作添加的文件)、云存储托管的文件或通过本地存储连接的文件,则必须向ML后端提供
LABEL_STUDIO_URL
和LABEL_STUDIO_API_KEY
环境变量。更多信息请参阅允许ML后端访问Label Studio数据。关于如何查找Label Studio API密钥的信息,请参阅访问令牌。
使用Docker运行(推荐)
- 使用预构建的镜像在
http://localhost:9090
上启动机器学习后端:
docker-compose up
- 验证后端是否正在运行:
$ curl http://localhost:9090/
{"status":"UP"}
- 在Label Studio中创建一个项目。然后从项目设置的模型页面,连接模型。默认URL是
http://localhost:9090
。
从源码构建(高级)
要从源代码构建ML后端,您需要克隆代码仓库并构建Docker镜像:
docker-compose build
不使用Docker运行(高级)
要在不使用Docker的情况下运行ML后端,您需要克隆代码库并使用pip安装所有依赖项:
python -m venv ml-backend
source ml-backend/bin/activate
pip install -r requirements.txt
然后你可以启动ML后端:
label-studio-ml start ./nemo_asr
配置
在运行容器之前,可以在docker-compose.yml
中设置参数。
以下通用参数可用:
MODEL_NAME
- 指定ASR的模型名称(默认为QuartzNet15x5Base-En
)BASIC_AUTH_USER
- 指定模型服务器的基础认证用户BASIC_AUTH_PASS
- 指定模型服务器的基础认证密码LOG_LEVEL
- 设置模型服务器的日志级别WORKERS
- 指定模型服务器的工作线程数量THREADS
- 指定模型服务器的线程数LABEL_STUDIO_HOST
: Label Studio实例的主机地址。默认为http://localhost:8080
。LABEL_STUDIO_API_KEY
: Label Studio实例的API密钥。
自定义
ML后端可以通过在./nemo_asr/model.py
中添加您自己的模型和逻辑来进行定制。