指南 3个标注团队操作手册:提升标注速度与质量

使用NeMo进行自动语音识别

本示例演示如何在Label Studio中使用NeMo进行ASR(自动语音识别)。

如果您想转录并修正音频数据,请使用此模型。

开始之前

在开始之前,您必须安装Label Studio ML后端

本教程使用nemo_asr示例

标注界面

本示例使用Label Studio预置的音频转录模板(位于音频处理 > 音频转录下)。

<View>
  <Audio name="audio" value="$audio" zoom="true" hotkey="ctrl+enter" />
  <Header value="Provide Transcription" />
  <TextArea name="transcription" toName="audio"
            rows="4" editable="true" maxSubmissions="1" />
</View>

但你可以使用任何其他结合了元素的标注界面。

警告:如果您使用Label Studio托管的文件(即通过导入操作添加的文件)、云存储托管的文件或通过本地存储连接的文件,则必须向ML后端提供LABEL_STUDIO_URLLABEL_STUDIO_API_KEY环境变量。更多信息请参阅允许ML后端访问Label Studio数据。关于如何查找Label Studio API密钥的信息,请参阅访问令牌

  1. 使用预构建的镜像在http://localhost:9090上启动机器学习后端:
docker-compose up
  1. 验证后端是否正在运行:
$ curl http://localhost:9090/
{"status":"UP"}
  1. 在Label Studio中创建一个项目。然后从项目设置的模型页面,连接模型。默认URL是http://localhost:9090

从源码构建(高级)

要从源代码构建ML后端,您需要克隆代码仓库并构建Docker镜像:

docker-compose build

不使用Docker运行(高级)

要在不使用Docker的情况下运行ML后端,您需要克隆代码库并使用pip安装所有依赖项:

python -m venv ml-backend
source ml-backend/bin/activate
pip install -r requirements.txt

然后你可以启动ML后端:

label-studio-ml start ./nemo_asr

配置

在运行容器之前,可以在docker-compose.yml中设置参数。

以下通用参数可用:

  • MODEL_NAME - 指定ASR的模型名称(默认为QuartzNet15x5Base-En
  • BASIC_AUTH_USER - 指定模型服务器的基础认证用户
  • BASIC_AUTH_PASS - 指定模型服务器的基础认证密码
  • LOG_LEVEL - 设置模型服务器的日志级别
  • WORKERS - 指定模型服务器的工作线程数量
  • THREADS - 指定模型服务器的线程数
  • LABEL_STUDIO_HOST: Label Studio实例的主机地址。默认为http://localhost:8080
  • LABEL_STUDIO_API_KEY: Label Studio实例的API密钥。

自定义

ML后端可以通过在./nemo_asr/model.py中添加您自己的模型和逻辑来进行定制。