使用NeMo进行自动语音识别

本示例演示如何在Label Studio中使用NeMo进行ASR(自动语音识别)。

如果您想转录并修正音频数据，请使用此模型。

开始之前

在开始之前，您必须安装Label Studio ML后端。

本教程使用nemo_asr示例。

标注界面

本示例使用Label Studio预置的音频转录模板（位于音频处理 > 音频转录下）。

<View>
  <Audio name="audio" value="$audio" zoom="true" hotkey="ctrl+enter" />
  <Header value="Provide Transcription" />
  <TextArea name="transcription" toName="audio"
            rows="4" editable="true" maxSubmissions="1" />
</View>

但你可以使用任何其他结合了和元素的标注界面。

警告：如果您使用Label Studio托管的文件（即通过导入操作添加的文件）、云存储托管的文件或通过本地存储连接的文件，则必须向ML后端提供LABEL_STUDIO_URL和LABEL_STUDIO_API_KEY环境变量。更多信息请参阅允许ML后端访问Label Studio数据。关于如何查找Label Studio API密钥的信息，请参阅访问令牌。

使用Docker运行(推荐)

使用预构建的镜像在http://localhost:9090上启动机器学习后端：

docker-compose up

验证后端是否正在运行：

$ curl http://localhost:9090/
{"status":"UP"}

在Label Studio中创建一个项目。然后从项目设置的模型页面，连接模型。默认URL是http://localhost:9090。

从源码构建（高级）

要从源代码构建ML后端，您需要克隆代码仓库并构建Docker镜像：

docker-compose build

不使用Docker运行（高级）

要在不使用Docker的情况下运行ML后端，您需要克隆代码库并使用pip安装所有依赖项：

python -m venv ml-backend
source ml-backend/bin/activate
pip install -r requirements.txt

然后你可以启动ML后端：

label-studio-ml start ./nemo_asr

配置

在运行容器之前，可以在docker-compose.yml中设置参数。

以下通用参数可用：

MODEL_NAME - 指定ASR的模型名称（默认为QuartzNet15x5Base-En）
BASIC_AUTH_USER - 指定模型服务器的基础认证用户
BASIC_AUTH_PASS - 指定模型服务器的基础认证密码
LOG_LEVEL - 设置模型服务器的日志级别
WORKERS - 指定模型服务器的工作线程数量
THREADS - 指定模型服务器的线程数
LABEL_STUDIO_HOST: Label Studio实例的主机地址。默认为http://localhost:8080。
LABEL_STUDIO_API_KEY: Label Studio实例的API密钥。

自定义

ML后端可以通过在./nemo_asr/model.py中添加您自己的模型和逻辑来进行定制。

专为各种规模的团队设计版本比较