指南 3个标注团队操作手册:提升标注速度与质量

Hugging Face 大语言模型后端

该机器学习后端专为与Label Studio配合使用而设计,提供了一个用于文本生成的定制模型。该模型基于Hugging Face的transformers库,并使用了预训练模型。

查看Hugging Face上的文本生成管道了解更多详情。

开始之前

在开始之前,您必须安装Label Studio ML后端

本教程使用huggingface_llm示例

Label Studio XML标注配置

此机器学习后端兼容使用标签的Label Studio标注配置。以下是一个兼容的标注配置示例:

<View>
    <Text name="input_text" value="$text"/>
  <TextArea name="generated_text"  toName="input_text"/>
</View>

当你在Label Studio中打开任务时,文本框将显示基于中定义的提示词生成的文本。请确保在提示词中包含一些指令(例如"总结以下文本:..."),以便看到有意义的结果。

  1. 使用预构建的镜像在http://localhost:9090上启动机器学习后端:
docker-compose up
  1. 验证后端是否正在运行:
$ curl http://localhost:9090/
{"status":"UP"}
  1. 在Label Studio中创建一个项目。然后从项目设置的模型页面,连接模型。默认URL是http://localhost:9090

从源码构建(高级)

要从源代码构建ML后端,您需要克隆代码仓库并构建Docker镜像:

docker-compose build

不使用Docker运行(高级)

要在不使用Docker的情况下运行ML后端,您需要克隆代码库并使用pip安装所有依赖项:

python -m venv ml-backend
source ml-backend/bin/activate
pip install -r requirements.txt

然后你可以启动ML后端:

label-studio-ml start ./huggingface_llm

配置

在运行容器之前,可以在docker-compose.yml中设置参数。

以下通用参数可用:

  • MODEL_NAME: 用于文本生成的预训练模型名称。默认为 facebook/opt-125m
  • MAX_LENGTH: 生成文本的最大长度。默认为 50
  • BASIC_AUTH_USER: 模型服务器的基础认证用户名。
  • BASIC_AUTH_PASS: 模型服务器的基础认证密码。
  • LOG_LEVEL: 模型服务器的日志级别。
  • WORKERS: 模型服务器的工作线程数量。
  • THREADS: 模型服务器使用的线程数量。

自定义

可以通过在./huggingface_llm目录中添加自定义模型和逻辑来定制ML后端。