指南 3个标注团队操作手册:提升标注速度与质量

该机器学习后端提供了一种简单的方法,可使用spaCy模型进行命名实体识别(NER)和词性标注(POS)。

当前实现包含以下模型:

  • 命名实体识别(NER)
  • [即将推出…] 词性标注(POS tagging)

开始之前

在开始之前,您必须安装Label Studio ML后端

本教程使用spacy示例

快速入门

  1. http://localhost:9090上构建并启动ML后端
docker-compose up
  1. 验证后端是否正在运行
$ curl http://localhost:9090/health
{"status":"UP"}
  1. 在Label Studio中创建一个项目。然后从项目设置的模型页面,连接模型。默认URL是http://localhost:9090

使用说明

标注配置

该模型兼容以下标注配置:

<View>
    <Labels name="label" toName="text">
        <Label value="CARDINAL" background="#FFA39E"/>
        <Label value="DATE" background="#D4380D"/>
        <Label value="EVENT" background="#FFC069"/>
        <Label value="FAC" background="#AD8B00"/>
        <Label value="GPE" background="#D3F261"/>
        <Label value="LANGUAGE" background="#389E0D"/>
        <Label value="LAW" background="#5CDBD3"/>
        <Label value="LOC" background="#096DD9"/>
        <Label value="ORG" background="#ADC6FF"/>
        <Label value="PERSON" background="#9254DE"/>
        <Label value="TIME" background="#F759AB"/>
    </Labels>
    <Text name="text" value="$text"/>
</View>

你也可以使用Label Studio提供的命名实体识别模板中的默认配置。

注意:如果您的标签与默认标签不同,文本范围仍会高亮显示,但您需要手动将标签映射到模型中已有的标签。请转到model.py并修改_custom_labels_mapping以将SpaCy实体映射到您的标签。有关预定义标签,请查阅官方SpaCy文档,例如en_core_web_sm

参数

要修改默认参数,请设置以下环境变量:

  • PORT - 运行服务器的端口号,默认为 9090
  • WORKERS - 运行服务器的工作进程数量,默认为 2
  • SPACY_MODEL - 使用的spaCy模型,默认为en_core_web_sm
专为各种规模的团队设计 版本比较