该机器学习后端提供了一种简单的方法,可使用spaCy模型进行命名实体识别(NER)和词性标注(POS)。
当前实现包含以下模型:
- 命名实体识别(NER)
- [即将推出…] 词性标注(POS tagging)
开始之前
在开始之前,您必须安装Label Studio ML后端。
本教程使用spacy
示例。
快速入门
- 在
http://localhost:9090
上构建并启动ML后端
docker-compose up
- 验证后端是否正在运行
$ curl http://localhost:9090/health
{"status":"UP"}
- 在Label Studio中创建一个项目。然后从项目设置的模型页面,连接模型。默认URL是
http://localhost:9090
。
使用说明
标注配置
该模型兼容以下标注配置:
<View>
<Labels name="label" toName="text">
<Label value="CARDINAL" background="#FFA39E"/>
<Label value="DATE" background="#D4380D"/>
<Label value="EVENT" background="#FFC069"/>
<Label value="FAC" background="#AD8B00"/>
<Label value="GPE" background="#D3F261"/>
<Label value="LANGUAGE" background="#389E0D"/>
<Label value="LAW" background="#5CDBD3"/>
<Label value="LOC" background="#096DD9"/>
<Label value="ORG" background="#ADC6FF"/>
<Label value="PERSON" background="#9254DE"/>
<Label value="TIME" background="#F759AB"/>
</Labels>
<Text name="text" value="$text"/>
</View>
你也可以使用Label Studio提供的命名实体识别模板中的默认配置。
注意:如果您的标签与默认标签不同,文本范围仍会高亮显示,但您需要手动将标签映射到模型中已有的标签。请转到
model.py
并修改_custom_labels_mapping
以将SpaCy实体映射到您的标签。有关预定义标签,请查阅官方SpaCy文档,例如en_core_web_sm。
参数
要修改默认参数,请设置以下环境变量:
PORT
- 运行服务器的端口号,默认为9090
WORKERS
- 运行服务器的工作进程数量,默认为2
SPACY_MODEL
- 使用的spaCy模型,默认为en_core_web_sm