交互式子字符串匹配
机器学习(ML)后端旨在提高命名实体识别(NER)任务中自动标注的效率。它通过选择一个关键词并自动匹配文本中的相同关键词来实现这一目标。
开始之前
在开始之前,您必须安装Label Studio ML后端。
本教程使用interactive_substring_matching
示例。
推荐的标注配置
该机器学习后端与Label Studio的默认NER模板兼容。在配置标注界面时,您可以通过选择Label Studio预构建的NER模板找到它,该模板位于自然语言处理 > 命名实体识别分类下。
以下是一个可用于此ML后端的标注配置示例:
<View>
<Labels name="label" toName="text">
<Label value="ORG" background="orange" />
<Label value="PER" background="lightgreen" />
<Label value="LOC" background="lightblue" />
<Label value="MISC" background="lightgray" />
</Labels>
<Text name="text" value="$text" />
</View>
使用Docker运行(推荐)
- 使用预构建镜像在
http://localhost:9090
上启动机器学习后端:
docker-compose up
- 验证后端是否正在运行
$ curl http://localhost:9090/
{"status":"UP"}
- 在Label Studio中创建一个项目。然后从项目设置的模型页面,连接模型。默认URL是
http://localhost:9090
。
从源码构建(高级)
要从源代码构建ML后端,您需要克隆代码仓库并构建Docker镜像:
docker-compose build
不使用Docker运行(高级)
要在不使用Docker的情况下运行ML后端,您需要克隆代码库并使用pip安装所有依赖项:
python -m venv ml-backend
source ml-backend/bin/activate
pip install -r requirements.txt
然后你可以启动ML后端:
label-studio-ml start ./interactive_substring_matching
配置
在运行容器之前,可以在docker-compose.yml
中设置参数。
以下通用参数可用:
BASIC_AUTH_USER
- 指定模型服务器的基础认证用户BASIC_AUTH_PASS
- 指定模型服务器的基础认证密码LOG_LEVEL
- 设置模型服务器的日志级别WORKERS
- 指定模型服务器的工作线程数量THREADS
- 指定模型服务器的线程数
自定义
可以通过在./interactive_substring_matching
目录中添加自定义模型和逻辑来定制ML后端。