Label Studio 集成入门指南
简介
Label Studio是最受欢迎的开源数据标注平台之一,为全球数十万数据科学家提供支持,并用于创建数亿个标注数据。
Label Studio 被广泛采用的主要原因之一在于其灵活性,包括可扩展的界面和对技术集成的广泛支持。数据科学家可以导入多种数据类型,配置标注界面以满足其精确需求,通过机器学习集成加速工作流程,并将 Label Studio 集成到他们首选的数据科学流程中。
这种灵活性得益于Label Studio内置的广泛集成点。Label Studio的可扩展API集合使您能够连接数据存储、机器学习和平台自动化服务。本文概述了为Label Studio编写自定义集成的选项。
存储API
Label Studio 提供了两种主要的数据存储和管理方式用于标注工作。第一种是本地存储,数据保存在Label Studio安装的本地环境中。这种方法适合刚开始使用Label Studio,但不建议用于生产环境的数据标注工作。
管理数据的首选方法是通过Label Studio的“源存储”和“目标存储”界面。Label Studio内置了多种不同的源存储和目标存储连接器类型,包括:
- 亚马逊S3。
- Google 云存储。
- Microsoft Azure Blob 存储。
- Redis数据库。
- 本地文件存储。
您可以通过为Label Studio添加符合连接器API的库来新增存储接口。您可以在Label Studio源代码仓库中找到相关内容。Pachyderm社区就采用了这种方法实现他们的自定义存储集成,更多详情可参阅这篇文章。
机器学习API
Label Studio 提供了一个公共API,使您能够以多种方式将机器学习模型集成到标注工作流程中。这些集成点包括:
- 预标注:模型预测数据标签并手动上传至Label Studio,标注人员随后进行进一步的人工修正。
- 自动标注:模型在Label Studio内自动预测标注。
- 在线学习:随着新标注的创建,模型会自动更新,在标注过程中重新训练模型。
- 主动学习:用户标注模型难以预测的示例任务,针对性地进行重新训练,以提高模型在特定任务上的性能。
您只需要两种方法就能将您的机器学习流程与Label Studio集成:
- 一个预测方法,根据输入数据生成标签。
- 一个fit方法,用于根据用户提供的标注更新模型。
输入和输出类型取决于数据和项目设置,将根据您的需求而变化。
您可以学习如何将Label Studio集成到您的机器学习流程中,并查看完整的机器学习集成示例集以获取灵感。
Label Studio 平台 API
label studio的几乎每个部分都可以通过其API实现自动化,使您能够将其集成到机器学习和数据科学工作流程中。
通过API您可以实现以下功能:
- 管理项目和用户。
- 配置存储。
- 附加机器学习集成。
- 导出标注结果。
Label Studio社区提供了一个Python SDK for the API,您可以通过跟随Label Studio Python SDK教程开始使用。
Label Studio Webhooks
Label Studio中的Webhooks允许您设置集成,订阅Label Studio内部发生的特定事件。当事件触发时,Label Studio会向配置的webhook URL发送HTTP POST请求。
例如,您可以使用发送到webhook URL的事件来执行以下操作:
- 在标注一定数量的任务后开始训练机器学习模型。
- 在标注任务完成后执行主动学习。
- 在项目完全设置好后,提示标注人员开始工作。
- 在数据集版本控制仓库中创建训练数据的新版本。
您可以在Label Studio文档中找到连接Web钩子的完整指南。
前端配置与集成
Label Studio包含一个用于管理标注和标注工作流程的后端,以及一个作为后端高度可扩展和可配置视图的前端。每个数据标注工作流程都是独特的,Label Studio灵活的界面允许用户定制工作流程以满足其确切需求,并最大化标注人员的工作效率。 Label Studio Playground展示了10个类别中的50多个标注模板,并提供了一个交互式设计平台用于创建自定义模板。
前端也可以作为其他数据标注平台的可嵌入前端组件使用,让您能够在前端的灵活性基础上对接自己的数据管理平台。欲了解更多信息,请查阅Label Studio前端集成指南,以及Streamlit社区如何为Streamlit应用创建Label Studio前端组件。
额外的MLOps集成点
Label Studio 提供了多种工具,帮助您在MLOps框架内管理应用程序。这些工具包括:
- 官方的PyPi和Docker发布版本。
- Helm charts 用于部署到 Kubernetes。
- Terraform脚本用于部署到托管基础设施。
多个开放平台利用这些软件包来部署并与Label Studio集成,使Label Studio成为丰富MLOps生态系统的关键组成部分。
分享您的集成
需要帮助将Label Studio集成到您的项目或工作流程中吗?加入Label Studio Slack,您可以获得开发团队和拥有数千名成员的活跃社区的帮助。
有想要分享的集成方案吗?向团队发送请求描述您的集成方案,我们会将其添加到集合中。或者通过Slack与社区团队联系并提供信息和链接,我们将与您合作使其获得展示。