NEW暗黑模式现已上线 🌓 Label Studio 1.18.0 版本发布

Label Studio 集成入门指南

集成

简介

Label Studio是最受欢迎的开源数据标注平台之一,为全球数十万数据科学家提供支持,并用于创建数亿个标注数据。

Label Studio 被广泛采用的主要原因之一在于其灵活性,包括可扩展的界面和对技术集成的广泛支持。数据科学家可以导入多种数据类型,配置标注界面以满足其精确需求,通过机器学习集成加速工作流程,并将 Label Studio 集成到他们首选的数据科学流程中。

这种灵活性得益于Label Studio内置的广泛集成点。Label Studio的可扩展API集合使您能够连接数据存储、机器学习和平台自动化服务。本文概述了为Label Studio编写自定义集成的选项。

存储API

Label Studio 提供了两种主要的数据存储和管理方式用于标注工作。第一种是本地存储,数据保存在Label Studio安装的本地环境中。这种方法适合刚开始使用Label Studio,但不建议用于生产环境的数据标注工作。

管理数据的首选方法是通过Label Studio的“源存储”和“目标存储”界面。Label Studio内置了多种不同的源存储和目标存储连接器类型,包括:

  • 亚马逊S3。
  • Google 云存储。
  • Microsoft Azure Blob 存储。
  • Redis数据库。
  • 本地文件存储。

您可以通过为Label Studio添加符合连接器API的库来新增存储接口。您可以在Label Studio源代码仓库中找到相关内容。Pachyderm社区就采用了这种方法实现他们的自定义存储集成,更多详情可参阅这篇文章

机器学习API

Label Studio 提供了一个公共API,使您能够以多种方式将机器学习模型集成到标注工作流程中。这些集成点包括:

  • 预标注:模型预测数据标签并手动上传至Label Studio,标注人员随后进行进一步的人工修正。
  • 自动标注:模型在Label Studio内自动预测标注。
  • 在线学习:随着新标注的创建,模型会自动更新,在标注过程中重新训练模型。
  • 主动学习:用户标注模型难以预测的示例任务,针对性地进行重新训练,以提高模型在特定任务上的性能。

您只需要两种方法就能将您的机器学习流程与Label Studio集成:

  • 一个预测方法,根据输入数据生成标签。
  • 一个fit方法,用于根据用户提供的标注更新模型。

输入和输出类型取决于数据和项目设置,将根据您的需求而变化。

您可以学习如何将Label Studio集成到您的机器学习流程中,并查看完整的机器学习集成示例集以获取灵感。

Label Studio 平台 API

label studio的几乎每个部分都可以通过其API实现自动化,使您能够将其集成到机器学习和数据科学工作流程中。

通过API您可以实现以下功能:

  • 管理项目和用户。
  • 配置存储。
  • 附加机器学习集成。
  • 导出标注结果。

Label Studio社区提供了一个Python SDK for the API,您可以通过跟随Label Studio Python SDK教程开始使用。

Label Studio Webhooks

Label Studio中的Webhooks允许您设置集成,订阅Label Studio内部发生的特定事件。当事件触发时,Label Studio会向配置的webhook URL发送HTTP POST请求。

例如,您可以使用发送到webhook URL的事件来执行以下操作:

  • 在标注一定数量的任务后开始训练机器学习模型。
  • 在标注任务完成后执行主动学习。
  • 在项目完全设置好后,提示标注人员开始工作。
  • 在数据集版本控制仓库中创建训练数据的新版本。

您可以在Label Studio文档中找到连接Web钩子的完整指南

前端配置与集成

Label Studio包含一个用于管理标注和标注工作流程的后端,以及一个作为后端高度可扩展和可配置视图的前端。每个数据标注工作流程都是独特的,Label Studio灵活的界面允许用户定制工作流程以满足其确切需求,并最大化标注人员的工作效率。 Label Studio Playground展示了10个类别中的50多个标注模板,并提供了一个交互式设计平台用于创建自定义模板。

前端也可以作为其他数据标注平台的可嵌入前端组件使用,让您能够在前端的灵活性基础上对接自己的数据管理平台。欲了解更多信息,请查阅Label Studio前端集成指南,以及Streamlit社区如何为Streamlit应用创建Label Studio前端组件

额外的MLOps集成点

Label Studio 提供了多种工具,帮助您在MLOps框架内管理应用程序。这些工具包括:

多个开放平台利用这些软件包来部署并与Label Studio集成,使Label Studio成为丰富MLOps生态系统的关键组成部分。

分享您的集成

需要帮助将Label Studio集成到您的项目或工作流程中吗?加入Label Studio Slack,您可以获得开发团队和拥有数千名成员的活跃社区的帮助。

有想要分享的集成方案吗?向团队发送请求描述您的集成方案,我们会将其添加到集合中。或者通过Slack与社区团队联系并提供信息和链接,我们将与您合作使其获得展示。

相关内容