NEW暗黑模式现已上线 🌓 Label Studio 1.18.0 版本发布

Label Studio v1.0 正式发布

版本发布说明

太棒了!这一天终于到来。经过近一年半的开发,1000多次提交,40个版本发布,以及50多位开发者贡献了大大小小的功能,我们很高兴宣布一个重大里程碑——Label Studio v1.0!

基于过去一年收集的大量反馈,我们从头开始重建了Label Studio。向多用户、多项目系统问好吧。而且它具备可扩展性!

为什么使用Label Studio?

Label Studio 是一款开源数据标注工具。无论您需要标注原始数据集还是优化已有标注数据,它都是最强大且最易用的解决方案。如果您从事计算机视觉、自然语言处理、对话式AI、音频/语音处理或时间序列项目,只需几分钟即可开始使用。通过Label Studio改进训练数据的过程将变得更加透明且易于管理。

您可以使用Label Studio标注的各种数据类型

Label Studio 还原生集成了机器学习模型。您可以连接您的模型,并通过新标注的数据持续更新它们,同时对模型预测进行质量保证。

1.0版本的新变化

在过去的四个月里,Label Studio团队持续不断地重新思考界面设计、标注流程以及整个系统的健壮性。

从开发时间的角度来看,这项工作的进展情况如下

因此,我们对几乎所有功能都进行了重新设计!数据标注工作高度依赖用户界面的简洁性和易用性,所以我们全面优化并更新了Label Studio的界面。除了界面改进外,我们还提升了处理大型数据集的速度和性能。现在您可以高效处理包含数百万条目的数据集。让我们深入了解这些改进细节!

多用户数据标注

我们在本版本中引入的最大变化之一是增加了用户账户功能。现在,多个用户可以在同一个Label Studio实例中创建账户。用户可以基于相同的数据集开展工作,每个用户的标注数据都将与其账户关联。

人员页面显示用户列表

一站式管理所有数据集的多项目支持

Label Studio项目让您能够为不同数据集或项目创建并保存标注配置。Label Studio项目简化了管理和处理不同数据集的工作流程,可以与其他用户共享,并能在未来类似项目中重复使用。

我们还重构了项目设置,使每个项目的标注界面配置更加简便。以下是值得注意的几项更新:

模型辅助标注

机器学习模型可以帮助预标注数据并优化数据标注流程。例如,连接像Mask RCNN这样的分割模型来提供预测结果,然后您可以调整预测使其完美。另一个例子是连接ASR模型来提供语音转录以便进一步标注。

添加机器学习模型以辅助标注

从云存储读取数据

如果您的数据存储在云端,Label Studio 可以原生与其同步。开箱即用,您可以配置 Label Studio 从 AWS S3、GCP 或 Microsoft Azure 读取数据。您可以同时从多个云服务提供商或存储桶同步数据,每个项目都可以连接到不同的云存储位置。

配置用于读取存储在S3存储桶中的音频文件

界面配置向导

您可以通过使用模板快速开始标注,为项目配置标注界面,或者使用自定义标签享受更高灵活性。

数十种最常见的数据标注场景都有模板

使用新型可扩展数据标注后端处理大规模数据集

我们从基于Django的企业版迁移到了更强大的后端。同时,我们将任务和标注的数据存储从基于文件系统转向了基于SQL。虽然文件系统可能是最简单的存储方式,但当处理超过10,000条数据的数据集时,它的扩展性不佳。通过采用SQLite作为存储后端,我们现在可以轻松上传数十万条数据的数据集。

这是在包含25万条目的数据集上的过滤性能

For production deployments, we recommend using PostgreSQL instead of SQLite, especially if you expect to create a large number of users or projects in parallel, because SQLite doesn’t support parallel writes.

下一步是什么

我们很高兴您能试用Label Studio的这个新版本!

接下来的一个月,我们将重点根据您的反馈修复错误和问题,因此我们诚挚邀请您加入我们的Slack频道。社区非常活跃,所有问题都会得到解答,每一条反馈都会被关注。

加入Slack

接下来,我们将发布Label Studio Enterprise的更新版本,然后着手开发Label Studio的新版本。该版本的重点是进一步提升性能并实现与各类机器学习流程的无缝集成。Slack上见!

相关内容