调查报告:以数据为中心的人工智能如何塑造技术与工作流选择
简介
数据标注对于数据科学和机器学习工作流程至关重要。随着学术研究和公共模型库免费提供各种新模型和框架,人们越来越清楚地认识到,用于训练这些模型的数据质量将成为成功ML和AI应用的重要差异化因素。例如,在过去几年中,我们已经看到能够根据简单提示创作长篇文本的新型语言模型,以及可以生成各种风格惊艳图像的新型图像模型。为了支持这些模型的开发,数据标注正在变成一个迭代且持续的过程,而非一次性批量任务。
随着数据标注领域的变革,我们面临着规模和准确性的双重挑战。如何战略性地运用数据标注与预处理资源,为日益复杂且专业化的商业用例打造性能最优的模型?如何快速满足对无偏见且标注精准的高质量数据的需求?
在本调查中,我们将探讨数据标注生态系统的现状,重点关注如何通过精心设计的数据集开发来支持从以模型为中心向以数据为中心的人工智能转型。
关于本调查
Label Studio 是一款于2020年1月推出的开源数据标注平台,旨在通过开源软件、社区建设和知识共享推动以数据为中心的人工智能发展。该平台由全球数据科学家社区支持,致力于构建和部署基于精准标注数据的最准确、高性能的机器学习和人工智能模型。自首次发布以来,全球已有超过15万人使用Label Studio标注了近1亿条数据项,该项目在GitHub上已获得超过11,000颗星标。
2022年9月,Label Studio社区发起了首次用户调查,邀请用户分享他们在机器学习和数据科学工作流中处理数据标注的方法。该调查收集了用户对Label Studio项目的反馈,包括当前使用体验、期望在未来版本中看到的功能特性,以及如何更好地支持社区发展等方面的意见。
我们衷心感谢所有帮助实现本次调查的人,特别是参与调查的受访者和Label Studio社区。您的参与和协作有助于壮大这个社区,并推动我们在数据集开发领域的共同知识进步。
战略视角
机器学习计划对组织具有战略意义,2023年计划加大投资力度。
77%的受访者表示他们已成功将机器学习模型投入生产环境,另有15%表示即将部署生产模型。随着"标准"机器学习模型库的不断扩充,针对特定工作场景改造现有模型正变得越来越容易。成功的机器学习项目正日益成为常态,而非特例。
您目前在生产环境中部署了机器学习/人工智能模型吗?
本次调查的反馈表明,未来一年内各组织的机器学习计划将更具战略意义。73%的受访者表示将加大对机器学习计划的投资力度,25%表示将维持现有投资水平。仅有3%表示会减少对机器学习计划的投入。
机器学习和人工智能计划在2023年及以后对您的组织将具有怎样的战略重要性?
数据标注是AI/ML工作流程中的关键环节。
鉴于机器学习计划当前及未来的战略重要性,准确标注的数据对这些计划的成功至关重要并不令人意外。89%的受访者表示准确标注的数据对他们的成功"非常重要",其余11%表示"比较重要"。调查中所有受访者都表示数据标注以某种方式对他们计划的成功很重要。
准确标注的数据对您的数据科学计划成功有多重要?
When we dig deeper and ask what the most significant challenges organizations face when putting ML models into production are, the vast majority indicate that problems with data are their biggest obstacle. 80% state that accurately labeled data is a challenge. In addition, 46% state that lack of data is also a challenge (in this, and many other questions, respondents were able to indicate multiple answers, so percentages may not add up to 100%). Supporting the hypothesis that we see a shift from model-driven development to dataset development, model development was ranked fifth most cited problem at 20% after monitoring (31%) and team communications (27%).
将准确且高性能的机器学习和人工智能计划投入生产面临的最大挑战是什么?
数据科学家现在将大部分时间花在数据准备、迭代和管理上。
数据准备所耗费的时间直接体现了数据标注在AI/ML工作流程中的重要性。72%的受访者表示,他们在ML/AI生命周期中花费50%或更多时间用于数据准备、迭代和管理。在这部分人群中,超过三分之一(34%)的受访者表示他们花费75%或更多时间在数据准备工作上。这一趋势表明,随着数据标注成为AI/ML生命周期中更具战略价值和关键意义的环节,模型开发和运维所占用的时间正在减少。
在您的机器学习/人工智能生命周期中,数据准备、迭代和管理占用了您多少时间比例?
数据标注的主要责任落在数据科学家身上。
46%的受访者表示,数据科学家是他们组织中数据准备的主要负责人。另有18%表示这一职责由标注团队经理承担,14%表示由MLOps人员或数据工程师主导数据准备工作。
虽然大多数受访者担任数据科学家和数据工程师等传统角色,但数据标注的责任范围广泛,需要从实习生到高管和业务领导者的整个组织参与。值得注意的是,20%的受访者表示数据准备工作由多种角色共同承担,其中包括占5%答复的领域专家,以及占3%答复的业务分析师。
这些结果表明,随着组织寻求更好的方法来让领域专家参与并迭代标注数据以提升模型性能,其标注方式正在发生变化。
在您的组织中,谁负责数据准备和标注工作?
调查人口统计
角色
调查参与者涵盖了广泛的角色,其中数据科学家占比最高,达到受访者的34%,其次是数据工程师,占17%。学术研究人员占比11%。从企业高管到实习生,受访者在组织中的分布情况表明,数据运营在各个层级都变得越来越重要。
你的角色是什么?
主要的数据标注应用场景包括“文本、自然语言处理(NLP)与文档”以及“计算机视觉”。
组织内部的数据标注应用场景覆盖多个领域,其中自然语言处理占比最高达61%,其次是视觉领域占57%。音频和视频分别以23%和19%的比例紧随其后。
您的数据标注使用场景是什么?
按国家/地区分布
来自美国的用户是主要受访者,占参与者的31%。本次调查覆盖全球范围,印度、德国和英国各占受访者的6%。
技术全景
随着各组织在将机器学习融入业务运营方面取得更大成功,他们经常发现机器学习流程的不同环节存在多样化的实施方案。这项工作面临着多重制约因素,包括利用现有基础设施、将创新技术引入工作流程以及管理敏感数据。由于这些相互冲突的压力,他们面临着一个新的挑战:构建和维护真正具有差异化优势的模型,这些模型不仅要超越前代产品,还要优于竞争对手。
当被问及他们使用哪些技术来应对这些挑战时,调查结果显示各组织广泛采用了专有云平台、开源系统和自研解决方案的组合方案。
数据存储分为云端和本地两种方式。
在基础设施方面,云平台是该领域的重要推动力。最大的云服务提供商与本地存储相结合,主导了数据存储方式和位置的选择。50%的受访者使用AWS存储数据,另有20%使用GCP,17%使用Azure。云存储只是受访者使用的众多解决方案之一,38%的受访者表示他们同时使用本地私有存储。针对特定领域的解决方案,如Snowflake和Databricks,占存储解决方案的另外10%。
您当前为数据标注使用哪些数据存储解决方案?
工作负载主要托管在云服务上,其中Hugging Face是预训练模型最受欢迎的来源。
以50%的显著优势,Hugging Face成为大多数受访者寻找模型的首选平台。虽然Hugging Face是专有平台,但它促进了开放模型的共享。在某些方面,将Hugging Face类比为机器学习领域的GitHub很有帮助。其他云服务如SageMaker(使用率为15%)也被用于托管和运行模型。
您正在使用哪些数据科学和预训练模型平台?
开源平台的受欢迎程度正在增长。
虽然云平台对于托管工作负载至关重要,但在执行和编排工作方面,开源供应商正在为云平台增添巨大价值。
Label Studio只是受访者在机器学习工作流程中使用的众多开源解决方案之一。60%的受访者表示使用了其他开源平台。热门项目包括:25%使用MLFlow进行编排,17%使用Airflow,17%使用DVC进行数据版本控制,11%使用Great Expectations,以及11%使用KubeFlow。
受访者使用的开源平台
其他平台详情
您使用什么软件进行数据验证和版本控制?
您使用哪些平台获取预训练模型?
您使用哪些平台进行流水线编排和工作流管理?
您使用哪些平台进行监控?
您使用哪些平台进行实验跟踪?
您使用哪些平台作为特征存储?
您使用哪些平台进行模型部署?
您使用哪些平台?
方法论
2022年9月期间的两周多时间里,超过110位用户分享了他们在为机器学习运营准备数据方面的成功经验与挑战。我们将这些反馈整理成本报告,并非常高兴能与更广泛的数据科学社区分享。
Label Studio社区负责人Chris Hoge是本报告的主要作者。