NEW暗黑模式现已上线 🌓 Label Studio 1.18.0 版本发布

利用语言反馈改进RLHF

社区

2022年11月,《AI现状报告》发布了第五次调研,汇集了作者与评审专家眼中最具突破性的人工智能进展。这份超过110页的报告——包含摘要与大量参考文献——堪称迄今最全面的行业报告之一。透过这些洞见,我们可以断言2022年是以人为本AI发展的爆发之年,并从中窥见AI研究的未来走向。Label Studio团队特别关注到报告中用两页篇幅探讨"基于人类反馈的强化学习"(RLHF)的最新研究。这项最初在2017年出现的技术,旨在利用人类反馈优化机器学习模型。而近期我们发现,它正作为ChatGPT等大型生成模型的核心训练方法强势回归。

2022年将被铭记为ChatGPT等生成式模型席卷互联网想象力的一年。然而当用户被层出不穷的生成模型所震撼时,研究人员正致力于完善方法,利用富有表现力的人类反馈来提升模型微调效果。进入2023年,我们正见证这一趋势的兴起:通过直接、生动的人类反馈来优化机器学习模型,而实现这一目标的技术手段正变得越来越强大。

在本文的剩余部分,我们将探讨RLHF的基础知识、它们如何被用于构建像ChatGPT这样的模型,以及新研究在人类引导训练和优化方面的发展方向。

RLHF 高层次含义概述

RLHF从基于无监督学习训练的基础模型开始。这一步骤通常耗时且成本高昂,模型通过海量自动收集的数据构建,并采用无监督学习方法进行训练。这些模型提供了坚实的基础,能够捕捉海量知识。有了这些原始素材后,就可以进入RLFH流程的下一步:构建奖励模型,该模型接收一组输入并返回代表人类偏好的标量值。

为了训练这个奖励模型,一组提示词会被输入到原始模型中,从而生成一个新的输入/输出对数据集。人类评估者会为这些配对打分,根据一个旨在帮助平滑人类评估中固有偏见和噪声的系统进行排序(Elo评分,这种常用于比较国际象棋选手的技术是一个流行选择)。这些经过评分和排序的输入/输出对就构成了奖励模型的训练集。

该奖励模型随后与强化学习(RL)算法结合使用,以微调原始语言模型。微调方法有多种选择,其中近端策略优化(PPO)对于超大规模模型而言是一个流行且广为人知的选择。

构建您自己的人类反馈数据集

收集高质量的人工反馈对于成功的RLHF工作流程至关重要。如果您已准备好深入探索并尝试构建自己的奖励模型,我们整理了一些实践资源来帮助您入门:

  • 创建高质量的人类反馈强化学习数据集: 一份分步指南,介绍如何生成提示/响应对,使用Label Studio收集人类排名数据,并微调奖励模型以高效整合人类反馈。
  • 用于RLHF的人类偏好收集: 一个关于如何在Label Studio中设置项目、配置偏好标注界面以及收集比较数据以通过强化学习微调LLM的实用教程

这两份指南将引导您完成在Label Studio中设置任务、收集排名比较数据以及导出数据集用于奖励模型训练的整个过程。无论您使用的是GPT-2、Falcon还是自定义LLM,遵循这些方法都能让您的模型更接近用户期望的对话质量,就像ChatGPT这样的系统所提供的体验。

如果您对从初始提示到微调模型的完整流程感兴趣,可以查看每篇指南中链接的详细Jupyter Notebooks和相关资源。

GPT-3、RLHF与ChatGPT

构建大型生成模型依赖于使用自动收集的海量数据集进行无监督学习。例如,GPT-3的训练数据来自"Common Crawl"、"Web Text"和其他数据源。当我们讨论这些数据集的规模时,确实是指巨大的规模:这些数据源包含PB级的数据,这是调整GPT-3中超过1750亿参数的必要条件。庞大的训练集和巨大的参数空间赋予了GPT-3作为通用语言模型的表达能力。

然而,这种无监督学习是有代价的。正如他们在关于GPT-3的原始论文中所说:"经过互联网训练的模型会带有互联网规模的偏见。"任何使用过即使是中等规模的公开语言数据集的人都知道,这些数据充满了偏见和有害言论,而这些偏见会被内置到由它们训练的模型中。为了对抗这些偏见,OpenAI转向RLHF来创建一个新的进化模型:InstructGPT

为了训练InstructGPT,研究人员挑选了40名人类标注员,他们"对不同人群的偏好敏感,擅长识别可能有害的输出",负责提供训练反馈。强化学习数据集是通过将一组预定义输入传入GPT-3生成的。标注团队随后对这些提示/输出对进行排序,这些排序结果被用作训练集来微调GPT-3,从而创建出InstructGPT模型。

研究人员发现,InstructGPT模型在响应质量偏好、真实性、毒性和泛化能力等指标上显著优于GPT-3基线;其成本仅"相对于预训练而言较为适中"。总体而言,InstructGPT所需的计算训练资源约为GPT-3的0.15%。

InstructGPT随后成为ChatGPT的基础。ChatGPT作为一个广泛公开可用的大型生成模型,其成功依赖于对海量数据集的无监督训练,并结合人类反馈的监督训练。在之前公开发布聊天机器人的尝试失败的情况下,OpenAI在设计ChatGPT方面取得了令人印象深刻的改进,使其能够以对话方式进行交互,"回答后续问题、承认错误、质疑错误前提并拒绝不当请求"。

这种人机交互的对话方式让我们得以一窥这些大型模型的未来。这种方法不仅是一种与这些模型互动的新方式,更是一种日益重要的机制,用于精炼并持续改进它们。OpenAI在其ChatGPT界面中声明:"我们的目标是获取外部反馈,以改进我们的系统并使其更安全。"这种富有表现力的人类反馈将成为未来训练大型生成模型的关键组成部分,其作用将超越RLHF带来的改进。

使用语言反馈训练模型

尽管RLHF非常强大,但它存在局限性。对输入/输出对进行评分存在噪声,需要以某种方式抽象排名,以帮助平滑来自不同标注者的偏差。纽约大学的研究人员描述了这些局限性,指出"与人类使用的完整语言表达能力相比,RLHF偏好模型提供的学习信号有限"。为了克服这些限制,研究团队开发了一种新的改进方法——语言反馈(LF),该方法已经显示出显著的训练效果。

LF(长文本反馈)与RLHF(人类反馈强化学习)的运作机制类似,都是向模型输入提示词后,由人工标注团队评估生成结果。相较于以往通过排序响应进行强化学习的反馈方式,LF标注者会提供自然语言的长篇反馈,详细描述输出结果的改进建议。例如,当模型收到"总结《白鲸记》这本书"的提示时,若返回"《白鲸记》讲述亚哈船长追猎海豚复仇的故事"这样的摘要,人工标注者可能给出反馈:"摘要应说明《白鲸记》讲述的是亚哈船长追猎白鲸复仇的故事"。

这一针对原始提示的反馈,连同输出结果,将被用于从原始模型生成若干新的优化版本。与人类反馈相似度最高的优化版本将被用于对原始模型进行微调。

通过LF训练,研究人员展示了由表达性反馈构建的小型数据集所蕴含的强大力量和影响力。State of the AI报告指出:"仅使用100个人类撰写的反馈样本进行微调,就能使GPT-3模型达到接近人类水平的摘要能力。"

该模型通过极少量训练就提升了性能,并消除了对提示-文本对进行排序的繁琐过程。作者重申了这一流程的强大之处,指出:"语言反馈是与模型交流的自然形式,这可能让更多人更容易提供信息丰富、高质量的反馈。"

这些改进让我们重新认识到ChatGPT以人为中心界面的潜力。其互动式的聊天方式让每位用户都能提供丰富的反馈——这些反馈将成为下一代生成式AI高质量、针对性强的训练数据。

我们正处在一个大型生成模型发展的新阶段起点。尽管这些模型可能伴随着从大量机械收集的数据中训练所带来的巨大风险,但研究也表明,将人类信号应用于这些模型不仅能提高模型质量,还能减少危害。

这项研究最令人兴奋的方面之一是:即使生成模型通过自动化数据收集和无监督学习变得更强大,但精心应用人工信号总能产生更好的模型。这项工作强调了像Label Studio这样的开放数据标注平台的重要性,它们将促进创建具有诚信、安全性并注重减少偏见的机器学习模型。

相关内容

  • 来自我们社区的故事:Stop the Traffik

    当Stop the Traffik丢失了多年标注数据时,他们需要一种更快、更智能的重建方式。通过Label Studio,他们彻底改变了工作方式——为杂乱报告建立结构,集成AI进行预标注,并发现隐藏在显眼处的人口贩卖模式。

    HumanSignal团队

    2025年3月27日

  • 来自我们社区的故事:赋能低资源语言的NLP发展

    Shamsuddeen Hassan Muhammad和他的团队正在通过为豪萨语等低资源语言构建语言资源来推进非洲NLP发展。借助Label Studio,他们扩大了创建高质量数据集的规模,用于情感分析、仇恨言论检测和情绪识别,使AI更具包容性。

    Micaela Kaplan

    2025年2月27日

  • Ameru:为更绿色的世界而标注

    了解Ameru如何利用Label Studio驱动他们的智能垃圾桶,加速实现经济可持续的零废弃未来。

    米凯拉·卡普兰

    2024年10月8日