跳到主要内容

一篇带有“路线图”标签的文章

查看所有标签

· 11 min read
Chi Wang

autogen is loved

TL;DR

  • AutoGen 获得了巨大的关注和认可。
  • Autogen 有许多令人兴奋的新功能和正在进行的研究。

自从AutoGen从FLAML中独立出来已经过去了五个月。从那时起,我们学到了什么?我们取得了哪些里程碑?接下来会有什么计划?

背景

AutoGen 是由两个大问题驱动的:

  • 未来的AI应用会是什么样子?
  • 我们如何赋能每位开发者构建它们?

去年,我与宾夕法尼亚州立大学和华盛顿大学的同事及合作者一起,致力于开发一个新的多代理框架,以推动由大型语言模型驱动的下一代应用程序。 我们一直在构建AutoGen,作为一个面向代理AI的编程框架,就像PyTorch之于深度学习。 我们在开源项目FLAML中开发了AutoGen:一个用于AutoML和调优的快速库。在进行了诸如EcoOptiGenMathChat等研究之后,我们在8月份发布了一份关于多代理框架的技术报告。 10月份,我们将AutoGen从FLAML转移到了GitHub上的独立仓库,并发布了一份更新后的技术报告

反馈

从那时起,我们每天、每个地方都收到新的反馈。用户对AutoGen带来的新能力水平表现出了非常高的认可。例如,在X(Twitter)或YouTube上有许多类似的评论。

Autogen给了我同样的“顿悟”时刻,这种感觉自从我第一次尝试GPT-3以来就再也没有感受到过。

自从ChatGPT以来,我从未如此惊讶。

许多用户深刻理解不同维度的价值,如模块化、灵活性和简洁性。

autogen之所以重要,原因与OOP是一个好想法的原因相同。Autogen将所有复杂性打包成一个我可以用一行代码创建的agent,或者用另一行代码进行修改。

随着时间的推移,越来越多的用户分享了他们在使用或贡献autogen方面的经验。

在我们的数据科学部门,Autogen正在帮助我们开发一个生产就绪的多代理框架。

Sam Khalil,数据洞察副总裁兼FounData负责人,诺和诺德

当我为学生构建一个互动学习工具时,我寻找了一个既能简化物流又能提供足够灵活性的工具,以便我可以使用定制化的工具。AutoGen具备这两点。它简化了工作。感谢Chi和他的团队与社区分享如此出色的工具。

Yongsheng Lian,路易斯维尔大学机械工程教授

激动人心的消息:最新的AutoGen版本现在包含我的贡献……这次经历是学习和贡献的完美结合,展示了科技社区的活力和协作精神。

达沃尔·龙杰,@ airt 联合创始人 / @ CISEx 董事会主席

在图茨大学数据密集型研究中心的资助支持下,我们的团队希望解决学生在从本科课程过渡到研究生课程时面临的一些挑战,特别是在图茨大学医学院的物理治疗博士课程中。我们正在试验使用Autogen来创建定制评估、个性化学习指南和针对性辅导。这种方法比我们使用标准聊天机器人取得的结果显著更好。在Chi及其在微软的团队的帮助下,我们当前的实验包括在顺序聊天中使用多个代理、可教导的代理和循环辩论格式。这些方法在我们探索的其他大型语言模型(LLMs)中在生成评估和反馈方面被证明更有效。我还在我的初级保健课程中通过Autogen使用了OpenAI Assistant代理,通过数字模拟促进学生参与患者访谈。该代理从已发表的病例研究中检索了真实患者的信息,使学生能够在真实的信息中练习他们的访谈技巧。

Benjamin D Stern,硕士,物理治疗博士,辅助教授,物理治疗项目博士,塔夫茨大学医学院

Autogen彻底改变了我们分析公司和产品的方式!通过AI代理之间的协作讨论,我们能够大大缩短研究和分析过程的时间。

贾斯汀·特鲁格曼,BetterFutureLabs的联合创始人兼技术负责人

这些只是一小部分示例。我们看到了来自几乎每个垂直行业的大型企业客户的兴趣:会计、航空、生物技术、咨询、消费品、电子、娱乐、金融、金融科技、政府、医疗保健、制造商、金属、制药、研究、零售商、社交媒体、软件、供应链、技术、电信…

AutoGen被全球从A到Z的公司、组织、大学使用或贡献。我们已经看到了数百个示例应用。一些组织使用AutoGen作为构建其代理平台的支柱。其他人则将AutoGen用于各种场景,包括研究、投资以及多代理的新颖和创意应用。

里程碑

Autogen拥有一个庞大且活跃的开发者、研究人员和人工智能实践者社区。

  • GitHub上有22K+星标,3K+分支
  • Discord上有14K+成员
  • 每月下载量超过10万次
  • YouTube 上的观看量超过 3M(400 多个由社区生成的视频)
  • Google Scholar上有100+引用

我对他们的创造力和热情感到非常惊讶。 我也很欣赏 AutoGen 所获得的认可和奖项,例如:

3月1日,在具有挑战性的GAIA基准测试上,首次进行的AutoGen多代理实验在所有三个级别上都实现了大幅跃升,取得了第一的准确率。

gaia

这显示了使用AutoGen解决复杂任务的巨大潜力。这只是社区努力回答一些难题的开始。

开放性问题

AutoGen技术报告中,我们提出了许多具有挑战性的研究问题:

  1. 如何设计最佳的多代理工作流?
  2. 如何创建高效能的代理?
  3. 如何实现扩展性、安全性和人类代理?

社区一直在多个方面努力解决这些问题:

  • 评估。便捷且深入的评估是取得扎实进展的基础。
  • 接口。一个直观、表达力强且标准化的接口是快速实验和优化的前提。
  • 优化。为了满足特定的应用需求,需要对多代理交互设计(例如分解)和单个代理能力进行优化。
  • 集成。与新技术的集成是增强代理能力的有效方法。
  • 学习/教学。代理学习和教学是代理优化其性能、实现人类代理和增强安全性的直观方法。

新功能与持续研究

评估

我们正在开发基于代理的评估工具和基准测试工具。例如:

  • AgentEval. 我们的研究发现,使用AutoGen构建的LLM代理可以用于自动识别评估标准,并根据任务描述和执行日志评估性能。这在notebook示例中得到了展示。欢迎反馈和帮助将其构建到库中。
  • AutoGenBench. AutoGenBench 是一个命令行工具,用于下载、配置、运行代理基准测试并报告结果。它旨在通过利用新的运行时日志功能来实现重复性、隔离性和工具化。

这些工具已被用于改进AutoGen库及其应用程序。例如,通过多代理解决方案在GAIA基准测试中实现的新状态性能受益于这些评估工具。

接口

我们正在快速进展,进一步改进界面,使其更加容易构建代理应用。例如:

  • AutoBuild. AutoBuild 是一个正在研究的领域,旨在为给定任务和目标自动创建或选择一组代理。如果成功,它将大大减少用户或开发人员在使用多代理技术时的努力。它还为处理复杂任务的代理分解铺平了道路。它作为一个实验性功能提供,并在两种模式中展示:自由形式的创建和从库中的选择
  • AutoGen Studio. AutoGen Studio 是一个无代码界面,用于快速进行多代理对话的实验。它降低了使用 AutoGen 技术的入门门槛。模型、代理和工作流程都可以在不编写代码的情况下进行配置。配置完成后,立即可以在一个游乐场中与多个代理进行聊天。虽然在这个示例应用中只有 autogen-agentchat 功能的一部分可用,但它展示了一个有前景的体验。这在社区中引起了极大的兴奋。
  • 对话编程+。AutoGen论文介绍了一个关键概念——对话编程,可以用来编程各种对话模式,例如一对一聊天、群聊、分层聊天、嵌套聊天等。虽然我们提供了动态群聊作为高级编排的示例,但它使得其他模式相对不那么容易被发现。因此,我们增加了更方便的对话编程功能,使得定义其他类型的复杂工作流程更加容易,例如基于有限状态机的群聊顺序聊天嵌套聊天。许多用户发现这些功能在实现特定模式时非常有用,这些模式一直都可以实现,但随着新增的功能变得更加明显。我将写另一篇博客文章进行深入探讨。

学习/优化/教学

此类别中的功能允许代理长期记住用户或其他代理的教导,或在迭代中改进。例如:

  • AgentOptimizer. 这项研究发现了一种在不修改模型的情况下训练LLM代理的方法。作为案例研究,该技术优化了一组Python函数,供代理在解决一组训练任务时使用。计划将其作为一个实验性功能提供。
  • EcoAssistant. 这项研究发现了一种多代理教学方法,通过使用由不同LLM驱动的不同能力的代理。例如,一个GPT-4代理可以通过演示来教导一个GPT-3.5代理。通过这种方法,只需要GPT-4成本的1/3或1/2,而在基于编码的问答中,成功率比GPT-4高10-20%。无需微调。你只需要一个GPT-4端点和GPT-3.5-turbo端点。希望能在AutoGen库中提供此技术作为一项功能。
  • 可教授性。AutoGen中的每个LLM代理都可以变得可教授,即从与其他代理的交互中记住事实、偏好、技能等。例如,用户代理背后的用户可以教授助理代理解决复杂数学问题的指令。一旦教授过一次,助理代理解决问题的成功率可以显著提高(例如,gpt-4-0613从37%提升到95%)。 teach 该功能也适用于GPTAssistantAgent(使用OpenAI的助手API)和群聊。可教授性+FSM群聊的一个有趣用例:教授韧性

集成

AutoGen 的可扩展设计使其易于与新技术集成。例如:

  • 自定义模型和客户端可以作为代理的后端使用,例如Huggingface模型和推理APIs。
  • OpenAI 助手可用作代理的后端(GPTAssistantAgent)。将其重新实现为自定义客户端以增加与 ConversableAgent 的兼容性将会很好。
  • 多模态. 像 GPT-4V 这样的 LMM 模型可以用于为代理提供视觉能力,并通过对其他代理的对话完成有趣的多模态任务,包括高级图像分析、图像生成以及图像生成中的自动迭代改进。

multimodal

以上仅涵盖了新功能和路线图的一部分。还有许多其他有趣的新功能、集成示例或示例应用程序:

寻求帮助

我感谢Discord社区中超过14K成员的大力支持。 尽管取得了许多令人兴奋的进展,仍有大量开放问题、问题和功能请求等待解决。 我们需要更多的帮助来应对这些具有挑战性的问题并加快开发速度。 我们欢迎大家加入我们的社区,共同定义AI代理的未来。

你觉得这个更新有用吗?你愿意加入我们吗?请加入我们的Discord服务器进行讨论。

contributors