人们正在开发出色的工具和论文来提升GPT的输出质量。以下是我们看到的一些很酷的项目:
提示库与工具(按字母顺序排列)
- Arthur Shield: 一款付费产品,用于检测毒性内容、幻觉、提示注入等。
- Baserun: 一款用于测试、调试和监控基于LLM应用的付费产品
- Chainlit: 一个用于创建聊天机器人界面的Python库。
- ElatoAI: 一个基于Deno Edge Runtime和Supabase的平台,可在Arduino的ESP32上运行OpenAI实时API语音功能。
- Embedchain: 一个用于管理和同步非结构化数据与LLMs的Python库。
- FLAML (自动化机器学习与调优的快速库): 一个用于自动化选择模型、超参数及其他可调选项的Python库。
- Guidance: 微软推出的一个便捷Python库,采用Handlebars模板引擎实现生成、提示和逻辑控制的交织编排。
- Haystack: 开源的LLM编排框架,用于在Python中构建可定制、生产就绪的LLM应用。
- HoneyHive: 一个用于评估、调试和监控LLM应用的企业平台。
- LangChain: 一个流行的Python/JavaScript库,用于链接语言模型提示序列。
- LiteLLM: 一个极简的Python库,用于以统一格式调用LLM API。
- LlamaIndex: 一个Python库,用于通过数据增强LLM应用。
- LLMOps Database: 记录企业如何在生产环境中实际部署LLM的数据库。
- LMQL: 一种用于大语言模型交互的编程语言,支持类型化提示、控制流、约束条件和工具。
- OpenAI Evals: 一个用于评估语言模型和提示词任务性能的开源库。
- Outlines: 一个Python库,提供领域特定语言来简化提示和约束生成。
- Parea AI: 一个用于调试、测试和监控LLM应用的平台。
- Portkey: 一个为LLM应用提供可观测性、模型管理、评估和安全性的平台。
- Promptify: 一个小型Python库,用于利用语言模型执行自然语言处理任务。
- PromptPerfect: 一款付费产品,用于测试和优化提示词。
- Prompttools: 开源的Python工具,用于测试和评估模型、向量数据库及提示词。
- Scale Spellbook: 一个付费产品,用于构建、比较和部署语言模型应用。
- Semantic Kernel: 微软推出的一个Python/C#/Java库,支持提示模板、函数链式调用、向量化内存和智能规划。
- Vellum: 一个付费的AI产品开发平台,用于实验、评估和部署先进的LLM应用。
- Weights & Biases: 一款付费产品,用于跟踪模型训练和提示工程实验。
- YiVal: 一款开源的GenAI-Ops工具,用于通过可定制的数据集、评估方法和进化策略来调优和评估提示词、检索配置及模型参数。
提示指南
- Brex的提示工程指南: Brex关于语言模型和提示工程的介绍。
- learnprompting.org: 提示工程入门课程。
- Lil'Log Prompt Engineering: 一位OpenAI研究员对提示工程文献的综述(截至2023年3月)。
- OpenAI Cookbook: 提升可靠性的技巧: 一份稍早(2022年9月)关于语言模型提示技术的回顾。
- promptingguide.ai: 一份提示工程指南,展示了许多技术方法。
- Xavi Amatriain的提示工程101 提示工程入门和202高级提示工程: 一个基础但观点鲜明的提示工程介绍,以及从思维链(CoT)开始的包含许多高级方法的后续合集。
视频课程
- Andrew Ng的DeepLearning.AI: 面向开发者的提示工程短期课程。
- Andrej Karpathy的《让我们构建GPT》: 深入探讨GPT背后的机器学习原理。
- Prompt Engineering by DAIR.AI: 一段关于各种提示工程技巧的一小时视频。
- Scrimba课程关于Assistants API: 一个30分钟的互动课程,介绍Assistants API。
- LinkedIn课程:提示工程入门:如何与AI对话: 提示工程的短视频介绍
关于提升推理能力的高级提示技巧论文
- 思维链提示激发大语言模型的推理能力 (2022): 通过少量示例提示要求模型逐步思考,可显著提升其推理表现。PaLM在数学应用题数据集(GSM8K)上的得分从18%提升至57%。
- Self-Consistency Improves Chain of Thought Reasoning in Language Models (2022): 通过对多个输出结果进行投票可以进一步提高准确性。在40个输出结果中进行投票,将PaLM在数学应用题上的得分从57%提升至74%,并使
code-davinci-002的得分从60%提升至78%。 - 思维树:利用大型语言模型进行深思熟虑的问题解决(2023): 对逐步推理的思维树进行搜索比思维链投票效果更好。这种方法提升了
GPT-4在创意写作和填字游戏上的得分。 - 语言模型是零样本推理器 (2022): 指示遵循模型逐步思考可以提升其推理能力。这使
text-davinci-002在数学应用题(GSM8K)上的得分从13%提升到了41%。 - 大型语言模型达到人类水平的提示工程能力 (2023): 通过自动搜索可能的提示词,发现一个能将数学应用题(GSM8K)得分提升至43%的提示词,比《语言模型是零样本推理者》中人工编写的提示词高出2个百分点。
- 重新提示:通过吉布斯采样自动推断思维链提示 (2023): 通过自动搜索可能的思维链提示,将ChatGPT在几个基准测试中的得分提高了0-20个百分点。
- Faithful Reasoning Using Large Language Models (2022): 通过结合以下组件可以提升推理能力:由备选选择和推理提示生成的思想链、决定何时停止选择-推理循环的停止模型、用于在多条推理路径中进行搜索的价值函数,以及有助于避免幻觉的句子标签。
- STaR: 通过推理引导推理 (2022): 思维链推理可以通过微调融入模型中。对于有标准答案的任务,语言模型可以生成示例思维链。
- ReAct: 语言模型中推理与行动的协同作用 (2023): 对于需要使用工具或与环境交互的任务,如果预先规定在推理步骤(思考该做什么)和行动步骤(从工具或环境中获取信息)之间交替进行,思维链的效果会更好。
- Reflexion: 具备动态记忆与自我反思能力的自主智能体 (2023): 通过记忆先前失败经验并重试任务,可提升后续表现。
- Demonstrate-Search-Predict: 检索与语言模型在知识密集型NLP中的组合应用 (2023): 通过"检索-阅读"机制增强知识能力的模型,可以通过多跳搜索链进一步提升性能。
- 通过多智能体辩论提升语言模型的事实性与推理能力(2023): 让多个ChatGPT智能体进行多轮辩论,可提高各类基准测试得分。数学应用题得分从77%提升至85%。