Related resources from around the web

人们正在开发出色的工具和论文来提升GPT的输出质量。以下是我们看到的一些很酷的项目：

提示库与工具（按字母顺序排列）

Arthur Shield: 一款付费产品，用于检测毒性内容、幻觉、提示注入等。
Baserun: 一款用于测试、调试和监控基于LLM应用的付费产品
Chainlit: 一个用于创建聊天机器人界面的Python库。
ElatoAI: 一个基于Deno Edge Runtime和Supabase的平台，可在Arduino的ESP32上运行OpenAI实时API语音功能。
Embedchain: 一个用于管理和同步非结构化数据与LLMs的Python库。
FLAML (自动化机器学习与调优的快速库): 一个用于自动化选择模型、超参数及其他可调选项的Python库。
Guidance: 微软推出的一个便捷Python库，采用Handlebars模板引擎实现生成、提示和逻辑控制的交织编排。
Haystack: 开源的LLM编排框架，用于在Python中构建可定制、生产就绪的LLM应用。
HoneyHive: 一个用于评估、调试和监控LLM应用的企业平台。
LangChain: 一个流行的Python/JavaScript库，用于链接语言模型提示序列。
LiteLLM: 一个极简的Python库，用于以统一格式调用LLM API。
LlamaIndex: 一个Python库，用于通过数据增强LLM应用。
LLMOps Database: 记录企业如何在生产环境中实际部署LLM的数据库。
LMQL: 一种用于大语言模型交互的编程语言，支持类型化提示、控制流、约束条件和工具。
OpenAI Evals: 一个用于评估语言模型和提示词任务性能的开源库。
Outlines: 一个Python库，提供领域特定语言来简化提示和约束生成。
Parea AI: 一个用于调试、测试和监控LLM应用的平台。
Portkey: 一个为LLM应用提供可观测性、模型管理、评估和安全性的平台。
Promptify: 一个小型Python库，用于利用语言模型执行自然语言处理任务。
PromptPerfect: 一款付费产品，用于测试和优化提示词。
Prompttools: 开源的Python工具，用于测试和评估模型、向量数据库及提示词。
Scale Spellbook: 一个付费产品，用于构建、比较和部署语言模型应用。
Semantic Kernel: 微软推出的一个Python/C#/Java库，支持提示模板、函数链式调用、向量化内存和智能规划。
Vellum: 一个付费的AI产品开发平台，用于实验、评估和部署先进的LLM应用。
Weights & Biases: 一款付费产品，用于跟踪模型训练和提示工程实验。
YiVal: 一款开源的GenAI-Ops工具，用于通过可定制的数据集、评估方法和进化策略来调优和评估提示词、检索配置及模型参数。

提示指南

Brex的提示工程指南: Brex关于语言模型和提示工程的介绍。
learnprompting.org: 提示工程入门课程。
Lil'Log Prompt Engineering: 一位OpenAI研究员对提示工程文献的综述（截至2023年3月）。
OpenAI Cookbook: 提升可靠性的技巧: 一份稍早（2022年9月）关于语言模型提示技术的回顾。
promptingguide.ai: 一份提示工程指南，展示了许多技术方法。
Xavi Amatriain的提示工程101 提示工程入门和202高级提示工程: 一个基础但观点鲜明的提示工程介绍，以及从思维链(CoT)开始的包含许多高级方法的后续合集。

视频课程

Andrew Ng的DeepLearning.AI: 面向开发者的提示工程短期课程。
Andrej Karpathy的《让我们构建GPT》: 深入探讨GPT背后的机器学习原理。
Prompt Engineering by DAIR.AI: 一段关于各种提示工程技巧的一小时视频。
Scrimba课程关于Assistants API: 一个30分钟的互动课程，介绍Assistants API。
LinkedIn课程：提示工程入门：如何与AI对话: 提示工程的短视频介绍

关于提升推理能力的高级提示技巧论文

思维链提示激发大语言模型的推理能力 (2022): 通过少量示例提示要求模型逐步思考，可显著提升其推理表现。PaLM在数学应用题数据集(GSM8K)上的得分从18%提升至57%。
Self-Consistency Improves Chain of Thought Reasoning in Language Models (2022): 通过对多个输出结果进行投票可以进一步提高准确性。在40个输出结果中进行投票，将PaLM在数学应用题上的得分从57%提升至74%，并使code-davinci-002的得分从60%提升至78%。
思维树：利用大型语言模型进行深思熟虑的问题解决（2023）: 对逐步推理的思维树进行搜索比思维链投票效果更好。这种方法提升了GPT-4在创意写作和填字游戏上的得分。
语言模型是零样本推理器 (2022): 指示遵循模型逐步思考可以提升其推理能力。这使text-davinci-002在数学应用题(GSM8K)上的得分从13%提升到了41%。
大型语言模型达到人类水平的提示工程能力 (2023): 通过自动搜索可能的提示词，发现一个能将数学应用题(GSM8K)得分提升至43%的提示词，比《语言模型是零样本推理者》中人工编写的提示词高出2个百分点。
重新提示：通过吉布斯采样自动推断思维链提示 (2023): 通过自动搜索可能的思维链提示，将ChatGPT在几个基准测试中的得分提高了0-20个百分点。
Faithful Reasoning Using Large Language Models (2022): 通过结合以下组件可以提升推理能力：由备选选择和推理提示生成的思想链、决定何时停止选择-推理循环的停止模型、用于在多条推理路径中进行搜索的价值函数，以及有助于避免幻觉的句子标签。
STaR: 通过推理引导推理 (2022): 思维链推理可以通过微调融入模型中。对于有标准答案的任务，语言模型可以生成示例思维链。
ReAct: 语言模型中推理与行动的协同作用 (2023): 对于需要使用工具或与环境交互的任务，如果预先规定在推理步骤（思考该做什么）和行动步骤（从工具或环境中获取信息）之间交替进行，思维链的效果会更好。
Reflexion: 具备动态记忆与自我反思能力的自主智能体 (2023): 通过记忆先前失败经验并重试任务，可提升后续表现。
Demonstrate-Search-Predict: 检索与语言模型在知识密集型NLP中的组合应用 (2023): 通过"检索-阅读"机制增强知识能力的模型，可以通过多跳搜索链进一步提升性能。
通过多智能体辩论提升语言模型的事实性与推理能力(2023): 让多个ChatGPT智能体进行多轮辩论，可提高各类基准测试得分。数学应用题得分从77%提升至85%。

2023年1月20日

来自网络的相关资源

提示库与工具（按字母顺序排列）

提示指南

视频课程

关于提升推理能力的高级提示技巧论文