跳转到内容

评估中

评估与基准测试是LLM开发中的关键概念。要提升LLM应用(RAG、智能体)的性能,必须建立有效的衡量方法。

LlamaIndex 提供关键模块来衡量生成结果的质量。我们还提供关键模块来衡量检索质量。

  • 响应评估: 响应是否与检索到的上下文匹配?是否也与查询匹配?是否与参考答案或指南匹配?
  • 检索评估: 检索到的来源是否与查询相关?

本节描述了LlamaIndex中的评估组件如何工作。

生成结果的评估可能很困难,因为与传统机器学习不同,预测结果不是单一数值,而且很难为此问题定义量化指标。

LlamaIndex 提供基于大语言模型的评估模块来衡量结果质量。该方法使用“黄金标准”大语言模型(例如 GPT-4)通过多种方式判断预测答案是否正确。

请注意,当前许多评估模块并不需要真实标签。评估可以通过查询、上下文、响应的某种组合来完成,并结合这些内容进行LLM调用。

这些评估模块采用以下形式:

  • 正确性: 在给定查询的情况下,生成的答案是否与参考答案相匹配(需要标签)。
  • 语义相似度 预测答案与参考答案在语义上是否相似(需要标签)。
  • 忠实性: 评估答案是否忠实于检索到的上下文(换言之,是否存在幻觉)。
  • 上下文相关性: 检索到的上下文是否与查询相关。
  • 答案相关性: 生成的答案是否与查询相关。
  • 指南遵循度: 预测答案是否遵循特定指南。

除了评估查询,LlamaIndex 还可以利用您的数据生成待评估的问题。这意味着您可以自动生成问题,然后运行评估流程来测试 LLM 是否能够准确使用您的数据回答问题。

我们还提供模块来帮助独立评估检索。

检索评估的概念并不新鲜;给定一个包含问题和真实排名的数据集,我们可以使用平均倒数排名(MRR)、命中率、精确度等排序指标来评估检索器。

核心检索评估步骤围绕以下内容展开:

  • 数据集生成: 给定非结构化文本语料库,合成生成(问题,上下文)对。
  • 检索评估: 给定一个检索器和一组问题,使用排序指标评估检索结果。

我们还集成了社区评估工具。

有关完整使用详情,请参阅以下使用模式。

使用这些组件的笔记本可在模块指南中找到。

有关如何使用各种评估数据集对RAG系统进行评估的详细信息,请参见下文: