跳至内容

Ragas 答疑时间 - 如果您需要在为 AI 应用设置 Evals 时获得帮助，请在 here 报名参加我们的答疑时间。

Ragas

📚 核心概念

初始化搜索

explodinggradients/ragas

🚀 快速开始
📚 核心概念
🧪 实验性功能
🛠️ 操作指南
📖 参考文献
❤️ 社区

Ragas

explodinggradients/ragas

🚀 开始使用
🚀 Get Started
📚 核心概念
📚 Core Concepts
- 组件
  Components
  - General
    General
    
    提示
  - Evaluation
    Evaluation
    
    评估示例
    
    评估数据集
- 指标
  Metrics
  - 概览
  - 可用指标
    
    Available Metrics
    
    Retrieval Augmented Generation
    Retrieval Augmented Generation
    
    上下文精确度
    
    上下文召回
    
    上下文实体召回率
    
    噪声敏感性
    
    响应相关性
    
    忠实性
    
    Nvidia Metrics
    Nvidia Metrics
    
    回答准确性
    
    上下文相关性
    
    回答的依据性
    
    Agents or Tool Use Cases
    Agents or Tool Use Cases
    
    智能体或工具使用
    
    主题一致性
    
    工具调用准确率
    
    智能体目标准确率
    
    Natural Language Comparison
    Natural Language Comparison
    
    事实准确性
    
    语义相似度
    
    Traditional non LLM metrics
    Traditional non LLM metrics
    
    传统NLP指标
    
    非 LLM 字符串相似度
    
    BLEU 分数
    
    ROUGE 得分
    
    字符串存在性
    
    精确匹配
    
    SQL
    SQL
    
    SQL
    
    基于执行的 Datacompy 得分
    
    SQL 查询等价性
    
    General Purpose
    General Purpose
    
    通用指标
    
    方面评论家
    
    简单标准评分
    
    基于评分量表的评分
    
    实例特定评分标准打分
    
    Other Tasks
    Other Tasks
    
    摘要
- 测试数据生成
  Test Data Generation
  - RAG
    RAG
    
    RAG测试集生成
    
    KG 大楼
    
    场景生成
  - Agents or tool use
    Agents or tool use
    
    用于智能体或工具用例的测试集生成
- Feedback Intelligence
  反馈智能
🧪 实验性
🧪 Experimental
- 教程
  Tutorials
  - 提示
  - RAG
  - 工作流
  - 智能体
- 核心概念
  Core Concepts
  - 指标
  - 数据集
  - 实验
🛠️ 操作指南
🛠️ How-to Guides
- 自定义
  Customizations
  - General
    General
    
    自定义模型
    
    运行配置
    
    缓存
  - Metrics
    Metrics
    
    修改提示词
    
    适配指标至不同语言
    
    编写你自己的指标
    
    编写你自己的指标 -（高级）
  - Testset Generation
    Testset Generation
    
    非英语测试集生成
    
    角色生成
    
    自定义单跳查询
    
    自定义多跳查询
- 应用
  Applications
  - Metrics
    Metrics
    
    成本分析
    
    评估多轮对话
    
    对 Vertex AI 模型的评估
  - Testset Generation
    Testset Generation
    
    单跳查询测试集
  - Benchmarking
    Benchmarking
    
    对Gemini模型进行基准测试
- 集成
  Integrations
  - Arize
  - Amazon Bedrock
  - Haystack
  - Griptape
  - LangChain
  - LangGraph
  - LangSmith
  - LlamaIndex RAG
  - LlamaIndex 智能体
  - LlamaStack
  - R2R
  - 集群
- Migrations
  Migrations
  - 从 v0.1 到 v0.2
📖 参考文献
📖 References
- Core
  Core
  - 提示
  - 大型语言模型
  - 嵌入
  - RunConfig
  - 执行器
  - 缓存
- Evaluation
  Evaluation
  - 模式
  - 指标
  - evaluate()
- Testset Generation
  Testset Generation
  - 模式
  - 图表
  - 转换
  - 合成器
  - 生成
- 集成
❤️ 社区

📚 核心概念

Metrics
Datasets and Experiment Results
实验

August 7, 2025 May 14, 2025 GitHub

上一步

智能体

Made with Material for MkDocs