跳至内容
Ragas
📚 核心概念
初始化搜索
explodinggradients/ragas
🚀 快速开始
📚 核心概念
🧪 实验性功能
🛠️ 操作指南
📖 参考文献
❤️ 社区
Ragas
explodinggradients/ragas
🚀 开始使用
🚀 Get Started
安装
评估你的第一个 LLM 应用
评估一个简单的RAG
为RAG生成合成测试集
📚 核心概念
📚 Core Concepts
组件
Components
General
General
提示
Evaluation
Evaluation
评估示例
评估数据集
指标
Metrics
概览
可用指标
Available Metrics
Retrieval Augmented Generation
Retrieval Augmented Generation
上下文精确度
上下文召回
上下文实体召回率
噪声敏感性
响应相关性
忠实性
Nvidia Metrics
Nvidia Metrics
回答准确性
上下文相关性
回答的依据性
Agents or Tool Use Cases
Agents or Tool Use Cases
智能体或工具使用
主题一致性
工具调用准确率
智能体目标准确率
Natural Language Comparison
Natural Language Comparison
事实准确性
语义相似度
Traditional non LLM metrics
Traditional non LLM metrics
传统NLP指标
非 LLM 字符串相似度
BLEU 分数
ROUGE 得分
字符串存在性
精确匹配
SQL
SQL
SQL
基于执行的 Datacompy 得分
SQL 查询等价性
General Purpose
General Purpose
通用指标
方面评论家
简单标准评分
基于评分量表的评分
实例特定评分标准打分
Other Tasks
Other Tasks
摘要
测试数据生成
Test Data Generation
RAG
RAG
RAG测试集生成
KG 大楼
场景生成
Agents or tool use
Agents or tool use
用于智能体或工具用例的测试集生成
Feedback Intelligence
反馈智能
🧪 实验性
🧪 Experimental
教程
Tutorials
提示
RAG
工作流
智能体
核心概念
Core Concepts
指标
数据集
实验
🛠️ 操作指南
🛠️ How-to Guides
自定义
Customizations
General
General
自定义模型
运行配置
缓存
Metrics
Metrics
修改提示词
适配指标至不同语言
编写你自己的指标
编写你自己的指标 -(高级)
Testset Generation
Testset Generation
非英语测试集生成
角色生成
自定义单跳查询
自定义多跳查询
应用
Applications
Metrics
Metrics
成本分析
评估多轮对话
对 Vertex AI 模型的评估
Testset Generation
Testset Generation
单跳查询测试集
Benchmarking
Benchmarking
对Gemini模型进行基准测试
集成
Integrations
Arize
Amazon Bedrock
Haystack
Griptape
LangChain
LangGraph
LangSmith
LlamaIndex RAG
LlamaIndex 智能体
LlamaStack
R2R
集群
Migrations
Migrations
从 v0.1 到 v0.2
📖 参考文献
📖 References
Core
Core
提示
大型语言模型
嵌入
RunConfig
执行器
缓存
Evaluation
Evaluation
模式
指标
evaluate()
Testset Generation
Testset Generation
模式
图表
转换
合成器
生成
集成
❤️ 社区
📚 核心概念
Metrics
Datasets and Experiment Results
实验
Back to top