数据创建

数据创建是使用AutoRAG的关键流程。因为AutoRAG需要评估数据集来优化RAG流程。 以下指南将介绍如何使用LLM创建AutoRAG可用的数据格式。

基础概念

Data Creation Pipeline

在这个新的数据创建流程中,我们包含三个模式:RawQACorpus

  • Raw: 解析文档后获得的原始数据。您可以使用这些数据来创建Corpus数据。

  • QA: 问答对。数据集的主要部分。您需要编写优质的问答对以准确评估RAG流程。

  • Corpus: 语料库是LLM用于生成答案的文本数据。 您可以使用语料库来生成问题的答案。 您需要通过解析和分块处理从文档中创建语料库数据。

换句话说, Raw : 原始解析数据 Corpus : 分块数据 QA : 基于语料库的问题与答案数据集

要查看数据创建的教程,请点击这里