文件夹结构¶
示例结构索引¶
-
-
-
-
0.parquet
…
最佳_(索引).parquet
-
节点名称
…
节点名称
…
-
项目¶
在项目中,您只需要使用一个数据集进行实验。 项目文件夹是用户运行的起始目录。

试用¶
试验(Trial)指的是实验的一次单独运行。 每次试验都可以通过不同的配置YAML文件使用不同设置来运行。 如果存在多个试验文件夹,意味着您进行了多次实验运行。 我们建议在相同数据上使用不同设置运行多次试验,以找到最佳的RAG流程。
文件夹名称由运行的试验次数决定。
第一个试验文件夹命名为0,第二个试验文件夹命名为1,依此类推。
您也可以在trial.json文件中查看这一点。

config.yaml¶
您本次试验使用的YAML文件。
提示
你可以查看完整的config.yaml示例文件。
[试用版] summary.csv¶
完整试验摘要csv文件
每行显示节点连线、选中的模块、模块使用的文件与参数,以及处理耗时。

pre_retrieve_node_line¶

[节点线路] summary.csv¶

包含从每个节点精选的最佳模块和配置。 您可以查看节点信息、所选模块、使用的文件与参数,以及处理单行数据所耗费的时间。
另请参阅
不知道如何处理Node Line? 查看模块化RAG路线图。
查询扩展¶
属于node_line的节点名称

根据模块和模块参数的不同,您可以在节点上运行不同的实验。 下图展示了在单个节点上进行的三个实验。
0.parquet
1.parquet
…
best_(index).parquet ⇒ 节点上的最佳结果
提示
在图片中,第一个结果是三个实验中最优的,因此最佳文件名是 best_0。
[节点] summary.csv¶
每个节点的结果。所有尝试和评估指标结果均被记录。

retrieve_node_line¶
注意
所有其他节点行和节点都按照上述相同格式组织。 逐一解释会过于冗长,但我们希望您能理解这种结构。
数据¶

corpus.parquet ⇒ 语料数据集
qa.parquet ⇒ 问答数据集
提示
问答数据可以仅以qa.parquet形式存在,但建议将其拆分为训练集和测试集以获得更精确的优化。 查看此处了解如何构建问答数据集和语料数据集。
资源¶

bm25.pkl: 使用bm25时创建的文件chroma: 使用向量数据库时创建collection_name =
embedding model的名称
trial.json¶
它包含每次试验的相关信息。
