文件夹结构

示例结构索引

项目

在项目中,您只需要使用一个数据集进行实验。 项目文件夹是用户运行的起始目录。

project_folders

试用

试验(Trial)指的是实验的一次单独运行。 每次试验都可以通过不同的配置YAML文件使用不同设置来运行。 如果存在多个试验文件夹,意味着您进行了多次实验运行。 我们建议在相同数据上使用不同设置运行多次试验,以找到最佳的RAG流程。

文件夹名称由运行的试验次数决定。 第一个试验文件夹命名为0,第二个试验文件夹命名为1,依此类推。 您也可以在trial.json文件中查看这一点。

trial_folder

config.yaml

您本次试验使用的YAML文件。

提示

你可以查看完整的config.yaml示例文件。

[试用版] summary.csv

完整试验摘要csv文件

每行显示节点连线、选中的模块、模块使用的文件与参数,以及处理耗时。

trail_summary

pre_retrieve_node_line

node_line_folder

[节点线路] summary.csv

node_line_summary

包含从每个节点精选的最佳模块和配置。 您可以查看节点信息、所选模块、使用的文件与参数,以及处理单行数据所耗费的时间。

另请参阅

不知道如何处理Node Line? 查看模块化RAG路线图

查询扩展

属于node_line的节点名称

node_folder

根据模块和模块参数的不同,您可以在节点上运行不同的实验。 下图展示了在单个节点上进行的三个实验。

  • 0.parquet

  • 1.parquet

  • best_(index).parquet ⇒ 节点上的最佳结果

提示

在图片中,第一个结果是三个实验中最优的,因此最佳文件名是 best_0。

[节点] summary.csv

每个节点的结果。所有尝试和评估指标结果均被记录。

node_summary

retrieve_node_line

注意

所有其他节点行和节点都按照上述相同格式组织。 逐一解释会过于冗长,但我们希望您能理解这种结构。

数据

data_folder

  • corpus.parquet ⇒ 语料数据集

  • qa.parquet ⇒ 问答数据集

    提示

    问答数据可以仅以qa.parquet形式存在,但建议将其拆分为训练集和测试集以获得更精确的优化。 查看此处了解如何构建问答数据集和语料数据集。

资源

resources_folder

  • bm25.pkl: 使用bm25时创建的文件

  • chroma: 使用向量数据库时创建

    • collection_name = embedding model的名称

trial.json

它包含每次试验的相关信息。

trial_json