文件夹结构¶

示例结构索引¶

在项目中，您只需要使用一个数据集进行实验。项目文件夹是用户运行的起始目录。

project_folders

试验(Trial)指的是实验的一次单独运行。每次试验都可以通过不同的配置YAML文件使用不同设置来运行。如果存在多个试验文件夹，意味着您进行了多次实验运行。我们建议在相同数据上使用不同设置运行多次试验，以找到最佳的RAG流程。

文件夹名称由运行的试验次数决定。第一个试验文件夹命名为0，第二个试验文件夹命名为1，依此类推。您也可以在trial.json文件中查看这一点。

trial_folder

您本次试验使用的YAML文件。

提示

你可以查看完整的config.yaml示例文件。

完整试验摘要csv文件

每行显示节点连线、选中的模块、模块使用的文件与参数，以及处理耗时。

trail_summary

node_line_folder

node_line_summary

包含从每个节点精选的最佳模块和配置。您可以查看节点信息、所选模块、使用的文件与参数，以及处理单行数据所耗费的时间。

另请参阅

不知道如何处理Node Line？查看模块化RAG路线图。

属于node_line的节点名称

node_folder

根据模块和模块参数的不同，您可以在节点上运行不同的实验。下图展示了在单个节点上进行的三个实验。

提示

在图片中，第一个结果是三个实验中最优的，因此最佳文件名是 best_0。

每个节点的结果。所有尝试和评估指标结果均被记录。

node_summary

注意

所有其他节点行和节点都按照上述相同格式组织。逐一解释会过于冗长，但我们希望您能理解这种结构。

data_folder

corpus.parquet ⇒ 语料数据集
qa.parquet ⇒ 问答数据集

提示

问答数据可以仅以qa.parquet形式存在，但建议将其拆分为训练集和测试集以获得更精确的优化。查看此处了解如何构建问答数据集和语料数据集。

resources_folder

它包含每次试验的相关信息。

trial_json