数据集#

数据集被封装在Dataset对象中。 Dataset通常会与utils.data.DataLoader一起使用,以批量加载数据。 DataLoader还可以处理多工作者的并行数据加载,并应用数据洗牌。

要能够使用您的数据,您需要:

  1. 创建一个DataClass的子类,定义数据结构,包括一个唯一标识符、用于LLM调用的输入和输出字段。

  2. 创建一个utils.data.Dataset的子类,定义如何加载数据(本地/云端),分割数据,并将其转换为你定义的DataClass,以及如何加载和预处理数据。可选地,你可以使用PyTorch的数据集,唯一的问题是它通常与Tensor一起工作,你需要在某个时候将其转换回普通数据。

默认情况下,AdalFlow将任何下载的数据集保存在~/.adalflow/cached_datasets目录中。

你可以在Datasets目录中看到许多示例。 DataClass的示例可以在types中找到。