数据集#

数据集被封装在Dataset对象中。 Dataset通常会与utils.data.DataLoader一起使用，以批量加载数据。 DataLoader还可以处理多工作者的并行数据加载，并应用数据洗牌。

要能够使用您的数据，您需要：

创建一个DataClass的子类，定义数据结构，包括一个唯一标识符、用于LLM调用的输入和输出字段。
创建一个utils.data.Dataset的子类，定义如何加载数据（本地/云端），分割数据，并将其转换为你定义的DataClass，以及如何加载和预处理数据。可选地，你可以使用PyTorch的数据集，唯一的问题是它通常与Tensor一起工作，你需要在某个时候将其转换回普通数据。

默认情况下，AdalFlow将任何下载的数据集保存在~/.adalflow/cached_datasets目录中。

你可以在Datasets目录中看到许多示例。 DataClass的示例可以在types中找到。