数据集#
数据集被封装在Dataset对象中。
Dataset通常会与utils.data.DataLoader一起使用,以批量加载数据。
DataLoader还可以处理多工作者的并行数据加载,并应用数据洗牌。
要能够使用您的数据,您需要:
创建一个
DataClass的子类,定义数据结构,包括一个唯一标识符、用于LLM调用的输入和输出字段。创建一个
utils.data.Dataset的子类,定义如何加载数据(本地/云端),分割数据,并将其转换为你定义的DataClass,以及如何加载和预处理数据。可选地,你可以使用PyTorch的数据集,唯一的问题是它通常与Tensor一起工作,你需要在某个时候将其转换回普通数据。
默认情况下,AdalFlow将任何下载的数据集保存在~/.adalflow/cached_datasets目录中。