CSVDataset

class dgl.data.CSVDataset(data_path, force_reload=False, verbose=True, ndata_parser=None, edata_parser=None, gdata_parser=None, transform=None)[source]

Bases: DGLDataset

从CSV文件加载和解析图形数据的Dataset类。

此类需要以下额外的包:

  • pyyaml >= 5.4.1

  • pandas >= 1.1.5

  • pydantic >= 1.9.0

解析后的图和特征数据将被缓存以便更快地重新加载。如果源CSV文件被修改,请指定force_reload=True以从它们重新解析。

Parameters:
  • data_path (str) – 包含 'meta.yaml' 和 CSV 文件的目录

  • force_reload (bool, 可选) – 是否重新加载数据集。默认值:False

  • verbose (bool, optional) – 是否打印进度信息。默认值:True。

  • ndata_parser (dict[str, callable] or callable, optional) – 可调用对象,该对象接收从CSV文件创建的pandas.DataFrame对象,解析节点数据并返回解析后的数据字典。如果给定一个字典,键是节点类型,值是一个可调用对象,用于解析相应节点类型的数据。如果给定一个单一的可调用对象,则该对象用于解析所有节点类型的数据。默认值为None。如果为None,则应用默认的数据解析器,该解析器直接加载数据并尝试将列表转换为数组。

  • edata_parser (dict[(str, str, str), callable], or callable, optional) – 可调用对象,它接收从CSV文件创建的pandas.DataFrame对象,解析边缘数据并返回解析后的数据字典。如果给定一个字典,键是边缘类型,值是一个可调用对象,用于解析相应边缘类型的数据。如果给定一个单一的可调用对象,则该对象用于解析所有边缘类型的数据。默认值为None。如果为None,则应用默认的数据解析器,该解析器直接加载数据并尝试将列表转换为数组。

  • gdata_parser (可调用, 可选) – 可调用对象,它接收从CSV文件创建的pandas.DataFrame对象,解析图形数据并返回解析后的数据字典。默认值:无。如果为None,则应用默认的数据解析器,该解析器直接加载数据并尝试将列表转换为数组。

  • transform (callable, optional) – A transform that takes in a DGLGraph object and returns a transformed version. The DGLGraph object will be transformed before every access.

graphs

数据集的图表

Type:

dgl.DGLGraph

data

任何可用的图级别数据,如图级别特征、标签。

Type:

dict

示例

请参考4.6 从CSV文件加载数据

__getitem__(i)[source]

获取索引处的数据对象。

__len__()[source]

数据集中的示例数量。