CSVDataset

class dgl.data.CSVDataset(data_path, force_reload=False, verbose=True, ndata_parser=None, edata_parser=None, gdata_parser=None, transform=None)[source]

Bases: DGLDataset

从CSV文件加载和解析图形数据的Dataset类。

此类需要以下额外的包：

pyyaml >= 5.4.1

pandas >= 1.1.5

pydantic >= 1.9.0

解析后的图和特征数据将被缓存以便更快地重新加载。如果源CSV文件被修改，请指定force_reload=True以从它们重新解析。

Parameters:

data_path (str) – 包含 'meta.yaml' 和 CSV 文件的目录
force_reload (bool, 可选) – 是否重新加载数据集。默认值：False
verbose (bool, optional) – 是否打印进度信息。默认值：True。
ndata_parser (dict[str, callable] or callable, optional) – 可调用对象，该对象接收从CSV文件创建的pandas.DataFrame对象，解析节点数据并返回解析后的数据字典。如果给定一个字典，键是节点类型，值是一个可调用对象，用于解析相应节点类型的数据。如果给定一个单一的可调用对象，则该对象用于解析所有节点类型的数据。默认值为None。如果为None，则应用默认的数据解析器，该解析器直接加载数据并尝试将列表转换为数组。
edata_parser (dict[(str, str, str), callable], or callable, optional) – 可调用对象，它接收从CSV文件创建的pandas.DataFrame对象，解析边缘数据并返回解析后的数据字典。如果给定一个字典，键是边缘类型，值是一个可调用对象，用于解析相应边缘类型的数据。如果给定一个单一的可调用对象，则该对象用于解析所有边缘类型的数据。默认值为None。如果为None，则应用默认的数据解析器，该解析器直接加载数据并尝试将列表转换为数组。
gdata_parser (可调用, 可选) – 可调用对象，它接收从CSV文件创建的pandas.DataFrame对象，解析图形数据并返回解析后的数据字典。默认值：无。如果为None，则应用默认的数据解析器，该解析器直接加载数据并尝试将列表转换为数组。
transform (callable, optional) – A transform that takes in a DGLGraph object and returns a transformed version. The DGLGraph object will be transformed before every access.

graphs

数据集的图表

Type:: dgl.DGLGraph

data

任何可用的图级别数据，如图级别特征、标签。

Type:: dict

示例

请参考4.6 从CSV文件加载数据。

__getitem__(i)[source]: 获取索引处的数据对象。

__len__()[source]: 数据集中的示例数量。