DGL数据集

class dgl.data.DGLDataset(name, url=None, raw_dir=None, save_dir=None, hash_key=(), force_reload=False, verbose=False, transform=None)[source]

基础类:object

用于创建图数据集的基本DGL数据集。 此类定义了DGL数据集的基本模板类。 以下步骤将自动执行:

  1. 检查磁盘上是否存在数据集缓存 (已经处理并存储在磁盘上)通过 调用 has_cache()。如果为真,转到5。

  2. 如果 url 不是 None,则调用 download() 来下载数据。

  3. 调用 process() 来处理数据。

  4. 调用 save() 将处理后的数据集保存到磁盘并转到第6步。

  5. 调用 load() 从磁盘加载处理后的数据集。

  6. 完成。

用户可以覆盖这些函数,使用他们自己的数据处理逻辑。

Parameters:
  • name (str) – 数据集的名称

  • url (str) – 下载原始数据集的URL。默认值:None

  • raw_dir (str) – 指定将存储下载数据的目录或已经存储输入数据的目录。 默认值:~/.dgl/

  • save_dir (str) – 保存处理后的数据集的目录。 默认值:与 raw_dir 相同

  • hash_key (tuple) – 作为哈希函数输入的值的元组。 用户可以通过比较哈希值来区分来自同一数据集类的实例(及其在磁盘上的缓存)。 默认值:(),对应的哈希值为 'f9065fa7'

  • force_reload (bool) – 是否重新加载数据集。默认值:False

  • verbose (bool) – 是否打印进度信息

  • transform (callable, optional) – 一个转换函数,它接收一个 DGLGraph 对象并返回 一个转换后的版本。DGLGraph 对象将在每次访问前被转换。

url

下载数据集的URL

Type:

str

name

数据集名称

Type:

str

raw_dir

存储所有下载的原始数据集的目录。

Type:

str

raw_path

下载的原始数据集文件夹的路径。os.path.join(self.raw_dir, self.name)的别名。

Type:

str

save_dir

保存所有已处理数据集的目录。

Type:

str

save_path

处理后的数据集文件夹的路径。os.path.join(self.save_dir, self.name) 的别名。

Type:

str

verbose

是否打印更多的运行时信息。

Type:

bool

hash

数据集和设置的哈希值。

Type:

str

abstract __getitem__(idx)[source]

获取索引处的数据对象。

abstract __len__()[source]

数据集中的示例数量。