QM9EdgeDataset

class dgl.data.QM9EdgeDataset(label_keys=None, raw_dir=None, force_reload=False, verbose=True, transform=None)[source]

Bases: DGLDataset

用于图属性预测(回归)的QM9Edge数据集

该数据集由130,831个分子组成,包含19个回归目标。 节点对应原子,边对应化学键。

This dataset differs from QM9Dataset in the following aspects:
  1. 它包括分子中的键作为相应图的边,而QM9Dataset中的边完全是基于距离的。

  2. 它提供了边缘特征和节点特征,除了原子的坐标和原子序数。

  3. 它提供了另外7个回归任务(从12到19)。

该类基于数据集的预处理版本构建,我们提供了预处理细节 here

参考:

对于 统计:

  • 图形数量:130,831。

  • 回归目标的数量:19。

节点属性:

  • pos: 每个原子的3D坐标。

  • attr: 11D原子特征。

边属性:

  • edge_attr: 4D键特征。

回归目标:

属性

描述

单位

mu

\(\mu\)

偶极矩

\(\textrm{D}\)

alpha

\(\alpha\)

各向同性极化率

\({a_0}^3\)

同质

\(\epsilon_{\textrm{HOMO}}\)

最高占据分子轨道能量

\(\textrm{eV}\)

lumo

\(\epsilon_{\textrm{LUMO}}\)

最低未占据分子轨道能量

\(\textrm{eV}\)

间隔

\(\Delta \epsilon\)

\(\epsilon_{\textrm{HOMO}}\)\(\epsilon_{\textrm{LUMO}}\) 之间的差距

\(\textrm{eV}\)

r2

\(\langle R^2 \rangle\)

电子空间范围

\({a_0}^2\)

zpve

\(\textrm{ZPVE}\)

零点振动能

\(\textrm{eV}\)

U0

\(U_0\)

0K时的内能

\(\textrm{eV}\)

U

\(U\)

298.15K时的内能

\(\textrm{eV}\)

H

\(H\)

298.15K时的焓

\(\textrm{eV}\)

G

\(G\)

298.15K时的自由能

\(\textrm{eV}\)

Cv

\(c_{\textrm{v}}\)

298.15K时的热容量

\(\frac{\textrm{cal}}{\textrm{mol K}}\)

U0_atom

\(U_0^{\textrm{ATOM}}\)

0K时的原子化能量

\(\textrm{eV}\)

U_atom

\(U^{\textrm{ATOM}}\)

298.15K时的原子化能量

\(\textrm{eV}\)

氢原子

\(H^{\textrm{ATOM}}\)

298.15K时的原子化焓

\(\textrm{eV}\)

G_atom

\(G^{\textrm{ATOM}}\)

298.15K时的原子化自由能

\(\textrm{eV}\)

A

\(A\)

旋转常数

\(\textrm{GHz}\)

B

\(B\)

旋转常数

\(\textrm{GHz}\)

C

\(C\)

旋转常数

\(\textrm{GHz}\)

Parameters:
  • label_keys (list) – 回归属性的名称,应该是上表中键的子集。 如果未提供,它将加载所有标签。

  • raw_dir (str) – Raw file directory to download/contains the input data directory. Default: ~/.dgl/

  • force_reload (bool) – 是否重新加载数据集。默认值:False。

  • verbose (bool) – Whether to print out progress information. Default: True.

  • transform (callable, optional) – A transform that takes in a DGLGraph object and returns a transformed version. The DGLGraph object will be transformed before every access.

num_tasks

预测任务的数量

Type:

int

num_labels

(已弃用,请使用num_tasks代替)预测任务的数量

Type:

int

Raises:

UserWarning – If the raw data is changed in the remote server by the author.

示例

>>> data = QM9EdgeDataset(label_keys=['mu', 'alpha'])
>>> data.num_tasks
2
>>> # iterate over the dataset
>>> for graph, labels in data:
...     print(graph) # get information of each graph
...     print(labels) # get labels of the corresponding graph
...     # your code here...
>>>
__getitem__(idx)[source]

通过索引获取图形和标签

Parameters:

idx (int) – Item index

Returns:

  • dgl.DGLGraph – 该图包含:

    • ndata['pos']: 每个原子的坐标

    • ndata['attr']: 每个原子的特征

    • edata['edge_attr']: 每个键的特征

  • Tensor – 分子图的属性值

__len__()[source]

数据集中的图表数量。

Return type:

int