torch_geometric.datasets.MD17

class MD17(root: str, name: str, train: Optional[bool] = None, transform: Optional[Callable] = None, pre_transform: Optional[Callable] = None, pre_filter: Optional[Callable] = None, force_reload: bool = False)[source]

Bases: InMemoryDataset

来自sGDML作者的各种从头算分子动力学轨迹。该类提供了对原始MD17数据集、其修订版本以及CCSD(T)轨迹的访问。

对于每个轨迹,数据集包含原子的笛卡尔位置(以埃为单位)、它们的原子序数,以及每个原子的总能量(以千卡/摩尔为单位)和力(千卡/摩尔/埃)。后两者是该集合的回归目标。

注意

数据对象不包含边索引,因为这些通常是通过torch_geometric.transforms.RadiusGraph转换构建的,其截止值是一个超参数。

原始的MD17数据集包含十个分子轨迹。这个版本的数据集被发现存在高数值噪声的问题。修订后的MD17数据集包含相同的分子,但能量和力在PBE/def2-SVP理论水平下重新计算,使用了非常严格的SCF收敛和非常密集的DFT积分网格。数据集的第三个版本包含较少的分子,在CCSD(T)理论水平下计算。在DFT FHI-aims理论水平下的苯分子单独发布

请查看下表以获取有关分子、理论水平和每个数据集中包含的数据点数量的详细信息。 加载哪个轨迹由name参数决定。 对于耦合簇轨迹,数据集带有预定义的训练和测试分割,这些分割通过train参数单独加载。

分子

理论水平

名称

#示例

DFT

benzene

627,983

尿嘧啶

DFT

uracil

133,770

DFT

napthalene

326,250

阿司匹林

DFT

aspirin

211,762

水杨酸

DFT

salicylic acid

320,231

丙二醛

DFT

malonaldehyde

993,237

乙醇

DFT

ethanol

555,092

甲苯

DFT

toluene

442,790

扑热息痛

DFT

paracetamol

106,490

偶氮苯

DFT

azobenzene

99,999

苯 (R)

DFT (PBE/def2-SVP)

revised benzene

100,000

尿嘧啶 (R)

DFT (PBE/def2-SVP)

revised uracil

100,000

萘 (R)

DFT (PBE/def2-SVP)

revised napthalene

100,000

阿司匹林 (R)

DFT (PBE/def2-SVP)

revised aspirin

100,000

水杨酸 (R)

DFT (PBE/def2-SVP)

revised salicylic acid

100,000

丙二醛 (R)

DFT (PBE/def2-SVP)

revised malonaldehyde

100,000

乙醇 (R)

DFT (PBE/def2-SVP)

revised ethanol

100,000

甲苯 (R)

DFT (PBE/def2-SVP)

revised toluene

100,000

扑热息痛 (R)

DFT (PBE/def2-SVP)

revised paracetamol

100,000

偶氮苯 (R)

DFT (PBE/def2-SVP)

revised azobenzene

99,988

CCSD(T)

benzene CCSD(T)

1,500

阿司匹林

CCSD

aspirin CCSD

1,500

丙二醛

CCSD(T)

malonaldehyde CCSD(T)

1,500

乙醇

CCSD(T)

ethanol CCSD(T)

2,000

甲苯

CCSD(T)

toluene CCSD(T)

1,501

DFT FHI-aims

benzene FHI-aims

49,863

警告

建议不要在原始或修订的MD17数据集上训练超过1,000个样本的模型。

Parameters:
  • root (str) – Root directory where the dataset should be saved.

  • name (str) – 应该加载的轨迹的关键字。

  • train (bool, optional) – 确定是否加载训练或测试集用于耦合簇轨迹。 (default: None)

  • transform (callable, optional) – A function/transform that takes in an torch_geometric.data.Data object and returns a transformed version. The data object will be transformed before every access. (default: None)

  • pre_transform (callable, optional) – A function/transform that takes in an torch_geometric.data.Data object and returns a transformed version. The data object will be transformed before being saved to disk. (default: None)

  • pre_filter (callable, optional) – A function that takes in an torch_geometric.data.Data object and returns a boolean value, indicating whether the data object should be included in the final dataset. (default: None)

  • force_reload (bool, optional) – Whether to re-process the dataset. (default: False)

统计:

名称

#图表

#节点

#edges

#特性

#任务

627,983

12

0

1

2

尿嘧啶

133,770

12

0

1

2

326,250

10

0

1

2

阿司匹林

211,762

21

0

1

2

水杨酸

320,231

16

0

1

2

丙二醛

993,237

9

0

1

2

乙醇

555,092

9

0

1

2

甲苯

442,790

15

0

1

2

扑热息痛

106,490

20

0

1

2

偶氮苯

99,999

24

0

1

2

苯 (R)

100,000

12

0

1

2

尿嘧啶 (R)

100,000

12

0

1

2

萘 (R)

100,000

10

0

1

2

阿司匹林 (R)

100,000

21

0

1

2

水杨酸 (R)

100,000

16

0

1

2

丙二醛 (R)

100,000

9

0

1

2

乙醇 (R)

100,000

9

0

1

2

甲苯 (R)

100,000

15

0

1

2

扑热息痛 (R)

100,000

20

0

1

2

偶氮苯 (R)

99,988

24

0

1

2

苯 CCSD-T

1,500

12

0

1

2

阿司匹林 CCSD-T

1,500

21

0

1

2

丙二醛 CCSD-T

1,500

9

0

1

2

乙醇 CCSD-T

2000

9

0

1

2

甲苯 CCSD-T

1,501

15

0

1

2

苯 FHI-aims

49,863

12

0

1

2