torch_geometric.datasets.MD17
- class MD17(root: str, name: str, train: Optional[bool] = None, transform: Optional[Callable] = None, pre_transform: Optional[Callable] = None, pre_filter: Optional[Callable] = None, force_reload: bool = False)[source]
Bases:
InMemoryDataset来自sGDML作者的各种从头算分子动力学轨迹。该类提供了对原始MD17数据集、其修订版本以及CCSD(T)轨迹的访问。
对于每个轨迹,数据集包含原子的笛卡尔位置(以埃为单位)、它们的原子序数,以及每个原子的总能量(以千卡/摩尔为单位)和力(千卡/摩尔/埃)。后两者是该集合的回归目标。
注意
数据对象不包含边索引,因为这些通常是通过
torch_geometric.transforms.RadiusGraph转换构建的,其截止值是一个超参数。原始的MD17数据集包含十个分子轨迹。这个版本的数据集被发现存在高数值噪声的问题。修订后的MD17数据集包含相同的分子,但能量和力在PBE/def2-SVP理论水平下重新计算,使用了非常严格的SCF收敛和非常密集的DFT积分网格。数据集的第三个版本包含较少的分子,在CCSD(T)理论水平下计算。在DFT FHI-aims理论水平下的苯分子单独发布。
请查看下表以获取有关分子、理论水平和每个数据集中包含的数据点数量的详细信息。 加载哪个轨迹由
name参数决定。 对于耦合簇轨迹,数据集带有预定义的训练和测试分割,这些分割通过train参数单独加载。分子
理论水平
名称
#示例
苯
DFT
benzene627,983
尿嘧啶
DFT
uracil133,770
萘
DFT
napthalene326,250
阿司匹林
DFT
aspirin211,762
水杨酸
DFT
salicylic acid320,231
丙二醛
DFT
malonaldehyde993,237
乙醇
DFT
ethanol555,092
甲苯
DFT
toluene442,790
扑热息痛
DFT
paracetamol106,490
偶氮苯
DFT
azobenzene99,999
苯 (R)
DFT (PBE/def2-SVP)
revised benzene100,000
尿嘧啶 (R)
DFT (PBE/def2-SVP)
revised uracil100,000
萘 (R)
DFT (PBE/def2-SVP)
revised napthalene100,000
阿司匹林 (R)
DFT (PBE/def2-SVP)
revised aspirin100,000
水杨酸 (R)
DFT (PBE/def2-SVP)
revised salicylic acid100,000
丙二醛 (R)
DFT (PBE/def2-SVP)
revised malonaldehyde100,000
乙醇 (R)
DFT (PBE/def2-SVP)
revised ethanol100,000
甲苯 (R)
DFT (PBE/def2-SVP)
revised toluene100,000
扑热息痛 (R)
DFT (PBE/def2-SVP)
revised paracetamol100,000
偶氮苯 (R)
DFT (PBE/def2-SVP)
revised azobenzene99,988
苯
CCSD(T)
benzene CCSD(T)1,500
阿司匹林
CCSD
aspirin CCSD1,500
丙二醛
CCSD(T)
malonaldehyde CCSD(T)1,500
乙醇
CCSD(T)
ethanol CCSD(T)2,000
甲苯
CCSD(T)
toluene CCSD(T)1,501
苯
DFT FHI-aims
benzene FHI-aims49,863
警告
建议不要在原始或修订的MD17数据集上训练超过1,000个样本的模型。
- Parameters:
root (str) – Root directory where the dataset should be saved.
name (str) – 应该加载的轨迹的关键字。
train (bool, optional) – 确定是否加载训练或测试集用于耦合簇轨迹。 (default:
None)transform (callable, optional) – A function/transform that takes in an
torch_geometric.data.Dataobject and returns a transformed version. The data object will be transformed before every access. (default:None)pre_transform (callable, optional) – A function/transform that takes in an
torch_geometric.data.Dataobject and returns a transformed version. The data object will be transformed before being saved to disk. (default:None)pre_filter (callable, optional) – A function that takes in an
torch_geometric.data.Dataobject and returns a boolean value, indicating whether the data object should be included in the final dataset. (default:None)force_reload (bool, optional) – Whether to re-process the dataset. (default:
False)
统计:
名称
#图表
#节点
#edges
#特性
#任务
苯
627,983
12
0
1
2
尿嘧啶
133,770
12
0
1
2
萘
326,250
10
0
1
2
阿司匹林
211,762
21
0
1
2
水杨酸
320,231
16
0
1
2
丙二醛
993,237
9
0
1
2
乙醇
555,092
9
0
1
2
甲苯
442,790
15
0
1
2
扑热息痛
106,490
20
0
1
2
偶氮苯
99,999
24
0
1
2
苯 (R)
100,000
12
0
1
2
尿嘧啶 (R)
100,000
12
0
1
2
萘 (R)
100,000
10
0
1
2
阿司匹林 (R)
100,000
21
0
1
2
水杨酸 (R)
100,000
16
0
1
2
丙二醛 (R)
100,000
9
0
1
2
乙醇 (R)
100,000
9
0
1
2
甲苯 (R)
100,000
15
0
1
2
扑热息痛 (R)
100,000
20
0
1
2
偶氮苯 (R)
99,988
24
0
1
2
苯 CCSD-T
1,500
12
0
1
2
阿司匹林 CCSD-T
1,500
21
0
1
2
丙二醛 CCSD-T
1,500
9
0
1
2
乙醇 CCSD-T
2000
9
0
1
2
甲苯 CCSD-T
1,501
15
0
1
2
苯 FHI-aims
49,863
12
0
1
2