torch_geometric.datasets.PCQM4Mv2

class PCQM4Mv2(root: str, split: str = 'train', transform: Optional[Callable] = None, backend: str = 'sqlite', from_smiles: Optional[Callable] = None)[source]

基础类:OnDiskDataset

来自“OGB-LSC: 图机器学习的大规模挑战”论文的PCQM4Mv2数据集。 PCQM4Mv2是一个量子化学数据集,最初是在PubChemQC项目下整理的。 任务是预测给定分子的2D分子图的DFT计算的HOMO-LUMO能隙。

注意

该数据集使用OnDiskDataset基类从磁盘动态加载数据。

Parameters:
  • root (str) – Root directory where the dataset should be saved.

  • split (str, optional) – 如果为 "train",则加载训练数据集。 如果为 "val",则加载验证数据集。 如果为 "test",则加载测试数据集。 如果为 "holdout",则加载保留数据集。 (默认值: "train")

  • transform (callable, optional) – A function/transform that takes in an torch_geometric.data.Data object and returns a transformed version. The data object will be transformed before every access. (default: None)

  • backend (str) – 要使用的Database后端。 (默认: "sqlite")

  • from_smiles (可调用的, 可选的) – 一个自定义函数,它接受一个SMILES字符串并输出一个Data对象。如果未设置,则默认为from_smiles()。(默认值: None)