torch_geometric.datasets

同质数据集

KarateClub

来自"小群体中的冲突与分裂的信息流模型"论文的Zachary的空手道俱乐部网络,包含34个节点,由156条(无向且无权重)边连接。

TUDataset

多种图核基准数据集,例如"IMDB-BINARY""REDDIT-BINARY""PROTEINS",收集自 TU Dortmund University

GNNBenchmarkDataset

来自"Benchmarking Graph Neural Networks"论文的各种人工和半人工生成的图数据集。

Planetoid

引用网络数据集 "Cora", "CiteSeer""PubMed" 来自论文 "Revisiting Semi-Supervised Learning with Graph Embeddings"

NELL

NELL数据集,来自"Toward an Architecture for Never-Ending Language Learning"论文的知识图谱。

CitationFull

来自"Deep Gaussian Embedding of Graphs: Unsupervised Inductive Learning via Ranking"论文的完整引用网络数据集。

CoraFull

CitationFull 的别名,使用 name="Cora"

Coauthor

来自"图神经网络评估的陷阱"论文的Coauthor CS和Coauthor Physics网络。

Amazon

来自"图神经网络评估的陷阱"论文的Amazon Computers和Amazon Photo网络。

PPI

来自"通过多层组织网络预测多细胞功能"论文的蛋白质-蛋白质相互作用网络,包含位置基因集、基序基因集和免疫学特征作为特征(共50个)以及基因本体集作为标签(共121个)。

Reddit

来自"Inductive Representation Learning on Large Graphs"论文的Reddit数据集,包含属于不同社区的Reddit帖子。

Reddit2

来自"GraphSAINT: 基于图采样的归纳学习方法"论文的Reddit数据集,包含属于不同社区的Reddit帖子。

Flickr

来自"GraphSAINT: 基于图采样的归纳学习方法"论文的Flickr数据集,包含图像的描述和常见属性。

Yelp

来自"GraphSAINT: 基于图采样的归纳学习方法"论文的Yelp数据集,包含顾客评论者及其友谊关系。

AmazonProducts

来自"GraphSAINT: 基于图采样的归纳学习方法"论文的亚马逊数据集,包含产品及其类别。

QM7b

来自"MoleculeNet: A Benchmark for Molecular Machine Learning"论文的QM7b数据集,包含7,211个分子和14个回归目标。

QM9

来自"MoleculeNet: 分子机器学习的基准"论文的QM9数据集,包含约130,000个分子,具有19个回归目标。

MD17

来自sGDML作者的各种从头算分子动力学轨迹。

ZINC

来自ZINC数据库的ZINC数据集和“使用数据驱动的分子连续表示进行自动化学设计”论文,包含约250,000个分子图,最多有38个重原子。

AQSOL

来自基准测试图神经网络论文的AQSOL数据集基于AqSolDB,这是一个标准化的数据库,包含9,982个分子图及其水溶性值,这些数据来自9个不同的数据源。

MoleculeNet

来自"MoleculeNet: 分子机器学习的基准"论文的MoleculeNet基准集合,包含来自物理化学、生物物理学和生理学的数据集。

PCQM4Mv2

来自"OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs"论文的PCQM4Mv2数据集。

Entities

关系实体网络 "AIFB", "MUTAG", "BGS""AM" 来自 "使用图卷积网络建模关系数据" 论文。

RelLinkPredDataset

来自"使用图卷积网络建模关系数据"论文的关系链接预测数据集。

GEDDataset

来自"Graph Edit Distance Computation via Graph Neural Networks"论文的GED数据集。

AttributedGraphDataset

来自"Scaling Attributed Network Embedding to Massive Graphs"论文的各种属性图数据集。

MNISTSuperpixels

来自"Geometric Deep Learning on Graphs and Manifolds Using Mixture Model CNNs"论文的MNIST超像素数据集,包含70,000个图,每个图有75个节点。

FAUST

来自"FAUST: 数据集和3D网格配准评估"论文的FAUST人类数据集,包含100个水密网格,代表10个不同主体的10种不同姿势。

DynamicFAUST

来自"Dynamic FAUST: Registering Human Bodies in Motion"论文的动态FAUST人类数据集。

ShapeNet

来自"A Scalable Active Framework for Region Annotation in 3D Shape Collections"论文的ShapeNet部件级别分割数据集,包含来自16个形状类别的约17,000个3D形状点云。

ModelNet

来自"3D ShapeNets: A Deep Representation for Volumetric Shapes"论文的ModelNet10/40数据集,分别包含10个和40个类别的CAD模型。

CoMA

CoMA 3D 面部数据集来自"使用卷积网格自动编码器生成3D面部"论文,包含12个不同对象捕捉的20,466个极端表情的网格。

SHREC2016

来自"SHREC'16: 可变形形状的部分匹配"论文的SHREC 2016部分匹配数据集。

TOSCA

来自《非刚性形状的数值几何》一书的TOSCA数据集,包含80个网格。

PCPNetDataset

来自"PCPNet: Learning Local Shape Properties from Raw Point Clouds"论文的PCPNet数据集,包含30个形状,每个形状以点云形式给出,密集采样了100k个点。

S3DIS

来自"3D Semantic Parsing of Large-Scale Indoor Spaces"论文的(预处理过的)斯坦福大规模3D室内空间数据集,包含三座建筑中六个大规模室内部分的点云,具有12个语义元素(和一个杂项类)。

GeometricShapes

各种几何形状(如立方体、球体或金字塔)的合成数据集。

BitcoinOTC

来自"EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs"论文的Bitcoin-OTC数据集,包含138个按时间顺序排列的谁信任谁的网络。

GDELTLite

"我们真的需要复杂的时间网络模型架构吗?"论文中使用的全球事件、语言和语调数据库(GDELT)数据集的(简化)版本,包含从2016年到2020年收集的事件。

ICEWS18

"Recurrent Event Network for Reasoning over Temporal Knowledge Graphs"论文中使用的综合危机早期预警系统(ICEWS)数据集,包含从2018年1月1日到2018年10月31日(24小时时间粒度)收集的事件。

GDELT

"Recurrent Event Network for Reasoning over Temporal Knowledge Graphs"论文中使用的全球事件、语言和语调数据库(GDELT)数据集,包含从2018年1月1日到2018年1月31日收集的事件(时间粒度为15分钟)。

WILLOWObjectClass

来自"Learning Graphs to Match"论文的WILLOW-ObjectClass数据集,包含每个类别中至少40张图像的10个相同关键点。

PascalVOCKeypoints

Pascal VOC 2011数据集,包含来自"Poselets: Body Part Detectors Trained Using 3D Human Pose Annotations"论文的Berkely关键点注释,每个示例包含0到23个关键点,涵盖20个类别。

PascalPF

来自"Proposal Flow"论文的Pascal-PF数据集,包含20个类别中每个示例的4到16个关键点。

SNAPDataset

A variety of graph datasets collected from SNAP at Stanford University.

SuiteSparseMatrixCollection

一套被称为Suite Sparse Matrix Collection的稀疏矩阵基准测试套件,收集自广泛的应用领域。

WordNet18

来自"Translating Embeddings for Modeling Multi-Relational Data"论文的WordNet18数据集,包含40,943个实体,18个关系和151,442个事实三元组,例如,家具包括床。

WordNet18RR

来自"Convolutional 2D Knowledge Graph Embeddings"论文的WordNet18RR数据集,包含40,943个实体,11个关系和93,003个事实三元组。

FB15k_237

来自"Translating Embeddings for Modeling Multi-Relational Data"论文的FB15K237数据集,包含14,541个实体,237个关系和310,116个事实三元组。

WikiCS

来自"Wiki-CS: A Wikipedia-Based Benchmark for Graph Neural Networks"论文的半监督基于维基百科的数据集,包含11,701个节点,216,123条边,10个类别和20个不同的训练分割。

WebKB

"Geom-GCN: Geometric Graph Convolutional Networks"论文中使用的WebKB数据集。

WikipediaNetwork

"多尺度属性节点嵌入"论文中介绍的维基百科网络。

HeterophilousGraphDataset

异质图 "Roman-empire", "Amazon-ratings", "Minesweeper", "Tolokers""Questions" 来自论文 "A Critical Look at the Evaluation of GNNs under Heterophily: Are We Really Making Progress?"

Actor

"Geom-GCN: Geometric Graph Convolutional Networks"论文中使用的电影-导演-演员-编剧网络的仅演员诱导子图。

UPFD

来自"用户偏好感知的假新闻检测"论文的树形结构假新闻传播图分类数据集。

GitHub

"多尺度属性节点嵌入"论文中引入的GitHub Web和ML开发者数据集。

FacebookPagePage

"多尺度属性节点嵌入"论文中介绍的Facebook页面-页面网络数据集。

LastFMAsia

"图上的特征函数:物以类聚,从统计描述到参数模型"论文中介绍的LastFM亚洲网络数据集。

DeezerEurope

"图上的特征函数:物以类聚,从统计描述到参数模型"论文中介绍的Deezer欧洲数据集。

GemsecDeezer

"GEMSEC: 自聚类图嵌入"论文中介绍的Deezer用户网络数据集。

Twitch

Twitch Gamer网络在"多尺度属性节点嵌入"论文中介绍。

Airports

来自"struc2vec: Learning Node Representations from Structural Identity"论文的机场数据集,其中节点表示机场,标签对应于活动水平。

LRGBDataset

"Long Range Graph Benchmark (LRGB)" 数据集是一个包含5个图学习数据集的集合,这些数据集的任务基于图中的长程依赖关系。

MalNetTiny

来自"A Large-Scale Database for Graph Representation Learning"论文的MalNet Tiny数据集。

OMDB

The Organic Materials Database (OMDB) of bulk organic crystals.

PolBlogs

来自"The Political Blogosphere and the 2004 US Election: Divided they Blog"论文的政治博客数据集。

EmailEUCore

一个大型欧洲研究机构的电子邮件通信网络,取自"局部高阶图聚类"论文。

LINKXDataset

来自"大规模非同质图学习:新基准和强大的简单方法"论文的各种非同质图数据集。

EllipticBitcoinDataset

来自"比特币中的反洗钱:使用图卷积网络进行金融取证实验"论文的比特币交易椭圆数据集。

EllipticBitcoinTemporalDataset

来自"比特币中的反洗钱:实验图卷积网络用于金融取证"论文的时间步感知椭圆比特币交易数据集。

DGraphFin

来自"DGraph: 用于图异常检测的大规模金融数据集"论文的DGraphFin网络。

HydroNet

来自"HydroNet: Benchmark Tasks for Preserving Intermolecular Interactions and Structural Motifs in Predictive and Generative Models for Molecular Data"论文的HydroNet数据集,包含500万个通过氢键网络结合在一起的水簇。

AirfRANS

来自"AirfRANS: High Fidelity Computational Fluid Dynamics Dataset for Approximating Reynolds-Averaged Navier-Stokes Solutions"论文的AirfRANS数据集,包含1,000次在亚音速飞行状态下对二维翼型的稳态空气动力学模拟。

JODIEDataset

来自"JODIE: Predicting Dynamic Embedding Trajectory in Temporal Interaction Networks"论文的时间图数据集。

Wikidata5M

来自"KEPLER: 知识嵌入和预训练语言表示的统一模型"论文的Wikidata-5M数据集,包含4,594,485个实体,822个关系,20,614,279个训练三元组,5,163个验证三元组和5,133个测试三元组。

MyketDataset

来自"Effect of Choosing Loss Function when Using T-Batching for Representation Learning on Dynamic Networks"论文的Myket Android应用程序安装数据集。

BrcaTcga

乳腺癌(BRCA TCGA Pan-Cancer Atlas)数据集由具有生存信息和基因表达数据的患者组成,数据来自cBioPortal,以及这些节点之间的生物相互作用网络来自Pathway Commons

NeuroGraphDataset

来自"NeuroGraph: Benchmarks for Graph Machine Learning in Brain Connectomics"论文的NeuroGraph基准数据集。

WebQSPDataset

"The Value of Semantic Parse Labeling for Knowledge Base Question Answering" 论文中的 WebQuestionsSP 数据集。

GitMolDataset

来自"GIT-Mol: A Multi-modal Large Language Model for Molecular Science with Graph, Image, and Text"论文的数据集。

MoleculeGPTDataset

来自"MoleculeGPT: Instruction Following Large Language Models for Molecular Property Prediction"论文的数据集。

TAGDataset

来自"通过变分推理在大规模文本属性图上学习"论文的文本属性图数据集。

异构数据集

DBP15K

DBP15K数据集来自"通过联合属性保留嵌入进行跨语言实体对齐"论文,其中中文、日文和法文版本的DBpedia与其英文版本进行了链接。

AMiner

来自"metapath2vec: Scalable Representation Learning for Heterogeneous Networks"论文的异构AMiner数据集,包含类型为"paper""author""venue"的节点。

OGB_MAG

来自"Open Graph Benchmark: Datasets for Machine Learning on Graphs"论文的ogbn-mag数据集。

DBLP

DBLP计算机科学书目网站的一个子集,如"MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding"论文中所收集的。

MovieLens

一个异构的评分数据集,由GroupLens Research从MovieLens网站收集,包含类型为"movie""user"的节点。

MovieLens100K

MovieLens 100K异构评分数据集,由GroupLens Research从MovieLens网站收集,包含电影(1,682个节点)和用户(943个节点)之间的100K评分。

MovieLens1M

MovieLens 1M异构评分数据集,由GroupLens Research从MovieLens网站收集,包含电影(3,883个节点)和用户(6,040个节点),它们之间大约有100万条评分。

IMDB

互联网电影数据库(IMDB)的一个子集,收集自"MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding"论文。

LastFM

last.fm音乐网站的一个子集,用于跟踪用户从各种来源的收听信息,这些信息收集在"MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding"论文中。

HGBDataset

来自"我们真的取得了很大进展吗?重新审视、基准测试和改进异构图神经网络"论文的各种异构图基准数据集。

Taobao

淘宝是一个由阿里巴巴提供的用户行为数据集,由天池阿里云平台提供。

IGMCDataset

用户-项目异构评分数据集 "Douban", "Flixster""Yahoo-Music" 来自 "基于图神经网络的归纳矩阵补全" 论文。

AmazonBook

来自"LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation"论文的AmazonBook评分数据集的一个子集。

HM

来自Kaggle H&M个性化时尚推荐挑战的异构H&M数据集。

OSE_GVCS

一个描述开源生态学中标志性的产品生态的数据集,涉及全球村庄建设集

RCDD

风险商品检测数据集(RCDD)来自"用于基准测试异构图神经网络的数据集和接口"论文。

OPFDataset

来自"大规模数据集用于带拓扑扰动的交流最优潮流"论文的异构OPF数据。

超图数据集

CornellTemporalHyperGraphDataset

来自"Simplicial Closure and higher-order link prediction"论文的一组时间高阶网络数据集。

合成数据集

FakeDataset

一个返回随机生成的Data对象的假数据集。

FakeHeteroDataset

一个返回随机生成的HeteroData对象的假数据集。

StochasticBlockModelDataset

由随机块模型生成的合成图数据集。

RandomPartitionGraphDataset

来自"如何找到你的友好邻居:基于自监督的图注意力设计"论文的随机分区图数据集。

MixHopSyntheticDataset

来自"MixHop: Higher-Order Graph Convolutional Architectures via Sparsified Neighborhood Mixing"论文的MixHop合成数据集,包含10个图,每个图具有不同程度的同质性(范围从0.0到0.9)。

ExplainerDataset

生成一个用于评估可解释性算法的合成数据集,如"GNNExplainer: Generating Explanations for Graph Neural Networks"论文中所述。

InfectionDataset

生成一个用于评估可解释性算法的合成感染数据集,如"图卷积网络的可解释性技术"论文中所述。

BA2MotifDataset

用于评估可解释性算法的合成BA-2motifs图分类数据集,如"Parameterized Explainer for Graph Neural Network"论文中所述。

BAMultiShapesDataset

用于评估可解释性算法的合成BA-Multi-Shapes图分类数据集,如"Global Explainability of GNNs via Logic Combination of Learned Concepts"论文中所述。

BAShapes

来自"GNNExplainer: Generating Explanations for Graph Neural Networks"论文的BA-Shapes数据集,包含一个具有300个节点的Barabasi-Albert(BA)图以及一组80个连接到它的“房屋”结构图。

图生成器

GraphGenerator

用于生成合成图的抽象基类。

BAGraph

生成随机的Barabasi-Albert (BA)图。

ERGraph

生成随机的Erdos-Renyi (ER)图。

GridGraph

生成二维网格图。

TreeGraph

生成树状图。

Motif Generators

MotifGenerator

用于生成主题的抽象基类。

CustomMotif

基于来自torch_geometric.data.Datanetworkx.Graph对象的自定义结构生成一个主题。

HouseMotif

"GNNExplainer: Generating Explanations for Graph Neural Networks"论文中生成房屋结构的图案,包含5个节点和6条无向边。

CycleMotif

"GNNExplainer: Generating Explanations for Graph Neural Networks"论文中生成循环主题。

GridMotif

"GNNExplainer: Generating Explanations for Graph Neural Networks"论文中生成网格结构的主题。