数据集速查表

注意

这个数据集统计表是一个正在进行的工作。 请考虑通过为单个数据集提供统计信息来帮助我们填充其内容。 参见这里这里以了解如何操作。

Homogeneous Datasets

名称

#图表

#节点

#edges

#特性

#类/#任务

KarateClub (论文)

1

34

156

34

4

TUDataset (论文)

└─ MUTAG

188

~17.9

~39.6

7

2

└─ 酶

600

~32.6

~124.3

3

6

└─ 蛋白质

1,113

~39.1

~145.6

3

2

└─ 协作

5,000

~74.5

~4914.4

0

3

└─ IMDB-BINARY

1,000

~19.8

~193.1

0

2

└─ REDDIT-BINARY

2,000

~429.6

~995.5

0

2

└─ …

GNNBenchmarkDataset (论文)

└─ 模式

14,000

~118.9

~6,098.9

3

2

└─ 集群

12,000

~117.2

~4,303.9

7

6

└─ MNIST

70,000

~70.6

~564.5

3

10

└─ CIFAR10

60,000

~117.6

~941.2

5

10

└─ TSP

12,000

~275.4

~6,885.0

2

2

└─ CSL

150

~41.0

~164.0

0

10

Planetoid (Paper)

└─ 科拉

1

2,708

10,556

1,433

7

└─ CiteSeer

1

3,327

9,104

3,703

6

└─ PubMed

1

19,717

88,648

500

3

NELL (论文)

1

65,755

251,550

61,278

186

CitationFull (Paper)

└─ 科拉

1

19,793

126,842

8,710

70

└─ Cora_ML

1

2,995

16,316

2,879

7

└─ CiteSeer

1

4,230

10,674

602

6

└─ DBLP

1

17,716

105,734

1,639

4

└─ PubMed

1

19,717

88,648

500

3

CoraFull

1

19,793

126,842

8,710

70

Coauthor (论文)

└─ 计算机科学

1

18,333

163,788

6,805

15

└─ 物理

1

34,493

495,924

8,415

5

Amazon (Paper)

└─ 计算机

1

13,752

491,722

767

10

└─ 照片

1

7,650

238,162

745

8

PPI (论文)

20

~2,245.3

~61,318.4

50

121

Reddit (论文)

1

232,965

114,615,892

602

41

Reddit2 (Paper)

1

232,965

23,213,838

602

41

Flickr (论文)

1

89,250

899,756

500

7

Yelp (Paper)

1

716,847

13,954,819

300

100

AmazonProducts (Paper)

1

1,569,960

264,339,468

200

107

QM7b (Paper)

7,211

~15.4

~245.0

0

14

QM9 (Paper)

130,831

~18.0

~37.3

11

19

MD17 (Paper)

└─ 苯

627,983

12

0

1

2

└─ 尿嘧啶

133,770

12

0

1

2

└─ 萘

326,250

10

0

1

2

└─ 阿司匹林

211,762

21

0

1

2

└─ 水杨酸

320,231

16

0

1

2

└─ 丙二醛

993,237

9

0

1

2

└─ 乙醇

555,092

9

0

1

2

└─ 甲苯

442,790

15

0

1

2

└─ 对乙酰氨基酚

106,490

20

0

1

2

└─ 偶氮苯

99,999

24

0

1

2

└─ 苯 (R)

100,000

12

0

1

2

└─ 尿嘧啶 (R)

100,000

12

0

1

2

└─ 萘 (R)

100,000

10

0

1

2

└─ 阿司匹林 (R)

100,000

21

0

1

2

└─ 水杨酸 (R)

100,000

16

0

1

2

└─ 丙二醛 (R)

100,000

9

0

1

2

└─ 乙醇 (R)

100,000

9

0

1

2

└─ 甲苯 (R)

100,000

15

0

1

2

└─ 对乙酰氨基酚 (R)

100,000

20

0

1

2

└─ 偶氮苯 (R)

99,988

24

0

1

2

└─ 苯 CCSD-T

1,500

12

0

1

2

└─ 阿司匹林 CCSD-T

1,500

21

0

1

2

└─ 丙二醛 CCSD-T

1,500

9

0

1

2

└─ 乙醇 CCSD-T

2000

9

0

1

2

└─ 甲苯 CCSD-T

1,501

15

0

1

2

└─ 苯 FHI-aims

49,863

12

0

1

2

ZINC (论文)

└─ ZINC 完整版

249,456

~23.2

~49.8

1

1

└─ ZINC 子集

12,000

~23.2

~49.8

1

1

AQSOL (论文)

9,833

~17.6

~35.8

1

1

MoleculeNet (论文)

└─ ESOL

1,128

~13.3

~27.4

9

1

└─ FreeSolv

642

~8.7

~16.8

9

1

└─ 亲脂性

4,200

~27.0

~59.0

9

1

└─ PCBA

437,929

~26.0

~56.2

9

128

└─ MUV

93,087

~24.2

~52.6

9

17

└─ 艾滋病

41,127

~25.5

~54.9

9

1

└─ BACE

1513

~34.1

~73.7

9

1

└─ BBBP

2,050

~23.9

~51.6

9

1

└─ Tox21

7,831

~18.6

~38.6

9

12

└─ ToxCast

8,597

~18.7

~38.4

9

617

└─ SIDER

1,427

~33.6

~70.7

9

27

└─ 临床毒性

1,484

~26.1

~55.5

9

2

PCQM4Mv2 (论文)

Entities (Paper)

└─ AIFB

1

8,285

58,086

0

4

└─ 上午

1

1,666,764

11,976,642

0

11

└─ MUTAG

1

23,644

148,454

0

2

└─ BGS

1

333,845

1,832,398

0

2

RelLinkPredDataset (Paper)

1

14,541

544,230

0

0

GEDDataset (论文)

└─ 艾滋病700nef

700

~8.9

~17.6

29

0

└─ LINUX

1,000

~7.6

~13.9

0

0

└─ 烷烃

150

~8.9

~15.8

0

0

└─ IMDBMulti

1,500

~13.0

~131.9

0

0

AttributedGraphDataset (Paper)

└─ 维基

1

2,405

17,981

4,973

17

└─ 科拉

1

2,708

5,429

1,433

7

└─ CiteSeer

1

3,312

4,715

3,703

6

└─ PubMed

1

19,717

44,338

500

3

└─ 博客目录

1

5,196

343,486

8,189

6

└─ PPI

1

56,944

1,612,348

50

121

└─ Flickr

1

7,575

479,476

12,047

9

└─ Facebook

1

4,039

88,234

1,283

193

└─ TWeibo

1

2,320,895

9,840,066

1,657

8

└─ MAG

1

59,249,719

978,147,253

2,000

100

MNISTSuperpixels (Paper)

70,000

75

~1,393.0

1

10

FAUST (论文)

100

6,890

41,328

3

10

DynamicFAUST (论文)

ShapeNet (论文)

16,881

~2,616.2

0

3

50

ModelNet (Paper)

└─ ModelNet10

4,899

~9,508.2

~37,450.5

3

10

└─ ModelNet40

12,311

~17,744.4

~66,060.9

3

40

CoMA (论文)

20,465

5,023

29,990

3

12

SHREC2016 (论文)

TOSCA (论文)

PCPNetDataset (Paper)

S3DIS (论文)

GeometricShapes

80

~148.8

~859.5

3

40

BitcoinOTC (Paper)

138

6,005

~2,573.2

0

0

GDELTLite (论文)

1

8,831

1,912,909

413

ICEWS18 (论文)

GDELT (论文)

WILLOWObjectClass (Paper)

PascalVOCKeypoints (论文)

PascalPF (论文)

SNAPDataset (论文)

SuiteSparseMatrixCollection (论文)

WordNet18 (论文)

WordNet18RR (论文)

FB15k_237 (论文)

WikiCS (Paper)

WebKB (Paper)

└─ 康奈尔

1

183

298

1,703

5

└─ 德克萨斯

1

183

325

1,703

5

└─ 威斯康星州

1

251

515

1,703

5

WikipediaNetwork (Paper)

HeterophilousGraphDataset (Paper)

└─ 罗马帝国

1

22,662

32,927

300

18

└─ 亚马逊评分

1

24,492

93,050

300

5

└─ 扫雷

1

10,000

39,402

7

2

└─ 众包工作者

1

11,758

519,000

10

2

└─ 问题

1

48,921

153,540

301

2

Actor (论文)

1

7,600

30,019

932

5

UPFD (论文)

GitHub (论文)

1

37,700

578,006

0

2

FacebookPagePage (论文)

LastFMAsia (论文)

DeezerEurope (论文)

GemsecDeezer (论文)

Twitch (论文)

└─ DE

1

9,498

315,774

128

2

└─ 英文

1

7,126

77,774

128

2

└─ ES

1

4,648

123,412

128

2

└─ 法国

1

6,551

231,883

128

2

└─ PT

1

1,912

64,510

128

2

└─ 俄罗斯

1

4,385

78,993

128

2

Airports (Paper)

LRGBDataset (Paper)

└─ PascalVOC-SP

11,355

~479.40

~2,710.48

21

└─ COCO-SP

123,286

~476.88

~2,693.67 翻译结果: ~2,693.67 解释:根据翻译规则,公式内容不需要翻译,因此数字和符号保持不变。

81

└─ PCQM-联系

529,434

~30.14

~61.09

1

└─ 肽功能

15,535

~150.94

~307.30

10

└─ 肽结构

15,535

~150.94

~307.30

11

MalNetTiny (论文)

OMDB (论文)

PolBlogs (论文)

1

1,490

19,025

0

2

EmailEUCore (论文)

LINKXDataset (Paper)

EllipticBitcoinDataset (论文)

1

203,769

234,355

165

2

EllipticBitcoinTemporalDataset (Paper)

1

203,769

234,355

165

2

DGraphFin (论文)

1

3,700,550

4,300,999

17

2

HydroNet (Paper)

AirfRANS (论文)

1,000

约180,000

0

5

4

JODIEDataset (论文)

└─ Reddit

1

6,509

25,470

172

1

└─ 维基百科

1

9,227

157,474

172

2

└─ 慕课

1

7,144

411,749

4

2

└─ LastFM

1

1,980

1,293,103

2

1

Wikidata5M (论文)

MyketDataset (Paper)

1

17,988

694,121

33

1

BrcaTcga (论文)

1,082

9,288

271,771

1,082

NeuroGraphDataset (论文)

WebQSPDataset (论文)

GitMolDataset (论文)

MoleculeGPTDataset (Paper)

TAGDataset (论文)

Heterogeneous Datasets

名称

#节点/#边

#特性

#类/#任务

DBP15K (论文)

AMiner (论文)

OGB_MAG (论文)

DBLP (论文)

└─ 节点类型: 作者

4,057

334

4

└─ 节点类型: 论文

14,328

4,231

└─ 节点类型: 术语

7,723

50

└─ 节点类型: 会议

20

0

└─ 边类型: 作者-论文

196,425

└─ 边类型: 论文-术语

85,810

└─ Edge Type: 会议论文

14,328

MovieLens (论文)

MovieLens100K (论文)

└─ 节点类型: 电影

1,682

18

└─ 节点类型: 用户

943

24

└─ 边类型: 用户-电影

80,000

1

1

MovieLens1M (Paper)

└─ 节点类型: 电影

3,883

18

└─ 节点类型: 用户

6,040

30

└─ 边类型: 用户-电影

1,000,209

1

1

IMDB (论文)

LastFM (论文)

HGBDataset (论文)

Taobao (论文)

IGMCDataset (论文)

AmazonBook (Paper)

HM (论文)

OSE_GVCS (论文)

RCDD (论文)

OPFDataset (Paper)

Synthetic Datasets

名称

#图表

#节点

#edges

#特性

#类/#任务

FakeDataset

FakeHeteroDataset

StochasticBlockModelDataset

RandomPartitionGraphDataset (论文)

MixHopSyntheticDataset (Paper)

ExplainerDataset (Paper)

InfectionDataset (Paper)

BA2MotifDataset (Paper)

1000

25

~51.0

10

2

BAMultiShapesDataset (Paper)

1000

40

~87.0

10

2

BAShapes (论文)