数据集

pykeen.datasets 包

PyKEEN的内置数据集。

新的数据集（继承自 pykeen.datasets.Dataset）可以通过在您自己的 setup.py、setup.cfg、pyproject.toml 或其他包配置中的 Python entrypoints 使用 pykeen.datasets 组来注册到 PyKEEN 中。它们通过 importlib.metadata.entry_points() 自动加载，并通过 class_resolver 进行解析。

函数

`get_dataset`(*[, dataset, dataset_kwargs, ...])	获取一个数据集，基于给定的kwargs进行缓存。
`has_dataset`(key)	返回数据集是否在PyKEEN中注册。

类

`Dataset`()	基础数据集类。
`AristoV4`(**kwargs)	来自[chen2021]的Aristo-v4数据集。
`Hetionet`([random_state])	来自[himmelstein2017]的Hetionet数据集。
`Kinships`(**kwargs)	亲属关系数据集。
`Nations`(**kwargs)	国家数据集。
`OpenBioLink`(**kwargs)	OpenBioLink 数据集。
`OpenBioLinkLQ`(**kwargs)	OpenBioLink数据集的低质量变体。
`CoDExSmall`(**kwargs)	CoDEx小型数据集。
`CoDExMedium`(**kwargs)	CoDEx 中型数据集。
`CoDExLarge`(**kwargs)	CoDEx大型数据集。
`CN3l`([graph_pair])	CN3l 数据集家族。
`OGBBioKG`([cache_root, create_inverse_triples])	OGB BioKG 数据集。
`OGBWikiKG2`([cache_root, create_inverse_triples])	OGB WikiKG2 数据集。
`UMLS`(**kwargs)	UMLS数据集。
`FB15k`(**kwargs)	FB15k数据集。
`FB15k237`(**kwargs)	FB15k-237 数据集。
`WK3l15k`([graph_pair])	WK3l-15k 数据集家族。
`WK3l120k`([graph_pair])	WK3l-120k 数据集家族。
`WN18`(**kwargs)	WN18数据集。
`WN18RR`(**kwargs)	WN18-RR数据集。
`YAGO310`(**kwargs)	YAGO3-10数据集是YAGO3的一个子集，仅包含至少具有10个关系的实体。
`DRKG`([random_state])	DRKG数据集。
`BioKG`([random_state])	BioKG数据集来自[walsh2020]。
`ConceptNet`([random_state])	来自[speer2017]的ConceptNet数据集。
`CKG`([random_state])	来自[santos2020]的临床知识图谱（CKG）数据集。
`CSKG`([random_state])	CSKG数据集。
`DBpedia50`(**kwargs)	DBpedia50数据集。
`DB100K`(**kwargs)	来自[ding2018]的DB100K数据集。
`OpenEA`(*[, graph_pair, size, version])	OpenEA 数据集家族。
`Countries`(**kwargs)	国家数据集。
`WD50KT`(**kwargs)	WD50K的三元组版本。
`Wikidata5M`(**kwargs)	来自[wang2019]的Wikidata5M数据集。
`PharmKG8k`(**kwargs)	来自[zheng2020]的PharmKG8k数据集。
`PharmKG`([random_state])	来自[zheng2020]的PharmKGFull数据集。
`PrimeKG`([random_state])	来自[chandak2022]的精准医学知识图谱（PrimeKG）数据集。
`Globi`([random_state])	全球生物相互作用（GloBI）数据集。
`PharMeBINet`([random_state])	来自[koenigs2022]的PharMeBINet数据集。

变量

dataset_resolver

数据集解析器

类继承图

Inheritance diagram of pykeen.datasets.base.Dataset, pykeen.datasets.aristo.AristoV4, pykeen.datasets.hetionet.Hetionet, pykeen.datasets.kinships.Kinships, pykeen.datasets.nations.Nations, pykeen.datasets.openbiolink.OpenBioLink, pykeen.datasets.openbiolink.OpenBioLinkLQ, pykeen.datasets.codex.CoDExSmall, pykeen.datasets.codex.CoDExMedium, pykeen.datasets.codex.CoDExLarge, pykeen.datasets.ea.wk3l.CN3l, pykeen.datasets.ogb.OGBBioKG, pykeen.datasets.ogb.OGBWikiKG2, pykeen.datasets.umls.UMLS, pykeen.datasets.freebase.FB15k, pykeen.datasets.freebase.FB15k237, pykeen.datasets.ea.wk3l.WK3l15k, pykeen.datasets.ea.wk3l.WK3l120k, pykeen.datasets.wordnet.WN18, pykeen.datasets.wordnet.WN18RR, pykeen.datasets.yago.YAGO310, pykeen.datasets.drkg.DRKG, pykeen.datasets.biokg.BioKG, pykeen.datasets.conceptnet.ConceptNet, pykeen.datasets.ckg.CKG, pykeen.datasets.cskg.CSKG, pykeen.datasets.dbpedia.DBpedia50, pykeen.datasets.db100k.DB100K, pykeen.datasets.ea.openea.OpenEA, pykeen.datasets.countries.Countries, pykeen.datasets.wd50k.WD50KT, pykeen.datasets.wikidata5m.Wikidata5M, pykeen.datasets.pharmkg.PharmKG8k, pykeen.datasets.pharmkg.PharmKG, pykeen.datasets.primekg.PrimeKG, pykeen.datasets.globi.Globi, pykeen.datasets.pharmebinet.PharMeBINet

pykeen.datasets.base 模块

用于构建数据集的实用类。

函数

dataset_similarity(a, b[, metric])

计算两个数据集之间的相似度。

类

`Dataset`()	基础数据集类。
`EagerDataset`(training, testing[, ...])	一个数据集，其训练、测试和可选的验证工厂已预先加载。
`LazyDataset`()	一个数据集，其训练、测试和可选的验证工厂是延迟加载的。
`PathDataset`(training_path, testing_path, ...)	包含对训练、测试和验证数据集的惰性引用。
`RemoteDataset`(url, relative_training_path, ...)	包含对远程数据集的惰性引用，仅在需要时加载。
`UnpackedRemoteDataset`(training_url, ...[, ...])	一个包含训练、测试和验证集作为URL的数据集。
`TarFileRemoteDataset`(url, ...[, cache_root, ...])	一个以tar文件形式存储的远程数据集。
`PackedZipRemoteDataset`(...[, url, name, ...])	包含对远程数据集的惰性引用，仅在需要时加载。
`CompressedSingleDataset`(url, relative_path)	加载一个位于存档内的单个文件的数据集。
`TarFileSingleDataset`(url, relative_path[, ...])	加载一个位于tar.gz压缩包内的单个文件的数据集。
`ZipSingleDataset`(url, relative_path[, name, ...])	加载一个位于zip存档内的单个文件的数据集。
`TabbedDataset`([cache_root, eager, ...])	这个类适用于当你有一个单一的TSV边缘文件并希望它们自动分割时。
`SingleTabbedDataset`(url[, name, cache_root, ...])	这个类适用于当你有一个单独的TSV边缘文件并希望它们自动分割时。

类继承图

Inheritance diagram of pykeen.datasets.base.Dataset, pykeen.datasets.base.EagerDataset, pykeen.datasets.base.LazyDataset, pykeen.datasets.base.PathDataset, pykeen.datasets.base.RemoteDataset, pykeen.datasets.base.UnpackedRemoteDataset, pykeen.datasets.base.TarFileRemoteDataset, pykeen.datasets.base.PackedZipRemoteDataset, pykeen.datasets.base.CompressedSingleDataset, pykeen.datasets.base.TarFileSingleDataset, pykeen.datasets.base.ZipSingleDataset, pykeen.datasets.base.TabbedDataset, pykeen.datasets.base.SingleTabbedDataset

pykeen.datasets.analysis 模块

数据集分析工具。

函数

`get_relation_count_df`(dataset[, ...])	创建一个包含关系计数的数据框。
`get_entity_count_df`(dataset[, merge_sides, ...])	创建一个包含实体计数的数据框。
`get_entity_relation_co_occurrence_df`(dataset)	创建一个实体/关系共现的数据框。
`get_relation_functionality_df`(*, dataset[, ...])	计算每个关系的功能性和逆功能性得分。
`get_relation_pattern_types_df`(dataset, *[, ...])	基于RotatE的模式对关系进行分类[sun2019]。
`get_relation_cardinality_types_df`(*, dataset)	确定关系基数类型。

归纳数据集

pykeen.datasets.inductive 包

PyKEEN中的归纳模型。

类

`InductiveDataset`()	包含转导训练和归纳推理/验证/测试数据集。
`EagerInductiveDataset`(transductive_training, ...)	一个热切的归纳数据集。
`LazyInductiveDataset`()	一个具有延迟加载的归纳数据集。
`DisjointInductivePathDataset`(...[, eager, ...])	由路径指定的不相交归纳数据集。
`UnpackedRemoteDisjointInductiveDataset`(...)	一个包含训练集、归纳推理集、归纳测试集和归纳验证集四个部分的数据集，这些数据集以URL形式提供。
`InductiveFB15k237`([version])	归纳的FB15k-237数据集有4个版本。
`InductiveWN18RR`([version])	归纳的WN18RR数据集有4个版本。
`InductiveNELL`([版本])	归纳NELL数据集的4个版本。
`ILPC2022Large`([create_inverse_triples])	ILPC 2022挑战赛的归纳链接预测数据集。
`ILPC2022Small`([create_inverse_triples])	ILPC 2022挑战赛的归纳链接预测数据集。

类继承图

Inheritance diagram of pykeen.datasets.inductive.base.InductiveDataset, pykeen.datasets.inductive.base.EagerInductiveDataset, pykeen.datasets.inductive.base.LazyInductiveDataset, pykeen.datasets.inductive.base.DisjointInductivePathDataset, pykeen.datasets.inductive.base.UnpackedRemoteDisjointInductiveDataset, pykeen.datasets.inductive.ilp_teru.InductiveFB15k237, pykeen.datasets.inductive.ilp_teru.InductiveWN18RR, pykeen.datasets.inductive.ilp_teru.InductiveNELL, pykeen.datasets.inductive.ilpc2022.ILPC2022Large, pykeen.datasets.inductive.ilpc2022.ILPC2022Small

实体对齐

pykeen.datasets.ea.combination 模块

实体对齐数据集的组合策略。

类

`GraphPairCombinator`()	将图对组合成单个图的基类。
`DisjointGraphPairCombinator`()	这个组合器将两个图保持为不连接的组件。
`SwapGraphPairCombinator`()	通过交换对齐的实体来添加额外的三元组。
`ExtraRelationGraphPairCombinator`()	这个组合器保留了所有实体，但引入了一种新的对齐关系。
`CollapseGraphPairCombinator`()	这个组合器将所有匹配的实体对合并为一个单一的ID。
`ProcessedTuple`(mapped_triples, alignment, ...)	处理一对三元组工厂的结果。

类继承图

Inheritance diagram of pykeen.datasets.ea.combination.GraphPairCombinator, pykeen.datasets.ea.combination.DisjointGraphPairCombinator, pykeen.datasets.ea.combination.SwapGraphPairCombinator, pykeen.datasets.ea.combination.ExtraRelationGraphPairCombinator, pykeen.datasets.ea.combination.CollapseGraphPairCombinator, pykeen.datasets.ea.combination.ProcessedTuple