数据集

基础类：ExtraReprMixin

基础数据集类。

属性摘要

`create_inverse_triples`	返回是否为训练工厂创建了反向三元组。
`entity_to_id`	实体标签到ID的映射。
`factory_dict`	返回三个工厂的字典。
`metadata`	数据集的名称
`metadata_file_name`
`num_entities`	实体的数量。
`num_relations`	关系的数量。
`relation_to_id`	关系标签到ID的映射。

方法总结

`cli`()	运行CLI。
`deteriorate`(n[, random_state])	从数据集的训练中退化n个三元组，使用`pykeen.triples.deteriorate.deteriorate()`。
`docdata`(*parts)	获取此类的文档数据。
`from_directory_binary`(path)	从目录加载数据集。
`from_path`(路径[, 比例])	通过将单个三元组工厂拆分为3个来创建数据集。
`from_tf`(tf[, ratios])	通过将单个三元组工厂拆分为3个来创建数据集。
`get_normalized_name`()	获取数据集的规范化名称。
`iter_extra_repr`()	为实例的字符串表示生成额外的条目。
`remix`([random_state])	使用`pykeen.triples.remix.remix()`重新混合数据集。
`restrict`([entities, relations, ...])	将数据集限制为给定的实体/关系。
`similarity`(other[, metric])	计算同一数据集的两次洗牌之间的相似度。
`summarize`([title, show_examples, file])	打印数据集的摘要。
`summary_str`([title, show_examples, end])	总结所有工厂的字符串。
`to_directory_binary`(path)	将数据集以二进制格式存储到路径中。
`triples_pair_sort_key`(pair)	获取在迭代器上下文中用于排序的三元组数量。
`triples_sort_key`(cls)	获取用于排序的三元组数量。

属性文档

create_inverse_triples: 返回是否为训练工厂创建了反向三元组。

entity_to_id: 实体标签到ID的映射。

factory_dict: 返回三个工厂的字典。

metadata: Mapping[str, Any] | None = None: 数据集的名称

metadata_file_name: ClassVar[str] = 'metadata.pth'

num_entities: 实体的数量。

num_relations: 关系的数量。

relation_to_id: 关系标签到ID的映射。

方法文档

classmethod cli() → None[source]

运行CLI。

Return type:: 无

deteriorate(n: int | float, random_state: None | int | Generator = None) → Dataset[source]

从数据集的训练中退化n个三元组，使用pykeen.triples.deteriorate.deteriorate()。

Parameters:

n (int | float)
random_state (None | int | Generator)

Return type:

Dataset

classmethod docdata(*parts: str) → Any[source]

获取此类的文档数据。

Parameters:: 部分 (str)
Return type:: Any

classmethod from_directory_binary(path: str | Path) → Dataset[来源]

从目录加载数据集。

Parameters:: 路径 (str | Path)
Return type:: Dataset

classmethod from_path(path: str | Path, ratios: list[float] | None = None) → Dataset[source]

通过将单个三元组工厂拆分为3个来创建数据集。

Parameters:

路径 (str | Path)
ratios (list[float] | None)

Return type:

Dataset

static from_tf(tf: TriplesFactory, ratios: list[float] | None = None) → Dataset[source]

通过将单个三元组工厂拆分为3个来创建数据集。

Parameters:

tf (TriplesFactory)
ratios (list[float] | None)

Return type:

Dataset

get_normalized_name() → str[source]

获取数据集的规范化名称。

Return type:: str

iter_extra_repr() → Iterable[str][来源]

为实例的字符串表示生成额外的条目。

Return type:: Iterable[str]

remix(random_state: None | int | Generator = None, **kwargs) → Dataset[source]

使用pykeen.triples.remix.remix()重新混合数据集。

Parameters:: random_state (None | int | Generator)
Return type:: Dataset

将数据集限制为给定的实体/关系。

示例：

>>> from pykeen.datasets import get_dataset
>>> full_dataset = get_dataset(dataset="nations")
>>> restricted_dataset = dataset.restrict(entities={"burma", "china", "india", "indonesia"})

Parameters:

entities (None | Collection[int] | Collection[str]) – 要保留（或丢弃，参见invert_entity_selection）的实体。 None 对应于选择所有实体（但处理效率更高）。
relations (None | Collection[int] | Collection[str]) – 要保留（或丢弃，参见invert_relation_selection）的关系。 None 对应于选择所有关系（但处理效率更高）。
invert_entity_selection (bool) – 是否反转实体选择，即丢弃选中的实体而不是所有剩余的实体。
invert_relation_selection (bool) – 是否反转关系选择，即丢弃选定的关系而不是所有剩余的关系。

Returns:

一个新的数据集，具有不同的实体和关系映射以及一组受限的三元组。

Return type:

EagerDataset | Self

警告

这与pykeen.triples.triples_factory.CoreTriplesFactory.new_with_restriction()不同，因为它确实修改了标签到ID的映射。

similarity(other: Dataset, metric: str | None = None) → float[来源]

计算同一数据集的两次洗牌之间的相似度。

Parameters:

其他 (Dataset) – 数据集的其他洗牌方式
metric (str | None) – 使用的度量标准。默认为 tanimoto。

Returns:

相似度的浮点数

Return type:

float

另请参阅

pykeen.triples.triples_factory.splits_similarity().

summarize(title: str | None = None, show_examples: int | None = 5, file=None) → None[source]

打印数据集的摘要。

Parameters:

标题 (str | None)
show_examples (int | None)

Return type:

无

summary_str(title: str | None = None, show_examples: int | None = 5, end='\n') → str[source]

总结所有工厂的字符串。

Parameters:

标题 (str | None)
show_examples (int | None)

Return type:

str

to_directory_binary(path: str | Path) → None[source]

将数据集以二进制格式存储到路径中。

Parameters:: 路径 (str | Path)
Return type:: 无

classmethod triples_pair_sort_key(pair: tuple[str, type[Dataset]]) → int[source]

获取在迭代器上下文中用于排序的三元组数量。

Parameters:: pair (tuple[str, type[Dataset]])
Return type:: int

static triples_sort_key(cls: type[Dataset]) → int[source]

获取用于排序的三元组数量。

Parameters:: cls (type[Dataset])
Return type:: int