数据集

class Dataset[源代码]

基础类:ExtraReprMixin

基础数据集类。

属性摘要

create_inverse_triples

返回是否为训练工厂创建了反向三元组。

entity_to_id

实体标签到ID的映射。

factory_dict

返回三个工厂的字典。

metadata

数据集的名称

metadata_file_name

num_entities

实体的数量。

num_relations

关系的数量。

relation_to_id

关系标签到ID的映射。

方法总结

cli()

运行CLI。

deteriorate(n[, random_state])

从数据集的训练中退化n个三元组,使用pykeen.triples.deteriorate.deteriorate()

docdata(*parts)

获取此类的文档数据。

from_directory_binary(path)

从目录加载数据集。

from_path(路径[, 比例])

通过将单个三元组工厂拆分为3个来创建数据集。

from_tf(tf[, ratios])

通过将单个三元组工厂拆分为3个来创建数据集。

get_normalized_name()

获取数据集的规范化名称。

iter_extra_repr()

为实例的字符串表示生成额外的条目。

remix([random_state])

使用pykeen.triples.remix.remix()重新混合数据集。

restrict([entities, relations, ...])

将数据集限制为给定的实体/关系。

similarity(other[, metric])

计算同一数据集的两次洗牌之间的相似度。

summarize([title, show_examples, file])

打印数据集的摘要。

summary_str([title, show_examples, end])

总结所有工厂的字符串。

to_directory_binary(path)

将数据集以二进制格式存储到路径中。

triples_pair_sort_key(pair)

获取在迭代器上下文中用于排序的三元组数量。

triples_sort_key(cls)

获取用于排序的三元组数量。

属性文档

create_inverse_triples

返回是否为训练工厂创建了反向三元组。

entity_to_id

实体标签到ID的映射。

factory_dict

返回三个工厂的字典。

metadata: Mapping[str, Any] | None = None

数据集的名称

metadata_file_name: ClassVar[str] = 'metadata.pth'
num_entities

实体的数量。

num_relations

关系的数量。

relation_to_id

关系标签到ID的映射。

方法文档

classmethod cli() None[source]

运行CLI。

Return type:

deteriorate(n: int | float, random_state: None | int | Generator = None) Dataset[source]

从数据集的训练中退化n个三元组,使用pykeen.triples.deteriorate.deteriorate()

Parameters:
Return type:

Dataset

classmethod docdata(*parts: str) Any[source]

获取此类的文档数据。

Parameters:

部分 (str)

Return type:

Any

classmethod from_directory_binary(path: str | Path) Dataset[来源]

从目录加载数据集。

Parameters:

路径 (str | Path)

Return type:

Dataset

classmethod from_path(path: str | Path, ratios: list[float] | None = None) Dataset[source]

通过将单个三元组工厂拆分为3个来创建数据集。

Parameters:
Return type:

Dataset

static from_tf(tf: TriplesFactory, ratios: list[float] | None = None) Dataset[source]

通过将单个三元组工厂拆分为3个来创建数据集。

Parameters:
Return type:

Dataset

get_normalized_name() str[source]

获取数据集的规范化名称。

Return type:

str

iter_extra_repr() Iterable[str][来源]

为实例的字符串表示生成额外的条目。

Return type:

Iterable[str]

remix(random_state: None | int | Generator = None, **kwargs) Dataset[source]

使用pykeen.triples.remix.remix()重新混合数据集。

Parameters:

random_state (None | int | Generator)

Return type:

Dataset

restrict(entities: None | Collection[int] | Collection[str] = None, relations: None | Collection[int] | Collection[str] = None, invert_entity_selection: bool = False, invert_relation_selection: bool = False) EagerDataset | Self[source]

将数据集限制为给定的实体/关系。

示例:

>>> from pykeen.datasets import get_dataset
>>> full_dataset = get_dataset(dataset="nations")
>>> restricted_dataset = dataset.restrict(entities={"burma", "china", "india", "indonesia"})
Parameters:
  • entities (None | Collection[int] | Collection[str]) – 要保留(或丢弃,参见invert_entity_selection)的实体。 None 对应于选择所有实体(但处理效率更高)。

  • relations (None | Collection[int] | Collection[str]) – 要保留(或丢弃,参见invert_relation_selection)的关系。 None 对应于选择所有关系(但处理效率更高)。

  • invert_entity_selection (bool) – 是否反转实体选择,即丢弃选中的实体而不是所有剩余的实体。

  • invert_relation_selection (bool) – 是否反转关系选择,即丢弃选定的关系而不是所有剩余的关系。

Returns:

一个新的数据集,具有不同的实体和关系映射以及一组受限的三元组。

Return type:

EagerDataset | Self

警告

这与pykeen.triples.triples_factory.CoreTriplesFactory.new_with_restriction()不同,因为它确实修改了标签到ID的映射。

similarity(other: Dataset, metric: str | None = None) float[来源]

计算同一数据集的两次洗牌之间的相似度。

Parameters:
  • 其他 (Dataset) – 数据集的其他洗牌方式

  • metric (str | None) – 使用的度量标准。默认为 tanimoto

Returns:

相似度的浮点数

Return type:

float

另请参阅

pykeen.triples.triples_factory.splits_similarity().

summarize(title: str | None = None, show_examples: int | None = 5, file=None) None[source]

打印数据集的摘要。

Parameters:
  • 标题 (str | None)

  • show_examples (int | None)

Return type:

summary_str(title: str | None = None, show_examples: int | None = 5, end='\n') str[source]

总结所有工厂的字符串。

Parameters:
  • 标题 (str | None)

  • show_examples (int | None)

Return type:

str

to_directory_binary(path: str | Path) None[source]

将数据集以二进制格式存储到路径中。

Parameters:

路径 (str | Path)

Return type:

classmethod triples_pair_sort_key(pair: tuple[str, type[Dataset]]) int[source]

获取在迭代器上下文中用于排序的三元组数量。

Parameters:

pair (tuple[str, type[Dataset]])

Return type:

int

static triples_sort_key(cls: type[Dataset]) int[source]

获取用于排序的三元组数量。

Parameters:

cls (type[Dataset])

Return type:

int