数据集
- class Dataset[源代码]
基础类:
ExtraReprMixin基础数据集类。
属性摘要
返回是否为训练工厂创建了反向三元组。
实体标签到ID的映射。
返回三个工厂的字典。
数据集的名称
实体的数量。
关系的数量。
关系标签到ID的映射。
方法总结
cli()运行CLI。
deteriorate(n[, random_state])从数据集的训练中退化n个三元组,使用
pykeen.triples.deteriorate.deteriorate()。docdata(*parts)获取此类的文档数据。
from_directory_binary(path)从目录加载数据集。
from_path(路径[, 比例])通过将单个三元组工厂拆分为3个来创建数据集。
from_tf(tf[, ratios])通过将单个三元组工厂拆分为3个来创建数据集。
获取数据集的规范化名称。
为实例的字符串表示生成额外的条目。
remix([random_state])使用
pykeen.triples.remix.remix()重新混合数据集。restrict([entities, relations, ...])将数据集限制为给定的实体/关系。
similarity(other[, metric])计算同一数据集的两次洗牌之间的相似度。
summarize([title, show_examples, file])打印数据集的摘要。
summary_str([title, show_examples, end])总结所有工厂的字符串。
to_directory_binary(path)将数据集以二进制格式存储到路径中。
triples_pair_sort_key(pair)获取在迭代器上下文中用于排序的三元组数量。
triples_sort_key(cls)获取用于排序的三元组数量。
属性文档
- create_inverse_triples
返回是否为训练工厂创建了反向三元组。
- entity_to_id
实体标签到ID的映射。
- factory_dict
返回三个工厂的字典。
- num_entities
实体的数量。
- num_relations
关系的数量。
- relation_to_id
关系标签到ID的映射。
方法文档
- deteriorate(n: int | float, random_state: None | int | Generator = None) Dataset[source]
从数据集的训练中退化n个三元组,使用
pykeen.triples.deteriorate.deteriorate()。
- classmethod from_path(path: str | Path, ratios: list[float] | None = None) Dataset[source]
通过将单个三元组工厂拆分为3个来创建数据集。
- static from_tf(tf: TriplesFactory, ratios: list[float] | None = None) Dataset[source]
通过将单个三元组工厂拆分为3个来创建数据集。
- Parameters:
tf (TriplesFactory)
- Return type:
- remix(random_state: None | int | Generator = None, **kwargs) Dataset[source]
使用
pykeen.triples.remix.remix()重新混合数据集。
- restrict(entities: None | Collection[int] | Collection[str] = None, relations: None | Collection[int] | Collection[str] = None, invert_entity_selection: bool = False, invert_relation_selection: bool = False) EagerDataset | Self[source]
将数据集限制为给定的实体/关系。
示例:
>>> from pykeen.datasets import get_dataset >>> full_dataset = get_dataset(dataset="nations") >>> restricted_dataset = dataset.restrict(entities={"burma", "china", "india", "indonesia"})
- Parameters:
entities (None | Collection[int] | Collection[str]) – 要保留(或丢弃,参见invert_entity_selection)的实体。 None 对应于选择所有实体(但处理效率更高)。
relations (None | Collection[int] | Collection[str]) – 要保留(或丢弃,参见invert_relation_selection)的关系。 None 对应于选择所有关系(但处理效率更高)。
invert_entity_selection (bool) – 是否反转实体选择,即丢弃选中的实体而不是所有剩余的实体。
invert_relation_selection (bool) – 是否反转关系选择,即丢弃选定的关系而不是所有剩余的关系。
- Returns:
一个新的数据集,具有不同的实体和关系映射以及一组受限的三元组。
- Return type:
警告
这与
pykeen.triples.triples_factory.CoreTriplesFactory.new_with_restriction()不同,因为它确实修改了标签到ID的映射。
- similarity(other: Dataset, metric: str | None = None) float[来源]
计算同一数据集的两次洗牌之间的相似度。
- Parameters:
- Returns:
相似度的浮点数
- Return type:
另请参阅
pykeen.triples.triples_factory.splits_similarity().
- summarize(title: str | None = None, show_examples: int | None = 5, file=None) None[source]
打印数据集的摘要。
- summary_str(title: str | None = None, show_examples: int | None = 5, end='\n') str[source]
总结所有工厂的字符串。