Wikidata文本表示

class WikidataTextRepresentation(identifiers: Sequence[str], cache: TextCache | None = None, **kwargs)[源代码]

基础类：CachedTextRepresentation

基于Wikidata的数据集的文本表示。

每个实体的标签和描述通过使用pykeen.nn.utils.WikidataCache从Wikidata获取，并使用TextRepresentation进行编码。

示例用法：

from pykeen.datasets import get_dataset
from pykeen.models import ERModel
from pykeen.nn import WikidataTextRepresentation
from pykeen.pipeline import pipeline

dataset = get_dataset(dataset="codexsmall")
entity_representations = WikidataTextRepresentation.from_dataset(dataset=dataset, encoder="transformer")
result = pipeline(
    dataset=dataset,
    model=ERModel,
    model_kwargs=dict(
        interaction="distmult",
        entity_representations=entity_representations,
        relation_representation_kwargs=dict(
            shape=entity_representations.shape,
        ),
    ),
)

初始化表示。

Parameters:

标识符 (序列[str]) – 由类解析的ID，例如，wikidata ID。对于 WikidataTextRepresentation，表示为紧凑URI（CURIEs）的生物医学实体用于 BiomedicalCURIERepresentation
缓存 (TextCache | 无) – 一个预先实例化的文本缓存。如果为None，则使用cache_cls来实例化一个。
kwargs – 传递给 TextRepresentation.__init__() 的额外基于关键字的参数