AnchorTokenizer

class AnchorTokenizer(selection: str | AnchorSelection | type[AnchorSelection] | None = None, selection_kwargs: Mapping[str, Any] | None = None, searcher: str | AnchorSearcher | type[AnchorSearcher] | None = None, searcher_kwargs: Mapping[str, Any] | None = None)[来源]

基础类:Tokenizer

通过将实体表示为一组锚点实体来进行实体标记化。

实体是通过最短路径距离选择的。

初始化分词器。

Parameters:

方法总结

__call__(mapped_triples, num_tokens, ...)

对给定三元组中包含的实体进行标记化。

方法文档

__call__(mapped_triples: Tensor, num_tokens: int, num_entities: int, num_relations: int) tuple[int, Tensor][source]

对给定三元组中包含的实体进行标记化。

Parameters:
  • mapped_triples (Tensor) – 形状: (n, 3) 基于ID的三元组

  • num_tokens (int) – 为每个实体选择的令牌数量

  • num_entities (int) – 实体的数量

  • num_relations (int) – 关系的数量

Returns:

形状: (num_entities, num_tokens), -1 <= res < vocabulary_size 每个实体选择的关系ID。-1用作填充标记。

Return type:

tuple[int, Tensor]