分词器

class Tokenizer[来源]

基础类:object

用于NodePiece表示的标记器基类。

方法总结

__call__(mapped_triples, num_tokens, ...)

对给定三元组中包含的实体进行标记化。

方法文档

abstract __call__(mapped_triples: Tensor, num_tokens: int, num_entities: int, num_relations: int) tuple[int, Tensor][源代码]

对给定三元组中包含的实体进行标记化。

Parameters:
  • mapped_triples (Tensor) – 形状: (n, 3) 基于ID的三元组

  • num_tokens (int) – 为每个实体选择的令牌数量

  • num_entities (int) – 实体的数量

  • num_relations (int) – 关系的数量

Returns:

形状: (num_entities, num_tokens), -1 <= res < vocabulary_size 每个实体选择的关系ID。-1用作填充标记。

Return type:

tuple[int, Tensor]