标记化表示

class TokenizationRepresentation(assignment: Tensor, token_representation: str | Representation | type[Representation] | None = None, token_representation_kwargs: Mapping[str, Any] | None = None, shape: int | Sequence[int] | None = None, **kwargs)[source]

基础类:Representation

一个包含分词结果的模块。

初始化标记化。

Parameters:
  • assignment (Tensor) – 形状: (n, num_chosen_tokens) 令牌分配。

  • token_representation (str | Representation | type[Representation] | None) – 形状: (num_total_tokens, *shape) token的表示

  • token_representation_kwargs (Mapping[str, Any] | None) – 额外的基于关键字的参数

  • shape (tuple[int, ...]) – 单个表示的形状。如果提供,必须匹配。

  • kwargs – 传递给 Representation.__init__() 的额外基于关键字的参数

Raises:

ValueError – 如果表示大小与词汇大小不匹配

属性摘要

num_tokens

返回ID的选定令牌数量。

方法总结

from_tokenizer(tokenizer, num_tokens, ...[, ...])

从应用分词器创建分词。

iter_extra_repr()

遍历组件以用于 extra_repr()

save_assignment(output_path)

将作业保存到文件中。

属性文档

num_tokens

返回ID的选定令牌数量。

方法文档

classmethod from_tokenizer(tokenizer: Tokenizer, num_tokens: int, mapped_triples: Tensor, num_entities: int, num_relations: int, token_representation: str | Representation | type[Representation] | None = None, token_representation_kwargs: Mapping[str, Any] | None = None, **kwargs) TokenizationRepresentation[来源]

从应用分词器创建分词。

Parameters:
  • tokenizer (Tokenizer) – 分词器实例。

  • num_tokens (int) – 为每个实体选择的令牌数量。

  • token_representation (str | Representation | type[Representation] | None) – 预实例化的token表示、类或类名

  • token_representation_kwargs (Mapping[str, Any] | None) – 额外的基于关键字的参数

  • mapped_triples (Tensor) – 基于ID的三元组

  • num_entities (int) – 实体的数量

  • num_relations (int) – 关系的数量

  • kwargs – 传递给 TokenizationRepresentation.__init__ 的额外基于关键字的参数

Returns:

通过应用分词器进行的分词表示

Return type:

TokenizationRepresentation

iter_extra_repr() Iterable[str][来源]

遍历组件以用于 extra_repr()

Return type:

Iterable[str]

save_assignment(output_path: Path)[来源]

将作业保存到文件中。

Parameters:

output_path (Path) – 输出文件路径。如果必要,其父目录将被创建。