标记化表示

一个包含分词结果的模块。

初始化标记化。

Parameters:

assignment (Tensor) – 形状: (n, num_chosen_tokens) 令牌分配。
token_representation (str | Representation | type[Representation] | None) – 形状: (num_total_tokens, *shape) token的表示
token_representation_kwargs (Mapping[str, Any] | None) – 额外的基于关键字的参数
shape (tuple[int, ...]) – 单个表示的形状。如果提供，必须匹配。
kwargs – 传递给 Representation.__init__() 的额外基于关键字的参数

Raises:

ValueError – 如果表示大小与词汇大小不匹配

属性摘要

返回ID的选定令牌数量。

方法总结

`from_tokenizer`(tokenizer, num_tokens, ...[, ...])	从应用分词器创建分词。
`iter_extra_repr`()	遍历组件以用于 `extra_repr()`。
`save_assignment`(output_path)	将作业保存到文件中。

属性文档

方法文档

classmethod from_tokenizer(tokenizer: Tokenizer, num_tokens: int, mapped_triples: Tensor, num_entities: int, num_relations: int, token_representation: str | Representation | type[Representation] | None = None, token_representation_kwargs: Mapping[str, Any] | None = None, **kwargs) → TokenizationRepresentation[来源]

从应用分词器创建分词。

Parameters:

tokenizer (Tokenizer) – 分词器实例。
num_tokens (int) – 为每个实体选择的令牌数量。
token_representation (str | Representation | type[Representation] | None) – 预实例化的token表示、类或类名
token_representation_kwargs (Mapping[str, Any] | None) – 额外的基于关键字的参数
mapped_triples (Tensor) – 基于ID的三元组
num_entities (int) – 实体的数量
num_relations (int) – 关系的数量
kwargs – 传递给 TokenizationRepresentation.__init__ 的额外基于关键字的参数

Returns:

通过应用分词器进行的分词表示

Return type:

TokenizationRepresentation

iter_extra_repr() → Iterable[str][来源]

遍历组件以用于 extra_repr()。

save_assignment(output_path: Path)[来源]

将作业保存到文件中。