标记化表示
- class TokenizationRepresentation(assignment: Tensor, token_representation: str | Representation | type[Representation] | None = None, token_representation_kwargs: Mapping[str, Any] | None = None, shape: int | Sequence[int] | None = None, **kwargs)[source]
基础类:
Representation一个包含分词结果的模块。
初始化标记化。
- Parameters:
assignment (Tensor) – 形状: (n, num_chosen_tokens) 令牌分配。
token_representation (str | Representation | type[Representation] | None) – 形状: (num_total_tokens, *shape) token的表示
token_representation_kwargs (Mapping[str, Any] | None) – 额外的基于关键字的参数
kwargs – 传递给
Representation.__init__()的额外基于关键字的参数
- Raises:
ValueError – 如果表示大小与词汇大小不匹配
属性摘要
返回ID的选定令牌数量。
方法总结
from_tokenizer(tokenizer, num_tokens, ...[, ...])从应用分词器创建分词。
遍历组件以用于
extra_repr()。save_assignment(output_path)将作业保存到文件中。
属性文档
- num_tokens
返回ID的选定令牌数量。
方法文档
- classmethod from_tokenizer(tokenizer: Tokenizer, num_tokens: int, mapped_triples: Tensor, num_entities: int, num_relations: int, token_representation: str | Representation | type[Representation] | None = None, token_representation_kwargs: Mapping[str, Any] | None = None, **kwargs) TokenizationRepresentation[来源]
从应用分词器创建分词。
- Parameters:
tokenizer (Tokenizer) – 分词器实例。
num_tokens (int) – 为每个实体选择的令牌数量。
token_representation (str | Representation | type[Representation] | None) – 预实例化的token表示、类或类名
token_representation_kwargs (Mapping[str, Any] | None) – 额外的基于关键字的参数
mapped_triples (Tensor) – 基于ID的三元组
num_entities (int) – 实体的数量
num_relations (int) – 关系的数量
kwargs – 传递给 TokenizationRepresentation.__init__ 的额外基于关键字的参数
- Returns:
通过应用分词器进行的分词表示
- Return type: