子词分词#

class pylibcudf.nvtext.subword_tokenize.HashedVocabulary#

用于subword_tokenize函数的词汇数据。

详情请参见 cudf::nvtext::hashed_vocabulary。

pylibcudf.nvtext.subword_tokenize.subword_tokenize(Column input, HashedVocabulary vocabulary_table, uint32_t max_sequence_length, uint32_t stride, bool do_lower_case, bool do_truncate) → tuple#

创建一个分词器，用于清理文本，将其分割成标记，并从输入词汇表中返回标记ID。

详情请参见 cpp:func:subword_tokenize

Parameters:

inputColumn: 要分词的输入字符串。
vocabulary_tableHashedVocabulary: 预加载到此对象中的词汇表。
max_sequence_lengthuint32_t: 每个字符串在最终张量中每行的token-id数量的限制。
strideuint32_t: 输出中的每一行token-ids将复制前一行中的token-ids，除非它是第一个字符串。
do_lower_casebool: 如果为true，分词器将把输入流中的大写字符转换为小写，并去除这些字符的重音符号。如果为false，重音和大写字符将不会被转换。
do_truncatebool: 如果为真，分词器将丢弃每个输入字符串中max_sequence_length之后的所有令牌ID。如果为假，它将在输出令牌ID中使用新行继续生成输出。

Returns:

tuple[Column, Column, Column]: 包含标记、掩码和元数据的三个列的元组。