子词分词#

class pylibcudf.nvtext.subword_tokenize.HashedVocabulary#

用于subword_tokenize函数的词汇数据。

详情请参见 cudf::nvtext::hashed_vocabulary

pylibcudf.nvtext.subword_tokenize.subword_tokenize(Column input, HashedVocabulary vocabulary_table, uint32_t max_sequence_length, uint32_t stride, bool do_lower_case, bool do_truncate) tuple#

创建一个分词器,用于清理文本,将其分割成标记,并从输入词汇表中返回标记ID。

详情请参见 cpp:func:subword_tokenize

Parameters:
inputColumn

要分词的输入字符串。

vocabulary_tableHashedVocabulary

预加载到此对象中的词汇表。

max_sequence_lengthuint32_t

每个字符串在最终张量中每行的token-id数量的限制。

strideuint32_t

输出中的每一行token-ids将复制前一行中的token-ids,除非它是第一个字符串。

do_lower_casebool

如果为true,分词器将把输入流中的大写字符转换为小写,并去除这些字符的重音符号。如果为false,重音和大写字符将不会被转换。

do_truncatebool

如果为真,分词器将丢弃每个输入字符串中max_sequence_length之后的所有令牌ID。如果为假,它将在输出令牌ID中使用新行继续生成输出。

Returns:
tuple[Column, Column, Column]

包含标记、掩码和元数据的三个列的元组。