子词分词#
- class pylibcudf.nvtext.subword_tokenize.HashedVocabulary#
用于subword_tokenize函数的词汇数据。
- pylibcudf.nvtext.subword_tokenize.subword_tokenize(Column input, HashedVocabulary vocabulary_table, uint32_t max_sequence_length, uint32_t stride, bool do_lower_case, bool do_truncate) tuple#
创建一个分词器,用于清理文本,将其分割成标记,并从输入词汇表中返回标记ID。
详情请参见 cpp:func:subword_tokenize
- Parameters:
- inputColumn
要分词的输入字符串。
- vocabulary_tableHashedVocabulary
预加载到此对象中的词汇表。
- max_sequence_lengthuint32_t
每个字符串在最终张量中每行的token-id数量的限制。
- strideuint32_t
输出中的每一行token-ids将复制前一行中的token-ids,除非它是第一个字符串。
- do_lower_casebool
如果为true,分词器将把输入流中的大写字符转换为小写,并去除这些字符的重音符号。如果为false,重音和大写字符将不会被转换。
- do_truncatebool
如果为真,分词器将丢弃每个输入字符串中
max_sequence_length之后的所有令牌ID。如果为假,它将在输出令牌ID中使用新行继续生成输出。
- Returns:
- tuple[Column, Column, Column]
包含标记、掩码和元数据的三个列的元组。