byte_pair_encode#

class pylibcudf.nvtext.byte_pair_encode.BPEMergePairs#

BPE编码器的合并对表。

详情请参见 cudf::nvtext::bpe_merge_pairs

pylibcudf.nvtext.byte_pair_encode.byte_pair_encoding(Column input, BPEMergePairs merge_pairs, Scalar separator=None) Column#

对输入字符串进行字节对编码。

详情请参见 cpp:func:cudf::nvtext::byte_pair_encoding

Parameters:
inputColumn

要编码的字符串。

merge_pairsBPEMergePairs

用于重建每个字符串的子字符串。

separatorScalar

用于在编码后构建输出的字符串。默认是一个空格。

Returns:
Column

一个编码的字符串列。