字符串 API#

group strings_apis

函数

std::unique_ptr<column> count_characters(strings_column_view const &input, rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

返回一个包含给定列中每个字符串的字符长度的列。

输出列将具有与指定字符串列相同的行数。每行的值将是相应字符串中的字符数。

任何空字符串将导致输出列中该行的条目为空。

Parameters:
  • input – 此操作的字符串实例

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

新列,包含每个字符串的长度

std::unique_ptr<column> count_bytes(strings_column_view const &input, rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

返回一个包含给定列中每个字符串的字节长度的列。

输出列将具有与指定字符串列相同的行数。每行的值将是对应字符串中的字节数。

任何空字符串将导致输出列中该行的条目为空。

Parameters:
  • input – 此操作的字符串实例

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

新列显示每个字符串的字节数

std::unique_ptr<column> code_points(strings_column_view const &input, rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

为每个字符串的每个字符创建一个带有代码点值(整数)的数字列。

代码点是字符的整数值表示。例如,字符‘A’在UTF-8中的代码点值是65。

输出列的大小将是字符串列中的字符总数。

任何空字符串都会被忽略。输出列中不会出现空条目。

Parameters:
  • input – 此操作的字符串实例

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

新的INT32列,包含每个字符的代码点整数值