字符串 API#
- group strings_apis
函数
-
std::unique_ptr<column> count_characters(strings_column_view const &input, rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#
返回一个包含给定列中每个字符串的字符长度的列。
输出列将具有与指定字符串列相同的行数。每行的值将是相应字符串中的字符数。
任何空字符串将导致输出列中该行的条目为空。
- Parameters:
input – 此操作的字符串实例
mr – 用于分配返回列的设备内存的设备内存资源
- Returns:
新列,包含每个字符串的长度
-
std::unique_ptr<column> count_bytes(strings_column_view const &input, rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#
返回一个包含给定列中每个字符串的字节长度的列。
输出列将具有与指定字符串列相同的行数。每行的值将是对应字符串中的字节数。
任何空字符串将导致输出列中该行的条目为空。
- Parameters:
input – 此操作的字符串实例
mr – 用于分配返回列的设备内存的设备内存资源
- Returns:
新列显示每个字符串的字节数
-
std::unique_ptr<column> code_points(strings_column_view const &input, rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#
为每个字符串的每个字符创建一个带有代码点值(整数)的数字列。
代码点是字符的整数值表示。例如,字符‘A’在UTF-8中的代码点值是65。
输出列的大小将是字符串列中的字符总数。
任何空字符串都会被忽略。输出列中不会出现空条目。
- Parameters:
input – 此操作的字符串实例
mr – 用于分配返回列的设备内存的设备内存资源
- Returns:
新的INT32列,包含每个字符的代码点整数值
-
std::unique_ptr<column> count_characters(strings_column_view const &input, rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#