字符串大小写#

group strings_case

函数

std::unique_ptr<column> capitalize(strings_column_view const &input, string_scalar const &delimiters = string_scalar("", true, cudf::get_default_stream()), rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

返回一列大写的字符串。

如果delimiters是一个空字符串,那么每行的第一个字符会被大写。否则,在找到任何分隔符字符后,非分隔符字符会被大写。

Example:
input = ["tesT1", "a Test", "Another Test", "a\tb"];
output = capitalize(input)
output is ["Test1", "A test", "Another test", "A\tb"]
output = capitalize(input, " ")
output is ["Test1", "A Test", "Another Test", "A\tb"]
output = capitalize(input, " \t")
output is ["Test1", "A Test", "Another Test", "A\tB"]

任何空字符串条目返回相应的空输出列条目。

Throws:

cudf::logic_error – 如果 delimiter.is_valid()false

Parameters:
  • input – 字符串列

  • delimiters – 用于识别需要大写的单词的字符

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

从输入列中提取的字符串首字母大写列

std::unique_ptr<column> title(strings_column_view const &input, string_character_types sequence_type = string_character_types::ALPHA, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

将每个单词的第一个字符修改为大写,其余字符修改为小写。

这里的单词是由不属于sequence_type字符集的任何字符分隔的sequence_type字符序列。

此函数返回一个字符串列,其中对于输入中的每个字符串行,每个单词的第一个字符转换为大写,而单词中的所有剩余字符转换为小写。

Example:
input = ["   teST1", "a Test", " Another test ", "n2vidia"];
output = title(input)
output is ["   Test1", "A Test", " Another Test ", "N2Vidia"]
output = title(input,ALPHANUM)
output is ["   Test1", "A Test", " Another Test ", "N2vidia"]

任何空字符串条目返回相应的空输出列条目。

Parameters:
  • input – 字符串列

  • sequence_type – 用于识别单词的字符类型

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

标题字符串的列

std::unique_ptr<column> is_title(strings_column_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

检查输入列中的字符串是否为标题格式。

每个单词的第一个字符应为大写,而所有其他字符应为小写。单词是大写和小写字符的序列。

此函数返回一列布尔值,如果输入行中的字符串是标题格式,则返回true,否则返回false。

Example:
input = ["   Test1", "A Test", " Another test ", "N2Vidia Corp", "!Abc"];
output = is_title(input)
output is [true, true, false, true, true]

任何空字符串条目都会导致相应的空输出列条目。

Parameters:
  • input – 字符串列

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源

Returns:

类型为 BOOL8 的列

std::unique_ptr<column> to_lower(strings_column_view const &strings, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

将字符串列转换为小写。

只有大写字母字符会被转换。所有其他字符都会被复制。大小写转换可能会导致字符串的字节长度比原始字符串更长或更短。

任何空条目都会在输出列中创建空条目。

Parameters:
  • strings – 此操作的字符串实例。

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源。

Returns:

新列中的字符串字符已转换。

std::unique_ptr<column> to_upper(strings_column_view const &strings, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

将字符串列转换为大写。

只有小写字母字符会被转换。所有其他字符都会被复制。大小写转换可能会导致字符串的字节长度比原始字符串更长或更短。

任何空条目都会在输出列中创建空条目。

Parameters:
  • strings – 此操作的字符串实例。

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源。

Returns:

新列中的字符串字符已转换。

std::unique_ptr<column> swapcase(strings_column_view const &strings, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

返回一个字符串列,将小写字符转换为大写字符,反之亦然。

只有大写或小写的字母字符会被转换。所有其他字符都会被复制。大小写转换可能会导致字符串的字节长度比原始字符串更长或更短。

任何空条目都会在输出列中创建空条目。

Parameters:
  • strings – 此操作的字符串实例。

  • stream – 用于设备内存操作和内核启动的CUDA流

  • mr – 用于分配返回列的设备内存的设备内存资源。

Returns:

新列中的字符串字符已转换。