字符串处理#

Series.str 可以用来访问系列的值作为字符串并对其应用多种方法。这些方法可以通过 Series.str.<函数/属性> 来访问。

Series.str

用于Series和Index的向量化字符串函数。

byte_count()

计算Series/Index中每个字符串的字节数。

capitalize()

将Series/Index中的字符串转换为首字母大写。

cat()

将Series/Index中的字符串与给定的分隔符连接起来。

center(width[, fillchar])

使用额外字符填充Series/Index中字符串的左右两侧。

character_ngrams([n, as_list])

从字符串列中的字符生成n-grams。

character_tokenize()

每个字符串被分割成单个字符。

code_points()

返回一个数组,该数组填充了每个字符串中每个字符的UTF-8代码点值。

contains(pat[, case, flags, na, regex])

测试模式或正则表达式是否包含在Series或Index的字符串中。

count(pat[, flags])

计算Series/Index中每个字符串中模式的出现次数。

detokenize(indices[, separator])

通过按照它们在indices列中出现的顺序连接它们,将标记组合成字符串。

edit_distance(targets)

使用Levenshtein编辑距离算法将targets字符串与此实例中的字符串进行比较。

edit_distance_matrix()

计算系列中字符串之间的编辑距离。

endswith(pat)

测试每个字符串元素的结尾是否匹配一个模式。

extract(pat[, flags, expand])

将正则表达式 pat 中的捕获组提取为 DataFrame 中的列。

filter_alphanum([repl, keep])

从此列中的字符串中删除非字母数字字符。

filter_characters(table[, keep, repl])

使用给定映射表中的字符范围从每个字符串中移除字符。

filter_tokens(min_token_length[, ...])

从系列中的每个字符串中移除小于min_token_length的标记,并可选地用替换字符串替换它们。

find(sub[, start, end])

返回Series/Index中每个字符串中子字符串完全包含在[start:end]之间的最低索引。

findall(pat[, flags])

在Series/Index中查找模式或正则表达式的所有出现。

find_multiple(patterns)

在Series/Index中查找所有模式的首个出现位置。

get([i])

从每个组件的指定位置提取元素。

get_json_object(json_path, *[, ...])

将JSONPath字符串应用于输入字符串列,其中列中的每一行都是有效的json字符串

hex_to_int()

返回由每个十六进制字符串表示的整数值。

htoi()

返回由每个十六进制字符串表示的整数值。

index(sub[, start, end])

返回每个字符串中子字符串完全包含在[start:end]之间的最低索引。

insert([start, repl])

将指定的字符串插入到每个字符串的指定位置。

ip2int()

将IP字符串转换为整数

ip_to_int()

将IP字符串转换为整数

is_consonant(position)

如果字符串中position位置的字符是辅音,则返回true。

is_vowel(position)

对于在position位置的字符是元音而不是辅音的字符串,返回true。

isalnum()

检查每个字符串中的所有字符是否都是字母数字。

isalpha()

检查每个字符串中的所有字符是否都是字母。

isdecimal()

检查每个字符串中的所有字符是否都是十进制数字。

isdigit()

检查每个字符串中的所有字符是否都是数字。

isempty()

检查每个字符串是否为空字符串。

isfloat()

检查每个字符串中的所有字符是否形成浮点值。

ishex()

检查每个字符串中的所有字符是否构成一个十六进制整数。

isinteger()

检查每个字符串中的所有字符是否形成整数。

isipv4()

检查每个字符串中的所有字符是否构成一个IPv4地址。

isspace()

检查每个字符串中的所有字符是否都是空白字符。

islower()

检查每个字符串中的所有字符是否都是小写。

isnumeric()

检查每个字符串中的所有字符是否都是数字。

isupper()

检查每个字符串中的所有字符是否都是大写。

istimestamp(format)

检查每个字符串中的所有字符是否可以使用给定的格式转换为时间戳。

istitle()

检查每个字符串是否为标题格式。

jaccard_index(input, width)

计算此列与给定输入字符串列之间的Jaccard指数。

join([sep, string_na_rep, sep_na_rep])

将Series/Index中包含的列表与传递的分隔符连接起来。

len()

计算Series/Index中每个元素的长度。

like(pat[, esc])

测试一个like模式是否匹配Series或Index的字符串。

ljust(width[, fillchar])

在Series/Index的字符串右侧填充一个额外的字符。

lower()

将所有字符转换为小写。

lstrip([to_strip])

移除前导和尾随字符。

match(pat[, case, flags])

确定每个字符串是否匹配正则表达式。

minhash([seeds, width])

计算字符串列的minhash值。

ngrams([n, separator])

从一组标记中生成n-grams,系列中的每条记录被视为一个标记。

ngrams_tokenize([n, delimiter, separator])

使用每个字符串中的标记生成n-grams。

normalize_characters([do_lower])

规范化字符串字符以便进行分词。

normalize_spaces()

移除标记之间的多余空格,并修剪每个字符串开头和结尾的空格。

pad(width[, side, fillchar])

将Series/Index中的字符串填充到指定宽度。

partition([sep, expand])

在第一次出现 sep 的地方分割字符串。

porter_stemmer_measure()

计算每个字符串的Porter Stemmer度量。

repeat(repeats)

复制Series或Index中的每个字符串。

removeprefix(prefix)

从对象系列中移除前缀。

removesuffix(suffix)

从对象系列中移除后缀。

replace(pat, repl[, n, case, flags, regex])

将Series/Index中的模式/正则表达式替换为其他字符串。

replace_tokens(targets, replacements[, ...])

在系列中的每个字符串中搜索目标标记,并在找到时用相应的替换项替换。

replace_with_backrefs(pat, repl)

使用 repl 反向引用模板创建一个新字符串,该字符串包含使用 pat 表达式找到的提取元素。

rfind(sub[, start, end])

返回Series/Index中每个字符串中子字符串完全包含在[start:end]之间的最高索引。

rindex(sub[, start, end])

返回每个字符串中子字符串完全包含在 [start:end] 范围内的最高索引。

rjust(width[, fillchar])

在Series/Index中的字符串左侧填充额外的字符。

rpartition([sep, expand])

在最后一次出现 sep 的地方分割字符串。

rsplit([pat, n, expand, regex])

围绕给定的分隔符/定界符分割字符串。

rstrip([to_strip])

移除前导和尾随字符。

slice([start, stop, step])

从Series或Index中的每个元素中切片子字符串。

slice_from(starts, stops)

返回每个字符串的子字符串,使用每个字符串的位置。

slice_replace([start, stop, repl])

用新字符串替换每个字符串的指定部分。

split([pat, n, expand, regex])

围绕给定的分隔符/定界符分割字符串。

startswith(pat)

测试每个字符串元素的开头是否匹配一个模式。

strip([to_strip])

移除前导和尾随字符。

swapcase()

将每个小写字符转换为大写,反之亦然。

title()

将每个空格后的第一个字母大写,其余字母小写。

token_count([delimiter])

每个字符串使用提供的分隔符分割成令牌。

tokenize([delimiter])

每个字符串使用提供的分隔符分割成令牌。

translate(table)

通过给定的映射表映射字符串中的所有字符。

upper()

将每个字符串转换为大写。

url_decode()

返回每个字符串的URL解码格式。

url_encode()

返回每个字符串的URL编码格式。

wrap(width, **kwargs)

将Series/Index中的长字符串换行,使其在段落中格式化,长度小于给定宽度。

zfill(width)

通过在Series/Index中的字符串前面添加'0'字符来填充字符串。