字符串规范化器¶

StringNormalizer - 10¶

版本¶

名称: StringNormalizer (GitHub)
域名: main
since_version: 10
函数: False
support_level: SupportType.COMMON
形状推断: True

此版本的运算符自版本10起可用。

摘要¶

StringNormalization 执行字符串操作以进行基本清理。此运算符只有一个输入（表示为 X）和一个输出（表示为 Y）。此运算符首先检查 X 中的元素，并移除“stopwords”属性中指定的元素。移除停用词后，中间结果可以进一步转换为小写、大写，或根据“case_change_action”属性直接返回。此运算符仅接受 [C]- 和 [1, C]-张量。如果 X 中的所有元素都被移除，输出将是形状为 [1] 的字符串张量的空值如果输入形状为 [C]，如果输入形状为 [1, C]，则形状为 [1, 1]。

属性¶

case_change_action - STRING (默认为 'NONE'):

字符串枚举，用于将输出转换为小写/大写/保持不变。有效值为“LOWER”、“UPPER”、“NONE”。默认值为“NONE”
is_case_sensitive - INT (默认值为 '0'):

布尔值。X中停用词的识别是否区分大小写。默认值为false
locale - STRING :

环境依赖的字符串，表示根据其输出字符串需要转换为大写/小写的区域设置。默认值为en_US或由实现决定的平台特定等效值。
停用词 - 字符串 :

停用词列表。如果未设置，则不会从X中删除任何单词。

输入¶

X (异构) - tensor(string):

要标准化的UTF-8字符串

输出¶

Y (异构) - tensor(string):

UTF-8 标准化字符串