字符串规范化器¶
StringNormalizer - 10¶
版本¶
域名:
mainsince_version:
10函数:
Falsesupport_level:
SupportType.COMMON形状推断:
True
此版本的运算符自版本10起可用。
摘要¶
StringNormalization 执行字符串操作以进行基本清理。 此运算符只有一个输入(表示为 X)和一个输出 (表示为 Y)。此运算符首先检查 X 中的元素, 并移除“stopwords”属性中指定的元素。 移除停用词后,中间结果可以进一步转换为小写、 大写,或根据“case_change_action”属性直接返回。 此运算符仅接受 [C]- 和 [1, C]-张量。 如果 X 中的所有元素都被移除,输出将是形状为 [1] 的字符串张量的空值 如果输入形状为 [C],如果输入形状为 [1, C],则形状为 [1, 1]。
属性¶
case_change_action - STRING (默认为
'NONE'):字符串枚举,用于将输出转换为小写/大写/保持不变。有效值为“LOWER”、“UPPER”、“NONE”。默认值为“NONE”
is_case_sensitive - INT (默认值为
'0'):布尔值。X中停用词的识别是否区分大小写。默认值为false
locale - STRING :
环境依赖的字符串,表示根据其输出字符串需要转换为大写/小写的区域设置。默认值为en_US或由实现决定的平台特定等效值。
停用词 - 字符串 :
停用词列表。如果未设置,则不会从X中删除任何单词。
输入¶
X (异构) - tensor(string):
要标准化的UTF-8字符串
输出¶
Y (异构) - tensor(string):
UTF-8 标准化字符串