字符串规范化器

StringNormalizer - 10

版本

  • 名称: StringNormalizer (GitHub)

  • 域名: main

  • since_version: 10

  • 函数: False

  • support_level: SupportType.COMMON

  • 形状推断: True

此版本的运算符自版本10起可用。

摘要

StringNormalization 执行字符串操作以进行基本清理。 此运算符只有一个输入(表示为 X)和一个输出 (表示为 Y)。此运算符首先检查 X 中的元素, 并移除“stopwords”属性中指定的元素。 移除停用词后,中间结果可以进一步转换为小写、 大写,或根据“case_change_action”属性直接返回。 此运算符仅接受 [C]- 和 [1, C]-张量。 如果 X 中的所有元素都被移除,输出将是形状为 [1] 的字符串张量的空值 如果输入形状为 [C],如果输入形状为 [1, C],则形状为 [1, 1]。

属性

  • case_change_action - STRING (默认为 'NONE'):

    字符串枚举,用于将输出转换为小写/大写/保持不变。有效值为“LOWER”、“UPPER”、“NONE”。默认值为“NONE”

  • is_case_sensitive - INT (默认值为 '0'):

    布尔值。X中停用词的识别是否区分大小写。默认值为false

  • locale - STRING :

    环境依赖的字符串,表示根据其输出字符串需要转换为大写/小写的区域设置。默认值为en_US或由实现决定的平台特定等效值。

  • 停用词 - 字符串 :

    停用词列表。如果未设置,则不会从X中删除任何单词。

输入

  • X (异构) - tensor(string):

    要标准化的UTF-8字符串

输出

  • Y (异构) - tensor(string):

    UTF-8 标准化字符串