ai.onnx.ml - 标签编码器¶

LabelEncoder - 4 (ai.onnx.ml)¶

版本¶

名称: LabelEncoder (GitHub)
领域: ai.onnx.ml
since_version: 4
函数: False
support_level: SupportType.COMMON
形状推断: True

此版本的运算符自ai.onnx.ml的第4版起可用。

摘要¶

将输入张量中的每个元素映射到另一个值。
映射由两个并行属性决定，即‘keys_’和‘values_’属性。指定的‘keys_’属性中的第i个值将映射到指定的‘values_’属性中的第i个值。这意味着输入的元素类型和指定的‘keys_’的元素类型应该相同，而输出类型与指定的‘values_’属性相同。请注意，‘keys_’和‘values_’属性的长度必须相同。如果在指定的‘keys_’属性中找不到输入元素，则可以使用与指定的‘values_’属性匹配的‘default_’作为其输出值。‘default_’属性的类型必须与所选的‘values_’属性匹配。
让我们考虑一个将字符串张量映射到整数张量的例子。假设‘keys_strings’是[“Amy”, “Sally”]，‘values_int64s’是[5, 6]，‘default_int64’是‘-1’。输入[“Dori”, “Amy”, “Amy”, “Sally”, “Sally”]将被映射到[-1, 5, 5, 6, 6]。
由于此操作符是一对一映射，其输入和输出形状相同。请注意，只能设置‘keys_’/‘values_*’中的一个。
值为‘NaN’的浮点键匹配任何输入‘NaN’值，无论位值如何。如果键重复，则最后一个键优先。

属性¶

default_float - FLOAT (默认值为 '-0.0'):

一个浮点数。
default_int64 - INT (默认值为 '-1'):

一个整数。
default_string - STRING (默认值为 '_Unused'):

一个字符串。
default_tensor - TENSOR :

一个默认的张量。如果values_*是字符串类型，则为{”未使用”}；如果values_*是整数类型，则为{-1}；如果values_*是浮点类型，则为{-0.f}。
keys_floats - FLOATS :

浮点数列表。
keys_int64s - INTS :

一个整数列表。
keys_strings - 字符串 :

字符串列表。
keys_tensor - 张量 :

键编码为一维张量。应设置且仅设置一个‘keys_*’。
values_floats - FLOATS :

浮点数列表。
values_int64s - INTS :

一个整数列表。
values_strings - 字符串 :

字符串列表。
values_tensor - TENSOR :

值编码为一维张量。应设置且仅设置一个‘values_*’。

输入¶

X (异构) - T1:

输入数据。它必须具有与keys_*属性集相同的元素类型。

输出¶

Y (异构) - T2:

输出数据。此张量的元素类型基于values_*属性集。

类型约束¶

T1 在 ( tensor(double), tensor(float), tensor(int16), tensor(int32), tensor(int64), tensor(string) ):

输入类型是任意形状的张量。
T2 在 ( tensor(double), tensor(float), tensor(int16), tensor(int32), tensor(int64), tensor(string) ):

输出类型由指定的‘values_*’属性决定。

示例¶

_string_int_label_encoder¶

import numpy as np
import onnx

node = onnx.helper.make_node(
    "LabelEncoder",
    inputs=["X"],
    outputs=["Y"],
    domain="ai.onnx.ml",
    keys_strings=["a", "b", "c"],
    values_int64s=[0, 1, 2],
    default_int64=42,
)
x = np.array(["a", "b", "d", "c", "g"]).astype(object)
y = np.array([0, 1, 42, 2, 42]).astype(np.int64)
expect(
    node,
    inputs=[x],
    outputs=[y],
    name="test_ai_onnx_ml_label_encoder_string_int",
)

node = onnx.helper.make_node(
    "LabelEncoder",
    inputs=["X"],
    outputs=["Y"],
    domain="ai.onnx.ml",
    keys_strings=["a", "b", "c"],
    values_int64s=[0, 1, 2],
)
x = np.array(["a", "b", "d", "c", "g"]).astype(object)
y = np.array([0, 1, -1, 2, -1]).astype(np.int64)
expect(
    node,
    inputs=[x],
    outputs=[y],
    name="test_ai_onnx_ml_label_encoder_string_int_no_default",
)

_tensor_based_label_encoder¶

import numpy as np
import onnx

tensor_keys = make_tensor(
    "keys_tensor", onnx.TensorProto.STRING, (3,), ["a", "b", "c"]
)
repeated_string_keys = ["a", "b", "c"]
x = np.array(["a", "b", "d", "c", "g"]).astype(object)
y = np.array([0, 1, 42, 2, 42]).astype(np.int16)

node = onnx.helper.make_node(
    "LabelEncoder",
    inputs=["X"],
    outputs=["Y"],
    domain="ai.onnx.ml",
    keys_tensor=tensor_keys,
    values_tensor=make_tensor(
        "values_tensor", onnx.TensorProto.INT16, (3,), [0, 1, 2]
    ),
    default_tensor=make_tensor(
        "default_tensor", onnx.TensorProto.INT16, (1,), [42]
    ),
)

expect(
    node,
    inputs=[x],
    outputs=[y],
    name="test_ai_onnx_ml_label_encoder_tensor_mapping",
)

node = onnx.helper.make_node(
    "LabelEncoder",
    inputs=["X"],
    outputs=["Y"],
    domain="ai.onnx.ml",
    keys_strings=repeated_string_keys,
    values_tensor=make_tensor(
        "values_tensor", onnx.TensorProto.INT16, (3,), [0, 1, 2]
    ),
    default_tensor=make_tensor(
        "default_tensor", onnx.TensorProto.INT16, (1,), [42]
    ),
)

expect(
    node,
    inputs=[x],
    outputs=[y],
    name="test_ai_onnx_ml_label_encoder_tensor_value_only_mapping",
)

LabelEncoder - 2 对 4

LabelEncoder - 2 (ai.onnx.ml)¶

版本¶

名称: LabelEncoder (GitHub)
领域: ai.onnx.ml
since_version: 2
函数: False
support_level: SupportType.COMMON
形状推断: True

此版本的运算符自ai.onnx.ml域的第2版起已可用。

摘要¶

将输入张量中的每个元素映射到另一个值。
映射由两个并行属性决定，即‘keys_’和‘values_’属性。指定的‘keys_’属性中的第i个值将被映射到指定的‘values_’属性中的第i个值。这意味着输入的元素类型和指定的‘keys_’的元素类型应该相同，而输出类型与指定的‘values_’属性相同。如果在指定的‘keys_’属性中找不到输入元素，则可以使用与指定的‘values_’属性匹配的‘default_’作为其输出值。
让我们考虑一个将字符串张量映射到整数张量的例子。假设‘keys_strings’是[“Amy”, “Sally”]，‘values_int64s’是[5, 6]，而‘default_int64’是‘-1’。输入[“Dori”, “Amy”, “Amy”, “Sally”, “Sally”]将被映射到[-1, 5, 5, 6, 6]。
由于此操作符是一对一映射，其输入和输出形状相同。请注意，只能设置‘keys_’/‘values_’中的一个。
对于键查找，使用位比较，因此即使是浮点数NaN也可以映射到‘values_’属性中的值。

属性¶

default_float - FLOAT (默认值为 '-0.0'):

一个浮点数。
default_int64 - INT (默认值为 '-1'):

一个整数。
default_string - STRING (默认值为 '_Unused'):

一个字符串。
keys_floats - FLOATS :

浮点数列表。
keys_int64s - INTS :

一个整数列表。
keys_strings - 字符串 :

一个字符串列表。应该设置且仅设置一个‘keys_*’。
values_floats - FLOATS :

浮点数列表。
values_int64s - INTS :

一个整数列表。
values_strings - 字符串 :

一个字符串列表。应该设置且仅设置一个'value_*'。

输入¶

X (异构) - T1:

输入数据。它可以是张量或标量。

输出¶

Y (异构) - T2:

输出数据。

类型约束¶

T1 在 ( tensor(float), tensor(int64), tensor(string) ) 中:

输入类型是任意形状的张量。
T2 在 ( tensor(float), tensor(int64), tensor(string) ) 中:

输出类型由指定的‘values_*’属性决定。

LabelEncoder - 1 (ai.onnx.ml)¶

版本¶

名称: LabelEncoder (GitHub)
领域: ai.onnx.ml
since_version: 1
函数: False
support_level: SupportType.COMMON
形状推断: True

此版本的运算符自ai.onnx.ml域的第1版起已可用。

总结¶

将字符串转换为整数，反之亦然。
如果设置了字符串默认值，它将把整数转换为字符串。如果设置了整数默认值，它将把字符串转换为整数。
每个操作符根据提供的默认值属性，将整数转换为字符串或将字符串转换为整数。只应定义一个默认值属性。
当从整数转换为字符串时，字符串通过简单的索引从‘classes_strings’列表中获取。
当从字符串转换为整数时，字符串在列表中查找，并使用找到的索引作为转换后的值。

属性¶

classes_strings - 字符串 :

标签列表。
default_int64 - INT (默认值为 '-1'):

当在映射中找不到输入字符串值时使用的整数。
必须定义且只能定义一个‘default_*’属性。
default_string - STRING (默认值为 '_Unused'):

当在映射中找不到输入的整数值时使用的字符串。
必须定义且只能定义一个‘default_*’属性。

输入¶

X (异构) - T1:

输入数据。

输出¶

Y (异构) - T2:

输出数据。如果输入的是字符串，则输出值为整数，反之亦然。

类型约束¶

T1 在 ( tensor(int64), tensor(string) ) 中:

输入类型必须是整数或字符串的张量，可以是任何形状。
T2 在 ( tensor(int64), tensor(string) ) 中:

输出类型将是一个字符串或整数的张量，并且将具有与输入相同的形状。