动态量化线性

动态量化线性 - 11

版本

此版本的运算符自版本11起可用。

摘要

一个用于融合计算FP32输入数据的比例、零点以及FP32到8位转换的函数。 输出给定FP32输入的比例、零点和量化输入。 比例的计算方式为:

y_scale = (maximum(0, max(x)) - minimum(0, min(x))) / (qmax - qmin)
  • 其中 qmax 和 qmin 是量化范围的最大值和最小值,例如在 uint8 的情况下为 [0, 255]

  • 数据范围已调整为包括0。

零点计算如下:

intermediate_zero_point = qmin - min(x)/y_scale
y_zero_point = cast(round(saturate(itermediate_zero_point)))
  • 其中 qmax 和 qmin 是量化范围的最大值和最小值,例如在 uint8 的情况下为 [0, 255]

  • 对于饱和度,如果它是uint8类型,则饱和到[0, 255],如果它是int8类型,则饱和到[-127, 127]。目前仅支持uint8类型。

  • 四舍五入到最近的偶数。

数据量化公式是:

y = saturate (round (x / y_scale) + y_zero_point)
  • 对于饱和度,如果它是uint8类型,则饱和到[0, 255],如果它是int8类型,则饱和到[-127, 127]。目前仅支持uint8类型。

  • 四舍五入到最近的偶数。

函数体

此运算符的函数定义。

<
  domain: "",
  opset_import: ["" : 11]
>
DynamicQuantizeLinear (x) => (y, y_scale, y_zero_point)
{
   Q_Min = Constant <value: tensor = float {0}> ()
   Q_Max = Constant <value: tensor = float {255}> ()
   X_Min = ReduceMin <keepdims: int = 0> (x)
   X_Min_Adjusted = Min (X_Min, Q_Min)
   X_Max = ReduceMax <keepdims: int = 0> (x)
   X_Max_Adjusted = Max (X_Max, Q_Min)
   X_Range = Sub (X_Max_Adjusted, X_Min_Adjusted)
   Scale = Div (X_Range, Q_Max)
   Min_Scaled = Div (X_Min_Adjusted, Scale)
   Initial_ZeroPoint_FP = Sub (Q_Min, Min_Scaled)
   Clipped_ZeroPoint_FP = Clip (Initial_ZeroPoint_FP, Q_Min, Q_Max)
   Rounded_ZeroPoint_FP = Round (Clipped_ZeroPoint_FP)
   Zeropoint = Cast <to: int = 2> (Rounded_ZeroPoint_FP)
   y_scale = Identity (Scale)
   y_zero_point = Identity (Zeropoint)
   y = QuantizeLinear (x, Scale, Zeropoint)
}

输入

  • x(异构) - T1:

    输入张量

输出

  • y (异构) - T2:

    量化输出张量

  • y_scale (异构) - tensor(float):

    输出比例。它是一个标量,意味着每个张量/层的量化。

  • y_zero_point (异构) - T2:

    输出零点。它是一个标量,意味着每个张量/层的量化。

类型约束

  • T1 在 ( tensor(float) ) 中:

    将 'x' 约束为浮点张量。

  • T2 在 ( tensor(uint8) ) 中:

    将‘y_zero_point’和‘y’限制为8位无符号整数张量。