ai.onnx.preview.training - 梯度¶

梯度 - 1 (ai.onnx.preview.training)¶

版本¶

名称: Gradient (GitHub)
领域: ai.onnx.preview.training
since_version: 1
函数: False
support_level: SupportType.COMMON
形状推断: False

此版本的运算符自ai.onnx.preview.training 域的第1版起可用。

摘要¶

梯度算子计算特定张量相对于其他张量的偏导数。该算子广泛应用于基于梯度的训练算法中。为了说明其用途，让我们考虑一个计算图，

X -----.
       |
       v
W --> Conv --> H --> Gemm --> Y
                      ^
                      |
                      Z

，其中 W 和 Z 是可训练的张量。请注意，为了简化起见，操作符的属性被省略了。设 dY/dW (dY/dZ) 为 Y 相对于 W (Z) 的梯度。用户可以通过插入梯度操作符来计算梯度，形成如下所示的另一个图。

W --> Conv --> H --> Gemm --> Y
|      ^              ^
|      |              |
|      X              Z
|      |              |
|      |   .----------'
|      |   |  (W/Z/X is the 1st/2nd/3rd input of Gradient as shown in
|      |   |   "xs" followed by "zs")
|      v   v
'---> Gradient(xs=["W", "Z"], zs=["X"], y="Y")
       |   |
       |   '-----------------------------------> dY/dW (1st output of Gradient)
       |
       '---------------------------------------> dY/dZ (2nd output of Gradient)

根据定义，张量“y”是“xs”和“zs”中自变量的函数。由于我们只计算“y”相对于“xs”中可微变量的梯度，因此此梯度仅输出dY/dW和dY/dZ。请注意，“H”不能出现在“xs”和“zs”中。原因是“H”可以由张量“W”和“X”确定，因此“H”不是自变量。

所有输出都是可选的。如果需要，例如，用户可以给该梯度的第一个输出名称分配一个空字符串，以跳过dY/dW的生成。请注意，可选输出的概念也可以在ONNX的RNN、GRU和LSTM中找到。

梯度算子可以计算对中间张量的导数。例如，Y 相对于 H 的梯度可以通过以下方式计算：

W --> Conv --> H --> Gemm --> Y
       ^       |      ^
       |       |      |
       X       |      Z
       .-------'      |
       |   .----------'
       |   | (H/Z is the 1st/2nd input of Gradient as shown in "xs")
       v   v
      Gradient(xs=["H", "Z"], y="Y")
       |   |
       |   '-----------------------------------> dY/dH (1st output of Gradient)
       |
       '---------------------------------------> dY/dZ (2nd output of Gradient)

可以使用梯度算子来表示高阶微分。例如，给定以下线性模型：

W --> Gemm --> Y --> Loss --> O
       ^              ^
       |              |
       X              L

要计算O对W的二阶导数（表示为d^2O/dW^2），可以这样做

W --> Gemm --> Y --> Loss --> O
|      ^              ^
|      |              |
|      X .------------L
|      | |            |
|      | |            v
+------+-+> Gradient(xs=["X", "W"], zs=["L"], y="O") ---> dO/dX (1st output of Gradient)
|      | |    |
|      | |    '---> dO/dW (2nd output of Gradient)
|      v v
'---> Gradient(xs=["X", "W"], zs=["L"], y="dO/dW") ---> d(dO/dW)dX (1st output of
       |                                                  Gradient)
       |
       |
       '---> d^2O/dW^2 (2nd output of Gradient)

属性“xs”、“zs”和“y”中命名的张量定义了微分计算图，而Gradient节点的输入定义了计算梯度的值。我们可以向识别出的图提供不同的张量。例如，可以通过将特定值H_1作为Gradient节点的输入来计算Y相对于H在H_1处的梯度。

W --> Conv --> H --> Gemm --> Y
       ^              ^
       |              |
       X              Z

          Z_1 (2nd input of Gradient)
           |
           v
H_1 --> Gradient(xs=["H", "Z"], y="Y") ---> dY/dH when H = H_1 and Y = Y_1.
           |
           '------------------------------> dY/dZ (2nd output of Gradient)

当Gradient的输入是名为“xs”和“zs”的张量时，计算可以被优化。更具体地说，如果梯度是通过反向模式自动微分计算的，前向传播中的中间变量可以被重用。

属性¶

xs - 字符串 (必填) :

输入张量名称的微分子图。它仅包含（子）图所需的必要微分输入。可以从输入生成的变量（通常称为中间变量）不能包含在此属性中。
y - STRING (必填) :

目标张量。它可以被视为微分函数的输出。属性“xs”和属性“zs”是决定“y”值的最小自变量集。
zs - 字符串 :

输入张量名称的微分子图。它仅包含（子）图的必要非微分输入。可以从输入生成的变量（通常称为中间变量）不能包含在此属性中。

输入¶

介于1到2147483647之间的输入。

输入 (可变参数) - T1:

通过属性标识的图形输入的值。第i个输入是属性“xs”和属性“zs”连接列表中指定的第i个张量的值。例如，如果xs=[“A”, “B”]和zs=[“C”]，则第一个输入用作符号“A”的值，第三个输入替换所有出现的“C”。

输出¶

输出在1到2147483647之间。

输出 (可变参数) - T2:

由属性“y”指定的张量相对于属性“xs”中指定的每个张量的梯度。第i个输出是“y”相对于属性“xs”中指定的第i个张量的梯度。

类型约束¶

T1 在 ( tensor(bool), tensor(complex128), tensor(complex64), tensor(double), tensor(float), tensor(float16), tensor(int16), tensor(int32), tensor(int64), tensor(int8), tensor(string), tensor(uint16), tensor(uint32), tensor(uint64), tensor(uint8) ):

允许输出为任何类型的张量。
T2 在 ( tensor(double), tensor(float), tensor(float16) ) 中:

允许输入为任何类型的浮点张量。