ai.onnx.preview.training - Adagrad¶

Adagrad - 1 (ai.onnx.preview.training)¶

版本¶

名称: Adagrad (GitHub)
领域: ai.onnx.preview.training
since_version: 1
函数: False
support_level: SupportType.COMMON
形状推断: True

此版本的运算符自ai.onnx.preview.training 域的第1版起可用。

摘要¶

计算ADAGRAD的一次迭代，这是一种基于随机梯度的优化算法。该算子可以对多个张量变量进行优化。

让我们定义这个操作符的行为。正如你所想象的，ADAGRAD 需要一些参数：

初始学习率“R”。
更新计数“T”。即，进行的训练迭代次数。
一个L2范数正则化系数“norm_coefficient”。
学习率衰减因子“decay_factor”。
一个小的常数“epsilon”，用于避免除以零。

在每次ADAGRAD迭代中，优化的张量会沿着基于其估计梯度和累积平方梯度计算出的方向移动。假设只有一个张量“X”被此操作符更新。我们需要“X”的值，其梯度“G”，以及其累积平方梯度“H”。因此，此操作符输入列表中的变量依次为“R”，“T”，“X”，“G”和“H”。其他参数作为属性给出，因为它们通常是常量。此外，相应的输出张量是“X”的新值（称为“X_new”），然后是新的累积平方梯度（称为“H_new”）。这些输出是根据给定的输入按照下面的伪代码计算得出的。

让“+”、“-”、“*”和“/”都是支持numpy风格广播的逐元素算术运算。计算这些输出的伪代码如下：

// 计算一个标量学习率因子。在X的第一次更新时，T通常是 // 0（基于0的更新索引）或1（基于1的更新索引）。 r = R / (1 + T * decay_factor);

// 添加梯度 0.5 * norm_coefficient * ||X||_2^2，其中 ||X||_2 是 2-范数。 G_regularized = norm_coefficient * X + G;

// 计算新的累积平方梯度。 H_new = H + G_regularized * G_regularized;

// 计算每个坐标学习率的自适应部分。注意，Sqrt(…) 计算的是逐元素的平方根。 H_adaptive = Sqrt(H_new) + epsilon

// 计算“X”的新值。 X_new = X - r * G_regularized / H_adaptive;

如果将这些操作符分配给优化多个输入，例如“X_1”和“X_2”，相同的伪代码可以扩展以共同处理所有张量。更具体地说，我们可以将“X”视为“X_1”和“X_2”的串联（当然，它们的梯度和累积梯度也应该串联），然后只需重用整个伪代码。

请注意，ADAGRAD 首次在 http://jmlr.org/papers/volume12/duchi11a/duchi11a.pdf 中提出。在那篇参考论文中，这个操作符是图1中复合镜像下降更新的一个特例。

属性¶

衰减因子 - FLOAT (默认值为 '0.0'):

学习率在一次更新后的衰减因子。有效学习率通过公式 r = R / (1 + T * decay_factor) 计算。默认值为0，以便增加更新次数不会降低学习率。
epsilon - FLOAT (默认为 '0.0'):

避免除以零的小标量。
norm_coefficient - FLOAT (默认值为 '0.0'):

正则化系数在0.5 * norm_coefficient * ||X||_2^2中。默认为0，表示没有正则化。

输入¶

输入数量在3到2147483647之间。

R (异质) - T1:

初始学习率。
T (异构) - T2:

“X”的更新计数。它应该是一个标量。
inputs (可变参数) - T3:

优化张量的当前值，随后是它们各自的梯度，再随后是它们各自的累积平方梯度。例如，如果优化了两个张量“X_1”和“X_2”，输入列表将是[“X_1”, “X_2”, “X_1”的梯度, “X_2”的梯度, “X_1”的累积平方梯度, “X_2”的累积平方梯度]。

输出¶

输出在1到2147483647之间。

输出 (可变参数) - T3:

更新后的优化张量值，随后是它们更新后的累积平方梯度值。例如，如果优化了两个张量“X_1”和“X_2”，输出列表将是[“X_1”的新值，“X_2”的新值，“X_1”的新累积平方梯度，“X_2”的新累积平方梯度]。

类型约束¶

T1 在 ( tensor(double), tensor(float) ) 中:

将输入类型限制为浮点标量。
T2 在 ( tensor(int64) ) 中:

将输入类型限制为64位整数标量。
T3 在 ( tensor(double), tensor(float) ) 中:

将输入和输出类型限制为浮点张量。