【王小新】在一篇文章中，可以看到多种神经网络优化算法，即从梯度下降到Adam方法。

王小信是从中化编译来的。

量子比特生产|公众号QbitAI

在调整模型更新权重和偏差参数的方法时，有没有想过哪些优化算法可以使模型更好、更快？是否需要使用梯度下降、随机梯度下降或Adam方法？

介绍了各种优化算法之间的主要差异以及如何选择最佳优化方法。

什么是优化算法？

优化算法的功能是改进教学方法，使损失函数E(x)最小化(或最大化)。

模型内部的一些参数用于计算测试集的目标值03174555实际值和预测值的偏差程度，根据这些参数形成损失函数E(x)。

例如，权重(W)和偏差(B)是这些内部参数，通常用于计算输出值，在训练神经网络模型时起着重要作用。

模型的内部参数在有效训练模型和生成准确结果时起着非常重要的作用。这就是为什么要使用各种优化策略和算法来更新和计算影响模型训练和模型输出的网络参数，从而逼近或达到最佳值。

优化算法主要分为两大类。

一阶优化算法

该算法使用每个参数的梯度值来最小化或最大化损失函数E(x)。最常用的一阶优化算法是梯度下降。

函数梯度：衍生dy/dx的多元表达式，表示相对于x的03174555瞬间变化率。为了计算多变量函数的导数，经常用梯度代替导数，使用偏导数计算梯度。梯度和导数之间的主要区别是函数的梯度形成向量场。

因此，对于单变量函数，使用导数进行分析。渐变基于多元函数。更多的理论细节在这里不再详细说明。

2-二次优化算法

二次优化算法使用二次微分(也称为Hessian方法)来最小化或最大化损失函数。由于二次导数的计算成本很高，所以这种方法不被广泛使用。

详细介绍了各种神经网络优化算法

梯度下降

梯度下降是训练和优化智能系统时最重要的技术和基础之一。渐变下降功能包括：

寻找最小值、控制分配、更新模型参数，并最终收敛模型。

网络更新参数的公式为5821=5821 (5821)。j (5821)。其中是学习率(5821)。j (5821)是损失函数j (5821)的梯度。

这是神经网络中最常用的优化算法。

现在，梯度下降主要用于神经网络模型中的权重更新，即在一个方向上更新和调整模型中的参数，以最小化损失函数。

2006年引进的反向传播技术使深入神经网络得以训练。反向传播技术首先计算前向传播中输入信号的乘积及其权重，然后将激活函数应用于这些乘积的总和。该方法将输入信号转换为输出信号，是建立复杂非线性函数模型，引入非线性激活函数，使模型学习几乎所有形式的函数映射的重要手段。然后在网络的反向传播过程中返回相关误差，使用梯度下降更新权重值，计算误差函数E相对于权重参数W的梯度，从而在损失函数梯度的相反方向更新权重参数。

图1:权重更新方向与渐变方向相反

图1显示了加权更新过程与梯度矢量误差相反的方向。其中U形曲线是渐变。如果权重值W太小或太大，则可能会出现很大的错误，因此需要更新和优化权重以转换为相应的值，因此尝试在与渐变相反的方向上找到局部最佳值。

梯度下降变形

传统的批量梯度下降计算整个数据集梯度，但只更新一次，因此在处理大型数据集时速度慢、难以控制，甚至可能发生内存溢出。

权重更新速度由学习率决定，可以在凸误差曲面上收敛到全局最优值，在非凸曲面上收敛到局部最优值。

使用标准格式的批量梯度减少的另一个问题是，在训练大型数据集时，有重复的权重更新。

标准梯度下降的这种问题在随机梯度下降方法中得到了解决。

1.随机梯度下降(SDG)

随机梯度减少(Stochastic gradient descent，SGD)对每个培训样本进行参数更新，每次运行更新一次，执行速度更快。

5821=5821(5821)j(5821；x(I)；03174555 (I)，其中x(i)和03174555 (I)是训练样本。

频繁更新会在参数之间产生较高的差异，损失函数会以不同的强度波动。这其实是件好事。这有助于找到新的局部最小值，因为标准梯度下降仅收敛到特定的局部最优值。(大卫亚设)。

但是，SGD的问题是，频繁的更新和波动最终收敛到最低限度，波动经常导致超额量。

虽然在慢慢降低学习率时，标准梯度下降的收敛模式被证明与SGD的模式相同。

图片2:

每个训练样本中高方差的参数更新会导致损失函数大幅波动，因此我们可能无法获得给出损失函数的最小值。

另一种称为“小批量梯度下降”的变体，则可以解决高方差的参数更新和不稳定收敛的问题。

2. 小批量梯度下降

为了避免SGD和标准梯度下降中存在的问题，一个改进方法为小批量梯度下降（Mini Batch Gradient Descent），因为对每个批次中的n个训练样本，这种方法只执行一次更新。

使用小批量梯度下降的优点是：

1) 可以减少参数更新的波动，最终得到效果更好和更稳定的收敛。

2) 还可以使用最新的深层学习库中通用的矩阵优化方法，使计算小批量数据的梯度更加高效。

3) 通常来说，小批量样本的大小范围是从50到256，可以根据实际问题而有所不同。

4) 在训练神经网络时，通常都会选择小批量梯度下降算法。

这种方法有时候还是被成为SGD。

使用梯度下降及其变体时面临的挑战

1. 很难选择出合适的学习率。太小的学习率会导致网络收敛过于缓慢，而学习率太大可能会影响收敛，并导致损失函数在最小值上波动，甚至出现梯度发散。

2. 此外，相同的学习率并不适用于所有的参数更新。如果训练集数据很稀疏，且特征频率非常不同，则不应该将其全部更新到相同的程度，但是对于很少出现的特征，应使用更大的更新率。

3. 在神经网络中，最小化非凸误差函数的另一个关键挑战是避免陷于多个其他局部最小值中。实际上，问题并非源于局部极小值，而是来自鞍点，即一个维度向上倾斜且另一维度向下倾斜的点。这些鞍点通常被相同误差值的平面所包围，这使得SGD算法很难脱离出来，因为梯度在所有维度上接近于零。

进一步优化梯度下降

现在我们要讨论用于进一步优化梯度下降的各种算法。

1. 动量

SGD方法中的高方差振荡使得网络很难稳定收敛，所以有研究者提出了一种称为动量（Momentum）的技术，通过优化相关方向的训练和弱化无关方向的振荡，来加速SGD训练。换句话说，这种新方法将上个步骤中更新向量的分量’γ’添加到当前更新向量。

V(t)=γV(t−1)+η∇(θ).J(θ)

最后通过θ=θ−V(t)来更新参数。

动量项γ通常设定为0.9，或相近的某个值。

这里的动量与经典物理学中的动量是一致的，就像从山上投出一个球，在下落过程中收集动量，小球的速度不断增加。

在参数更新过程中，其原理类似：

1) 使网络能更优和更稳定的收敛；

2) 减少振荡过程。

当其梯度指向实际移动方向时，动量项γ增大；当梯度与实际移动方向相反时，γ减小。这种方式意味着动量项只对相关样本进行参数更新，减少了不必要的参数更新，从而得到更快且稳定的收敛，也减少了振荡过程。

2. Nesterov梯度加速法

一位名叫Yurii Nesterov研究员，认为动量方法存在一个问题：

如果一个滚下山坡的球，盲目沿着斜坡下滑，这是非常不合适的。一个更聪明的球应该要注意到它将要去哪，因此在上坡再次向上倾斜时小球应该进行减速。

实际上，当小球达到曲线上的最低点时，动量相当高。由于高动量可能会导致其完全地错过最小值，因此小球不知道何时进行减速，故继续向上移动。

Yurii Nesterov在1983年发表了一篇关于解决动量问题的论文，因此，我们把这种方法叫做Nestrov梯度加速法。

在该方法中，他提出先根据之前的动量进行大步跳跃，然后计算梯度进行校正，从而实现参数更新。这种预更新方法能防止大幅振荡，不会错过最小值，并对参数更新更加敏感。

Nesterov梯度加速法（NAG）是一种赋予了动量项预知能力的方法，通过使用动量项γV(t−1)来更改参数θ。通过计算θ−γV(t−1)，得到下一位置的参数近似值，这里的参数是一个粗略的概念。因此，我们不是通过计算当前参数θ的梯度值，而是通过相关参数的大致未来位置，来有效地预知未来：

V(t)=γV(t−1)+η∇(θ)J( θ−γV(t−1) )，然后使用θ=θ−V(t)来更新参数。

现在，我们通过使网络更新与误差函数的斜率相适应，并依次加速SGD，也可根据每个参数的重要性来调整和更新对应参数，以执行更大或更小的更新幅度。

3. Adagrad方法

Adagrad方法是通过参数来调整合适的学习率η，对稀疏参数进行大幅更新和对频繁参数进行小幅更新。因此，Adagrad方法非常适合处理稀疏数据。

在时间步长中，Adagrad方法基于每个参数计算的过往梯度，为不同参数θ设置不同的学习率。

先前，每个参数θ(i)使用相同的学习率，每次会对所有参数θ进行更新。在每个时间步t中，Adagrad方法为每个参数θ选取不同的学习率，更新对应参数，然后进行向量化。为了简单起见，我们把在t时刻参数θ(i)的损失函数梯度设为g(t,i)。

图3：参数更新公式

Adagrad方法是在每个时间步中，根据过往已计算的参数梯度，来为每个参数θ(i)修改对应的学习率η。

Adagrad方法的主要好处是，不需要手工来调整学习率。大多数参数使用了默认值0.01，且保持不变。

Adagrad方法的主要缺点是，学习率η总是在降低和衰减。

因为每个附加项都是正的，在分母中累积了多个平方梯度值，故累积的总和在训练期间保持增长。这反过来又导致学习率下降，变为很小数量级的数字，该模型完全停止学习，停止获取新的额外知识。

因为随着学习速度的越来越小，模型的学习能力迅速降低，而且收敛速度非常慢，需要很长的训练和学习，即学习速度降低。

另一个叫做Adadelta的算法改善了这个学习率不断衰减的问题。

4. AdaDelta方法

这是一个AdaGrad的延伸方法，它倾向于解决其学习率衰减的问题。Adadelta不是累积所有之前的平方梯度，而是将累积之前梯度的窗口限制到某个固定大小w。

与之前无效地存储w先前的平方梯度不同，梯度的和被递归地定义为所有先前平方梯度的衰减平均值。作为与动量项相似的分数γ，在t时刻的滑动平均值Eg²仅仅取决于先前的平均值和当前梯度值。

Eg²=γ.Eg²+(1−γ).g²(t)，其中γ设置为与动量项相近的值，约为0.9。

Δθ(t)=−η⋅g(t,i).

θ(t+1)=θ(t)+Δθ(t)

图4：参数更新的最终公式

AdaDelta方法的另一个优点是，已经不需要设置一个默认的学习率。

目前已完成的改进

1) 为每个参数计算出不同学习率；

2) 也计算了动量项momentum；

3) 防止学习率衰减或梯度消失等问题的出现。

还可以做什么改进？

在之前的方法中计算了每个参数的对应学习率，但是为什么不计算每个参数的对应动量变化并独立存储呢？这就是Adam算法提出的改良点。

Adam算法

Adam算法即自适应时刻估计方法（Adaptive Moment Estimation），能计算每个参数的自适应学习率。这个方法不仅存储了AdaDelta先前平方梯度的指数衰减平均值，而且保持了先前梯度M(t)的指数衰减平均值，这一点与动量类似：

M(t)为梯度的第一时刻平均值，V(t)为梯度的第二时刻非中心方差值。

图5：两个公式分别为梯度的第一个时刻平均值和第二个时刻方差

则参数更新的最终公式为：

图6：参数更新的最终公式

其中，β1设为0.9，β2设为0.9999，ϵ设为10-8。

在实际应用中，Adam方法效果良好。与其他自适应学习率算法相比，其收敛速度更快，学习效果更为有效，而且可以纠正其他优化技术中存在的问题，如学习率消失、收敛过慢或是高方差的参数更新导致损失函数波动较大等问题。

对优化算法进行可视化

图8：对鞍点进行SGD优化

从上面的动画可以看出，自适应算法能很快收敛，并快速找到参数更新中正确的目标方向；而标准的SGD、NAG和动量项等方法收敛缓慢，且很难找到正确的方向。

结论

我们应该使用哪种优化器？

在构建神经网络模型时，选择出最佳的优化器，以便快速收敛并正确学习，同时调整内部参数，最大程度地最小化损失函数。

Adam在实际应用中效果良好，超过了其他的自适应技术。

如果输入数据集比较稀疏，SGD、NAG和动量项等方法可能效果不好。因此对于稀疏数据集，应该使用某种自适应学习率的方法，且另一好处为不需要人为调整学习率，使用默认参数就可能获得最优值。

如果想使训练深层网络模型快速收敛或所构建的神经网络较为复杂，则应该使用Adam或其他自适应学习速率的方法，因为这些方法的实际效果更优。

希望你能通过这篇文章，很好地理解不同优化算法间的特性差异。

【王小新】在一篇文章中，可以看到多种神经网络优化算法，即从梯度下降到Adam方法。

【高寒的扮演者】《你微笑时》 12名演员，只有3名科班出身，分数低是没有理由的

【北京青年叶坦】马苏、王丽坤、妖贼、张丽、屈田、杨丹尼等主演《北京青年》。

【王小新】深层民德的新论文：基于变分法的自编码生成对抗网络

【王小新】加强学习新路径：基于自我监督预测的好奇心驱动探索(论文代码)