研究深度神经网络优化稳定性,证明在一定条件下梯度下降和随机梯度下降方法能有效控制损失函数

假设 F ( x ; w ) F(x;w) F(x;w)是一个输出标量的深度神经网络,其中 x x x是输入, w w w表示权重。假设 F F F关于 w w w连续可微,并且对于训练数据 { x j , y j } j = 1 m \{x_{j},y_{j}\}_{j=1}^{m} {xj,yj}j=1m过参数化:即存在 w ∗ w^* w使得对所有 j j j满足 F ( x j ; w ∗ ) = y j F(x_{j};w^*)=y_{j} F(xj;w)=yj。为了研究训练神经网络时在 w ∗ w^* w的局部优化动力学,我们考虑线性化神经网络 F ^ ( x ; w ) = F ( x ; w ∗ ) + ( w − w ∗ ) ⊤ ∇ F ( x ; w ∗ ) \widehat{F}(x;w)=F(x;w^*)+(w-w^*)^{\top}\nabla F(x;w^*) F (x;w)=F(x;w)+(ww)F(x;w),其损失函数为

L o s s ( w ) : = 1 2 m ∑ j = 1 m ( y j − F ^ ( x j ; w ) ) 2 Loss(w):=\frac{1}{2m}\sum_{j=1}^{m}(y_{j}-\widehat{F}(x_{j};w))^{2} Loss(w):=2m1j=1m(yjF (xj;w))2

s s s表示学习率,梯度下降法为 w i + 1 = w i − s ∇ L o s s ( w i ) w_{i+1}=w_{i}-s\nabla Loss(w_{i}) wi+1=wisLoss(wi),而随机梯度下降法为 w i + 1 = w i − s ( ∇ L o s s ( w i ) + ϵ i ) w_{i+1}=w_{i}-s(\nabla Loss(w_{i})+\epsilon_{i}) wi+1=wis(Loss(wi)+ϵi),其中噪声项 ϵ i \mathcal{\epsilon}_{i} ϵi满足 E ϵ i = 0 \mathbb{E}\mathcal{\epsilon}_{i}=0 Eϵi=0 E ϵ i ϵ i ⊤ = M ( w i ) / b \mathbb{E}\mathcal{\epsilon}_{i}\mathcal{\epsilon}_{i}^{\top}=M(w_{i})/b Eϵiϵi=M(wi)/b, b b b是mini-batch的大小。假设协方差矩阵 M M M

Σ = 1 m ∑ j = 1 m ∇ F ( x j ; w ∗ ) ∇ F ( x j ; w ∗ ) ⊤ \Sigma=\frac{1}{m}\sum_{j=1}^{m}\nabla F(x_{j};w^*)\nabla F(x_{j};w^*)^{\top} Σ=m1j=1mF(xj;w)F(xj;w)

在以下意义上对齐:

T r ( M ( w ) Σ ) 2 ( L o s s ( w ) ) 3 2 ∥ Σ ∥ F 2 ≥ δ \frac{Tr(M(w)\Sigma)}{2(Loss(w))^{\frac{3}{2}}\|\Sigma\|_F^2}\geq\delta 2(Loss(w))23∥ΣF2Tr(M(w)Σ)δ

对于 δ > 0 \delta>0 δ>0和所有 w w w成立。这里 ∥ ⋅ ∥ F \lVert\cdot\rVert_F F表示Frobenius范数。

(1) 对于梯度下降,证明如果 Σ \Sigma Σ的谱范数满足

∥ Σ ∥ 2 ≤ 2 s , \lVert\Sigma\rVert_2\leq\frac{2}{s}, Σ2s2则梯度下降是局部稳定的(即对所有t,Loss ( w t ) (w_t) (wt)是有界的)。(注意,这蕴含了一个依赖维度的界: ∥ Σ ∥ F ≤ 2 d s \lVert\Sigma\rVert_F\leq\frac{2\sqrt{d}}{s} ΣFs2d ,其中 d d d w w w的维度。)

(2) 对于随机梯度下降,如果 E L o s s ( w t ) \mathbb{E}Loss(w_t) ELoss(wt)对所有 t t t都有界,则以独立于维度的不等式必须成立:

∥ Σ ∥ F ≤ b / δ s \lVert\Sigma\rVert_F\leq\frac{\sqrt{b/\delta}}{s} Σ

上一篇:QT相机连接与拍照


下一篇:新书速览|ggplot2科技绘图:基于R语言的数据可视化