线性回归中的梯度爆炸

2021年秋季第四周周报内容


0. 前言

古人说: “ 温故而知新, 可以为师矣.” 刚好自己也有点时间, 就把几个月前敲过的代码又敲了一遍.  

1. nan? inf?

这是一个非常基础的一元线性回归代码, 照着西瓜书公式就可以直接敲出来的那种. 重新在网上找了一个数据集, 如图所示: 

线性回归中的梯度爆炸

虽然说分布有点散, 但是总归还是能找到一条线来拟合的嘛.

然后运行, 不对劲了. 结果给我输出这个:

theta1 is:  -1.1121132929727208e+169
theta0 is:  -2.1858247925415553e+167
loss is:  inf

再看图像...

线性回归中的梯度爆炸

这误差已经大得离谱, 已经是无穷大了.

接着, 我把这数据用另外一个代码跑了一下, 输出loss.

loss:  2782.553917241607
loss:  1.5311494984548842e+279
loss:  inf
loss:  nan
loss:  nan
loss:  nan
loss:  nan
loss:  nan
loss:  nan
loss:  nan

 nan : Not a number

并且还出现了 RuntimeWarning 的警告, 为啥损失会这么大, 突然我想到一个词: "梯度爆炸"

3. 梯度爆炸

什么是梯度爆炸?

梯度的衰减是有连续乘法导致的, 如果在连续乘法中出现一个非常大的值, 最后计算出的梯度就会很大, 就想当优化到断崖处时, 会获得一个很大的梯度值, 如果以这个梯度值进行更新, 那么这次迭代的步长就很大, 可能会一下子飞出了合理的区域.

意思就是说, 咱们的 theta 在迭代时, 一直在变大. 看看公式,

损失函数: \( J(w_0, \dots, w_n) \) 

梯度下降: \( w_j = w_j - \alpha * \frac{\partial}{\partial w_j} J \) 

写成矩阵形式: \(\mathbf{w} = [ w_0,\dots, w_n ]^{\mathrm{T}} = \mathbf{w} - \alpha * \frac 1m * (\mathbf{X}^{\mathrm{T}} ( \mathbf{X} \mathbf{w} - \mathbf{Y}) ) \)  

根据上面的解释, 影响的因素可能包含

1) 学习率 \( \alpha \)

2) 初始权重 \( \mathbf{w} \)

3) \( \mathbf{X} , \mathbf{Y} \) 

此处, 初始权重都设为 0. 

3.1 学习率

Test 1: \(\alpha = 0.01 , \rm{numiter} = 100. \)  \(\rm{numiter}\) indicates the number of iterations.

线性回归中的梯度爆炸

失败.

 Test 2: \(\alpha = 0.001 , \rm{numiter} = 100. \)

线性回归中的梯度爆炸

 失败.

 Test 3:  \(\alpha = 0.0001 , \rm{numiter} = 100. \)

线性回归中的梯度爆炸

 根据上图来看, 好像是下降成功了.

theta1 is:  1.4788027175308358
theta0 is:  0.03507497059234175
loss  is : 112.64709271657506

 

线性回归中的梯度爆炸

根据上图来看, 确实拟合出来了一条直线.

之后我又做了一系列的测试, 当学习率 \( \alpha \leq 0.0001 \)时, 调整迭代次数, 总归能够拟合出来一条直线. 误差大约为112.

 结论: 学习率\( \alpha \) 会影响梯度的下降, \(\mathbf{w}\)的更新.

 3.2 数据

数据的值太大会影响梯度下降吗?假设会的话, 那我就把它缩小. 下面就介绍两种常用的特征缩放方式.

1. Min-Max Normalization(min-max标准化)

$$x^*= \frac{x - min(x)} {max(x) - min(x)}$$

其实质是将数据映射到 [0, 1] 之间.

2. Standarddization(z-score标准化)

$$x^* = \frac{x - \mu} {\sigma}$$

其中 \( \mu \)为均值, \( \sigma \)为标准差, 实质是使数据符合标准正态分布.

我们采用第二种方法, 

def z_score(x):
    """
    feature scaling

    :param x: the feature need to scale
    :return: the feature after standardization
    """
    sum1 = 0
    sum2 = 0
    n = len(x)

    # calculate mu
    for i in range(n):
        sum1 += x[i]
    mu = sum1 / n

    # calculate sigma
    for i in range(n):
        sum2 += (x[i] - mu) ** 2
    sigma = (sum2 / n) ** 0.5

    x = (x - mu) / sigma
    return x

处理之后, 我们再做测试.

Test 4:  \(\alpha = 0.01 , \rm{numiter} = 100. \)

线性回归中的梯度爆炸

theta1 is:  11.123553842945782
theta0 is:  63.088960451274154
cost  is : 210.15286292756554

线性回归中的梯度爆炸

 

与Test 1相比, 它拟合出来了一条直线, 并且误差为210左右. 误差应该还可以减少, 增加迭代次数看看.

Test 5: \(\alpha = 0.01 , \rm{numiter} = 500. \)

theta1 is:  12.823781751169484
theta0 is:  72.73206667205297
cost  is : 110.25739302507955

 误差减小到了110.25 左右. 之后我又做了一系列测试, 最终误差维持在为110.25左右.

结论: 数据值的大小会影响线性回归中梯度的下降.

4. 特征缩放

关于特征缩放, 吴恩达教授是这样讲的:

未进行归一化:

线性回归中的梯度爆炸

 它会是这样一个狭长的函数. 在这样的损失函数上运行梯度下降法, 必须使用一个非常小的学习率. 并且如果初始位置设在这, 梯度下降法可能需要多次迭代.

相反地, 特征缩放后, 它会是一个更圆的球星轮廓, 那么无论从哪个位置开始, 梯度下降法都能够更直接地找到最小值, 并且可以使用较大步长.

线性回归中的梯度爆炸

 5. 小结

特征缩放优点:

(1)缩放后加快了梯度下降求最优解的速度.

(2)缩放有可能提高精度(归一化是让不同维度之间的特征在数值上有一定的比较性).

若出现梯度爆炸现象, 首先去看迭代式子!


你可能会觉得奇怪, 做个简单的线性回归怎么还会扯上梯度爆炸. 你若不信, 可以用sklearn.datasets 中的波士顿数据去做个线性回归, 前提是不对数据进行处理, 试一试能不能直接拟合出一个预测函数. 

当然, 若文章所述有误, 也欢迎批评指正!

参考:

机器学习-数据归一化方法

 

 

 

 

 

 

 

 

 

 

 

 

上一篇:【论文翻译】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations


下一篇:故障检测指标的贡献分析(Reconstruction Based Contribution,RBC)新方法