回归模型拟合曲线
设定y = x2 + 1,使用简单回归模型基于y = wx2 + b对w和b进行拟合,利用梯度下降多次迭代,具体过程如下:
import torch
import numpy
from matplotlib import pyplot as plt
%matplotlib inline
# 随机生成x数据,在-1到1之间
x = torch.unsqueeze(torch.linspace(-1, 1, 100), dim=1)
y = x.pow(2) + 1
# 初始weight、bias随机生成
w = torch.randn(1, 1, dtype=torch.float, requires_grad=True)
b = torch.randn(1, 1, dtype=torch.float, requires_grad=True)
# print(type(w))
# 给定learning rate为0.0001,迭代600次
lr = 0.0001
# 迭代次数
iteration = 600
for i in range(iteration):
y_pred = x.pow(2).mm(w) + b
# 定义损失函数为0.5*(y_pred - y_hat)^2
loss = 0.5*(y_pred - y)**2
loss = loss.sum()
loss.backward()
# 更新w、b
with torch.no_grad():
w -= lr * w.grad
b -= lr * b.grad
w.grad.zero_()
b.grad.zero_()
plt.plot(x, y, 'r-', label='true')
plt.scatter(x, y_pred.detach().numpy(), label='prediction',color='blue')
plt.legend()
plt.show()
print('w: ', w, 'b: ', b)
先设定一个较小的learning rate为0.0001,迭代600次后将结果显示出来,如下图所示:
可以看到,结果并不是那么好,最终得到的w值很糟糕,距离正确值1还差很多,我们考虑增大learning rate,迭代次数不变,再次运算,结果如下:
可以看到,这次的结果与正确值已经非常接近了,从这两个例子可以看出,在一些情况下,增大learning rate可以提高预测结果的正确性,但是这并不具有普遍性,因为我们这个例子的模型很简单,所以在调整learning rate时有较大的可能性可以提高结果正确率,实际上并非所有模型都可以如此解决,learning rate的选择是很困难的,过小可能在迭代次数内无法找到最低点,过大可能会在做梯度下降时错过最优值。
在上面的例子中,两个参数w和b使用同一个learning rate,实际,我们可以通过Adagrad算法对不同参数分别给定一个learning rate,在迭代过程中不断更新。
Adagrad算法
Adagrad就是将不同参数的learning rate分开考虑的一种算法,adagrad算法update到后面速度会越来越慢,当然这只是adaptive Learning rates算法中最简单的一种。
我们首先尝试用上面的方式去拟合李宏毅老师深度学习课程中给的案例,用已有的10组数据计算梯度,使用最简单的线性模型y_data=b+w*x_data
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
x_data=[338.,333.,328.,207.,226.,25.,179.,60.,208.,606.]
y_data=[640.,633.,619.,393.,428.,27.,193.,66.,226.,1591.]
# 手动计算梯度
def getGrad(b,w):
b_grad=0.0
w_grad=0.0
for i in range(10):
b_grad+=(-2.0)*(y_data[i]-(b+w*x_data[i]))
w_grad+=(-2.0*x_data[i])*(y_data[i]-(b+w*x_data[i]))
return (b_grad,w_grad)
# y_data = b + w * x_data
b = -120
w = -4
# learning rate
lr = 0.0000001
# 迭代次数
iteration = 100000
# 用于存储w和b
b_history = [b]
w_history = [w]
for i in range(iteration):
b_grad,w_grad=getGrad(b,w)
# 更新w和b
b -= lr * b_grad
w -= lr * w_grad
# 存储w、b以绘图
b_history.append(b)
w_history.append(w)
# 显示w、b每一次迭代的位置
plt.scatter(b_history, w_history, s=5)
plt.xlabel(r'$b$',fontsize=16)
plt.ylabel(r'$w$',fontsize=16)
plt.ylim(-5,5)
plt.show()
结果为:
如果我们将learning rate扩大10倍,并将真实的结果(b和w的最优值)用红色×显示,如下
可以看到还是距离最优解还是有一段距离,我们再次增大learning rate,使其等于0.00001,结果如下:
这次的结果出人意料,我们的w和b直接超出范围了,这就说明给定的learning rate过大,这种情况的出现就会让我们很困惑,因为我们无法给定一个合适的learning rate使程序能够更加接近最优值,这时就可以使用adaptive Learning rates,我们通过最简单的Adagrad算法优化learning rate后来观察效果。
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
x_data=[338.,333.,328.,207.,226.,25.,179.,60.,208.,606.]
y_data=[640.,633.,619.,393.,428.,27.,193.,66.,226.,1591.]
# 手动计算梯度
def getGrad(b,w):
b_grad=0.0
w_grad=0.0
for i in range(10):
b_grad+=(-2.0)*(y_data[i]-(b+w*x_data[i]))
w_grad+=(-2.0*x_data[i])*(y_data[i]-(b+w*x_data[i]))
return (b_grad,w_grad)
# y_data = b + w * x_data
b = -120
w = -4
# 给定足够大的learning rate
lr = 0.1
lr_b = 0
lr_w = 0
# 迭代次数
iteration = 100000
# 用于存储w和b
b_history = [b]
w_history = [w]
for i in range(iteration):
b_grad,w_grad=getGrad(b,w)
# 累加代替Adagrad分母中的求和,此时lr_b与lr_w即为g^t
lr_b = lr_b + b_grad ** 2
lr_w = lr_w + w_grad ** 2
# Adagrad:update b and w with new learning rate
b -= lr / np.sqrt(lr_b) * b_grad
w -= lr / np.sqrt(lr_w) * w_grad
# 存储w、b以绘图
b_history.append(b)
w_history.append(w)
# 显示w、b每一次迭代的位置
plt.scatter(b_history, w_history, s=5)
plt.plot([-188.4],[2.67],'x',ms=12,markeredgewidth=3,color='red')
plt.xlabel(r'$b$',fontsize=16)
plt.ylabel(r'$w$',fontsize=16)
plt.show()
结果为:
我们给定初始的learning rate为0.1,然后分别给两个参数w和b设置learning rate,用0.1和它们各自的梯度去更新learning rate,此时,不会出现因为learning rate过大导致的超出范围,但是仍然无法到达最优解处,我们继续增大初始learning rate到1,结果为:
这时的结果已经可以非常靠近最优解了。
从这个结果可知,梯度下降并不是我们想象的这么容易的,在实际使用时还是需要考虑很多的因素,这里尝试了两个简单的例子,还有很多优化的方法在后续继续学习。