7 线性回归的梯度下降
回顾下之前所学
即
- 梯度下降算法
- 线性回归模型
- 线性假设
- 平方差代价函数
当具体应用于线性回归的情况时,可以导出梯度下降方程的新形式
我们可以替换我们的实际成本函数和我们的实际假设函数,并将等式修改为:
repeat until convergence: {θ0:=θ1:=}θ0−α1m∑i=1m(hθ(xi)−yi)θ1−α1m∑i=1m((hθ(xi)−yi)xi)
derivation of ∂∂θjJ(θ) for a single example :
其中m是训练集的大小
θ0是一个常数,它将与给定训练集(数据)的θ1和xi,yi 的值同步变化
注意,我们已经将θj的两种情况分离为θ0和θ1的两种情况的偏导数方程
而对于θ1,由于导数,我们在末尾乘以xi
以下是一个单个例子的∂∂θjJ(θ)的推导:
所有这一切的要点是,如果我们从某个猜想开始,然后重复应用这些梯度下降方程,我们的假设将变得越来越准确
因此,这只是原始成本函数J的梯度下降
该方法在每个步骤中查看整个训练集中的每个示例,并称为批量梯度下降
需要注意的是,虽然梯度下降一般对局部最小值敏感,但我们在线性回归中提出的优化问题只有一个全局,而没有其他局部最优; 因此,梯度下降总是收敛(假设学习率α不是太大)于全局最小值
实际上,J是凸二次函数。 下面是梯度下降的示例,因为它是为了最小化一个二次函数而运行的
上面显示的椭圆是二次函数的轮廓
还示出了梯度下降所采用的轨迹,其在(48,30)处初始化
图中的x(由直线连接)标记了渐变下降经历的θ的连续值,当它收敛到其最小值时