线性回归
算法方程:hθ(x)=∑i=0nθixi=θTx
损失函数:J(θ0,θ1,…,θn)=2m1∑i=1m(hθ(x(i))−y(i))2
将损失函数看做是关于θ的函数。
最小化损失函数:凸函数可以找到全局最优解,算法梯度下降。
θ0:=θ0−αm1∑i=1m(hθ(x(i))−y(i))x0(i)θ1:=θ1−αm1∑i=1m(hθ(x(i))−y(i))x1(i)θ2:=θ2−αm1∑i=1m(hθ(x(i))−y(i))x2(i)…
学习率:θ1:=θ1−αdθ1dJ(θ1)
与收敛速度相关
过拟合与欠拟合:我们的假设函数曲线对原始数据拟合得非常好,但丧失了一般推到性,以致于预测效果很差。
解决方法:正则化
作用:控制参数幅度;限制参数搜索空间
J(θ)=2m1[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθj2]
假设原始线程方式是hθ(x)=θ1x1+θ2x2+θ3x3+θ4x4,在线训练过程中,根据训练集数据大小,每一个θ的都可能非常大,或者非常小,这条线抖动非常大。如果在损失函数中加入∑j=1nθj2,因为损失函数要求最小值,所以每一个θ的值就不可能很大。
λ是一个超参数。λ太小,正则化项不起作用;λ太大,学习到的参数主要由正则化项决定,与训练数据无关,也是错误的。
通常使用L1、L2正则化。
logistic回归
线性回归在分类问题上使用,健壮性差,所以使用logistic回归。
sigmoid函数值域在(0,1)之间,可以看做一个概率函数。
在线性回归外面套一层sigmoid函数。
算法方程:hθ(x)=g(θ0+θ1x1+θ2x2)
hθ(x)=g(θ0+θ1x1+θ2x2+θ3x12+θ4x22)
损失函数:cost(hθ(x),y)={−log(hθ(x))−log(1−hθ(x)) if y=1 if y=0
J(θ)=−m1[∑i=1my(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]
梯度下降优化公式:θj:=θj−α∂θj∂J(θ)
加入正则化:J(θ)=[−m1∑i=1my(i)log(hθ(x(i))+(1−y(i))log1−hθ(x(i))]+2mλ∑j=1nθj2
makeadate
发布了148 篇原创文章 · 获赞 35 · 访问量 10万+
私信
关注