概述
岭回归,又叫吉洪诺夫正则化,是由Hoerl和Kennard于1970年提出的是一种专用于共线性数据分析的有偏估计回归法。岭回归实际上是一种改良的最小二乘估计法,具有L2正则化的线性最小二乘法。回归算法的,本质就是为了解决一个线性方程,而标准估计方法是普通的最小二乘法的线性回归。
岭回归
线性回归模型的目标函数是
f
(
x
,
y
)
=
∑
i
=
1
m
(
y
i
−
x
i
T
w
)
2
f(x, y) = \sum_{i=1}^{m}(y_{i}-x_{i}^{T}w)^{2}
f(x,y)=∑i=1m(yi−xiTw)2
转换为矩阵形式是:
f
(
x
,
y
)
=
(
y
−
X
w
)
T
(
y
−
X
w
)
f(x, y) = (y-Xw)^{T}(y-Xw)
f(x,y)=(y−Xw)T(y−Xw)
从上矩阵可以得到回归系数:
w
^
=
(
X
T
X
)
−
1
X
T
y
\hat{w}=(X^{T}X)^{-1}X^{T}y
w^=(XTX)−1XTy
上述回归系数方程成立的条件是
X
T
X
X^{T}X
XTX可逆,但如果出现数据样本数比特征数少,或者特征高度相关的情况下,该矩阵的逆不能直接计算。而此时便需要用到岭回归。岭回归在最小二乘估计的基础上增加了一项,即岭回归估计:
w
^
=
(
X
T
X
+
λ
I
)
−
1
X
T
y
\hat{w}=(X^{T}X+\lambda I)^{-1}X^{T}y
w^=(XTX+λI)−1XTy
而岭回归模型的目标函数在线性模型的基础上加了L2范数的惩罚项:
f
(
x
,
y
)
=
1
2
m
∑
i
=
1
m
[
(
y
i
−
x
i
T
w
)
2
+
λ
∑
j
=
1
n
w
j
2
]
f(x, y) = \frac{1}{2m}\sum_{i=1}^{m}[(y_{i}-x_{i}^{T}w)^{2}+\lambda \sum_{j=1}^{n}w_{j}^{2}]
f(x,y)=2m1∑i=1m[(yi−xiTw)2+λ∑j=1nwj2]
惩罚函数便是:
λ
∑
j
=
1
n
w
j
2
\lambda \sum_{j=1}^{n}w_{j}^{2}
λ∑j=1nwj2
这时,函数优化问题便可以转成:
f
(
x
,
y
)
=
∑
i
=
1
m
(
y
i
−
x
i
T
w
)
2
f(x, y) = \sum_{i=1}^{m}(y_{i}-x_{i}^{T}w)^{2}
f(x,y)=∑i=1m(yi−xiTw)2
s
.
t
.
∑
j
=
1
n
w
j
2
≤
t
s.t.\sum_{j=1}^{n}w_{j}^{2}\leq t
s.t.∑j=1nwj2≤t
适用范围
岭回归是在最小二乘法的基础上添加了对参数
w
w
w,当岭参数
λ
\lambda
λ为0时,得到最小二乘解,当岭参数
λ
\lambda
λ趋向更大时,岭回归系数
w
w
w估计趋向于0。
从岭回归的原理可以知道,岭回归就是改良后的最小二乘估计法,通过放弃最小二乘法的无偏性,通过损失部分特征信息,降低模型精度来得到更符合实际情况的回归系数。最小二乘法对每个变量很公平,但当自变量存在复共线性时,回归系估计的方差就很大,估计值就很不稳定。而岭回归通过给回归估计上增加一个偏差度,把一些系数缩减成很小的值甚至零,解决病态矩阵,从而降低模型误差。当实验数据的变量之间存在相关关系,岭回归就很适合用作集成模型的基模型。
引用
[1]: Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems[J]. Technometrics, 1970, 12(1): 55-67.