为什么损失函数可以用梯度下降法来寻找最优解?
- 损失函数是凸函数
- 凸函数的局部最优解就是全局最优解
- 梯度下降法通过寻找极小值来找到最小值
凸函数的性质
- 对于多元函数,如果它是凸函数,则其Hessian矩阵是半正定矩阵。如果Hessian矩阵是正定的,则函数是严格凸函数。
- 以一元函数作为样例说明:
- 如果有一个函数,在定义域内,对于任意实数
0
≤
θ
≤
1
0\leq\theta\leq1
0≤θ≤1,都满足如下条件:
f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta{x}+(1-\theta)y)\leq\theta{f(x)}+(1-\theta)f(y) f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
则函数为凸函数。意味着函数曲线上任意两点的连线在曲线的上方。 - 凸函数的一阶判断规则为:
f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) f(y)\geq f(x)+\nabla f(x)^T (y-x) f(y)≥f(x)+∇f(x)T(y−x)
几何解释为函数在任意点处的切线在函数的下方。 - 一元函数是凸函数的判断规则为二阶导数大于等于0
f ′ ′ ( x ) ≥ 0 f''(x)\geq0 f′′(x)≥0
- 如果有一个函数,在定义域内,对于任意实数
0
≤
θ
≤
1
0\leq\theta\leq1
0≤θ≤1,都满足如下条件:
损失函数
- 形式: min w L ( w ) = 1 2 l ∑ i = 1 l ( w T x i − y i ) 2 \min\limits_{w}L(w)=\frac{1}{2l}\sum_{i=1}^l(w^Tx_i-y_i)^2 wminL(w)=2l1∑i=1l(wTxi−yi)2
- 展开可写成:
L ( w ) = 1 2 l [ ( w 1 x 11 + . . . + w n x 1 n − y 1 ) 2 + ( w 1 x 21 + . . . + w n x 2 n − y 2 ) 2 + . . . + ( w 1 x l 1 + . . . + w n x l n − y l ) 2 ] L(w)=\frac{1}{2l}[(w_1x_{11}+...+w_nx_{1n}-y_1)^2+(w_1x_{21}+...+w_nx_{2n}-y_2)^2+...+(w_1x_{l1}+...+w_nx_{ln}-y_l)^2] L(w)=2l1[(w1x11+...+wnx1n−y1)2+(w1x21+...+wnx2n−y2)2+...+(w1xl1+...+wnxln−yl)2] - 一阶偏导: ∂ L ∂ w j = 1 l ∑ i = 1 l ( w T x i − y i ) x i j \frac{\partial L}{\partial w_j}=\frac{1}{l}\sum_{i=1}^l(w^Tx_i-y_i)x_{ij} ∂wj∂L=l1∑i=1l(wTxi−yi)xij
- 二阶偏导: ∂ 2 L ∂ w i ∂ w j = 1 l ∑ k = 1 l x k i x k j \frac{\partial^2 L }{\partial w_i \partial w_j }=\frac{1}{l}\sum_{k=1}^lx_{ki}x_{kj} ∂wi∂wj∂2L=l1∑k=1lxkixkj
- 目标函数
L
(
w
)
L(w)
L(w)的Hessian矩阵为:
1 l [ ∑ k = 1 l x k 1 x k 1 ⋯ ∑ k = 1 l x k 1 x k n ⋮ ⋯ ⋮ ∑ k = 1 l x k n x k 1 ⋯ ∑ k = 1 l x k n x k n ] = 1 l X T X ≥ 0 \frac{1}{l}\left[ \begin{matrix} \sum_{k=1}^lx_{k1}x_{k1} & \cdots & \sum_{k=1}^lx_{k1}x_{kn} \\\\ \vdots &\cdots & \vdots\\\\ \sum_{k=1}^lx_{kn}x_{k1} & \cdots & \sum_{k=1}^lx_{kn}x_{kn}\end{matrix} \right] =\frac{1}{l}X^TX\geq0 l1⎣⎢⎢⎢⎢⎢⎡∑k=1lxk1xk1⋮∑k=1lxknxk1⋯⋯⋯∑k=1lxk1xkn⋮∑k=1lxknxkn⎦⎥⎥⎥⎥⎥⎤=l1XTX≥0 - 矩阵为半正定矩阵.