损失函数与凸优化的逻辑

为什么损失函数可以用梯度下降法来寻找最优解?

  1. 损失函数是凸函数
  2. 凸函数的局部最优解就是全局最优解
  3. 梯度下降法通过寻找极小值来找到最小值

凸函数的性质

  • 对于多元函数,如果它是凸函数,则其Hessian矩阵是半正定矩阵。如果Hessian矩阵是正定的,则函数是严格凸函数。
  • 以一元函数作为样例说明:
    • 如果有一个函数,在定义域内,对于任意实数 0 ≤ θ ≤ 1 0\leq\theta\leq1 0≤θ≤1,都满足如下条件:
      f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta{x}+(1-\theta)y)\leq\theta{f(x)}+(1-\theta)f(y) f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
      则函数为凸函数。意味着函数曲线上任意两点的连线在曲线的上方。
    • 凸函数的一阶判断规则为:
      f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) f(y)\geq f(x)+\nabla f(x)^T (y-x) f(y)≥f(x)+∇f(x)T(y−x)
      几何解释为函数在任意点处的切线在函数的下方。
    • 一元函数是凸函数的判断规则为二阶导数大于等于0
      f ′ ′ ( x ) ≥ 0 f''(x)\geq0 f′′(x)≥0

损失函数

  • 形式: min ⁡ w L ( w ) = 1 2 l ∑ i = 1 l ( w T x i − y i ) 2 \min\limits_{w}L(w)=\frac{1}{2l}\sum_{i=1}^l(w^Tx_i-y_i)^2 wmin​L(w)=2l1​∑i=1l​(wTxi​−yi​)2
  • 展开可写成:
    L ( w ) = 1 2 l [ ( w 1 x 11 + . . . + w n x 1 n − y 1 ) 2 + ( w 1 x 21 + . . . + w n x 2 n − y 2 ) 2 + . . . + ( w 1 x l 1 + . . . + w n x l n − y l ) 2 ] L(w)=\frac{1}{2l}[(w_1x_{11}+...+w_nx_{1n}-y_1)^2+(w_1x_{21}+...+w_nx_{2n}-y_2)^2+...+(w_1x_{l1}+...+w_nx_{ln}-y_l)^2] L(w)=2l1​[(w1​x11​+...+wn​x1n​−y1​)2+(w1​x21​+...+wn​x2n​−y2​)2+...+(w1​xl1​+...+wn​xln​−yl​)2]
  • 一阶偏导: ∂ L ∂ w j = 1 l ∑ i = 1 l ( w T x i − y i ) x i j \frac{\partial L}{\partial w_j}=\frac{1}{l}\sum_{i=1}^l(w^Tx_i-y_i)x_{ij} ∂wj​∂L​=l1​∑i=1l​(wTxi​−yi​)xij​
  • 二阶偏导: ∂ 2 L ∂ w i ∂ w j = 1 l ∑ k = 1 l x k i x k j \frac{\partial^2 L }{\partial w_i \partial w_j }=\frac{1}{l}\sum_{k=1}^lx_{ki}x_{kj} ∂wi​∂wj​∂2L​=l1​∑k=1l​xki​xkj​
  • 目标函数 L ( w ) L(w) L(w)的Hessian矩阵为:
    1 l [ ∑ k = 1 l x k 1 x k 1 ⋯ ∑ k = 1 l x k 1 x k n ⋮ ⋯ ⋮ ∑ k = 1 l x k n x k 1 ⋯ ∑ k = 1 l x k n x k n ] = 1 l X T X ≥ 0 \frac{1}{l}\left[ \begin{matrix} \sum_{k=1}^lx_{k1}x_{k1} & \cdots & \sum_{k=1}^lx_{k1}x_{kn} \\\\ \vdots &\cdots & \vdots\\\\ \sum_{k=1}^lx_{kn}x_{k1} & \cdots & \sum_{k=1}^lx_{kn}x_{kn}\end{matrix} \right] =\frac{1}{l}X^TX\geq0 l1​⎣⎢⎢⎢⎢⎢⎡​∑k=1l​xk1​xk1​⋮∑k=1l​xkn​xk1​​⋯⋯⋯​∑k=1l​xk1​xkn​⋮∑k=1l​xkn​xkn​​⎦⎥⎥⎥⎥⎥⎤​=l1​XTX≥0
  • 矩阵为半正定矩阵.
上一篇:面试官:讲讲雪花算法,越详细越好


下一篇:微信小程序注册