最优化-最优条件(数学基础)

1. 凸集

Def:Set X X X\ in R n R^n Rnis convex iff
α x 1 + ( 1 − α ) x 2 ∈ X   ∀ x 1 , x 2 ∈ X , ∀ α ∈ [ 0 , 1 ] \alpha x_1+(1-\alpha)x_2\in X \ \forall x_1,x_2\in X,\forall\alpha\in[0,1] αx1​+(1−α)x2​∈X ∀x1​,x2​∈X,∀α∈[0,1]
凸集意味着:凸集中的任意两点之间的连线上的点也是凸集中的点。

2. 超平面

超平面被定义为一个点集 X = { x ∣ c T x = z } X=\{x|c^Tx=z\} X={x∣cTx=z}
其中c是一个非零向量z是一个标量

3. 凸集的支撑面(特殊的超平面)

给出一个凸集 X X X的边界点 w w w,超平面 c T x = z c^Tx=z cTx=z被称为 w w w的支撑超平面,满足下列条件:

  • w w w过这个超平面 c T w = z c^Tw=z cTw=z
  • 集合 X X X的所有点都在超平面的一侧

4. 凸函数

**DEF: X X Xa convex set in R n R^n Rn. f ( x ) : X − > R f(x):X->R f(x):X−>Ris convex iff
f ( α x 1 + ( 1 − α ) x 2 ) ≤ α f ( x 1 ) + ( 1 − α ) f ( x 2 ) f(\alpha x_1+(1- \alpha)x_2)\leq\alpha f(x_1)+(1-\alpha) f(x_2) f(αx1​+(1−α)x2​)≤αf(x1​)+(1−α)f(x2​)
∀ x 1 , x 2 ∈ X , ∀ α ∈ [ 0 , 1 ] \forall x_1,x_2 \in X,\forall \alpha\in [0,1] ∀x1​,x2​∈X,∀α∈[0,1]
注意事项

  • 凸函数要定义在凸集中
  • 该定义不需要 f ( x ) f(x) f(x)是连续的或者可微分的
  • 如果 − f ( x ) -f(x) −f(x)是凸的,是、则 f ( x ) f(x) f(x)是凸的
  • 当 ≤ \leq ≤被 < < <代替,凸集是严格凸的当 a l p h a ∈ ( 0 , 1 ) , x 1 ≠ x 2 alpha \in(0,1),x_1\neq x_2 alpha∈(0,1),x1​​=x2​

5. 梯度

什么是 ∇ f ( x ) , ∇ 2 f ( x ) \nabla f(x),\nabla^2 f(x) ∇f(x),∇2f(x):
∇ f ( x ) = ( ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , ∂ f ( x ) ∂ x 3 . . . ∂ f ( x ) ∂ x n ) \nabla f(x)=\left(\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},\frac{\partial f(x)}{\partial x_3}...\frac{\partial f(x)}{\partial x_n} \right) ∇f(x)=(∂x1​∂f(x)​,∂x2​∂f(x)​,∂x3​∂f(x)​...∂xn​∂f(x)​)
hessian阵:
H ( x ) = ∇ 2 f ( x ) ≡ ( ∂ f ( x ) ∂ x 1 2 . . . ∂ f ( x ) ∂ x 1 ∂ x n . . . . . . . . . ∂ f ( x ) ∂ x n ∂ x 1 . . . ∂ f ( x ) ∂ x n 2 ) H(x)=\nabla^2f(x)\equiv\begin{pmatrix} \frac{\partial f(x)}{\partial x_1^2}&...&\frac{\partial f(x)}{\partial x_1 \partial x_n}\\ ...&...&...\\ \frac{\partial f(x)}{\partial x_n\partial x_1}&...&\frac{\partial f(x)}{\partial x_n^2}\\ \end{pmatrix} H(x)=∇2f(x)≡⎝⎜⎛​∂x12​∂f(x)​...∂xn​∂x1​∂f(x)​​.........​∂x1​∂xn​∂f(x)​...∂xn2​∂f(x)​​⎠⎟⎞​

  • 海森矩阵是 n × n n\times n n×n的矩阵
  • 海森矩阵是对称阵 H T = H H^T=H HT=H
  • 一维的情况: ∇ f ( x ) = f ′ ( x ) , ∇ 2 f ( x ) = f ′ ′ ( x ) \nabla f(x)=f'(x),\nabla^2f(x)=f''(x) ∇f(x)=f′(x),∇2f(x)=f′′(x)

6. 方向导数

如果 u u u是一个单位向量,那么 f ( x ) f(x) f(x)的方向导数为:
lim ⁡ a → 0 f ( x + a u ) − f ( x ) a = ∇ f ( x ) T u \lim_{a \to0}\frac{f(x+au)-f(x)}{a}=\nabla f(x)^Tu a→0lim​af(x+au)−f(x)​=∇f(x)Tu
梯度和单位向量 u u u的内积

7. 微分函数的凸性质

对于微分函数,下列定理可以用来确定 f ( x ) f(x) f(x)是凸的。

  • 定理1:
    另 f ( x ) f(x) f(x)是凸集 x x x上的可微函数,当且仅当
    f ( x 2 ) − f ( x 1 ) ≥ ∇ f ( x 1 ) T ( x 2 − x 1 ) , ∀ x 1 , x 2 ∈ X f(x_2)-f(x_1)\geq \nabla f(x_1)^T(x_2-x_1),\forall x_1,x_2 \in X f(x2​)−f(x1​)≥∇f(x1​)T(x2​−x1​),∀x1​,x2​∈X
    直观的理解:微分定义: Δ y = f ′ ( x ) Δ x + o ( Δ x ) \Delta y =f'(x)\Delta x +o(\Delta x) Δy=f′(x)Δx+o(Δx)如果 f ( x ) f(x) f(x)是凸函数的话,那么 Δ y ≥ f ′ ( x ) Δ x \Delta y\geq f'(x)\Delta x Δy≥f′(x)Δx(充要条件
  • 定理2:
    另 f ( x ) f(x) f(x)是一个二阶微分函数在一个开集 X X X上。当且仅当Hessian矩阵 H ( x ) H(x) H(x)是半正定的对于 ∀ x ∈ X \forall x\in X ∀x∈X, f ( x ) f(x) f(x)在 X X X上是凸的。(充要条件
    • 半正定
      H ( x ) H(x) H(x)是半正定,有 H ( x ) H(x) H(x)是对称的; ∀ ≠ 0 ,   x T H x ≥ 0 \forall \neq 0,\ x^THx\geq0 ∀​=0, xTHx≥0
    • 正定:
      H ( x ) H(x) H(x)是半正定,有 H ( x ) H(x) H(x)是对称的; ∀ ≠ 0 ,   x T H x > 0 \forall \neq 0,\ x^THx>0 ∀​=0, xTHx>0
    • 定理2的证明:
      ∀ x ∈ X ∀ , x ^ ∈ R n , X 是 开 集 \forall x \in X\forall,\hat x\in R^n,X是开集 ∀x∈X∀,x^∈Rn,X是开集, ∃ δ > 0 \exists \delta>0 ∃δ>0使得 λ ∈ [ − δ , δ ] , x + λ x ^ ∈ X \lambda\in [-\delta,\delta],x+\lambda \hat x \in X λ∈[−δ,δ],x+λx^∈X
      根据定理1,有: f ( x + λ x ^ ) ≥ f ( x ) + λ f ′ ( x ) x ^ f(x+\lambda \hat x ) \geq f(x)+\lambda f'(x)\hat x f(x+λx^)≥f(x)+λf′(x)x^
      根据泰勒展开: f ( x + λ x ^ ) = f ( x ) + λ ∇ f ( x ) T x ^ + λ 2 2 x ^ T ∇ 2 f ( x ) x ^ + o ( λ 2 ) f(x+\lambda \hat x)=f(x)+\lambda \nabla f(x)^T \hat x+\frac{\lambda^2}{2}\hat x^T \nabla^2 f(x)\hat x+o(\lambda^2) f(x+λx^)=f(x)+λ∇f(x)Tx^+2λ2​x^T∇2f(x)x^+o(λ2)
      将上面第二个式子代入到第一个式子里,有:
      x ^ T ∇ 2 f ( x ) x ^ ≥ 0 \hat x^T\nabla^2 f(x)\hat x\geq 0 x^T∇2f(x)x^≥0
      在学最优化的时候就有疑问,多元泰勒展开为什么是上面那样,答案在这里:知乎推导(就是正常多元求导,然后转成矩阵形式)
  • 定理3:
    另 f ( x ) f(x) f(x)是一个二阶微分函数在开集并且是凸集 X X X。如果海森矩阵 H ( x ) H(x) H(x)是正定的对于每个 x ∈ X x\in X x∈X,那么 f ( x ) f(x) f(x)是严格凸的在 X X X上(充分不必要的
  • 补充知识点:泰勒展开:
    一元函数的泰勒展开
    f ( x ) = f ( x k ) + ( x − x k ) f ′ ( x k ) + 1 2 ! ( x − x k ) 2 f ′ ′ ( x k ) + o n f(x)=f(x_k)+(x-x_k)f'(x_k)+\frac{1}{2!}(x-x_k)^2f''(x_k)+o^n f(x)=f(xk​)+(x−xk​)f′(xk​)+2!1​(x−xk​)2f′′(xk​)+on
    f ( x + p ) = f ( x ) + p f ′ ( x ) + 1 2 ! p 2 f ′ ′ ( x ) + o n f(x+p)=f(x)+pf'(x)+\frac{1}{2!}p^2f''(x)+o^n f(x+p)=f(x)+pf′(x)+2!1​p2f′′(x)+on
    多元转成矩阵形式:
    f ( x + p ) = f ( x ) + ∇ f ( x ) T p + 1 2 ! p T ∇ 2 f ( x ) p + o n f(x+p)=f(x)+\nabla f(x)^Tp+\frac{1}{2!}p^T\nabla^2 f(x)p+o^n f(x+p)=f(x)+∇f(x)Tp+2!1​pT∇2f(x)p+on
上一篇:优化理论08---约束优化的最优性条件


下一篇:第20章 使用LNMP架构部署动态网站环境