闭函数
一个函数称为闭函数如果它的上方图是一个闭集。
恰当函数
对于函数 f : C → R f: \mathit{C}\xrightarrow[]{} \mathbb{R} f:C R,如果函数 f f f满足 f ( x ) > − ∞ f(x)>-\infty f(x)>−∞对任意 x ∈ C x\in C x∈C均成立,且存在一点 x 0 ∈ C x_0\in C x0∈C,使得 f ( x ) < + ∞ f(x)<+\infty f(x)<+∞,我们就称函数 f f f在 C C C上是恰当的。
共轭函数
函数
f
f
f的共轭函数
f
∗
f^*
f∗定义为:
f
∗
(
y
)
=
sup
x
∈
d
o
m
f
(
y
T
x
−
f
(
x
)
)
f^*(y)=\sup_{x\in dom f} (y^T x-f(x))
f∗(y)=x∈domfsup(yTx−f(x))
- 注意到,无论 f f f如何,共轭函数 f ∗ f^* f∗总是闭凸的。
- 若函数 f f f是适当的,则 f ∗ f^* f∗不一定是适当的。但若 f f f是适当的凸函数,则 f ∗ f^* f∗也是适当的凸函数。
定理1[Fenchel’s inequality]
共轭函数的定义表明了
f
(
x
)
+
f
∗
(
y
)
≥
x
T
y
∀
x
,
y
f(x)+f^*(y)\geq x^T y \qquad \qquad \forall x,y
f(x)+f∗(y)≥xTy∀x,y
二次共轭
二次共轭定义为:
f
∗
∗
(
x
)
=
sup
y
∈
d
o
m
f
∗
(
x
T
y
−
f
∗
(
y
)
)
f^{**}(x)=\sup_{y\in dom f^*}(x^Ty-f^*(y))
f∗∗(x)=y∈domf∗sup(xTy−f∗(y))则有以下结论:
(1)
f
∗
∗
f^{**}
f∗∗是闭凸函数。
(2)由定理3.1,我们知道有
x
T
y
−
f
∗
(
y
)
≤
f
(
x
)
,
∀
y
,
x
x^Ty-f^*(y)\le f(x),\forall y,x
xTy−f∗(y)≤f(x),∀y,x,因此,我们有
f
∗
∗
(
x
)
≤
f
(
x
)
,
∀
x
f^{**}(x)\le f(x),\forall x
f∗∗(x)≤f(x),∀x。
(3)如果
f
f
f是闭凸函数,则
f
∗
∗
(
x
)
=
f
(
x
)
,
∀
x
∈
d
o
m
f
f^{**}(x)=f(x),\forall x\in dom f
f∗∗(x)=f(x),∀x∈domf。
(3)的证明:我们假设
f
f
f是闭凸函数,且
e
p
i
f
∗
∗
≠
e
p
i
f
epi\,f^{**}\neq epi\,f
epif∗∗=epif,而由(2)我们知道
e
p
i
f
⊆
e
p
i
f
∗
∗
epi\,f\subseteq epi\,f^{**}
epif⊆epif∗∗,我们不妨假设
(
x
,
f
∗
∗
(
x
)
)
∉
e
p
i
f
(x,f^{**}(x))\notin epi\,f
(x,f∗∗(x))∈/epif,由
e
p
i
f
epi\,f
epif的闭凸性,存在一个严格分离超平面:\
[
a
b
]
T
[
z
−
x
s
−
f
∗
∗
(
x
)
]
≤
c
<
0
∀
(
z
,
s
)
∈
e
p
i
f
\begin{bmatrix} a\\b \end{bmatrix}^T \begin{bmatrix} z-x\\s-f^{**}(x) \end{bmatrix}\le c<0 \qquad \forall \,(z,s)\in epi\,f
[ab]T[z−xs−f∗∗(x)]≤c<0∀(z,s)∈epif令
s
→
∞
s\rightarrow \infty
s→∞,我们可以得到
b
≤
0
b\le 0
b≤0。
- 若
b
<
0
b<0
b<0,我们设
y
=
−
a
/
b
y=-a/b
y=−a/b,将上式两边同除
−
b
-b
−b,并且对
(
z
,
s
)
(z,s)
(z,s)取最大值,有:
f ∗ ( y ) − y T x + f ∗ ∗ ( x ) ≤ c − b < 0 f^*(y)-y^Tx+f^{**}(x)\le \frac{c}{-b}<0 f∗(y)−yTx+f∗∗(x)≤−bc<0这显然是与Fenchel’s inequality矛盾的。 - 若
b
=
0
b=0
b=0,我们选取
y
^
∈
d
o
m
f
\hat{y}\in dom\,f
y^∈domf,并选取足够小的
ϵ
>
0
\epsilon>0
ϵ>0,则我们有:
[ a + ϵ y ^ − ϵ ] T [ z − x s − f ∗ ∗ ( x ) ] ≤ c + ϵ ( f ∗ ( y ^ ) + f ∗ ∗ ( x ) − x T y ) < 0 \begin{bmatrix} a+\epsilon\hat{y}\\-\epsilon \end{bmatrix}^T\begin{bmatrix} z-x\\s-f^{**}(x) \end{bmatrix}\le c+\epsilon(f^*(\hat{y})+f^{**}(x)-x^Ty)<0 [a+ϵy^−ϵ]T[z−xs−f∗∗(x)]≤c+ϵ(f∗(y^)+f∗∗(x)−xTy)<0则化成了 b < 0 b<0 b<0的情况。
则(3)成立。