Jensen's inequality 及其应用
对于一个 convex function \(f(x)\) , 最常见的形式是:
\[f\left(t x_{1}+(1-t) x_{2}\right) \leq t f\left(x_{1}\right)+(1-t) f\left(x_{2}\right) \]
从概率论的角度的公式是:
\[\varphi(\mathrm{E}[X]) \leq \mathrm{E}[\varphi(X)] \]
上面是最基本的公式.
公式的各种形式
传统的形式是数字与权重, 这是在有限形式的情况下, 还可以从 measure theory 与 概率学的角度定义公式:
有限的形式
对于一个convex function \(\varphi\), 数字 \(x_1, x_2, \dots x_n\) , 也可以看作是 query, 然后是正数的 \(a_i\) 表示的是权重, 在 Attention 机制中, 可以看作是 weights 的值, 这个值一般可以按比例归一化到和为 1, 这里类似, 那么
Jensen's inequality 就可以表示为:
\[\varphi\left(\frac{\sum a_{i} x_{i}}{\sum a_{i}}\right) \leq \frac{\sum a_{i} \varphi\left(x_{i}\right)}{\sum a_{i}} \]
如果 \(\varphi\) 是一个凹函数, 那么不等式就是下面的形式:
\[\varphi\left(\frac{\sum a_{i} x_{i}}{\sum a_{i}}\right) \geq \frac{\sum a_{i} \varphi\left(x_{i}\right)}{\sum a_{i}} \]
不等式取等号的时候, \(x_1, x_2, \dots x_n\) 是相等的, 在特殊的情况下, 如果 \(a_1, a_2, \dots, a_n\) 相等, 那么不等式的形式可以表示成下面的形式:
\[\varphi\left(\frac{\sum x_{i}}{n}\right) \leq \frac{\sum \varphi\left(x_{i}\right)}{n} \]
使用这个不等式, 我们可以很容易证明均值不等式, 取 \(\varphi\) 函数为 \(log\) 函数的时候:
\[\log \left(\frac{\sum_{i=1}^{n} x_{i}}{n}\right) \geq \frac{\sum_{i=1}^{n} \log \left(x_{i}\right)}{n} \quad \text { or } \quad \frac{x_{1}+x_{2}+\cdots+x_{n}}{n} \geq \sqrt[n]{x_{1} \cdot x_{2} \cdots x_{n}} \]
Measure-theoretic and probabilistic form
概率空间是用来描述随机过程实验结果的一种结构, 对于一个概率空间, $ \varOmega, F, P$ :
A probability space consists of three elements:
- A sample space, \(\varOmega\) which is the set of all possible outcomes.
- An event space, which is a set of events, \(F\) an event being a set of outcomes in the sample space.
- A probability function, which assigns each event in the event space a probability, which is a number between 0 and 1.
那么对于概率空间 $ (\Omega, A, \mu) $ 来说, 其中 $ \mu(\Omega) = 1$ , 如果 \(g\) 是一个实值函数, 并且对 $ \mu$ 是可积的, 并且 $ \varphi$ 是实数域上的 convex function, 此时詹森不等式形式如下:
\[\varphi\left(\int_{\Omega} g d \mu\right) \leq \int_{\Omega} \varphi \circ g d \mu \]
从黎曼积分的角度来看, $ a,b \in R$ , 函数 \(f:[a, b] \longrightarrow R\) 是一个对于 \(x\) 非负的黎曼可积函数, 将 \(f\) 函数带入到上面的 \(g\) 函数就可以得到:
\[\varphi\left(\frac{1}{b-a} \int_{a}^{b} f(x) d x\right) \leq \frac{1}{b-a} \int_{a}^{b} \varphi(f(x)) d x \]
从概率论的角度, 我们引入随机变量的数字特征, 公式就是下面的形式:
\[\varphi(\mathrm{E}[X]) \leq \mathrm{E}[\varphi(X)] \]
各种形式的证明
有限形式
基础条件
如果 \(\lambda_1\) 和 \(\lambda_2\) 是两个任意的非负的实数, 并且有, $ \lambda_1 + \lambda_2 = 1$ , 并且有 $ \lambda_1 x_1 + \lambda_2 x_2 = x_0$ 对于 convex function 函数有:
\[\forall x_{1}, x_{2}: \quad \varphi\left(\lambda_{1} x_{1}+\lambda_{2} x_{2}\right) \leq \lambda_{1} \varphi\left(x_{1}\right)+\lambda_{2} \varphi\left(x_{2}\right) \]
对于这个问题的证明, 可以使用泰勒展开公式:
将 \(f(x)\) 在某点 \(x = x_0\) 处按拉格朗日余项的泰勒展开至 \(n = 1\)
\[f(x)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)+\frac{1}{2 !} f^{\prime \prime}(\xi)\left(x-x_{0}\right)^{2} \]
分别以 \(x = x_1\) 与 \(x = x_2\) 代入, 得到下面两个式子:
\[\begin{aligned} &f\left(x_{1}\right)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x_{1}-x_{0}\right)+\frac{1}{2 !} f^{\prime \prime}(\xi)\left(x_{1}-x_{0}\right)^{2}\\ &f\left(x_{2}\right)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x_{2}-x_{0}\right)+\frac{1}{2 !} f^{\prime \prime}(\xi)\left(x_{2}-x_{0}\right)^{2} \end{aligned} \]
将第一个式子两边乘以 \(\lambda_1\) , 第二个式子两边乘以 \(\lambda_2\) , 得到下面的式子:
\[\lambda_1 f\left(x_{1}\right)+\lambda_2 f\left(x_{2}\right)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(\lambda_1 x_{1}+\lambda_2 x_{2}-x_{0}\right)+\frac{\lambda_1}{2} f^{\prime \prime}\left(\xi_{1}\right)\left(x_{1}-x_{2}\right)^{2}+\frac{\lambda_2}{2} f^{\prime \prime}\left(\xi_{2}\right)\left(x_{2}-x_{0}\right)^{2} \]
那么将 $ \lambda_1 x_1 + \lambda_2 x_2 = x_0$ 代入上面的式子就可以得到(对于 convex function 其二阶导数大于 0):
\[\lambda_1 f\left(x_{1}\right)+\lambda_2 f\left(x_{2}\right)=f\left(x_{0}\right)+ 0 +\frac{\lambda_1}{2} f^{\prime \prime}\left(\xi_{1}\right)\left(x_{1}-x_{2}\right)^{2}+\frac{\lambda_2}{2} f^{\prime \prime}\left(\xi_{2}\right)\left(x_{2}-x_{0}\right)^{2} < f(\lambda_1x_1 + \lambda_2 x_2) \]
递归证明
将这个问题泛化得到, 假设上面的条件对于 \(n\) 成立, 那么对于\(\lambda_1, \lambda_2, \dots, \lambda_n\) , 如果有 \(\lambda_1 + \lambda_2 + \dots + \lambda_n = 1\) , 就有:
\[\varphi\left(\lambda_{1} x_{1}+\lambda_{2} x_{2}+\cdots+\lambda_{n} x_{n}\right) \leq \lambda_{1} \varphi\left(x_{1}\right)+\lambda_{2} \varphi\left(x_{2}\right)+\cdots+\lambda_{n} \varphi\left(x_{n}\right) \]
下面我们来证明在 \(n\) 成立的时候, \(n+1\) 也成立:
\[\begin{aligned} \varphi\left(\sum_{i=1}^{n+1} \lambda_{i} x_{i}\right) &=\varphi\left(\lambda_{1} x_{1}+\left(1-\lambda_{1}\right) \sum_{i=2}^{n+1} \frac{\lambda_{i}}{1-\lambda_{1}} x_{i}\right) \\ & \leq \lambda_{1} \varphi\left(x_{1}\right)+\left(1-\lambda_{1}\right) \varphi\left(\sum_{i=2}^{n+1} \frac{\lambda_{i}}{1-\lambda_{1}} x_{i}\right) \\ & \leq \lambda_{1} \varphi\left(x_{1}\right) + \lambda_2 \varphi(x_2) +\left(1-\lambda_{1} - \lambda_2\right) \varphi\left(\sum_{i=3}^{n+1} \frac{\lambda_{i}}{1-\lambda_{1}- \lambda_2} x_{i}\right) \end{aligned} \]
将上面的式子递归下去, 就得到了:
\[\varphi\left(\lambda_{1} x_{1}+\lambda_{2} x_{2}+\cdots+\lambda_{n} x_{n}\right) \leq \lambda_{1} \varphi\left(x_{1}\right)+\lambda_{2} \varphi\left(x_{2}\right)+\cdots+\lambda_{n} \varphi\left(x_{n}\right) \]
这是因为:
\[\left(\sum_{i=2}^{n+1} \frac{\lambda_{i}}{1-\lambda_{1}}\right) = 1 \\ \left(\sum_{i=3}^{n+1} \frac{\lambda_{i}}{1-\lambda_{1}- \lambda_2} \right) = 1 \]
measure-theoretic form
假设 \(g\) 是概率空间 \(\Omega\) 对于实数 \(\mu\) 可积的函数, \(\varphi\) 是一个 convex function , 所以 \(\varphi\) 的二阶导数是大于 0, 所以对于函数 \(\varphi\) 上没一点的导数的切线, 切线上的点都在函数 \(\varphi\) 以下或者在线上, 现在, 我们定义:
\[x_{0}:=\int_{\Omega} g d \mu \]
对于这个 convex function 函数的切线, 我们可以定义为:
\[ax + b \leq \varphi(x) \]
只有对于切点, 才有:
\[ax_0 + b \leq \varphi(x_0) \]