PRML-公式推导 1.88

https://biggerhao.github.io/blog/2018/02/PRML-1-88/

原文回顾

在回归问题中,我们需要选择一个估计函数 \(y(\mathbf{x})\),来对每个输入 \(\mathbf{x}\) 预测其对应的值 \(t\)。这样做就会导致损失 \(L(t, y(\mathbf{x}))\)。平均损失或期望损失的公式为

\[ \mathbb{E}(L) = \int \int L(t, y(\mathbf{x})) p(\mathbf{x},t) \mathrm{d}\mathbf{x} \mathrm{d}t \tag{1.86} \]

回归问题中常用的一种损失函数是平方损失,即 \(L(t,y(\mathbf{x})) = \left\{ y(\mathbf{x})-t \right\}^2​\)。那么期望损失就可以写成

\[ \mathbb{E}(L) = \int \int \left\{ y(\mathbf{x})-t \right\}^2 p(\mathbf{x},t) \mathrm{d}\mathbf{x} \mathrm{d}t \tag{1.87} \]

我们的目标就是选择一个 \(y(\mathbf{x})\) 使得 \(\mathbb{E}(L)\) 最小。如果我们假设 \(y(\mathbf{x})\) 是完全灵活的(completely flexible),那么可以通过变分法得到

\[\frac{\delta\mathbb{E}[L]}{\delta y(\mathbf{x})} = 2 \int \left\{ y(\mathbf{x})-t \right\} p(\mathbf{x},t) \mathrm{d}x = 0 \tag{1.88}\]

以上是 PRML 中第 46 页关于回归的一点介绍,其中公式 (1.88) 比较费解,下面对该公式的推导进行分析。

公式推导

上述结果用到了欧拉方程,首先我们来看一下什么是欧拉方程。

定理 使最简泛函 \[ F[y] = \int_{x_0}^{x_1}G(y(x), y'(x),x) \mathrm{d}x \tag{D.5} \]

取极值且满足固定边界条件 \[ y(x_0)=y_0,y(x_1)=y_1 \] 的极值曲线 \(y=y(x)\) 应满足必要条件 \[ \frac{\partial{G}}{\partial{y}} - \frac{\mathrm{d}}{\mathrm{d}x} \left( \frac{\partial{G}}{\partial{y'}} \right)=0 \tag{D.8} \] 的解,式中,\(F\) 是 \(x, y, y'\) 的已知函数并有二阶连续偏导数。

式 (D.8) 称为泛函 (D.5) 的欧拉方程。

回到式 (1.87),这个泛函还不具备 (D.5) 的形式,根据富比尼定理,交换积分顺序得 \[ \mathbb{E}(L) = \int \int \left\{ y(\mathbf{x})-t \right\}^2 p(\mathbf{x},t) \mathrm{d}t \mathrm{d}\mathbf{x} \] 这时取 \(\displaystyle{G(y,y',x) = \int \left\{ y(\mathbf{x})-t \right\}^2 p(\mathbf{x},t) \mathrm{d}t}\),根据欧拉方程可得使得 (1.87) 取最小值的必要条件为 \[ \frac{\partial{G}}{\partial{y}} - \frac{\mathrm{d}}{\mathrm{d}x} \left( \frac{\partial{G}}{\partial{y'}} \right)=0 \] 由于 \(G\) 与 \(y'\) 无关,所以 \(\displaystyle{\frac{\partial{G}}{\partial{y'}} = 0}\),又根据莱布尼兹公式,有 \[ \frac{\partial{G}}{\partial{y}} = \int2 \left\{ y(\mathbf{x})-t \right\} p(\mathbf{x},t) \mathrm{d}t = 0 \tag{1.88} \] (注:书中 \(\displaystyle{\frac{\partial{\mathbb{E}[L]}}{\partial{y(\mathbf{x})}}}\) 的写法不知道对不对。)

参考资料

  1. Pattern Recognition and Machine Learning. Bishop.
  2. 变分法基础. 老大中.
  3. Bishop ML and pattern recognition calculus of variations linear regression loss function
  4. Fubini's theorem
  5. Leibniz integral rule
上一篇:PS制作彩色Analog logo一枚


下一篇:2021-2022 PRML 期末回忆