https://biggerhao.github.io/blog/2018/02/PRML-1-88/
原文回顾
在回归问题中,我们需要选择一个估计函数 \(y(\mathbf{x})\),来对每个输入 \(\mathbf{x}\) 预测其对应的值 \(t\)。这样做就会导致损失 \(L(t, y(\mathbf{x}))\)。平均损失或期望损失的公式为
\[ \mathbb{E}(L) = \int \int L(t, y(\mathbf{x})) p(\mathbf{x},t) \mathrm{d}\mathbf{x} \mathrm{d}t \tag{1.86} \]
回归问题中常用的一种损失函数是平方损失,即 \(L(t,y(\mathbf{x})) = \left\{ y(\mathbf{x})-t \right\}^2\)。那么期望损失就可以写成
\[ \mathbb{E}(L) = \int \int \left\{ y(\mathbf{x})-t \right\}^2 p(\mathbf{x},t) \mathrm{d}\mathbf{x} \mathrm{d}t \tag{1.87} \]
我们的目标就是选择一个 \(y(\mathbf{x})\) 使得 \(\mathbb{E}(L)\) 最小。如果我们假设 \(y(\mathbf{x})\) 是完全灵活的(completely flexible),那么可以通过变分法得到
\[\frac{\delta\mathbb{E}[L]}{\delta y(\mathbf{x})} = 2 \int \left\{ y(\mathbf{x})-t \right\} p(\mathbf{x},t) \mathrm{d}x = 0 \tag{1.88}\]
以上是 PRML 中第 46 页关于回归的一点介绍,其中公式 (1.88) 比较费解,下面对该公式的推导进行分析。
公式推导
上述结果用到了欧拉方程,首先我们来看一下什么是欧拉方程。
定理 使最简泛函 \[ F[y] = \int_{x_0}^{x_1}G(y(x), y'(x),x) \mathrm{d}x \tag{D.5} \]
取极值且满足固定边界条件 \[ y(x_0)=y_0,y(x_1)=y_1 \] 的极值曲线 \(y=y(x)\) 应满足必要条件 \[ \frac{\partial{G}}{\partial{y}} - \frac{\mathrm{d}}{\mathrm{d}x} \left( \frac{\partial{G}}{\partial{y'}} \right)=0 \tag{D.8} \] 的解,式中,\(F\) 是 \(x, y, y'\) 的已知函数并有二阶连续偏导数。
式 (D.8) 称为泛函 (D.5) 的欧拉方程。
回到式 (1.87),这个泛函还不具备 (D.5) 的形式,根据富比尼定理,交换积分顺序得 \[ \mathbb{E}(L) = \int \int \left\{ y(\mathbf{x})-t \right\}^2 p(\mathbf{x},t) \mathrm{d}t \mathrm{d}\mathbf{x} \] 这时取 \(\displaystyle{G(y,y',x) = \int \left\{ y(\mathbf{x})-t \right\}^2 p(\mathbf{x},t) \mathrm{d}t}\),根据欧拉方程可得使得 (1.87) 取最小值的必要条件为 \[ \frac{\partial{G}}{\partial{y}} - \frac{\mathrm{d}}{\mathrm{d}x} \left( \frac{\partial{G}}{\partial{y'}} \right)=0 \] 由于 \(G\) 与 \(y'\) 无关,所以 \(\displaystyle{\frac{\partial{G}}{\partial{y'}} = 0}\),又根据莱布尼兹公式,有 \[ \frac{\partial{G}}{\partial{y}} = \int2 \left\{ y(\mathbf{x})-t \right\} p(\mathbf{x},t) \mathrm{d}t = 0 \tag{1.88} \] (注:书中 \(\displaystyle{\frac{\partial{\mathbb{E}[L]}}{\partial{y(\mathbf{x})}}}\) 的写法不知道对不对。)
参考资料
- Pattern Recognition and Machine Learning. Bishop.
- 变分法基础. 老大中.
- Bishop ML and pattern recognition calculus of variations linear regression loss function
- Fubini's theorem
- Leibniz integral rule