1.损失函数
\(我们造成了⼀个损失L(t, y(x))。平均损失(或者说期望损失)就是\)
\(\mathbb{E}[L]=\int\int L(t,y(x))p(x,t)dxdt\)
\(一般损失函数定义为\)平方损失
\(L(t,y(x))=\{y(x)-t\}^2\)
\(损失函数可以写成\)
\(\mathbb{E}[L]=\int\int \{y(x)-t\}^2p(x,t)dxdt\)
2.最小化损失函数
方式一
\(我们的目标时选择y(x)来最小化\mathbb{E}{L}\)
\(使用变分法?\color{red}{变分法是什么?不懂,待学习},下面感觉就是普通的求导=0算最小值,\mathbb{E}{L}期望是凸函数,一般求偏导都是\partial,为什么书上用的是\delta?\)
\(\frac{\delta \mathbb{E}{L}}{\delta y(x)}=2\int\{y(x)-t\}p(x,t)dt=0 --1.88\)
\(继续推导\)
\(y(x)=\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt =\mathbb{E}_t[t|x]\)
\(y(x)最优值就是x条件下的t条件均值,被称为回归函数\)(regression function)
方式二
\(先展开\)
\(中间那一项=0 证明见1.90公式推导\)
\(得到\)
\(我们寻找的函数y(x)只出现在第⼀项中。当y(x)等于\mathbb{E}[t | x]时第⼀项取得最⼩值,这时第⼀项会被消去。这正是我们之前推导的结果,表明最优的最⼩平⽅预测由条件均值给出。第⼆项是t的分布的⽅差,在x上进⾏了平均。它表⽰⽬标数据内在的变化性,可以被看成噪声。由于它与y(x)⽆关,因此它表⽰损失函数的不可减⼩的最⼩值。\)
3.其他损失函数
平⽅损失函数不是回归问题中损失函数的唯⼀选择。实际上,有些情况下,平⽅损失函数会导致⾮常差的结果,这时我们就需要更复杂的⽅法。这种情况的⼀个重要的例⼦就是条件分布\(p(t | x)\)有多个峰值,这在解决反演问题时经常出现。这⾥我们简要介绍⼀下平⽅损失函数的⼀种推⼴,叫做闵可夫斯基损失函数(Minkowski loss),它的期望为