损失函数:交叉熵
交叉熵用于比较两个不同概率模型之间的距离。
信息量
信息量用来衡量事件的不确定性,即该事件从不确定转为确定时的难度有多大。
定义信息量的函数为:
\[f(x):=\text{信息量} \]假设对于某8只球队进行比赛,对于其中任意一直球队,假设夺冠的概率为\(\frac{1}{8}\)。对于一条消息“A球队夺冠了”其信息量应该等于“A球队进入决赛”加上“A球队赢了决赛”之和。即:
\[\begin{align} f(\text{A球队夺冠了})&=f(\text{A球队进入决赛})+f(\text{A球队赢了决赛})\\ f(\frac{1}{8})&=f(\frac{1}{4})+f(\frac{1}{2}) \end{align} \]而:
\[\begin{align} P(\text{A球队夺冠了})&=P(\text{A球队进入决赛})\cdot P(\text{A球队赢了决赛})\\ \end{align} \]因此可以推出(其中\(x_i\)表示事件\(i\)在系统\(X\)中发生的概率,下同):
\[f(x_1\cdot x_2) = f(x_1)+f(x_2) \]因此可以定义信息量函数(负号是因为事件发生的概率越小,所包含的信息量越大):
\[f(x) = -log_2(x) \]熵
熵用来衡量一个系统所包含的信息量有多少。它衡量一个系统的不确定程度,或者混乱程度。
对于一个系统\(P\)来说,要求整个系统的信息量,也就是求系统中每个事件\(i\),从不确定转为确定性所包含的信息量的平均值,也就是期望。即:
\[\begin{align} H(P):&=E(f_P)\\ &=\sum_{i=1}^mp_i\cdot f(p_i)\\ &=\sum_{i=1}^m p_i\cdot\big(-log_2(p_i)\big)\\ &=-\sum_{i=1}^m p_i\cdot log_2(p_i) \end{align} \]相对熵与交叉熵
相对熵表示使用理论分布拟合真实分布时产生的信息损耗。
对于两个系统\(P,Q\),通过相对熵可以衡量\(Q\)相对于\(P\)有多大的差距,即系统\(Q\)想要和系统\(P\)达到一样的分布的话,它们之间相差多少信息量:
\[\begin{align} D_{KL}(P||Q)&=\sum_{i=1}^m p_i\cdot \big(f_Q(q_i)-f_P(p_i)\big)\\ &=\sum_{i=1}^m p_i \cdot \bigg( \big(-log_2(q_i)\big)-\big(-log_2(p_i) \big)\bigg)\\ &=\color{blue}{\sum_{i=1}^m p_i\cdot \big(-log_2(q_i) \big)} - \color{red}{\sum_{i=1}^m p_i \cdot\big(-log_2(p_i) \big)} \end{align} \]可以发现上述公式中红色部分为系统\(P\)的熵,当系统P没有变化时,这部分是一个恒值。而蓝色部分也就是交叉熵,定义为\(H(P,Q)\)。
又根据吉布斯不等式:
\[\text{若}\sum_{i=1}^np_i=\sum_{i=1}^nq_i=1,\text{且}p_i,q_i\in[0,1]\text{,则有:}\\ -\sum_{i=1}^np_i\cdot log(p_i)\le -\sum_{i=1}^np_i\cdot log(q_i) \]可知相对熵恒大于\(0\)。因此若想要\(Q\)系统的概率模型与\(P\)系统的概率模型尽可能相似,只要最小化交叉熵即可。
深度学习中的交叉熵
神经网络的目标:
\[\begin{align} min\;H(P,Q) &= -\sum_{i=1}^m p_i\cdot log_2(q_i) \end{align} \]在深度学习中,系统\(P\)可以用数据集所表示。系统\(Q\)可以用神经网络模型表示。同样只考虑判断输入是真是假的神经网络,对于\(n\)个数据中的第\(i\)个数据,它在系统\(P\)里发生的概率,也就是为真的概率为\(y_1\),为假的概率为\(1-y_i\),同时他在系统\(Q\)里为真的概率,也就是经过神经网络后的输出为\(\hat y_i\),为假的概率为\(1-\hat y_i\)。因此交叉熵又可表示为:
\[\begin{align} H(P,Q)&=-\sum_{i=1}^n p_i\cdot log_2(q_i)\\ &=-\sum_{i=1}^ny_i\cdot log_2(\hat y_i)+(1-y_i)\cdot log_2(1-\hat y_i) \end{align} \]是不是跟极大似然估计法的形式一模一样?
到这里可以把\(p_i,q_i\)的意义具体化,其实\(p_i\)应该理解为数据\(i\)在系统\(P\)中的概率分布。同理\(q_i\)应该理解为数据\(i\)在系统\(Q\)中的概率分布。对于判断输入是真是假的神经网络相当于数据\(i\)的输出只有两种可能,为真或者为假,对于多分类\(m\)神经网络,数据\(i\)的输出有\(m\)种可能,交叉熵又可表示为:
\[\begin{align} H(P,Q)&=-\sum_{i=1}^np_i\cdot log_2(q_i)\\ &=-\sum_{i=1}^n\sum_{j=1}^mp_{ij}\cdot log_2(q_{ij}) \end{align} \]是不是跟极大似然估计法的形式一模一样?