#### 本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章,第2.3节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.3信息论的基本概念
一般认为,信息论开始于1948年香农(Claude Elwood Shannon)发表的论文《通信的数学原理》[96]。熵(entropy)是信息论的一个基本概念。
离散随机变量X的熵定义为
H(X)=∑x∈val(X)P(x)logP(x)(2.45)
两个离散随机变量X和Y的联合熵(joint entropy)定义为
H(X,Y)=∑x∈val(X)∑y∈val(Y)P(x,y)logP(x,y)(2.46)
在给定随机变量X的情况下,随机变量Y的条件熵(conditional entropy)定义为
H(YX)=∑x∈val(X)P(x)H(YX=x)=∑x∈val(X)P(x)-∑y∈val(Y)P(yx)logP(yx)
=-∑x∈val(X)∑y∈val(Y)P(x,y)logP(x,y)(2.47)
关于联合熵和条件熵,有熵的链式法则(chain rule for entropy),即
H(X,Y)=H(X)+H(YX)(2.48)
H(X1,X2,…,Xn)=H(X1)+H(X2X1)+…+H(XnX1,…,Xn-1)(2.49)
两个随机变量X和Y的互信息定义为
I(X,Y)=H(X)-H(YX)=H(X)+H(Y)-H(X,Y)
=∑x,yP(x,y)logP(x,y)P(x)P(y)≥0(2.50)
两个概率分布P(X)和Q(X)的KL散度(KullbackLeibler divergence),又称相对熵,定义为
KL(PQ)=∑x∈val(X)P(x)logP(x)Q(x)=EPP(x)Q(x)(2.51)
显然,当两个概率分布完全相同,即P=Q时,其相对熵为0。当两个概率分布的差别增加时,其相对熵将增大。此外,联合相对熵和条件相对熵也存在所谓的链式法则:
KL(P(X,Y)Q(X,Y))=KL(P(X)Q(X))+KL(P(YX)Q(YX))(2.52)
如果用模型分布Q(X)来近似一个未知概率分布P(X),那么还可以用交叉熵(cross entropy)来表达模型分布对未知分布的逼近程度:
CE(P,Q)=H(X)+KL(PQ)=-∑x∈val(X)P(x)logQ(x)=EPlog1Q(x)(2.53)