自信息量I(x)=-log(p(x)),其他依次类推。
离散变量x的熵H(x)=E(I(x))=-$\sum\limits_{x}{p(x)lnp(x)}$ 连续变量x的微分熵H(x)=E(I(x))=-$\int{p(x)lnp(x)dx} $ 条件熵H(y|x)=-$\int\int{p(x,y)lnp(y|x)dydx}$ 两个变量X和 Y 的联合熵定义为: H(X,Y)=-$\int\int{p(x,y)lnp(x,y)dxdy}$
H(x,y)=H(y|x)+H(x)
若x,y独立,H(x,y)=H(x)+H(y),此时对x的了解不能增进对y的了解。 交叉熵Cross Entropy H(p;q)=-$\int{p(x)lnq(x)dx}$ 很少见,通常使用KL距离 Kullback-Leibler divergence:KL(p||q)=-$\int{p(x)lnq(x)dx}-(-\int{p(x)lnp(x)dx})$=H(p)+H(p;q)=-$\int{p(x)ln{\frac{q(x)}{p(x)}}dx}$ p=q时,KL(p||q)=0,H(p;q)=H(p) 交叉熵与kl距离相差一个H(p) 当p未知而q已知时,通过改变KL中的p、q的位置,可以减少未知量,便于计算相似度。 交叉熵是一种万能的Monte-Carlo技术,常用于稀有事件的仿真建模、多峰函数的最优化问题。交叉熵技术已用于解决经典的旅行商问题、背包问题、最短路问题、最大割问题等。这里给一个文章链接:A Tutorial on the Cross-Entropy Method 交叉熵算法的推导过程中又牵扯出来一个问题:如何求一个数学期望?常用的方法有这么几种: 概率方法,比如Crude Monte-Carlo
测度变换法change of measure
偏微分方程的变量代换法
Green函数法
Fourier变换法
在实际中变量X服从的概率分布h往往是不知道的,我们会用g来近似地代替h----这本质上是一种函数估计。有一种度量g和h相近程度的方法叫 Kullback-Leibler距离,又叫交叉熵,通常选取g和h具有相同的概率分布类型(比如已知h是指数分布,那么就选g也是指数分布)----参数估计,只是pdf参数不一样(实际上h中的参数根本就是未知的)。 基于期望交叉熵的特征项选择 CE(w)=$\sum\limits_{i}p(c_{i}|w)log\frac{p(c_{i}|w}{p(c_{i}}$ p(ci|w)表示在出现词条w时文档属于类别ci的概率。 交叉熵反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。 互信息Mutual Informantion yj对xi的互信息定义为后验概率与先验概率比值的对数。 I(x,y)=log$\frac{p(x|y)}{p(x)}=I(x)-I(x|y)$ 互信息越大,表明y对于确定x的取值的贡献度越大。 系统的平均互信息 I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) 可见平均互信息就是信息增益! I(X,Y)=KL(p(x,y)||p(x)p(y))=-$\int\int{p(x,y)ln(\frac{p(x)p(y)}{p(x,y)})dxdy}$ 互信息在特征选择中的应用 词条w与类别ci的互信息为 MI(w,c)=log$\frac{p(w|c)}{p(w)}$ p(w)表示出现w的文档点总文档数目的比例,p(w|ci)表示在类别ci中出现w的文档点总文档数目的比例。 对整个系统来说,词条w的互信息为 $MI_{avg}(w,c)=\sum\limits_{i}p(c)log\frac{p(w|c)}{p(w)}$ 最后选互信息最大的前K个词条作为特征项。