熵 Entropy 笔记

熵 Entropy

一个完全可以预测的确定性实验(deterministic experiment),比如抛硬币P(H)=1,熵为零。一个完全随机的实验,比如掷骰子,是最不可预测的,具有最大的不确定性,在这样的实验中具有最高的熵。

H(x)=Σi=1np(xi)log2p(xi)H(x)=-\Sigma_{i=1}^np(x_i)\log_2p(x_i)H(x)=−Σi=1n​p(xi​)log2​p(xi​)

log如果以2为底数的话,信息熵的单位就是比特 bit,以e为底数的话,信息熵的单位就是 nat,以10为底数的话,单位就是 hat。

也叫信息熵(Information Entropy)或香农熵(Shannon Entropy)。


最大熵原理 Principle of Maximum Entropy

用于决策树,以求解包含约束条件的函数极值方式实现。

最大熵原理的本质:系统中事件发生的概率满足一切已知约束条件,不对任何未知信息做假设,也就是对于未知的,当作等概率处理。


交叉熵 Cross-entropy

交叉熵是用来比较两个概率分布的。它会告诉我们两个分布的相似程度。

H(P,Q)=Σxp(x)logq(x)H(P,Q)=-\Sigma_{x}p(x)\log{q(x)}H(P,Q)=−Σx​p(x)logq(x)

常用损失函数之一。


互信息 Mutual Information

互信息是两个概率分布或随机变量之间相互依赖的度量。它告诉我们一个变量的多少信息量是被另一个变量携带的。

互信息捕捉随机变量之间的依赖关系,并且比普通相关系数更具有泛化性,而普通相关系数仅捕获线性关系。

两个离散随机变量X和Y的互信息被定义为:

I(X;Y)=ΣyYΣxXlogp(x,y)p(x)p(y)I(X;Y)=\Sigma_{y\in{Y}}\Sigma_{x\in{X}}\log{\frac{p(x,y)}{p(x)p(y)}}I(X;Y)=Σy∈Y​Σx∈X​logp(x)p(y)p(x,y)​

在贝叶斯网络中,变量之间的关系结构可以使用互信息来确定。


KL散度 Kullback Leibler Divergence

KL散度是寻找两个概率分布之间相似性的另一种方法。它衡量了一个分配与另一个分配之间的差异程度。

假设,我们有一些数据,真实的分布是“P”。

DKL(PQ)=Σxp(x)logp(x)q(x)D_{KL}(P||Q)=\Sigma_xp(x)\log{\frac{p(x)}{q(x)}}DKL​(P∣∣Q)=Σx​p(x)logq(x)p(x)​

“P”和“Q”之间的KL散度会告诉我们,当我们尝试用“Q”近似“P”给出的数据时,我们失去了多少信息。

KL散度也称为相对熵。

相对熵和交叉熵的关系:
DKL(PQ)=Σxp(x)logp(x)q(x)=Σxp(x)logp(x)Σxp(x)logq(x)=H(P)+H(P,Q) \begin{aligned} D_{KL}(P||Q)&=\Sigma_xp(x)\log{\frac{p(x)}{q(x)}}\\ &=\Sigma_x{p(x)\log{p(x)}-\Sigma_xp(x)\log{q(x)}}\\ &=-H(P)+H(P,Q) \end{aligned} DKL​(P∣∣Q)​=Σx​p(x)logq(x)p(x)​=Σx​p(x)logp(x)−Σx​p(x)logq(x)=−H(P)+H(P,Q)​

此外可见KL散度具有非对称性,即DKL(PQ)̸=DKL(QP)D_{KL}(P||Q)\not=D_{KL}(Q||P)DKL​(P∣∣Q)̸​=DKL​(Q∣∣P)


JS散度 Jensen-Shannon divergence

KL散度的变形,修正了值域范围和对称性,未见使用。

上一篇:windows xp MBR结构分析


下一篇:windows 系统对应的内核版本和自带 iis 版本