熵 Entropy
一个完全可以预测的确定性实验(deterministic experiment),比如抛硬币P(H)=1,熵为零。一个完全随机的实验,比如掷骰子,是最不可预测的,具有最大的不确定性,在这样的实验中具有最高的熵。
H(x)=−Σi=1np(xi)log2p(xi)
log如果以2为底数的话,信息熵的单位就是比特 bit,以e为底数的话,信息熵的单位就是 nat,以10为底数的话,单位就是 hat。
也叫信息熵(Information Entropy)或香农熵(Shannon Entropy)。
最大熵原理 Principle of Maximum Entropy
用于决策树,以求解包含约束条件的函数极值方式实现。
最大熵原理的本质:系统中事件发生的概率满足一切已知约束条件,不对任何未知信息做假设,也就是对于未知的,当作等概率处理。
交叉熵 Cross-entropy
交叉熵是用来比较两个概率分布的。它会告诉我们两个分布的相似程度。
H(P,Q)=−Σxp(x)logq(x)
常用损失函数之一。
互信息 Mutual Information
互信息是两个概率分布或随机变量之间相互依赖的度量。它告诉我们一个变量的多少信息量是被另一个变量携带的。
互信息捕捉随机变量之间的依赖关系,并且比普通相关系数更具有泛化性,而普通相关系数仅捕获线性关系。
两个离散随机变量X和Y的互信息被定义为:
I(X;Y)=Σy∈YΣx∈Xlogp(x)p(y)p(x,y)
在贝叶斯网络中,变量之间的关系结构可以使用互信息来确定。
KL散度 Kullback Leibler Divergence
KL散度是寻找两个概率分布之间相似性的另一种方法。它衡量了一个分配与另一个分配之间的差异程度。
假设,我们有一些数据,真实的分布是“P”。
DKL(P∣∣Q)=Σxp(x)logq(x)p(x)
“P”和“Q”之间的KL散度会告诉我们,当我们尝试用“Q”近似“P”给出的数据时,我们失去了多少信息。
KL散度也称为相对熵。相对熵和交叉熵的关系:
DKL(P∣∣Q)=Σxp(x)logq(x)p(x)=Σxp(x)logp(x)−Σxp(x)logq(x)=−H(P)+H(P,Q)
此外可见KL散度具有非对称性,即DKL(P∣∣Q)̸=DKL(Q∣∣P)
JS散度 Jensen-Shannon divergence
KL散度的变形,修正了值域范围和对称性,未见使用。