本节主要讲解了信息论里面的一些基础概念。更详细的可以参考(https://zhuanlan.zhihu.com/p/26551798或者https://zhuanlan.zhihu.com/p/36192699或者https://www.zhihu.com/question/304499706/answer/544609335)
1. 熵
熵是很常见的概念,也是决策树里面的基础。它可以衡量事件的不确定性。比如,抛一枚有均匀正反面的硬币,和掷一个均匀六面的骰子,哪一种试验的不确定性更强一点呢?
熵的定义是:对于随机变量
X
∼
P
(
x
)
X\sim P(x)
X∼P(x) ,
H
(
x
)
=
−
Σ
x
p
(
x
)
l
o
g
(
x
)
H(x) = -\Sigma_{x} p(x)log(x)
H(x)=−Σxp(x)log(x)
我们可以更进一步地看,一个随机变量的熵越大,意味着不确定性越大,那么也就是说,该随机变量包含的信息量越大,那到底信息量是什么呢?抛一枚硬币的信息量就是,正面朝上,反面朝上,这就是信息量;同样,掷骰子的信息量就是个不同数字的面朝上,这也是信息量。
2. 条件熵
条件熵跟熵的关系就像条件概率分布和概率分布的关系一样,它衡量了给定X情况下Y的信息熵的大小。定义为:
3. 互信息
互信息 I ( X , Y ) I(X,Y) I(X,Y) 则表示为知道事实Y后,原来信息量减少了多少。互信息的公式推导如下:
4. 关系总结
上述介绍的各个概念直接的关系总结如下: