信息论基础

信息论基础

自信息

如何度量你获得的信息量的大小,比如有人告诉你某个地方地震了,那么这个信息量对你来说比较大,因为地震不是经常发生;如果有人告诉你某个地方有雾霾,这个信息量就比较小,因为有雾霾这个事情很常见。

通过这个例子,我们可以知道,信息量的大小应该与某件事情发生的概率有关,这件事情发生的概率越低,当这个事情发生时,你获得的信息量就越大,所以信息量的大小应该是与概率的大小成反比的。并且,如果一个事件发生的概率为0,如果这个事情发生了,那么你获得的信息量应该为无穷大,如果一个事件发生的概率为1,那个这个事件发生你获得的信息量为0,即这个事件对你没有信息量,比如太阳从东方升起。另外,两个互不相关事件同时发生带给你的信息量应该为两个事件的信息量之和。

我们设事件$A$的信息量为$I$,$P(A)$是事件$A$发生的概率,那么$I$是$P(A)$的函数,他们满足以下三点

  1. $I$是关于$P(A)$的单调递减函数
  2. $I(0) = \infty,I(1) = 0$
  3. $I(P(A)P(B)) = I(P(A)) + I(P(B))​$A,B是不相干的两个事件。

我们可以证明,满足以上三个性质的函数为对数函数,所以I与$P(x)​$的表达式如下
$$
I(x) = - logP(x)
$$
一般在信息论中对数函数的底数都为2,这时I的单位为比特,那么为了方便,底数2一般不写,直接写为$log​$。

对于$I$,可以有两个理解:

  1. 事件发生之前,可以理解为事件发生不确定性的大小,$I$越大,不确定性越大。或者理解为使得事件发生所需要的信息量的大小。
  2. 事件发生之后,$I$表达的就是事件发生产生的信息量的多少。

同样我们仿照上面的定义,我们可以定义条件自信息为
$$
I(x|y) = -logP(x|y)
$$
表示在$y$的条件下,$x$发生所产生的信息量。

互信息

互信息表示的两个事件之间传递的信息量,我们定义为
$$
I(x;y) = I(x) - I(x|y)
$$
上面的定义可以这么理解:对于一个通信系统,$I(x)$表示发送$x$前,发送$x$的不确定性的大小,$I(x|y)$表示接收到$y$后,推测发送的是$x$的不确定的大小,那么发送$x$的不确定性的大小减去接收到$y$推测发送的是$x$的不确定性的大小就是消去的不确定性的大小,这个大小可以看做是接收方获得的信息量的大小。

根据上面的表达式,我们可以推出$I(x;y)​$的表达式为
$$
I(x;y) = I(x) - I(x|y) = -logP(x) + logP(x|y) = log\cfrac{P(x|y)}{p(x)} = log\cfrac{p(x,y)}{p(x)p(y)}
$$

同理
$$
I(y;x) = I(y) - I(y|x) = -logP(y) + logP(y|x) = log\cfrac{P(y|x)}{p(y)} = log\cfrac{p(x,y)}{p(y)p(x)}
$$
所以
$$
I(x;y) = I(y;x)
$$

从另一个角度理解$I(x|y)$
$$
I(x;y) = I(x) - I(x|y)
$$
$I(x;y)$接收方获得的信息量的大小,$I(x)$发送方发送的信息量的大小,那么$I(x|y)= I(x) - I(x;y) $就可以看做是在符号传输过程中损失的信息。

上面我们讨论的都是一个事件的信息,但是我们一般从信源发出的都是一串字符,我们怎么计算信源的信息量。比如某信源发送1的概率为$p​$,发送0的概率为$(1-p)​$,某次发送的符号序列为
$$
00010110
$$
我们可以计算出发送0的自信息量,发送1的自信息量,然后分别乘以0和1的个数,就可以得到这个序列的信息量,但是这个信息量能代表信源的信息量吗?假设信源又发出了一段序列
$$
11100011
$$
我们也可以计算出该序列的信息量,明显二者是不相等的。那么我们怎么表示信源的信息量。答案就是熵。

我们定义信源X的熵为信源发送一个符号的平均信息量(期望)
$$
H(X) = E[I(X)] = \sum_{i = 1}^{n}p(x_i)I(x_i)
=-\sum_{i=1}^np(x_i)\log{}p(x_i)
$$
$X$为随机变量,以上例为例的话
$$
H(X)=p(0)I(0) + p(1)I(1)
=-(p(0)\log{}p(0) + p(1)\log{}p(1))
$$

为了定义条件熵$H(X|Y)$,我们先看$H(X|y)$
$$
H(X|y) = -\sum_{x}p(x|y)\log(p(x|y))
$$
$H(X|y)$是关于$y$的随机变量函数,则
$$
\begin{aligned}
H(X|Y)&=\sum_{y}p(y)H(X|y) \
&=-\sum_{xy}p(x,y)log(p(x|y))
\end{aligned}
$$

同样,我们可以定义两个随机变量之间平均互信息量
$$
\begin{aligned}
I(X;Y) &= H(X) - H(X|Y) \
&= \sum_{x,y}p(x,y)\log(\cfrac{p(x|y)}{p(x)}) \
&= \sum_{x,y}p(x,y)I(X;Y)
\end{aligned}
$$
所代表的的意义与上面的相同。同理我们也可以得到
$$
I(X;Y) = I(Y;X)
$$

熵的性质

假如信源$X​$的信源空间为
$$
[X \cdot P]:
\begin{cases}
X: \quad &a_1 \quad &a_2 \quad &\ldots &a_r \
P(X): \quad &p(a_1) \quad &p(a_2) &\ldots \quad &p(a_r)
\end{cases}
$$
则其熵为
$$
H(X) = -\sum_{i = 1}^r p(x_i)\log{}p(x_i)
$$
所以$H(X)​$是$p(x_1),p(x_2),\ldots,p(x_r)​$的函数,所以$H(X)​$可以写为$H(p(x_1),p(x_2),\ldots,p(x_r))​$,下面主要研究熵的几个性质。

对称性

变量$p(x_1),p(x_2),\ldots,p(x_r)$随意交换顺序,熵不变,即
$$
H(p(x_1),p(x_2),\ldots,p(x_r)) = H(p(x_2),p(x_1),\ldots,p(x_r)) = H(p(x_r),p(x_2),\ldots,p(x_1)) = \ldots
$$

非负性

由于$0\leq p(x_i) \leq 1$,所以$-p(x_i)log p(x_i) \geq 0$,所以
$$
H(X) = -\sum_{i=1}^rp(x_i)log p(x_i) \geq 0
$$

确定性

若$p(x_i) = 1, p(x_j) = 0(j \neq i)$,则$H(X) = 0$

首先利用高等数学的知识可以得到
$$
\lim_{\epsilon \to 0}\epsilon log \epsilon = 0
$$
所以我们可以定义
$$
0 \cdot log 0 = 0
$$
所以
$$
H(X) = 1\cdot log1 + (r-1)\cdot (0\cdot log0) = 0 + 0 = 0
$$

扩展性

假设信源发生微小波动,使得信源空间变为
$$
[X^{'} \cdot P]:
\begin{cases}
X: \quad &a_1 \quad &a_2 \quad &\ldots &a_r &a_{r+1}\
P(X): \quad &p(a_1) \quad &p(a_2) &\ldots \quad &p(a_r)-\epsilon &\epsilon
\end{cases}
$$

$$
\begin{aligned}
H(X^{'})&=\lim_{\epsilon \to 0}-\sum_{i = 1}^{r-1}p(a_i)logp(a_i) - (p(a_r)-\epsilon)log(p(a_r)-\epsilon) - \epsilon log\epsilon \
&=-\sum_{i = 1}^{r-1}p(a_i)logp(a_i) - \lim_{\epsilon \to 0}p(a_r)log(p(a_r - \epsilon)) + \lim_{\epsilon \to 0}\epsilon log(p(a_r)-\lim_{\epsilon \to 0}\epsilon log \epsilon \
&=-\sum_{i = 1}^{r}p(a_i)logp(a_i) \
&=H(X)
\end{aligned}
$$

上一篇:allegro 介绍CM约束管理器70


下一篇:CS229笔记:支持向量机