熵
- 熵的本质是一个系统内在的“混乱程度”
- 系统内部越混乱熵越大
信息熵
- 描述信息的“混乱程度”
- 信息越混乱熵越大
人类语言信息熵
举例
信息A:无大就吗一贴句哦
信息B:我想要吃海天盛筵
信息A和信息B谁的熵大:
- 信息A直观很混乱,所以信息A的信息熵>信息B的信息熵
- 混乱 ≈ \approx ≈ 不确定,越混乱 越不确定,越不混乱越确定
- 信息确定性与信息熵成反相关
- 确定性与概率有关
建模
信息A:无大就吗一贴句哦
信息B:我想要吃海天盛筵
目的:要确定信息A和信息B的信息熵
已知:
- 信息确定性与信息熵成反相关
- 确定性与概率有关
分步:确定1个字的信息熵
- 要确定一句话的信息熵,先确定1个字的信息熵
- 因为,信息确定性与信息熵成反相关
- 确定1个字的信息熵,先确定1个字的“确定性”
- 因为,确定性与概率有关
- 确定1个字的“确定性”,先确定1个字的“概率”
- 使用古典概型: P ( A ) = A 中 样 本 点 个 数 Ω 中 样 本 点 个 数 , A 是 事 件 , Ω 是 样 本 空 间 P(A)=\frac{A中样本点个数}{\Omega中样本点个数}, A是事件, \Omega是样本空间 P(A)=Ω中样本点个数A中样本点个数,A是事件,Ω是样本空间
- 所以,1个字的“概率”: P ( x ) = x 这 个 字 出 现 的 次 数 信 息 总 字 数 P(x)=\frac{x这个字出现的次数}{信息总字数} P(x)=信息总字数x这个字出现的次数
- 因为,信息确定性与信息熵成反相关,信息100%确定即信息确定性为1时,信息熵应该为0
- 使用对数函数的相反数,能够满足上一句话的两个要求
- 所以,1个字的“信息熵”: h ( x ) = − l o g a P ( x ) h(x)=-log_aP(x) h(x)=−logaP(x)
- 注意:概率, 0 ≤ P ( x ) ≤ 1 0\leq P(x)\leq 1 0≤P(x)≤1
分步:确定1句话的信息熵
- 已知:1个字的“信息熵”: h ( x ) = − l o g a P ( x ) h(x)=-log_aP(x) h(x)=−logaP(x)
- 推测-简单平均值:计算所有字的“信息熵”相加,再取平均值
- 实际-合理平均值(期望): H ( X ) = − ∑ i = 1 n P ( x i ) l o g a P ( x i ) H(X)=-\sum\limits_{i=1}^nP(x_i)log_aP(x_i) H(X)=−i=1∑nP(xi)logaP(xi)
计算机(二进制)语言信息熵
因为,二进制计算机只能识别0或1
所以,二进制信息的信息熵:
H
(
X
)
=
−
∑
i
=
1
n
P
(
x
i
)
l
o
g
2
P
(
x
i
)
H(X)=-\sum\limits_{i=1}^nP(x_i)log_2P(x_i)
H(X)=−i=1∑nP(xi)log2P(xi),对数的底数改为2