ML 信息熵

  • 熵的本质是一个系统内在的“混乱程度”
  • 系统内部越混乱熵越大

信息熵

  • 描述信息的“混乱程度”
  • 信息越混乱熵越大

人类语言信息熵

举例

信息A:无大就吗一贴句哦
信息B:我想要吃海天盛筵

信息A和信息B谁的熵大:

  • 信息A直观很混乱,所以信息A的信息熵>信息B的信息熵
  • 混乱 ≈ \approx ≈ 不确定,越混乱 越不确定,越不混乱越确定
  • 信息确定性与信息熵成反相关
  • 确定性与概率有关

建模

信息A:无大就吗一贴句哦
信息B:我想要吃海天盛筵

目的:要确定信息A和信息B的信息熵
已知:

  • 信息确定性与信息熵成反相关
  • 确定性与概率有关

分步:确定1个字的信息熵

  • 要确定一句话的信息熵,先确定1个字的信息熵
  • 因为,信息确定性与信息熵成反相关
  • 确定1个字的信息熵,先确定1个字的“确定性”
  • 因为,确定性与概率有关
  • 确定1个字的“确定性”,先确定1个字的“概率”
  • 使用古典概型: P ( A ) = A 中 样 本 点 个 数 Ω 中 样 本 点 个 数 , A 是 事 件 , Ω 是 样 本 空 间 P(A)=\frac{A中样本点个数}{\Omega中样本点个数}, A是事件, \Omega是样本空间 P(A)=Ω中样本点个数A中样本点个数​,A是事件,Ω是样本空间
  • 所以,1个字的“概率”: P ( x ) = x 这 个 字 出 现 的 次 数 信 息 总 字 数 P(x)=\frac{x这个字出现的次数}{信息总字数} P(x)=信息总字数x这个字出现的次数​
  • 因为,信息确定性与信息熵成反相关,信息100%确定即信息确定性为1时,信息熵应该为0
  • 使用对数函数的相反数,能够满足上一句话的两个要求
  • 所以,1个字的“信息熵”: h ( x ) = − l o g a P ( x ) h(x)=-log_aP(x) h(x)=−loga​P(x)
  • 注意:概率, 0 ≤ P ( x ) ≤ 1 0\leq P(x)\leq 1 0≤P(x)≤1

分步:确定1句话的信息熵

  • 已知:1个字的“信息熵”: h ( x ) = − l o g a P ( x ) h(x)=-log_aP(x) h(x)=−loga​P(x)
  • 推测-简单平均值:计算所有字的“信息熵”相加,再取平均值
  • 实际-合理平均值(期望): H ( X ) = − ∑ i = 1 n P ( x i ) l o g a P ( x i ) H(X)=-\sum\limits_{i=1}^nP(x_i)log_aP(x_i) H(X)=−i=1∑n​P(xi​)loga​P(xi​)

计算机(二进制)语言信息熵

因为,二进制计算机只能识别0或1
所以,二进制信息的信息熵: H ( X ) = − ∑ i = 1 n P ( x i ) l o g 2 P ( x i ) H(X)=-\sum\limits_{i=1}^nP(x_i)log_2P(x_i) H(X)=−i=1∑n​P(xi​)log2​P(xi​),对数的底数改为2

上一篇:Redis源码分析--服务器(2)执行命令的过程


下一篇:机器学习(ML)在材料领域应用专题