通俗易懂的信息熵与信息增益（IE, Information Entropy; IG, Information Gain）

2022-11-16 07:27:52

信息熵与信息增益（IE, Information Entropy; IG, Information Gain）

信息增益是机器学习中特征选择的关键指标，而学习信息增益前，需要先了解信息熵和条件熵这两个重要概念。

信息熵（信息量）

信息熵的意思就是一个变量i（就是这里的类别）可能的变化越多（只和值的种类多少以及发生概率有关，反而跟变量具体的取值没有任何关系），它携带的信息量就越大（因为是相加累计），这里就是类别变量i的信息熵越大。

系统越是有序，信息熵就越低；反之，一个系统越乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个衡量。

二分类问题中，当X的概率P(X)为0.5时，也就是表示变量的不确定性最大，此时的熵也达到最大值1。

条件熵

条件熵的直观理解：单独计算明天下雨的信息熵H(Y)是2，而条件熵H（Y|X）是0.01（即今天阴天这个条件下，明天下雨的概率很大，确定性很大，信息量就很少），这样相减后为1.99，在获得阴天这个信息后，下雨信息不确定性减少了1.99！是很多的！所以信息增益大！所以是否阴天这个特征信息X对明天下雨这个随机变量Y的来说是很重要的！

因为条件熵中X也是一个变量，意思是在一个变量X的条件下（变量X的每个值都会取），另一个变量Y熵对X的期望，这里的期望就是指所有情况各自概率的∑总和。

在文本分类中，特征词t的取值只有t（代表t出现）和（代表t不出现）。那么系统熵等于两种条件熵按比例求和：