机器学习基础 | 互相关系数和互信息异同探讨

主要阐述互相关系数和互信息的区别和联系,先说结论:

  • 对于高斯分布,两者是等价的,且存在转换公式,当\(X\)与\(Y\)互相关系数为零时,两者相互独立,且互信息为零;当互相关系数为\(\pm1\)时,两者完全相关且互信息为无穷大,转换公式:

    \[I(X,Y)=-\frac{1}{2}\log(1-r^2) \]

  • 一般情形,互相关系数只是反应了两者之间的线性相关关系,而互信息则直接从概率分布角度考虑变量之间的相互独立性,相互独立一定不相关,不相关不一定相互独立

互相关系数

互相关系数是研究变量之间 线性相关 程度的量,定义公式如下:

\[r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}} \]

其中:\(Cov(X,Y)\)为\(X\)与\(Y\)之间的协方差,\(Var[X]\)为\(X\)的方差,\(Var[Y]\)为Y的方差。

  • \(Cov(X,Y)=E[(X-E[X])(Y-E(Y))]=E[XY]-E[X]E[Y]\)
  • \(Var[X]=E[(X-E[X])^2]=E[X^2]-E[X]^2\)

互相关系数的基本性质如下:

  1. \(|r(X,Y)|\leq 1\)

  2. 若\(r(X,Y)>0\),则两者之间是正相关;若\(r(X,Y)<0\),则两者之间是负相关

  3. 若\(X\)和\(Y\)不相关,则\(r(X,Y)=0\);反过来,若\(r(X,Y)=0\),则\(X\)和\(Y\)不相关,这里的不相关指的是两者之间不存在线性关系,不能排除其他关系。

  4. 若\(X\)和\(Y\)相互独立,则\(r(X,Y)=0\);反过来,若\(r(X,Y)=0\),只能表明\(X\)和\(Y\)不相关,两者之间并不一定相互独立。

注:

  • 相互独立指的是\(p(x,y)=p(x)p(y), \forall x,y\)
  • 相互独立一定不相关,不相关不一定相互独立,例如\(x=\cos\alpha,Y=\sin\alpha\),两者协方差为零,但是两者不独立。
  • 对于正态分布,不相关和独立是等价的。

互相关系数的另一种表达式:

\[\lambda(X,Y)=\sqrt{1-\frac{det(C(Z))}{det(C(X))det(C(Y))}} \]

其中:\(Z=(X,Y),C(Z)=E[(Z-E[Z])\cdot(Z-E[Z])^T]\)是高维变量的协方差矩阵,若\(X\)和\(Y\)都是一维向量,则

  • \(C(X)=Var[X]\),\(C(Y)=Var[Y]\)
  • \(det(C(Z))=Var[X]Var[Y]-Cov(X,Y)^2\)

因此:\(\mathbf{\lambda(X,Y)=|r(x,y)|}\)

互信息

两个变量的互信息的定义如下:

\[I(X,Y)=\int p(x,y)\log\frac{p(x,y)}{p(x)p(y)}dxdy \]

定理: 若\(Z=(X,Y)\)服从高斯分布,则

\[I(X,Y)=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right) \]

证明: 只须证明如下两点即可:

  1. \(I(X,Y)=H(X)+H(Y)-H(X,Y)\)

  2. 多元正态分布的信息熵:设\(X_1,X_2,...,X_n\)服从均值为\(\mu\),协方差矩阵为\(K\)的果园正态分布,则

    \[H(X_1,X_2,...,X_n)=\frac{1}{2}\log[(2\pi e)^ndet(K)] \]

上述两点的证明按照互信息的定义和正态分布的概率密度函数直接推导即可,这里不再重复,感兴趣的读者可以查阅本文的参考文献。根据上述两点,我们有

\[\begin{aligned} I(X,Y)&=\frac{1}{2}\log[(2\pi e)det(C(X))]+\frac{1}{2}\log[(2\pi e)det(C(Y))]-\frac{1}{2}\log[(2\pi e)^2det(C(Z))]\\ &=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right) \end{aligned} \]

证毕。

根据上述定理以及\(\lambda(X,Y)\),可以定义一个度量\(\Lambda(X,Y)\):

\[\Lambda(X,Y)=\sqrt{1-e^{2I(X,Y)}} \]

注: \(\Lambda(X,Y)\)具有如下性质:

  1. \(\Lambda(X,Y)\)是互信息的一种归一化,取值范围从\([0,\infty]\)归一化到了\([0,1]\),且\(\Lambda(X,Y)\)同时包含了变量之间的线性关系和非线性关系
  2. 当\((X,Y)\)服从高斯分布时,\(\Lambda(X,Y)=\lambda(X,Y)\),即其此时和互相关系数等价
  3. 若令\(D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y)\),则\(D_{MI}\)刻画了变量之间的非线性关系,可用于指示变量之间是否存在非线性关系,分析系统的非线性动力学变化。

两者的关系

根据上面的分析很容易得到两者的关系如下:

  • 对于高斯分布,两者是等价的,且存在转换公式,当\(X\)与\(Y\)互相关系数为零时,两者相互独立,且互信息为零;当互相关系数为\(\pm1\)时,两者完全相关且互信息为无穷大,转换公式:

    \[I(X,Y)=-\frac{1}{2}\log(1-r^2) \]

  • 一般情形,互相关系数只是反应了两者之间的线性相关关系,而互信息则直接从概率分布角度考虑变量之间的相互独立性,相互独立一定不相关,不相关不一定相互独立

更为重要的是:

  • \(D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y)\) 刻画了变量之间的非线性关系,可用于指示变量之间是否存在非线性关系,分析系统的非线性动力学变化。

参考文献

上一篇:CF1537C Challenging Cliffs


下一篇:基于RT1052 Aworks 使能ADC功能(四)