概率图模型中极家族(exponential families)函数的引入
回顾概率图模型03中的内容,我们用联合树算法进行消息传递,本质是在求解某个变量的分布或者条件分布,求解一个分布不单纯局限在联合树算法上,还有其他算法,比如均值场。这些图模型中的变分推理方法都有一个统一的理论框架,都是依靠凸分析和极家族函数来支撑起来的,各种推理方法的本质其实都是在极家族函数的均值参数(Mean Parameters)和自然参数(Canonical Parameters)之间来回映射。下面就先来看下为什么概率图模型中的变分推理会有极家族函数。
原则其实很简单,给定一堆数据,我们可以计算出数据的均值和方差(这些被称为经验一阶和二阶原点矩,或者经验数学期望)等统计量信息,根据这些统计量信息我们要找到一个分布P,使得分布P的矩信息和经验矩匹配,找到的分布P我们称为经验分布(empirical distribution)。下面转成数学语言:
对于一个简单的随机变量X,我们得到n个相互独立的样本,根据这n个样本,我们计算经验数学期望,如(公式一)所示:
(公式一)
其中,比如时,就对应一、二阶矩。要注意矩还有更高阶的,所以集合 I 很有很多元素,也就是说(公式一)有对应多的经验数学期望。现在的任务就是假定一个分布P,那么它的期望计算公式如(公式二)所示:(公式二)
我们要使(公式二)分布P的期望和经验期望相等,也就是说使得分布P是样本分布的一致性估计,如(公式三)所示:
(公式三)
现在问题来了,根据(公式二)和(公式三)的条件,我们如何求分布P?这个问题是不确定的,可以有很多个分布P都满足这两个条件,此时我们就要引入香农信息熵,给定一个分布P,我们有一个对应的信息熵,然后选择使得信息熵最大的那个分布P作为我们要找的经验分布。给定分布P,香农信息熵的计算公式如(公式四)所示:
(公式四)
其中v(dx)是测度方式,离散的就是可列测度,连续的就是勒贝格测度。
通过极大化信息熵得到的P就是我们要求的经验分布,如(公式五)所示:
(公式五)
现在的问题就是如何求解(公式五)中的P*,(公式五)属于泛函中有约束的求极值问题,求解P*需要用到泛函分析中的变分法,在泛函中利用拉格朗日乘子法得到P*的形式,如(公式六)所示:
(公式六)
求解得到(公式六)就是极家族函数形式,其中是极家族函数的参数,理解起来也很简单,比如高斯分布,把(x-u)^2拆开写,就可以简写成(公式六)的形式,从这点也可以理解为什么高斯分布被称为熵最大的分布。^.^接下来就是深入分析下极家族分布函数的一般写法,考虑m个随机变量:,m的随机变量的取值空间为他们各自取值空间的笛卡尔乘积:,同样我们需要一些类似矩函数的函数来作为我们的匹配准则,这个函数在前几节被称为势函数,或者充分统计量,注意是从m维向实数空间映射,但是我们有多个这样的函数,即a所在的集合的势:,那么数据其实是从m维向d维映射:,对于每一个势函数(充分统计量),我们都有对应的极家族参数:(这点可以联想下高斯分布函数均值、方差的系数,高斯分布有两个参数,是把数据从m维向2维映射),这些参数被称为自然参数或者极参数或者标准参数(canonical parameter)。把系数(自然参数)和势函数用内积的形式表示:,那么多变量的联合分布的极家族形式则可以简单的写成(公式七)的样子:
(公式七)
其中是配分函数,也就是所有变量的积分。(公式七)的形式也不太难理解吧?特殊变量取值除以全部变量的积分就是概率,只不过在指数函数中除法可以写成减法的形式。为了给后续打下基础,在这里也把自然参数的集合形式写出来,如(公式八)所示:(公式八)
这个自然参数集合是个凸集,而且配分函数A也是个凸函数,这样可以顺利引入凸分析,到此可以回想下,求解分布P,其实就是求取自然参数的过程。而有的时候是我们有了分布P,要求取均值参数,因此后续大部分的文章都是围绕着自然参数空间和均值参数空间来回映射方法展开。今天就说到这了,下面给出一个常见的极家族函数的一般写法,如(图一)所示。
[1] Graphical models, exponential families, and variational inference. Martin Wain wright and Michael Jordan
[2] Probabilistic Graphical Models. Daphne Koller
[3] Graphical Models.S. L. Lauritzen
转载请注明来源:http://blog.csdn.net/marvin521/article/details/18307581