PLSA的EM推导

本文作为em算法在图模型中的一个应用,推导plsa的em算法。

1 em算法

em算法是解决一类带有隐变量模型的参数估计问题。

1.1 模型的定义

输入样本为PLSA的EM推导,对应的隐变量为PLSA的EM推导。待估计的模型参数为PLSA的EM推导,目标为极大化似然函数

PLSA的EM推导

对于上式的优化,不能通过直接对PLSA的EM推导进行求导,因为一旦求导,就有如下的形式:

PLSA的EM推导

显然是不好求的。 

1.2 em算法的迭代过程

a. 初始化:随机初始参数的PLSA的EM推导 

b. E step:

            计算隐变量的后验分布

PLSA的EM推导

 c. M step:

          迭代参数PLSA的EM推导

PLSA的EM推导

        其中,Q函数为X,Z的对数联合分布在Z的后验分布下的期望 

PLSA的EM推导上面的式子,将样本和隐变量都表示成矩阵的形式,让人有些不太好套公式。

2 高斯混合模型

2.1 基本模型

PLSA的EM推导 混合高斯模型认为,变量PLSA的EM推导服从一个多峰的高斯分布,由数个高斯分布组合而成。所以我们首先引入隐变量PLSA的EM推导,并且我们认为变量PLSA的EM推导通过这样一个过程生成。引入隐变量的高斯混合模型用图模型表示:

 PLSA的EM推导

PLSA的EM推导

因此该图模型表示的联合概率为:

PLSA的EM推导2.2 em算法的推导

e step: 计算每一个样本的后验概率,遍历k等于1的各种情况

PLSA的EM推导

 M step: 首先推导Q方程

 PLSA的EM推导

对于每一对PLSA的EM推导

 PLSA的EM推导

由于N个样本独立,所以有

PLSA的EM推导
 好了,我们开始极大化这个期望

 

求均值

PLSA的EM推导 解方程得

PLSA的EM推导

求方差比较复杂,直接给出结论:

PLSA的EM推导

其中:

PLSA的EM推导

PLSA的EM推导 最后求PLSA的EM推导,注意这里PLSA的EM推导的概率和为1,用拉格朗日乘子法解受限优化问题。有拉格朗日函数

PLSA的EM推导

对 PLSA的EM推导求偏导有

PLSA的EM推导

PLSA的EM推导 

有k个关于PLSA的EM推导的方程,对这些方程做累加有

PLSA的EM推导

PLSA的EM推导 其中,PLSA的EM推导是概率,对k的累加和为1

至此,混合高斯模型的em迭代方法推导完毕,总结如下

E step:

PLSA的EM推导

M step:

PLSA的EM推导

 PLSA的EM推导

 PLSA的EM推导

其中PLSA的EM推导

PLSA的EM推导

好了,我们完成了混合高斯模型的推导。混合高斯模型是一般高斯模型的推广,使得概率密度估计的外延得到扩展。另外,我们搞清楚了em算法使用的细节,在e step,我们求每一对(zn,xn)的后验概率和联合概率,遍历zn的所有情况,然后求每一个对数似然函数的期望,并在N上求和,就得到了目标函数。

 

3 PLSA主题模型

PLSA主题模型是比较老的模型了,逐渐被LDA这种更bayesian的方法取代了。我们来看看图模型。

PLSA的EM推导

3.1 模型假设

对于一篇文档PLSA的EM推导,在每一个词的位置,首先选择一个topic,然后在topic的词分布中选择一个词作为当前位置的词PLSA的EM推导。输入样本为PLSA的EM推导,需要估计的参数为PLSA的EM推导在主题上的分布PLSA的EM推导 ,以及主题下词的分布PLSA的EM推导

首先求联合概率。对于PLSA的EM推导这一Complete样本,

有联合概率

PLSA的EM推导

有后验概率

PLSA的EM推导有一对样本的期望函数

 PLSA的EM推导

这里,我们取PLSA的EM推导为常数。得到了整体的期望函数

PLSA的EM推导 这里,我们没有考虑词与词之间的相互顺序。接下来,我们要优化这个问题。

(1) 对于PLSA的EM推导,根据拉格朗日乘子法有代价函数:

PLSA的EM推导对 PLSA的EM推导求偏导,有

PLSA的EM推导

对K个主题方程求和,可得

PLSA的EM推导
 可得

PLSA的EM推导

 (2) 对于PLSA的EM推导,根据拉格朗日乘子法有代价函数:

PLSA的EM推导

PLSA的EM推导求偏导,有

PLSA的EM推导

对M个词累加,可得

PLSA的EM推导

PLSA的EM推导 好的,我们可以总结一下过程了。

E step

计算后验概率

PLSA的EM推导

M step

迭代更新

 PLSA的EM推导

PLSA的EM推导

好了,我们推导了一遍混合高斯模型,又自行推导了一遍plsa.EM算法的精华基本掌握了。

 

 

 

 

 

 

 

 

 

 

上一篇:Lucene - CustomScoreQuery 自定义排序


下一篇:机器学习-EM算法-pLSA模型笔记