八、EM算法收敛证明
EM算法的收敛性只要我们能够证明对数似然函数的值在迭代的过程中是增加的即可。
问题:
随机选择1000名用户,测量用户的身高;若样本中存在男性和女性,身高分别服从高斯分布N(μ1,σ1)和N(μ2,σ2)的分布,试估计参数:μ1,σ1,μ2,σ2;
解析:
1、如果明确的知道样本的情况(即男性和女性数据是分开的),那么我们使用极大似然估计来估计这个参数值。
2、如果样本是混合而成的,不能明确的区分开,那么就没法直接使用极大似然估计来进行参数的估计。
可以使用EM算法来估计男女这两个参数值,即男女这两个性别就变成了隐含变量。
实际上,EM算法在某些层面上是在帮助我们做聚类的操作。即帮助我们找到隐含变量的取值。