全部笔记的汇总贴:统计学习方法读书笔记汇总贴
PDF免费下载:《统计学习方法(第二版)》
EM算法用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望(expectation) ; M步,求极大(maximization)。
一、EM算法的引入
三硬币模型
假设有三枚硬币,分别记为A、B、C。这些硬币正面的概率分别为 π , p , q π,p,q π,p,q,进行如下的抛硬币实验:先掷硬币A,根据其结果选出硬币B或者硬币C,正面选硬币B,反面选硬币C,然后掷选出的硬币,掷硬币的记录,出现正面记作1,出现反面记作0,独立地重复n次实验(这里n=10),然后观测结果如下:
1,1,0,1,0,0,1,0,1,1
假设只能观测到掷硬币的结果,不能观测掷硬币的过程,问如何估计三硬币正面出现的概率,即三硬币模型的参数 π , p , q π,p,q π,p,q。
y j y_j yj为第 j j j次实验的观测数据
Z Z Z为隐变量,表示掷硬币A出现的结果,该变量只有两个取值(0/1)
z j z_j zj为第 j j j次实验时,掷硬币A出现的结果,其中 z j = 1 z_j=1 zj=1表示正面
θ \theta θ为参数集合 π , p , q π,p,q π,p,q
θ ( i ) \theta^{(i)} θ(i)为第 i i i次迭代时, π , p , q π,p,q π,p,q的估计值
对于后验概率 P ( z j ∣ y j , θ ( i ) ) P(z_j | y_j, \theta^{(i)}) P(zj∣yj,θ(i)),可以写成 μ j ( i + 1 ) = P ( y j , z j = 1 ∣ θ ( i ) ) P ( y j ∣ θ ( i ) ) \mu_j^{(i+1)} = \frac{P(y_j, z_j=1 | \theta^{(i)})}{P(y_j | \theta^{(i)})} μj(i+1)=P(yj∣θ(i))P(yj,zj=1∣θ(i)),这样子思考,给定条件 θ ( i ) \theta^{(i)} θ(i), z j = 1 z_j=1 zj=1的概率为 π ( i ) \pi^{(i)} π(i),留意 θ ( i ) \theta^{(i)} θ(i)已发生,那么 P ( z j = 1 ∣ θ ) P(z_j=1|\theta) P(zj=1∣θ)就等于 π ( i ) \pi^{(i)} π(i)。