来源:B站up主Shuhuai008:板书
概率图可分为有向(Bayes Network)和无向(Markov Netwrok),其中从(随机变量服从离散或者连续概率分布)的分类角度可分为高斯图(连续)和其他(离散)。
Bayes是一个概率的概念,可从基本的规则推导而来。
边缘概率:p(xi);
条件概率:p(xj|xi);
联合概率:p(x1,x2);
基本规则有如下两个规则:
sum规则:p(x1)=∫p(x1,x2)dx2 【涉及联合~;边缘~】
Product规则:p(x1,x2)=p(x1)p(x2|x1)=p(x2)p(x2|x1); 【涉及条件~;边缘~】
Chain规则:
p(x1,x2,x3)=p(x1)p(x2|x1)p(x3|x1,x2);
p(x1,x2,…xi)=product(i=1~p)(p(xi|x1,x2,xi-1));
Bayes规则:p(x2|x1)=p(x1,x2)/p(x1)=p(x1,x2)/∫p(x1,x2)dx2=p(x2)p(x1|x2)/∫p(x1,x2)dx2
概率图用于解决问题的时候,求解联合概率是关键的一步,但由于求解复杂问题时,往往随机变量均为高维数据,从chain公式的推导可以看出每一个随机变量的计算,都与它之前的随机变量有关,运算量非常大,那么就存在一个高维困境的问题,这个问题可以通过以下方法解决。首先分析得出,由于随机变量间的条件概率计算繁琐,那么可以假设所有随机变量均为相互独立的变量,达到简化计算的目的,这就是朴素Bayes的思想,那么p(x1,x2,…xi)=product(i=1~p)(p(xi));。但是这个假设假设得太“过”了,计算出的结果与实际相差甚远,那么就需要想出折中的办法,由此引出了Markov假设(这里只介绍一阶Markov假设):xj⊥xi+1 | xi,j<I,在当前状态xi可以被观测的情况下,过去状态xj与未来状态xi+1条件独立。【一阶Markov假设:因为隐状态是一阶的所以叫一阶Markov假设?】
markov性质示意图(一阶马氏链)
但是Markov假设还是太理想了,所以将其进行推广,得到了条件独立性的假设。在条件独立性中,假设xi分别与一定数量的其他变量相关(需要计算条件概率),而与剩下的变量相互独立,这就引出了“条件独立性”的概念。条件独立性可以用符号表示,a⊥b|c:表示已知c的情况下,a和b相互独立;或者说在c可以被观测的情况下,a和b相互独立。条件独立性是采用chain规则求解联合概率的一种简化手段,为了解决高维困境,较少计算时间提出的。既然条件独立性提出了,那么概率的定义、相关规则、求解手段都具备了。那么现在来说说“概率图”中的“图”。
其中,空心圆圈表示状态变量,实心圆圈表示可以被观测到的变量。【由于变量是否可被观测对条件独立性有影响,所以概率“图”中有这样的区分。】,箭头表示状态变量间的关系,在有向图中,箭头表示条件概率
下面介绍怎么用图表示概率、表示条件独立性(由于图是辅助表达的一种手段,所以从图中是一定能比较简便的得到某些信息的,使某些信息更加直观,这也是引入图的目的。在概率图中这个“直观的信息”就是“条件独立性”)。
图表示概率:p(a);p(b|a):a是父节点,b是子节点,箭头从父结点指向子节点可表示条件概率。图中阴影表示状态变量被观测
图表示条件独立性:分为三种情况
①(tail to tail): b⊥c | a;
若a没被观测,则b与c连通,条件不独立;
若a被观测,则b与c被阻塞,条件独立。
②(tail to head): a⊥c | b
若b没被观测,则a与c连通,条件不独立;
若b被观测,则a与c阻塞,条件独立;
③(head to head): a⊥b
若c没被观测,则a与b阻塞,条件独立;
若c被观测,则a与b连通,条件不独立;
问题:
一阶Markov假设的一阶体现在哪儿?状态变量为一阶?变量一阶体现在?
混合模型的混合体现在哪儿?体现在有可观测变量和隐变量么?
完备数据是什么?非隐变量模型?
Bayes 用途?用于分类?
参考资料:https://www.bilibili.com/video/BV1BW41117xo?p=1 ,作者:shuhuai008