作者:CHEONG
公众号:AI机器学习与知识图谱
研究方向:自然语言处理与知识图谱
阅读本文之前,首先注意以下两点:
1、机器学习系列文章常含有大量公式推导证明,为了更好理解,文章在最开始会给出本文的重要结论,方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。
2、文中含有大量公式,若读者需要获取含公式原稿Word文档,可关注公众号【AI机器学习与知识图谱】后回复:变分推断第一讲,可添加微信号【17865190919】进学习交流群,加好友时备注来自CSDN。原创不易,转载请告知并注明出处!
本文将从机器学习中的频率角度和贝叶斯角度阐述各自解决问题的途径,然后引出变分推断的用途和用法。
一、本文结论
结论1: 从频率角度出发,通常把问题当成优化问题进行求解;从贝叶斯角度出发,通常把问题看成积分问题进行求解;
结论2: 变分推断是一种求解后验概率分布 p ( z ∣ x ) p(z|x) p(z∣x)的近似推断方法,变分推断将Inference问题转化为优化问题进行求解;
结论3: 变分推断的主要思想:在给定数据集 X X X下,问题是求后验概率 p p p,简单情况下后验概率 p p p可直接通过贝叶斯公式推导求出,但有些情况无法直接求解。因此变分推断想法是先假设另一个简单的概率分布 q q q,如高斯分布,通过优化 p p p和 q q q之间距离最小化,让概率分布 q q q逼近p,这样就可以用概率分布 q q q近似表示后验概率 p p p。
二、频率角度
从频率的角度出发,通常把问题当成优化问题来看待,下面通过三个简单例子认识一下。
例子1:回归问题。
回归问题在机器学习中很简单,首先回归模型为:
回归问题的Loss Function使用的是最小二乘法:
从上面公式可以看出,回归问题是一个无约束的最小优化问题。如果存在问题存在解析解则通过求导可以直接求出,如果问题不存在解析解,可通过梯度下降GD和随机梯度下降法SGD进行求解。
例子2:SVM分类问题。
机器学习经典的SVM分类算法模型为:
SVM算法的Loss Function定义为:
可以看出SVM是一个带有约束条件的优化问题,我们通常使用拉格朗日乘子法和对偶法进行求解,寻找分类的最有超平面。
例子3:EM算法。
EM算法常用于求解含有隐变量的概率模型的学习问题,比如高斯混合模型的Learning问题,EM算法将其转化为一个最优化问题。EM算法通过E-Step求期望,再通过M-Step最大化期望来对参数进行求解,参数求解公式为:
三、贝叶斯角度
从贝叶斯角度出发可以把问题看成是积分问题。贝叶斯公式为:
贝叶斯中常常需要求解后验概率分布 p ( z ∣ x ) p(z|x) p(z∣x),被称为贝叶斯推断,如下公式通过积分求概率分布:
那么推断的方法有哪些呢?首先如上公式所示,可以直接通过公式就能求出来的,称为精确推断。还有一类无法通过公式精确推断出来,称为近似推断。如下图所示,近似推断又分为两类:确定性近似推断和随机近似推断。而变分推断Variational Inference就是确定性近似推断的一种常用方法。在接下来文章中将讲解变分推断对Inference问题的详细解法。