线性判别分析
线性判别分析(Linear Discriminant Analysis,LDA)是一种监督学习算法,常常用于数据降维。
LDA是为分类问题服务的,因此需要先找到一个投影方向图片,使得投影后的样本尽可能按照原始类别分开。
简单的二分类问题,存在两个类别的样本,图片。两个类别的均值分别为图片
我们则希望投影之后,尽可能把这两个数据集分开,即在投影上距离越大越好。距离表示:
图片
其中图片表示两类的中心在图片方向上的投影向量,图片。需要优化以下问题
图片
我们需要找到尽可能大的类间距离投影方式,但是又同时使得类内方差最小。
图片
因此有
图片
其中图片为单位向量,图片分别表示两类投影后的方差
图片
图片
然后定义类间散度矩阵图片,类内散度矩阵图片
化简得
图片
图片
图片
一般二分类,图片和图片是两个数,令图片
图片
图片
从最大化类间距离和最小化类内距离出发,拥有较好对噪声的鲁棒性,模型也很简单。