一周未见,,甚是想念!今天小Mi带大家学习如何降维,这是我们遇到的第二种类型的无监督学习问题!废话不多说,我们开始吧~
1 降维示例
首先,什么是降维呢?这个问题应该最先搞清楚,由于数据集通常有许多特征,我们可以举一个简单的例子来分析:
假设有未知两个的特征:
长度,用厘米表示;
是用英寸表示同一物体的长度。
而特征
和
都是基本的长度度量,其实只需要有一个特征表示就可以了,因此我们可以将数据减少到一维。虽然可能是采用两种不同的仪器来测量一些东西的尺寸,其中一个仪器测量结果的单位是英寸,另一个仪器测量的结果是厘米,但是将两者都作为特征确实有些重复。
而在上图中是一个关于研究直升飞机自动驾驶的实例,如果做一个针对不同飞行员的调查,特征
表示飞行员的技能,
表示飞行员的爱好,也许这两个特征高度相关,而我们真正关心的可能是图中红线的方向,这个时候就可以将二维数据降为一维数据,如下图所示。
当然我们还可以将数据从三维降至二维:将三维向量投射到一个二维的平面上,使得所有的数据都在同一个平面上,降至二维的特征向量,如下图所示。
类似于上述的处理过程可以被用于把任何维度的数据降到任何想要的维度,例如将1000维的特征降至100维。这样的做法进行了数据压缩后,只会占用较少的计算机内存或磁盘空间,同时也加快了学习算法的运行速度。
同时在许多学习问题中,如果我们将数据可视化,说不定可以寻找到一个更好的解决方案,降维也是其中常规采用的手段之一。
假使我们有关于许多不同国家的数据,每一个特征向量都有50个特征(如GDP,人均GDP,平均寿命等)。如果要将这个50维的数据可视化是不可能的,因此使用降维的方法将其降至2维,我们便可以将其可视化了。
这样做的问题在于,降维的算法只负责减少维数,产生的新特征有什么样的意义就需要我们自己去探索啦。
2 主成分分析问题
而在降维算法中,主成分分析(PCA)是最常见的。
在PCA中,我们要做的是找到一个方向向量(Vector direction),把所有的数据都投射到该向量上时,我们希望投射的平均均方误差能尽可能地小。方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度。
下面给出主成分分析问题的描述:
问题是要将
维数据降至
维,目标是找到向量
,使得总的投射误差最小。
需要注意的是,主成分分析与线性回归是两种不同的算法。主成分分析是要最小化投射误差(Projected Error),而线性回归则是需要最小化预测误差。线性回归的目的是预测结果,而主成分分析不作任何预测。
上图中,左边是线性回归的误差(垂直于横轴投影),右边则是主要成分分析的误差(垂直于红线投影)。
PCA将
个特征降维到
个,比如100维的向量最后可以用10维来表示,那么数据的压缩率为90%。图像处理领域的KL变换就是使用PCA进行图像压缩,同时确保降维后数据的特性损失最小。
PCA技术的好处:
1.对数据进行降维的处理时,可以对新求出的“主元”向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果,同时最大程度的保持了原有数据的信息。
2.完全无参数限制的。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独立的;
3.但是这同时也是个缺点,如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高。
3 主成分分析算法
PCA 减少
维到
维:
第一步是均值归一化。计算出所有特征的均值,然后令
,如果特征是在不同的数量级上,还需要将其除以标准差 。
第二步是计算协方差矩阵(covariance matrix):
第三步是计算协方差矩阵
的特征向量(eigenvectors)。
可以利用奇异值分解(singular value decomposition)来求解:
对于一个
维度的矩阵,上式中的
是一个具有与数据之间最小投射误差的方向向量构成的矩阵。将数据从
维降至
维,只需要从中选取前个向量,获得一个
维度的矩阵,用
表示,然后通过如下计算获得要求的新特征向量
其中
是
维的。
4 选择主成分的数量
主要成分分析是减少投射的平均均方误差:
训练集的方差为:
我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的
值。
如果希望这个比例小于1%,就意味着原本数据的偏差有99%都保留下来了,如果选择保留95%的偏差,便能非常显著地降低模型中特征的维度了。
我们可以先令
,然后进行主要成分分析,获得
和
,然后计算比例是否小于1%。如果不是的话再令
,如此类推,直到找到可以使得比例小于1%的最小值(原因是各个特征之间通常情况存在某种相关性)。
当然还有一些更好的方式来选择
,可以调用“svd”函数:
其中的
是一个
的矩阵,只有对角线上有值,而其它单元都是0,可以使用这个矩阵来计算平均均方误差与训练集方差的比。例:
也就是:
在压缩过数据后,可以采用如下方法来近似地获得原有的特征:
5 重建的压缩表示
PCA作为压缩算法通常会把1000维的数据压缩100维特征,那么如何回到原有的高维数据呢?
如图中样本
,把这些样本投射到图中一维平面上,会现在只需要使用一个实数,比如
。而给定一个点
,如何恢复到原始的二维空间呢?
为2维,
为1维,
,相反的方程为:
。如图:
从低维
数据回到未压缩的的原始数据
,我们把这个过程称为重建原始数据。
当试图重建初始值
时,给定未标记的数据集,使用PCA,高维特征
映射低维
,反之,低维
映射到原有的高维数据
。
6 主成分分析法的应用建议
假使针对一张 100×100像素的图片进行某个计算机视觉的机器学习,即总共有10000个特征,步骤如下:
1.首先运用主要成分分析将数据进行压缩
2.然后对训练集运行学习算法
3.在预测时,采用
将输入的特征
转换成特征向量
,然后再进行预测
注:如果有交叉验证集合测试集,也采用
。
使用主要成分分析的常见错误:
1.将其用于减少过拟合(减少了特征的数量)。主要成分分析只是近似地丢弃掉一些特征,它并不考虑任何与结果变量有关的信息,因此可能会丢失非常重要的特征。然而当我们进行正则化处理时,会考虑到结果变量,不会丢掉重要的数据。
2.默认主要成分分析为学习过程中的一部分,最好还是从所有原始特征开始,只在有必要的时候(算法运行太慢或者占用太多内存)才直接采用主要成分分析。
好啦,今天的介绍就结束啦~下期小Mi带大家学习异常检测!我们下期再见呦(挥手十分钟)~~