10分钟看懂PCA

2023-11-06 11:49:16

PCA的目标

有利于简化计算，降低模型复杂度，便于数据可视化。

核心思想

就是抓住主要矛盾

一个简单的例子：现在要通过照片来识别一个人。整个拍照的过程就是一个将3维的人降维到2维。我们通过照片就能够识别照片中的人。这就是PCA要做的事情。在举一个例子就是在平常的学习中物理与数学科目的相关性很强，如果我们知道了一个同学的数学成绩很好那么大概率就能知道该同学的物理学的不错。在这里我们就能够使用数学（一个维度）来评估该同学的理科素质（多个维度）。同时降维之后尽可能留下有用的维度，也就是留下的维度尽可能的独立这样我们就能够用尽可能少的维度表出最大的信息量。

降维的原则

我们有多个角度，从正面拍照，从头顶拍照，从侧面拍照等等。常识知道从正面拍照是一个不错的选择，正面的照片展示最多的信息量（相比较其他的几个角度来说）。如果将照片的例子联系到一般的数据上，数据有好多投影的方向，如果降维之后的数据特别密集（相当于拍照的时候从头顶拍下去）那么就会损失很多的信息量。最好的方式就是选择一个方向使得降维之后的数据密度最小，这个方向就是方差最大的方向。方差最大的方向数据离散程度比较高按照这个方向“拍平”数据得到的就是最大方差投影。

PCA的核心数学知识点

在数学方面的两个知识点

1.基变换向量投影

一个向量在另一个向量上的投影就是这个向量与该方向单位向量的乘积。那么一个向量与一个标准正交基相乘得到的就是这个向量在新的基下的坐标。

2.协方差归零投影

如果一个列向量代表一个人，设列构成的矩阵设为。将A做归零化得到B，则B * B.T就是协方差矩阵。

在上面提到我们要使得降维之后的向量相关性越小越好。而向量的相关性可以用协方差来表示，所以我们的下一步目标就是将该矩阵对角化。只留下对角线元素，也就是我们熟悉的矩阵的对角化了。而且对角线的元素正是我们方差。

整个PCA的pipeline

1. 得到协方差矩阵。

2.将协方差矩阵（对称矩阵）正交对角化。

3.使用方差最大化原则将对角线的值倒序排列。比如我们要降到k维（k < 原始向量维度）就将topk的特征值对应的特征向量找出来。这时候的特征向量为正交基。

4.将k个特征向量构成的矩阵 * 原始矩阵A得到降维之后的矩阵。

码农公寓