主成分分析

一、用自己的话描述出其本身的含义:

1、特征选择

在原始数据中,有许多特征值是一样的,比如预测鸟类,特征值为是否有翅膀,类似这些的特征是不需要的,需要剔除掉,还有特征值差异不大也需要剔除,这样可以提升准确的和预测效率,也就是降维,将高维空间的样本通过映射或者是变换的方式转换到低维空间,然后通过特征选取和删选掉冗余和不相关的特征来进一步降维。

2、PCA

PCA即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。

二、并用自己的话阐述出两者的主要区别

特征选择是就是在处理过后的数据中选取一些特征来进行模型的训练。而PCA用于减少数据集的维度,同时保持数据集中使方差贡献最大的特征。改变了原来特征的形式。 

上一篇:FE之DR之线性降维:PCA/白化、LDA算法的数学知识(协方差矩阵)、相关论文、算法骤、代码实现、案例应用等相关配图之详细攻略


下一篇:主成分分析