重要参数n_components
n_components是我们降维后需要的维度,即降维后需要保留的特征数量,降维流程中第二步里需要确认的k值,一般输入[0, min(X.shape)]范围中的整数。一说到K,大家可能都会想到,类似于KNN中的K和随机森林中的n_estimators,这是一个需要我们人为去确认的超参数,并且我们设定的数字会影响到模型的表现。
如果留下的特征太多,就达不到降维的效果,如果留下的特征太少,那新特征向量可能无法容纳原始数据集中的大部分信息,因此,n_components既不能太大也不能太小。
那怎么办呢?可以先从我们的降维目标说起:如果我们希望可视化一组数据来观察数据分布,我们往往将数据降到三维以下,很多时候是二维,即n_components的取值为2。
1 迷你案例:高维数据的可视化
1. 调用库和模块
import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.decomposition import PCA
2. 提取数据集
3. 建模
4. 可视化
5.
6. 探索降维后的数据
7. 选择最好的n_components:累积可解释方差贡献率曲线