补充知识:在主成分分析过程中,会用到矩阵乘法的结合律。
已知数据集(训练集)
其中:
。
定义目标函数:
问题1:当等于多少时,最小。
解:针对求导,并令导数等于零
解得:
___________________________________________________________________________________________________________________________________
我们扩展一下上面的问题,定义以下目标函数:
其中:
,为已知单位向量,即:。
问题2:求当等于多少时,最小。
解:
针对求导,并令导数等于零。
,
那么:
。
—————————————————————————————————————————————————————————————————————————————
我们接着提出这样的问题,上述的目标函数不变,如果,和都不可知。
问题3:当等于多少时,最小。通过问题2,我们已经计算出。
然后把带入整理得到:
【穿插一点小知识,可越过阅读,注意:这里出现了一个概念:协方差矩阵,即上式中我用红色标出的那一部分,以下还可以再处理一下协方差矩阵(写成和的形式),便于在Mapreduce思想中处理。我们用符号代表协方差矩阵。即:
因为我们用的是该矩阵的特征向量,除以后,特征向量不变。所以很多书上也可以这样定义协方差矩阵:
】
令最小,那么产生了以下最优化问题:
我们用拉格朗日乘子法解上面的最大值问题 ,定义拉格朗日函数:
针对求导,并令导数等于零:
则:可以得出是的特征向量,是的特征值,且:
因为我们要求最大,所以即要求最大。那么得出是对应的最大特征值的特征向量。完毕
—————————————————————————————————————————————————————————————————————————————
我们继续扩展上面的问题:定义目标函数,
类似于上面的求解过程,只给出结果,过程就不敲了,只给出结论:
,其中是协方差矩阵的特征值对应的特征向量,且。