数据之间的相似度的度量 马氏距离 欧氏距离 PCA相关

目前凭印象说一下,可能不准,反正说给我自己的哈哈、
PCA就是找出一些特征的线性组合,这些线性组合能够有效地区分出不同数据点,数据点在这些PCA找出来的方向上的投影点方差最大(同时重建误差最小,参考PCA

欧氏距离是最直观最简单的,也就是两个点之间的几何距离,也就是原始数据各个维度上坐标值的差的平方之和
标准化欧式距离是针对简单欧式距离的缺点而作的一种改进方案。标准欧式距离的思路:既然数据各维分量的分布不一样,那我们可以先将各个分量都“标准化”到均值、方差相等。那么均值和方差都标准化到多少呢?假设样本集X的均值(mean)为m,标准差(standard deviation)为s,那么X的“标准化变量”表示为:标准化变量的数学期望为0,方差为1。
但是还需要改进,因为各个维度会有数据冗余,比如身高维度和体重维度实际上有很大关系,所以我们就用到了PCA,来找到更高效的新维度(旧维度的线性组合)来表示数据点,这就是马氏距离,排除变量之间的相关性的干扰。
机器学习中的相似性度量
马氏距离的一步步理解-参考1
马氏距离的一步步理解-参考2

上一篇:国科大人工智能学院《计算机视觉》课 —计算机视觉中的机器学习方法


下一篇:PCA降维-最大,最小方差解释