day2021_9_26

今日内容

  • 西瓜书第十章内容的阅读
    • k邻近学习(kNN):给定测试样本,基于某种距离度量找出训练集中与最靠近的k个训练样本,然后通过这k个“邻居”判断该测试样本属于何种标签,可以常用投票法判断
    • 主成分分析:一种常用的降维方法,将一个高维的样本集用一个超平面对其进行恰当的表达,该超平面需要有一下性质:
      • 最近重构性:样本点到这个超平面的距离都足够近
      • 最大可分性:样本点在这个超平面上的投影能尽可能的分开
    • 核化线性降维:PCA主要是线性降维,而KPCA主要是对非线性的降维。利用非线性矩阵将原样本集映射成线性可分的,再利用PCA常用方法求得超平面方程。
    • 流形学习:我们所观察到的数据在它的维度上存在着冗余,而这些数据,我们完全可以在低维上唯一表示。
  • 第十章涉及到的部分数学知识的回顾
    • 归一化、标准化、中心化、最小二乘法、极大似然估计、协方差和点积、二次型、奇异值分解、特征值的理解

问题与困难

  • 在学习第九章第十章内容,里面牵扯到的公式证明比较多,学习起来速度会有所下降,所以原计划昨天结束的第十章,一直拖到今天。昨天主要是对数学知识的回顾以及第九章的一些扫尾工作。

明日计划

  • 继续西瓜书的学习,争取理解第十一章的大部分概念,对一些算法公式推导过程能够粗略看一遍。

标准化,归一化联系与区别

PCA,该文章中还提及了很多数学知识

上一篇:经验正交函数 (EOF) / 主成分 (PCA) 分解及Python实现


下一篇:PCA MATLAB代码