今日内容
- 西瓜书第十章内容的阅读
- k邻近学习(kNN):给定测试样本,基于某种距离度量找出训练集中与最靠近的k个训练样本,然后通过这k个“邻居”判断该测试样本属于何种标签,可以常用投票法判断
- 主成分分析:一种常用的降维方法,将一个高维的样本集用一个超平面对其进行恰当的表达,该超平面需要有一下性质:
- 最近重构性:样本点到这个超平面的距离都足够近
- 最大可分性:样本点在这个超平面上的投影能尽可能的分开
- 核化线性降维:PCA主要是线性降维,而KPCA主要是对非线性的降维。利用非线性矩阵将原样本集映射成线性可分的,再利用PCA常用方法求得超平面方程。
- 流形学习:我们所观察到的数据在它的维度上存在着冗余,而这些数据,我们完全可以在低维上唯一表示。
- 第十章涉及到的部分数学知识的回顾
- 归一化、标准化、中心化、最小二乘法、极大似然估计、协方差和点积、二次型、奇异值分解、特征值的理解
问题与困难
- 在学习第九章第十章内容,里面牵扯到的公式证明比较多,学习起来速度会有所下降,所以原计划昨天结束的第十章,一直拖到今天。昨天主要是对数学知识的回顾以及第九章的一些扫尾工作。
明日计划
- 继续西瓜书的学习,争取理解第十一章的大部分概念,对一些算法公式推导过程能够粗略看一遍。