本篇是针对经典教材《机器学习》及DataWhale小组出版的配套工具书《机器学习公式详解》的学习笔记,主要以查缺补漏为主,因此对于一些自己已经熟悉的概念和内容不再进行整理。由于水平实在有限,不免产生谬误,欢迎读者多多批评指正。
第三章 线性模型
基本概念
线性模型向量形式:
\[f(\textbf{x})=\textbf{w}^T\textbf{x}+b \]其中\(\textbf{w}=(w_1;w_2;...;w_d)\)。
许多非线性模型可以在线性模型的基础上通过引入层级结构或高维映射而得。
线性回归中的“最小二乘法”就是试图通过确定w和b来构造一条直线,使所有样本到直线上的欧式距离之和\(E(w,b)=\sum_{i=1}^{m}(y_i-wx_i-b)^2\)最小(等同于使均方误差最小化)。我们将\(E(w,b)\)分别对w和b求导并使之为零可以得到二者最优解的闭式解,对于单变量线性回归,其闭式解为:
\[w=\frac{\sum_{i=1}^{m}y_i(x_i- \overline{x})}{\sum_{i=1}^{m}x_i^2-\frac{1}{m}(\sum_{i=1}^{m}x_i)^2} \] \[b=\frac{1}{m}\sum_{i=1}^{m}(y_i-wx_i) \]对于多元线性回归模型,情况要复杂一些。我们首先将数据集表示为一个矩阵\(\textbf{X}\),对应标签为\(\textbf{y}=(y_1;y_2;...;y_m)\):
\[\textbf{X}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1d}&1 \\ x_{21}&x_{22}&...&x_{2d}&1 \\ ...&...&...&...&... \\ x_{m1}&x_{m2}&...&x_{md}&1 \end{pmatrix} =\begin{pmatrix} \textbf{x}_1^T&1 \\ \textbf{x}_2^T&1 \\ ...&1 \\ \textbf{x}_m^T&1 \end{pmatrix} \]参考资料:
- 《机器学习》 周志华 著
- 《机器学习公式详解》 谢文睿 秦州 著
- https://www.bilibili.com/video/BV1Mh411e7VU?p=1 《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集