目录
1.1 基本概念
机器学习(ML)≈ 构建一个映射函数
概念:从数据中获得决策(预测)函数使得机器可以根据数据进行自动学习,通过算法使得机器能从大量历史数据中学习规律从而对新的样本做决策。
1.2 机器学习的三要素
1.2.1 模型
线性方法:(X特征向量shape=n,1,W权重)
广义线性方法:
注:
如果Φ(x)为可学习的非线性基函数, 就等价于神经网络。
1.2.2 学习准则-损失函数
(1)0-1损失函数
(2)平方损失函数
(3)交叉熵损失函数(常用)
1.2.3 优化算法
1、学习准则-参数学习
(1)期望风险未知,通过经验风险近似
训练数据:,i∈[1,N]
- 经验风险最小化
在选择合适的风险函数后,我们寻找一个参数θ*,使得经验风险函数最小化。
注:
机器学习问题转化成为一个最优化问题。
1).拟合
过拟合:经验风险最小化原则很容易导致模型在训练集上错误率很低,但是在位置数据上错误率很高。
过拟合问题往往是由于训练数据少和噪声等原因造成的。
泛化错误:在测试集上的表现不好,泛化能力不强。
如何减少泛化错误?
(1)优化:经验风险最小
(2)正则化:降低模型复杂度
两种方法: ①增加优化约束
②干扰优化过程
优化-梯度下降法(Gradient Descent)
搜索步长α中也叫作学习率(Learning Rate)(重要的超参数)
①批量梯度下降法(Batch Gradient Descent,BGD)中每个样本都进行更新;
②随机梯度下降法(Stochastic Gradient Descent,SGD)也叫增量梯度下降法;
③小批量(Mini-Batch)堆积梯度下降法(Mini-Batch Gradient Descent,MBGD)
梯度下降法实战见下节