从感知机到线性回归,从线性回归到Logistic回归
1、感知机
感知机的直观解释为,使用超平面将特征空间中的一组实例分割开来。定义该超平面为:WTx+b=0。数据标签取值:yi∈{+1,−1}。
1.1、模型
该模型决策函数为:
f(x)=sign(WTx+b)(1)
当 f(x)>0 预测为正例,f(x)<0 预测为负例。
1.2、学习策略
对于模型误分类的样本:
−yi(WTx+b)>0(2)
误分类样本到分类超平面的距离为:
−∣∣W∣∣yi(WTxi+b)(3)
其中,∣∣W∣∣ 为超平面法向量的 L2 范数。因此,不妨将其设为 1。
给定训练数据集 T={(x1,y1),(x2,y2),...,(xN,yN)},在模型上发生误分类的样本子集为 M,则所有误分类样本到分类超平面的距离和为:
L(W,b)=−xi∈M∑yi(WTx+b)(4)
1.3、学习算法
显然,优化过程中,我们选择使 L(W,b) 最小的模型作为最终模型。即选择 (W,b) 使得
Lmin(W,b)=−xi∈M∑yi(WTx+b)
已知损失函数 L(W,b) 的梯度为:
∇WL(W,b)∇bL(W,b)=−xi∈M∑yixi=−xi∈M∑yi(5)
选择随机梯度下降(SGD)的优化方法,每次从误分类集合 M 中选择一个样本 (xi,yi),更新 W,b 如下:
Wb←W+ηyixi←b+ηyi(6)
综上,算法学习过程表示如下:
输入:数据集 T,学习率 η(0<η≤1)
1. 选取初始 W0,b0
2. 在训练集中选取 (xi,yi)
3. 如果 yi(WTx+b)≤0:
Wb←W+ηyixi←b+ηyi
4. 不满足条件 3 则转到步骤 2
以上算法可以直观地解释为:当样本发生误分类时,调整 W,b 使分类超平面向误分类样本一侧移动,从而减小误分类样本与分类超平面之间的距离,直至超平面将该样本正确分类为止。
1.4、PLA 对偶形式
通过观察式 (6) 可知:每个误分类样本下,W 每次更新的步长相同,当 W,b 均以 0 初始化时,可以得出:
Wb=i=1∑nniηyixi=i=1∑nniηyi(7)
令 αi=niη,可得:
Wb=i=1∑nαiyixi=i=1∑nαiyi(8)
故对偶算法为:
输入:数据集 T,学习率 η(0<η≤1)
1. α←0,b←0
2. 在训练集中选取 (xi,yi)
3. 如果 yi(j=1∑nαjyjxjxi+b)≤0:
αib←αi+η←b+ηyi
4. 不满足条件 3 则转到步骤 2 直到样本 xi 正确分类
注意:
- 该算法是一个 NP 难问题,实际应用中很难保证样本集是线性可分的,不满足线性可分的前提条件,PLA 算法不收敛。
- 满足线性可分的条件时,该算法必收敛,相关证明参考《统计学习方法—李航》
- 为了加快算法收敛,实际应用中通常使用线性回归的解(LR 具有解析解)来初始化模型。
2、线性回归
2.1、模型
2.2、学习策略
2.3、学习算法
3、Logistic回归
3.1、模型
3.2、学习策略
3.3、学习算法