线性模型,SVM,决策树

机器学习复习2

线性模型,虽为回归,但是分类

单一属性线性回归:

目的:学得一个线性模型以尽可能准确地预测实值输出标记

最小二乘法:均方误差分别对w和b求导得到闭式解

多元线性回归:

其他相同

不是满秩矩阵,多个解,怎么选? 

根据归纳偏好选择解或引入正则化:对解空间的一种限制

优点:形式简单,易于建模,可解释性强,非线性模型的基础(引入层级结构或高维映射)

缺点:对异常点鲁棒性差,随机取样一致,鲁棒回归?

线性并不指对输入变量的线性,而是指对参数空间的线性,线性模型完全具有描述非线性的能力,通用非线性化方法:核学习方法

对数线性回归:输出标记的对数为线性模型逼近的目标

广义线性模型:联系函数-单调可微函数

Logistic回归:

寻找函数将分类标记与线性回归模型输出联系起来,最理想的函数——单位阶跃函数,缺点:不连续,替代函数——对数几率函数

对数几率:样本作为正例的相对可能性的对数

对数几率回归优点:无需事先假设数据分布,可得到“类别”的近似概率预测,可直接应用现有数值优化算法求取最优解

极大似然法确定参数

线性判别分析:LDA也可被视为一种监督降维技术

思想:同类样例的投影点的协方差尽可能小,类中心之间的距离尽可能大

LDA的贝叶斯决策论解释,两类数据同先验、满足高斯分布且协方差相等时,LDA达到最优分类

多分类LDA将样本投影到N-1维空间,N-1通常远小于数据原有的属性数,因此LDA也被视为一种监督降维技术

多分类学习:对问题进行拆分,为拆出的每个二分类任务训练一个分类器,对于每个分类器的预测结果进行集成以获得最终的多分类结果

拆分策略:一对一,一对其余,多对多

OvO:两两配对,训练各个二分类任务分类器,新样本提交给所有分类器预测,投票产生最终分类结果

OvR:某一类作为正例,其他反例,训练各个二分类任务分类器,新样本提交给所有分类器预测,比较各分类器预测置信度

OvO的存储开销和测试时间开销通常比OvR大,类别多时,OvO的训练时间开销通常比OvR小,预测性能差不多

纠错输出码(ECOC):编码与解码,根据编码预测,距离最小的类别为最终类别

ECOC编码对分类器错误有一定容忍和修正能力,编码越长、纠错能力越强,对同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,则纠错能力越强

类别不平衡,不同类别训练样例数相差很大情况(正类为小类)

再缩放:欠采样:去除一些反例使正反例数目接近,过采样(样本复制,样本插值,样本生成):增加一些正例使正反例数目接近,阈值移动

SVM:

函数间隔:|w·x+b|表示分类预测的确信程度,w·x+b与类标记y的符号是否一致表示分类是否正确,y(w·x+b)表示分类的正确性和确信度

当成比例改变w和b,超平面不变,但函数间隔会变化

几何间隔:

SVM基本型:线性可分支持向量机学习的最优化问题--凸二次规划

硬间隔最大化:输入线性可分训练数据集,输出最大间隔分离超平面和分类决策函数

拉格朗日对偶优点:对偶问题往往容易解,引入核函数,推广到非线性分类问题

分类决策函数只依赖于输入x和训练样本输入的内积,称为线性可分支 持向量机的对偶形式。

将数据集中对应于拉格朗日乘子大于0的x称为支持向量,支持向量一定在分割边界上

支持向量机解的稀疏性: 训练完成后, 大部分的训练样本都不需保留, 最终模型仅与支持向量有关.

在线性可分情况下,训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量,支持向量是使约束条件式等号成立的点

正例,负例,间隔,间隔边界

拉格朗日乘子的求解:SMO,是二次规划问题,其规模正比于训练样本数,在实际中开销很大。

基本思路:不断执行如下两个步骤直至收敛:第一步:选取一对需更新的变量i和j,第二步:固定i和j 以外的参数, 求解对偶问题更新i和j

软间隔最大化:线性不可分情况下允许支持向量机在一些样本上不满足间隔大于等于1的约束,输入:线性不可分训练数据集,输出:分离超平面和分类决策函数

优化目标的两层含义:1.间隔尽量大 2. 不满足约束样本尽可能少

C惩罚参数,超参数,调和作用,b不唯一 

另一种解释:最大化间隔的同时, 让不满足约束的样本应尽可能少

0/1损失不易优化求解,合页损失为“替代损失”

前者描述训练集上的误差,后者描述间隔大小

前者为结构风险,描述模型的某些性质,正则化项,后者为经验风险,描述模型与训练数据的契合程度,通过替换上面两个部分, 可以得到许多其他学习模型

若不存在一个能正确划分两类样本的线性超平面,则将样本从原始空间映射到一个更高维的特征空间, 使得样本在这个特征空间内线性可分.

可以不知道

上一篇:SVM支持向量机实现一个线性分类


下一篇:支持向量机(SVM)