文章目录
1.支持向量机
2.大间距分类器
对于支持向量机的代价函数,如果C非常非常大,那么当最小化优化目标的时候,我们希望找到一项使得第一项为0:
我们可以这样做,使得第一项为0:
当y(i) = 1 ,使 θTx(i) ≥ 1;
当y(i) = 0 ,使 θTx(i) ≤ -1;
SVM 最终找出的决策边界会是下图中黑色直线所示的决策边界,而不是绿色或者紫色的决策边界。该决策边界保持了与正、负样本都足够大的距离,因此,SVM 是典型的大间距分类器(Large margin classifier)。
大间距使得支持向量机具有鲁棒性。
接下来我们讨论一下大间距分类器的数学原理:
因为如果我们的划分能够使训练样本符合上述的限制条件的话,代价函数中的第一部分就近似为0,那么我们现在要做的就是优化上图中的后一部分,使它最小。
该式子可以转化为:1/2 ||θ||2。于此同时,对于两向量,例如u、v
可知:uTv = p||u||
其中p为向量v到向量u的投影长度。
故,对于参数向量θ及样本输入向量x,θTx = p||θ||。
现假设我们对正负样本选取了绿色的分割边界(假设θ0为0),则其参数向量θ为垂直于绿色边界的向量(因为在边界上的样本对应的向量与θ向量应为正交关系,即θTx = 0)。那么对应的,正负样本关于θ的投影p(1)、p(2)如图。
此时由于边界距样本较近,p很小,我们要想满足假设条件:正样本θTx >= 1,负样本θTx <= -1,也即正样本p||θ||>= 1,负样本p||θ|| <= -1,则需要很大的||θ||,但这会导致后一部分代价函数:1/2 ||θ||2变大!故SVM会自动选择较大间距的分割边界!