斯坦福机器学习视频笔记 Week7 支持向量机 Support Vector Machines

2022-08-29 08:46:43

SVM被许多人认为是最强大的“黑箱”学习算法，并通过提出一个巧妙选择的优化目标，今天最广泛使用的学习算法之一。

Optimization Objective

根据Logistic Regression，有如下表述：

为了达到尽量好的分类效果，我们需要theta‘*x >> 0 or theta‘*x << 0，根据上面的函数图象，这时候的h(x)->1 or h(x)->0,可以看出这时我们的分类效果是最具说服力的。

根据逻辑回归的Cost Function我们可以得到上面灰色的函数图像，

if y=1，随着z的增大，Cost Function的值趋近于0；

if y=0，随着z的减小，Cost Function的值趋近于0；

在SVMs中，为了使分类结果更具说服力（使y等于0，1的概率更大），我们将使用上面的玫瑰色的函数轨迹替代灰色轨迹，把它们分别称为cost1(y=1)和cost0(y=0)，

可以看到，它们二者的很类似，除了当Z>=1时，使Cost Function等于0（y=1时）；当Z<=-1时，使Cost Function等于0（y=0时）。

当然，这里你也可以将等于0的点设置为其他数据，比如z>=2,3等，视你的系统情况而定，z>=1不是硬性规定。

逻辑回归的Cost Function:

根据逻辑回归的Cost Function，我们得到SVM的Cost Function：

和上面的公式相比，SVM的Cost Function的两项都去掉的1/m，这个不会影响我们求最优值，因为最值和函数系数无关；

多了一个C，少了一个lambda，这个可以理解为C = 1/lambda，关于参数C后面还会讲到。

Large Margin Intuition

上面的图，是我们之前谈论的一个总结。在SVM中，我们使用上面的损失函数，且使theta'*x>=1时取y=1，而不再是像逻辑回归中的仅仅是theta'*x>=0；当y=0时，是一个意思。

为了方便研究我们的最优化目标，将C取一个很大的值，比如C=100，000，为了得到最小的Cost Function值，我们记上面方框中的式子为 W ，则必须使W的式子取值趋于0，

W有两项组成，当y=1时，此时W就只有第一项，根据之前cost1的图像可知，此时只需要取theta‘*x>=1就可使Cost Function等于0；y=0时，同理使theta‘*x<=-1可使Cost Function等于0。

然后我们的最优化目标将可简化为：

Large Margin

我们称SVM为“Large Margin Classifier“，下面将体现最大间隔：

这里给的样本是线性可分的，直观上来看，这里的粉色和绿色的都不是最大间隔，而是黑线，蓝色线是与最近的样本点相近的黑线的平行线。

下面给出一个非线性可分的样本，

当C很大时，SVM是严格的分类器，此时将严格划分样本点，可以看出此时的间隔已经非常不好了，上图红色的。

当C不是很大时，SVM可以允许有一定的噪声点，此时会直接忽略，得到一个看上去不错的分类间隔，上图黑色的。

The'mathematics' behind'large'margin' classification'(optional)

首先，在这里我假设大家都知道向量内积和向量投影。

上面的基本意思就是，向量u和v计算内积，p是向量v在向量u方向上的投影，那么u’*v = p * ||u||=u1*v1+u2*v2.

其中投影p可正可负，是向量具有方向。

同理，将此应用到theta‘*x中去，此时p是x在theta方向上的投影，如下图所示。

上面使用的最优化目标是使C很大时，简化过后的，这样方便讨论。下面的讨论要结合上面和下面的图一起看。

由上面的讨论可知，当y=1时，theta’*x>=1 在这里就等价于 p * ||theta|| >= 1，优化目标变成1/2 * ||theta||^2。

这里我们设theta0=0，这样间隔面会通过原点.下面给一个样本集合，随意画一个间隔平面，将正负类分开。

我们知道间隔面的法向量thea跟它垂直，故x在theta上的投影p就是上图theta方向上的红色有向线段。

可以看出，在上面的情况，绿色的间隔面，此时正样本X的投影p取>0的很小的值，若要满足p * ||theta|| >= 1 的条件，必须使theta变得足够大，这样就跟我们最小化目标1/2*||theta||^2不符合了，所以这个就不是我们所需要的“最大间隔”。在负样本时p取<0的很小值，同样不满足最优化要求。那么最大间隔会是怎样的呢？看下面。