机器学习之——判定边界和逻辑回归模型的代价函数

2023-11-27 08:10:04

判定边界(Decision Boundary)

上一次我们讨论了一个新的模型——逻辑回归模型(Logistic Regression)，在逻辑回归中，我们预测：

当hø大于等于0.5时，预测y=1
当hø小于0.5时，预测y=0

根据上面的预测，我们绘制出一条S形函数，如下：

根据函数图像，我们知道，当

z=0时，g(z)=0.5
z>0时，g(z)>0.5
z<0时，g(z)<0.5

又有：

所以

以上，为我们预知的逻辑回归的部分内容。好，现在假设我们有一个模型：并且参数ø是向量：[-3 1 1]。那么当-3+x1+x2大于等于0，即x1+x2大于等于3时，模型将预测 y=1。

我们可以绘制出来x1+x2=3，这条线便是我们模型的分界线，也称之为判定边界(Decision Boundary)，将预测为1的区域和预测为0的区域分隔开。

假设我们的数据呈现出如下图的分布情况，那么我们的模型是什么样才能适合这些数据呢？

如上图，函数图像为一个圆，圆点在原点且半径为1，这样一条曲线来分隔开了 y=1 和 y=0 的区域，所以我们需要的是一个二次方特征：

假设参数为 [-1 0 0 1 1]，则我们得到的判定边界恰好是圆点在原点并且半径为1的圆形。

我们可以使用非常复杂的模型来适应非常复杂形状的判定边界。

逻辑回归模型的代价函数(Cost Function)

对于线性回归模型，我们定义的代价函数是所有模型误差的平方和。理论上讲，我们也可以沿用这个定义来对逻辑回归模型使用，但是问题在于，当我们将：

代入到这样定义的代价函数中时，我们得到的代价函数将会是一个非凸函数(Non-covex Function)。

这意味着，我们的代价函数将会有许多的局部最小值，这就会影响到梯度下降算法去找寻全局最小值。

因此，我们重新定义逻辑回归的代价函数为：

其中，Cost(hø(x(i), y(i))) 是我们定义的一个代价函数迭代形式，具体表示如下：

hø(x) 与 Cost(hø(x),y)之间的关系是如下图所示：

通过这样构建的Cost(hø(x), y)函数的特点是：

当实际的 y=1 且 hø=1 时，误差为0；当 y=1 但 hø != 1时，误差随hø的变小而变大；

当实际的 y=0 且 hø=0 时，误差代价为0；当 y=0 但 hø != 0 时，误差随hø的变大而变大。

将构建的Cost(hø(x), y) 进行一个简化，可以得到如下简化公式：

这个简化其实是对上面Cost(hø(x), y) 的两种表达式的一次性结合。

将简化代入到代价函数，得到：

这便是逻辑回归模型的代价函数了。

在得到这样的一个代价函数之后，我们便可以使用梯度下降算法(Gradient Descent)来求得能够使代价函数最小的参数了。

梯度下降算法：

对此求导，得到：

*注：虽然得到的梯度下降算法，表面上看上去和线性回归的梯度下降算法一样，但是这里的hø(x) = g(øTX)与线性回归不同，所以实际上是不一样的。另外，在运行梯度下降算法之前，对特征进行特征缩放(Features Scaling)也是非常必要的。

一些梯度下降算法之外的选择：

除了梯度下降算法之外，还有一些常被用来使代价函数最小的算法，这些算法更加复杂和优秀，而且通常情况下，不需要人工选择学习速率，通常也比梯度下降算法更加快速。举一些例子：共轭梯度法(Conjugate Gradient)，局部优化法(Broyden Fletcher Goldfarb Shann, BFGS)和有限内存局部优化法(LBFGS)。这些算法更加复杂也更加优秀，如果感兴趣我们可以以后再继续讨论。

在Matlab或Octave中，有一个最小值优化函数，fminunc。使用时，我们需要提供代价函数和每个参数的求导，这里给大家举一个例子：

function [ jVal, gradient ] = costFunction( theta )
%COSTFUNCTION Summary of this function goes here
%   Detailed explanation goes here
    jVal = (theta(1)-5)^2 + (theta(2)-5)^2;
    gradient = zeros(2,1);
    gradient(1) = 2*(theta(1)-5);
    gradient(2) = 2*(theta(2)-5);

end

options = optimset('GradObj', 'on', 'MaxIter', '100');
initialTheta = zeros(2,1);
[optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);

*PS ：关于机器学习相关算法的Matlab或Octave代码，我上传到了我的coding.net项目中，有需要的童鞋可以联系我。

码农公寓

相关文章