为了使代价函数用一条式子表示,可以写成如下:
(当y=1时,
当y=0时, )
(选择这个式子是因为这个式子是从统计学中的极大似然法得来的,它是统计学中为不同的模型快速寻找参数的方法,同时它还有一个很好的性质,它是凸的,这就对上了上一篇文章中的linear regression 的代价函数)
那我们 如何求theta呢?
使得cost function最小的theta是最佳的theta.求出theta后就可以预测了。
那么如何使得cost function最小呢?
采用梯度下降法。
式子看起来可能和linear regression的gradient descent一样,但是因为目标函数变了,所以不一样。
那么如何确保gradient descent 使其正常收敛呢,可以使用特征缩放来提高梯度下降的收敛速度。