一、概述
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称为回归;
利用Logistic回归进行分类的主要思想是: 根据现有数据对分类边界线建立回归公式, 以此进行分类。 这里的“回归”一词源于最佳拟合, 表示要找到最佳拟合参数集, 其背后的数学分析将在下一部分介绍。 训练分类器时的做法就是寻找最佳拟合参数, 使用的是最优化算法。
二、基于Logistic回归和Sigmoid函数的分类
单位阶跃函数也称海维赛德阶跃函数(Heaviside step function)
Sigmoid函数:
为了实现Logistic回归分类器, 我们可以在每个特征上乘以一个回归系数, 然后把所有的结果值相加, 将这个总和代入Sigmoid函数中, 进而得到一个范围在0~1之间的数值。 最后, 结果大于0.5的数据被归入1类, 小于0.5的即被归入0
类。 所以, Logistic回归也可以被看成是一种概率估计。
那么现在问题来了? 在确定了分类器的函数形式之后,如何确定最佳回归系数【不同于 加权线性回归中的“权重”】呢?
基于最优化方法的最佳回归系数确定
梯度上升法