机器学习—Logistic回归算法

目录

    • 一、基本概念
    • 二、决策边界
    • 三、损失函数
    • 四、交叉熵(CrossEntropy)损失函数
      • 1、二分类问题的交叉熵损失函数
      • 2、多分类问题的交叉熵损失函数
      • 3、交叉熵损失函数的特点
      • 4、交叉熵损失函数的应用
    • 五、模型参数求解
    • 六、Logistic函数的应用及优缺点
      • 1、应用场景
      • 2、优点
      • 3、缺点

一、基本概念

逻辑回归(Logistic Regression)是一种广泛使用的统计方法,用于预测一个二分类结果发生的概率。尽管它被称为“回归”,但它实际上是用于分类问题的。逻辑回归的核心是使用逻辑函数(也称为sigmoid函数)来模拟因变量与自变量之间的关系。

Logistic回归算法用的是Logistic函数,该函数定义如下:
y = 1 1 + e − x y = \frac{1}{1+e^{-x}} y=1+ex1
其函数图像如下:
在这里插入图片描述
当自变量的值是0是,它的值为0.5,当自变量的值趋于 − ∞ -\infty ,函数的值趋近于0。当自变量的值趋近于 ∞ \infty 时,函数的值就趋近于1。

由于Logistic函数图像的形状类似于“S”,所以它又被成为Sigmoid函数。

    

二、决策边界

Logistic回归算法中,我们需要解决的基本问题是,寻找一条"决策边界",将样本点进行分开。

所谓决策边界,它在二维空间空间中是一条线,在三维空间中是一个面,在更高维的空间中是一个超平面。用于将样本点进行区分,它是分类问题中分类决策的依据。

如果二维空间中的样本点存在一条直线的决策边界;三维空间中的样本点存在一个平面的决策边界:更高维空间中的样本点存在一个超平面的决策边界,则我们称这些样本点是线性可分的。

对于二维空间中线性可分问题,其函数如下:
f ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n = θ T X f(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + ...+ \theta_nx_n = \theta^T X f(x)=θ0+θ1x1+θ2x2+...+θnxn=θTX

g ( x ) = 1 1 + e − x g(x)= \frac{1}{1+e^{-x}} g(x)=1+ex1
再令
h θ ( x ) = g ( f ( x ) ) = g ( θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n ) h_\theta(x)=g(f(x))=g(\theta_0 + \theta_1x_1 + \theta_2x_2 + ...+ \theta_nx_n) hθ(x)=g(f(x))=g(θ0+θ1x1+θ2x2+...+θnxn)

求出了其中的 θ 0 , θ 1 , . . . , θ n \theta_0,\theta_1,...,\theta_n θ0,θ1,...,θn就可以用上面的函数对新的数据进行判断(判断结果是它属于正样本的概率值)。
    

三、损失函数

假设我们采集了 m m m个样本的 n n n个特征并完成了数据标注。
x 1 i , x 2 i , . . . , x n i , y i ( 1 ≤ i ≤ m ) x_1^{i},x_2^{i},...,x_n^{i},y^i (1 \leq i \leq m) x1i,x2i,...,xni,yi(1im)

其中正样本的 y i = 1 ,负样本的 y i = 0 。 y^i=1,负样本的y^i =0。 yi=1,负样本的yi=0
我们假定这N个特征是现行可分的,即存在一条如下直线将两类样本进行划分
θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n = 0 \theta_0 + \theta_1x_1 + \theta_2x_2+\cdots +\theta_nx_n = 0 θ0+θ1x1+θ2x2++θnxn=0


d = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n d = \theta_0+ \theta_1x_1 + \theta_2x_2+\cdots +\theta_nx_n d=θ0+θ1x1+θ2x2++θnxn
此处 d d d 表示样本点到决策边界的距离,它是有正负的一个值。

将第 i i i 个样本点的所有特征数据带入上式中,就可以求出该样本点距离直线的距离。
d ( i ) = θ 0 + θ 1 x 1 ( i ) + θ 2 x 2 ( i ) + ⋯ + θ n x n ( i ) d^{(i)} = \theta_0+ \theta_1x^{(i)}_1 + \theta_2x^{(i)}_2+\cdots +\theta_nx^{(i)}_n d(i)=θ0+θ1x1(i)+θ2x2(i)++θnxn(i)

此处我们将 d ( θ ) 带入 l o g i s t i c 函数 d{(\theta)} 带入logistic函数 d(θ)带入logistic函数可以得到

h θ ( x ) = 1 1 + e − d ( θ ) h_\theta(x)=\frac{1}{1+e^{-d(\theta)}} hθ(x)=1+ed(θ)1

它是正样本属于正类的概率,也是关于 θ \theta θ 的函数
对于正样本我

上一篇:SaaS诊所云平台管理系统源码,采用Vue 2+Spring Boot+MyBatis技术开发,开箱即用。


下一篇:矩阵相乘_重排序(reordering)算法的C++实现