目录
- 一、基本概念
- 二、决策边界
- 三、损失函数
- 四、交叉熵(CrossEntropy)损失函数
- 1、二分类问题的交叉熵损失函数
- 2、多分类问题的交叉熵损失函数
- 3、交叉熵损失函数的特点
- 4、交叉熵损失函数的应用
- 五、模型参数求解
- 六、Logistic函数的应用及优缺点
- 1、应用场景
- 2、优点
- 3、缺点
一、基本概念
逻辑回归(Logistic Regression)是一种广泛使用的统计方法,用于预测一个二分类结果发生的概率。尽管它被称为“回归”,但它实际上是用于分类问题的。逻辑回归的核心是使用逻辑函数(也称为sigmoid函数)来模拟因变量与自变量之间的关系。
Logistic回归算法用的是Logistic函数,该函数定义如下:
y
=
1
1
+
e
−
x
y = \frac{1}{1+e^{-x}}
y=1+e−x1
其函数图像如下:
当自变量的值是0是,它的值为0.5,当自变量的值趋于
−
∞
-\infty
−∞,函数的值趋近于0。当自变量的值趋近于
∞
\infty
∞时,函数的值就趋近于1。
由于Logistic函数图像的形状类似于“S”,所以它又被成为Sigmoid函数。
二、决策边界
Logistic回归算法中,我们需要解决的基本问题是,寻找一条"决策边界",将样本点进行分开。
所谓决策边界,它在二维空间空间中是一条线,在三维空间中是一个面,在更高维的空间中是一个超平面。用于将样本点进行区分,它是分类问题中分类决策的依据。
如果二维空间中的样本点存在一条直线的决策边界;三维空间中的样本点存在一个平面的决策边界:更高维空间中的样本点存在一个超平面的决策边界,则我们称这些样本点是线性可分的。
对于二维空间中线性可分问题,其函数如下:
f
(
x
)
=
θ
0
+
θ
1
x
1
+
θ
2
x
2
+
.
.
.
+
θ
n
x
n
=
θ
T
X
f(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + ...+ \theta_nx_n = \theta^T X
f(x)=θ0+θ1x1+θ2x2+...+θnxn=θTX
令
g
(
x
)
=
1
1
+
e
−
x
g(x)= \frac{1}{1+e^{-x}}
g(x)=1+e−x1
再令
h
θ
(
x
)
=
g
(
f
(
x
)
)
=
g
(
θ
0
+
θ
1
x
1
+
θ
2
x
2
+
.
.
.
+
θ
n
x
n
)
h_\theta(x)=g(f(x))=g(\theta_0 + \theta_1x_1 + \theta_2x_2 + ...+ \theta_nx_n)
hθ(x)=g(f(x))=g(θ0+θ1x1+θ2x2+...+θnxn)
求出了其中的
θ
0
,
θ
1
,
.
.
.
,
θ
n
\theta_0,\theta_1,...,\theta_n
θ0,θ1,...,θn就可以用上面的函数对新的数据进行判断(判断结果是它属于正样本的概率值)。
三、损失函数
假设我们采集了
m
m
m个样本的
n
n
n个特征并完成了数据标注。
x
1
i
,
x
2
i
,
.
.
.
,
x
n
i
,
y
i
(
1
≤
i
≤
m
)
x_1^{i},x_2^{i},...,x_n^{i},y^i (1 \leq i \leq m)
x1i,x2i,...,xni,yi(1≤i≤m)
其中正样本的
y
i
=
1
,负样本的
y
i
=
0
。
y^i=1,负样本的y^i =0。
yi=1,负样本的yi=0。
我们假定这N个特征是现行可分的,即存在一条如下直线将两类样本进行划分
θ
0
+
θ
1
x
1
+
θ
2
x
2
+
⋯
+
θ
n
x
n
=
0
\theta_0 + \theta_1x_1 + \theta_2x_2+\cdots +\theta_nx_n = 0
θ0+θ1x1+θ2x2+⋯+θnxn=0
令
d
=
θ
0
+
θ
1
x
1
+
θ
2
x
2
+
⋯
+
θ
n
x
n
d = \theta_0+ \theta_1x_1 + \theta_2x_2+\cdots +\theta_nx_n
d=θ0+θ1x1+θ2x2+⋯+θnxn
此处
d
d
d 表示样本点到决策边界的距离,它是有正负的一个值。
将第
i
i
i 个样本点的所有特征数据带入上式中,就可以求出该样本点距离直线的距离。
d
(
i
)
=
θ
0
+
θ
1
x
1
(
i
)
+
θ
2
x
2
(
i
)
+
⋯
+
θ
n
x
n
(
i
)
d^{(i)} = \theta_0+ \theta_1x^{(i)}_1 + \theta_2x^{(i)}_2+\cdots +\theta_nx^{(i)}_n
d(i)=θ0+θ1x1(i)+θ2x2(i)+⋯+θnxn(i)
此处我们将 d ( θ ) 带入 l o g i s t i c 函数 d{(\theta)} 带入logistic函数 d(θ)带入logistic函数可以得到
h θ ( x ) = 1 1 + e − d ( θ ) h_\theta(x)=\frac{1}{1+e^{-d(\theta)}} hθ(x)=1+e−d(θ)1
它是正样本属于正类的概率,也是关于
θ
\theta
θ 的函数
对于正样本我