Logistic Regression(逻辑回归)、Maximum Likelihood Estimatio(最大似然估计)
- 逻辑回归(Logistic Regression,LR)
- 逻辑回归的基本思想
- 逻辑回归模型
- 逻辑回归的目标
- 最大似然估计
- 优化方法
- 逻辑回归的损失函数:对数损失
- 逻辑回归的应用
- 逻辑回归的优缺点
- 优点
- 缺点
- 逻辑回归的扩展
- 逻辑回归的实现(Python 示例)
- 最大似然估计 (Maximum Likelihood Estimation, MLE)
- 最大似然估计的基本思想
- 似然函数
- 对数似然函数
- 最大化对数似然
- 通过最大似然估计估计参数
- 示例 1:估计高斯分布的均值和方差
- 示例 2:伯努利分布的最大似然估计
- 最大似然估计的优点和局限
- 优点
- 局限
- 参考资料
逻辑回归(Logistic Regression,LR)
逻辑回归(Logistic Regression) 是一种广泛应用于分类问题的统计方法,尤其用于二分类问题(即预测目标变量有两个类别)。尽管它的名字中带有“回归”二字,但它实际上是一种分类算法。逻辑回归通过对输入特征进行建模,输出一个概率值,表示某个类别的可能性。
逻辑回归的基本思想
逻辑回归试图找出一个合适的数学模型,将输入特征 X = ( x 1 , x 2 , … , x n ) X=(x_1, x_2, …, x_n) X=(x1,x2,…,xn) 映射到目标标签 Y Y Y 上。对于二分类问题,目标是根据输入特征预测 Y = 1 Y=1 Y=1 或 Y = 0 Y=0 Y=0 的概率。
逻辑回归的核心是 逻辑函数(Logistic Function) 或者称为 Sigmoid 函数,它将任何实数映射到 [0, 1] 之间,从而可以解释为概率。
逻辑回归模型
假设输入特征
X
=
(
x
1
,
x
2
,
…
,
x
n
)
X=(x_1, x_2, …, x_n)
X=(x1,x2,…,xn) 和权重参数
w
=
(
w
1
,
w
2
,
…
,
w
n
)
w=(w_1, w_2, …, w_n)
w=(w1,w2,…,wn),逻辑回归模型的输出是通过一个线性组合加上偏置项,输入到一个 Sigmoid 函数中:
z
=
w
1
x
1
+
w
2
x
2
+
⋯
+
w
n
x
n
+
b
z = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b
z=w1x1+w2x2+⋯+wnxn+b
然后,将
z
z
z 通过 Sigmoid 函数
σ
(
z
)
σ(z)
σ(z) 转换为一个概率值:
P
(
Y
=
1
∣
X
)
=
σ
(
z
)
=
1
1
+
e
−
z
P(Y = 1 \mid X) = \sigma(z) = \frac{1}{1 + e^{-z}}
P(Y=1∣X)=σ(z)=1+e−z1
其中, σ ( z ) σ(z) σ(z) 是 Sigmoid 函数,它将任何实数 z z z 映射到 (0, 1) 之间,表示一个类别的概率。 P ( Y = 1 ∣ X ) P(Y=1∣X) P(Y=1∣X) 就是预测样本属于类别1的概率。
- 如果 P ( Y = 1 ∣ X ) > 0.5 P(Y=1∣X)>0.5 P(Y=1∣X)>0.5,则预测类别为 1;
- 如果 P ( Y = 1 ∣ X ) ≤ 0.5 P(Y=1∣X)≤0.5 P(Y=1∣X)≤0.5,则预测类别为 0。
逻辑回归的目标
在逻辑回归中,我们的目标是通过训练数据来学习最优的权重参数 w 1 , w 2 , … , w n w_1, w_2, …, w_n w1,w2,…,wn 和偏置项 b b b,使得模型能够准确地预测数据的类别。为此,我们使用最大似然估计(Maximum Likelihood Estimation, MLE)来估计这些参数。
最大似然估计
假设我们有 m m m 个训练样本,每个样本的输入为 X ( i ) X^{(i)} X(i),标签为 Y ( i ) Y^{(i)} Y(i),其中 i = 1 , 2 , … , m i = 1, 2, \dots, m i=1,2,…,m。
逻辑回归模型的似然函数是基于每个训练样本的预测概率和真实标签的结合。对于每个样本,预测的概率为
P
(
Y
=
1
∣
X
(
i
)
)
P(Y = 1 \mid X^{(i)})
P(Y=1∣X(i)),因此整个训练集的似然函数为:
L
(
w
,
b
)
=
∏
i
=
1
m
P
(
Y
(
i
)
∣
X
(
i
)
;
w
,
b
)
L(w, b) = \prod_{i=1}^{m} P(Y^{(i)} \mid X^{(i)}; w, b)
L(w,b)=i=1∏mP(Y(i)∣X(i);w,b)
因为
Y
(
i
)
Y^{(i)}
Y(i) 是 0 或 1,所以可以将似然函数写成:
L
(
w
,
b
)
=
∏
i
=
1
m
[
σ
(
z
(
i
)
)
Y
(
i
)
⋅
(
1
−
σ
(
z
(
i
)
)
)
1
−
Y
(
i
)
]
L(w, b) = \prod_{i=1}^{m} \left[\sigma(z^{(i)})^{Y^{(i)}} \cdot (1 - \sigma(z^{(i)}))^{1 - Y^{(i)}} \right]
L(w,b)=i=1∏m[σ(z(i))Y(i)⋅(1−σ(z(i)))1−Y(i)]
为了方便优化,通常取对数似然函数(Log-Likelihood),得到:
ℓ
(
w
,
b
)
=
∑
i
=
1
m
[
Y
(
i
)
log
σ
(
z
(
i
)
)
+
(
1
−
Y
(
i
)
)
log
(
1
−
σ
(
z
(
i
)
)
)
]
\ell(w, b) = \sum_{i=1}^{m} \left[Y^{(i)} \log \sigma(z^{(i)}) + (1 - Y^{(i)}) \log (1 - \sigma(z^{(i)})) \right]
ℓ(w,b)=i=1∑m[Y(i)logσ(z(i))+(1−Y(i))log(1−σ(z(i)))]
目标是最大化对数似然函数 ℓ ( w , b ) \ell(w, b) ℓ(w,b),即找到使对数似然函数最大化的权重 w w w 和偏置项 b b b。
优化方法
我们通常使用梯度下降法(Gradient Descent)来优化对数似然函数。梯度下降法通过计算损失函数(对数似然的负数)对模型参数的梯度来更新参数,以减小损失。
梯度下降更新规则为:
w
j
←
w
j
−
α