《统计学习方法》——第六章 逻辑斯谛回归与最大熵模型

文章目录

  • 前言
  • 一、逻辑斯谛回归模型
    • 1.1逻辑斯谛分布
    • 1.2二项逻辑斯谛回归模型
    • 1.3 模型的参数估计
    • 1.4 多项逻辑斯谛回归
  • 二、最大熵模型
    • 2.1 最大熵原理
    • 2.2定义
    • 2.3最大熵模型的学习
    • 2.4极大似然估计
    • 2.5模型学习的最优化算法
      • 1.改进的迭代尺度法IIS
  • 总结


前言

本文只要记录一些书中的一些小知识点,挑一些本人认为重要的地方进行总结。

各位道友!道长(zhǎng) 道长(chǎng)


一、逻辑斯谛回归模型

1.1逻辑斯谛分布

设X是连续随机变量,X服从逻辑斯谛分布指X具有下列分布函数和密度函数:
F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ F(x)=P(X\le x)=\frac{1}{1+e^{-(x-\mu)/ \gamma}} F(x)=P(Xx)=1+e(xμ)/γ1
f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F'(x)=\frac {e^{-(x-\mu)/ \gamma}}{\gamma (1+e^{-(x-\mu)/ \gamma})^2} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ
其中, μ \mu μ为位置参数, γ > 0 \gamma>0 γ>0为形状参数。
1.它的分布函数以 ( μ , 1 2 ) (\mu,\frac12) (μ,21)中心对称。
2.曲线在中心附近增长速度较快,两端速度较慢。
3.形状参数 γ \gamma γ越小,曲线在中心增长的越快。
图形如下:

1.2二项逻辑斯谛回归模型

这是一种分类模型,他是如下的条件概率分布:
P ( Y = 1 ∣ x ) = exp ⁡ ( w ⋅ x + b ) 1 + exp ⁡ ( w ⋅ x + b ) P(Y=1|x)=\frac{\exp(w·x+b)}{1+\exp (w·x+b)} P(Y=1∣x)=1+exp(wx+b)exp(wx+b)
P ( Y = 0 ∣ x ) = 1 1 + exp ⁡ ( w ⋅ x + b ) P(Y=0|x)=\frac{1}{1+\exp (w·x+b)} P(Y=0∣x)=1+exp(wx+b)1

  • Y ∈ { 0 , 1 } Y\in\{0,1\} Y{0,1}是输出, ω ∈ R n \omega\in R^n ωRn b ∈ R b \in R bR是参数
  • ω \omega ω称为权值向量,b为偏置
  • ω ⋅ x \omega·x ωx为内积

对于给定的输入实例x,按照如上式子可以去的相应的条件概率。逻辑斯谛回归比较两个条件概率值的大小,将实例x分到概率值大的那一类。
为了方便,将权值向量和输入向量扩充。 ω = ( ω ( 1 ) , ω ( 2 ) . . . ω ( n ) , b ) T \omega=( \omega^{(1)} , \omega^{(2)} ...\omega^{(n)},b)^T ω=(ω(1),ω(2)...ω(n),b)T, x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) , 1 ) T x={(x^{(1)},x^{(2)},...,x^{(n)},1)^T} x=(x(1),x(2),...,x(n),1)T
这时,模型如下:
P ( Y = 1 ∣ x ) = exp ⁡ ( w ⋅ x ) 1 + exp ⁡ ( w ⋅ x ) P(Y=1|x)=\frac{\exp(w·x)}{1+\exp (w·x)} P(Y=1∣x)=1+exp(wx)exp(wx)
P ( Y = 0 ∣ x ) = 1 1 + exp ⁡ ( w ⋅ x ) P(Y=0|x)=\frac{1}{1+\exp (w·x)} P(Y=0∣x)=1+exp(wx)1

现在考察逻辑斯谛回归模型的特点:
一个事件的几率是该事件发生的概率与不发生概率的比值。若发生概率是p,则它的几率是 p 1 − p \frac{p}{1-p} 1pp,那么它的对数几率或logit函数是
l o g i t ( p ) = p 1 − p logit(p)=\frac{p}{1-p} logit(p)=1pp
对于逻辑斯谛回归而言,得(将 P ( Y = 1 ∣ x ) P(Y=1|x) P(Y=1∣x)带入即可得,注意这里的log其实是ln)
log ⁡ P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = ω ⋅ x \log \frac{P(Y=1|x)}{1-P(Y=1|x)}=\omega \cdot x log1P(Y=1∣x)P(Y=1∣x)=ωx
也就是说,输出Y=1的对数几率是x的线性函数。或者说输出Y=1的对数几率是由输入x的线性函数表示的模型,积逻辑斯蒂回归模型。
换一个角度,考虑对输入x进行分类的的线性函数 ω ⋅ x \omega \cdot x ωx,其值域是实数域。通过逻辑斯蒂定义式 P ( Y = 1 ∣ x ) P(Y=1|x) P(Y=1∣x)可以将线性函数 ω ⋅ x \omega \cdot x ωx转换成概率
( Y = 1 ∣ x ) = exp ⁡ ( w ⋅ x ) 1 + exp ⁡ ( w ⋅ x ) (Y=1|x)=\frac{\exp(w·x)}{1+\exp (w·x)} (Y=1∣x)=1+exp(wx)exp(wx)
这时,

  • 线性函数的值越接近正无穷,概率值越接近1。
  • 线性函数越接近负无穷,概率值越接近0。

即之前的图像所示。

1.3 模型的参数估计

对于给定的训练集合 T = { ( x 1 , y 1 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),...,(x_N,y_N) \} T={(x1,y1),...,(xN,yN)}, y i ∈ { 0 , 1 } y_i \in \{0,1\} yi{0,1}
可以应用极大似然估计法估计模型参数,得到逻辑斯谛模型。

首先设两个概率:
在这里插入图片描述
故他们的似然函数为:
在这里插入图片描述
对数似然函数为
在这里插入图片描述
L ( ω ) L(\omega)

上一篇:【机器学习】机器学习学习笔记 - 监督学习 - 逻辑回归分类朴素贝叶斯分类支持向量机 SVM (可分类、可回归) - 04


下一篇:如何在WordPress中设置网站的SEO标题和描述