Copula,最小二乘法及lasso回归, 岭回归
之前讨论班准备的笔记,截取部分保存起来。
很低沉的一天。
C o p u l a Copula Copula函数
当边缘分布(marginal probability distribution)不同的随机变量(random variable),互相之间并不独立的时候,此时对于联合分布的建模会变得十分困难。此时,在已知多个已知边缘分布的随机变量下,Copula函数则是一个非常好的工具来对其相关性进行建模。
Copula理论首先在1959年由Sklar提出,指一个 n n n维联合分布函数可以由 n n n个边缘分布函数和一个Copula函数组成。Nelsen(1999)给出了Copula函数的严格定义。
S k l a r Sklar Sklar定理(1959)
Sklar定理主要指令
F
(
⋅
,
⋯
,
⋅
)
F(\cdot,\cdots,\cdot)
F(⋅,⋯,⋅)为具有边缘分布
F
1
(
⋅
)
,
F
2
(
⋅
)
,
⋯
,
F
n
(
⋅
)
F_{1}(\cdot), F_{2}(\cdot), \cdots, F_{n}(\cdot)
F1(⋅),F2(⋅),⋯,Fn(⋅)的联合分布函数,那么存在一个将边缘分布和联合分布“连接”起来Copula函数
C
(
⋅
,
⋯
,
⋅
)
C(\cdot,\cdots,\cdot)
C(⋅,⋯,⋅)满足:
F
(
x
1
,
x
2
,
⋯
,
x
n
)
=
C
(
F
1
(
x
1
)
,
F
2
(
x
2
)
,
⋯
,
F
N
(
x
n
)
)
F\left(x_{1}, x_{2}, \cdots, x_{n}\right)=C\left(F_{1}\left(x_{1}\right), F_{2}\left(x_{2}\right), \cdots, F_{N}\left(x_{n}\right)\right)
F(x1,x2,⋯,xn)=C(F1(x1),F2(x2),⋯,FN(xn))
若
F
1
(
⋅
)
,
F
2
(
⋅
)
,
⋯
,
F
n
(
⋅
)
F_{1}(\cdot), F_{2}(\cdot), \cdots, F_{n}(\cdot)
F1(⋅),F2(⋅),⋯,Fn(⋅)连续,则
C
(
⋅
,
⋯
,
⋅
)
C(\cdot,\cdots,\cdot)
C(⋅,⋯,⋅)唯一确定; 反之,若
F
1
(
⋅
)
,
F
2
(
⋅
)
,
⋯
,
F
n
(
⋅
)
F_{1}(\cdot), F_{2}(\cdot), \cdots, F_{n}(\cdot)
F1(⋅),F2(⋅),⋯,Fn(⋅)为一元分布,
C
(
⋅
,
⋯
,
⋅
)
C(\cdot,\cdots,\cdot)
C(⋅,⋯,⋅)为相应的Copula函数,那么由上式定义的函数
F
(
⋅
,
⋯
,
⋅
)
F(\cdot,\cdots,\cdot)
F(⋅,⋯,⋅)是具有边缘分布
F
1
(
⋅
)
,
F
2
(
⋅
)
,
⋯
,
F
n
(
⋅
)
F_{1}(\cdot), F_{2}(\cdot), \cdots, F_{n}(\cdot)
F1(⋅),F2(⋅),⋯,Fn(⋅)的联合分布函数。
多元正态 C o p u l a Copula Copula 函数
n
n
n元正态
C
o
p
u
l
a
Copula
Copula 分布函数的表达式为:
C
(
u
1
,
u
2
,
…
,
u
n
;
ρ
)
=
ϕ
ρ
(
ϕ
−
1
(
u
1
)
,
ϕ
−
1
(
u
2
)
,
…
,
ϕ
−
1
(
u
n
)
)
C(u_1,u_2,\dots,u_n;\rho)= \phi_{\rho}(\phi^{-1}(u_1), \phi^{-1}(u_2),\dots,\phi^{-1}(u_n))
C(u1,u2,…,un;ρ)=ϕρ(ϕ−1(u1),ϕ−1(u2),…,ϕ−1(un))
其中
ρ
\rho
ρ为对角线上的元素为1的对称正定矩阵,
ϕ
ρ
(
⋅
,
⋯
,
⋅
)
\phi_{\rho}(\cdot,\cdots,\cdot)
ϕρ(⋅,⋯,⋅)是相关系数矩阵为
ρ
\rho
ρ的标准多元正态分布函数,
ϕ
−
1
(
⋅
)
\phi^{-1}(\cdot)
ϕ−1(⋅) 是
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅)的逆函数。
多元 t − C o p u l a t-Copula t−Copula 函数
C
(
u
1
,
u
2
,
…
,
u
n
;
ρ
)
=
T
ρ
,
v
(
T
v
−
1
(
u
1
)
,
T
v
−
1
(
u
2
)
,
…
,
T
v
−
1
(
u
n
)
)
C(u_1,u_2,\dots,u_n;\rho)= T_{\rho,v}(T^{-1}_v(u_1), T^{-1}_v(u_2),\dots,T^{-1}_v(u_n))
C(u1,u2,…,un;ρ)=Tρ,v(Tv−1(u1),Tv−1(u2),…,Tv−1(un))
其中
ρ
\rho
ρ为对角线上的元素为1的对称正定矩阵,
T
ρ
,
v
(
⋅
,
⋯
,
⋅
)
T_{\rho,v}(\cdot,\cdots,\cdot)
Tρ,v(⋅,⋯,⋅)表示相关系数矩阵为
ρ
\rho
ρ、*度为
v
v
v的标准多元
t
t
t分布函数,
T
v
−
1
(
⋅
)
T_v^{-1}(\cdot)
Tv−1(⋅)是
T
v
(
⋅
)
T_v(\cdot)
Tv(⋅)的逆函数。
阿基米德 C o p u l a Copula Copula函数
阿基米德Copula( Archimedean Copula)分布函数表达式为:
C
(
u
1
,
u
2
,
⋯
,
u
n
)
=
ϕ
−
1
(
ϕ
(
u
1
)
+
ϕ
(
u
2
)
+
⋯
+
ϕ
(
u
n
)
)
C\left(u_{1}, u_{2}, \cdots, u_{n}\right)=\phi^{-1}\left(\phi\left(u_{1}\right)+\phi\left(u_{2}\right)+\cdots+\phi\left(u_{n}\right)\right)
C(u1,u2,⋯,un)=ϕ−1(ϕ(u1)+ϕ(u2)+⋯+ϕ(un))
其中
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅)为阿基米德Copula函数的生成元,
ϕ
−
1
\phi^{-1}
ϕ−1是
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅)的逆函数。
阿基米德Copula函数包括Gumble Copula 函数、Clayton Copula 函数和FrankCopula函数。
该工具最初是用在金融衍生品领域,该函数建模作为衍生品风险度量的工作进行使用。在2008年金融危机中,这个工具被人广发的提及,认为当时采用的高斯copula没有能够完整度量衍生品连带之间的风险,从而导致一系列的违约,进而引发次贷危机、经济危机。
[1] An Introduction to Copulas. Roger B. Nelsen
[2] Copula Methods in Finance
收缩方法(shrinkage method)
收缩方法又称为正则化(regularization)。主要是岭回归(ridge regression)和lasso回归。通过对最小二乘估计加入罚约束,使某些系数的估计为0。
岭回归:消除共线性 ; 模的平方处理 ;
Lasso回归:压缩变量,起降维作用 ; 模处理
最小二乘法
最小二乘法对模型的输出
f
θ
(
x
i
)
f_{\boldsymbol{\theta}}(x_i)
fθ(xi) 和训练集输出
{
y
i
}
i
=
1
n
\{y_i\}_{i=1}^n
{yi}i=1n的平方误差
J
L
S
(
θ
)
=
1
2
∑
i
=
1
n
(
f
θ
(
x
i
)
−
y
i
)
2
J_{LS}(\boldsymbol{\theta})=\frac{1}{2}\sum_{i=1}^n (f_{\boldsymbol{\theta}}(x_i)-y_i)^2
JLS(θ)=21i=1∑n(fθ(xi)−yi)2
为最小时的参数
θ
\boldsymbol{\theta}
θ进行学习
θ
^
L
S
=
argmin
θ
J
L
S
(
θ
)
\widehat{\boldsymbol{\theta}}_{\mathrm{LS}}=\underset{\theta}{\operatorname{argmin}} J_{\mathrm{LS}}(\boldsymbol{\theta})
θ
LS=θargminJLS(θ)
若使用线性模型
f
θ
(
x
)
=
∑
j
=
1
b
θ
i
ϕ
(
x
)
=
θ
T
ϕ
(
x
)
f_{\boldsymbol{\theta}}(x)=\sum_{j=1}^b \theta_i\phi (x)=\boldsymbol{\theta}^T \phi(x)
fθ(x)=j=1∑bθiϕ(x)=θTϕ(x)
则训练样本的平方差
J
L
S
J_{LS}
JLS表示为下述形式。
J
L
S
(
θ
)
=
1
2
∥
Φ
θ
−
y
∥
2
J_{LS}(\boldsymbol{\theta})=\frac{1}{2}\lVert \Phi \boldsymbol{\theta}-\boldsymbol{y} \lVert^2
JLS(θ)=21∥Φθ−y∥2
这里,
y
=
(
y
1
,
…
,
y
n
)
T
\boldsymbol{y}=(y_1,\dots,y_n)^T
y=(y1,…,yn)T是训练输出的
n
n
n维向量,
Φ
\boldsymbol{\Phi}
Φ是下列中定义的
n
×
b
n\times b
n×b阶矩阵,也称为设计矩阵。
Φ
=
(
ϕ
1
(
x
1
)
⋯
ϕ
b
(
x
1
)
⋮
⋱
⋮
ϕ
1
(
x
n
)
⋯
ϕ
b
(
x
n
)
)
\boldsymbol{\Phi}=\left(\begin{array}{ccc}\phi_{1}\left(\boldsymbol{x}_{1}\right) & \cdots & \phi_{b}\left(\boldsymbol{x}_{1}\right) \\ \vdots & \ddots & \vdots \\ \phi_{1}\left(\boldsymbol{x}_{n}\right) & \cdots & \phi_{b}\left(\boldsymbol{x}_{n}\right)\end{array}\right)
Φ=⎝⎜⎛ϕ1(x1)⋮ϕ1(xn)⋯⋱⋯ϕb(x1)⋮ϕb(xn)⎠⎟⎞
训练样本的平方差
J
L
S
J_{LS}
JLS的参数向量
θ
\boldsymbol{\theta}
θ的偏微分
∇
θ
J
L
S
\nabla_{\theta} J_{\mathrm{LS}}
∇θJLS以
∇
θ
J
L
S
=
(
∂
J
L
S
∂
θ
1
,
⋯
,
∂
J
L
S
∂
θ
b
)
⊤
=
Φ
⊤
Φ
θ
−
Φ
⊤
y
\nabla_{\theta} J_{\mathrm{LS}}=\left(\frac{\partial J_{\mathrm{LS}}}{\partial \theta_{1}}, \cdots, \frac{\partial J_{\mathrm{LS}}}{\partial \theta_{b}}\right)^{\top}=\boldsymbol{\Phi}^{\top} \boldsymbol{\Phi} \boldsymbol{\theta} -\boldsymbol{\Phi}^{\top} y
∇θJLS=(∂θ1∂JLS,⋯,∂θb∂JLS)⊤=Φ⊤Φθ−Φ⊤y
形式给出。如果将其微分设置为
0
0
0,最小二乘解就满足关系式
Φ
⊤
Φ
θ
=
Φ
⊤
y
\boldsymbol{\Phi}^{\top} \boldsymbol{\Phi} \boldsymbol{\theta}=\boldsymbol{\Phi}^{\top} y
Φ⊤Φθ=Φ⊤y
这个方程式的解
θ
^
L
S
\hat{\boldsymbol{\theta}}_{LS}
θ^LS使用设计矩阵
Φ
\boldsymbol{\Phi}
Φ的广义逆矩阵
Φ
†
\boldsymbol{\Phi}^{\dagger}
Φ†
来进行计算,可以得出
θ
^
L
S
=
Φ
†
y
\hat{\boldsymbol{\theta}}_{LS}=\boldsymbol{\Phi}^{\dagger}y
θ^LS=Φ†y
在这里,
†
\dagger
†是剑标。相对于只有方阵,非奇异矩阵才能定义逆矩阵,广义逆矩阵则是矩形矩阵或奇异矩阵都可以定义,是对逆矩阵的推广。
Φ
⊤
Φ
\boldsymbol{\Phi}^{\top}\boldsymbol{\Phi}
Φ⊤Φ有逆矩阵时,广义逆矩阵
Φ
†
\boldsymbol{\Phi}^{\dagger}
Φ†可以用下式表示。
Φ
†
=
(
Φ
⊤
Φ
)
−
1
Φ
⊤
\boldsymbol{\Phi}^{\dagger}=(\boldsymbol{\Phi}^{\top}\boldsymbol{\Phi})^{-1}\boldsymbol{\Phi}^{\top}
Φ†=(Φ⊤Φ)−1Φ⊤
对于核模型
f
θ
(
x
)
=
∑
j
=
1
n
θ
j
K
(
x
,
x
j
)
f_{\boldsymbol{\theta}(x)}=\sum_{j=1}^n \theta_j \boldsymbol{K}(\boldsymbol{x},\boldsymbol{x_j})
fθ(x)=j=1∑nθjK(x,xj)
也可以认为是线性模型的一种。通过把设计矩阵
Φ
\boldsymbol{\Phi}
Φ置换为下列中定义的核矩阵
K
\boldsymbol{K}
K,就可以使用和线性模型相同的方法来求得核模型的最小二乘解。
K
=
(
K
(
x
1
,
x
1
)
⋯
K
(
x
1
,
x
n
)
⋮
⋱
⋮
K
(
x
n
,
x
1
)
⋯
K
(
x
n
,
x
n
)
)
\boldsymbol{K}=\left(\begin{array}{ccc}K\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{1}\right) & \cdots & K\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{n}\right) \\ \vdots & \ddots & \vdots \\ K\left(\boldsymbol{x}_{n}, \boldsymbol{x}_{1}\right) & \cdots & K\left(\boldsymbol{x}_{n}, \boldsymbol{x}_{n}\right)\end{array}\right)
K=⎝⎜⎛K(x1,x1)⋮K(xn,x1)⋯⋱⋯K(x1,xn)⋮K(xn,xn)⎠⎟⎞
岭回归
l
2
l_2
l2约束的最小二乘学习法的解
θ
^
\widehat{\boldsymbol{\theta}}
θ
就可以通过下式求得:
θ
^
=
argmin
θ
[
J
L
S
(
θ
)
+
λ
2
∥
θ
∥
2
]
(
1
)
\widehat{\boldsymbol{\theta}}=\underset{\boldsymbol{\theta}}{\operatorname{argmin}}\left[J_{\mathrm{LS}}(\boldsymbol{\theta})+\frac{\lambda}{2}\|\boldsymbol{\theta}\|^{2}\right] \qquad (1)
θ
=θargmin[JLS(θ)+2λ∥θ∥2](1)上式的第一项
J
L
S
(
θ
)
J_{LS}(\boldsymbol{\theta})
JLS(θ)表示的是对训练样本的拟合程度,通过与第二项的
λ
2
∥
θ
∥
2
\frac{\lambda}{2} \lVert \boldsymbol{\theta} \lVert ^2
2λ∥θ∥2相结合得到最小值,来防止对训练样本的过拟合。
把(2)式的目标函数进行关于参数
θ
\boldsymbol{\theta}
θ的偏微分并设为0的话,
l
2
l_2
l2约束的最小二乘学习法的解
θ
^
\widehat{\boldsymbol{\theta}}
θ
就可以通过下式求得:
θ ^ = ( Φ ⊤ Φ + λ I ) − 1 Φ ⊤ y \widehat{\boldsymbol{\theta}}=\left(\boldsymbol{\Phi}^{\top} \boldsymbol{\Phi}+\lambda \boldsymbol{I}\right)^{-1} \boldsymbol{\Phi}^{\top} \boldsymbol{y} θ =(Φ⊤Φ+λI)−1Φ⊤y这里 I \boldsymbol{I} I是单位矩阵。通过将矩阵 Φ ⊤ Φ \boldsymbol{\Phi}^{\top} \boldsymbol{\Phi} Φ⊤Φ与 λ I \lambda \boldsymbol{I} λI相加提高其正则性,进而可以更稳定地进行逆矩阵的求解。 l 2 l_2 l2约束的最小二乘学习法也称为 l 2 l_2 l2正则化的最小二乘学习法,(2)中的第二项 ∥ θ ∥ 2 \lVert \boldsymbol{\theta} \lVert ^2 ∥θ∥2为正则项, λ \lambda λ为正则化参数。 l 2 l_2 l2正则化的最小二乘学习法也被称为岭回归。
lasso回归
在 l 2 l_2 l2约束的最小二乘学习法中, l 2 l_2 l2范数有一定的约束作用。而在稀疏学习中,则使用 l 1 l_1 l1来进行相应的条件约束。
min
θ
J
L
S
(
θ
)
约束条件
∥
θ
∥
1
≤
R
\min _{\theta} J_{\mathrm{LS}}(\boldsymbol{\theta}) \quad \text { 约束条件 }\|\boldsymbol{\theta}\|_{1} \leq \mathrm{R}
θminJLS(θ) 约束条件 ∥θ∥1≤R
向量
θ
=
(
θ
1
,
…
,
θ
b
)
T
\boldsymbol{\theta}=(\theta_1,\dots,\theta_b)^{T}
θ=(θ1,…,θb)T的
l
1
l_1
l1范数
∥
θ
∥
1
\|\boldsymbol{\theta}\|_{1}
∥θ∥1的定义方式为
∥
θ
∥
1
=
∑
j
=
1
b
∣
θ
j
∣
\|\boldsymbol{\theta}\|_{1}=\sum_{j=1}^{b}\left|\theta_{j}\right|
∥θ∥1=j=1∑b∣θj∣
训练平方误差
J
L
S
J_{LS}
JLS是关于
θ
\boldsymbol{\theta}
θ的向下的二次凸函数。因此,训练平方误差
J
L
S
J_{LS}
JLS在参数空间内具有呈椭圆状的等高线,其底部即是最小二乘解
θ
^
L
S
\hat{\boldsymbol{\theta}}_{LS}
θ^LS。如图(a)所示,椭圆状的等高线和圆周的交点,即为
l
2
l_2
l2约束的最小二乘学习法的解
θ
^
l
2
C
L
S
\hat{\boldsymbol{\theta}}_{l_2CLS}
θ^l2CLS。
另一方面,
l
1
l_1
l1约束的最小二乘学习法的解
θ
^
l
1
C
L
S
\hat{\boldsymbol{\theta}}_{l_1CLS}
θ^l1CLS所在的范围,在各个参数的轴上都有角。在这个时候,如图(b)所示,大体上是在该范围内的角的地方与椭圆状的等高线相交的。因此,一般
l
1
l_1
l1约束的最小二乘学习法的解都位于参数的轴上。像这样在参数轴上的点中,有若干个为0的话,就称之为稀疏。
l
1
l_1
l1约束的最小二乘学习法也称为Lasso回归。
考虑下式的正则化形式的最优化问题:
min
θ
J
(
θ
)
,
J
(
θ
)
=
J
L
S
(
θ
)
+
λ
∥
θ
∥
1
\min _{\theta} J(\boldsymbol{\theta}), \quad J(\boldsymbol{\theta})=J_{\mathrm{LS}}(\boldsymbol{\theta})+\lambda\|\boldsymbol{\theta}\|_{1}
θminJ(θ),J(θ)=JLS(θ)+λ∥θ∥1
另外,对于
l
1
l_1
l1范数中包含的不能进行微分的绝对值函数,使用可以微分的二次函数来进行控制。
∣
θ
j
∣
≤
θ
j
2
2
c
j
+
c
j
2
对于
c
j
>
0
\left|\theta_{j}\right| \leq \frac{\theta_{j}^{2}}{2 c_{j}}+\frac{c_{j}}{2} \text { 对于 } c_{j}>0
∣θj∣≤2cjθj2+2cj 对于 cj>0
上述的二次函数就是该绝对值函数的上界,与绝对值函数在点
θ
j
=
±
c
j
\theta_{j}=\pm c_{j}
θj=±cj处相外切。
在这里,通过反复迭代来对其进行求解,可以用现在的解
θ
~
j
≠
0
\tilde{\theta}_{j} \neq 0
θ~j=0来替换
c
j
c_j
cj,以构成上界约束。
∣
θ
j
∣
≤
θ
j
2
2
∣
θ
~
j
∣
+
∣
θ
~
j
∣
2
\left|\theta_{j}\right| \leq \frac{\theta_{j}^{2}}{2\left|\tilde{\theta}_{j}\right|}+\frac{\left|\tilde{\theta}_{j}\right|}{2}
∣θj∣≤2∣∣∣θ~j∣∣∣θj2+2∣∣∣θ~j∣∣∣
在上式中,当 θ ~ j = 0 \tilde{\theta}_{j} = 0 θ~j=0的时候,一般认为 ∣ θ j ∣ = 0 |\theta_j|= 0 ∣θj∣=0。如果使用广义逆 † \dagger †的话以上计算过程就可以表示为
∣
θ
j
∣
≤
∣
θ
~
j
∣
†
2
θ
j
2
+
∣
θ
~
j
∣
2
\left|\theta_{j}\right| \leq \frac{\left|\widetilde{\theta}_{j}\right|^{\dagger}}{2} \theta_{j}^{2}+\frac{\left|\tilde{\theta}_{j}\right|}{2}
∣θj∣≤2∣∣∣θ
j∣∣∣†θj2+2∣∣∣θ~j∣∣∣
据此,作为上式的目标函数
J
(
θ
)
J(\theta)
J(θ)的上界的最小化问题,可以得到下述
l
1
l_1
l1正则化最小二乘学习法的一般表达式。
θ
^
=
argmin
θ
J
~
(
θ
)
,
J
~
(
θ
)
=
J
L
S
(
θ
)
+
λ
2
θ
⊤
Θ
~
†
θ
+
C
\widehat{\boldsymbol{\theta}}=\underset{\boldsymbol{\theta}}{\operatorname{argmin}} \tilde{J}(\boldsymbol{\theta}), \quad \widetilde{J}(\boldsymbol{\theta})=J_{\mathrm{LS}}(\boldsymbol{\theta})+\frac{\lambda}{2} \boldsymbol{\theta}^{\top} \widetilde{\boldsymbol{\Theta}}^{\dagger} \boldsymbol{\theta}+C
θ
=θargminJ~(θ),J
(θ)=JLS(θ)+2λθ⊤Θ
†θ+C
但是,在上式中,
Θ
~
\tilde{\boldsymbol{\Theta}}
Θ~ 是对角元素为的
∣
θ
~
1
∣
,
⋯
,
∣
θ
~
b
∣
\left|\tilde{\theta}_{1}\right|, \cdots,\left|\tilde{\theta}_{b}\right|
∣∣∣θ~1∣∣∣,⋯,∣∣∣θ~b∣∣∣的对角矩阵,
C
=
∑
j
=
1
b
∣
θ
~
j
∣
/
2
C=\sum_{j=1}^b \left|\tilde{\theta}_{j}\right|/2
C=∑j=1b∣∣∣θ~j∣∣∣/2是不依赖于
θ
\theta
θ 的常数。对于有参数的线性模型
f
θ
(
x
)
=
θ
⊤
ϕ
(
x
)
f_{\theta}(\boldsymbol{x})=\boldsymbol{\theta}^{\top} \boldsymbol{\phi}(\boldsymbol{x})
fθ(x)=θ⊤ϕ(x)
可以按下式求得解
θ
^
\hat{\boldsymbol{\theta}}
θ^
θ
^
=
(
Φ
⊤
Φ
+
λ
Θ
~
†
)
−
1
Φ
⊤
y
\widehat{\boldsymbol{\theta}}=\left(\boldsymbol{\Phi}^{\top} \boldsymbol{\Phi}+\lambda \widetilde{\boldsymbol{\Theta}}^{\dagger}\right)^{-1} \boldsymbol{\Phi}^{\top} \boldsymbol{y}
θ
=(Φ⊤Φ+λΘ
†)−1Φ⊤y
图Lasso方法的罚图模型
图Lasso是一种可以快速估计逆协方差矩阵的算法,它使用 l 1 l_1 l1罚来增加逆协方差矩阵的稀疏性,并使用快速坐标下降法来解决单个Lasso问题,当数据的维数较高时计算速度也很快。
假设数据服从多元高斯分布,估计数据的无向图模型则相当于估计它的逆协方差矩阵。对于数据的无向图模型,一个节点代表一个特征,两个节点之间的关系用边来表示。对于高斯分布的数据,其逆协方差矩阵 Σ − 1 \Sigma^{-1} Σ−1中的元素表示边是否存在,逆协方差矩阵中的非零元素表示一对节点之间有边存在,而一对变量条件独立对应于逆协方差矩阵中的零元素,即如果 Σ − 1 \Sigma^{-1} Σ−1 的第 ( i , j ) (i,j) (i,j)个元素是0,则在给定其他变量的情况下,第 i i i个变量和第 j j j个变量是条件独立的。
假设我们有
n
n
n个相互独立且服从高斯分布的样本,每个样本特征均为
p
p
p维,均
值为
μ
\mu
μ,协方差矩阵为
Σ
\Sigma
Σ 。传统的估计
Σ
−
1
\Sigma^{-1}
Σ−1的方法是通过最大化数据的对数似然函数,令
S
=
X
T
X
n
\boldsymbol{S=\frac{X^TX}{n}}
S=nXTX表示数据的协方差矩阵,在高斯模型中,对数似然函数的形式为
log
d
e
t
Σ
−
1
−
t
r
(
S
Σ
−
1
)
(
1
)
\log det \Sigma^{-1} -tr(\boldsymbol{S}\Sigma^{-1}) \quad (1)
logdetΣ−1−tr(SΣ−1)(1)
令
Θ
=
Σ
−
1
\Theta=\Sigma^{-1}
Θ=Σ−1 ,关于
Θ
\Theta
Θ最大化(1)式将产生最大似然估计目
Θ
^
=
S
−
1
\hat{\Theta}=\boldsymbol{S}^{-1}
Θ^=S−1 ,但是使用这种最大似然方法来估计
Σ
−
1
\Sigma^{-1}
Σ−1存在一些问题。当特征维数大于样本数目时,
S
\boldsymbol{S}
S 是奇异矩阵,数据的最大似然估计将无法计算。当特征维数近似等于样本数目时,即使
S
\boldsymbol{S}
S不是奇异矩阵,数据的最大似然估计也将面临很复杂的计算。另外,这种最大似然方法通常不会得到准确为零的元素,得到的图模型中特征对之间的条件独立关系将会很复杂。
Yuan和Lin等人提出了一个罚对数似然函数代替原先的似然函数,即对整个逆协方差矩阵 Θ \Theta Θ取 l 1 l_1 l1罚,数据的罚对数似然函数为
log d e t Σ − 1 − t r ( S Σ − 1 ) − ρ ∥ Θ ∥ 1 ( 2 ) \log det \Sigma^{-1} -tr(\boldsymbol{S}\Sigma^{-1})-\rho \|\Theta\|_1\quad (2) logdetΣ−1−tr(SΣ−1)−ρ∥Θ∥1(2)
关于 Θ \Theta Θ最大化罚对数似然函数(2)式可估计出数据的罚图模型,通过这种最大化罚对数似然函数的方法来估计 Σ − 1 \Sigma^{-1} Σ−1 能克服原先的最大似然方法存在的缺点:当特征维数大于样本数目时,关于 Θ \Theta Θ最大化(2)式也能求解;当罚参数取值很大时,估计的 Θ \Theta Θ能得到准确为零的元素,即罚参数能控制 Θ \Theta Θ的稀疏程度。
[1] 林祝莹. 图Lasso及相关方法的研究与应用[D].燕山大学,2016.