Copula,最小二乘法及lasso回归, 岭回归

Copula,最小二乘法及lasso回归, 岭回归

之前讨论班准备的笔记,截取部分保存起来。
很低沉的一天。

C o p u l a Copula Copula函数

当边缘分布(marginal probability distribution)不同的随机变量(random variable),互相之间并不独立的时候,此时对于联合分布的建模会变得十分困难。此时,在已知多个已知边缘分布的随机变量下,Copula函数则是一个非常好的工具来对其相关性进行建模。

Copula理论首先在1959年由Sklar提出,指一个 n n n维联合分布函数可以由 n n n个边缘分布函数和一个Copula函数组成。Nelsen(1999)给出了Copula函数的严格定义。

S k l a r Sklar Sklar定理(1959)

Sklar定理主要指令 F ( ⋅ , ⋯   , ⋅ ) F(\cdot,\cdots,\cdot) F(⋅,⋯,⋅)为具有边缘分布 F 1 ( ⋅ ) , F 2 ( ⋅ ) , ⋯   , F n ( ⋅ ) F_{1}(\cdot), F_{2}(\cdot), \cdots, F_{n}(\cdot) F1​(⋅),F2​(⋅),⋯,Fn​(⋅)的联合分布函数,那么存在一个将边缘分布和联合分布“连接”起来Copula函数 C ( ⋅ , ⋯   , ⋅ ) C(\cdot,\cdots,\cdot) C(⋅,⋯,⋅)满足:
F ( x 1 , x 2 , ⋯   , x n ) = C ( F 1 ( x 1 ) , F 2 ( x 2 ) , ⋯   , F N ( x n ) ) F\left(x_{1}, x_{2}, \cdots, x_{n}\right)=C\left(F_{1}\left(x_{1}\right), F_{2}\left(x_{2}\right), \cdots, F_{N}\left(x_{n}\right)\right) F(x1​,x2​,⋯,xn​)=C(F1​(x1​),F2​(x2​),⋯,FN​(xn​))
若 F 1 ( ⋅ ) , F 2 ( ⋅ ) , ⋯   , F n ( ⋅ ) F_{1}(\cdot), F_{2}(\cdot), \cdots, F_{n}(\cdot) F1​(⋅),F2​(⋅),⋯,Fn​(⋅)连续,则 C ( ⋅ , ⋯   , ⋅ ) C(\cdot,\cdots,\cdot) C(⋅,⋯,⋅)唯一确定; 反之,若 F 1 ( ⋅ ) , F 2 ( ⋅ ) , ⋯   , F n ( ⋅ ) F_{1}(\cdot), F_{2}(\cdot), \cdots, F_{n}(\cdot) F1​(⋅),F2​(⋅),⋯,Fn​(⋅)为一元分布, C ( ⋅ , ⋯   , ⋅ ) C(\cdot,\cdots,\cdot) C(⋅,⋯,⋅)为相应的Copula函数,那么由上式定义的函数 F ( ⋅ , ⋯   , ⋅ ) F(\cdot,\cdots,\cdot) F(⋅,⋯,⋅)是具有边缘分布 F 1 ( ⋅ ) , F 2 ( ⋅ ) , ⋯   , F n ( ⋅ ) F_{1}(\cdot), F_{2}(\cdot), \cdots, F_{n}(\cdot) F1​(⋅),F2​(⋅),⋯,Fn​(⋅)的联合分布函数。

多元正态 C o p u l a Copula Copula 函数

n n n元正态 C o p u l a Copula Copula 分布函数的表达式为:
C ( u 1 , u 2 , … , u n ; ρ ) = ϕ ρ ( ϕ − 1 ( u 1 ) , ϕ − 1 ( u 2 ) , … , ϕ − 1 ( u n ) ) C(u_1,u_2,\dots,u_n;\rho)= \phi_{\rho}(\phi^{-1}(u_1), \phi^{-1}(u_2),\dots,\phi^{-1}(u_n)) C(u1​,u2​,…,un​;ρ)=ϕρ​(ϕ−1(u1​),ϕ−1(u2​),…,ϕ−1(un​))
其中 ρ \rho ρ为对角线上的元素为1的对称正定矩阵, ϕ ρ ( ⋅ , ⋯   , ⋅ ) \phi_{\rho}(\cdot,\cdots,\cdot) ϕρ​(⋅,⋯,⋅)是相关系数矩阵为 ρ \rho ρ的标准多元正态分布函数, ϕ − 1 ( ⋅ ) \phi^{-1}(\cdot) ϕ−1(⋅) 是 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅)的逆函数。

多元 t − C o p u l a t-Copula t−Copula 函数

C ( u 1 , u 2 , … , u n ; ρ ) = T ρ , v ( T v − 1 ( u 1 ) , T v − 1 ( u 2 ) , … , T v − 1 ( u n ) ) C(u_1,u_2,\dots,u_n;\rho)= T_{\rho,v}(T^{-1}_v(u_1), T^{-1}_v(u_2),\dots,T^{-1}_v(u_n)) C(u1​,u2​,…,un​;ρ)=Tρ,v​(Tv−1​(u1​),Tv−1​(u2​),…,Tv−1​(un​))
其中 ρ \rho ρ为对角线上的元素为1的对称正定矩阵, T ρ , v ( ⋅ , ⋯   , ⋅ ) T_{\rho,v}(\cdot,\cdots,\cdot) Tρ,v​(⋅,⋯,⋅)表示相关系数矩阵为 ρ \rho ρ、*度为 v v v的标准多元 t t t分布函数, T v − 1 ( ⋅ ) T_v^{-1}(\cdot) Tv−1​(⋅)是 T v ( ⋅ ) T_v(\cdot) Tv​(⋅)的逆函数。

阿基米德 C o p u l a Copula Copula函数

阿基米德Copula( Archimedean Copula)分布函数表达式为:
C ( u 1 , u 2 , ⋯   , u n ) = ϕ − 1 ( ϕ ( u 1 ) + ϕ ( u 2 ) + ⋯ + ϕ ( u n ) ) C\left(u_{1}, u_{2}, \cdots, u_{n}\right)=\phi^{-1}\left(\phi\left(u_{1}\right)+\phi\left(u_{2}\right)+\cdots+\phi\left(u_{n}\right)\right) C(u1​,u2​,⋯,un​)=ϕ−1(ϕ(u1​)+ϕ(u2​)+⋯+ϕ(un​))
其中 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅)为阿基米德Copula函数的生成元, ϕ − 1 \phi^{-1} ϕ−1是 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅)的逆函数。
阿基米德Copula函数包括Gumble Copula 函数、Clayton Copula 函数和FrankCopula函数。

该工具最初是用在金融衍生品领域,该函数建模作为衍生品风险度量的工作进行使用。在2008年金融危机中,这个工具被人广发的提及,认为当时采用的高斯copula没有能够完整度量衍生品连带之间的风险,从而导致一系列的违约,进而引发次贷危机、经济危机。

[1] An Introduction to Copulas. Roger B. Nelsen

[2] Copula Methods in Finance

收缩方法(shrinkage method)

收缩方法又称为正则化(regularization)。主要是岭回归(ridge regression)和lasso回归。通过对最小二乘估计加入罚约束,使某些系数的估计为0。

岭回归:消除共线性 ; 模的平方处理 ;

Lasso回归:压缩变量,起降维作用 ; 模处理

最小二乘法

最小二乘法对模型的输出 f θ ( x i ) f_{\boldsymbol{\theta}}(x_i) fθ​(xi​) 和训练集输出 { y i } i = 1 n \{y_i\}_{i=1}^n {yi​}i=1n​的平方误差
J L S ( θ ) = 1 2 ∑ i = 1 n ( f θ ( x i ) − y i ) 2 J_{LS}(\boldsymbol{\theta})=\frac{1}{2}\sum_{i=1}^n (f_{\boldsymbol{\theta}}(x_i)-y_i)^2 JLS​(θ)=21​i=1∑n​(fθ​(xi​)−yi​)2
为最小时的参数 θ \boldsymbol{\theta} θ进行学习
θ ^ L S = argmin ⁡ θ J L S ( θ ) \widehat{\boldsymbol{\theta}}_{\mathrm{LS}}=\underset{\theta}{\operatorname{argmin}} J_{\mathrm{LS}}(\boldsymbol{\theta}) θ LS​=θargmin​JLS​(θ)
若使用线性模型
f θ ( x ) = ∑ j = 1 b θ i ϕ ( x ) = θ T ϕ ( x ) f_{\boldsymbol{\theta}}(x)=\sum_{j=1}^b \theta_i\phi (x)=\boldsymbol{\theta}^T \phi(x) fθ​(x)=j=1∑b​θi​ϕ(x)=θTϕ(x)
则训练样本的平方差 J L S J_{LS} JLS​表示为下述形式。
J L S ( θ ) = 1 2 ∥ Φ θ − y ∥ 2 J_{LS}(\boldsymbol{\theta})=\frac{1}{2}\lVert \Phi \boldsymbol{\theta}-\boldsymbol{y} \lVert^2 JLS​(θ)=21​∥Φθ−y∥2
这里, y = ( y 1 , … , y n ) T \boldsymbol{y}=(y_1,\dots,y_n)^T y=(y1​,…,yn​)T是训练输出的 n n n维向量, Φ \boldsymbol{\Phi} Φ是下列中定义的 n × b n\times b n×b阶矩阵,也称为设计矩阵。
Φ = ( ϕ 1 ( x 1 ) ⋯ ϕ b ( x 1 ) ⋮ ⋱ ⋮ ϕ 1 ( x n ) ⋯ ϕ b ( x n ) ) \boldsymbol{\Phi}=\left(\begin{array}{ccc}\phi_{1}\left(\boldsymbol{x}_{1}\right) & \cdots & \phi_{b}\left(\boldsymbol{x}_{1}\right) \\ \vdots & \ddots & \vdots \\ \phi_{1}\left(\boldsymbol{x}_{n}\right) & \cdots & \phi_{b}\left(\boldsymbol{x}_{n}\right)\end{array}\right) Φ=⎝⎜⎛​ϕ1​(x1​)⋮ϕ1​(xn​)​⋯⋱⋯​ϕb​(x1​)⋮ϕb​(xn​)​⎠⎟⎞​
训练样本的平方差 J L S J_{LS} JLS​的参数向量 θ \boldsymbol{\theta} θ的偏微分 ∇ θ J L S \nabla_{\theta} J_{\mathrm{LS}} ∇θ​JLS​以
∇ θ J L S = ( ∂ J L S ∂ θ 1 , ⋯   , ∂ J L S ∂ θ b ) ⊤ = Φ ⊤ Φ θ − Φ ⊤ y \nabla_{\theta} J_{\mathrm{LS}}=\left(\frac{\partial J_{\mathrm{LS}}}{\partial \theta_{1}}, \cdots, \frac{\partial J_{\mathrm{LS}}}{\partial \theta_{b}}\right)^{\top}=\boldsymbol{\Phi}^{\top} \boldsymbol{\Phi} \boldsymbol{\theta} -\boldsymbol{\Phi}^{\top} y ∇θ​JLS​=(∂θ1​∂JLS​​,⋯,∂θb​∂JLS​​)⊤=Φ⊤Φθ−Φ⊤y
形式给出。如果将其微分设置为 0 0 0,最小二乘解就满足关系式
Φ ⊤ Φ θ = Φ ⊤ y \boldsymbol{\Phi}^{\top} \boldsymbol{\Phi} \boldsymbol{\theta}=\boldsymbol{\Phi}^{\top} y Φ⊤Φθ=Φ⊤y
这个方程式的解 θ ^ L S \hat{\boldsymbol{\theta}}_{LS} θ^LS​使用设计矩阵 Φ \boldsymbol{\Phi} Φ的广义逆矩阵 Φ † \boldsymbol{\Phi}^{\dagger} Φ†
来进行计算,可以得出
θ ^ L S = Φ † y \hat{\boldsymbol{\theta}}_{LS}=\boldsymbol{\Phi}^{\dagger}y θ^LS​=Φ†y
在这里, † \dagger †是剑标。相对于只有方阵,非奇异矩阵才能定义逆矩阵,广义逆矩阵则是矩形矩阵或奇异矩阵都可以定义,是对逆矩阵的推广。
Φ ⊤ Φ \boldsymbol{\Phi}^{\top}\boldsymbol{\Phi} Φ⊤Φ有逆矩阵时,广义逆矩阵 Φ † \boldsymbol{\Phi}^{\dagger} Φ†可以用下式表示。
Φ † = ( Φ ⊤ Φ ) − 1 Φ ⊤ \boldsymbol{\Phi}^{\dagger}=(\boldsymbol{\Phi}^{\top}\boldsymbol{\Phi})^{-1}\boldsymbol{\Phi}^{\top} Φ†=(Φ⊤Φ)−1Φ⊤
对于核模型
f θ ( x ) = ∑ j = 1 n θ j K ( x , x j ) f_{\boldsymbol{\theta}(x)}=\sum_{j=1}^n \theta_j \boldsymbol{K}(\boldsymbol{x},\boldsymbol{x_j}) fθ(x)​=j=1∑n​θj​K(x,xj​)
也可以认为是线性模型的一种。通过把设计矩阵 Φ \boldsymbol{\Phi} Φ置换为下列中定义的核矩阵 K \boldsymbol{K} K,就可以使用和线性模型相同的方法来求得核模型的最小二乘解。
K = ( K ( x 1 , x 1 ) ⋯ K ( x 1 , x n ) ⋮ ⋱ ⋮ K ( x n , x 1 ) ⋯ K ( x n , x n ) ) \boldsymbol{K}=\left(\begin{array}{ccc}K\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{1}\right) & \cdots & K\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{n}\right) \\ \vdots & \ddots & \vdots \\ K\left(\boldsymbol{x}_{n}, \boldsymbol{x}_{1}\right) & \cdots & K\left(\boldsymbol{x}_{n}, \boldsymbol{x}_{n}\right)\end{array}\right) K=⎝⎜⎛​K(x1​,x1​)⋮K(xn​,x1​)​⋯⋱⋯​K(x1​,xn​)⋮K(xn​,xn​)​⎠⎟⎞​

岭回归

l 2 l_2 l2​约束的最小二乘学习法的解
θ ^ \widehat{\boldsymbol{\theta}} θ 就可以通过下式求得:
θ ^ = argmin ⁡ θ [ J L S ( θ ) + λ 2 ∥ θ ∥ 2 ] ( 1 ) \widehat{\boldsymbol{\theta}}=\underset{\boldsymbol{\theta}}{\operatorname{argmin}}\left[J_{\mathrm{LS}}(\boldsymbol{\theta})+\frac{\lambda}{2}\|\boldsymbol{\theta}\|^{2}\right] \qquad (1) θ =θargmin​[JLS​(θ)+2λ​∥θ∥2](1)上式的第一项 J L S ( θ ) J_{LS}(\boldsymbol{\theta}) JLS​(θ)表示的是对训练样本的拟合程度,通过与第二项的 λ 2 ∥ θ ∥ 2 \frac{\lambda}{2} \lVert \boldsymbol{\theta} \lVert ^2 2λ​∥θ∥2相结合得到最小值,来防止对训练样本的过拟合。
把(2)式的目标函数进行关于参数 θ \boldsymbol{\theta} θ的偏微分并设为0的话, l 2 l_2 l2​约束的最小二乘学习法的解
θ ^ \widehat{\boldsymbol{\theta}} θ 就可以通过下式求得:

θ ^ = ( Φ ⊤ Φ + λ I ) − 1 Φ ⊤ y \widehat{\boldsymbol{\theta}}=\left(\boldsymbol{\Phi}^{\top} \boldsymbol{\Phi}+\lambda \boldsymbol{I}\right)^{-1} \boldsymbol{\Phi}^{\top} \boldsymbol{y} θ =(Φ⊤Φ+λI)−1Φ⊤y这里 I \boldsymbol{I} I是单位矩阵。通过将矩阵 Φ ⊤ Φ \boldsymbol{\Phi}^{\top} \boldsymbol{\Phi} Φ⊤Φ与 λ I \lambda \boldsymbol{I} λI相加提高其正则性,进而可以更稳定地进行逆矩阵的求解。 l 2 l_2 l2​约束的最小二乘学习法也称为 l 2 l_2 l2​正则化的最小二乘学习法,(2)中的第二项 ∥ θ ∥ 2 \lVert \boldsymbol{\theta} \lVert ^2 ∥θ∥2为正则项, λ \lambda λ为正则化参数。 l 2 l_2 l2​正则化的最小二乘学习法也被称为岭回归

Copula,最小二乘法及lasso回归, 岭回归

lasso回归

在 l 2 l_2 l2​约束的最小二乘学习法中, l 2 l_2 l2​范数有一定的约束作用。而在稀疏学习中,则使用 l 1 l_1 l1​来进行相应的条件约束。

min ⁡ θ J L S ( θ )  约束条件  ∥ θ ∥ 1 ≤ R \min _{\theta} J_{\mathrm{LS}}(\boldsymbol{\theta}) \quad \text { 约束条件 }\|\boldsymbol{\theta}\|_{1} \leq \mathrm{R} θmin​JLS​(θ) 约束条件 ∥θ∥1​≤R
向量 θ = ( θ 1 , … , θ b ) T \boldsymbol{\theta}=(\theta_1,\dots,\theta_b)^{T} θ=(θ1​,…,θb​)T的 l 1 l_1 l1​范数 ∥ θ ∥ 1 \|\boldsymbol{\theta}\|_{1} ∥θ∥1​的定义方式为
∥ θ ∥ 1 = ∑ j = 1 b ∣ θ j ∣ \|\boldsymbol{\theta}\|_{1}=\sum_{j=1}^{b}\left|\theta_{j}\right| ∥θ∥1​=j=1∑b​∣θj​∣
训练平方误差 J L S J_{LS} JLS​是关于 θ \boldsymbol{\theta} θ的向下的二次凸函数。因此,训练平方误差 J L S J_{LS} JLS​在参数空间内具有呈椭圆状的等高线,其底部即是最小二乘解 θ ^ L S \hat{\boldsymbol{\theta}}_{LS} θ^LS​。如图(a)所示,椭圆状的等高线和圆周的交点,即为 l 2 l_2 l2​约束的最小二乘学习法的解 θ ^ l 2 C L S \hat{\boldsymbol{\theta}}_{l_2CLS} θ^l2​CLS​。

另一方面, l 1 l_1 l1​约束的最小二乘学习法的解 θ ^ l 1 C L S \hat{\boldsymbol{\theta}}_{l_1CLS} θ^l1​CLS​所在的范围,在各个参数的轴上都有角。在这个时候,如图(b)所示,大体上是在该范围内的角的地方与椭圆状的等高线相交的。因此,一般 l 1 l_1 l1​约束的最小二乘学习法的解都位于参数的轴上。像这样在参数轴上的点中,有若干个为0的话,就称之为稀疏。
l 1 l_1 l1​约束的最小二乘学习法也称为Lasso回归

考虑下式的正则化形式的最优化问题:
min ⁡ θ J ( θ ) , J ( θ ) = J L S ( θ ) + λ ∥ θ ∥ 1 \min _{\theta} J(\boldsymbol{\theta}), \quad J(\boldsymbol{\theta})=J_{\mathrm{LS}}(\boldsymbol{\theta})+\lambda\|\boldsymbol{\theta}\|_{1} θmin​J(θ),J(θ)=JLS​(θ)+λ∥θ∥1​

另外,对于 l 1 l_1 l1​范数中包含的不能进行微分的绝对值函数,使用可以微分的二次函数来进行控制。
∣ θ j ∣ ≤ θ j 2 2 c j + c j 2  对于  c j > 0 \left|\theta_{j}\right| \leq \frac{\theta_{j}^{2}}{2 c_{j}}+\frac{c_{j}}{2} \text { 对于 } c_{j}>0 ∣θj​∣≤2cj​θj2​​+2cj​​ 对于 cj​>0

上述的二次函数就是该绝对值函数的上界,与绝对值函数在点 θ j = ± c j \theta_{j}=\pm c_{j} θj​=±cj​处相外切。
在这里,通过反复迭代来对其进行求解,可以用现在的解 θ ~ j ≠ 0 \tilde{\theta}_{j} \neq 0 θ~j​​=0来替换 c j c_j cj​,以构成上界约束。
∣ θ j ∣ ≤ θ j 2 2 ∣ θ ~ j ∣ + ∣ θ ~ j ∣ 2 \left|\theta_{j}\right| \leq \frac{\theta_{j}^{2}}{2\left|\tilde{\theta}_{j}\right|}+\frac{\left|\tilde{\theta}_{j}\right|}{2} ∣θj​∣≤2∣∣∣​θ~j​∣∣∣​θj2​​+2∣∣∣​θ~j​∣∣∣​​

在上式中,当 θ ~ j = 0 \tilde{\theta}_{j} = 0 θ~j​=0的时候,一般认为 ∣ θ j ∣ = 0 |\theta_j|= 0 ∣θj​∣=0。如果使用广义逆 † \dagger †的话以上计算过程就可以表示为

∣ θ j ∣ ≤ ∣ θ ~ j ∣ † 2 θ j 2 + ∣ θ ~ j ∣ 2 \left|\theta_{j}\right| \leq \frac{\left|\widetilde{\theta}_{j}\right|^{\dagger}}{2} \theta_{j}^{2}+\frac{\left|\tilde{\theta}_{j}\right|}{2} ∣θj​∣≤2∣∣∣​θ j​∣∣∣​†​θj2​+2∣∣∣​θ~j​∣∣∣​​
据此,作为上式的目标函数 J ( θ ) J(\theta) J(θ)的上界的最小化问题,可以得到下述 l 1 l_1 l1​正则化最小二乘学习法的一般表达式。

θ ^ = argmin ⁡ θ J ~ ( θ ) , J ~ ( θ ) = J L S ( θ ) + λ 2 θ ⊤ Θ ~ † θ + C \widehat{\boldsymbol{\theta}}=\underset{\boldsymbol{\theta}}{\operatorname{argmin}} \tilde{J}(\boldsymbol{\theta}), \quad \widetilde{J}(\boldsymbol{\theta})=J_{\mathrm{LS}}(\boldsymbol{\theta})+\frac{\lambda}{2} \boldsymbol{\theta}^{\top} \widetilde{\boldsymbol{\Theta}}^{\dagger} \boldsymbol{\theta}+C θ =θargmin​J~(θ),J (θ)=JLS​(θ)+2λ​θ⊤Θ †θ+C
但是,在上式中, Θ ~ \tilde{\boldsymbol{\Theta}} Θ~ 是对角元素为的 ∣ θ ~ 1 ∣ , ⋯   , ∣ θ ~ b ∣ \left|\tilde{\theta}_{1}\right|, \cdots,\left|\tilde{\theta}_{b}\right| ∣∣∣​θ~1​∣∣∣​,⋯,∣∣∣​θ~b​∣∣∣​的对角矩阵, C = ∑ j = 1 b ∣ θ ~ j ∣ / 2 C=\sum_{j=1}^b \left|\tilde{\theta}_{j}\right|/2 C=∑j=1b​∣∣∣​θ~j​∣∣∣​/2是不依赖于 θ \theta θ 的常数。对于有参数的线性模型
f θ ( x ) = θ ⊤ ϕ ( x ) f_{\theta}(\boldsymbol{x})=\boldsymbol{\theta}^{\top} \boldsymbol{\phi}(\boldsymbol{x}) fθ​(x)=θ⊤ϕ(x)
可以按下式求得解 θ ^ \hat{\boldsymbol{\theta}} θ^
θ ^ = ( Φ ⊤ Φ + λ Θ ~ † ) − 1 Φ ⊤ y \widehat{\boldsymbol{\theta}}=\left(\boldsymbol{\Phi}^{\top} \boldsymbol{\Phi}+\lambda \widetilde{\boldsymbol{\Theta}}^{\dagger}\right)^{-1} \boldsymbol{\Phi}^{\top} \boldsymbol{y} θ =(Φ⊤Φ+λΘ †)−1Φ⊤y
Copula,最小二乘法及lasso回归, 岭回归

图Lasso方法的罚图模型

图Lasso是一种可以快速估计逆协方差矩阵的算法,它使用 l 1 l_1 l1​罚来增加逆协方差矩阵的稀疏性,并使用快速坐标下降法来解决单个Lasso问题,当数据的维数较高时计算速度也很快。

假设数据服从多元高斯分布,估计数据的无向图模型则相当于估计它的逆协方差矩阵。对于数据的无向图模型,一个节点代表一个特征,两个节点之间的关系用边来表示。对于高斯分布的数据,其逆协方差矩阵 Σ − 1 \Sigma^{-1} Σ−1中的元素表示边是否存在,逆协方差矩阵中的非零元素表示一对节点之间有边存在,而一对变量条件独立对应于逆协方差矩阵中的零元素,即如果 Σ − 1 \Sigma^{-1} Σ−1 的第 ( i , j ) (i,j) (i,j)个元素是0,则在给定其他变量的情况下,第 i i i个变量和第 j j j个变量是条件独立的。

假设我们有 n n n个相互独立且服从高斯分布的样本,每个样本特征均为 p p p维,均
值为 μ \mu μ,协方差矩阵为 Σ \Sigma Σ 。传统的估计 Σ − 1 \Sigma^{-1} Σ−1的方法是通过最大化数据的对数似然函数,令 S = X T X n \boldsymbol{S=\frac{X^TX}{n}} S=nXTX​表示数据的协方差矩阵,在高斯模型中,对数似然函数的形式为
log ⁡ d e t Σ − 1 − t r ( S Σ − 1 ) ( 1 ) \log det \Sigma^{-1} -tr(\boldsymbol{S}\Sigma^{-1}) \quad (1) logdetΣ−1−tr(SΣ−1)(1)
令 Θ = Σ − 1 \Theta=\Sigma^{-1} Θ=Σ−1 ,关于 Θ \Theta Θ最大化(1)式将产生最大似然估计目 Θ ^ = S − 1 \hat{\Theta}=\boldsymbol{S}^{-1} Θ^=S−1 ,但是使用这种最大似然方法来估计 Σ − 1 \Sigma^{-1} Σ−1存在一些问题。当特征维数大于样本数目时, S \boldsymbol{S} S 是奇异矩阵,数据的最大似然估计将无法计算。当特征维数近似等于样本数目时,即使 S \boldsymbol{S} S不是奇异矩阵,数据的最大似然估计也将面临很复杂的计算。另外,这种最大似然方法通常不会得到准确为零的元素,得到的图模型中特征对之间的条件独立关系将会很复杂。

Yuan和Lin等人提出了一个罚对数似然函数代替原先的似然函数,即对整个逆协方差矩阵 Θ \Theta Θ取 l 1 l_1 l1​罚,数据的罚对数似然函数为

log ⁡ d e t Σ − 1 − t r ( S Σ − 1 ) − ρ ∥ Θ ∥ 1 ( 2 ) \log det \Sigma^{-1} -tr(\boldsymbol{S}\Sigma^{-1})-\rho \|\Theta\|_1\quad (2) logdetΣ−1−tr(SΣ−1)−ρ∥Θ∥1​(2)

关于 Θ \Theta Θ最大化罚对数似然函数(2)式可估计出数据的罚图模型,通过这种最大化罚对数似然函数的方法来估计 Σ − 1 \Sigma^{-1} Σ−1 能克服原先的最大似然方法存在的缺点:当特征维数大于样本数目时,关于 Θ \Theta Θ最大化(2)式也能求解;当罚参数取值很大时,估计的 Θ \Theta Θ能得到准确为零的元素,即罚参数能控制 Θ \Theta Θ的稀疏程度。

[1] 林祝莹. 图Lasso及相关方法的研究与应用[D].燕山大学,2016.

上一篇:解交错的常系数齐次线性递推式的通项


下一篇:python ftplib 模块的使用