机器学习——高斯过程

高斯过程

所谓高斯,即高斯分布
所谓过程,即随机过程

高斯分布

一维高斯

p(x)=N(μ,σ2)p(x)=N(\mu, \sigma^2)p(x)=N(μ,σ2)

高维高斯

多元高斯分布——高斯网络 xRpx\in \mathbb{R}^px∈Rp
p(x)=N(μ,Σ),Σp×p,p&lt;infp(x)=N(\mu,\Sigma),\Sigma_{p\times p},p&lt;\infp(x)=N(μ,Σ),Σp×p​,p<inf

无限维高斯分布

即高斯过程,定义在连续域(时间或者空间)上的无限多个高斯随机变量所组成的随机过程
假设有一个连续域 TTT,对于任意正整数 nnn,有 t1,...,tnTt_1,...,t_n \in Tt1​,...,tn​∈T,且满足条件
[ξt1ξtn]N(μt1tn,Σt1tn) \left[ \begin{array}{c}{\xi_{t_{1}}} \\ {\vdots} \\ {\xi_{t_{n}}}\end{array}\right] \sim N(\mu_{t_1-t_n},\Sigma_{t_1-t_n}) ⎣⎢⎡​ξt1​​⋮ξtn​​​⎦⎥⎤​∼N(μt1​−tn​​,Σt1​−tn​​)则 {ξt}tT\{\xi_t\}_{t\in T}{ξt​}t∈T​ 就是一个高斯过程。
机器学习——高斯过程
则一个高斯过程可以表示为
GP(m(t),k(s,t))GP(m(t),k(s,t))GP(m(t),k(s,t))其中m(t)=E[ξt]m(t)=E[\xi_t]m(t)=E[ξt​]为均值函数,k(s,t)=E[ξsE[ξs]][ξtE[ξt]]k(s,t)=E[\xi_s-E[\xi_s]][\xi_t-E[\xi_t]]k(s,t)=E[ξs​−E[ξs​]][ξt​−E[ξt​]]为协方差函数

高斯过程回归

贝叶斯线性回归(权重空间视角)

线性回归
使用核函数就可以用于非线性
贝叶斯线性回归加上核方法(非线性转换内积)也就是高斯过程回归{f(x)=ϕT(x)wy=f(x)+ε \left\{\begin{array}{l}{f(x)=\phi^T (x)w} \\ {y=f(x)+\varepsilon}\end{array}\right. {f(x)=ϕT(x)wy=f(x)+ε​这是从权重空间的角度来看

函数空间视角

f(x)GP(m(x),k(x,x))f(x) \sim GP(m(x),k(x,x&#x27;))f(x)∼GP(m(x),k(x,x′))

  1. f(x) 是函数
  2. f(x)是高斯分布
    与之前的定义对应关系就是
    tξt,{ξt}tTGPt \rightarrow \xi_t,\{\xi_t\}_{t\in T}\sim GPt→ξt​,{ξt​}t∈T​∼GP xf(x),{f(x)}xRpGPx \rightarrow f(x),\{f(x)\}_{x\in \mathbb{R}^p}\sim GPx→f(x),{f(x)}x∈Rp​∼GP

回归问题:
Data:{(xi,yi)}i=1N,y=f(x)+ϵ\{(x_i,y_i)\}_{i=1}^N,y=f(x)+\epsilon{(xi​,yi​)}i=1N​,y=f(x)+ϵ
定义 XN×p=(x1,...,xN)T,YN×1=(y1,...,yN)TX_{N\times p}=(x_1,...,x_N)^T,Y_{N\times 1}=(y_1,...,y_N)^TXN×p​=(x1​,...,xN​)T,YN×1​=(y1​,...,yN​)T
f(X)N(μ(X),K(X,X))f(X)\sim N(\mu(X),K(X,X))f(X)∼N(μ(X),K(X,X))
Y=f(X)+ϵN(μ(X),K(X,X)+σ2I)Y=f(X)+\epsilon \sim N(\mu(X),K(X,X)+\sigma^2I)Y=f(X)+ϵ∼N(μ(X),K(X,X)+σ2I)
需要预测的数据为 XX^*X∗,则 Y=f(X)+ϵY^*=f(X^*)+\epsilonY∗=f(X∗)+ϵ

已知 xN(μ,Σ)x \sim N(\mu,\Sigma)x∼N(μ,Σ)
其中x=(xaxb),μ=(μaμb),Σ=(ΣaaΣabΣbaΣbb)x = \left( \begin{array}{l} {x_a}\\ {x_b} \end{array} \right),\mu = \left( \begin{array}{l} {\mu _a}\\ {\mu _b} \end{array} \right),\Sigma= \left( \begin{array}{ll}{\Sigma_{aa}} &amp; {\Sigma_{ab}} \\ {\Sigma_{ba}} &amp; {\Sigma_{bb}}\end{array}\right) x=(xa​xb​​),μ=(μa​μb​​),Σ=(Σaa​Σba​​Σab​Σbb​​)则xbxaN(μba,Σba) x_b|x_a \sim N(\mu_{b|a},\Sigma_{b|a})xb​∣xa​∼N(μb∣a​,Σb∣a​)其中
μba=ΣbaΣaa1(xaμa)+μb,Σba=ΣbbΣbaΣaa1Σab \mu_{b|a}=\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)+\mu_b,\Sigma_{b|a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}μb∣a​=Σba​Σaa−1​(xa​−μa​)+μb​,Σb∣a​=Σbb​−Σba​Σaa−1​Σab​

xa=Y,xb=f(X)x_a=Y,x_b=f(X^*)xa​=Y,xb​=f(X∗),所要求的的条件概率为 p(f(XY,X,X))p(f(X^*|Y,X,X^*))p(f(X∗∣Y,X,X∗)) 即 p(xbxa)p(x_b|x_a)p(xb​∣xa​),带入公式可得μ=K(X,X)(K(X,X)+σ2I)1(Yμ(X))+μ(X)Σ=K(X,X)K(X,X)(K(X,X)+σ2I)1K(X,X) {\mu ^*} = K\left( {{X^*},X} \right){\left( {K\left( {X,X} \right) + {\sigma ^2}I} \right)^{ - 1}}\left( {Y - \mu \left( X \right)} \right) + \mu \left( {{X^*}} \right) \\ \Sigma^*=K(X^*,X^*)-K(X^*,X) {\left( {K\left( {X,X} \right) + {\sigma ^2}I} \right)^{ - 1}}K(X,X^*) μ∗=K(X∗,X)(K(X,X)+σ2I)−1(Y−μ(X))+μ(X∗)Σ∗=K(X∗,X∗)−K(X∗,X)(K(X,X)+σ2I)−1K(X,X∗)因此p(f(XY,X,X))=N(μ,Σ) p(f(X^*|Y,X,X^*))=N(\mu^*,\Sigma^*)p(f(X∗∣Y,X,X∗))=N(μ∗,Σ∗) p(YY,X,X)=N(μ,Σ+σ2I) p(Y^*|Y,X,X^*)=N(\mu^*,\Sigma^*+\sigma^2I)p(Y∗∣Y,X,X∗)=N(μ∗,Σ∗+σ2I)

发现了一个易于理解的博客:https://blog.csdn.net/greenapple_shan/article/details/52402051

上一篇:c#基础篇 ref 参数


下一篇:5.2 Comparator类Comparable类