线性回归的推广

1.多项式回归

线性回归可以对样本数据是非线性而只对参数是线性的。由线性表达式:

\[ h_\theta(x_1, x_2, \cdots, x_n) = \theta_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n \]

如果只对参数\(\theta\)线性,而对\(x\)非线性。如果\(x\)特征是非线性的,比如说而\(x\)的多项式,则演变为多项式回归。如果取n为2,多项式最高次为2,则\(x_1, x_2\)的项包括有:\(x_1, x_2, x_1x_2, x_1^2, x_2^2\),即多项式模型为:

\[ h_\theta(x_1, x_2) = \theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_1^2 + \theta_4x_2^2 + \theta_5x_1x_2 \]

样本数据只有\(x_1, x_2\),通过计算可以得到\(x_1^2, x_2^2, x_1x_2\),原来只有两元\(x_1, x_2\),通过变换一下\(z_0=1, z_1=x_1, z_2 = x_2, z_3 = x_1^2, z_4 = x_2^2, z_5=x_1x_2\),于是得到关于\(z\)的五元线性回归。

\[ h_\theta(z_1, z_2, z_3, z_4, z_5) = \theta_0 + \theta_1z_1 + \theta_2z_2 + \theta_3z_3 + \theta_4z_4 + \theta_5z_5 \]

阶数越高,变换后的项数就越多。

2.广义线性回归

如果\(y\)与\(x\)不满足线性关系,即\(h_\theta(x_1, x_2, \cdots, x_n)\)不能用表达式\(\theta_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n\)来表示,但是通过某个单调可微的函数,如\(g(y)\),使得

\[ g(h_\theta(x_1, x_2, \cdots, x_n)) = \theta_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n \]

于是通过函数\(g\)又可以转化为线性回归问题,这就得到一般化的广义线性回归。由\(g(y) = \theta^Tx\),而且单调可微,于是\(g^{-1}(\theta^Tx)=y\),\(g\)为联系函数。

3.局部加权回归

线性回归的目标函数为

\[ J(\theta)=\frac{1}{2}\sum_{i=1}^m(y^{(i)}−\theta^Tx^{(i)})^2 \]

对于每个样本都加上相应的权重\(w^{(i)}\),即得到局部加权线性回归:

\[ J(\theta)=\frac{1}{2}\sum_{i=1}^mw^{(i)}(y^{(i)}−\theta^Tx^{(i)})^2 \]

权重\(w^{(i)}\)的设置可以有多种方式,如高斯核函数、多项式核函数等。

高斯核函数为:

\[ w^{(i)} = \exp\left( -\frac{(x^{(i)}-x)^2}{2\tau^2} \right) \]

式中的\(x\)可以为均值,\(\tau\)为带宽,控制样本随着与\(x\)距离的衰减速率。

多项式核函数为:

\[ \kappa(x^{(1)}, x^{(2)}) = \left(\left< x^{(1)}, x^{(2)} \right> + R\right)^d \]

\(R\)为常数项,\(d\)为阶数。

上一篇:BZOJ-3143/洛谷3232 游走(HNOI2013)概率DP


下一篇:两分布间距离的度量:MMD、KL散度、Wasserstein 对比