线性回归
线性回归
线性回归假设目标值和特征值之间存在线性相关,即满足多元一次方程。其公式为:
y
′
=
w
∗
x
+
b
y' = w*x+b
y′=w∗x+b
y
′
y'
y′为预测值,线性回归模型是利用数据特征,求解
w
,
b
w,b
w,b两个参数。
损失函数:
L
=
1
n
∑
k
=
1
n
(
y
i
′
−
y
i
)
2
L = \frac{1}{n} \sum_{k=1}^n (y'_i - y_i)^2
L=n1k=1∑n(yi′−yi)2
即预测值和真实值之间的平均的平方距离,MAE(均方误差)
优化算法:梯度下降法和最小二乘法。
代码
sklearn中包含线性回归模型的包
from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(x_train, y_train) # 训练集特征x和标签y
linreg.intercept_ # 查看模型偏置系数
linreg.coef_ #查看模型参数系数
y_pred = linreg.predict(x_test) # 对测试集进行预测
# 利用交叉验证法,对模型进行优化
from sklearn.model_selection import cross_val_predict
pre = cross_val_predict(linreg, x, y, cv=10)
其它
- 线性回归是一种预测模型,利用各个特征去预测目标值。线性回归的假设前提是噪声符合正态分布。
- 线性回归要求因变量符合正态分布,这是由于线性回归的假设前提是特征与预测值呈线性关系,误差项符合高斯-马尔可夫条件(零均值,零方差,不相关),此时线性回归为无偏估计。噪声和因变量符合正态分布。
- 线性回归的五个假设:1.特征和标签呈线性关系;2.误差之间相互独立;3.自变量相互独立;4.误差项的方差应为常数;5.误差呈正态分布。
参考1
参考2