线性回归.

线性回归

线性回归

线性回归假设目标值和特征值之间存在线性相关,即满足多元一次方程。其公式为:
y ′ = w ∗ x + b y' = w*x+b y′=w∗x+b
y ′ y' y′为预测值,线性回归模型是利用数据特征,求解 w , b w,b w,b两个参数。
损失函数
L = 1 n ∑ k = 1 n ( y i ′ − y i ) 2 L = \frac{1}{n} \sum_{k=1}^n (y'_i - y_i)^2 L=n1​k=1∑n​(yi′​−yi​)2
即预测值和真实值之间的平均的平方距离,MAE(均方误差)
优化算法:梯度下降法和最小二乘法。

代码

sklearn中包含线性回归模型的包

from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(x_train, y_train)  # 训练集特征x和标签y
linreg.intercept_  # 查看模型偏置系数
linreg.coef_ #查看模型参数系数
y_pred = linreg.predict(x_test)  # 对测试集进行预测

# 利用交叉验证法,对模型进行优化
from sklearn.model_selection import cross_val_predict
pre = cross_val_predict(linreg, x, y, cv=10)

其它

  1. 线性回归是一种预测模型,利用各个特征去预测目标值。线性回归的假设前提是噪声符合正态分布。
  2. 线性回归要求因变量符合正态分布,这是由于线性回归的假设前提是特征与预测值呈线性关系,误差项符合高斯-马尔可夫条件(零均值,零方差,不相关),此时线性回归为无偏估计。噪声和因变量符合正态分布。
  3. 线性回归的五个假设:1.特征和标签呈线性关系;2.误差之间相互独立;3.自变量相互独立;4.误差项的方差应为常数;5.误差呈正态分布。
    参考1
    参考2
上一篇:KNN:最近邻算法原理、python实现以及sklearn实现


下一篇:04机器学习之无监督学习