第三章线性回归

2024-01-01 20:01:58

线性模型

给定由\(d\)个属性描述的实例\(x=(x_1;x_2;\dots ;x_d)\),其中\(x_i\)是x在第i个属性上的取值，线性模型试图学得一个通过属性的线性组合来进行预测的函数，即\(f(x)=w_1x_1+w_2x_2+\dots+w_dx_d+b\)
可简化成向量形式\(f(x)=w^Tx+b\),其中\(w=(w_1;w_2;\dots;w_d)\)

判定标准

通过求f(x)与y最小均方误差来判定是否为最优解
最小二乘法（一元线性）：计算出每个样本预测值与真实值之间的误差并求和，通过最小化均方误差MSE，使用求偏导等于零的方法计算出拟合直线y=wx+b的两个参数w和b。
多元线性回归：由最小二乘法推演，将模型转化成向量模式，
3 对数几率回归
单位阶跃函数：若预测值zz大于零判为正例，小于零判为反例，预测值为临界值零则可任意判别。
对数几率函数：
概念：若将yy看做样本为正例的概率，(1-y)(1?y)看做样本为反例的概率，则使用线性回归模型的预测结果器逼近真实标记的对数几率
思路：使用最大似然估计的方法来计算出ww和bb两个参数的取值 \displaystyle \ln \frac{p(y=1 | x)}{p(y=0 | x)}=w^T x + bln

正例：\displaystyle p(y=1|x) = \frac{e^{wT x + b}}{1 + e^{wT x + b}}p(y=1∣x)=
1+e
w
T
x+b

e
w
T
x+b

负例：\displaystyle p(y=0|x) = \frac{1}{1 + e^{wT x + b}}p(y=0∣x)=
1+e
w
T
x+b

1
?

似然函数：\displaystyle \ell(w, b)=\sum_{i=1}^m \ln p(y_i | x_i ; w, b)?(w,b)=
i=1
∑
m
?
lnp(y
i
?
∣x
i
?
;w,b)，对数变乘为加，即所有样本出现真实值的概率乘积最大。
4 线性判别分析
线性判别分析（LDA）基本思想：将训练样本投影到一条直线上，使得同类的样例尽可能近，不同类的样例尽可能远。对新样本进行分类时，投影到同一条直线上，根据投影点的位置确定新样本的类别。
具体步骤：
给定数据集D={(x_i,y_i)}{i=1}^m, y_i \in {0,1}D={(x
i
?
,y
i
?
)}
i=1
m
?
,y
i
?
∈{0,1}，令X_i,\mu_i, \Sigma_iX
i
?
,μ
i
?
,Σ
i
?
分别表示第i \in {0,1}i∈{0,1}类示例的集合、均值向量、协方差矩阵。
若将数据投影到直线ww上，则两类样本的中心在直线上的投影分别为w^T \mu_0w
T
μ
0
?
和w^T \mu_1w
T
μ
1
?
；若将所有样本点都投影到直线上，则两类样本的协方差分别为w^T \Sigma_0 ww
T
Σ
0
?
w和w^T \Sigma_1 ww
T
Σ
1
?
w。
使得各类的协方差之和尽可能小，不同类之间中心的距离尽可能大。
计算类内散度矩阵：
\begin{aligned} S_w &=\Sigma_0+\Sigma_1 \ &=\sum{x \in X_0} (x-\mu_0) (x-\mu_0)^T+ \sum_{x \in X_1}(x-\mu_1)(x-\mu_1)^T \end{aligned}
S
w
?

=Σ
0
?
+Σ
1
?

=
x∈X
0
?

∑
?
(x?μ
0
?
)(x?μ
0
?
)
T
+
x∈X
1
?

∑
?
(x?μ
1
?
)(x?μ
1
?
)
T

计算类间散度矩阵：

的N-1N?1个最大广义特征值所对应的特征向量组成的矩阵
LDA常被视为一种经典的监督降维技术。
5 多分类学习
“拆分”策略：将多分类问题拆解为多个二分类问题，训练出多个二分类学习器，最后将多个分类结果进行集成得出结论。
“一对一”（OvO）：给定数据集DD，假定其中有NN个真实类别，将这NN个类别进行两两配对（一个正类/一个反类），从而产生N(N-1)/2N(N?1)/2个二分类学习器，在测试阶段，将新样本提交给所有学习器，得出N(N-1)N(N?1)个结果，最终通过投票产生最终的分类结果。
“一对其余”（OvR）：给定数据集DD，假定其中有NN个真实类别，每次取出一个类作为正类，剩余的所有类别作为一个新的反类，从而产生NN个二分类学习器，在测试阶段，得出NN个结果，若仅有一个学习器预测为正类，则对应的类标作为最终分类结果。
“多对多”（MvM）：给定数据集DD，假定其中有NN个真实类别，每次取若干个类作为正类，若干个类作为反类（通过ECOC码给出，编码），若进行了MM次划分，则生成了MM个二分类学习器，在测试阶段（解码），得出MM个结果组成一个新的编码，最终通过将预测编码与每个类别各自的编码进行比较，选择距离最小的类别作为最终分类结果。
6 类别不平衡问题
概念：指分类问题中不同类别的训练样本相差悬殊的情况
常用方法：
对训练样本较多的类别中进行“欠采样”（undersampling），使得正反例数目接近，常见的算法有：EasyEnsemble。
对训练样本较少的类别中进行“过采样”（oversampling），增加较少类的数量，使得正反例数目接近，常见的算法有SMOTE。
直接基于原数据集进行学习，对预测值进行“再缩放”处理。其中“再缩放”也是“代价敏感学习”的基础。

第三章线性回归

码农公寓

相关文章