机器学习总结

2023-10-06 22:11:22

机器学习总结

0 前言
1理论部分
2 应用
- 2.1 SVM
- 2.2 decision tree

0 前言

机器学习是人工智能的核心，从历史数据中学习信息，总结规律。
学会概率论与数理统计，矩阵分析以及凸优化，机器学习就掌握了大部分。
其中贝叶斯，梯度下降，svd分解在机器学习中较为常用。

1理论部分

1.1 优化问题

机器学习可以抽象为优化问题
未知函数 f : x → y f :x\to y f:x→y
数据集 D ( x i , y i ) \mathcal{D} (x_i,y_i) D(xi,yi)
假设函数类 H , h ∈ H \mathcal{H},h\in \mathcal{H} H,h∈H看成约束
损失函数 l o s s ( h ( x i ) , y i ) loss(h(x_i),y_i) loss(h(xi),yi)
m i n h E D ( l o s s ( h ( x i ) , y i ) s . t h ∈ H min_h \quad \mathbb{E}^D(loss(h(x_i),y_i)\\ s.t \quad h\in \mathcal{H} minhED(loss(h(xi),yi)s.th∈H
上述问题称为期望风险极小化，但是实际情况，我们不知道所有数据集，只有样本，上述问题转为
m i n h 1 n ∑ i n ( l o s s ( h ( x i ) , y i ) s . t h ∈ H . min_h \quad \frac{1}{n}\sum_i^n(loss(h(x_i),y_i)\\ s.t \quad h\in \mathcal{H}. minhn1i∑n(loss(h(xi),yi)s.th∈H.
称为经验风险极小化。

从概率角度解释
存在一个未知分布 ( x , y ) ∼ P ( X , Y ) (x,y)\sim P(X,Y) (x,y)∼P(X,Y)，
极大似然估计：极大化后验概率 p ( y ∣ x ) p(y|x) p(y∣x)

1.2 泛化

用样本得到的模型再样本之外的数据集性能表现称为泛化。
E i n \mathbb{E}_{in} Ein：样本期望误差
E o u t \mathbb{E}_{out} Eout：样本之外数据点的期望误差
大数定理，Hoeffding’s inequality
P [ ( ∣ E i n ( h ) − E o u t ( h ) ∣ ) > ϵ ] ≤ 2 e − 2 ϵ 2 m P[(|\mathbb{E}_{in}(h)-\mathbb{E}_{out}(h)|)>\epsilon]\leq 2e^{-2\epsilon^2m} P[(∣Ein(h)−Eout(h)∣)>ϵ]≤2e−2ϵ2m
m为样本个数。
g g g为最优 h h h
对于有限的 H \mathcal{H} H
P [ ( ∣ E i n ( g ) − E o u t ( g ) ∣ ) > ϵ ] ≤ P [ ( ∣ E i n ( h 1 ) − E o u t ( h 1 ) ∣ ) > ϵ ] + P [ ( ∣ E i n ( h 2 ) − E o u t ( h 2 ) ∣ ) > ϵ ] + . . . ≤ 2 ∣ H ∣ e − 2 ϵ 2 m P[(|\mathbb{E}_{in}(g)-\mathbb{E}_{out}(g)|)>\epsilon]\\\leq P[(|\mathbb{E}_{in}(h_1)-\mathbb{E}_{out}(h_1)|)>\epsilon]+P[(|\mathbb{E}_{in}(h_2)-\mathbb{E}_{out}(h_2)|)>\epsilon]+...\\ \leq 2|\mathcal{H}|e^{-2\epsilon^2m} P[(∣Ein(g)−Eout(g)∣)>ϵ]≤P[(∣Ein(h1)−Eout(h1)∣)>ϵ]+P[(∣Ein(h2)−Eout(h2)∣)>ϵ]+...≤2∣H∣e−2ϵ2m
对于无限的 H \mathcal{H} H
P [ ( ∣ E i n ( g ) − E o u t ( g ) ∣ ) > ϵ ] ≤ 4 m H ( 2 N ) e − 1 8 ϵ 2 N P[(|\mathbb{E}_{in}(g)-\mathbb{E}_{out}(g)|)>\epsilon]\leq 4 m_{\mathcal{H}}(2N)e^{-\frac{1}{8}\epsilon^2N} P[(∣Ein(g)−Eout(g)∣)>ϵ]≤4mH(2N)e−81ϵ2N
m H ( N ) m_{\mathcal{H}}(N) mH(N)为增长函数，表示对于 N N N个数据点可以将数据分为几类。
k k k为断点，当 N < k N<k N<k时可以被完全粉碎，即分为 2 N 2^N 2N类。
d v c = k − 1 d_{vc}=k-1 dvc=k−1
二分类问题最多显然为 2 N 2^N 2N类，不同的假设函数类分类能力不同，如下例子。
m H ( N ) ≤ ∑ i = 0 k − 1 C N i m_{\mathcal{H}}(N)\leq \sum_{i=0}^{k-1}C_N^i mH(N)≤∑i=0k−1CNi

给定误差限 δ \delta δ
E o u t ≤ E i n + 8 N l n ( 4 ( ( 2 N ) d v c + 1 ) δ ) \mathbb{E}_{out}\leq \mathbb{E}_{in}+\sqrt{\frac{8}{N}ln(\frac{4((2N)^{d_{vc}}+1)}{\delta})} Eout≤Ein+N8ln(δ4((2N)dvc+1))
降低置信度，增大训练集，慎选假设函数集来提升泛化。

1.3 过拟合

正则化

1.4 优化算法

一阶算法，二阶算法，牛顿，拟牛顿

2 应用

2.1 SVM

到直线距离最大

2.2 decision tree

未完待续

码农公寓