16-支持向量机SVM

文章目录

1. 支持向量机核心思想

支持向量机SVM有三宝:间隔,对偶,核技巧
注:核技巧与SVM没有固定的绑定关系,核技巧作用是让SVM从普通的欧式空间映射到高维空间,可以实现非线性的分类
16-支持向量机SVM

支持向量机的作用是找到一个超平面将上图中的样本进行分类,SVM模型的作用是找到一个超平面 y = w T x + b ( 绿 色 ) y=w^Tx+b(绿色) y=wTx+b(绿色),这个超平面具有很好的鲁棒性,不会随着样本的轻微的波动而进行错误的分类;简而言之:我们要找到一个很好的超平面,这个超平面距离两类样本点的距离足够大,由一定的鲁棒性;
支 持 向 量 机 超 平 面 : f ( w ) = w T x + b (1) 支持向量机超平面:f(w)=w^Tx+b\tag{1} 支持向量机超平面:f(w)=wTx+b(1)

2.SVM的分类

  1. Hard-margin SVM ----> 硬间隔 SVM
  2. Soft-margin SVM ----->软间隔 SVM
  3. Kernel SVM ------>核函数 SVM

3.SVM的模型建立-hard-margin SVM 硬间隔

3.1数据集定义

我们定义数据集中由N个样本 D = { ( x i , y i ) } i = 1 N , 其 中 x i ∈ R p ; y i ∈ { − 1 , + 1 } D=\{(x_i,y_i)\}_{i=1}^N,其中x_i \in \mathbb{R}^p;y_i \in\{-1,+1\} D={(xi​,yi​)}i=1N​,其中xi​∈Rp;yi​∈{−1,+1},我们就是运用一个符号函数将上述样本分成 y 1 = − 1 , y 2 = + 1 ; y_1=-1,y_2=+1; y1​=−1,y2​=+1;

3.2 求两类样本最小距离点

我们知道,要做最大间隔分类器分两步:

1.间隔,从N个样本中找到一个样本到超平面最小的距离: m a r g i n ( w , b ) = m i n i = 1 , 2 , . . , n 1 ∣ ∣ w ∣ ∣ ( w T x i + b ) ; f o r { x i , y i } margin(w,b)=min_{i=1,2,..,n}\frac{1}{||w||}(w^Tx_i+b) ;for\{x_i,y_i\} margin(w,b)=mini=1,2,..,n​∣∣w∣∣1​(wTxi​+b);for{xi​,yi​}
2. 最大:求出间隔后,再求最大间隔
  w , b m a x   x i , i = 1 , 2 , . . n ; m i n 1 ∣ ∣ w ∣ ∣ ( w T x i + b ) =   w , b m a x   x i , i = 1 , 2 , . . n ; m i n 1 ∣ ∣ w ∣ ∣ ( w T x i + b ) =   w , b m a x 1 ∣ ∣ w ∣ ∣   x i , i = 1 , 2 , . . n ; m i n [ y i ( w T x i + b ) ] (2) \ {}_{w,b}^{max}\ {}_{x_i,i=1,2,..n;}^{min}{\frac{1}{||w||}(w^Tx_i+b)}=\ {}_{w,b}^{max}\ {}_{x_i,i=1,2,..n;}^{min}{\frac{1}{||w||}(w^Tx_i+b)}=\ {}_{w,b}^{max}\frac{1}{||w||}\ {}_{x_i,i=1,2,..n;}^{min}[y_i(w^Tx_i+b)] \tag{2}  w,bmax​ xi​,i=1,2,..n;min​∣∣w∣∣1​(wTxi​+b)= w,bmax​ xi​,i=1,2,..n;min​∣∣w∣∣1​(wTxi​+b)= w,bmax​∣∣w∣∣1​ xi​,i=1,2,..n;min​[yi​(wTxi​+b)](2)
满足:s.t.: y i ( w T x i + b ) > 0 y_i(w^Tx_i+b)>0 yi​(wTxi​+b)>0
注:
∵ y i ( w T x i + b ) > 0 \because y_i(w^Tx_i+b)>0 ∵yi​(wTxi​+b)>0
∴ 一 定 存 在 一 个 数 r > 0 , 对 于 所 有 样 本 { ( x i , y i ) } ; 其 最 小 值 是 r ; 令 : M I N [ y i ( w T x i + b ) ] = r ; \therefore 一定存在一个数r>0,对于所有样本\{(x_i,y_i)\};其最小值是r;令:MIN[y_i(w^Tx_i+b)]=r ; ∴一定存在一个数r>0,对于所有样本{(xi​,yi​)};其最小值是r;令:MIN[yi​(wTxi​+b)]=r;
∵ 因 为 超 平 面 是 可 以 自 由 缩 放 的 \because 因为超平面是可以*缩放的 ∵因为超平面是可以*缩放的
∴ 所 以 对 于 超 平 面 来 说 , w T x i + b = 2 w T x i + 2 b \therefore 所以对于超平面来说,w^Tx_i+b=2w^Tx_i+2b ∴所以对于超平面来说,wTxi​+b=2wTxi​+2b
∴ 既 然 都 相 等 , 那 么 我 们 为 了 后 续 方 便 计 算 和 约 束 ∣ ∣ w ∣ ∣ , 就 可 以 令 r = 1 \therefore 既然都相等,那么我们为了后续方便计算和约束||w||,就可以令r=1 ∴既然都相等,那么我们为了后续方便计算和约束∣∣w∣∣,就可以令r=1
  w , b m a x 1 ∣ ∣ w ∣ ∣   x i , i = 1 , 2 , . . n ; m i n [ y i ( w T x i + b ) ] =   w , b m a x 1 ∣ ∣ w ∣ ∣ (3) \ {}_{w,b}^{max}\frac{1}{||w||}\ {}_{x_i,i=1,2,..n;}^{min}[y_i(w^Tx_i+b)]= \ {}_{w,b}^{max}\frac{1}{||w||}\tag{3}  w,bmax​∣∣w∣∣1​ xi​,i=1,2,..n;min​[yi​(wTxi​+b)]= w,bmax​∣∣w∣∣1​(3)
S . T : y i ( w T x i + b ) ≥ 1 ; i = 1 , 2 , . . . , N (4) S.T :y_i(w^Tx_i+b)\geq1;i=1,2,...,N\tag{4} S.T:yi​(wTxi​+b)≥1;i=1,2,...,N(4)
我们一般习惯用最小值表示,并将||w||表示成向量形式||W||= 1 2 w T w \frac{1}{2}w^Tw 21​wTw:

3.3最大间隔分类器数学模型(优化问题=凸优化问题convex_optimization)

  w , b m i n 1 2 w T w ; (5) \ {}_{w,b}^{min}\frac{1}{2}w^Tw;\tag{5}  w,bmin​21​wTw;(5)
S . T : y i ( w T x i + b ) ≥ 1 ; N 个 约 束 : i = 1 , 2 , . . . , N (6) S.T :y_i(w^Tx_i+b)\geq1;N个约束:i=1,2,...,N\tag{6} S.T:yi​(wTxi​+b)≥1;N个约束:i=1,2,...,N(6)
以上是一个凸优化问题,目标函数是二次函数,一共有N个约束,即一个二次规划问题(Quadratic Programming)-QP问题;

3.4 数学模型转换

对于此类问题,我们的思想是借助拉格朗日法将凸优化问题(原问题)转换成对偶问题;

3.4.1 将凸优化问题转换成拉格朗日乘子

原 问 题 :   w , b m i n 1 2 w T w ; (7) 原问题:\ {}_{w,b}^{min}\frac{1}{2}w^Tw;\tag{7} 原问题: w,bmin​21​wTw;(7)
原 问 题 : S . T : y i ( w T x i + b ) ≥ 1 ; N 个 约 束 : i = 1 , 2 , . . . , N (7) 原问题:S.T :y_i(w^Tx_i+b)\geq1;N个约束:i=1,2,...,N\tag{7} 原问题:S.T:yi​(wTxi​+b)≥1;N个约束:i=1,2,...,N(7)

拉 格 朗 日 函 数 : L ( w , b , λ ) = 1 2 w T w + ∑ i = 1 N λ i [ 1 − y i ( w T x i + b ) ] ; (8) 拉格朗日函数:L(w,b,\lambda)=\frac{1}{2}w^Tw+\sum_{i=1}^{N}\lambda_i[1-y_i(w^Tx_i+b)];\tag{8} 拉格朗日函数:L(w,b,λ)=21​wTw+i=1∑N​λi​[1−yi​(wTxi​+b)];(8)
拉 格 朗 日 函 数 : S . T : λ i ≥ 0 ; 1 − y i ( w T x i + b ) ≤ 0 (8) 拉格朗日函数:S.T :\lambda_i\geq0;1-y_i(w^Tx_i+b)\leq 0\tag{8} 拉格朗日函数:S.T:λi​≥0;1−yi​(wTxi​+b)≤0(8)
我们通过拉格朗日乘子法,将原问题中带约束的问题转换成无约束的问题:那么原问题的等价模型如下:
原 问 题 的 等 价 模 型 :   w , b m i n   λ m a x L ( w , b , λ ) (9) 原问题的等价模型:\ {}_{w,b}^{min}\ {}_{\lambda}^{max}L(w,b,\lambda) \tag{9} 原问题的等价模型: w,bmin​ λmax​L(w,b,λ)(9)
原 问 题 的 等 价 模 型 : s . t : λ i ≥ 0 (9) 原问题的等价模型:s.t:\lambda_i \geq 0 \tag{9} 原问题的等价模型:s.t:λi​≥0(9)

3.4.2 原问题与等价问题解释

将w,b组成的数据几何分成两个部分:令 Δ = 1 − y i ( w T x i + b ) \Delta=1-y_i(w^Tx_i+b) Δ=1−yi​(wTxi​+b)

情况1:
当 Δ = 1 − y i ( w T x i + b ) > 0 ; 且 λ i ≥ 0 ; 则 : 当\Delta=1-y_i(w^Tx_i+b)>0;且\lambda_i \geq 0;则: 当Δ=1−yi​(wTxi​+b)>0;且λi​≥0;则:

  λ m a x L ( w , b , λ ) = 1 2 w T w + ∑ i = 1 N λ i [ 1 − y i ( w T x i + b ) ] = 1 2 w T w + ∞ \ {}_{\lambda}^{max}L(w,b,\lambda)=\frac{1}{2}w^Tw+\sum_{i=1}^{N}\lambda_i[1-y_i(w^Tx_i+b)]=\frac{1}{2}w^Tw+\infty  λmax​L(w,b,λ)=21​wTw+∑i=1N​λi​[1−yi​(wTxi​+b)]=21​wTw+∞

情况2:
当 Δ = 1 − y i ( w T x i + b ) ≤ 0 ; 且 λ i ≥ 0 ; 则 : 当\Delta=1-y_i(w^Tx_i+b)\leq0;且\lambda_i \geq 0;则: 当Δ=1−yi​(wTxi​+b)≤0;且λi​≥0;则:

  λ m a x L ( w , b , λ ) = 1 2 w T w + ∑ i = 1 N λ i [ 1 − y i ( w T x i + b ) ] = 1 2 w T w + 0 = 1 2 w T w \ {}_{\lambda}^{max}L(w,b,\lambda)=\frac{1}{2}w^Tw+\sum_{i=1}^{N}\lambda_i[1-y_i(w^Tx_i+b)]=\frac{1}{2}w^Tw+0=\frac{1}{2}w^Tw  λmax​L(w,b,λ)=21​wTw+∑i=1N​λi​[1−yi​(wTxi​+b)]=21​wTw+0=21​wTw

合并上述问题:
  w , b m i n   λ m a x L ( w , b , λ ) =   w , b m i n { ∞ , 1 2 w T w } =   w , b m i n { 1 2 w T w } \ {}_{w,b}^{min}\ {}_{\lambda}^{max}L(w,b,\lambda)=\ {}_{w,b}^{min}\{\infty,\frac{1}{2}w^Tw\}=\ {}_{w,b}^{min}\{\frac{1}{2}w^Tw\}  w,bmin​ λmax​L(w,b,λ)= w,bmin​{∞,21​wTw}= w,bmin​{21​wTw}

结 论 :   w , b m i n   λ m a x L ( w , b , λ ) =   w , b m i n 1 2 w T w 结论:\ {}_{w,b}^{min}\ {}_{\lambda}^{max}L(w,b,\lambda)=\ {}_{w,b}^{min}\frac{1}{2}w^Tw 结论: w,bmin​ λmax​L(w,b,λ)= w,bmin​21​wTw

3.4.3对偶问题转换[将原问题 -> 对偶问题]

原 问 题 :   w , b m i n   λ m a x L ( w , b , λ ) ; λ i ≥ 0 ; 相 当 于 凤 尾 原问题:\ {}_{w,b}^{min}\ {}_{\lambda}^{max}L(w,b,\lambda);\lambda_i \geq0;相当于凤尾 原问题: w,bmin​ λmax​L(w,b,λ);λi​≥0;相当于凤尾
对 偶 问 题 :   λ m a x   w , b m i n L ( w , b , λ ) ; λ i ≥ 0 ; 相 当 于 鸡 头 对偶问题:\ {}_{\lambda}^{max}\ {}_{w,b}^{min}L(w,b,\lambda);\lambda_i \geq0;相当于鸡头 对偶问题: λmax​ w,bmin​L(w,b,λ);λi​≥0;相当于鸡头
我们可以用凤尾永远大于鸡头来形象
凤 尾 ≥ 鸡 头 [ 弱 对 偶 关 系 ] 凤尾\geq鸡头[弱对偶关系] 凤尾≥鸡头[弱对偶关系]
凤 尾 = 鸡 头 [ 强 对 偶 关 系 ] ; 满 足 K K T 条 件 情 况 下 的 凸 优 化 问 题 凤尾=鸡头[强对偶关系];满足KKT条件情况下的凸优化问题 凤尾=鸡头[强对偶关系];满足KKT条件情况下的凸优化问题
强 对 偶 问 题 下 的 等 价 模 型 :   λ m a x   w , b m i n L ( w , b , λ ) ; λ i ≥ 0 (10) 强对偶问题下的等价模型:\ {}_{\lambda}^{max}\ {}_{w,b}^{min}L(w,b,\lambda);\lambda_i \geq0 \tag{10} 强对偶问题下的等价模型: λmax​ w,bmin​L(w,b,λ);λi​≥0(10)

3.4.4对 L ( w , b , λ ) L(w,b,\lambda) L(w,b,λ)求偏导,w,b

上一篇:自监督-How to find your friendly neighborhood: Graph Attention Design with Self-Supervision


下一篇:ansible playbook 示例