李宏毅机器学习笔记:4.概率分类模型

# 2021.09.18 点赞过1 明日更新下一P
# 内容:P10,P11
主要参考:https://blog.csdn.net/oldmao_2001/article/details/90314458
高斯分布:https://zhuanlan.zhihu.com/p/262125747

文章目录

P10: 概率分类模型

10.1 线性回归模型短板

  • 不足1: 当我们发现有些数据很离谱,那么会严重影响模型,使得得出我们不想要的结果

李宏毅机器学习笔记:4.概率分类模型
右图我们得到的是紫的回归线,很明显 不是最理想的绿色

  • 不足2:多分类的时候,错误的估计关系

    我们多分类时,有分类1,2,3.线性回归会很自然的认为 3类离2类相似度更近,相对于1类来说。

  • 不足3:有些模型你没办法计算

李宏毅机器学习笔记:4.概率分类模型
损失函数是输出和标记(label)不同的次数之和,这个函数是无法微分的。学过的梯度下降无法解决这个问题,解决方案有:感知机、支持向量机,但今天会用概率的方式解决这个问题。

10.2 贝叶斯

大名鼎鼎的贝叶斯是啥?很简单。
李宏毅机器学习笔记:4.概率分类模型
贝叶斯:拿到一个球是绿球,这个球是C1类拿出的概率是:李宏毅机器学习笔记:4.概率分类模型

其中,全概率公式:
.
李宏毅机器学习笔记:4.概率分类模型
说人话就是,取出x的概率(比如绿球的概率)=C1箱中拿个球是绿 x x x球 x 选C1箱的概率 + C2箱中拿个球 x x x是绿球 x 选C2箱的概率

*注 运算符号为黄

10.3 高斯分布

正态分布数学推导过程: https://zhuanlan.zhihu.com/p/24437232

引题

如果你抓了一把沙子,然后将它撒在桌子上,那么,沙子会均匀的铺在桌子上么,不会,沙子会堆成一个小堆,中心沙子最多,离中心越远沙子越少。

如果一个地区的平均工资是6000元,那么,收入2000元和10000元的人将是少数,大部分人的工资会在6000元左右浮动。

我们通常发现,以上问题都有很规律的分布,就是中间概率大,极端概率小的问题。

单变量高斯分布

  • 高斯分布就是大名鼎鼎的正态分布
    李宏毅机器学习笔记:4.概率分类模型
  • 参数 方差 σ \sigma σ 参数下的图像

李宏毅机器学习笔记:4.概率分类模型

可以说 方差 σ \sigma σ 控制着高斯分布的“瘦”和“胖”。也很容易理解,因为方差主要看离散程度,如果方差越小,说明越集中,那么中间统计数量就越多,概率就越大,图形就越高;如果方差越大,说明,数据越离散,极端情况的数据就相对于更多,分布就越扁。

方差公式

σ 2 = ( 1 / m ) ∑ i = 1 m ( x i − μ ) 2 \sigma^2=(1/m)\sum_{i=1}^m(x^i-\mu)^2 σ2=(1/m)∑i=1m​(xi−μ)2
.
这里, x i x^i xi是数据集中的单个值,m是数据的总数。

  • 参数 均值 μ \mu μ
    李宏毅机器学习笔记:4.概率分类模型

左图的形状与右图完全相同,只是中心移动到了3。现在最大的密度是3。也很容易理解, μ \mu μ是个均值概念,也就是平均值,他的值就应该是分布最多的地方,也是正态分布轴的位置。

方差公式

μ = ( 1 / m ) ∑ i = 1 m x i \mu=(1/m)\sum_{i=1}^mx^i μ=(1/m)∑i=1m​xi
.
这里, x i x^i xi是数据集中的单个值,m是数据的总数。

【多元高斯分布】

李宏毅机器学习笔记:4.概率分类模型

这里面有三个参数:

  • x是个n维向量,比如宝可梦7个特征,那么x就是7维;
  • μ \mu μ 是均值向量,例子中是也是七维
  • 大写sigma : Σ \Sigma Σ是个矩阵,例子中是个7*7的矩阵

我们也就是 知道一个数据x的n位特征和抽样统计分布的 μ , Σ \mu,\Sigma μ,Σ, 我们能求出来,这个数据抽样出来的概率

10.4 应用过程

以李宏毅老师,宝可梦二维数据来演示二分类过程,数据应用计算过程

已知:我们从样本中抽了140只宝可梦,水系宝可梦79只,一般系宝可梦61只

:如何知道一个宝可梦(例如一只海龟)属于水系的概率是多少?即 P(x|C1),如果是2分类,大于0.5,那么就归于class1(水系)

【思路】

李宏毅机器学习笔记:4.概率分类模型
我们如果知道P(C1),P(C2),P(x|C1),P(x|C2),四个概率 就可解求得

  • ① 求水系宝可梦概率P(C1) 和 一般系宝可梦概率 P(C2)

P(C1) = 79/(79+61) = 0.56
P(C2) = 61/(79+61) = 0.44

  • 找到均值和协方差矩阵(最大似然 maximum likelihood)

【杨哥解析】

  • 首先这140只宝可梦是抽出来的,满足高斯分布
  • 如图,取样可能满足多个高斯分布
    李宏毅机器学习笔记:4.概率分类模型

如何选择?

我们选择概概率最大的,也就是最大似然高斯分布( μ ∗ , Σ ∗ \mu^*,\Sigma^* μ∗,Σ∗)

正规求法:
李宏毅机器学习笔记:4.概率分类模型

直接结果法,求C1的分布:

李宏毅机器学习笔记:4.概率分类模型

同理,求C2的。得到一下结果

李宏毅机器学习笔记:4.概率分类模型

  • ③ 用高斯分布分别求向量x[103.45]在两个高斯分布的概率,即计算P(x|C1),P(x|C2)

李宏毅机器学习笔记:4.概率分类模型

李宏毅机器学习笔记:4.概率分类模型

10.5 模型改进

  • 我们为了简化计算过程,用了同一个 Σ \Sigma Σ

李宏毅机器学习笔记:4.概率分类模型

  • 最大似然估计

正规求法
李宏毅机器学习笔记:4.概率分类模型

偷懒求法:
李宏毅机器学习笔记:4.概率分类模型

上一篇:Codeforces Round #702 (Div. 3)


下一篇:Oracle中常用的的函数