统计学习方法

目录

极大似然估计 & 最大后验概率

参考:

频率学派和贝叶斯学派

对事物建模的时候用 \(\theta\) 表示模型的参数,解决问题的本质就是求\(\theta\)

  • 频率学派:(存在唯一的真知\(\theta\) )
    • 直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率。
    • 他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE)
    • 这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。
  • 贝叶斯派 (\(\theta\) 是一个随机变量,符合一定的概率分布)
    • 认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。
    • 他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计(MAP),
    • 两大输入和一大输出
      • 输入:先验和似然,输出是后验
      • 先验:\(P(\theta)\): 没有观测到任何数据的时候对 \(\theta\) 的预先判断。
      • 似然:\(P(X|\theta)\) 假设\(\theta\) 已知后,观察到的数据应该是什么样子
      • 后验:\(P(\theta|X)\) 最终的参数分布。\(P(\theta|X) = \frac{P(X|\theta)*P(\theta)}{P(X)}\)

模型参数估计的方法:极大似然估计 & 最大后验概率估计

经验风险最小化 & 结构风险最小化 (针对损失函数而言的)

  • 经验风险最小化
    • 侧重训练数据集上的损失降到最低
    • 可以看做采用了极大似然的参数评估方法,更侧重从数据中学习模型的潜在参数
    • 当模型是条件概率分布,损失函数是对数损失函数时候,经验风险最小化 等价于极大似然估计。
    • LR推导

  • 结构风险最小化
    • 在经验风险最小化的基础上约束模型的复杂度。
    • 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计
上一篇:SpingCloud微服务架构学习(一)之服务提供者与服务消费者


下一篇:ABAP中的AMDP(ABAP-Managed Database Procedures )