极大似然估计 & 最大后验概率
参考:
频率学派和贝叶斯学派
对事物建模的时候用 \(\theta\) 表示模型的参数,解决问题的本质就是求\(\theta\)
- 频率学派:(存在唯一的真知\(\theta\) )
- 直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率。
- 他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE)
- 这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。
- 贝叶斯派 (\(\theta\) 是一个随机变量,符合一定的概率分布)
- 认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。
- 他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计(MAP),
- 两大输入和一大输出
- 输入:先验和似然,输出是后验
- 先验:\(P(\theta)\): 没有观测到任何数据的时候对 \(\theta\) 的预先判断。
- 似然:\(P(X|\theta)\) 假设\(\theta\) 已知后,观察到的数据应该是什么样子
- 后验:\(P(\theta|X)\) 最终的参数分布。\(P(\theta|X) = \frac{P(X|\theta)*P(\theta)}{P(X)}\)
模型参数估计的方法:极大似然估计 & 最大后验概率估计
经验风险最小化 & 结构风险最小化 (针对损失函数而言的)
- 经验风险最小化
- 侧重训练数据集上的损失降到最低
- 可以看做采用了极大似然的参数评估方法,更侧重从数据中学习模型的潜在参数
- 当模型是条件概率分布,损失函数是对数损失函数时候,经验风险最小化 等价于极大似然估计。
-
LR推导
- 结构风险最小化
- 在经验风险最小化的基础上约束模型的复杂度。
- 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计