机器学习(一)
全程跟着白板推到走的,算是一个复习的记录,总共分为三部分
(一)频率派和贝叶斯派
(二)高斯分布
(三)高斯分布的情况例子
频率派和贝叶斯派
频率派认为 θ \theta θ是一个未知的常量,而数据服从于未知的分布,一般利用极大似然的思想来进行求解问题。
θ M L E = a r g m a x Σ i = 1 N l o g P ( X i ∣ θ ) \theta_{MLE}=argmax \Sigma_{i=1}^{N}logP(X_i|\theta) θMLE=argmaxΣi=1NlogP(Xi∣θ)
贝叶斯派认为
θ
\theta
θ服从于一个未知的分布,有
θ
−
P
(
θ
)
\theta-P(\theta)
θ−P(θ),这里的
P
(
θ
)
P(\theta)
P(θ)一般被称为先验,而后利用贝叶斯公式和全概率公式来进行先验和后验的一个关系建立
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
P
(
θ
)
P
(
x
)
P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(x)}
P(θ∣X)=P(x)P(X∣θ)P(θ)
这里如果我们对贝叶斯公式进行似然的分解,可以很容易就得到后验=似然+正则
Σ l o g P ( θ ∣ x ) ∝ Σ l o g P ( X ∣ θ ) + Σ P ( θ ) \Sigma logP(\theta|x) \varpropto \Sigma logP(X|\theta) + \Sigma P(\theta) ΣlogP(θ∣x)∝ΣlogP(X∣θ)+ΣP(θ)
所以可以看成 极 大 后 验 ∝ 极 大 似 然 + 正 则 极大后验 \varpropto 极大似然 + 正则 极大后验∝极大似然+正则
同时,频率派最终会转化为一个优化问题,而贝叶斯则则会转化为积分问题
(二)高斯分布
一维高斯分布
P
(
x
)
=
1
2
π
σ
e
x
p
−
(
x
−
μ
)
2
2
σ
2
P(x) = \frac{1}{\sqrt{2\pi}\sigma}exp^{-\frac{(x-\mu)^2}{2\sigma^2}}
P(x)=2π
σ1exp−2σ2(x−μ)2
我们假设有
X
=
(
x
1
,
x
2
,
x
3
,
.
.
.
,
x
n
)
T
X = (x_1,x_2,x_3,...,x_n) ^{T}
X=(x1,x2,x3,...,xn)T的数据,每个
x
i
x_i
xi都服从高斯分布,我们进行一个极大似然来进行参数的估计
L
(
θ
)
=
∏
i
=
1
n
P
(
x
i
)
∝
Σ
i
=
1
n
l
o
g
P
(
x
i
)
L(\theta) = \prod_{i=1}^{n}P(x_i) \\ \varpropto \Sigma_{i=1}^{n}logP(x_i)
L(θ)=i=1∏nP(xi)∝Σi=1nlogP(xi)
我们可以得到
μ
\mu
μ和
σ
2
\sigma^2
σ2的参数估计,其中,
μ
\mu
μ是无偏估计,
σ
2
\sigma^2
σ2是有偏估计,估计小了
高维高斯分布
这里主要讨论的是马氏距离,然后利用特征值分解就可以得到
(三)高斯分布的复杂情况
这里计算复杂的话用配方法,不想复杂计算就用视频里面讲的方法