引言
在学习贝叶斯估计时,遇到了似然函数的概念。这一概念并不陌生,在概率论中,介绍过参数估计的两种方法:极大似然估计和矩估计。其中,极大似然估计就是通过构造似然函数,取对数并计算极大值,来进行参数估计的。事实上,似然函数的确是常用于参数估计,或者说得到参数在某一观测条件下的后验分布。
参数已知下的概率分布
考虑一个密度函数
f
(
x
)
f(x)
f(x),其参数
θ
\theta
θ已知,则可据此得出概率
P
(
X
=
x
;
θ
)
P(X=x;\theta)
P(X=x;θ)。对于该密度函数,我们进行试验和观测,得到结果
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn,记
X
=
x
i
X=x_i
X=xi为事件
X
i
X_i
Xi,显然事件
X
i
X_i
Xi之间是相互独立的,事件
X
1
,
X
2
,
.
.
.
X
n
X_1,X_2,...X_n
X1,X2,...Xn发生的概率为
P
(
X
1
X
2
.
.
.
X
n
;
θ
)
P(X_1X_2...X_n;\theta)
P(X1X2...Xn;θ)。
似然函数的理解
似然函数恰与概率分布相反,我们假设参数
θ
\theta
θ是未知的,则其分布也无从确定,我们只能根据观测结果,来估算参数,也就是参数估计。似然函数通常用
L
(
θ
;
X
1
X
2
.
.
.
X
n
)
L(\theta;X_1X_2...X_n)
L(θ;X1X2...Xn)来表示,当似然函数取得极大值时,参数
θ
\theta
θ取得极大值点
θ
0
\theta_0
θ0,也表明在这些观测结果的指引下,认为
θ
=
θ
0
\theta=\theta_0
θ=θ0的概率最大,从而实现了参数的极大似然估计。
硬币的例子
举一个投掷硬币的例子。
投掷两次硬币,记每一次正面朝上为事件 H H H,记先验概率 p ( H ) = θ p(H)=\theta p(H)=θ,则两次同为正面朝上的概率是 P ( H H ; θ ) = θ 2 P(HH;\theta)=\theta^2 P(HH;θ)=θ2。
假设硬币表面不平整等原因,造成参数 θ \theta θ不确定,需要根据已有的观测事件 H H HH HH人为估计 θ \theta θ,则写出似然函数 L ( θ ∣ H H ) L(\theta|HH) L(θ∣HH)。
下面计算似然函数,认为事件 H H HH HH已经发生 P ( H H ) = 1 P(HH)=1 P(HH)=1,根据贝叶斯公式,有 L ( θ ∣ H H ) = P ( H H ∣ θ ) / P ( H H ) = P ( H H ∣ θ ) L(\theta|HH)=P(HH|\theta)/P(HH)=P(HH|\theta) L(θ∣HH)=P(HH∣θ)/P(HH)=P(HH∣θ)。由于 θ \theta θ是一个定值,则 P ( H H ∣ θ ) = P ( H H ; θ ) P(HH|\theta)=P(HH;\theta) P(HH∣θ)=P(HH;θ)。
因此,若估计 θ = 0.5 \theta=0.5 θ=0.5,则 L ( θ ∣ H H ) = 0.25 L(\theta|HH)=0.25 L(θ∣HH)=0.25;若估计 θ = 0.6 \theta=0.6 θ=0.6,则 L ( θ ∣ H H ) = 0.36 L(\theta|HH)=0.36 L(θ∣HH)=0.36;若估计 θ = 1 \theta=1 θ=1,则 L ( θ ∣ H H ) = 1 L(\theta|HH)=1 L(θ∣HH)=1。显然,认为 θ = 1 \theta=1 θ=1的概率最大,得出结论应该取1。该估计结果尽管不符合实际,但过程是正确的,误差的来源是试验次数太少,存在偶然性。