概率论与数理统计(7):参数估计
引入:
理论依据:
文章目录
一.点估计
何为点估计:设总体X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计未知参数的值的问题称为参数的点估计问题
此问题一般提法为:设总体X的分布函数 F ( x ; θ ) F(x;\theta) F(x;θ)的形式为已知, θ \theta θ是待估参数, X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是 X X X的一个样本, x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn是相应的一个样本值,点估计问题就是要构造一个适当的统计量 θ ^ ( X 1 , X 2 , ⋯ , X n ) , \hat{\theta}(X_1,X_2,\cdots,X_n), θ^(X1,X2,⋯,Xn),用它的观察值 θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}(x_1,x_2,\cdots,x_n) θ^(x1,x2,⋯,xn)作为未知参数 θ \theta θ的近似值.
称 θ ^ ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}(X_1,X_2,\cdots,X_n) θ^(X1,X2,⋯,Xn)为 θ \theta θ的估计量, θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}(x_1,x_2,\cdots,x_n) θ^(x1,x2,⋯,xn)为 θ \theta θ的估计值
矩估计法和极大似然估计法是两种最常用的构造估计量的方法
1.矩估计
设总体 X X X为连续型随机变量,其概率密度 f ( x ; θ 1 , θ 2 , ⋯ , θ k ) , f(x;\theta_1,\theta_2,\cdots,\theta_k), f(x;θ1,θ2,⋯,θk),或 X X X为离散型随机变量,其分布律为 P { X = k } = p ( x ; θ 1 , θ 2 , ⋯ , θ k ) P\{X=k\}=p(x;\theta_1,\theta_2,\cdots,\theta_k) P{X=k}=p(x;θ1,θ2,⋯,θk),其中 θ 1 , θ 2 , ⋯ , θ k \theta_1,\theta_2,\cdots,\theta_k θ1,θ2,⋯,θk为待估参数, X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是来自 X X X的样本,假设总体 X X X的前 k k k阶矩
μ l = E ( x l ) = ∫ − ∞ ∞ x l f ( x ; θ 1 , θ 2 , ⋯ , θ k ) d x ( X 连 续 型 ) \mu_l=E(x^l)=\int^{\infty}_{-\infty}x^lf(x;\theta_1,\theta_2,\cdots,\theta_k)dx\qquad (X连续型) μl=E(xl)=∫−∞∞xlf(x;θ1,θ2,⋯,θk)dx(X连续型)
或 μ l = E ( x l ) = ∑ x ∈ R X x l p ( x ; θ 1 , θ 2 , ⋯ , θ k ) ( X 离 散 型 ) \mu_l=E(x^l)=\sum\limits_{x\in R_X} x^lp(x;\theta_1,\theta_2,\cdots,\theta_k)\qquad (X离散型) μl=E(xl)=x∈RX∑xlp(x;θ1,θ2,⋯,θk)(X离散型)
( l = 1 , 2 , ⋯ k , R X 为 可 能 的 取 值 范 围 ) (l=1,2,\cdots k,R_X为可能的取值范围) (l=1,2,⋯k,RX为可能的取值范围)
存在,一般来说,它们是 θ 1 , θ 2 , ⋯ , θ k \theta_1,\theta_2,\cdots,\theta_k θ1,θ2,⋯,θk的函数,基于样本矩 A l = 1 n ∑ i = 1 n X i l A_l=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^l Al=n1i=1∑nXil依概率收敛于相应的总体矩 μ l ( l = 1 , 2 , ⋯ , k ) , \mu_l(l=1,2,\cdots,k), μl(l=1,2,⋯,k),样本矩的连续函数依概率收敛于相应的总体矩的连续函数,就用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量.
在不混淆的情况下统称估计量和估计值为估计,并都简记为 θ ^ \hat{\theta} θ^
这种估计方法称为矩估计法
具体做法就是令总体的k阶矩=样本的k阶原点矩,使得
{
E
X
=
X
‾
E
X
2
=
1
n
∑
i
=
1
n
X
i
2
⋯
E
X
k
=
1
n
∑
i
=
1
n
X
i
k
\left\{ \begin{array}{lr} EX= \overline{X}\\ EX^2=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^2\\ \cdots\\ EX^k=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^k\\ \end{array} \right.
⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧EX=XEX2=n1i=1∑nXi2⋯EXk=n1i=1∑nXik
方程组的解
θ
^
1
,
θ
^
2
,
⋯
,
θ
^
k
\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_k
θ^1,θ^2,⋯,θ^k即为参数
θ
1
,
θ
2
,
⋯
,
θ
k
\theta_1,\theta_2,\cdots,\theta_k
θ1,θ2,⋯,θk的矩估计量,矩估计量的观察值称为矩估计值
左边 X X X是总体,右边 X i 到 X n X_i到X_n Xi到Xn是样本
2.极大似然估计
定义:似然函数
设总体
X
X
X的概率密度为
f
(
x
;
θ
1
,
θ
2
,
⋯
,
θ
k
)
,
f(x;\theta_1,\theta_2,\cdots,\theta_k),
f(x;θ1,θ2,⋯,θk),样本
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn在样本值
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn处的联合概率密度为
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
1
,
θ
2
,
⋯
,
θ
k
)
=
∏
i
=
1
n
f
(
x
i
;
θ
1
,
θ
2
,
⋯
,
θ
k
)
L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k)=\prod_{i=1}^nf(x_i;\theta_1,\theta_2,\cdots,\theta_k)
L(x1,x2,⋯,xn;θ1,θ2,⋯,θk)=i=1∏nf(xi;θ1,θ2,⋯,θk)
称为似然函数
对确定的样本值 x 1 , ⋯ , x n , x_1,\cdots,x_n, x1,⋯,xn,它是 θ 1 , ⋯ , θ k \theta_1,\cdots,\theta_k θ1,⋯,θk的函数
定义:极大似然估计
如果似然函数 L ( x 1 , x 2 , ⋯ , x n ; θ 1 , θ 2 , ⋯ , θ k ) L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k) L(x1,x2,⋯,xn;θ1,θ2,⋯,θk)在 ( θ 1 , θ 2 , ⋯ , θ k ) (\theta_1,\theta_2,\cdots,\theta_k) (θ1,θ2,⋯,θk)处达到最大值,则称 ( θ ^ 1 , θ ^ 2 , ⋯ , θ ^ k ) (\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_k) (θ^1,θ^2,⋯,θ^k)为参数 ( θ 1 , θ 2 , ⋯ , θ k ) (\theta_1,\theta_2,\cdots,\theta_k) (θ1,θ2,⋯,θk)的极大似然估计
由于
ln
x
\ln x
lnx是
x
x
x的单调函数,使
ln
L
(
x
1
,
⋯
,
x
n
;
θ
^
1
,
θ
^
2
,
⋯
,
θ
^
k
)
=
max
θ
1
,
⋯
,
θ
m
ln
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
1
,
θ
2
,
⋯
,
θ
k
)
(
∗
)
\ln L(x_1,\cdots,x_n;\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_k)=\max_{\theta_1,\cdots,\theta_m}\ln L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k) \qquad (*)
lnL(x1,⋯,xn;θ^1,θ^2,⋯,θ^k)=θ1,⋯,θmmaxlnL(x1,x2,⋯,xn;θ1,θ2,⋯,θk)(∗)
成立的
θ
j
^
\hat{\theta_j}
θj^也使得式子
L
(
x
1
,
⋯
,
x
n
;
θ
^
1
,
θ
^
2
,
⋯
,
θ
^
k
)
=
max
θ
1
,
⋯
,
θ
m
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
1
,
θ
2
,
⋯
,
θ
k
)
L(x_1,\cdots,x_n;\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_k)=\max_{\theta_1,\cdots,\theta_m} L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k)
L(x1,⋯,xn;θ^1,θ^2,⋯,θ^k)=θ1,⋯,θmmaxL(x1,x2,⋯,xn;θ1,θ2,⋯,θk)
成立,为计算方便,常利用
(
∗
)
(*)
(∗)式求
θ
j
^
\hat{\theta_j}
θj^
通常采用微积分学求极值的一般方法,即从方程组
∂ ln L ∂ θ j = 0 ( j = 1 , ⋯ , m ) \frac{\partial \ln L}{\partial \theta_j}=0\quad(j=1,\cdots,m) ∂θj∂lnL=0(j=1,⋯,m)
求得 ln L \ln L lnL的驻点,然后再从这些驻点中找出满足 ( ∗ ) (*) (∗)式的 θ j ^ \hat{\theta_j} θj^,称上式为对数似然方程组
二.点估计的优良性准则
引入
1.无偏性
设
θ
^
=
θ
^
(
X
1
,
⋯
,
X
n
)
\hat{\theta}=\hat{\theta}(X_1,\cdots,X_n)
θ^=θ^(X1,⋯,Xn)是参数
θ
\theta
θ的估计量,若
E
(
θ
^
)
=
θ
E(\hat{\theta})=\theta
E(θ^)=θ
则称
θ
^
\hat{\theta}
θ^是
θ
\theta
θ的无偏估计
估计量的无偏性是说对于某些样本值,由这一估计量得到的估计值相对于真值来说偏大,有些则偏小,反复将这一估计量使用多次,就”平均“来说其偏差为零
其直观意义是:若相互独立地重复多次用无偏估计量 θ ^ \hat{\theta} θ^进行实际估计,所得诸估计值的算术平均值与 θ \theta θ的真值基本上相同
在科学技术中 E ( θ ^ ) − θ E(\hat{\theta})-\theta E(θ^)−θ称为以 θ ^ \hat{\theta} θ^作为 θ \theta θ的估计的系统误差,无偏估计的实际意义就是无系统误差
2.有效性
设
θ
^
\hat{\theta}
θ^与
θ
^
1
\hat{\theta}_1
θ^1都是参数
θ
\theta
θ的无偏估计,若
D
(
θ
^
)
⩽
D
(
θ
^
1
)
D(\hat{\theta})\leqslant D(\hat{\theta}_1)
D(θ^)⩽D(θ^1)
则称
θ
^
\hat{\theta}
θ^比
θ
^
1
\hat{\theta}_1
θ^1有效
3.一致性
前面的无偏性与有效性都是在样本容量 n n n固定的前提下提出的,我们自然希望随着样本容量的增大,一个估计量的值稳定于待估参数的真值,于是产生了一致性的概念
如果
θ
^
n
=
θ
^
n
(
X
1
,
X
2
,
⋯
,
X
n
)
\hat{\theta}_n=\hat{\theta}_n(X_1,X_2,\cdots,X_n)
θ^n=θ^n(X1,X2,⋯,Xn)依概率收敛于
θ
\theta
θ,即对于任意的
ε
>
0
\varepsilon>0
ε>0,有
lim
n
→
∞
P
{
∣
θ
^
n
−
θ
∣
>
ε
>
0
}
=
0
\lim_{n\rightarrow\infty}P\{|\hat{\theta}_n-\theta|>\varepsilon>0\}=0
n→∞limP{∣θ^n−θ∣>ε>0}=0
称估计量 θ n ^ \hat{\theta_n} θn^为参数 θ \theta θ的一致估计
三.区间估计
引入:
推荐看