概率论与数理统计(7):参数估计

概率论与数理统计(7):参数估计

引入:

概率论与数理统计(7):参数估计

理论依据:

概率论与数理统计(7):参数估计

文章目录

一.点估计

​ 何为点估计:设总体X的分布函数的形式已知,但它的一个或多个参数未知借助于总体X的一个样本来估计未知参数的值的问题称为参数的点估计问题

​ 此问题一般提法为:设总体X的分布函数 F ( x ; θ ) F(x;\theta) F(x;θ)的形式为已知, θ \theta θ是待估参数, X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1​,X2​,⋯,Xn​是 X X X的一个样本, x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1​,x2​,⋯,xn​是相应的一个样本值,点估计问题就是要构造一个适当的统计量 θ ^ ( X 1 , X 2 , ⋯   , X n ) , \hat{\theta}(X_1,X_2,\cdots,X_n), θ^(X1​,X2​,⋯,Xn​),用它的观察值 θ ^ ( x 1 , x 2 , ⋯   , x n ) \hat{\theta}(x_1,x_2,\cdots,x_n) θ^(x1​,x2​,⋯,xn​)作为未知参数 θ \theta θ的近似值.

​ 称 θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta}(X_1,X_2,\cdots,X_n) θ^(X1​,X2​,⋯,Xn​)为 θ \theta θ的估计量, θ ^ ( x 1 , x 2 , ⋯   , x n ) \hat{\theta}(x_1,x_2,\cdots,x_n) θ^(x1​,x2​,⋯,xn​)为 θ \theta θ的估计值

矩估计法极大似然估计法是两种最常用的构造估计量的方法

1.矩估计

​ 设总体 X X X为连续型随机变量,其概率密度 f ( x ; θ 1 , θ 2 , ⋯   , θ k ) , f(x;\theta_1,\theta_2,\cdots,\theta_k), f(x;θ1​,θ2​,⋯,θk​),或 X X X为离散型随机变量,其分布律为 P { X = k } = p ( x ; θ 1 , θ 2 , ⋯   , θ k ) P\{X=k\}=p(x;\theta_1,\theta_2,\cdots,\theta_k) P{X=k}=p(x;θ1​,θ2​,⋯,θk​),其中 θ 1 , θ 2 , ⋯   , θ k \theta_1,\theta_2,\cdots,\theta_k θ1​,θ2​,⋯,θk​为待估参数, X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1​,X2​,⋯,Xn​是来自 X X X的样本,假设总体 X X X的前 k k k阶矩

​ μ l = E ( x l ) = ∫ − ∞ ∞ x l f ( x ; θ 1 , θ 2 , ⋯   , θ k ) d x ( X 连 续 型 ) \mu_l=E(x^l)=\int^{\infty}_{-\infty}x^lf(x;\theta_1,\theta_2,\cdots,\theta_k)dx\qquad (X连续型) μl​=E(xl)=∫−∞∞​xlf(x;θ1​,θ2​,⋯,θk​)dx(X连续型)

或 μ l = E ( x l ) = ∑ x ∈ R X x l p ( x ; θ 1 , θ 2 , ⋯   , θ k ) ( X 离 散 型 ) \mu_l=E(x^l)=\sum\limits_{x\in R_X} x^lp(x;\theta_1,\theta_2,\cdots,\theta_k)\qquad (X离散型) μl​=E(xl)=x∈RX​∑​xlp(x;θ1​,θ2​,⋯,θk​)(X离散型)

​ ( l = 1 , 2 , ⋯ k , R X 为 可 能 的 取 值 范 围 ) (l=1,2,\cdots k,R_X为可能的取值范围) (l=1,2,⋯k,RX​为可能的取值范围)

存在,一般来说,它们是 θ 1 , θ 2 , ⋯   , θ k \theta_1,\theta_2,\cdots,\theta_k θ1​,θ2​,⋯,θk​的函数,基于样本矩 A l = 1 n ∑ i = 1 n X i l A_l=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^l Al​=n1​i=1∑n​Xil​依概率收敛于相应的总体矩 μ l ( l = 1 , 2 , ⋯   , k ) , \mu_l(l=1,2,\cdots,k), μl​(l=1,2,⋯,k),样本矩的连续函数依概率收敛于相应的总体矩的连续函数,就用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量.

在不混淆的情况下统称估计量和估计值为估计,并都简记为 θ ^ \hat{\theta} θ^

​ 这种估计方法称为矩估计法

具体做法就是令总体的k阶矩=样本的k阶原点矩,使得
{ E X = X ‾ E X 2 = 1 n ∑ i = 1 n X i 2 ⋯ E X k = 1 n ∑ i = 1 n X i k \left\{ \begin{array}{lr} EX= \overline{X}\\ EX^2=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^2\\ \cdots\\ EX^k=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^k\\ \end{array} \right. ⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧​EX=XEX2=n1​i=1∑n​Xi2​⋯EXk=n1​i=1∑n​Xik​​
方程组的解 θ ^ 1 , θ ^ 2 , ⋯   , θ ^ k \hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_k θ^1​,θ^2​,⋯,θ^k​即为参数 θ 1 , θ 2 , ⋯   , θ k \theta_1,\theta_2,\cdots,\theta_k θ1​,θ2​,⋯,θk​的矩估计量,矩估计量的观察值称为矩估计值

左边 X X X是总体,右边 X i 到 X n X_i到X_n Xi​到Xn​是样本

2.极大似然估计

定义:似然函数

​ 设总体 X X X的概率密度为 f ( x ; θ 1 , θ 2 , ⋯   , θ k ) , f(x;\theta_1,\theta_2,\cdots,\theta_k), f(x;θ1​,θ2​,⋯,θk​),样本 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1​,X2​,⋯,Xn​在样本值 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1​,x2​,⋯,xn​处的联合概率密度为
L ( x 1 , x 2 , ⋯   , x n ; θ 1 , θ 2 , ⋯   , θ k ) = ∏ i = 1 n f ( x i ; θ 1 , θ 2 , ⋯   , θ k ) L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k)=\prod_{i=1}^nf(x_i;\theta_1,\theta_2,\cdots,\theta_k) L(x1​,x2​,⋯,xn​;θ1​,θ2​,⋯,θk​)=i=1∏n​f(xi​;θ1​,θ2​,⋯,θk​)
称为似然函数

​ 对确定的样本值 x 1 , ⋯   , x n , x_1,\cdots,x_n, x1​,⋯,xn​,它是 θ 1 , ⋯   , θ k \theta_1,\cdots,\theta_k θ1​,⋯,θk​的函数

定义:极大似然估计

​ 如果似然函数 L ( x 1 , x 2 , ⋯   , x n ; θ 1 , θ 2 , ⋯   , θ k ) L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k) L(x1​,x2​,⋯,xn​;θ1​,θ2​,⋯,θk​)在 ( θ 1 , θ 2 , ⋯   , θ k ) (\theta_1,\theta_2,\cdots,\theta_k) (θ1​,θ2​,⋯,θk​)处达到最大值,则称 ( θ ^ 1 , θ ^ 2 , ⋯   , θ ^ k ) (\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_k) (θ^1​,θ^2​,⋯,θ^k​)为参数 ( θ 1 , θ 2 , ⋯   , θ k ) (\theta_1,\theta_2,\cdots,\theta_k) (θ1​,θ2​,⋯,θk​)的极大似然估计

​ 由于 ln ⁡ x \ln x lnx是 x x x的单调函数,使
ln ⁡ L ( x 1 , ⋯   , x n ; θ ^ 1 , θ ^ 2 , ⋯   , θ ^ k ) = max ⁡ θ 1 , ⋯   , θ m ln ⁡ L ( x 1 , x 2 , ⋯   , x n ; θ 1 , θ 2 , ⋯   , θ k ) ( ∗ ) \ln L(x_1,\cdots,x_n;\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_k)=\max_{\theta_1,\cdots,\theta_m}\ln L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k) \qquad (*) lnL(x1​,⋯,xn​;θ^1​,θ^2​,⋯,θ^k​)=θ1​,⋯,θm​max​lnL(x1​,x2​,⋯,xn​;θ1​,θ2​,⋯,θk​)(∗)
成立的 θ j ^ \hat{\theta_j} θj​^​也使得式子
L ( x 1 , ⋯   , x n ; θ ^ 1 , θ ^ 2 , ⋯   , θ ^ k ) = max ⁡ θ 1 , ⋯   , θ m L ( x 1 , x 2 , ⋯   , x n ; θ 1 , θ 2 , ⋯   , θ k ) L(x_1,\cdots,x_n;\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_k)=\max_{\theta_1,\cdots,\theta_m} L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k) L(x1​,⋯,xn​;θ^1​,θ^2​,⋯,θ^k​)=θ1​,⋯,θm​max​L(x1​,x2​,⋯,xn​;θ1​,θ2​,⋯,θk​)
成立,为计算方便,常利用 ( ∗ ) (*) (∗)式求 θ j ^ \hat{\theta_j} θj​^​

​ 通常采用微积分学求极值的一般方法,即从方程组
∂ ln ⁡ L ∂ θ j = 0 ( j = 1 , ⋯   , m ) \frac{\partial \ln L}{\partial \theta_j}=0\quad(j=1,\cdots,m) ∂θj​∂lnL​=0(j=1,⋯,m)
求得 ln ⁡ L \ln L lnL的驻点,然后再从这些驻点中找出满足 ( ∗ ) (*) (∗)式的 θ j ^ \hat{\theta_j} θj​^​,称上式为对数似然方程组

二.点估计的优良性准则

引入
概率论与数理统计(7):参数估计

1.无偏性

​ 设 θ ^ = θ ^ ( X 1 , ⋯   , X n ) \hat{\theta}=\hat{\theta}(X_1,\cdots,X_n) θ^=θ^(X1​,⋯,Xn​)是参数 θ \theta θ的估计量,若
E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ
则称 θ ^ \hat{\theta} θ^是 θ \theta θ的无偏估计

​ 估计量的无偏性是说对于某些样本值,由这一估计量得到的估计值相对于真值来说偏大,有些则偏小,反复将这一估计量使用多次,就”平均“来说其偏差为零

​ 其直观意义是:若相互独立地重复多次用无偏估计量 θ ^ \hat{\theta} θ^进行实际估计,所得诸估计值的算术平均值与 θ \theta θ的真值基本上相同

​ 在科学技术中 E ( θ ^ ) − θ E(\hat{\theta})-\theta E(θ^)−θ称为以 θ ^ \hat{\theta} θ^作为 θ \theta θ的估计的系统误差,无偏估计的实际意义就是无系统误差

概率论与数理统计(7):参数估计

概率论与数理统计(7):参数估计

2.有效性

概率论与数理统计(7):参数估计

​ 设 θ ^ \hat{\theta} θ^与 θ ^ 1 \hat{\theta}_1 θ^1​都是参数 θ \theta θ的无偏估计,若
D ( θ ^ ) ⩽ D ( θ ^ 1 ) D(\hat{\theta})\leqslant D(\hat{\theta}_1) D(θ^)⩽D(θ^1​)
则称 θ ^ \hat{\theta} θ^比 θ ^ 1 \hat{\theta}_1 θ^1​有效

3.一致性

​ 前面的无偏性与有效性都是在样本容量 n n n固定的前提下提出的,我们自然希望随着样本容量的增大,一个估计量的值稳定于待估参数的真值,于是产生了一致性的概念

​ 如果 θ ^ n = θ ^ n ( X 1 , X 2 , ⋯   , X n ) \hat{\theta}_n=\hat{\theta}_n(X_1,X_2,\cdots,X_n) θ^n​=θ^n​(X1​,X2​,⋯,Xn​)依概率收敛于 θ \theta θ,即对于任意的 ε > 0 \varepsilon>0 ε>0,有
lim ⁡ n → ∞ P { ∣ θ ^ n − θ ∣ > ε > 0 } = 0 \lim_{n\rightarrow\infty}P\{|\hat{\theta}_n-\theta|>\varepsilon>0\}=0 n→∞lim​P{∣θ^n​−θ∣>ε>0}=0

称估计量 θ n ^ \hat{\theta_n} θn​^​为参数 θ \theta θ的一致估计

概率论与数理统计(7):参数估计

三.区间估计

引入:

​ 推荐看

上一篇:AI一周热闻:IBM收购Red Hat;马斯克辞去特斯拉所有职务;NIPS不改名引发学界*


下一篇:Red Hat Enterprise Linux 7.6 发布