充分统计量:概念与应用
在统计学中,充分统计量(Sufficient Statistic) 是一个核心概念。它是从样本中计算得出的函数,能够完整且无损地表征样本中与分布参数相关的信息。在参数估计中,充分统计量能够帮助我们提取必要的统计信息,从而实现更高效的推断。
本文将从充分统计量的定义出发,结合指数族分布的例子,深入探讨这一概念及其在统计推断中的重要性。
1. 充分统计量的定义
设 ( X = { x 1 , x 2 , … , x n } X = \{x_1, x_2, \dots, x_n\} X={x1,x2,…,xn} ) 是来自分布 ( p ( x ∣ θ ) p(x|\theta) p(x∣θ) ) 的样本,其中 ( θ \theta θ ) 是分布的参数。统计量 ( T ( X ) T(X) T(X) ) 被称为关于参数 ( θ \theta θ ) 的充分统计量,如果满足因子分解定理(Factorization Theorem):
p ( X ∣ θ ) = h ( X ) g ( T ( X ) , θ ) , p(X|\theta) = h(X) g(T(X), \theta), p(X∣θ)=h(X)g(T(X),θ),
其中:
- ( T ( X ) T(X) T(X) ) 是样本的函数,即统计量;
- ( h ( X ) h(X) h(X) ) 是与 ( θ \theta θ ) 无关的函数;
- ( g ( T ( X ) , θ ) g(T(X), \theta) g(T(X),θ) ) 是 ( T ( X ) T(X) T(X) ) 与 ( θ \theta θ ) 的联合函数。
直观解释:充分统计量 ( T ( X ) T(X) T(X) ) 能够提取样本中关于参数 ( θ \theta θ ) 的全部信息,( h ( X ) h(X) h(X) ) 则捕捉了样本中与 ( θ \theta θ ) 无关的其他信息。
2. 充分统计量的意义
假设我们已经计算了充分统计量 ( T ( X ) T(X) T(X) ),则原始样本 ( X X X ) 中的其他信息对于 ( θ \theta θ ) 的估计是冗余的。也就是说,利用 ( T ( X ) T(X) T(X) ) 进行推断,与直接使用整个样本 ( X X X ) 的效果是等价的。
例如,在正态分布 ( X ∼ N ( μ , σ 2 ) X \sim \mathcal{N}(\mu, \sigma^2) X∼N(μ,σ2) ) 中:
- 样本均值 ( x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1∑i=1nxi ) 是 ( μ \mu μ ) 的充分统计量;
- 样本方差 ( s 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n1∑i=1n(xi−xˉ)2 ) 是 ( σ 2 \sigma^2 σ2 ) 的充分统计量。
3. 指数族分布与充分统计量
指数族分布是统计学中一类重要的分布形式,其概率密度函数(或质量函数)可以统一表示为:如果读者对指数族分布的概率密度函数的形式有疑问,请参考笔者的另一篇文章 指数族分布(Exponential Family of Distributions)的两种形式及其区别
p ( x ∣ θ ) = h ( x ) exp ( η ( θ ) T t ( x ) − A ( θ ) ) , p(x|\theta) = h(x) \exp\left(\eta(\theta)^T t(x) - A(\theta)\right), p(x∣θ)=h(x)exp(η(θ)Tt(x)−A(θ)),
其中:
- ( η ( θ ) \eta(\theta) η(θ) ) 是参数 ( θ \theta θ ) 的自然参数;
- ( t ( x ) t(x) t(x) ) 是样本的充分统计量;
- ( A ( θ ) A(\theta) A(θ) ) 是规范化因子,保证分布的积分为 1;
- ( h ( x ) h(x) h(x) ) 是与参数无关的测度函数。
3.1 常见的指数族分布例子
正态分布(均值已知,方差未知)
概率密度函数:
p
(
x
∣
μ
,
σ
2
)
=
1
2
π
σ
2
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
.
p(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right).
p(x∣μ,σ2)=2πσ21exp(−2σ2(x−μ)2).
写成指数族形式:
p
(
x
∣
μ
,
σ
2
)
=
exp
(
−
1
2
σ
2
x
2
+
μ
σ
2
x
−
μ
2
2
σ
2
−
1
2
ln
(
2
π
σ
2
)
)
.
p(x|\mu, \sigma^2) = \exp\left(-\frac{1}{2\sigma^2} x^2 + \frac{\mu}{\sigma^2} x - \frac{\mu^2}{2\sigma^2} - \frac{1}{2} \ln(2\pi\sigma^2)\right).
p(x∣μ,σ2)=exp(−2σ21x2+σ2μx−2σ2μ2−21ln(2πσ2)).
充分统计量为:
t
(
x
)
=
{
x
,
x
2
}
.
t(x) = \{x, x^2\}.
t(x)={x,x2}.
泊松分布
概率质量函数:
p
(
x
∣
λ
)
=
λ
x
e
−
λ
x
!
,
x
=
0
,
1
,
2
,
…
p(x|\lambda) = \frac{\lambda^x e^{-\lambda}}{x!}, \quad x = 0, 1, 2, \dots
p(x∣λ)=x!λxe−λ,x=0,1,2,…
写成指数族形式:
p
(
x
∣
λ
)
=
exp
(
x
ln
λ
−
λ
−
ln
x
!
)
.
p(x|\lambda) = \exp\left(x \ln \lambda - \lambda - \ln x!\right).
p(x∣λ)=exp(xlnλ−λ−lnx!).
充分统计量为:
t
(
x
)
=
x
.
t(x) = x.
t(x)=