【抽样调查】等概率整群抽样

第3部分:等概率整群抽样

目录

概述与符号说明

整群抽样:将总体划分为若干群(cluster),然后以群为抽样单元,从总体中随机抽取一部分群,对入选群内的所有单元进行调查的一种抽样方式。

  • 实际应用上的优点:抽样框编制得以简化,实施调查便利、节省费用。
  • 主要不足:通常情况下抽样误差较大,常常大于简单随机抽样。
  • 如果各个群的结构相似,则整群抽样的估计精度会高于简单随机抽样。

以下记总体群(PSU)数为\(N\),第\(i\)个群中的单元(SSU)数为\(M_i\),SSU总数记作\(M_0=\displaystyle{\sum_{i=1}^{N}M_i}\)。如果各群规模相等,则记

\[M_1=M_2=\cdots=M_N\xlongequal{del} M. \]

对第\(i\)个拥有\(M_i\)个SSU的群,第\(j\)个SSU的取值为\(Y_{ij}\),该群的总值记作\(Y_i\),群均值记作\(\bar {Y_i}=\dfrac{Y_i}{M_i}\),群内方差为\(S_i^2=\displaystyle{\frac{1}{M_i-1}\sum_{j=1}^{M_j}(Y_{ij}-\bar{Y_i})^2}\)。总体总值、总体均值(注意双横线)与总体方差为

\[Y=\sum_{i=1}^{N}Y_i=\sum_{i=1}^{N}\sum_{j=1}^{M_i}Y_{ij},\\ \bar{\bar Y} =\frac{Y}{M_0}=\sum_{i=1}^{N}\sum_{j=1}^{M_i}\frac{Y_{ij}}{M_0},\\ S^2=\frac{1}{M_0-1}\sum_{i=1}^{N}\sum_{j=1}^{M_i}(Y_{ij}-\bar{\bar Y})^2. \]

对不同的群,记群总值的均值为\(\bar Y=\dfrac{Y}{N}=\displaystyle{\sum_{i=1}^{N}\frac{Y_i}{N}}\),总体群间方差、群内方差记作

\[S_b^2=\frac{1}{N-1}\sum_{i=1}^{N}M_i(\bar Y_{i}-\bar{\bar Y})^2=\frac{1}{N-1}\sum_{i=1}^{N}\sum_{j=1}^{M_i}(\bar Y_i-\bar{\bar Y})^2,\\ S_w^2=\frac{1}{N(M-1)}\sum_{i=1}^{N}\sum_{j=1}^{M_j}(Y_{ij}-\bar{Y}_i)^2. \]

对于等概率整群抽样,在\(N\)个PSD组成的总体中第\(i\)个PSU包含\(M_i\)个SSU,此时被选中的群中所有SSU全部入样,所以\(m_i=M_i\)。

定义抽样比为在全部整群中,抽取的种群数量所占的比例,即\(f=\dfrac{n}{N}\)。

群规模相等时的估计

均值估计

此时每一个单元所包含的单元数\(M\)相等,即\(M_i=m_i=M\)。这时总体均值与总体总值就将群均值和群总值作为观测值,抽样比\(f=\dfrac{n}{N}\),\(n\)为抽取的群数,应用简单随机抽样的性质即可。

对总体均值\(\bar{\bar Y}\)的估计为

\[\bar{\bar y}=\sum_{i=1}^{n}\sum_{j=1}^{M}\frac{y_{ij}}{nM}=\frac{1}{n}\sum_{i=1}^{n}\bar y_{i}. \]

定理:

  1. \(\mathbb{E}(\bar{\bar y})=\bar {\bar Y}\),即\(\bar{\bar y}\)是\(\bar {\bar{Y}}\)的无偏估计。

  2. \(\bar{\bar y}\)的方差为

    \[\mathbb{D}(\bar {\bar y})=\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2=\frac{1-f}{nM}S_b^2. \]

先证明在群规模相等时,群均值的均值即总体均值。此时\(M_0=NM\),所以

\[\frac{1}{N}\sum_{i=1}^{N}\bar Y_i=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{M}\sum_{j=1}^{M}Y_{ij}=\frac{1}{M_0}\sum_{i=1}^{N}\sum_{j=1}^{M}Y_{ij}. \]

此时,我们将每一个群作为样本,其观测值分别是\(\bar Y_i\),根据简单随机抽样样本均值无偏,有

\[\mathbb{E}(\bar{\bar y})=\mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n}\bar y_i \right)=\frac{1}{N}\sum_{i=1}^{N}\bar{Y_i}=\bar{\bar Y}. \]

另外,根据简单随机抽样的方差性质,容易得到

\[\mathbb{D}(\bar{\bar y})=\frac{1-f}{n}\left[\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2 \right], \]

中括号内的部分,就是将\(\bar Y_i\)视为观测值时的总体方差。后一个等号为

\[\begin{aligned} \mathbb{D}(\bar{\bar y})&=\frac{1-f}{n}\left[\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2 \right]\\ &=\frac{1-f}{nM}\frac{1}{N-1}\sum_{i=1}^{N}M(\bar Y_i-\bar{\bar Y})^2\\ &=\frac{1-f}{nM}S_b^2. \end{aligned} \]

定理:对\(\mathbb{D}(\bar{\bar y})\)的估计为

\[v(\bar {\bar y})=\frac{1-f}{nM}s_b^2. \]

它是无偏的。

即证\(s_b^2\)是\(S_b^2\)的无偏估计,这里

\[s_b^2=\frac{1}{n-1}\sum_{i=1}^{n}m_i(\bar y_i-\bar{\bar y})^2=\frac{1}{n-1}\sum_{i=1}^{n}M(\bar{y_i}-{\bar{\bar y}})^2. \]

注意到此时\(\dfrac{s_b^2}{M}\)正是将\(\bar Y_i\)作为样本时的样本方差,所以它是总体方差\(\displaystyle{\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-{\bar {\bar Y}})^2}\)的无偏估计,而总体方差即\(\dfrac{S_b^2}{M}\),所以\(\mathbb{E}(s_b^2)=S_b^2\)。

有了\(v(\bar{\bar y})\)后,就可以用以代替\(\mathbb{D}(\bar{\bar y})\)构造\(\bar{\bar Y}\)的置信区间。

总值估计

总体总值为\(Y=NM{\bar {\bar Y}}\),从而其估计为\(\hat Y=N\cdot \dfrac{1}{n}\displaystyle\sum_{i=1}^{n}y_i=NM\bar{\bar y}\)。

推论:

  1. \(\hat Y\)是\(Y\)的无偏估计。

  2. \(\hat Y\)的方差为

    \[\mathbb{D}(\hat Y)=\mathbb{D}(NM\bar{\bar y})=N^2M^2\mathbb{D}(\bar{\bar y})=N^2M\left(\frac{1-f}{n} \right)S_b^2. \]

  3. 对\(\mathbb{D}(\hat Y)\)的无偏估计为

    \[v(\hat Y)=N^2M\left(\frac{1-f}{n} \right)s_b^2. \]

效率分析

ANOVA表:

\[\begin{array}{c|c|c|c} \hline & \mathrm{df} & \mathrm{SS} & \mathrm{MS} \\ \hline \text{between} & N-1 & \mathrm{SSB}=\displaystyle{\sum_{i=1}^{N}\sum_{j=1}^{M}(\bar Y_{i}-\bar{\bar Y})^2} & S_b^2=\dfrac{\mathrm{SSB}}{N-1} \\ \hline \text{within} & N(M-1) & \mathrm{SSW}=\displaystyle{\sum_{i=1}^{N}\sum_{j=1}^{M}(Y_{ij}-\bar{Y}_i)^2} & S_w^2=\dfrac{\mathrm{SSW}}{N(M-1)} \\ \hline \text{total} & NM-1 & \mathrm{SST}=\displaystyle{\sum_{i=1}^{N}\sum_{j=1}^{M}(Y_{ij}^2-\bar{\bar Y})^2} & S^2=\dfrac{\mathrm{SST}}{NM-1} \\ \hline \end{array} \]

由于\(\mathbb{D}(\bar{\bar y})=\dfrac{1-f}{nM}S_b^2\),所以群间方差越大,即\(\dfrac{S_b^2}{S_w^2}\)越大,估计量的方差就越大,精度就越容易损失。

下计算设计效应,从总体中直接抽取一个样本容量为\(nM\)的简单随机样本,则

\[\mathbb{D}_{srs}(\bar{\bar y})=\left(1-\frac{nM}{NM} \right)\frac{S^2}{nM}=\frac{1-f}{nM}S^2, \]

下用群内相关系数表示设计效应。记群内相关系数为

\[\rho_c=\frac{\mathrm{E}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y})}{\mathrm{E}(Y_{ij}-\bar{\bar Y})^2}, \\ \mathrm{E}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y})=\frac{1}{N}\sum_{i=1}^{N}\frac{2}{M(M-1)}\sum_{j<k}^{M}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y}),\\ \mathrm{E}(Y_{ij}-\bar{\bar Y})^2=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{M}\sum_{j=1}^{M}(Y_{ij}-\bar{\bar Y})^2=\frac{NM-1}{NM}S^2. \]

同时也有

\[\rho_c=\frac{2\sum\limits_{i=1}^{N}\sum\limits_{j<k}^{M}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y})}{(M-1)(NM-1)S^2}.\\ \]

于是

\[\begin{aligned} \mathbb{D}(\bar{\bar y})&=\frac{1}{M^2}\mathbb{D}(\bar y) \\ &=\frac{1-f}{nM^2}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{Y})^2\\ &=\frac{1-f}{n}\frac{1}{M^2(N-1)}\sum_{i=1}^{N}\left[\sum_{j=1}^{M}(Y_{ij}-\bar{\bar Y}) \right]^2 \\ &=\frac{1-f}{n}\frac{1}{M^2(N-1)}\sum_{i=1}^{N}\left[\sum_{j=1}^{M}(Y_{ij}-\bar{\bar Y})^2+2\sum_{j<k}^{M}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y}) \right]\\ &=\frac{1-f}{nM^2(N-1)}\left[\mathrm{SST}+\rho_cS^2(M-1)(NM-1) \right]\\ &=\frac{1-f}{nM^2(N-1)}\cdot (NM-1)S^2[1+(M-1)\rho_c]\\ &\approx \frac{1-f}{nM}S^2[1+(M-1)\rho_c]\\ &=\mathbb{D}_{srs}(\bar{\bar y})[1+(M-1)\rho_c]. \end{aligned} \]

所以

\[\mathrm{deff}= \frac{\mathbb{D}(\bar{\bar y})}{\mathbb{D}_{srs}(\bar{\bar y})}\approx 1+(M-1)\rho_c. \]

要提高整群抽样估计的效率,就要通过分群尽可能降低\(\rho_c\)的值。\(\rho_c\)的最大值是\(1\),此时\(S_w^2=0\),即各组内样本完全相同;\(\rho_c\)的最小值是\(-\dfrac{1}{M-1}\),此时\(S_b^2=0\),即各群均值\(\bar{Y_i}\)都相等。

对\(\rho_c\)的估计:使用

\[\hat \rho_c=\frac{s_b^2-s_w^2}{s_b^2+(M-1)s_w^2},\\ s_b^2=\frac{1}{n-1}\sum_{i=1}^{n}M(\bar{y}_i-\bar{\bar y})^2,\quad s_w^2=\frac{1}{n(M-1)}\sum_{i=1}^{n}\sum_{j=1}^{M}(y_{ij}-\bar{y}_i). \]

群规模不等时的估计

估计方法

如果各个群不等,则群均值的均值不是总体均值,即

\[\frac{1}{N}\sum_{i=1}^{N}\bar{Y_i}=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{M_i}\sum_{j=1}^{M_i}Y_{ij}\ne\frac{1}{M_0}\sum_{i=1}^{N}\sum_{j=1}^{M_i}Y_{ij}= \bar{\bar Y}, \]

从而直接使用\(\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}\bar{y_i}\)估计\(\bar{\bar Y}\)不是无偏的。此时一般不用群均值的均值来估计总体均值,有两种方法:无偏估计、比率估计。

无偏估计

等概率抽样无偏估计的基本思路是,用群规模\(M_i\)作为权数乘以各群均值\(\bar y_i\),得到群观察值总值\(y_i\),再将样本中\(n\)各群的群总和平均,得到群总和均值\(\bar y\),再除以群平均规模\(\bar M\)得到均值估计。即

\[\bar M=\frac{M_0}{N}=\frac{\sum_{i=1}^{N}M_i}{N},\\ \bar{\bar y}=\frac{1}{\bar M}\left(\frac{1}{n}\sum_{i=1}^{n}M_i\bar y_i \right)=\frac{1}{n\bar M}\sum_{i=1}^{n}y_i=\frac{\bar y}{\bar M}=\frac{\bar yN}{\bar MN}=\frac{\hat Y}{M_0},\\ \hat Y=M_0\bar{\bar y}=N\bar y=\frac{N}{n}\sum_{i=1}^{n}y_i. \]

在实际应用中,\(M_0\)有时未知,所以一般先计算\(\bar{y}\),从而由\(\hat Y=N\bar{y}\),再利用\(\bar{\bar y}=\dfrac{\hat Y}{\bar MN}\)来估计总体均值。

定理:

  1. \(\mathbb{E}(\hat Y)=Y\)。

  2. 无偏估计的方差为

    \[\mathbb{D}(\hat Y)=\frac{N^2(1-f)}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{Y})^2. \]

  3. 对无偏估计方差的估计为

    \[v(\hat Y)=\frac{N^2(1-f)}{n}\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar{y})^2. \]

此时将每一个群的群总值\(Y_i\)视为简单随机抽样的抽样单元,则有

\[\mathbb{E}(\bar{y})=\mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n}y_i \right)=\frac{1}{N}\sum_{i=1}^{N}Y_i=\bar{Y}. \]

结合\(\hat Y=N\bar y\),则显然\(\mathbb{E}(\hat Y)=N\bar Y=\displaystyle\sum_{i=1}^{N}Y_i=Y\)。另外,

\[\mathbb{D}(\bar y)=\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)^2,\\ v(\bar y)=\frac{1-f}{n}\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2. \]

从而自然得到后面的两条。

推论:对于总体均值的无偏估计,有

\[\mathbb{D}(\bar{\bar {y}})=\frac{1}{M_0^2}\mathbb{D}(\hat Y)=\frac{N^2(1-f)}{M_0^2n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar {Y})^2,\\ v(\bar{\bar y})=\frac{N^2(1-f)}{M_0^2n}\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar{y})^2. \]

其缺点是:如果群规模\(M_i\)差别很大,通常会造成\(Y_i\)差异很大,导致\(\bar{\bar y}\)和\(\hat Y\)的方差增大。

比率估计

等概率抽样比率估计的思想是,将\(M_i\)作为\(y_i\)的辅助变量,同时将\(y_i\)作为简单随机抽样的抽样单元,从而获得总体均值的比率估计量为

\[\bar{\bar y}_{R}=\frac{\sum\limits_{i=1}^{n} y_i}{\sum\limits_{i=1}^{n}M_i}. \]

总体总值的比率估计量为

\[\hat Y_{R}=M_0\bar{\bar y}_{R}=M_0\cdot \frac{\sum\limits_{i=1}^{n}y_i}{\sum\limits_{i=1}^{n}M_i}. \]

由比率估计量的性质,它们都是有偏估计,且

\[\mathbb{D}(\bar{\bar y}_{R})\approx \frac{1-f}{n\bar M^2}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{\bar {Y}}M_i)^2=\frac{1-f}{n\bar M^2}\frac{1}{N-1}\sum_{i=1}^{N}M_i^2(\bar {Y}_i-\bar{\bar Y})^2,\\ v(\bar{\bar y}_{R})=\frac{1-f}{n\bar M^2}\frac{1}{n-1}\left(\sum_{i=1}^{n}y_i^2+\bar{\bar y}^2\sum_{i=1}^{n}M_i^2-2\bar{\bar y}\sum_{i=1}^{n}M_iy_i \right). \]

如果\(\bar M\)未知,可以用\(\bar m=\dfrac{\sum\limits_{i=1}^{n}M_i}{n}\)代替。

上一篇:访问结构总结


下一篇:latex 集合相关符号:实数集,整数集,并,包含,真包含