【抽样调查】等概率整群抽样

2023-10-06 21:54:10

第3部分：等概率整群抽样

第3部分：等概率整群抽样

概述与符号说明

整群抽样：将总体划分为若干群(cluster)，然后以群为抽样单元，从总体中随机抽取一部分群，对入选群内的所有单元进行调查的一种抽样方式。

实际应用上的优点：抽样框编制得以简化，实施调查便利、节省费用。
主要不足：通常情况下抽样误差较大，常常大于简单随机抽样。
如果各个群的结构相似，则整群抽样的估计精度会高于简单随机抽样。

以下记总体群(PSU)数为\(N\)，第\(i\)个群中的单元(SSU)数为\(M_i\)，SSU总数记作\(M_0=\displaystyle{\sum_{i=1}^{N}M_i}\)。如果各群规模相等，则记

\[M_1=M_2=\cdots=M_N\xlongequal{del} M. \]

对第\(i\)个拥有\(M_i\)个SSU的群，第\(j\)个SSU的取值为\(Y_{ij}\)，该群的总值记作\(Y_i\)，群均值记作\(\bar {Y_i}=\dfrac{Y_i}{M_i}\)，群内方差为\(S_i^2=\displaystyle{\frac{1}{M_i-1}\sum_{j=1}^{M_j}(Y_{ij}-\bar{Y_i})^2}\)。总体总值、总体均值（注意双横线）与总体方差为

\[Y=\sum_{i=1}^{N}Y_i=\sum_{i=1}^{N}\sum_{j=1}^{M_i}Y_{ij},\\ \bar{\bar Y} =\frac{Y}{M_0}=\sum_{i=1}^{N}\sum_{j=1}^{M_i}\frac{Y_{ij}}{M_0},\\ S^2=\frac{1}{M_0-1}\sum_{i=1}^{N}\sum_{j=1}^{M_i}(Y_{ij}-\bar{\bar Y})^2. \]

对不同的群，记群总值的均值为\(\bar Y=\dfrac{Y}{N}=\displaystyle{\sum_{i=1}^{N}\frac{Y_i}{N}}\)，总体群间方差、群内方差记作

\[S_b^2=\frac{1}{N-1}\sum_{i=1}^{N}M_i(\bar Y_{i}-\bar{\bar Y})^2=\frac{1}{N-1}\sum_{i=1}^{N}\sum_{j=1}^{M_i}(\bar Y_i-\bar{\bar Y})^2,\\ S_w^2=\frac{1}{N(M-1)}\sum_{i=1}^{N}\sum_{j=1}^{M_j}(Y_{ij}-\bar{Y}_i)^2. \]

对于等概率整群抽样，在\(N\)个PSD组成的总体中第\(i\)个PSU包含\(M_i\)个SSU，此时被选中的群中所有SSU全部入样，所以\(m_i=M_i\)。

定义抽样比为在全部整群中，抽取的种群数量所占的比例，即\(f=\dfrac{n}{N}\)。

群规模相等时的估计

均值估计

此时每一个单元所包含的单元数\(M\)相等，即\(M_i=m_i=M\)。这时总体均值与总体总值就将群均值和群总值作为观测值，抽样比\(f=\dfrac{n}{N}\)，\(n\)为抽取的群数，应用简单随机抽样的性质即可。

对总体均值\(\bar{\bar Y}\)的估计为

\[\bar{\bar y}=\sum_{i=1}^{n}\sum_{j=1}^{M}\frac{y_{ij}}{nM}=\frac{1}{n}\sum_{i=1}^{n}\bar y_{i}. \]

定理：

\(\mathbb{E}(\bar{\bar y})=\bar {\bar Y}\)，即\(\bar{\bar y}\)是\(\bar {\bar{Y}}\)的无偏估计。

\(\bar{\bar y}\)的方差为

\[\mathbb{D}(\bar {\bar y})=\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2=\frac{1-f}{nM}S_b^2. \]

先证明在群规模相等时，群均值的均值即总体均值。此时\(M_0=NM\)，所以

\[\frac{1}{N}\sum_{i=1}^{N}\bar Y_i=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{M}\sum_{j=1}^{M}Y_{ij}=\frac{1}{M_0}\sum_{i=1}^{N}\sum_{j=1}^{M}Y_{ij}. \]

此时，我们将每一个群作为样本，其观测值分别是\(\bar Y_i\)，根据简单随机抽样样本均值无偏，有

\[\mathbb{E}(\bar{\bar y})=\mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n}\bar y_i \right)=\frac{1}{N}\sum_{i=1}^{N}\bar{Y_i}=\bar{\bar Y}. \]

另外，根据简单随机抽样的方差性质，容易得到

\[\mathbb{D}(\bar{\bar y})=\frac{1-f}{n}\left[\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2 \right], \]

中括号内的部分，就是将\(\bar Y_i\)视为观测值时的总体方差。后一个等号为

\[\begin{aligned} \mathbb{D}(\bar{\bar y})&=\frac{1-f}{n}\left[\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2 \right]\\ &=\frac{1-f}{nM}\frac{1}{N-1}\sum_{i=1}^{N}M(\bar Y_i-\bar{\bar Y})^2\\ &=\frac{1-f}{nM}S_b^2. \end{aligned} \]

定理：对\(\mathbb{D}(\bar{\bar y})\)的估计为

\[v(\bar {\bar y})=\frac{1-f}{nM}s_b^2. \]

它是无偏的。

即证\(s_b^2\)是\(S_b^2\)的无偏估计，这里

\[s_b^2=\frac{1}{n-1}\sum_{i=1}^{n}m_i(\bar y_i-\bar{\bar y})^2=\frac{1}{n-1}\sum_{i=1}^{n}M(\bar{y_i}-{\bar{\bar y}})^2. \]

注意到此时\(\dfrac{s_b^2}{M}\)正是将\(\bar Y_i\)作为样本时的样本方差，所以它是总体方差\(\displaystyle{\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-{\bar {\bar Y}})^2}\)的无偏估计，而总体方差即\(\dfrac{S_b^2}{M}\)，所以\(\mathbb{E}(s_b^2)=S_b^2\)。

有了\(v(\bar{\bar y})\)后，就可以用以代替\(\mathbb{D}(\bar{\bar y})\)构造\(\bar{\bar Y}\)的置信区间。

总值估计

总体总值为\(Y=NM{\bar {\bar Y}}\)，从而其估计为\(\hat Y=N\cdot \dfrac{1}{n}\displaystyle\sum_{i=1}^{n}y_i=NM\bar{\bar y}\)。

推论：

\(\hat Y\)是\(Y\)的无偏估计。

\(\hat Y\)的方差为

\[\mathbb{D}(\hat Y)=\mathbb{D}(NM\bar{\bar y})=N^2M^2\mathbb{D}(\bar{\bar y})=N^2M\left(\frac{1-f}{n} \right)S_b^2. \]

对\(\mathbb{D}(\hat Y)\)的无偏估计为

\[v(\hat Y)=N^2M\left(\frac{1-f}{n} \right)s_b^2. \]

效率分析

ANOVA表：

\[\begin{array}{c|c|c|c} \hline & \mathrm{df} & \mathrm{SS} & \mathrm{MS} \\ \hline \text{between} & N-1 & \mathrm{SSB}=\displaystyle{\sum_{i=1}^{N}\sum_{j=1}^{M}(\bar Y_{i}-\bar{\bar Y})^2} & S_b^2=\dfrac{\mathrm{SSB}}{N-1} \\ \hline \text{within} & N(M-1) & \mathrm{SSW}=\displaystyle{\sum_{i=1}^{N}\sum_{j=1}^{M}(Y_{ij}-\bar{Y}_i)^2} & S_w^2=\dfrac{\mathrm{SSW}}{N(M-1)} \\ \hline \text{total} & NM-1 & \mathrm{SST}=\displaystyle{\sum_{i=1}^{N}\sum_{j=1}^{M}(Y_{ij}^2-\bar{\bar Y})^2} & S^2=\dfrac{\mathrm{SST}}{NM-1} \\ \hline \end{array} \]

由于\(\mathbb{D}(\bar{\bar y})=\dfrac{1-f}{nM}S_b^2\)，所以群间方差越大，即\(\dfrac{S_b^2}{S_w^2}\)越大，估计量的方差就越大，精度就越容易损失。

下计算设计效应，从总体中直接抽取一个样本容量为\(nM\)的简单随机样本，则

\[\mathbb{D}_{srs}(\bar{\bar y})=\left(1-\frac{nM}{NM} \right)\frac{S^2}{nM}=\frac{1-f}{nM}S^2, \]

下用群内相关系数表示设计效应。记群内相关系数为

\[\rho_c=\frac{\mathrm{E}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y})}{\mathrm{E}(Y_{ij}-\bar{\bar Y})^2}, \\ \mathrm{E}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y})=\frac{1}{N}\sum_{i=1}^{N}\frac{2}{M(M-1)}\sum_{j<k}^{M}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y}),\\ \mathrm{E}(Y_{ij}-\bar{\bar Y})^2=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{M}\sum_{j=1}^{M}(Y_{ij}-\bar{\bar Y})^2=\frac{NM-1}{NM}S^2. \]

同时也有

\[\rho_c=\frac{2\sum\limits_{i=1}^{N}\sum\limits_{j<k}^{M}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y})}{(M-1)(NM-1)S^2}.\\ \]

于是

\[\begin{aligned} \mathbb{D}(\bar{\bar y})&=\frac{1}{M^2}\mathbb{D}(\bar y) \\ &=\frac{1-f}{nM^2}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{Y})^2\\ &=\frac{1-f}{n}\frac{1}{M^2(N-1)}\sum_{i=1}^{N}\left[\sum_{j=1}^{M}(Y_{ij}-\bar{\bar Y}) \right]^2 \\ &=\frac{1-f}{n}\frac{1}{M^2(N-1)}\sum_{i=1}^{N}\left[\sum_{j=1}^{M}(Y_{ij}-\bar{\bar Y})^2+2\sum_{j<k}^{M}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y}) \right]\\ &=\frac{1-f}{nM^2(N-1)}\left[\mathrm{SST}+\rho_cS^2(M-1)(NM-1) \right]\\ &=\frac{1-f}{nM^2(N-1)}\cdot (NM-1)S^2[1+(M-1)\rho_c]\\ &\approx \frac{1-f}{nM}S^2[1+(M-1)\rho_c]\\ &=\mathbb{D}_{srs}(\bar{\bar y})[1+(M-1)\rho_c]. \end{aligned} \]

所以

\[\mathrm{deff}= \frac{\mathbb{D}(\bar{\bar y})}{\mathbb{D}_{srs}(\bar{\bar y})}\approx 1+(M-1)\rho_c. \]

要提高整群抽样估计的效率，就要通过分群尽可能降低\(\rho_c\)的值。\(\rho_c\)的最大值是\(1\)，此时\(S_w^2=0\)，即各组内样本完全相同；\(\rho_c\)的最小值是\(-\dfrac{1}{M-1}\)，此时\(S_b^2=0\)，即各群均值\(\bar{Y_i}\)都相等。

对\(\rho_c\)的估计：使用

\[\hat \rho_c=\frac{s_b^2-s_w^2}{s_b^2+(M-1)s_w^2},\\ s_b^2=\frac{1}{n-1}\sum_{i=1}^{n}M(\bar{y}_i-\bar{\bar y})^2,\quad s_w^2=\frac{1}{n(M-1)}\sum_{i=1}^{n}\sum_{j=1}^{M}(y_{ij}-\bar{y}_i). \]

群规模不等时的估计

估计方法

如果各个群不等，则群均值的均值不是总体均值，即

\[\frac{1}{N}\sum_{i=1}^{N}\bar{Y_i}=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{M_i}\sum_{j=1}^{M_i}Y_{ij}\ne\frac{1}{M_0}\sum_{i=1}^{N}\sum_{j=1}^{M_i}Y_{ij}= \bar{\bar Y}, \]

从而直接使用\(\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}\bar{y_i}\)估计\(\bar{\bar Y}\)不是无偏的。此时一般不用群均值的均值来估计总体均值，有两种方法：无偏估计、比率估计。

无偏估计

等概率抽样无偏估计的基本思路是，用群规模\(M_i\)作为权数乘以各群均值\(\bar y_i\)，得到群观察值总值\(y_i\)，再将样本中\(n\)各群的群总和平均，得到群总和均值\(\bar y\)，再除以群平均规模\(\bar M\)得到均值估计。即

\[\bar M=\frac{M_0}{N}=\frac{\sum_{i=1}^{N}M_i}{N},\\ \bar{\bar y}=\frac{1}{\bar M}\left(\frac{1}{n}\sum_{i=1}^{n}M_i\bar y_i \right)=\frac{1}{n\bar M}\sum_{i=1}^{n}y_i=\frac{\bar y}{\bar M}=\frac{\bar yN}{\bar MN}=\frac{\hat Y}{M_0},\\ \hat Y=M_0\bar{\bar y}=N\bar y=\frac{N}{n}\sum_{i=1}^{n}y_i. \]

在实际应用中，\(M_0\)有时未知，所以一般先计算\(\bar{y}\)，从而由\(\hat Y=N\bar{y}\)，再利用\(\bar{\bar y}=\dfrac{\hat Y}{\bar MN}\)来估计总体均值。

定理：

\(\mathbb{E}(\hat Y)=Y\)。

无偏估计的方差为

\[\mathbb{D}(\hat Y)=\frac{N^2(1-f)}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{Y})^2. \]

对无偏估计方差的估计为

\[v(\hat Y)=\frac{N^2(1-f)}{n}\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar{y})^2. \]

此时将每一个群的群总值\(Y_i\)视为简单随机抽样的抽样单元，则有

\[\mathbb{E}(\bar{y})=\mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n}y_i \right)=\frac{1}{N}\sum_{i=1}^{N}Y_i=\bar{Y}. \]

结合\(\hat Y=N\bar y\)，则显然\(\mathbb{E}(\hat Y)=N\bar Y=\displaystyle\sum_{i=1}^{N}Y_i=Y\)。另外，

\[\mathbb{D}(\bar y)=\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)^2,\\ v(\bar y)=\frac{1-f}{n}\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2. \]

从而自然得到后面的两条。

推论：对于总体均值的无偏估计，有

\[\mathbb{D}(\bar{\bar {y}})=\frac{1}{M_0^2}\mathbb{D}(\hat Y)=\frac{N^2(1-f)}{M_0^2n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar {Y})^2,\\ v(\bar{\bar y})=\frac{N^2(1-f)}{M_0^2n}\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar{y})^2. \]

其缺点是：如果群规模\(M_i\)差别很大，通常会造成\(Y_i\)差异很大，导致\(\bar{\bar y}\)和\(\hat Y\)的方差增大。

比率估计

等概率抽样比率估计的思想是，将\(M_i\)作为\(y_i\)的辅助变量，同时将\(y_i\)作为简单随机抽样的抽样单元，从而获得总体均值的比率估计量为

\[\bar{\bar y}_{R}=\frac{\sum\limits_{i=1}^{n} y_i}{\sum\limits_{i=1}^{n}M_i}. \]

总体总值的比率估计量为

\[\hat Y_{R}=M_0\bar{\bar y}_{R}=M_0\cdot \frac{\sum\limits_{i=1}^{n}y_i}{\sum\limits_{i=1}^{n}M_i}. \]

由比率估计量的性质，它们都是有偏估计，且

\[\mathbb{D}(\bar{\bar y}_{R})\approx \frac{1-f}{n\bar M^2}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{\bar {Y}}M_i)^2=\frac{1-f}{n\bar M^2}\frac{1}{N-1}\sum_{i=1}^{N}M_i^2(\bar {Y}_i-\bar{\bar Y})^2,\\ v(\bar{\bar y}_{R})=\frac{1-f}{n\bar M^2}\frac{1}{n-1}\left(\sum_{i=1}^{n}y_i^2+\bar{\bar y}^2\sum_{i=1}^{n}M_i^2-2\bar{\bar y}\sum_{i=1}^{n}M_iy_i \right). \]

如果\(\bar M\)未知，可以用\(\bar m=\dfrac{\sum\limits_{i=1}^{n}M_i}{n}\)代替。

码农公寓