第3部分:等概率整群抽样
目录概述与符号说明
整群抽样:将总体划分为若干群(cluster),然后以群为抽样单元,从总体中随机抽取一部分群,对入选群内的所有单元进行调查的一种抽样方式。
- 实际应用上的优点:抽样框编制得以简化,实施调查便利、节省费用。
- 主要不足:通常情况下抽样误差较大,常常大于简单随机抽样。
- 如果各个群的结构相似,则整群抽样的估计精度会高于简单随机抽样。
以下记总体群(PSU)数为\(N\),第\(i\)个群中的单元(SSU)数为\(M_i\),SSU总数记作\(M_0=\displaystyle{\sum_{i=1}^{N}M_i}\)。如果各群规模相等,则记
\[M_1=M_2=\cdots=M_N\xlongequal{del} M. \]对第\(i\)个拥有\(M_i\)个SSU的群,第\(j\)个SSU的取值为\(Y_{ij}\),该群的总值记作\(Y_i\),群均值记作\(\bar {Y_i}=\dfrac{Y_i}{M_i}\),群内方差为\(S_i^2=\displaystyle{\frac{1}{M_i-1}\sum_{j=1}^{M_j}(Y_{ij}-\bar{Y_i})^2}\)。总体总值、总体均值(注意双横线)与总体方差为
\[Y=\sum_{i=1}^{N}Y_i=\sum_{i=1}^{N}\sum_{j=1}^{M_i}Y_{ij},\\ \bar{\bar Y} =\frac{Y}{M_0}=\sum_{i=1}^{N}\sum_{j=1}^{M_i}\frac{Y_{ij}}{M_0},\\ S^2=\frac{1}{M_0-1}\sum_{i=1}^{N}\sum_{j=1}^{M_i}(Y_{ij}-\bar{\bar Y})^2. \]对不同的群,记群总值的均值为\(\bar Y=\dfrac{Y}{N}=\displaystyle{\sum_{i=1}^{N}\frac{Y_i}{N}}\),总体群间方差、群内方差记作
\[S_b^2=\frac{1}{N-1}\sum_{i=1}^{N}M_i(\bar Y_{i}-\bar{\bar Y})^2=\frac{1}{N-1}\sum_{i=1}^{N}\sum_{j=1}^{M_i}(\bar Y_i-\bar{\bar Y})^2,\\ S_w^2=\frac{1}{N(M-1)}\sum_{i=1}^{N}\sum_{j=1}^{M_j}(Y_{ij}-\bar{Y}_i)^2. \]对于等概率整群抽样,在\(N\)个PSD组成的总体中第\(i\)个PSU包含\(M_i\)个SSU,此时被选中的群中所有SSU全部入样,所以\(m_i=M_i\)。
定义抽样比为在全部整群中,抽取的种群数量所占的比例,即\(f=\dfrac{n}{N}\)。
群规模相等时的估计
均值估计
此时每一个单元所包含的单元数\(M\)相等,即\(M_i=m_i=M\)。这时总体均值与总体总值就将群均值和群总值作为观测值,抽样比\(f=\dfrac{n}{N}\),\(n\)为抽取的群数,应用简单随机抽样的性质即可。
对总体均值\(\bar{\bar Y}\)的估计为
\[\bar{\bar y}=\sum_{i=1}^{n}\sum_{j=1}^{M}\frac{y_{ij}}{nM}=\frac{1}{n}\sum_{i=1}^{n}\bar y_{i}. \]定理:
\(\mathbb{E}(\bar{\bar y})=\bar {\bar Y}\),即\(\bar{\bar y}\)是\(\bar {\bar{Y}}\)的无偏估计。
\(\bar{\bar y}\)的方差为
\[\mathbb{D}(\bar {\bar y})=\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2=\frac{1-f}{nM}S_b^2. \]
先证明在群规模相等时,群均值的均值即总体均值。此时\(M_0=NM\),所以
\[\frac{1}{N}\sum_{i=1}^{N}\bar Y_i=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{M}\sum_{j=1}^{M}Y_{ij}=\frac{1}{M_0}\sum_{i=1}^{N}\sum_{j=1}^{M}Y_{ij}. \]此时,我们将每一个群作为样本,其观测值分别是\(\bar Y_i\),根据简单随机抽样样本均值无偏,有
\[\mathbb{E}(\bar{\bar y})=\mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n}\bar y_i \right)=\frac{1}{N}\sum_{i=1}^{N}\bar{Y_i}=\bar{\bar Y}. \]另外,根据简单随机抽样的方差性质,容易得到
\[\mathbb{D}(\bar{\bar y})=\frac{1-f}{n}\left[\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2 \right], \]中括号内的部分,就是将\(\bar Y_i\)视为观测值时的总体方差。后一个等号为
\[\begin{aligned} \mathbb{D}(\bar{\bar y})&=\frac{1-f}{n}\left[\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2 \right]\\ &=\frac{1-f}{nM}\frac{1}{N-1}\sum_{i=1}^{N}M(\bar Y_i-\bar{\bar Y})^2\\ &=\frac{1-f}{nM}S_b^2. \end{aligned} \]定理:对\(\mathbb{D}(\bar{\bar y})\)的估计为
\[v(\bar {\bar y})=\frac{1-f}{nM}s_b^2. \]它是无偏的。
即证\(s_b^2\)是\(S_b^2\)的无偏估计,这里
\[s_b^2=\frac{1}{n-1}\sum_{i=1}^{n}m_i(\bar y_i-\bar{\bar y})^2=\frac{1}{n-1}\sum_{i=1}^{n}M(\bar{y_i}-{\bar{\bar y}})^2. \]注意到此时\(\dfrac{s_b^2}{M}\)正是将\(\bar Y_i\)作为样本时的样本方差,所以它是总体方差\(\displaystyle{\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-{\bar {\bar Y}})^2}\)的无偏估计,而总体方差即\(\dfrac{S_b^2}{M}\),所以\(\mathbb{E}(s_b^2)=S_b^2\)。
有了\(v(\bar{\bar y})\)后,就可以用以代替\(\mathbb{D}(\bar{\bar y})\)构造\(\bar{\bar Y}\)的置信区间。
总值估计
总体总值为\(Y=NM{\bar {\bar Y}}\),从而其估计为\(\hat Y=N\cdot \dfrac{1}{n}\displaystyle\sum_{i=1}^{n}y_i=NM\bar{\bar y}\)。
推论:
\(\hat Y\)是\(Y\)的无偏估计。
\(\hat Y\)的方差为
\[\mathbb{D}(\hat Y)=\mathbb{D}(NM\bar{\bar y})=N^2M^2\mathbb{D}(\bar{\bar y})=N^2M\left(\frac{1-f}{n} \right)S_b^2. \]对\(\mathbb{D}(\hat Y)\)的无偏估计为
\[v(\hat Y)=N^2M\left(\frac{1-f}{n} \right)s_b^2. \]
效率分析
ANOVA表:
\[\begin{array}{c|c|c|c} \hline & \mathrm{df} & \mathrm{SS} & \mathrm{MS} \\ \hline \text{between} & N-1 & \mathrm{SSB}=\displaystyle{\sum_{i=1}^{N}\sum_{j=1}^{M}(\bar Y_{i}-\bar{\bar Y})^2} & S_b^2=\dfrac{\mathrm{SSB}}{N-1} \\ \hline \text{within} & N(M-1) & \mathrm{SSW}=\displaystyle{\sum_{i=1}^{N}\sum_{j=1}^{M}(Y_{ij}-\bar{Y}_i)^2} & S_w^2=\dfrac{\mathrm{SSW}}{N(M-1)} \\ \hline \text{total} & NM-1 & \mathrm{SST}=\displaystyle{\sum_{i=1}^{N}\sum_{j=1}^{M}(Y_{ij}^2-\bar{\bar Y})^2} & S^2=\dfrac{\mathrm{SST}}{NM-1} \\ \hline \end{array} \]由于\(\mathbb{D}(\bar{\bar y})=\dfrac{1-f}{nM}S_b^2\),所以群间方差越大,即\(\dfrac{S_b^2}{S_w^2}\)越大,估计量的方差就越大,精度就越容易损失。
下计算设计效应,从总体中直接抽取一个样本容量为\(nM\)的简单随机样本,则
\[\mathbb{D}_{srs}(\bar{\bar y})=\left(1-\frac{nM}{NM} \right)\frac{S^2}{nM}=\frac{1-f}{nM}S^2, \]下用群内相关系数表示设计效应。记群内相关系数为
\[\rho_c=\frac{\mathrm{E}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y})}{\mathrm{E}(Y_{ij}-\bar{\bar Y})^2}, \\ \mathrm{E}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y})=\frac{1}{N}\sum_{i=1}^{N}\frac{2}{M(M-1)}\sum_{j<k}^{M}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y}),\\ \mathrm{E}(Y_{ij}-\bar{\bar Y})^2=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{M}\sum_{j=1}^{M}(Y_{ij}-\bar{\bar Y})^2=\frac{NM-1}{NM}S^2. \]同时也有
\[\rho_c=\frac{2\sum\limits_{i=1}^{N}\sum\limits_{j<k}^{M}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y})}{(M-1)(NM-1)S^2}.\\ \]于是
\[\begin{aligned} \mathbb{D}(\bar{\bar y})&=\frac{1}{M^2}\mathbb{D}(\bar y) \\ &=\frac{1-f}{nM^2}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{Y})^2\\ &=\frac{1-f}{n}\frac{1}{M^2(N-1)}\sum_{i=1}^{N}\left[\sum_{j=1}^{M}(Y_{ij}-\bar{\bar Y}) \right]^2 \\ &=\frac{1-f}{n}\frac{1}{M^2(N-1)}\sum_{i=1}^{N}\left[\sum_{j=1}^{M}(Y_{ij}-\bar{\bar Y})^2+2\sum_{j<k}^{M}(Y_{ij}-\bar{\bar Y})(Y_{ik}-\bar{\bar Y}) \right]\\ &=\frac{1-f}{nM^2(N-1)}\left[\mathrm{SST}+\rho_cS^2(M-1)(NM-1) \right]\\ &=\frac{1-f}{nM^2(N-1)}\cdot (NM-1)S^2[1+(M-1)\rho_c]\\ &\approx \frac{1-f}{nM}S^2[1+(M-1)\rho_c]\\ &=\mathbb{D}_{srs}(\bar{\bar y})[1+(M-1)\rho_c]. \end{aligned} \]所以
\[\mathrm{deff}= \frac{\mathbb{D}(\bar{\bar y})}{\mathbb{D}_{srs}(\bar{\bar y})}\approx 1+(M-1)\rho_c. \]要提高整群抽样估计的效率,就要通过分群尽可能降低\(\rho_c\)的值。\(\rho_c\)的最大值是\(1\),此时\(S_w^2=0\),即各组内样本完全相同;\(\rho_c\)的最小值是\(-\dfrac{1}{M-1}\),此时\(S_b^2=0\),即各群均值\(\bar{Y_i}\)都相等。
对\(\rho_c\)的估计:使用
\[\hat \rho_c=\frac{s_b^2-s_w^2}{s_b^2+(M-1)s_w^2},\\ s_b^2=\frac{1}{n-1}\sum_{i=1}^{n}M(\bar{y}_i-\bar{\bar y})^2,\quad s_w^2=\frac{1}{n(M-1)}\sum_{i=1}^{n}\sum_{j=1}^{M}(y_{ij}-\bar{y}_i). \]群规模不等时的估计
估计方法
如果各个群不等,则群均值的均值不是总体均值,即
\[\frac{1}{N}\sum_{i=1}^{N}\bar{Y_i}=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{M_i}\sum_{j=1}^{M_i}Y_{ij}\ne\frac{1}{M_0}\sum_{i=1}^{N}\sum_{j=1}^{M_i}Y_{ij}= \bar{\bar Y}, \]从而直接使用\(\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}\bar{y_i}\)估计\(\bar{\bar Y}\)不是无偏的。此时一般不用群均值的均值来估计总体均值,有两种方法:无偏估计、比率估计。
无偏估计
等概率抽样无偏估计的基本思路是,用群规模\(M_i\)作为权数乘以各群均值\(\bar y_i\),得到群观察值总值\(y_i\),再将样本中\(n\)各群的群总和平均,得到群总和均值\(\bar y\),再除以群平均规模\(\bar M\)得到均值估计。即
\[\bar M=\frac{M_0}{N}=\frac{\sum_{i=1}^{N}M_i}{N},\\ \bar{\bar y}=\frac{1}{\bar M}\left(\frac{1}{n}\sum_{i=1}^{n}M_i\bar y_i \right)=\frac{1}{n\bar M}\sum_{i=1}^{n}y_i=\frac{\bar y}{\bar M}=\frac{\bar yN}{\bar MN}=\frac{\hat Y}{M_0},\\ \hat Y=M_0\bar{\bar y}=N\bar y=\frac{N}{n}\sum_{i=1}^{n}y_i. \]在实际应用中,\(M_0\)有时未知,所以一般先计算\(\bar{y}\),从而由\(\hat Y=N\bar{y}\),再利用\(\bar{\bar y}=\dfrac{\hat Y}{\bar MN}\)来估计总体均值。
定理:
\(\mathbb{E}(\hat Y)=Y\)。
无偏估计的方差为
\[\mathbb{D}(\hat Y)=\frac{N^2(1-f)}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{Y})^2. \]对无偏估计方差的估计为
\[v(\hat Y)=\frac{N^2(1-f)}{n}\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar{y})^2. \]
此时将每一个群的群总值\(Y_i\)视为简单随机抽样的抽样单元,则有
\[\mathbb{E}(\bar{y})=\mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n}y_i \right)=\frac{1}{N}\sum_{i=1}^{N}Y_i=\bar{Y}. \]结合\(\hat Y=N\bar y\),则显然\(\mathbb{E}(\hat Y)=N\bar Y=\displaystyle\sum_{i=1}^{N}Y_i=Y\)。另外,
\[\mathbb{D}(\bar y)=\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)^2,\\ v(\bar y)=\frac{1-f}{n}\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2. \]从而自然得到后面的两条。
推论:对于总体均值的无偏估计,有
\[\mathbb{D}(\bar{\bar {y}})=\frac{1}{M_0^2}\mathbb{D}(\hat Y)=\frac{N^2(1-f)}{M_0^2n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar {Y})^2,\\ v(\bar{\bar y})=\frac{N^2(1-f)}{M_0^2n}\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar{y})^2. \]
其缺点是:如果群规模\(M_i\)差别很大,通常会造成\(Y_i\)差异很大,导致\(\bar{\bar y}\)和\(\hat Y\)的方差增大。
比率估计
等概率抽样比率估计的思想是,将\(M_i\)作为\(y_i\)的辅助变量,同时将\(y_i\)作为简单随机抽样的抽样单元,从而获得总体均值的比率估计量为
\[\bar{\bar y}_{R}=\frac{\sum\limits_{i=1}^{n} y_i}{\sum\limits_{i=1}^{n}M_i}. \]总体总值的比率估计量为
\[\hat Y_{R}=M_0\bar{\bar y}_{R}=M_0\cdot \frac{\sum\limits_{i=1}^{n}y_i}{\sum\limits_{i=1}^{n}M_i}. \]由比率估计量的性质,它们都是有偏估计,且
\[\mathbb{D}(\bar{\bar y}_{R})\approx \frac{1-f}{n\bar M^2}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{\bar {Y}}M_i)^2=\frac{1-f}{n\bar M^2}\frac{1}{N-1}\sum_{i=1}^{N}M_i^2(\bar {Y}_i-\bar{\bar Y})^2,\\ v(\bar{\bar y}_{R})=\frac{1-f}{n\bar M^2}\frac{1}{n-1}\left(\sum_{i=1}^{n}y_i^2+\bar{\bar y}^2\sum_{i=1}^{n}M_i^2-2\bar{\bar y}\sum_{i=1}^{n}M_iy_i \right). \]如果\(\bar M\)未知,可以用\(\bar m=\dfrac{\sum\limits_{i=1}^{n}M_i}{n}\)代替。