第七章：抽样与抽样分布（Sampling and sampling distribution）

2023-12-12 23:35:28

文章目录

前言：为什么我们需要样本？
一、先导知识
二、抽样方法大全
三、平均数的抽样分布（the sampling distribution of the mean）

前言：为什么我们需要样本？

统计总体（population）有时过于昂贵/耗时长，样本（sample）提供了一种便捷的估计总体的方式
适当的抽样方法能帮助我们获取更贴合总体特征的样本

一、先导知识

1、点估计（point estimation）*

我们使用样本的data去计算一些用来估计population parameter的特殊的sample statistic的值。

在本章中我们关注
x ˉ \bar x xˉ : 作为population mean μ \mu μ 的point estimator;
p ˉ \bar p pˉ : 作为population proportion : p 的point estimator。

⬇︎

2、取样/非取样误差(sampling and non sampling error)

由于点估计不可避免的误差，我们使用error来估计sample statistic和population parameter间的误差

sampling error= x ˉ \bar x xˉ - μ \mu μ或 p ˉ \bar p pˉ - p
sample size越大，sampling error越小
nonsampling error
有倾向性的调查方式，数据采集失误所导致

3、术语大杂烩

抽样元素/抽样单位（element）：被分析的个体、单位、组织
抽样总体（population/target population/population of interest）:想调查的元素的集合
样本（sample）：抽样总体的子集
sampled population：我们所能调查到、从中获取sample的population
抽样框（frame）：我们将sampled population整理成名单（比如电话本，花名册等，我们给这堆population编号方便后续的sample的抽取）

！注意区分target population和sampled population：
前者是理想化的，我们想要调查的整个群体。但由于现实因素的限制，我们只能找到一个不完美的population（sampled population）进行调查。比如说，我想调查从古至今全人类的寿命，我无法获取古时的population parameters，我只能把现代人寿命数据作为一个sampled population。
同时我们希望sampled population是population的子集，而不要有population之外的元素。

二、抽样方法大全

1.概率抽样（probability sampling）：指每个元素都有已知的被抽取的概率，优点是可通过推断性统计（inferential statistical tests）来估计整体population

a.简单随机抽样（simple random sample）

每个元素有相等的概率被抽取，分为放回（with replacement）和不放回（without replacememt）两种

b.系统抽样（systematic sampling）

依据一定的抽样距离k，从总体中抽取样本
这里的k= N n \frac{N}{n} nN, 其中N为population，n为sample

优点：更方便收集

c.分层抽样（stratified sampling）

将population中元素分为互斥（mutually exclusive group）的分类特征组（strata）,每个组有各自的特征，这种特征与想调查的东西有关。比如说，我要调查“喝奶茶的人数”，那么我把population分为“男生”“女生”两个strata。

分好组后，我按照比例，运用简单随机或系统抽样抽出最后的sample。

d.整群抽样（cluster sampling）

将population中的元素分为互斥的clusters，每个组都是整个population的代表。

分组后，运用geography随机抽取其中的少数clusters组成最后的sample

是一种成本低，精度低的方法。

注意，cd两种方法在抽样前都要经过一定的处理，c分类标准与调查内容有关，d无关（还是奶茶的例子，d会以人的姓的首字母作为分类标准，这和喝不喝奶茶没半毛钱关系）；c群内差异小，群间差异大，d反之

2.非概率抽样（nonprobability sampling）

每个样本被抽中的概率未知

a.convenience

教授用自己的学生作为sample➡️不具有代表性

b.judgment

调查者凭借自己的经验选取sample➡️受主观因素影响

另外，我们将population分为finite与infinite两种类型，对他们我们有不同的处理方式。

①finite：使用简单随机抽样

实例如下➤大学收到900份水平相当的申请，要从中随机抽取30份申请。
首先，我们为900份申请编号
其次，在excel中使用RAND()，该函数可以生成大于等于0，小于1的随机数。
【若我们要生成0到5的随机数，=rand（）*5】
使用INT(number)：将数字向下舍入到最近的整数。
综合运用rand和int我们可以抽样出想要的sample数量，再用vlookup找到对应的样本个体。

具体示例➔link
vlookup教程➔link.

②infinite：这种情况下我们无法获取population中所有的数据。
此时我们从infinite population中随机取样（random sample），我们需要遵从的原则有两个➔

❶所有元素都必须来自同一个population of interest
❷每个元素都是独立（independently）选取的

怎么去理解这两个原则呢？假设我们要调查顾客对一家餐厅的喜爱程度，首先我们关注在餐厅消费的顾客人群而非去使用厕所的人。其次，独立选取意味着排除选择偏见，不选择特定的性别，也不同时调查一群饭友（他们有相同的喜好）

上述所说都是抽取sample的方法，接下来进入用sample估计population的阶段，因此我们挑选一些合适的point estimator。
首先来看看平均数

⬇︎

三、平均数的抽样分布（the sampling distribution of the mean）

过程:抽取有n个元素的random sample
\qquad 这个sample提供mean x ˉ \bar x xˉ
\qquad 用 x ˉ \bar x xˉ去估计总体的 μ \mu μ

1、sample mean x ˉ \bar x xˉ= ∑ x n \frac{\displaystyle\sum x}{n} n∑x

需要注意：因为sample是随机挑选的，这个 x ˉ \bar x xˉ（这个整体！不是单指x。整体思想，这很重要，这里x的平均数相当于以前的X）是一个R.V.！！！它的值是不确定的，会因为选取的sample变化而变化，因此可以对它做概率分布研究（比如第一组sample是123，第二组是122）

2、 sampling distribution of X ˉ \bar X Xˉ（因为RV，x大写）
这是在对所有可能出现的sample的 x ˉ \bar x xˉ的值进行概率分布（probability distribution）

一些要用到的符号:

μ X ˉ \mu _{\bar X} μXˉ=the mean of the sampling distribution of X ˉ \bar X Xˉ
σ X ˉ \sigma_{\bar X} σXˉ=the standard deviation of the sampling distribution of a ˉ X \bar aX aˉX

求RV的概率分布的mean和S.D.前面学过）不要记成the mean of X ˉ \bar X Xˉ,一定是the mean of X ˉ \bar X Xˉ的sampling distribution！）

因为我们知道了 X ˉ \bar X Xˉ可能取的值和取这些值的概率，我们可以用general formula去求得mean和SD：
μ X ˉ = ∑ i = 1 k x ˉ i ⋅ P ( x ˉ i ) \mu _{\bar X}=\sum_{i=1}^k \bar x_i\cdot P(\bar x_i) μXˉ=i=1∑kxˉi⋅P(xˉi)
σ X ˉ = ∑ i = 1 K ( x ˉ i − μ x ˉ ) 2 P ( x ˉ i ) \sigma_{\bar X}=\sqrt{\sum_{i=1}^K(\bar x_i-\mu_{\bar x})^2 P(\bar x_i)} σXˉ=i=1∑K(xˉi−μxˉ)2P(xˉi)
这里 x ˉ i \bar x_i xˉi指当 x ˉ \bar x xˉ取第i个时的值
特别地，对于continuous RV，用f( x ˉ \bar x xˉ)代替P( x ˉ i \bar x_i xˉi)

既然已经知道怎么去求sampling distribution的平均数和标准差，我们就可以依靠它们来估计population的均值和标准差

3、sample到population
它们的联系如下：
E ( X ˉ ) = μ X ˉ = μ E(\bar X)=\mu_{\bar X}=\mu E(Xˉ)=μXˉ=μ
这里的 μ \mu μ就是population的均值。该结论是计算数据所得。

SD的联系之后再说。

4、Law of large numbers(LLN)
指随着试验次数变多，sample mean越来越贴合population mean

定理：当一个probability distribution能够被pmf或pdf f表示，那么当满足
\quad \quad \quad ①RV各自独立（independent）【基于上面的原则➋】
\quad \quad \quad ②RV各自的the marginal pmf or pdf是f【指每个RV Xi的概率都是一样的，怎么做到呢？当我们sampling with replacement或有很大很大的population时，可以忽略抽出的sample对剩下的整体的影响】
\quad \quad \quad 时，我们说这n个RV(X1,X2,X3…Xn)组成了一个random sample。
\quad \quad \quad 这样的RV们的组合又被称为independent and identically distributed(i.i.d)

这里的RV是指每个element的一个observation由于抽取的sample不同，值在改变。
n则是sample size。

在此基础上，我们提出weak law of large numbers（WLLN）：
假设有一个i.i.d，它们都有均值和SD，同时我们定义 X ˉ n = X 1 + X 2 + . . X n n \bar X_n=\frac{X_1+X_2+..X_n}{n} Xˉn=nX1+X2+..Xn
那么对于所有大于0的 ϵ \epsilon ϵ有
l i m n → ∞ P ( ∣ X ˉ n − μ ∣ > ϵ ) = 0 \mathop{lim}\limits_{n→\infty}P(\vert\bar X_n -\mu\vert>\epsilon )=0 n→∞limP(∣Xˉn−μ∣>ϵ)=0

理解：当n足够大时，i.i.d的均值无限接近population 的均值。

tbc.

码农公寓