文章目录
前言:为什么我们需要样本?
- 统计总体(population)有时过于昂贵/耗时长,样本(sample)提供了一种便捷的估计总体的方式
- 适当的抽样方法能帮助我们获取更贴合总体特征的样本
一、先导知识
1、 点估计(point estimation)*
我们使用样本的data去计算一些用来估计population parameter的特殊的sample statistic的值。
在本章中我们关注
x
ˉ
\bar x
xˉ : 作为population mean
μ
\mu
μ 的point estimator;
p
ˉ
\bar p
pˉ : 作为population proportion : p 的point estimator。
⬇︎
2、取样/非取样误差(sampling and non sampling error)
由于点估计不可避免的误差,我们使用error来估计sample statistic和population parameter间的误差
- sampling error=
x
ˉ
\bar x
xˉ -
μ
\mu
μ或
p
ˉ
\bar p
pˉ - p
sample size越大,sampling error越小 - nonsampling error
有倾向性的调查方式,数据采集失误所导致
3、术语大杂烩
- 抽样元素/抽样单位(element):被分析的个体、单位、组织
- 抽样总体(population/target population/population of interest):想调查的元素的集合
- 样本(sample):抽样总体的子集
- sampled population:我们所能调查到、从中获取sample的population
- 抽样框(frame):我们将sampled population整理成名单(比如电话本,花名册等,我们给这堆population编号方便后续的sample的抽取)
!注意区分target population和sampled population:
前者是理想化的,我们想要调查的整个群体。但由于现实因素的限制,我们只能找到一个不完美的population(sampled population)进行调查。比如说,我想调查从古至今全人类的寿命,我无法获取古时的population parameters,我只能把现代人寿命数据作为一个sampled population。
同时我们希望sampled population是population的子集,而不要有population之外的元素。
二、抽样方法大全
1.概率抽样(probability sampling): 指每个元素都有已知的被抽取的概率,优点是可通过推断性统计(inferential statistical tests)来估计整体population
a.简单随机抽样(simple random sample)
每个元素有相等的概率被抽取,分为放回(with replacement)和不放回(without replacememt)两种
b.系统抽样(systematic sampling)
依据一定的抽样距离k,从总体中抽取样本
这里的k=
N
n
\frac{N}{n}
nN, 其中N为population,n为sample
优点:更方便收集
c.分层抽样(stratified sampling)
将population中元素分为互斥(mutually exclusive group)的分类特征组(strata),每个组有各自的特征,这种特征与想调查的东西有关。比如说,我要调查“喝奶茶的人数”,那么我把population分为“男生”“女生”两个strata。
分好组后,我按照比例,运用简单随机或系统抽样抽出最后的sample。
d.整群抽样(cluster sampling)
将population中的元素分为互斥的clusters,每个组都是整个population的代表。
分组后,运用geography随机抽取其中的少数clusters组成最后的sample
是一种成本低,精度低的方法。
注意,cd两种方法在抽样前都要经过一定的处理,c分类标准与调查内容有关,d无关(还是奶茶的例子,d会以人的姓的首字母作为分类标准,这和喝不喝奶茶没半毛钱关系);c群内差异小,群间差异大,d反之
2.非概率抽样(nonprobability sampling)
每个样本被抽中的概率未知
a.convenience
教授用自己的学生作为sample➡️不具有代表性
b.judgment
调查者凭借自己的经验选取sample➡️受主观因素影响
另外,我们将population分为finite与infinite两种类型,对他们我们有不同的处理方式。
①finite:使用简单随机抽样
实例如下➤大学收到900份水平相当的申请,要从中随机抽取30份申请。
首先,我们为900份申请编号
其次,在excel中使用RAND(),该函数可以生成大于等于0,小于1的随机数。
【若我们要生成0到5的随机数,=rand()*5】
使用INT(number):将数字向下舍入到最近的整数。
综合运用rand和int我们可以抽样出想要的sample数量,再用vlookup找到对应的样本个体。
具体示例➔link
vlookup教程➔link.
②infinite:这种情况下我们无法获取population中所有的数据。
此时我们从infinite population中随机取样(random sample),我们需要遵从的原则有两个➔
❶所有元素都必须来自同一个population of interest
❷每个元素都是独立(independently)选取的
怎么去理解这两个原则呢?假设我们要调查顾客对一家餐厅的喜爱程度,首先我们关注在餐厅消费的顾客人群而非去使用厕所的人。其次,独立选取意味着排除选择偏见,不选择特定的性别,也不同时调查一群饭友(他们有相同的喜好)
上述所说都是抽取sample的方法,接下来进入用sample估计population的阶段,因此我们挑选一些合适的point estimator。
首先来看看平均数
⬇︎
三、平均数的抽样分布(the sampling distribution of the mean)
过程:抽取有n个元素的random sample
\qquad
这个sample提供mean
x
ˉ
\bar x
xˉ
\qquad
用
x
ˉ
\bar x
xˉ去估计总体的
μ
\mu
μ
1、sample mean x ˉ \bar x xˉ= ∑ x n \frac{\displaystyle\sum x}{n} n∑x
需要注意:因为sample是随机挑选的,这个 x ˉ \bar x xˉ(这个整体!不是单指x。整体思想,这很重要,这里x的平均数相当于以前的X)是一个R.V.!!!它的值是不确定的,会因为选取的sample变化而变化,因此可以对它做概率分布研究(比如第一组sample是123,第二组是122)
2、 sampling distribution of
X
ˉ
\bar X
Xˉ(因为RV,x大写)
这是在对所有可能出现的sample的
x
ˉ
\bar x
xˉ的值进行概率分布(probability distribution)
一些要用到的符号:
μ
X
ˉ
\mu _{\bar X}
μXˉ=the mean of the sampling distribution of
X
ˉ
\bar X
Xˉ
σ
X
ˉ
\sigma_{\bar X}
σXˉ=the standard deviation of the sampling distribution of
a
ˉ
X
\bar aX
aˉX
求RV的概率分布的mean和S.D.前面学过)不要记成the mean of X ˉ \bar X Xˉ,一定是the mean of X ˉ \bar X Xˉ的sampling distribution!)
因为我们知道了
X
ˉ
\bar X
Xˉ可能取的值和取这些值的概率,我们可以用general formula去求得mean和SD:
μ
X
ˉ
=
∑
i
=
1
k
x
ˉ
i
⋅
P
(
x
ˉ
i
)
\mu _{\bar X}=\sum_{i=1}^k \bar x_i\cdot P(\bar x_i)
μXˉ=i=1∑kxˉi⋅P(xˉi)
σ
X
ˉ
=
∑
i
=
1
K
(
x
ˉ
i
−
μ
x
ˉ
)
2
P
(
x
ˉ
i
)
\sigma_{\bar X}=\sqrt{\sum_{i=1}^K(\bar x_i-\mu_{\bar x})^2 P(\bar x_i)}
σXˉ=i=1∑K(xˉi−μxˉ)2P(xˉi)
这里
x
ˉ
i
\bar x_i
xˉi指当
x
ˉ
\bar x
xˉ取第i个时的值
特别地,对于continuous RV,用f(
x
ˉ
\bar x
xˉ)代替P(
x
ˉ
i
\bar x_i
xˉi)
既然已经知道怎么去求sampling distribution的平均数和标准差,我们就可以依靠它们来估计population的均值和标准差
3、sample到population
它们的联系如下:
E
(
X
ˉ
)
=
μ
X
ˉ
=
μ
E(\bar X)=\mu_{\bar X}=\mu
E(Xˉ)=μXˉ=μ
这里的
μ
\mu
μ就是population的均值。该结论是计算数据所得。
SD的联系之后再说。
4、Law of large numbers(LLN)
指随着试验次数变多,sample mean越来越贴合population mean
定理:当一个probability distribution能够被pmf或pdf f表示,那么当满足
\quad
\quad
\quad
①RV各自独立(independent)【基于上面的原则➋】
\quad
\quad
\quad
②RV各自的the marginal pmf or pdf是f【指每个RV Xi的概率都是一样的,怎么做到呢?当我们sampling with replacement或有很大很大的population时,可以忽略抽出的sample对剩下的整体的影响】
\quad
\quad
\quad
时,我们说这n个RV(X1,X2,X3…Xn)组成了一个random sample。
\quad
\quad
\quad
这样的RV们的组合又被称为independent and identically distributed(i.i.d)
这里的RV是指每个element的一个observation由于抽取的sample不同,值在改变。
n则是sample size。
在此基础上,我们提出weak law of large numbers(WLLN):
假设有一个i.i.d,它们都有均值和SD,同时我们定义
X
ˉ
n
=
X
1
+
X
2
+
.
.
X
n
n
\bar X_n=\frac{X_1+X_2+..X_n}{n}
Xˉn=nX1+X2+..Xn
那么对于所有大于0的
ϵ
\epsilon
ϵ有
l
i
m
n
→
∞
P
(
∣
X
ˉ
n
−
μ
∣
>
ϵ
)
=
0
\mathop{lim}\limits_{n→\infty}P(\vert\bar X_n -\mu\vert>\epsilon )=0
n→∞limP(∣Xˉn−μ∣>ϵ)=0
理解:当n足够大时,i.i.d的均值无限接近population 的均值。
tbc.