【数据分析师 Level 1 】3.抽样分布及参数估计
抽样分布及参数估计
1.随机的基本概念
随机实验
随机实验是概率论的一个基本概念。概括的讲,在概率论中把符合下面三个特点的试验叫做随机试验
- 可以在相同的条件下重复的进行
- 每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果
- 进行一次试验之前不能确定哪一个结果会出现
随机事件
在概率论中,随机事件(或简称事件)指的是一个被赋予几率的事物的集合,也就是样本空间中的一个子集。简单来说,在一次随机试验中,某个特定时间可能会出现也可能不会出现;但是当试验次数增多,我们可以观察到某种规律性的结果,就是随机事件。
随机变量
设随机试验的样本空间
S=e,X=X(e)S = {e},X=X(e)S=e,X=X(e)
是定义在样本空间S上的单值实值函数,称X为随机变量
2.概率分布
正态分布的图像形式
既然介绍变量的分布情况,就要介绍一下正态分布。首先,正态分布是关于均值左右对称的,呈钟形,如下图所示。其次,正态分布的均值和标准差具有代表性,只要知道其均值和标准差,这个变量的分布情况就完全知道了。在正态分布中,均值=中位数=众数
3.抽样分布
中心极限定理
从均值为 μ\muμ,方差为 σ2\sigma^2σ2的一个任意总体中抽取容量为n的样本,当n充分大时,
样本均值的抽样分布近似服从均值为 μ\muμ ,方差为 σ2n\frac{\sigma^2}{n}nσ2的正态分布
根据中心极限定理,我们知道如果做很多次抽样的话会得到很多个样本均值,而这些样本均值排列起来会形成正态分布,他们的平均数是μ\muμ,标准差是σn\frac{\sigma}{\sqrt{n}}nσ 换句话说,有约68% 的样本均值会落在 μ±σn\mu \pm \frac{\sigma}{\sqrt{n}}μ±nσ之间,有约 95 %的样本均值会落在 μ±2σn\mu \pm 2\frac{\sigma}{\sqrt{n}}μ±2nσ 有约 99.7 %的样本均值会落在 μ±3σn\mu \pm 3\frac{\sigma}{\sqrt{n}}μ±3nσ
把上述说法稍微转换一下就变成:有68 %的 x‾±σn\overline x \pm \frac{\sigma}{\sqrt{n}}x±nσ 会包含着 μ\muμ
有95 %的 x‾±2σn\overline x \pm 2\frac{\sigma}{\sqrt{n}}x±2nσ会包含着 μ\muμ
有99.7 %的 x‾±3σn\overline x \pm 3\frac{\sigma}{\sqrt{n}}x±3nσ会包含着μ\muμ
而这就是抽样和估计最根本的道理
我们从全体之中以随机抽样方式抽取n个样本,取得样本观察值,计算它们的平均数 x‾\overline xx ,然后加减两倍的 σn\frac{\sigma}{\sqrt{n}}nσ
得到一组上下区间,然后说:我们有95 % 的信心,这个上下区间一定会包含着全体的平均数 μ\muμ。如果我们不放心的话,可以用 x‾\overline xx 加减三倍的 σn\frac{\sigma}{\sqrt{n}}nσ,那么这组区间包含着 μ\muμ 的置信度就有99.7 %
中心极限定理:不论总体是什么样的形状,只要在假定总体分布不是很偏的情况下,总体选择足够多的情况下,选取的总体样本均值就可以估计总体样本均值的指标,抽样出来的中位数、众数都可以认为和总体是差不多的,是具有代表性的
参数估计
1.点估计
用样本平均数 x‾\overline xx 来估计总体的平均数 μ\muμ 称为点估计
点估计命中目标的机会是极低的,因为只凭着少数样本观察值得到的结果
要和全体的平均数吻合几乎是不可能的事,所以我们除了用点估计,还有区间估计
根据中心极限定理和正态分布的特性我们知道 x‾±σn\overline x \pm \frac{\sigma}{\sqrt{n}}x±nσ
这个区间包含着全体平均数 μ\muμ的机会有 68%(简洁表达,我们省去“约”)
x‾±2σn\overline x \pm 2\frac{\sigma}{\sqrt{n}}x±2nσ的机会有95%,而 x‾±3σn\overline x \pm 3\frac{\sigma}{\sqrt{n}}x±3nσ的机会有99.7 %,
真正可靠的估计势必要用区间估计,只有这样做我们才可以知道估计准确度的程度,而这 68%、95%、99.7%就称做是置信水平
说的更确切一点,以95 %的置信水平为例,它的意思是:如果我们进行一百次独立抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有95个正确地包含着全体平均数 μ\muμ
实际上我们不会做一百次抽样,而是只做一次,所以说这一次抽样而来的区间估计会包含着 μ\muμ的机会是95 %,置信水平越高,估计得区间也就越宽,这是高置信水平所必须付出的代价
2.区间估计
刚刚提到过一个好的估计必须既准又稳,我们用 x‾\overline xx 来估计 μ\muμ,如果做很多次的话,会有很多个 x‾\overline xx
中心极限定理已经给我们保证,这些 x‾\overline xx 的平均数会等于 μ\muμ
所以是[准]的估计已无问题,但是这些 x‾\overline xx是否都靠在一起,是[稳]呢?
这就要看 x‾\overline xx 的标准差了,我们已经知道x‾\overline xx的标准差是σn\frac{\sigma}{\sqrt{n}}nσ,其中 σ\sigmaσ 是全体的标准差,
n是样本数,把样本数加大会使得标准差变小,所以我们马上领悟到样本数越大,估计也就越稳。
其次,σ\sigmaσ 是全体数据的标准差,我们并不知道它到底是多少,在区间估计我们也需要用到它,因此为了要知道估计得准确度连全体资料的\sigma也要一起估计才行
至少有两种方法来估计 σ\sigmaσ 一是用样本观察值得标准差 S,S2S^2S2的定义
S2=∑i=1n(Xi−x‾)2n−1S^2 = \frac{\sum^n_{i=1}(X_i - \overline x)^2}{n-1}S2=n−1∑i=1n(Xi−x)2
本章要求我们对抽样估计的理论、抽样的多种组织形式的掌握\定必要样本容量的原因,必要样本容量的影响因素
明确概率统计的各个知识点与业务环境、数据分析三者间的对应关系
例题
1.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的均值为()
A.x‾\overline xx
B. μ\muμ
C.σ2\sigma^2σ2
D.σ22\frac{\sigma^2}{2}2σ2
答案:B
解析:熟悉中心极限定理的概念
2.从均值为 μ\muμ 、方差为 σ2\sigma^2σ2(有限)的任意一个总体抽取大小为n的样本 则()
A.当n充分大时,样本均值 X‾\overline XX的分布近似服从正态分布
B.只有当n<30时,样本均值 X‾\overline XX的分布近似服从正态分布
C.样本均值 X‾\overline XX的分布与 n无关
D.无论n多大,样本均值 X‾\overline XX的分布都为非正态分布
答案:A
解析:熟悉大数定律
3.某中小企业某部门员工的年龄分布是右偏的,均值为26,标准差是4.5.如果采取重复抽样的方法从部门抽取容量为100的样本,则抽样均值的抽样分布是()
A.正态分布,均值为26,标准差为0.45
B.分布形状未知,均值为26,标准差为4.5
C.正态分布,均值为26,标准差为4.5
D.分布形状未知,均值为26,标准差0.45
答案:A
解析:不管总体分布是何种分布,抽样分布都是符合正态分布的,对于该题中描述的对中小企业的某部门员工进行重复又放回抽样,此时100个样本量可看为已经充分大,根据中心极限定理,
Error occurred on encoding katex: KaTeX parse error: KaTeX parse error: Expected 'EOF', got '样' at position 1: 样̲本均值 \overline …
4.大样本的样本比例的抽样分布服从()
A.正态分布
B. t分布
C. F分布
D. x2x^2x2 分布
答案:A
解析:由二项分布的原理和渐进分布的理论可知,当n充分大时,样本比例的分布可用正态分布去逼近
5.大样本的样本比例之差的抽样分布服从()
A.正态分布
B. t分布
C. F分布
D. x2x^2x2 分布
答案:A
6.估计量的含义是指()
A.用来估计总体参数的统计量的具体数值
B.用来估计总体参数的统计量的名称
C.总体参数的具体数值
D.总体参数的名称
答案:B
解析:熟悉估计量和估计值的定义
7.有关置信区间不正确的是
A. 100次独立抽样,产生的区间估计,会有95次的可能正确预测总体平均数
B. 1次独立抽样,产生的区间估计,会有95%的可能正确预测总体平均数
C. 100次独立抽样,产生的点估计,会有95个总体平均数一致
D. 100次独立抽样,产生的区间估计,会有95个正确地包含着总体平均数
答案:ABC
解析:置信区间是包含的概念,而不能用于预测
8.在其他条件都不变的情况下,提高置信水平(或置信度),那么置信区间会()
A.变大
B.变小
C.不会有变化
D.有的情况变大,有的情况变小
答案:A
解析:提高置信水平就是提高置信区间 σ,则置信区间变大
Question:什么是置信水平,什么是置信区间?
9.在置信水平不变的情况下,要缩小置信区间,则需要()
A.改变统计量的抽样标准差
B.减少样本量
C.增加样本量
D.保持样本量不变
答案:C
解析:熟悉置信区间的定义。当置信水平固定时,置信区间的宽度随样本量的增大而减小,换言之,较大的样本所提供的有关总体的信息要比较小的样本多
10.在小样本条件下,当正态总体的方差未知时,估计总体均值使用的分布是()
A.正态分布
B. t 分布
C. F 分布
D. x2x^2x2分布
答案:B
解析:熟悉总体参数估计得不同情况
11.两个总体方差比的区间估计,使用的分布是()
A.正态分布
B. t 分布
C. F 分布
D.x2x^2x2分布
答案:D
12.抽取一个容量为400的随机样本,其均值为80,标准差s=10,总体均值的95%的置信区间为()
A. 80±1.96
B. 80±0.98
C. 80±0.8
D. 80±1.29
答案:B
解析:95%的置信水平为1.96,总体均值为80±1.96*10/20
13.从一个正态总体中随机抽取一个容量为n的样本,其均值和标准差分别为35和4.当n=25时,构造总体均值的95%的置信区间为()
A. 35±1.96
B. 35±2.22
C. 35±4.97
D. 35±1.65
答案:D
解析:在正态分布下总体均值的区间估计中,由于样本量小于30,属于小样本,其当前总体标准差未知,所以采用t分布
当样本量足够大的时候,采用的是Z统计量来近似正态分布的估计
如果样本量是小于30的,采用的是t统计量来对总体均值进行估计