【数据分析师 Level 1 】3.抽样分布及参数估计

【数据分析师 Level 1 】3.抽样分布及参数估计

抽样分布及参数估计

1.随机的基本概念

随机实验

随机实验是概率论的一个基本概念。概括的讲,在概率论中把符合下面三个特点的试验叫做随机试验

  • 可以在相同的条件下重复的进行
  • 每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果
  • 进行一次试验之前不能确定哪一个结果会出现

随机事件

在概率论中,随机事件(或简称事件)指的是一个被赋予几率的事物的集合,也就是样本空间中的一个子集。简单来说,在一次随机试验中,某个特定时间可能会出现也可能不会出现;但是当试验次数增多,我们可以观察到某种规律性的结果,就是随机事件。

随机变量

设随机试验的样本空间

S=e,X=X(e)S = {e},X=X(e)S=e,X=X(e)

是定义在样本空间S上的单值实值函数,称X为随机变量

2.概率分布

正态分布的图像形式

既然介绍变量的分布情况,就要介绍一下正态分布。首先,正态分布是关于均值左右对称的,呈钟形,如下图所示。其次,正态分布的均值和标准差具有代表性,只要知道其均值和标准差,这个变量的分布情况就完全知道了。在正态分布中,均值=中位数=众数

【数据分析师 Level 1 】3.抽样分布及参数估计【数据分析师 Level 1 】3.抽样分布及参数估计

3.抽样分布

中心极限定理

从均值为 μ\muμ,方差为 σ2\sigma^2σ2的一个任意总体中抽取容量为n的样本,当n充分大时,
样本均值的抽样分布近似服从均值为 μ\muμ ,方差为 σ2n\frac{\sigma^2}{n}nσ2​的正态分布
根据中心极限定理,我们知道如果做很多次抽样的话会得到很多个样本均值,而这些样本均值排列起来会形成正态分布,他们的平均数是μ\muμ,标准差是σn\frac{\sigma}{\sqrt{n}}n​σ​ 换句话说,有约68% 的样本均值会落在 μ±σn\mu \pm \frac{\sigma}{\sqrt{n}}μ±n​σ​之间,有约 95 %的样本均值会落在 μ±2σn\mu \pm 2\frac{\sigma}{\sqrt{n}}μ±2n​σ​ 有约 99.7 %的样本均值会落在 μ±3σn\mu \pm 3\frac{\sigma}{\sqrt{n}}μ±3n​σ​

把上述说法稍微转换一下就变成:有68 %的 x‾±σn\overline x \pm \frac{\sigma}{\sqrt{n}}x±n​σ​ 会包含着 μ\muμ
有95 %的 x‾±2σn\overline x \pm 2\frac{\sigma}{\sqrt{n}}x±2n​σ​会包含着 μ\muμ
有99.7 %的 x‾±3σn\overline x \pm 3\frac{\sigma}{\sqrt{n}}x±3n​σ​会包含着μ\muμ
而这就是抽样和估计最根本的道理

我们从全体之中以随机抽样方式抽取n个样本,取得样本观察值,计算它们的平均数 x‾\overline xx ,然后加减两倍的 σn\frac{\sigma}{\sqrt{n}}n​σ​
得到一组上下区间,然后说:我们有95 % 的信心,这个上下区间一定会包含着全体的平均数 μ\muμ。如果我们不放心的话,可以用 x‾\overline xx 加减三倍的 σn\frac{\sigma}{\sqrt{n}}n​σ​,那么这组区间包含着 μ\muμ 的置信度就有99.7 %

中心极限定理:不论总体是什么样的形状,只要在假定总体分布不是很偏的情况下,总体选择足够多的情况下,选取的总体样本均值就可以估计总体样本均值的指标,抽样出来的中位数、众数都可以认为和总体是差不多的,是具有代表性的

参数估计

1.点估计

用样本平均数 x‾\overline xx 来估计总体的平均数 μ\muμ 称为点估计
点估计命中目标的机会是极低的,因为只凭着少数样本观察值得到的结果
要和全体的平均数吻合几乎是不可能的事,所以我们除了用点估计,还有区间估计

根据中心极限定理和正态分布的特性我们知道 x‾±σn\overline x \pm \frac{\sigma}{\sqrt{n}}x±n​σ​
这个区间包含着全体平均数 μ\muμ的机会有 68%(简洁表达,我们省去“约”)
x‾±2σn\overline x \pm 2\frac{\sigma}{\sqrt{n}}x±2n​σ​的机会有95%,而 x‾±3σn\overline x \pm 3\frac{\sigma}{\sqrt{n}}x±3n​σ​的机会有99.7 %,
真正可靠的估计势必要用区间估计,只有这样做我们才可以知道估计准确度的程度,而这 68%、95%、99.7%就称做是置信水平

说的更确切一点,以95 %的置信水平为例,它的意思是:如果我们进行一百次独立抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有95个正确地包含着全体平均数 μ\muμ
实际上我们不会做一百次抽样,而是只做一次,所以说这一次抽样而来的区间估计会包含着 μ\muμ的机会是95 %,置信水平越高,估计得区间也就越宽,这是高置信水平所必须付出的代价

2.区间估计

刚刚提到过一个好的估计必须既准又稳,我们用 x‾\overline xx 来估计 μ\muμ,如果做很多次的话,会有很多个 x‾\overline xx
中心极限定理已经给我们保证,这些 x‾\overline xx 的平均数会等于 μ\muμ
所以是[准]的估计已无问题,但是这些 x‾\overline xx是否都靠在一起,是[稳]呢?

这就要看 x‾\overline xx 的标准差了,我们已经知道x‾\overline xx的标准差是σn\frac{\sigma}{\sqrt{n}}n​σ​,其中 σ\sigmaσ 是全体的标准差,
n是样本数,把样本数加大会使得标准差变小,所以我们马上领悟到样本数越大,估计也就越稳。
其次,σ\sigmaσ 是全体数据的标准差,我们并不知道它到底是多少,在区间估计我们也需要用到它,因此为了要知道估计得准确度连全体资料的\sigma也要一起估计才行

至少有两种方法来估计 σ\sigmaσ 一是用样本观察值得标准差 S,S2S^2S2的定义
S2=∑i=1n(Xi−x‾)2n−1S^2 = \frac{\sum^n_{i=1}(X_i - \overline x)^2}{n-1}S2=n−1∑i=1n​(Xi​−x)2​
本章要求我们对抽样估计的理论、抽样的多种组织形式的掌握\定必要样本容量的原因,必要样本容量的影响因素
明确概率统计的各个知识点与业务环境、数据分析三者间的对应关系

例题

1.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的均值为()

A.x‾\overline xx
B. μ\muμ
C.σ2\sigma^2σ2
D.σ22\frac{\sigma^2}{2}2σ2​

答案:B

解析:熟悉中心极限定理的概念

2.从均值为 μ\muμ 、方差为 σ2\sigma^2σ2(有限)的任意一个总体抽取大小为n的样本 则()

A.当n充分大时,样本均值 X‾\overline XX的分布近似服从正态分布

B.只有当n<30时,样本均值 X‾\overline XX的分布近似服从正态分布

C.样本均值 X‾\overline XX的分布与 n无关

D.无论n多大,样本均值 X‾\overline XX的分布都为非正态分布

答案:A

解析:熟悉大数定律

3.某中小企业某部门员工的年龄分布是右偏的,均值为26,标准差是4.5.如果采取重复抽样的方法从部门抽取容量为100的样本,则抽样均值的抽样分布是()

A.正态分布,均值为26,标准差为0.45

B.分布形状未知,均值为26,标准差为4.5

C.正态分布,均值为26,标准差为4.5

D.分布形状未知,均值为26,标准差0.45

答案:A

解析:不管总体分布是何种分布,抽样分布都是符合正态分布的,对于该题中描述的对中小企业的某部门员工进行重复又放回抽样,此时100个样本量可看为已经充分大,根据中心极限定理,

Error occurred on encoding katex: KaTeX parse error: KaTeX parse error: Expected 'EOF', got '样' at position 1: 样̲本均值  \overline …
        

4.大样本的样本比例的抽样分布服从()

A.正态分布

B. t分布

C. F分布

D. x2x^2x2 分布

答案:A

解析:由二项分布的原理和渐进分布的理论可知,当n充分大时,样本比例的分布可用正态分布去逼近

5.大样本的样本比例之差的抽样分布服从()

A.正态分布

B. t分布

C. F分布

D. x2x^2x2 分布

答案:A

6.估计量的含义是指()

A.用来估计总体参数的统计量的具体数值

B.用来估计总体参数的统计量的名称

C.总体参数的具体数值

D.总体参数的名称

答案:B

解析:熟悉估计量和估计值的定义

7.有关置信区间不正确的是

A. 100次独立抽样,产生的区间估计,会有95次的可能正确预测总体平均数

B. 1次独立抽样,产生的区间估计,会有95%的可能正确预测总体平均数

C. 100次独立抽样,产生的点估计,会有95个总体平均数一致

D. 100次独立抽样,产生的区间估计,会有95个正确地包含着总体平均数

答案:ABC

解析:置信区间是包含的概念,而不能用于预测

8.在其他条件都不变的情况下,提高置信水平(或置信度),那么置信区间会()

A.变大

B.变小

C.不会有变化

D.有的情况变大,有的情况变小

答案:A

解析:提高置信水平就是提高置信区间 σ,则置信区间变大

Question:什么是置信水平,什么是置信区间?

9.在置信水平不变的情况下,要缩小置信区间,则需要()

A.改变统计量的抽样标准差

B.减少样本量

C.增加样本量

D.保持样本量不变

答案:C

解析:熟悉置信区间的定义。当置信水平固定时,置信区间的宽度随样本量的增大而减小,换言之,较大的样本所提供的有关总体的信息要比较小的样本多

10.在小样本条件下,当正态总体的方差未知时,估计总体均值使用的分布是()

A.正态分布

B. t 分布

C. F 分布

D. x2x^2x2分布

答案:B

解析:熟悉总体参数估计得不同情况

11.两个总体方差比的区间估计,使用的分布是()

A.正态分布

B. t 分布

C. F 分布

D.x2x^2x2分布

答案:D

12.抽取一个容量为400的随机样本,其均值为80,标准差s=10,总体均值的95%的置信区间为()

A. 80±1.96

B. 80±0.98

C. 80±0.8

D. 80±1.29

答案:B

解析:95%的置信水平为1.96,总体均值为80±1.96*10/20

13.从一个正态总体中随机抽取一个容量为n的样本,其均值和标准差分别为35和4.当n=25时,构造总体均值的95%的置信区间为()

A. 35±1.96

B. 35±2.22

C. 35±4.97

D. 35±1.65

答案:D

解析:在正态分布下总体均值的区间估计中,由于样本量小于30,属于小样本,其当前总体标准差未知,所以采用t分布

当样本量足够大的时候,采用的是Z统计量来近似正态分布的估计

如果样本量是小于30的,采用的是t统计量来对总体均值进行估计

上一篇:选择排序


下一篇:Oracle 密码包含特殊字符OTL访问的解决方案