一、参数估计
1⃣️ 估计
· 分布剖析
有两条法则可以告诉你:大部分数据落在概率分布中的哪个区域。
经验法则——适用于符合正态分布的任何数据集。表明:几乎所有的数据都位于距离均值3个标准差的范围内。具体:
大约68%的数值位于距离均值1个标准差的范围内;
大约95%的数值位于距离均值2个标准差的范围内;
大约99.7%的数值位于距离均值3个标准差的范围内。
切比雪夫不等式——适用于任何数据集。表明:对于任意分布,都至少有1-1/k^2的X落在离均值k个标准差的范围内。具体:
至少75%的数值位于距离均值2个标准差的范围内;
至少89%的数值位于距离均值3个标准差的范围内;
至少94%的数值位于距离均值4个标准差的范围内。
· 参数估计
· 步骤:选定参数——选定统计量——抽样分布——得出结果
· 定义
参数估计:用样本统计量去估计总体的参数
估计量:用来估计总体参数的统计量
估计值:根据一个具体的样本计算出来的估计量的数值
· 抽样分布
1)样本均值的抽样分布
2)样本比例的抽样分布
由二项分布的原理和渐近分布的理论,当n充分大时,np>5且np>5时,p的分布可用正态分布去逼近,即:
P~N(p,pq/n)
切忌:须进行连续型修正+-1/2n
3)样本方差的抽样分布
· 评价估计量的三标准
无偏性:估计量抽样分布的数学期望等于被估计的总体参数
有效性:也称最小方差性,即方差越小的估计量越有效
一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数
· 估计-得出结果
两类方法
· 点估计
定义:用样本估计量构造的某一个值直接作为总体参数的估计值
具体方法:矩估计法、最大似然法、顺序统计量估计法、最小二乘法
特点:优点(简单、精确);缺点(不准确)
· 区间估计
定义:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间
置信水平:置信区间中包含总体参数真值的次数所占的比例
⚠️注意:
比如说抽取100个样本,根据每个样本构造一个置信区间,这样,由100个样本构造的总体参数的100个置信区间中,有95%的区间包含总体参数的真值,有5%没包含,则95%这个值称为置信水平。
1)表述:构造置信水平为95%的置信区间
2)置信区间是一个随机区间,它会因样本的不同而不同,且不是所有的区间都包含总体参数的真值
3)在实际问题中,由一个样本构造的区间是一个特定的区间,而不再是随机区间,所以我们无法知道这个样本所产生的区间是否包含总体参数的真值,我们只能希望这个区间是大量包含总体参数真值的区间中的一个。
思考:
如何衡量区间对总体参数估计的准确性?
1)总体的参数值总是存在的、且固定的,但是是未知的;
2)不能说“某个区间以90%的概率包含总体参数”;也不能说总体参数有90%的可能性落在某个区间。
一个特定区间“总是包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题,但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含参数的真值。
总体均值的区间估计
总体比例的区间估计
总体方差的区间估计
· 小结
二、描述性统计分析
1⃣️统计的基本概念
【数据分析步骤】核心:数据
收集数据➡️处理数据➡️分析数据➡️解释数据
分析数据的方法
· 描述性分析
-研究数据收集、处理和描述的统计学方法
总体规模、对比关系、集中趋势、离散程度、偏态、峰态…..
· 推断性分析
-研究如何利用样本数据来推断总体特征的统计学方法
估计、假设检验、列联分析、方差分析、相关分析、回归分析…..
· 基本概念-数据
1)统计学的对象是数据
2)数据的形式:数字(可进行比较)&文本(不可运算)「注:阿拉伯数字不一定是数字,在处理数据时,它只是一个代替的符号而已,也可以表示文字」
3)数据的分类
按照计量尺度:
· 分类型数据(不可排序,不可计算)
按现象的某种属性对其分类或分组而得到的反映事物类型的数据,又称定类数据
如按照性别将人口分为男、女两类
· 顺序型数据(可排序,不可计算)
某一有序类别的非数字型数据
如将产品分为一等品、二等品、三等品、次品等
· 数值型数据(可排序,可计算)
· 基本概念
总体
样本
参数:要研究的总体的某种特征值,如总体均值、总体标准差、总体比例等
统计量:指根据样本数据计算出来的一个量,如样本均值、样本标准差、样本比例等
变量
-变量的具体表现称为变量值,即数据
-分为:分类变量、顺序变量、数值型变量
2⃣️数据的描述性统计
⚠️必会!
撰写一份数据描述统计分析报告
五个角度:
一、总体规模的描述——总量指标
二、对比关系的描述——相对指标
三、集中趋势的描述——平均指标
四、离散程度的描述——变异指标
五、分布形态的描述——偏态与峰态
六、描述性统计图表