参考 :ZOE’s MindMap、 统计学(贾俊平版)
阅读提示:内容较长为了检索便捷;如有错误,请指出。
笔记提示:部分内容暂时未完善,后续不断更新
数学基础扫盲
- 认识
- 1. 描述性统计
- 2.数值方法
- 3.概率
- 4概率分布
- 5抽样分布
- 6区间估计
- 7假设检验
- 8 两总体均值之差和比例之差的推断
- 9总体方差的统计推断
- 10多个比率的比较&独立性检验&拟合优度检验
- 11实验设计&方差分析
- 12简单线性回归
- 13多元回归
- 16时间序列及预测
- 17指数
- 18非参数方法(略)
- 18.其他
认识
数学是一个工具:通过收集、分析、解读数字中的信息
- 面试
对概率论和数理统计的基础知识的考察是重要组成部分。因为在工作中很多分析报告和制定策略都是基于概率统计和数据统计的一些定理。
在面试和实际工作中更加着重对于,结合工作这些知识点的理解和应用
1. 描述性统计
1.基本概念
- 数据分类 1
数据 | 类型 | 逻辑与数学运算 | 举例 |
---|---|---|---|
定性数据 | 定类尺度 | = != | 身份证 |
定序尺度,次序 | = != < > | 年级 | |
定量数据 | 定距尺度,上述属性+有固定单位 | = != < >+ - | 分数、温度 |
定比尺度,上述属性+比例意义 | = != <>+ -*/ | 长度、高度、利润、薪酬、产值 |
-
截面数据与时序数据
- 截面数据:也称静态数据指在同一时间截面上反映一个总体的一批,如:人口普查数据
- 时间序列数据:同一统一指标按时间顺序记录的数据列,例如:某省从1940年至1999年各个年末的人口数是由50个时点数组成的时序数列
-
描述统计
用数值、表格、图形等汇总数据,使得数据易于理解和解释。 -
推断统计
用样本数据对总体数据进行估计和假设检验 -
数据展示&目的
- 数据分布
条形图 :频数/相对频数分布
饼形图 :相对频数/百分比频数分布 - 数据数值
打点图 :整个数据范围内的分布
直方图 :在一个「区间组集合」上的「频数分布
茎叶显示 :展示等级顺序和分布形态 - 进行比较
复合条形图
结构条形图 - 相关关系
散点图
趋势图
- 数据分布
2.表格图形
1.单变量
- 分布型数据
- 表格方法
- 频数分布,数据的表格汇总
- 相对频数分布,算公式为:频数/总数=相对频数。
- 图形方法
- 条形图 bar chat
横轴:组别;纵轴:频数/相对频数 - 饼图 pie chat
相对频数
- 条形图 bar chat
- 表格方法
- 数值型数据
- 表格方法
- 频数分布
步骤:1.确定组数(互不重叠) 2.确定每组的宽度,近似组宽=(max-min)/组数 3. 确定组限,确保每个数据落在一个组内 - 相对频数分布
- 累计分布
表格汇总
图形化:累计曲线 ogive
- 图形方法
- 打点图 dot plot
模轴表示数据值域,每一数据值用打在数轴上的点表示。如值=18的点有三个,就在18的位置打三个点; - 直方图 histogram
纵轴:频数/相对频数。与 bar plot 的区别 ,矩形相连,反映数据的形态分布 - 茎叶图
- 打点图 dot plot
2.双变量
- 表格方法
- 交叉分组表
同时展示两个变量的表格。注意辛普森悖论,单独的表与交叉表得出不同的结论。原因是,存在影响结论的隐藏变量,注意需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。
- 交叉分组表
- 图形方法
- 数值数据
散点图:数量变量间的关系
趋势图:相关性近似程度表达 - 分类数据
复合/簇状条形图 side by side
结构/堆砌条形图 stacked chart
- 数值数据
2.数值方法
概述 :度量样本和总体参数
包括:
- 中心位置
- 平均值
- 众数
- 中位数
- 分位数
- 变异程度
- 四分位数间距
- 方差&标准差
- 标准差系数
- 平均值绝对偏差
- 分布形态
- 偏度
- 峰度
- Ȥ分数
- 相对位置
- 切比雪夫定理
- 经验法则
- 异常值
- 线性关系
- 协方差
- 相关性系数
1.中心位置的度量
数据集中趋势的度量
- 平均值
用来表示随机变量的理想平均水平。随着实验次数的增多,x的均值会越发趋近于期望值。- 公式
- 离散型随机变量。基于分布率。Ex:随机变量及其对应的概率两者的乘积的累加。
E ( X ) = ∑ k = 1 ∞ x k p k E(X)=\displaystyle\sum^\infty_{k=1}x_kp_k E(X)=k=1∑∞xkpk - 连续型随机变量,基于概率密度函数fx。
E ( X ) = ∫ − ∞ ∞ x d x E(X)=\displaystyle\int^{\infty}_{-\infty}{xdx} E(X)=∫−∞∞xdx
- 离散型随机变量。基于分布率。Ex:随机变量及其对应的概率两者的乘积的累加。
- 类别
- 算术平均数,调整平均数:P%平均数,删除P%的最大值和最小值后的均值
x ‾ = ∑ i = 1 ∞ x i n \overline x=\frac{\displaystyle\sum^\infty_{i=1}x_i}{n} x=ni=1∑∞xi - 加权平均数
x ‾ = ∑ i = 1 k x i f i ∑ i = 1 k f i \overline x=\frac{\displaystyle\sum^k_{i=1}x_if_i}{\displaystyle\sum^k_{i=1}f_i} x=i=1∑kfii=1∑kxifi - 几何平均数
n个数值乘积的n次方,应用:确定几个连续时期的平均变化率,例如财务的 增长率
G n = x 1 x 2 x 3 … … x n n G_n=\sqrt[n]{x_1x_2x_3……x_n} Gn=nx1x2x3……xn
- 公式
- 众数 mode
出现次数最多的数, 不受极端值得影响。众数只有在数据 量较大的时候才 有意义。且众数可能有多个,但多个众数无意义 - 中位数 median
包含异常值时,比均值更合适 - 分位数
随机变量在样本中的排序情况,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。作用 :用来监测异常数据:根据业务规则设定一个合理的分位区间,区间之外的数据要进行异常处理。例如和历史订单量相比,单日订单量过高过低都要进行相应的分析 - 公式
求对应分位数对应的值
X p = X L + p ∗ N − F L F p i p X_p=X_L+\frac{p*N-F_L}{F_p}i_p Xp=XL+Fpp∗N−FLip
p 百分位数,位置指标 、L 位置前一个分组上限 、N 样本总数或频数、Fl前一个分组频数 、Fp P 所在位置分组频数 、ip 分组的长度- 百分位数
- 定义 :第p百分位数 至少有p%的观测值<=该值 且 至少有(1-p%)的观测值>=该值
- 计算
- 数据按「升序」排列
- i= (P/100)n
p为百分位数 n为观测值个数 ;i 不是整数 向上取整(大于i的下一个整数)\i是整数 第ⅰ和(i+1)项的平均值
- 常用
四分位数 第25、50、75百分位数 50百分位数○=○中位数
五分位数 第20、40、60、80百分位数
十分位数⊙第10、20…90百分位数
第
- 四分位数
Q1: P=25%, 较小四分位数
Q2: P=50%, 中位数
Q3: P=75%, 较大四分位数
- 百分位数
2.变异程度的度量
数据的离散程度
- 极差range
d = max -min,用于粗略检查产品 质量 的稳定性和进行质 量控制 - 四分位数间距IQR
IQR = Q3- Q1 ,中间50%数据的极差 - 方差 D(X)
样本与均值的离差平方和的均值 ,度量随机变量偏离期望的程度,刻画数据的波 动性和稳定性,方差越大,结果未知性越大。
总体方差: σ 2 = ∑ ( x i − μ ) 2 N \sigma^2=\frac{\sum{(x_i-\mu)^2}}{N} σ2=N∑(xi−μ)2
样本方差: s 2 = ∑ ( x i − x ‾ ) 2 n − 1 s^2=\frac{\sum{(x_i-\overline x)^2}}{n-1} s2=n−1∑(xi−x)2
样本方差估计总体方差:1.无偏差估计:采用(n-1)总体方差总是比样本方差大一点, - 标准差