描述统计
- 如何收集数据
- 通过图表形式对数据进行加工处理和可视化
- 通过概括与分析得出反映客观现象的规律性数量特征
数据的可靠性(reliable)和有效性(valid)
- 可靠性:多次测量得到的数据是否一致
- 有效性:实际测量对象=希望测量对象
一个分类变量的特征和可视化
- 频率表
性别 | 频数(Count) | 频率(Frequency) |
---|
-
条形图
-
集中趋势:一组观测值向其中心集中的倾向和程度
- 众数(mode)
- 中位数(median)
- 无序分类变量——(众数)
- 有序分类变量——(众数、中位数)
一个数值变量的特征和可视化
- 频率表
- 数值变量的频率表可以分割区间
- 频率直方图
- 纵轴为 \(频率/区间值\) ——(保证条形覆盖面积为1)
- 集中趋势
- 均值(mean)
- 离散趋势
- 极差/全距(range):最大值减最小值
- 分位数/分位点(quantile):把数据n等分
- 四分位距(IQR):\(75\%分位点-25\%分位点\)
- 方差(variance)、标准差(standard deviation)
- 等距数值变量——(极差/全距、分位数/分位点、IQR)
- 等比数值变量——(极差/全距、分位数/分位点、IQR、方差、标准差)
- 箱线图(box plot)
分布的形状
-
偏度(skewness)
- 左偏:\(均值<中位数\)
- 对称:\(均值=中位数\)
- 右偏:\(均值>中位数\)
-
形态(modality)
- 单峰(unimodal)
- 双峰(bimodal)
- 多峰(multimodal)
-
峰度(kurtosis)
- 峰尖、尾平、聚拢程度高
- 扁平、聚拢程度低
变量间的关系
两个分类变量的关系
- 关联表(contingency table)
- 分段条形图
- 相对频率分段条形图
散点图(scatter plot)
- 方向、形状、强度、极端值
一个数值变量和一个分类变量的关系
- 并排箱图(side-by-side box plot)
极端值和缺失值
极端值/异常值(outliers)
-
\(Q1:25\%分位点;Q3:75\%分位点\)
-
小于\(Q1-1.5IQR\) 或 大于 \(Q3+1.5IQR\) 的值为疑似极端值
-
小于\(Q1-3IQR\) 或 大于 \(Q3+3IQR\) 的值为极端值
-
均值受到极端值影响较大;中位数、众数受到极端值影响较小
-
极差、标准差受到极端值的影响较大;IQR受到极端值的影响较小
-
如何处理极端值
- 测量或记录错误,直接丢弃
- 不明原因,具体分析或选择受影响较小的指标进行分析
- 可以对比保留和丢弃极端值对结果的影响来判断结果是否受到极端值的影响
缺失值
-
如何处理缺失值
-
缺失值观测记录少,丢弃或使用均值、中位数、众数、最大值等替代
-
缺失值观测记录多,具体分析
-