数据采样
简单随机抽样,从sashelp数据集中air数据文件中选取30个数
数据探索
数字特征的探索:均值、频数、最大值、最小值、众数、中位数、方差、标准差
数字分布的探索:是否服从正态分布
连续型变量分布
means过程
univariate过程
缺失值补充
单一插补:从其预测分布中取一个值填充缺失值
插补方法:业务逻辑;均值法;最小邻居法;回归法
单一插补往往会低估估计量的方差
多重插补是一种以模拟为基础的方法,对每个缺失值产生m个合理的插补值,这样插补后,得到m组完全数据,使用标准的完全数据方法分析每组数据并融合分析结果。
单一插补法:根据中位数来插缺失值全部填充成中位数