简介
缺失值在数据中无处不在,需要在分析的初始阶段仔细探索和处理。在本次示例中,会详细介绍naniar
包探索缺失值的方法和理念,它和ggplot2
和tidy
系列使用方法非常相似,上手并不困难。
有时,解释缺失值出现的原因可能很简单,比如,可能是由于记录不全,各种意外等,但实现这一解释的过程可能并不简单,而且可能需要比开发探索性数据分析和模型所需的更多时间。
本次学习主要探讨3个问题:
-
开始探索缺失值
-
探索缺失值的机制
-
模型化缺失值
如何开始探索缺失值
当你面对新的数据时,可能首先会使用各种汇总函数查看数据的基本情况,比如:
-
summary()
-
str()
-
skimr::skim
-
dplyr::glimpse()
-
...
但是当数据有缺失值时,就会影响接下来的分析。所以首先还要查看数据的缺失情况。
R包visdat
可以展示缺失值数据,主要有2个函数:
-
vis_dat()
-
vis_miss()
vis_dat()
library(visdat)
vis_dat(airquality)
</