R语言缺失值探索的强大R包:naniar

简介

缺失值在数据中无处不在,需要在分析的初始阶段仔细探索和处理。在本次示例中,会详细介绍naniar包探索缺失值的方法和理念,它和ggplot2tidy系列使用方法非常相似,上手并不困难。

有时,解释缺失值出现的原因可能很简单,比如,可能是由于记录不全,各种意外等,但实现这一解释的过程可能并不简单,而且可能需要比开发探索性数据分析和模型所需的更多时间。

本次学习主要探讨3个问题:

  1. 开始探索缺失值

  2. 探索缺失值的机制

  3. 模型化缺失值

如何开始探索缺失值

当你面对新的数据时,可能首先会使用各种汇总函数查看数据的基本情况,比如:

  • summary()

  • str()

  • skimr::skim

  • dplyr::glimpse()

  • ...

但是当数据有缺失值时,就会影响接下来的分析。所以首先还要查看数据的缺失情况。

R包visdat可以展示缺失值数据,主要有2个函数:

  • vis_dat()

  • vis_miss()

vis_dat()

library(visdat)
vis_dat(airquality)
</
上一篇:分布式锁:Redisson源码解析-FairLock


下一篇:[HarekazeCTF2019] encode_and_encode