在使用 pandas 进行数据分析时,进行一定的数据探索性分析(EDA)是必不可少的一个步骤,例如常见统计指标计算、缺失值、重复值统计等。
使用 df.describe() 等函数进行探索当然是常见操作,但若要进行更完整、详细的分析缺则略显不足。
本文就将分享两个用于数据探索的 pandas 插件。
pandas_profiling
首先要介绍的是pandas_profiling,它扩展了pandas DataFrame的功能,这也是在之前多篇文章中提到的插件。
只需使用pip install pandas_profiling即可安装,在导入数据之后使用df.profile_report()一行命令即可快速生成描述性分析报告