[数据分析] 探索性数据分析 EDA

数据分析

按数据分析的思维模式或者目的:

  • 描述性分析:使用统计方法(如均值、中位数、众数、方差等)来描述数据的特征,总结和组织数据,以提供对数据集的清晰理解
  • 预测性分析:使用历史数据来建立模型,如回归分析、时间序列分析和机器学习算法,以预测未来事件。
  • 指导性分析:不仅预测结果,还建议最佳的行动方案,通常涉及优化和模拟

按数据分析采用的方法:

  • 描述性数据分析:提供对数据的直观理解
  • 探索性数据分析:*形式的分析,发现数据中的模式和结构
  • 验证性数据分析:验证或反驳特定的假设

探索性数据分析EDA(Exploratory Data Analysis)

定义:EDA是一种在尽量少的先验假设下,通过数据可视化分析数据集,探索数据结构和规律的数据分析方法

目的:

  • 帮助理解数据的基本特征
  • 发现数据中的重要特征和变量
  • 揭示数据中的意外模式或异常值
  • 识别并处理数据中的缺失值、异常值和错误,为后续分析做准备
  • 为业务决策提供初步的支持

基本步骤:

  • 数据加载与清洗:从不同的数据源加载数据,并进行数据清理,包括处理缺失值、重复数据或异常值
  • 描述性统计分析:计算数据集的统计信息,如均值、中位数、分位数等,以获得数据的总体轮廓
  • 数据可视化:通过直方图、箱型图、散点图等图形化手段,探索数据的分布和变量间的关系
  • 特征间相关性分析:分析不同变量之间的相关性,可以使用散点图矩阵或相关矩阵等工具

    工具:
  • numpy
  • pandas
  • matplotlib
  • seaborn
上一篇:Spring IDEA 2024 安装Lombok插件


下一篇:如何使用Git or SVN--可视化工具