数据分析
按数据分析的思维模式或者目的:
- 描述性分析:使用统计方法(如均值、中位数、众数、方差等)来描述数据的特征,总结和组织数据,以提供对数据集的清晰理解
- 预测性分析:使用历史数据来建立模型,如回归分析、时间序列分析和机器学习算法,以预测未来事件。
- 指导性分析:不仅预测结果,还建议最佳的行动方案,通常涉及优化和模拟
按数据分析采用的方法:
- 描述性数据分析:提供对数据的直观理解
- 探索性数据分析:*形式的分析,发现数据中的模式和结构
- 验证性数据分析:验证或反驳特定的假设
探索性数据分析EDA(Exploratory Data Analysis)
定义:EDA是一种在尽量少的先验假设下,通过数据可视化分析数据集,探索数据结构和规律的数据分析方法
目的:
- 帮助理解数据的基本特征
- 发现数据中的重要特征和变量
- 揭示数据中的意外模式或异常值
- 识别并处理数据中的缺失值、异常值和错误,为后续分析做准备
- 为业务决策提供初步的支持
基本步骤:
- 数据加载与清洗:从不同的数据源加载数据,并进行数据清理,包括处理缺失值、重复数据或异常值
- 描述性统计分析:计算数据集的统计信息,如均值、中位数、分位数等,以获得数据的总体轮廓
- 数据可视化:通过直方图、箱型图、散点图等图形化手段,探索数据的分布和变量间的关系
- 特征间相关性分析:分析不同变量之间的相关性,可以使用散点图矩阵或相关矩阵等工具
。
工具: - numpy
- pandas
- matplotlib
- seaborn