探索性数据分析(EDA)为什么在机器学习中至关重要?
数据驱动组织的座右铭“If you can't measure it, you can't fix it”。
“我们必须了解我们的数据,然后再试图让机器去理解我们的数据,直接把问题甩给机器是极其不负责任的行为”
EDA(Exploratory Data Analysis),全名数据探索性分析,是通过了解数据集,了解变量间的相互关系以及变量与预测值之间的关系,从而帮助我们后期更好地进行特征工程和建立模型,是数据挖掘中十分重要的一步。
python体系统中所需工具包括:数据科学库(pandas、numpy、scipy,pyspark)、可视化库(matplotlib、seabon、plotly、cufflinks、pyecharts)
EDA是一个大型的摸底过程,是一个形成初步认知的过程,我们通过EDA更加了解我们的任务、数据、以及数据中可能存在的一些问题的点,进而验证我们数据采样的方式是否平衡、全面、可靠。
EDA不单是看看数据的分布,而是对数据整体有一个大概的了解。通过作图、制表、方