title: Python第三阶段学习总结
category: Python数据分析
date: 2021/12/03
一. 数据分析概述
1. 数据分析师的职责和技能栈
1.1 职责
- 监控数据
- 揪出异常
- 找到原因
- 探索趋势
1.2 技能栈
- 计算机科学(数据分析工具、编程语言、数据库)
- 数学和统计学(数据思维、统计思维)
- 人工智能(机器学习算法)
- 业务理解能力(沟通、表达、经验)
- 总结和表述能力(商业PPT、文字总结)
2. 数据分析的流程
我们提到数分析这个词很多时候可能指的都是狭义的数据分析,这类数据分析主要目标就是生成可视化报表并通过 这些报表来洞察业务中的问题。广义的数据分析还包含了数据挖掘的部分,不仅要通过数据实现对业务的监控和分 析,还要利用机器学习算法,找出隐藏在数据背后的知识,并利用这些知识为将来的决策提供支撑。简单的说,⼀ 个完整的数据分析应该包括基本的数据分析和深⼊的数据挖掘两个部分。
基本的数据分析工作⼀般包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。
- 确定目标(输入):理解业务,确定指标口径
- 获取数据:数据仓库、电子表格、三方接口、网络爬虫、开放数据集等
- 清洗数据:缺失值/重复值/异常值处理、数据变换(格式化、规范化)、数据归约、离散化等
- 探索数据:运算、统计、分组、聚合、可视化
- 数据报告(输出):数据发布,工作成果总结汇报
- 分析洞察(后续):解释数据的变化,提出对应的方案
深入的数据挖掘工作通常包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。
- 确定目标(输入):理解业务,明确挖掘目标
- 数据准备:数据采集、数据描述、数据探索、质量判定等
- 数据加工:提取数据、清洗数据、数据变换、特殊编码、降维、特征选择等
- 数据建模:模型比较、模型选择、算法应用
- 模型评估:交叉检验、参数调优、结果评价
- 模型部署(输出):模型落地、业务改进、运营监控、报告撰写
3. 数据分析相关库
3.1 三大神器
-
NumPy:支持常见的数组和矩阵操作,通过
ndarray
类实现了对多维数组的封装,提供了操作这些数组的方法和函数集。由于 NumPy 内置了并行运算功能,当使用多核 CPU 时,Numpy会自动做并行计算。 -
Pandas:pandas的核心是其特有的数据结构
DataFrame
和Series
,这使得 pandas 可以处理包含不同类型的数据的负责表格和时间序列,这⼀点是NumPy的ndarray
做不到的。使用 pandas,可以轻松顺利的加载各种形式的数据,然后对数据进行切片、切块、处理缺失值、聚合、重塑和可视化等操作。 -
Matplotlib:matplotlib 是⼀个包含各种绘图模块的库,能够根据我们提供的数据创建高质量的图形。此外, matplotlib 还提供了 pylab 模块,这个模块包含了很多像 MATLAB ⼀样的绘图组件。