前言
经过前面对 matplotlib 模块从底层架构、基本绘制步骤等学习,我们已经学习了折线图、柱状图的绘制方法。
在分析数据的时候,我们会根据数据的特点来选择对应图表来展示,需要表示质量这一概念,需要用直方图。
本期,我们将学习matplotlib 模块绘制直方图相关属性和方法,Let‘s go~
1. 直方图概述
-
什么是直方图?
- 直方图是一种可视化表示数据在连续间隔或者特定时间段内容的分布情况
- 直方图又称为质量分布图,属于条行图的一种
- 直方图x轴表示数据类型,纵轴表示分布情况,每个数据宽度可以任意变化
-
直方图使用场景
- 直方图用于概率分布,展示一组数据在指定范围内的出现概率
- 可以用于展示数据分布频率情况
- 用于众数、中位数的位置
- 关注数据存在缺口或者异常值
-
直方图绘制步骤
- 导入matplotlib.pyplot模块
- 准备数据,可以使用numpy/pandas整理数据
- 调用pyplot.hist()绘制直方图
-
案例展示
本次案例我们来分析公司员工的身高分布情况
-
案例数据准备,使用numpy随机生成200个升高数据
import numpy as np x_value = np.random.randint(140,180,200) 复制代码
-
绘制直方图
import matplotlib.pyplot as plt plt.hist(x_value,bins=10) plt.title("data analyze") plt.xlabel("height") plt.ylabel("rate") plt.show() 复制代码
-
2. 直方图属性
-
设置颜色
-
设置长条形颜色关键字:facecolor
-
设置边框的颜色关键字:edgecolor
-
颜色选择值
- 使用颜色的英语单词如红色"red",黄色"yellow"
- 使用颜色简称:红色"r",蓝色"b"
- 使用rgb:格式(r,g,b),取值范围:0~1
-
-
设置长条形数目
- 关键字:bins
- 可选项,默认为10
-
设置透明度
- 关键字:alpha
- 默认为0,取值范围为0~1
-
设置样式
-
关键字:histtype
-
取值说明
属性值 说明 'bar' 柱状形数据并排,默认值 'barstacked' 柱状形数据重叠并排 'step' 柱状形颜色不填充 'stepfilled' 填充的线性
-
-
我们对第一节直方图添加柱状形不填充,边框颜色为红色
plt.hist(x_value,bins=10,edgecolor="r",histtype="step") 复制代码
-
边框设置为红色,透明度为0.5
plt.hist(x_value,bins=10,edgecolor="r",histtype="bar",alpha=0.5) 复制代码
3. 添加折线直方图
在直方图中,我们也可以加一个折线图,辅助我们查看数据变化情况
-
首先通过pyplot.subplot()创建Axes对象
-
通过Axes对象调用hist()方法绘制直方图,返回折线图所需要的下x,y数据
-
然后Axes对象调用plot()绘制折线图
-
我们对第一节代码进行改造一下
fig,ax = plt.subplots() n,bins_num,pat = ax.hist(x_value,bins=10,alpha=0.75) ax.plot(bins_num[:10],n,marker = 'o',color="yellowgreen",linestyle="--") 复制代码
4. 堆叠直方图
我们有时候会对吧同样数据范围情况下,对比两组不同对象群体收集的数据差异
-
准备两组数据:
import numpy as np x_value = np.random.randint(140,180,200) x2_value = np.random.randint(140,180,200) 复制代码
-
直方图属性data:以列表的形式传入两组数据
-
设置直方图stacked:为True,允许数据覆盖
plt.hist([x_value,x2_value],bins=10,stacked=True) 复制代码
5. 不等距直方图
我们上述绘制的直方图都是等距的,我们可以指定一组数据传入bins属性
-
bins 关键字:指定直方图的柱状形个数
-
更改上述的代码后,看看效果吧
bin_num = [140,155,160,170,175,180] plt.hist([x_value,x2_value],bins=bin_num,alpha=0.75,stacked=True) 复制代码
6. 多类直方图
我们在使用直方图查查看数据的频率时,有时候会查看多种类型数据出现的频率。
-
这时候我们可以以列表的形式传入多种数据给hist()方法的x数据
x_value = [np.random.randint(140,180,i) for i in [100,200,300]] plt.hist(x_value,bins=10,edgecolor="r",histtype="bar",alpha=0.5,label=["A公司","B公司","C公司"]) 复制代码
总结
本期,我们对matplotlib模块中详细学习绘制各种直方图标相关属性和方法。在需要查看数据分布频率时,我们可以使用hist()方法绘制直方图,同时也可以添加折线来辅助查看
以上是本期内容,欢迎大佬们点赞评论,下期见~