python数据分析——图表

根据https://www.cnblogs.com/chenqionghe/p/12254085.html编写

为加深记忆,笔者把这位博主的十二种图揣摩一遍。(仅为本人学习所用,所以在原代码里面加入了笔者自己的注释,最佳阅读体验最好到原博主博客里面进行学习)

 

折线图

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

x=[0 for i in range(0,10)]
for i in range(0,10,1):
    x[i]=i+2010
y=[5,3,6,20,17,16,19,30,32,35]
# 第一种方法(简单点)
plt.plot(x,y)
plt.show()
# 第二种方法(复杂点)
df=pd.DataFrame({'x':x,'y':y})#表格形式的数据类型
sns.lineplot(x="x",y="y",data=df)
plt.show()

 

直方图

直方图是比较常见的视图,它是把横坐标等分成了一定数量的小区间,然后在每个小区间内用矩形条(bars)展示该区间的数值

# 第一种方法(简单点)但是没有拟合曲线
a=np.random.randn(100) #  rand是0-1的均匀分布,randn是均值为0方差为1的正态分布;这里100则规定了在0~100里面找正态分布的数
now=pd.Series(a) #Series:一维数组,与Numpy中的一维array类似。只能存储相同的数据类型
plt.hist(now)    #hist把数据变成直方图
plt.show()
# 第二种方法(复杂点)但是有拟合曲线
sns.distplot(now,kde=False) #同理,
plt.show()
sns.distplot(now,kde=True) #多了条拟合曲线
plt.show()

 

垂直条形图

条形图可以帮我们查看类别的特征。在条形图中,长条形的长度表示类别的频数,宽度表示类别。

# 第一种方法
x = ['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5']
y = [5, 4, 8, 12, 7]
plt.bar(x, y)    #建立垂直条形图
plt.show()
# 第二种方法(无异)
plt.show()

 

水平条形图

与垂直条形图差不多

# 第一种方法
x = ['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5']
y = [5, 4, 8, 12, 7]
plt.barh(x, y)    #多了个h
plt.show()
# 第二种方法(无异)
plt.show()

 

饼图

饼图是我认为最为直观的图表,这个应该熟悉掌握

a=[25,37,33,37,6] #无规定要相加等于100,占比才是我们关心的
labels=['High-school','Bachelor','Master','Ph.d', 'Others']
plt.pie(x = a, labels=labels)#饼图
plt.show()

 

箱线图

箱线图由五个数值点组成:最大值 (max)、最小值 (min)、中位数 (median) 和上下四分位数 (Q3, Q1)。
可以帮我们分析出数据的差异性、离散程度和异常值等。

# 生成0-1之间的10*4维度数据
data=np.random.normal(size=(10,4))
# np.random.normal(loc=0.0, scale=1.0, size=None)
# 作用:生成高斯分布的概率密度随机数
# loc:float
#     此概率分布的均值(对应着整个分布的中心centre)
# scale:float
#     此概率分布的标准差(对应于分布的宽度,scale越大越矮胖,scale越小,越瘦高)
# size:int or tuple of ints
#     输出的shape,默认为None,只输出一个值
lables = ['A','B','C','D']
# 用Matplotlib画箱线图
plt.boxplot(data,labels=lables)
plt.show()

df = pd.DataFrame(data, columns=lables)
# 用Seaborn画箱线图
sns.boxplot(data=df)
plt.show()

 

热力图

力图,英文叫 heat map,是一种矩阵表示方法,其中矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。通过颜色就能直观地知道某个位置上数值的大小。

flights = sns.load_dataset("flights")#ctrl键看这个函数里面的东西就看到一个网址,说明了这个函数是从在线存储库加载数据集的(需要互联网)
data=flights.pivot('year','month','passengers') #取出三个特征进行热力图的绘制figures.pivot() 第三个属性表示热力图上实际的值
sns.heatmap(data)
plt.show()

导入自己的数据的热力图还不太会,寻找博客ing。。。

 

散点图

散点图的英文叫做 scatter plot,它将两个变量的值显示在二维坐标中,非常适合展示两个变量之间的关系。

#Matplotlib
N = 1000
x = np.random.randn(N)
y = np.random.randn(N)
plt.scatter(x, y,marker='x')  #marker是选择散点属性,这里是x号的形状
#plt.scatter(x, y,marker='.')  这里是.号的形状
plt.show()
#Seaborn
df = pd.DataFrame({'x': x, 'y': y})
sns.jointplot(x="x", y="y", data=df, kind='scatter'); #kind和marker一样意思
plt.show()

 

蜘蛛图

蜘蛛图是一种显示一对多关系的方法,使一个变量相对于另一个变量的显著性是清晰可见

labels=np.array([u"推进","KDA",u"生存",u"团战",u"发育",u"输出"])  #带个u是因为后面要进行中文字体操作,所以以后要尽量避免中文出现
stats=[83, 61, 95, 67, 76, 88]
# 画图数据准备,角度、状态值
angles=np.linspace(0, 2*np.pi, len(labels), endpoint=False)
stats=np.concatenate((stats,[stats[0]])) #头尾相接,把数据变成一个环
angles=np.concatenate((angles,[angles[0]])) #头尾相接,把数据变成一个环
# 用Matplotlib画蜘蛛图
fig = plt.figure()#创建一个空白的 figure 对象,这样做的目的相当于画画前先准备一个空白的画板
ax = fig.add_subplot(111, polar=True)#add_subplot(111) 可以把画板划分成 1 行 1 列
ax.plot(angles, stats, 'o-', linewidth=2)#ax.plot进行连线
ax.fill(angles, stats, alpha=0.25)#ax.fill给图形上色
# 设置中文字体
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)
ax.set_thetagrids(angles * 180/np.pi, labels, FontProperties=font)
plt.show()

 

二元变量分布

二元变量分布可以看两个变量之间的关系

# 数据准备
tips = sns.load_dataset("tips")
print(tips.head(10))
# 用 Seaborn 画二元变量分布图(散点图,核密度图,Hexbin 图)
sns.jointplot(x="total_bill", y="tip", data=tips, kind='scatter')
sns.jointplot(x="total_bill", y="tip", data=tips, kind='kde')
sns.jointplot(x="total_bill", y="tip", data=tips, kind='hex')
plt.show()

这段代码运行错误,应该是我自己的原因。

 

面积图

面积图又称区域图,强调数量随时间而变化的程度,也可用于引起人们对总值趋势的注意。
堆积面积图还可以显示部分与整体的关系。折线图和面积图都可以用来帮助我们对趋势进行分析,当数据集有合计关系或者你想要展示局部与整体关系的时候,使用面积图为更好的选择。

df = pd.DataFrame(
np.random.rand(10, 4),
columns=['a', 'b', 'c', 'd'])

# 堆面积图
df.plot.area()

# 面积图
df.plot.area(stacked=False)  #顾名思义,取消堆叠起来
plt.show()

 

六边形图

在绘制散点图时,如果数据过于密集,则无法单独绘制出每个点,这时候可以考虑 Hexbin 图

df = pd.DataFrame(
np.random.randn(1000, 2),
columns=['a', 'b'])
df['b'] = df['b'] + np.arange(1000)
#等价于 df['b'][i]+=i (i=0..999)
# 关键字参数gridsize;它控制x方向上的六边形数量,默认为100,较大的gridsize意味着更多,更小的bin
df.plot.hexbin(x='a', y='b', gridsize=25)
plt.show()

 

上一篇:VOT中的EAO评判指标


下一篇:关系型和非关系型数据库