导入数据
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams[‘font.sans-serif’]=[‘SimHei’]
plt.rcParams[‘axes.unicode_minus’]=False
data = pd.read_excel(“data/attacks.xlsx”)
data.head(5)
1
2
3
4
5
6
7
不管是分析什么数据,首先都要将其数据导入进来,才会有后续的问题分析。
查看数据的基本信息
data.info()
1
该命令行可以查看数据的基本信息,比如一共有多少条记录、多少个特征、字段名称、字段类型、缺失行的数量等。
缺失值处理——删除行或列
方法一
data=data.drop(columns=[“Islamic_Date”,“Temperature_F”])
data.head(5)
1
2
说明:中括号里面是列名,可以添加多个列名
这种是直接将整列删除掉,可以删除多列。
方法二
data.drop(labels = [‘Islamic_Date’,‘Temperature_F’], axis = 1, inplace=True)
1
data.drop(labels = ‘Islamic_Date’, axis = 1, inplace=True)
data=data.drop(labels = data.index[data[‘Temperature_F’].isnull()], axis = 0)
data.head(5)
1
2
3
说明:labels后是列名,如果删除的是列的话,labels后可以添加多列一起删除,但是如果删除的是行的话,labels后只可以写一个列名,只针对一列来删除多行。
axis等于1时是删除列。axis等于0时是删除行。
缺失值处理——用某值填充
data.loc[data.Influencing_Event_Event.isnull(),“Influencing_Event_Event”]=“0”
1
该命令行是用零来填充Influencing_Event_Event列中的缺失值。
缺失值处理——中位数、众数、平均数填充
aver_Killed_Min=np.round(np.mean(data.Killed_Min),1)
data.loc[data.Killed_Min.isnull(),“Killed_Min”]=aver_Killed_Min
data.info()
1
2
3
说明:中位数(median)、众数(mode)、平均数(mean)
该命令行是处理Killed_Min列,用本列的平均值填充缺失值。
好了,目前就先写到这里啦,第一次写博客,如有不好的地方,还请多多指教,有空时再继续更新啦,byebye!
————————————————
版权声明:本文为CSDN博主「LAVENCY巧巧叻」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_45880467/article/details/104397005