一些注意事项
在字符串中为了区分转义符,可以在前面加个\ 或者在最前面加r;
字符串加好拼接;乘号重复;
索引【-1】代表最后一个;
endwith布尔值检查结尾;
startwirh检查开始;检查的可以是元组,里面多个元素;
find找位置;忽略大小写使用re.findall;
join拼接;
注意python和matab的很大区别是python索引是从0开始的!!!;
将列表中的值进行置空[]就相当于删除;
判断一个值在列表中用in;
判断多个值在列表中:
set([2,10]) <= set(a);
集合set无序不重复,去除列表重复元素可以转换成集合再转换回来;
两个集合:
a-b差集
a|b并集;
a&b交集;
a^b不同时存在的元素
字典无序,list和tup不能当键;
del删除;
sorted按键排序;
dict构建字典;
生成序列的range只能是整数;
要生成带小数的使用np的arrange(起始值,终止值,步长 );
修改文件编码方式使用notepad++软件;
导入文本文件(csv)
file文件路径;
names列名,默认为文件中的第一行;
se分隔符,默认为空,表示默认导入为一列;
encoding设置文件编码,导入中文的时候需要设置为utf-8
from pandas import read_table;
read_table(file, names = [列名1,列名2,....], sep = "", encoding,...)
from pandas import read_csv;
read_csv(file, names = [列名1,列名2,....], sep = "", encoding,...)
导入Excel文件
filename文件路径
sheetname sheet的名字
names 列名,默认第一行作为列名
read_excel(fileName, sheetname,header)
导出csv文件
filePath文件路径;
sep分隔符,默认逗号;
index是否导出行序号,默认导出;
header是否导出列名,默认导出;
df.to_csv(filePath, sep="", index = TRUE, header = TRUE)
重复值处理
行相同的数据只保留一行
返回新的df
df1 = df.drop_duplicates()
缺失值的处理
产生:
暂时无法获取
信息被遗漏
处理方式
数据补全;(平均值等等)
删除对应缺失行;(数据量少慎用)
df.dropna()
不处理;
空格值处理
字符型数据前后有空格
newname = df['name'].str.strip()
df['name'] = newname
字段抽取
根据已知列数据的开始和结束位置,抽出新的列
df['列名'] = df['列名'].astype(str) # 先转换成字符串形式
df1= df['列名'].str.slice(start,stop)
字段拆分
按照固定的字符,拆分已有字符串;
sep用于分割字符串(空格逗号);
n分割为多少列;
expend是否展开为数据框,默认不展开,返回的是系列Series,展开时返回dataframe
split(sep, n, expend = False)
记录抽取
比较运算
< > >= <= !=
comments为列名,
返回这列中满足>10000条件的所在行
df[df.comments > 10000]
范围运算
df[df.comments.between(1000,10000)]
空值匹配
找出为标题为空的行
df[pandas.isnumm(df.title)]
字符匹配
抽取title所在列包含某个字符的所在行
df[df.title.str.contains('', na = False)] # 控制不需要匹配
逻辑运算
df[(df.comments>=1000)&(df.comments<=100000)] # 与上面的between效果相同
随机抽样
start范围开始值(闭)一般为0
end范围结束值(开)
num抽样个数
返回的是行数的索引值系列Series
numpy.random.randint(start,end,num)
记录合并
将两个结构相同的数据框,合并成一个数据框
import pandas;
df3 = pandas.concat([dataFrame1,dataFrame2])
字段合并
是字段拆分的逆过程,将一个数据框中多列(数字要先转换成字符型)进行合并
返回一个系列
新列名 = df['列名1'] + df['列名2'] + df['列名3']
字段匹配
将不同结构的数据框,按照一定条件进行合并
x第一个数据框
y第二个数据框
yleft_on第一个数据框用于匹配的列
right_on第二个数据框用于匹配的列
返回的是新的数据框
import pandas;
df1 = pandas.merge(x, y, left_on, right_on)
简单计算
result = df.price * df.num
df['sum'] = result
数据标准化
0-1标准化:
x ∗ = x − m i n / m a x − m i n x^* = {x-min}/{max-min} x ∗ = x − m i
n / m a x − m i n
scale = (df.acore-df.score.min())/(df.score.max()-df.score.min())
数据分组
根据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分;
series需要分组的数据
bins分组的划分数组
right分组的时候右边是否闭合
labels分组的自定义标签,可以不定义
cur(series, bins, right = True, labels = NULL)
# 先生成两个系列:数组和标签
bins = [min(df.cost)-1,20,40,60,80,100,max(df.cost)+1];
labels = ['20以下','20-40','40-60','60-80','80-100','100以上'];
pandas.cut(df.cost,bins,right = Ture, labels = labels)
日期转换
将字符型数据转换为日期型数据
%Y年份
%m月份
%d日期
%H小时
%M分钟
%S秒
返回一个时间格式的系列
df_dt = to_datatime(df.列名, format)
df_df = to_datatime(df.日期, '%y-%m-%d')
日期格式化
将日期型数据转换为字符型数据
apply(lambda x:处理逻辑)
datatime.strftime(x,format)
df_dt_str = df_dt.apply(lambda x: datatime.strftime(x,'%d-%m-%s'))
日期抽取
从日期格式里面,抽取出需要的部分属性
datatime列.dt.property
df_dt.dt.year
df_dt.dt.minute
散点图
import matplotlib
import matplotlib.pyplot as plt
plot(x,y,'.',color = (r,g,b)) #大点使用'o'
plt.xlabel('x轴标签')
plt.ylabel('y轴标签')
plt.grid(True) # 背后的方格
plt.show()
RGB颜色设置
(red,green,blue)不是0-255而是0-1
折线图
-实线
–虚线
-.
:
.
o
,
plot(x,y,style,color,linewidth)
title('title')
饼图
参数分别是序列、各部分标签、各部分颜色、需要突出的块状序列、占比的显示格式
pie(x,labels,colors,ecplode,autopct)
柱形图
参数分别代表x轴的位置序列(一般arrange)、y轴位置序列、柱形图的宽度、填充颜色
bar(left,height,width,color) #横向
barh(bottom,width,height,color) # 竖向
直方图
统计的是数据出现的次数,比较频数的差异
x需要绘制的向量
color直方图的填充颜色
bins分组个数
cumulative是否累计计数
hist(x,color,bins,cumulative=False)