python 去除Excel中的重复行数据
导入pandas
import pandas as pd
1.读取excel中的数据;
frame = pd.DataFrame(pd.read_csv('excel的绝对路径.csv'’, 'Sheet1'))
2.去除重复行后的数据;
data = frame.drop_duplicates(subset=’’, keep='first', inplace=’’)
drop_duplicates用法:subset=‘需要去重复的列名’, keep=‘遇到重复的时保留第一个还是保留最后一个’, inplace=‘去除重复项,还是保留重复项的副本’
subset : column label or sequence of labels, optional
用来指定特定的列,默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’
删除重复项并保留第一次出现的项
inplace : boolean, default False
是直接在原来数据上修改还是保留一个副本
3.保存去重后的数据到excel;
data.to_excel('路径+名字.xlsx')
或者
data.to_csv(路径+名字.csv', encoding='utf8')