数据预处理相关

python 去除Excel中的重复行数据

导入pandas

import pandas as pd
1.读取excel中的数据;
frame = pd.DataFrame(pd.read_csv('excel的绝对路径.csv'’, 'Sheet1'))
2.去除重复行后的数据;
data = frame.drop_duplicates(subset=’’, keep='first', inplace=’’)
drop_duplicates用法:subset=‘需要去重复的列名’, keep=‘遇到重复的时保留第一个还是保留最后一个’, inplace=‘去除重复项,还是保留重复项的副本’

subset : column label or sequence of labels, optional
用来指定特定的列,默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’
删除重复项并保留第一次出现的项
inplace : boolean, default False
是直接在原来数据上修改还是保留一个副本

3.保存去重后的数据到excel;
data.to_excel('路径+名字.xlsx')
或者
data.to_csv(路径+名字.csv', encoding='utf8')

上一篇:Python 去重csv文件中相同的重复行


下一篇:es - elasticsearch自定义分析器 - 内建分词过滤器 - 5