[Python]python去除两个txt文件的重复词汇 python 2020.2.10

两个txt文件词汇,用换行符分隔。可以用代码将要处理的文件去掉另一个文件所包含的重复内容。

如:

a.txt内容为:

衡山

泰山

西湖

紫禁城

b.txt内容为:

泰山

衡山

长白山

张三丰

将a.txt设为要处理的文件,将b.txt设为字典,则输出的c.txt文件为

c.txt

西湖

紫禁城

代码如下:

 import csv
import re
import io #创建字典
def dictlist(filepath):
dicts = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
return dicts dicts = dictlist('E://word2.txt') # 这里去重词的路径
f2=open("E:/word4.txt","a+",encoding='utf-8') # 这里为写入的新文件
f=open("E:/word3.txt","r+",encoding='utf-8') # 这里为要处理的文件
for line in f:
if line.strip() not in dicts:
f2.write(line.strip()+"\n")
f.close()
f2.close()
上一篇:Java实现 LeetCode 15 三数之和


下一篇:运用Hibernate-Tools自动生成Java类和schema时,出现not found while looking for property...异常