python简易应用:去掉重复的项

txt文件中, 有很多ip或域名, 相互之间用空格+逗号+空格间隔, 要求去掉里面重复的部分, 另存为一个新文件。

python代码如下:

# 读取文件并去重
def remove_duplicates(input_file, output_file):
    with open(input_file, 'r') as file:
        # 读取文件内容并拆分成条目
        data = file.read().strip().split(' , ')
    
    # 使用集合去重
    unique_data = set(data)
    
    # 将去重后的数据写入新文件
    with open(output_file, 'w') as file:
        file.write(' , '.join(unique_data))

# 输入和输出文件名
input_file = 'input.txt'  # 替换为你的输入文件名
output_file = 'output.txt'  # 替换为你的输出文件名

# 调用函数
remove_duplicates(input_file, output_file)

将以上内容粘到记事本, 另存为后缀为py的文件后, 双击即可运行, 原文件名为input_file.txt , 输出为output_file.txt

关于win10下如何安装配置python , 前帖有讨论, 点此进入!

https://blog.****.net/weixin_62598385/article/details/141552019

这个代码的作用是从一个文本文件中读取内容,去掉其中重复的IP和域名,并将去重后的结果写入到另一个文件。下面是对代码的详细解读:

 

1. `remove_duplicates` 函数
 

def remove_duplicates(input_file, output_file):



这段代码定义了一个名为 `remove_duplicates` 的函数。它接收两个参数:
- `input_file`:表示需要处理的输入文本文件的文件名。
- `output_file`:表示保存去重后数据的输出文本文件的文件名。

2. 读取文件内容并拆分条目
 

with open(input_file, 'r') as file:
    data = file.read().strip().split(' , ')



- `open(input_file, 'r')`:以只读模式打开 `input_file` 文件。
- `file.read()`:将整个文件内容读取为一个字符串。
- `strip()`:去除文件内容的首尾空白字符(包括空格、换行符等)。
- `split(' , ')`:将字符串按照 `' , '`(即空格 + 逗号 + 空格)的分隔符进行拆分,结果是一个列表 `data`,其中每个元素都是一个IP地址或域名。

3. 使用集合去重
 

unique_data = set(data)



`set(data)`:将列表 `data` 转换为集合(`set`),集合是一种无序且不重复的元素集合,这一步会自动去掉 `data` 中的重复项。
- `unique_data` 变量存储了去重后的IP地址和域名。

4. 将去重后的数据写入新文件
 

with open(output_file, 'w') as file:
    file.write(' , '.join(unique_data))



- `open(output_file, 'w')`:以写模式打开 `output_file` 文件,如果文件不存在则创建该文件。
- `join(unique_data)`:将集合 `unique_data` 中的元素用 `' , '` 连接成一个字符串。
- `file.write()`:将生成的字符串写入到 `output_file` 文件中。

5. 脚本中的输入输出文件名设置
 

input_file = 'input.txt'  # 替换为你的输入文件名
output_file = 'output.txt'  # 替换为你的输出文件名



- 这两行代码定义了输入和输出文件名。你可以根据实际情况更改为具体的文件路径或文件名。

 6. 调用函数
 

remove_duplicates(input_file, output_file)



- 这一行代码调用了 `remove_duplicates()` 函数,传入上面定义的 `input_file` 和 `output_file`,执行去重操作并生成输出文件。

总结
- 该代码的核心是通过读取输入文件内容并使用集合(`set`)去除重复的IP和域名。
- 最终将处理过的结果写入到指定的输出文件中。

上一篇:Web安全 - 跨站点请求伪造CSRF(Cross Site Request Forgery)


下一篇:rabbitMq------虚拟机管理模块-提供的操作