Python全栈-day6-day7-字符编码和文件处理

2022-09-08 23:04:33

一、字符编码

1.编码基础

　　定义：人在使用计算机时，使用的是人类能够读懂的字符，使用者必须通过一张字符和数字间的相对应关系表实现人机交互，这一系列标准称为字符编码

　　Python应用中解决核心字符串乱码的最佳方法：用什么格式编码，就用什么格式解码

　　参考：http://www.cnblogs.com/linhaifeng/articles/5950339.html#_label2

二、文件处理

1.文件基础

　　1）定义

　　计算机系统分为：计算机硬件，操作系统，应用程序三部分。python或其他语言编写的应用程序若想要把数据永久保存下来，必须要保存于硬盘中，这就涉及到应用程序要操作硬件。实际上，应用程序是无法直接操作硬件的，这就用到了操作系统。操作系统把复杂的硬件操作封装成简单的接口给用户/应用程序使用，其中文件就是操作系统提供给应用程序来操作硬盘虚拟概念，用户或应用程序通过操作文件，可以将自己的数据永久保存下来。

　　2）操作文件的流程：

　　　　a.打开文件，得到文件句柄并赋值给一个变量
　　　　b.通过句柄对文件进行操作
　　　　c.关闭文件

2.Python中文件操作

　　1）打开文件的过程

# 打开文件，得到文件句柄并赋值给一个变量

f=open('test.txt','r',encoding='utf-8') #默认打开模式就为r,即只读模式

# 通过句柄对文件进行操作

data=f.read()

# 关闭文件

f.close()

　　打开文件的执行过程：

　　　　a.应用程序想操作系统发起系统调用open()请求

　　　　b.操作系统打开文件，将文件内容加载到内存中，并返回一个文件句柄给应用程序

　　　　c.应用程序将文件句柄赋值给 f

　　2）open()方法介绍

　　　　　　open(r'文件路径',mode='打开方式',encoding='编码格式')

　　　　　　r作用：避免文件路径中的特殊字符例如'\'被强制转义，导致路径无法识别

　　　　　　打开方式：r/w/a（只读只写追加等）

　　　　　　编码格式：应用程序打开文件时，必须制定其打开的编码格式，否则有可能出现乱码

　　3）文件打开的模式

打开文件的模式有(默认为文本模式)：

r     只读模式        默认模式，文件必须存在，不存在则抛出异常

w    只写模式        不可读；不存在则创建；存在则清空内容

a     追加写模式     不可读；不存在则创建；存在则只追加内容

对于非文本文件，只能使用b模式，"b"表示以字节的方式操作（而所有文件也都是以字节的形式存储的，
使用这种模式无需考虑文本文件的字符编码、图片文件的jgp格式、视频文件的avi格式）

rb

wb

ab

注意：以b方式打开时，读取到的内容是字节类型，写入时也需要提供字节类型，不能指定编码

了解部分：

+     表示可以同时读写某个文件

r+    读写可读，可写

w+   写读可读，可写

a+    写读可读，可写

3.操作文件的方法

　　读文件操作：

　　1）read()

# 读取文件所有内容，光标移动到文件末尾

f = open(r'test.txt','r',encoding='utf-8')

prit(f.read())

f.close()

　　2）readline()、readlines()

# f.readline()     读取一行内容,光标移动到第二行首部

# f.readlines()    读取每一行内容,存放于列表中 

# 单行读取文件

print(f.readline())

# 多行读取，且转化为列表输出

print(f.readlines())

　　3）readable()

# 判断文件是否可读

print(f.readable())

　　读文件：

　　1）write()

# 只写模式

# 注意：

# 1.文件存在时，清空原来的内容

# 2.文件不存在是，创建空文件

# 3.默认不会自动换行写入

f = open(r'zhang.txt','w',encoding='utf-8') #默认是wt

f.write('第一行\n')

f.write('第二行\n')

# 追加写的模式

# 注意：

# 1.文件存在时,光标移动到文件末尾，且将内容追加到文件默认

# 2.文件不存在是，创建空文件

f = open(r'zhang.txt','a',encoding='utf-8') #默认是wt

f.write('第一行\n')

f.write('第二行\n')

f.close()

　　2）其他内置方法

f.writable()    #判断文件是否可读

f.writelines()  #以列表形式，多行写入

4.练习

　　1）循环读取文件

# open(r'文件路径',mode='打开方式'encoding='编码格式')

with open(r'zhang.txt',mode='r',encoding='utf-8') as file:

    for line in file:

        time.sleep(1)

        print(line,end='')

　　2）简单写文件，并且实现写入的新内容总是置于文件末尾

with open(r'zhang.txt',mode='a',encoding='utf-8') as file:

    file.write('第一天\n')

　　3）文件打开之b模式

# 1.必须和其它模式组合使用，rb\wb\ab

# 2.b模式下读写都是以bytes为单位

# 3.b模式下不能指定encoding和decoding模式

# rb模式

with open(r'120.jpg','rb') as f:

    data = f.read()

    print(data)

    print(type(data))

with open(r'zhang.txt','rb') as f:

    data = f.read()

    print(data)

    print(data.decode('utf-8'),end='')

    print(type(data))

# wb模式

# 不同编码格式写入，查看打开出现的情况

with open(r'120.txt','wb') as f:

    msg = '你是猪吗？'

    f.write(msg.encode('gbk'))

with open(r'120.txt','wb') as f:

    msg = '你是猪吗？'

    f.write(msg.encode('utf-8'))

# ab模式

with open(r'120.txt','ab') as f:

    f.write('张哈哈'.encode('utf-8'))

# 可以看出.jpg以bytes的形式被存储和打开了

with open(r'120.jpg','rb') as f:

    for line in f:

        print(line)

5.作业：文件修改

　　1）修改文件的实际

# 修改文件方式一：

# 1.先把文件全部读到内存中

# 2.然后在内存中完成修改

# 3.再把修改后的结果覆盖到源文件中

# 缺点：会在文件内容过大的情况下耗费过多的内存

with open(r'修改文件.txt','r',encoding='utf-8') as f:

    data = f.read()

    data = data.replace('zhang','你是猪吗？')

with open(r'修改文件.txt','w',encoding='utf-8') as f:

    f.write(data)

# 修改文件方式二：

# 1.以读的方式打开原文件

# 2.以写的方式拷贝到新文件

import os

with open(r'修改文件.txt','rt',encoding='utf-8') as src_f,\

        open(r'修改文件.txt.swap','wt',encoding='utf-8') as dst_f:

    for line in src_f:

        if '你是猪吗？' in line:

            line = line.replace('你是猪吗','啊哈哈')

        dst_f.write(line)

os.remove('修改文件.txt')

os.rename('修改文件.txt.swap','修改文件.txt')

　　2）实现文件拷贝

rst_file = input('原文件路径>>')

dst_file = input('目标文件路径>>')

with open(r'%s' %rst_file,'rb') as src_f,\

        open(r'%s' %dst_file,'wb') as dst_f:

    for line in src_f:

        dst_f.write(line)

　　3）拷贝文件和修改文件程序

# 编写程序,提供两种可选功能：

# 1）拷贝文件

# 2）修改文件

# 用户输入操作的编码，根据用户输入的编号

# 执行文件拷贝（让用户输入原文件路径和目标文件路径）

# 或修改操作

import os

print('选择模式：')

warm = '''

    1 拷贝文件

    2 修改文件

    输入quit退出

'''

print(warm)

while True:

    choice = input('选择操作>>').strip()

    if choice == '':

        src_file = input('输入原文件路径>>').strip()

        dst_file = input('输入目标文件路径>>').strip()

        with open(r'%s' %src_file,'rb') as src,\

            open(r'%s' %dst_file,'wb') as dst:

                for line in src:

                    dst.write(line)

    elif choice == '':

        dst_f = input('输入要修改的文件路径>>').strip()

        msg_old = input('输入要修改的内容>>').strip()

        msg_new = input('修改后的内容>>').strip()

# # 方法一：

#         with open(r'%s' %dst_f,'r',encoding='utf-8') as f_old:

#             data = f_old.read()

#             data = data.replace(msg_old,msg_new)

#         with open(r'%s' %dst_f,'w',encoding='utf-8') as f_new:

#             f_new.write(data)

# 方法二：

        dst_f_swap = input('临时交换的文件名>>')

        with open(r'%s' %dst_f,'r',encoding='utf-8') as f_old,\

                open(r'%s' % dst_f_swap,'w',encoding='utf-8') as f_new:

            for line in f_old:

                if msg_old in line:

                    line = line.replace(msg_old,msg_new)

                f_new.write(line)

        os.remove(dst_f)

        os.rename(dst_f_swap,dst_f)

    elif choice == 'quit':

        break

    else:

        print('没有这个选项，请重新输入...')

补充说明：资源回收

打开一个文件包含两部分资源：操作系统级打开的文件+应用程序的变量。在操作完毕一个文件时，必须把与该文件的这两部分资源一个不落地回收

回收方法为：

1）f.close() #回收操作系统级打开的文件

2）del f #回收应用程序级的变量

其中del f一定要发生在f.close()之后，否则就会导致操作系统打开的文件还没有关闭，白白占用资源，而python自动的垃圾回收机制决定了我们无需考虑del f，这就要求我们，在操作完毕文件后，一定要记住f.close()

推荐傻瓜式操作方式：使用with关键字来帮我们管理上下文

with open('a.txt','w') as f:

    pass

with open(r'test.txt','r',encoding='utf-8') as f:

    data=f.read()

码农公寓

相关文章