字符编码、python2和python3编码的区别

2022-10-16 18:19:11

字符编码

第一阶段：python解释器启动，这时相当于启动了一个文本编辑器。
第二阶段：python解释器相当于文本编辑器，打开test.py文件，从硬盘将test.py文件从硬盘读入到内存中（python的解释性决定了解释器只关心文件的内容，不关心文件的后缀）。
第三阶段：python解释器解释执行加载到内存中的test.py代码。在该阶段才会识别python语法，为变量值等开辟存储空间。

utf-8编码格式只能和Unicode格式相互转换，不能和其他编码格式转化

要想不出现乱码，文件中的字符按什么标准编码，就用什么标准去读取文件（解码）。由于内存中固定使用Unicode编码，我们只能改变存储到硬盘时使用的编码格式。

python2有两种存储形式，第一种：Unicode；第二种：按coding头选择存储格式，假设python2用utf8存储x='中文',当你print(x)的时候，终端接收gbk的变量x，但是windows终端编码是utf8，会乱码。

python3只有Unicode一种存储变量的形式。Python2中默认使用ascii，Python3中默认使用utf-8，文本编辑器编写的文件默认为gbk编码格式。