encode是编码,里面传入的参数是需要转成的字符集,
decode是解码,里面传入的参数是本身的字符集,用本身的字符集解码为unicode字符集再转码
字符集之间的爱恨纠缠
# -*- coding: utf-8 -*-
'''
Python3 默认编码为unicode
'''
#输出默认编码
import sys
print(sys.getdefaultencoding())
#文件编码为utf-8
s = '你好'
#把s转换为gbk编码
s_to_gbk = s.encode("gbk")
print(s_to_gbk)
#输出结果为bytes类型--b'\xc4\xe3\xba\xc3'
#再把此时的gbk转换成utf-8
s_to_utf8 = s_to_gbk.decode("gbk").encode("utf-8")
print(s_to_utf8)
#输出结果为bytes类型--b'\xe4\xbd\xa0\xe5\xa5\xbd'
#再把此时的utf-8转换成gb2312
s_to_gb2312 = s_to_utf8.decode("utf-8").encode("gb2312")
print(s_to_gb2312)
#输出结果为byts类型--b'\xc4\xe3\xba\xc3',因为gb2312字符集归属于gbk字符集,所以转换结果bytes相同
#把gbk转换为gb2312
s_to_gbk_gb2312 = s_to_gbk.decode("gbk").encode("gb2312")
print(s_to_gbk_gb2312)
#输出结果为byts类型--b'\xc4\xe3\xba\xc3'
'''
encode是编码,里面传入的参数是需要转成的字符集,
decode是解码,里面传入的参数是本身的字符集,用本身的字符集解码为unicode字符集再转码
总结:python3基于unicode编码,若文件头声明为utf-8只是以utf-8字符集显示,基本的还是unicode
当使用unicode转换为utf-8时直接encode("utf-8")就可以了,
同理若使用unicode转换为gbk时直接encode("gbk")就可以了,
若使用utf-8转换成gbk则需要先解码decode("utf-8").encode("gbk")再编码为gbk
若使用utf-8转换成gb2312则需要先解码decode("utf-8").encode("gb2312")再编码为gb2312
若使用gbk转换成utf-8则需要先解码decode("gbk").encode("utf-8")再编码为utf-8
若使用gbk转换成gb2312则需要先解码decode("gbk").encode("gb2312")再编码为gb2312
gb2312同理...
'''