为什么会有不同的编码方式

常见编码方式: 由于计算机只能识别出数字,无法识别文本,所以我们日常使用的文字都需要进行编码后才能在计算机中进行计算、存储;常见的编码方式有ASCLL编码、GBK编码、UTF-8编码、Unicode编码; 其中最基本的编码方式应该算是ASCLL编码,只覆盖127个英文字母,包含了字符大小写、数字和一些字符,每个字符占一个字节;但很明显ascll只能满足使用英文的场景,所以中国人也自己在Unicode的基础上创造了自己的编码方式--GB编码,每各字符占用2个字节;而随着各国都有对本国文字进行编码的需求,Unicode编码便应运而生了,它集合了多国的语言,每个字符占用两个字节(特别偏僻的字符会占用4个字节)。当ASCLL中的字符要转换成Unicode编码时,只需要在高字节位补0即可;但是都占用两个字节在存储和传输效率上又会有太大的无意义的损耗,所以便出现了UTF-8的存储格式,根据字符的不同,所占的字节也从1-6字节不等,常见的英文占用1个字节,中文占用3个字节; 当存储或传输时,Unicode格式的字符便会转换成utf-8格式;当读取到内存时,又会从utf-8格式转换成Unicode格式。 为什么会有不同的编码方式

 

windows的编码方式时GBK,MAC默认编码方式是UTF-8.Pycharm默认编码方式是UTF-8存文件 Python中的encode和decode方法 encode:str-->bytes decode:bytes-->str 
上一篇:wordpress文章标题/内容页自动转unicode码插件支持采集!


下一篇:一句话Base64:Base64+Unescape+Hex+Unicode+Decimal+HTML Entity+URLDecode