Unicode 和 UTF-8 有何区别

比如  “我”这个字符。以二进制方式从文本文件中读,显示 :e6 88 91  

也就是说, “我”的utf-8编码的Hex:‘\xe6\x88\x91‘

而用在线工具查,“我”的Unicode-Escape:‘\u6211‘   

16进制的  6211  也就是   10进制的 25105

 

Unicode 和 UTF-8 二者区别如下:

Unicode是指每一个字符对应一个十六进制数字。计算机只懂二进制,严格按照unicode的方式(UCS-2)。
而UTF-8是指单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n个字节的其余空位填充该字符unicode码,高位用0补足。

 

所以,  E68891 就是 ”我“ 这个字符的 uft8编码 得到的 字节数组 的 十六进制表示

 

参考:https://zhidao.baidu.com/question/2016329329338994828.html

https://segmentfault.com/q/1010000037765695/a-1020000037770394

Unicode 和 UTF-8 有何区别

上一篇:CF605E Intergalaxy Trips


下一篇:Python 类属性和方法