编码格式
-
最早期的密码本:ASCII码 仅包含:英文字母,数字,特殊字符
0000 0001
0000 0101 ...
最左边一位为0 为预留
8bit == 1byte
仅能表示128个不同的字符
-
GBK(国标) :包含 ASCII + 中文
一个英文字母 :1byte 0000 0001
一个中文:2byte 0000 0001 0100 0001
2 ^ 16 = 65535
最多表示 65535 个字符
-
Unicode 万国码 :把世界上所有的文字都记录到这个密码本
起初 :一个字符 用 2byte 字节 来表示
一个英文字母 :0000 0001 0000 0011
一个中文:0000 0001 0000 0000
因为:汉字9W+ 日文 12W+
后来:一个字符 4byte 字节
一个英文字母: 0000 0001 0000 0011 0000 0001 0000 0011
一个汉字: 0000 0001 0000 0011 0000 0001 0000 0011
⬆浪费空间 浪费资源
-
UTF-8 :用最少的8bit 1个字节 来表示一个字符。
0000 0011 英文 1个字节
0000 0011 0000 0011 欧洲2个字节
0000 0011 0000 0011 0000 0011 中文:3个字节
eg. '中国12ab' : GBK : 8byte
'中国12ab' :UTF-8:10byte
8 bit = 1byte
1024 byte = 1Kb
1024 Kb = 1Mb
1024 Mb = 1Gb
1024 GB = 1TB
MB to bit :
7.6MB ---> 7.6* 1024 * 1024 * 8= 63753420.8 (bit)