编码 ASCII, GBK, Unicode+utf-8

2021-11-12 14:09:23

1.参考

网页编码就是那点事

阮一峰字符编码笔记：ASCII，Unicode 和 UTF-8

2.总结

美国 ASCII 码发音： /ˈæski/ ：128个字符，只占用了一个字节的后面7位，最前面的一位统一规定为0。

非 ASCII 编码：

欧洲：ISO 8859-1，又称Latin-1或“西欧语言”，以ASCII为基础，利用一个字节的最前面1位，加入了96个字母和符号。
中国：gb2312 >>> gbk（2万多，支持繁体，1字节或双字节）>>> gb18030

全球大一统 Unicode编码系统：可分为编码方式和实现方式两个层次。

编码空间有100多万个码位 code point 可用来映射字符，已收录十万个字符
存储和传输的具体实现方式称为Unicode转换格式（Unicode Transformation Format，简称为UTF）
- 从字节串判断若干个字节表示对应一个字符，如何节省空间） utf-8 变长编码（1字节或大部分3字节）或 utf-16（2或4字节，不兼容ASCII编码）

3.资料

https://zh.wikipedia.org/wiki/%E9%80%9A%E7%94%A8%E5%AD%97%E7%AC%A6%E9%9B%86

通用字符集（英语：Universal Character Set, UCS）

表示一个UCS或Unicode值的十六进制数通常在前面加上“U+”，例如“U+0041”代表字符“A”。

https://zh.wikipedia.org/wiki/Unicode

Unicode编码系统可分为编码方式和实现方式两个层次。

统一码以一种抽象的方式（即数字）来处理字符，并将视觉上的演绎工作（例如字体大小、外观形状、字体形态、文体等）留给其他软件来处理，例如网页浏览器或是文字处理器。

在基本多文种平面（英文：Basic Multilingual Plane，简写BMP。又称为“零号平面”、plane 0）里的所有字符，要用四个数字（即两个char,16bit ,例如U+4AE0，共支持六万多个字符）；在零号平面以外的字符则需要使用五个或六个数字。

一个字符的Unicode编码是确定的。但是在实际传输过程中，出于节省空间的目的，对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式（Unicode Transformation Format，简称为UTF）

UTF-8编码，这是一种变长编码

此外Unicode的实现方式还包括UTF-7、Punycode、CESU-8、SCSU、UTF-32、GB18030等，这些实现方式有些仅在一定的国家和地区使用，有些则属于未来的规划方式。目前通用的实现方式是UTF-16小端序（LE）、UTF-16大端序（BE）和UTF-8。在微软公司Windows XP附带的记事本（Notepad）中，“另存为”对话框可以选择的四种编码方式除去非Unicode编码的ANSI（对于英文系统即ASCII编码，中文系统则为GB2312或Big5编码）外，其余三种为“Unicode”（对应UTF-16 LE）、“Unicode big endian”（对应UTF-16 BE）和“UTF-8”。

目前辅助平面的工作主要集中在第二和第三平面的中日韩统一表意文字中，因此包括GBK、GB18030、Big5等简体中文、繁体中文、日文、韩文以及越南喃字的各种编码与Unicode的协调性被重点关注。考虑到Unicode最终要涵盖所有的字符。从某种意义而言，这些编码方式也可视作Unicode的出现于其之前的既成事实的实现方式，如同ASCII及其扩展Latin-1一样，后两者的字符在16位Unicode编码空间中的编码第一字节各位全为0，第二字节编码与原编码完全一致。但上述东亚语言编码与Unicode编码的对应关系要复杂得多。

https://zh.wikipedia.org/wiki/UTF-8

UTF-8就是以8位为单元对UCS进行编码

提到“Unicode定义的区域，U+0000到U+10FFFF”，（注：自行折算为1114111，100多万。）

128个US-ASCII字符只需一个字节编码（Unicode范围由U+0000至U+007F）。
其他基本多文种平面（BMP）中的字符（这包含了大部分常用字，如大部分的汉字）使用三个字节编码（Unicode范围由U+0800至U+FFFF）。

**Unicode 和 UTF-8 之间的转换关系表 ( `x` 字符表示码点占据的位 )**
码点的位数	码点起值	码点终值	字节序列	Byte 1	Byte 2	Byte 3	Byte 4
7	U+0000	U+007F	1	`0xxxxxxx`
11	U+0080	U+07FF	2	`0xxxxx`	`10xxxxxx`
16	U+0800	U+FFFF	3	`0xxxx`	`10xxxxxx`	`10xxxxxx`
21	U+10000	U+1FFFFF	4	`11110xxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`