《C语言编程魔法书:基于C11标准》——2.5 字符编码

本节书摘来自华章计算机《C语言编程魔法书:基于C11标准》一书中的第2章,第2.5节,作者 陈轶,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.5 字符编码

我们从2.2节到2.4节讲述的都是数值信息(整数与浮点数),本小节我们将讨论字符信息。在计算机中我们所处理的字符信息,即文本信息(包括数字、字母、文字、标点符号等)是以一种特定编码格式来定义的。为了使世界各国的文本信息能够通用,就需要对字符编码做标准化。我们现在最常用也最基本的字符编码系统是ASCII码(American Standard Code for Information Interchange,美国信息交换标准码)。ASCII码定义每个字符仅占一个字节,可表示阿拉伯数字0~9、26个大小写英文字母,以及我们现在在标准键盘上能看到的所有标点符号、一些控制字符(比如换行、回车、换页、振铃等)。ASCII码最高位是奇偶校验位,用于通信校验,所以真正有编码意义的是低7个比特,因此只能用于表示128个字符(值从0~127)。由于ASCII是美国国家标准,所以后来国际化标准组织将它进行国际标准化,定义为了ISO/IEC 646标准。两者所定义的内容是等价的。

ISO/IEC 646对于英文系国家而言是基本够用了,但是对于拉丁语系、希腊等国家来说就不够用了。所以后来ISO组织就把原先ISO/IEC 646所定义字符的最高位也用上了,这样就又能增加128个不同的字符,发布了ISO/IEC 8859标准。然而,欧洲大陆虽小,但国家却有数百个,128种扩展字符仍然不够用。因此后来就在8859的基础上,引入了8859-n,n从1~16,每一种都支持了一定数量的不同的字母,这样基本能满足欧美国家的文字表示需求。当然,有些国家之间仍然需要切换编码格式,比如ISO/IEC8859-1的语言环境看8859-2的就可能显示乱码,所以,还得切换到8859-2的字符编码格式下才能正常显示。

而在*,我们自己也定义了一套用于显示简体中文的字符集——GB2312。它在1981年5月1日开始实施,是中国国家标准的简体中文字符集,全称为《信息交换用汉字编码字符集·基本集》。它收录了6763个汉字,包括拉丁字母、希腊字母、日语假名、俄语和蒙古语用的西里尔字母在内的682个全角字符。然后又出现了GBK字符集,GBK1.0收录了21886个符号,其中汉字就包含了21003个。GBK字符集主要扩展了繁体中文字。由于像GB2312与GBK能表示成千上万种字符,因此这已经远超1个字节所能表示的范围。它们所采用的是动态变长字节编码,并且与ASCII码兼容。如果表示ASCII码部分,那么仅1个字节即可,并且该字节最高位为0。如果要表示汉字等扩展字符,那么头1个字节的最高位为1,然后再增加一个字节(即用两个字节)进行表示。所以,理论上,除了第1个字节的最高位不能动之外,其余比特都能表示具体的字符信息,因而最多可表示27+215=32896种字符。

当然,正由于GB2312与GBK主要用于亚洲国家,所以当欧美国家的人看到这些字符信息时显示的是乱码,他们必须切换到相应的汉字编码环境下看才能看到正确的文本信息。为了能真正将全球各国语言进行互换通信,出现了Unicode(Universal Character Set,UCS)标准。它对应于编码标准ISO/IEC 10646。Unicode前后也出现了多个版本。早先的UCS-2采用固定的双字节编码方式,理论上可表示216=65536种字符,因此极大地涵盖了各种语言的文字符号。

不过后来,标准委员会意识到,对于像希伯来字母、拉丁字母等压根就不需要用两个字节表示,而且定长的双字节表示与原有的ASCII码又不兼容,因此后来出现了现在用得更多的UTF-8编码标准。UTF-8属于变长的编码方式,它最少可用1个字节表示1个字符,最多用4个字节表示1个字符,判别依据就是看第1个字节的最高位有多少个1。如果第1个字节的最高位是0,那么该字符用1个字节表示;最高3位是110,那么用2个字节表示;最高4位是1110,那么用3个字节表示;最高位是11110,那么该字符由4个字节来表示。所以UTF-8现在大量用于网络通信的字符编码格式,包括大多数网页用的默认字符编码也都是UTF-8编码。尽管UTF-8更为灵活,而且也与ASCII码完全兼容,但不利于程序解析。所以现在很多编程语言的编译器以及运行时库用得更多的是UTF-16编码来处理源代码解析以及各类文本解析,它与之前的UCS-2编码完全兼容,但也是变长编码方式,可用双字节或四字节来表示一个字符。如果用双字节表示UTF-16编码的话,范围从0x0000到0xD7FF,以及从0xE000到0xFFFF。这里留出0xD800到0xDFFF,不作为具体字符的编码表示,而是用于四字节编码时的编码替换。当UTF-16表示0x10000到0x10FFFF之间的字符时,先将该范围内的值减去0x10000,使得结果落在0x00000到0xFFFFF范围内。然后将结果划分为高10位与低10位两组。将低10位的值与0xDC00相加,获得低16位;高10位与0xD800相加,获得高16位。比如,一个Unicode定义的码点(code point)为0x10437的字符,用UTF-16编码表示的步骤如下。

1)先将它减去0x10000——0x10437-0x10000=0x0437。
2)将该结果分为低10位与高10位,0x0437用20位二进制表示为0000 0000 0100 0011 0111,因此高10位是0000 0000 01=0x01;低10位则是00 0011 0111,即0x037。
3)将高10位与0xD800相加,得到0xD801;将低10位与0xDC00相加,获得0xDC37。因此最终UTF-16编码为0xD801DC37。

我们看到,尽管UTF-16也是变长编码表示,但是仅低16位就能表示很多字符符号,况且即便要表示更广范围的字符,也只是第二种四字节的表示方法,这远比UTF-8四种不同的编码方式要简洁很多。因此,UTF-16用在很多编程语言运行时系统字符编码的场合比较多。像现在的Java、Objective-C等编程语言环境内部系统所表示的字符都是UTF-16编码方式。

另外,现在还有UTF-32编码方式,这一开始也是Unicode标准搞出来的UCS-4标准,它与UCS-2一样,是定长编码方式,但每个字符用固定的4字节来表示。不过现在此格式用得很少,而且HTML5标准组织也公开声明开发者应当尽量避免在页面中使用UTF-32编码格式,因为在HTML5规范中所描述的编码侦测算法,故意不对它与UTF-16编码做区分。

上一篇:如何在Kubernetes里创建一个Nginx应用


下一篇:MaxCompute预付费资源监控工具-CU管家