1.3 字符集与乱码
理解0 和1 的物理信号来源及数值表示方式后,如何将0 和1 表示成我们看到的文字呢?从26 个英文字母说起,大小写共52 个,加上10 个数字达到62 个,考虑到还有特殊字符(如:! @ # $ % ^ & * { } | 等)和不可见的控制字符,必然超过64 个,这又该如何表示呢?注意这里特别提到了“64”,因为它的特殊性,即2 的6 次方。使用刚才的0 与1 组合,至少是7 组连续的信号量。计算机在诞生之初对于存储和传输介质实在没有什么信心,所以预留了一个bit(位)用于奇偶校验,这就是1 个Byte(字节)由8 个bit 组成的来历,也就是ASCII 码。
在ASCII 码中,有两个特殊的控制字符10 和13,前者是LF 即“\n”,后者是CR 即“\r”,在编码过程中,代码的换行虽然是默认不可见的,但在不同的操作系统中,表示方式是不一样的。在UNIX 系统中,换行使用换行符“\n”;在Windows 系统中,换行使用“\r\n”;在旧版macOS 中,换行使用回车符“\r”,在新版macOS 中使用与UNIX 系统相同的换行方式。如图1-7 所示,当前编码环境使用换行方式是LF,这也是推荐的换行方式,避免出现源码在不同操作系统中换行显示不同的情况。
图1-7 不同操作系统的换行方式
再说汉字的字符集表示,首先汉字的个数远远超过英文字符的个数。毕竟ASCII码先入为主,必须在它基础上继续编码,也必须想办法和它兼容。一个字节只能表示128 个字符,所以采用双字节进行编码。早期使用的标准GB2312 收录了6763 个常用汉字。而GBK(K 是拼音kuò 的首字母,是扩展的意思)支持繁体,兼容GB2312。而后来的GB18030 是国家标准,在技术上是GBK 的超集并与之兼容。1994 年正式公布的Unicode,为每种语言中的每个字符都设定了唯一编码,以满足跨语言的交流,分为编码方式和实现方式。实现Unicode 的编码格式有三种:UTF-8、UTF-16、UTF-32,UTF(Unicode Transformation Format)即Unicode 字符集转换格式,可以理解为对Unicode 的压缩方式。根据二八原则,常用文字只占文字总数的20% 左右。其中,UTF-8 是一种以字节为单位,针对Unicode 的可变长度字符编码,用1 ~ 6 个字节对Unicode 字符进行编码压缩,目的是用较少的字节表示最常用的字符。此规则能有效地降低数据存储和传输成本。
在日常开发中,字符集如果不兼容则会造成乱码。淘宝以前的系统都是GBK编码,而国际站使用的是UTF-8,在互相查看源码时,使用UTF-8 的IDE 环境打开GBK 源码,中文注释基本上都是不可读的乱码。乱码的出现场景并不止于编码环境中,还有网页展示、文本转换、文件读取等。数据流从底层数据库到应用层,到Web 服务器,再到客户端显示,每位开发工程师都会碰到字符乱码的问题,排查起来是一个比较长的链路。数据库是存储字符之源,在不同层次上都能够设置独立的字符集,如服务器级别、schema 级别、表级别甚至列级别。为了减少麻烦,所有情况下的字符集设置最好是一致的。