Perl、Python的多字节字符处理方式是UCS(Universal Code Set),Ruby的多字节字符处理方式是CSI(Code Set Independent)。UCS的做法是,不管你读取的是哪一种编码的字节,读进程序以后都必须统一设定为某一种特定编码,因此程序内处理的实际字节可能会转换。而CSI的做法是读取的字节不需要转换,只是把一个字节串加上一个编码的属性。
Ruby多字节字符的设计
2023-08-05 20:38:16
2023-08-05 20:38:16
Perl、Python的多字节字符处理方式是UCS(Universal Code Set),Ruby的多字节字符处理方式是CSI(Code Set Independent)。UCS的做法是,不管你读取的是哪一种编码的字节,读进程序以后都必须统一设定为某一种特定编码,因此程序内处理的实际字节可能会转换。而CSI的做法是读取的字节不需要转换,只是把一个字节串加上一个编码的属性。