计算机的字符与编码集

ASCII码

使用7个bits就可以完全表示ASCII码,包含

  • 95个可打印字符
  • 33个不可打印字符(包括控制字符)
    33 + 95 = 128 = 2^7

计算机的字符与编码集

很多应用或国家中的符号都无法表示,比如数学符号 ÷≠≥≈π,第一次对ASCII码进行扩充,
7bits => 8bits

  • Extended ASCII码:常见数学运算符、带音标的欧洲字符、其他常用符、表格符等

计算机的字符与编码集

字符编码集的国际化

欧洲、中亚、东亚、拉丁美洲国家的语言多样性,语言体系不一样,不以有限字符组合的语言,中国、韩国、日本等的语言最为复杂。

中文编码集

GB2312

《信息交换用汉字编码字符集-基本集》

共收录了7445个字符,,包括6763个汉字和682个其它符号

GB2312需要多少个比特位?

GBK

《汉字内码扩展规范》,向下兼容GB2312,向上支持国际ISO标准,收录了21003个汉字,支持全部中日韩汉字

Unicode

统一码、 万国码、单一码,Unicode定义了世界通用的符号集,UTF-*实现了编码,UTF-8以字节为单位对Unicode进行编码。

Windows系统默认使用GBK编码,编程推荐使用UTF-8编码

上一篇:Joel Gurin亲临上海,分享“开放数据创新在商业中的启航”


下一篇:云呼叫中心系统: 引领企业通信产业下一春