MySql字符集与排序规则详解

2022-12-19 16:06:42

前段时间往MySQL中存入emoji表情或生僻字、繁体字时，报错无法添加，研究后发现这是字符集编码的问题，今天就来分析一下各个字符集与排序规则

一、字符集
先说字符，字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、字母、数字等，比如“啊、a、1、+、！、&”等均表示一个字符。在UTF8编码中，一个字母、数字、符号占一个字节，中文占三个字节，emoji表情和一些比较复杂的文字、繁体字则占四个字节。其中一个字节由8个位组成，位为数据存储的最小单位，每个二进制数字0或者1就是1个位。
换算公式：1byte(字节) = 8bit(位)，1KB(千字节) = 1024byte(字节)，1MB(兆) = 1024KB(千字节)。

字符集是一套符号和编码，是多个字符的集合。常见的字符集有UTF8、Unicode、GBK、GB2312、ASCCI。在MySQL中常用的字符集有UTF8和UTF8MB4这两种，一般而言我们选择UTF8MB4，而不选择UTF8，因为MySQL中的UTF8并不是真正的UTF8字符集，它只支持三个字节，emoji表情和复杂的文字无法存储，并不能代表全部的UTF8，在5.5.3版本后新增的支持四个字节的UTF8MB4才是真正的UTF8编码，为了更好的兼容性，推荐使用UTF8MB4字符集。
此外，对于CHAR类型数据，UTF8MB4会多消耗一些空间，比如CHAR(100)，UTF8会保留300字节长度，UTF8MB4会保留400字节长度，根据MySQL官方建议，使用VARCHAR替代CHAR。同时UTF8MB4也是UTF8的超集，所以UTF8可以直接切换至UTF8MB4。

二、排序规则
排序规则，就是指字符比较时按照字符编码还是直接用二进制数据比较，以及是否区分大小写。UTF8MB4常用的排序规则有utf8mb4_unicode_ci、utf8mb4_general_ci、utf8mb4_bin。
其中，以bin结尾的是以二进制存储的，区分大小写，以cs结尾的是区分大小写的，以ci结尾的不区分大小写。
utf8mb4_unicode_ci是基于标准Unicode来排序和比较，能够在各种语言之间精确排序。且在特殊情况下，Unicode排序规则为了能够处理特殊字符的情况，实现了略微复杂的排序算法。但是在绝大多数情况下不会发生此类复杂比较。
utf8mb4_general_ci没有实现Unicode排序规则，在遇到某些特殊字符情况下，排序结果可能不一致。但是，在绝大多数情况下，这些特殊字符的顺序并不需要那么精确。
utf8mb4_bin将字符串的每个字符用二进制数据编译存储，区分大小写，而且可以存二进制的内容。
综合来说，utf8mb4_unicode_ci比较准确，utf8mb4_general_ci速度较快。utf8mb4_unicode_ci对于特殊字符的处理，在中文、英文应用中不会使用到，除非你的应用有德语、法语、俄语等，则需要使用utf8mb4_unicode_ci，否则一般选用utf8mb4_general_ci就可以了。

码农公寓

相关文章