MySQL 解决 emoji表情 的方法,使用utf8mb4 字符集(4字节 UTF-8 Unicode 编码)

前段时间做项目遇到APP评论中有 emoji 表情符号,结果导致插入 MySQL 数据库失败,时隔好久了,现在整理一下。

一、基本原则

如果要实现存储 emoji 表情到 MySQL 实例,需要应用客户端、到 MySQL 实例的连接、MySQL 实例内部 3 个方面统一使用或者支持 utf8mb4 字符集。

注:关于 utf8mb4 字符集,请参考 utf8mb4 字符集(4字节 UTF-8 Unicode 编码)

二、三个条件的说明

1、应用客户端

客户端需要保证输出的字符串的字符集为 utf8mb4。

注:utf8mb4只是MySQL中的概念,因为MySQL的UTF-8并不是真正意义上的UTF-8,我们的应用中只要使用UTF-8就可以了。

2、应用到 RDS MySQL 实例的连接

以常见的 JDBC 连接为例:
对于 JDBC 连接,需要使用 MySQL Connector/J 5.1.13(含)以上的版本。
JDBC 的连接串中,不配置 characterEncoding 选项。连接器会自动匹配识别字符集。
注:关于 MySQL Connector/J 5.1.13,请参考 MySQL 官方 Release Notes
比如

url=jdbc:mysql://localhost:3306/db_name?useUnicode=true&zeroDateTimeBehavior=convertToNull

3、MySQL 实例配置

3.1、修改my.cnf配置文件

这里使用VI来修改,输入命令:vi /usr/my.cnf 回车;打开文件后按“i”键进入编辑状态;
在“[mysqld]”下面添加“character_set_server=utf8mb4”,按Esc键进入命令模式,输入“:wq”回车(保存并退出)。

macOS下的路径可能是:/usr/local/mysql/my.cnf

注意:必须重新启动 MySQL 实例;

3.2、设置库的字符集为 utf8mb4

可以使用工具来设置数据库属性:

MySQL 解决 emoji表情 的方法,使用utf8mb4 字符集(4字节 UTF-8 Unicode 编码)

3.3、设置表的字符集为 utf8mb4

create table emoji_table (
    id int auto_increment primary key,
    content varchar(255)
)  default charset utf8mb4;

三、通过 set names 命令设置会话字符集

对于 JDBC 连接串设置了 characterEncoding 为 utf8 或者做了上述配置仍旧无法正常插入 emoji 数据的情况,建议在代码中指定连接的字符集为 utf8mb4,样例代码如下:

String sqlCharset = "set names utf8mb4"

Statement statment = conn.createStatement();

resultSet = statment.executeQuery(sqlCharset);
注: set names utf8mb4; 命令会将 character_set_client、character_set_connection、character_set_results 3个会话字符集相关变量均设置为 utf8mb4,以保证写入或者读出的数据使用 utf8mb4 字符集进行解释。

相关阅读

utf8mb4 字符集(4字节 UTF-8 Unicode 编码)

CentOS下安装MySQL,Windows下使用Navicat for MySql连接

MySQL学习(二)图形界面管理工具Navicat for MySQL安装和使用

上一篇:JSP翻页代码


下一篇:python模块之email: 电子邮件编码解码 (一、解码邮件)