一、背景
爬取数据过程中,会遇到一些特殊的字符入库出错的问题,比如二进制数据、比如特殊文字(类似QQ表情)等。
Siberian Husky fighting
这样的标题,后面就带有一个表情。
在mysql存储的时候,报错信息如下:
[Failure instance: Traceback: <class 'pymysql.err.InternalError'>: (1366, "Incorrect string value: '\\xF0\\x9F\\x90\\xB6' for column 'title' at row 1")
大致意思是指title这个字段无法存储这种字符。
解决办法
经过网上搜索mysql 1366,多方查看后,终于找到了原因和解决的办法。
是因为\xF0\x9F\x90\xB6 它通常是4个字符存储,而mysql的utf8默认是3个字符存储。
1、 更改代码中数据库连接的字符编码charset为utf8mb4
MYSQL_CHARSET = 'utf8mb4'
2、将数据库字符集编码页改成utf8mb4。
3、检查数据表的字符编码,保持同步。
4、最后确认数据表中的字段,存储这种特殊文字的字段字符编码也是utf8mb4
这样就解决了这个问题。
如果你没有小心处理好,可以尝试新建一个数据库,然后将默认的字符编码设置为utf8mb4.