我正在从YouTube提取一些RSS提要,这些提要具有无效的UTF8.我可以使用创建一个类似的ruby字符串
bad_utf8 = "\u{61B36}"
bad_utf8.encoding # => #<Encoding:UTF-8>
bad_utf8.valid_encoding? # => true
Ruby认为这是有效的UTF-8编码,我很确定这不是.
当与Mysql交谈时,我得到了这样的错误
require 'mysql2'
client = Mysql2::Client.new(:host => "localhost", :username => "root")
client.query("use test");
bad_utf8 = "\u{61B36}"
client.query("INSERT INTO utf8 VALUES ('#{moo}')")
# Incorrect string value: '\xF1\xA1\xAC\xB6' for column 'string' at row 1 (Mysql2::Error)
在将它们发送给MySQL之前,如何检测或修复这些无效的编码类型?
解决方法:
可能是因为代码点不在basic multilingual plane 中
这是MySQL在其“ utf8”字符集中允许的唯一字符.
较新版本的mysql具有另一个字符集,名称为“ utf8mb4”,该字符集为supports unicode characters outside the BMP.
但是您可能不想使用它.仔细考虑您的用例.很少有真正的人类语言(如果有的话)在BMP之外使用字符.