mysql – 在UTF8和Latin1表中将iso-8859-1数据转换为UTF-8

问题摘要:

在尝试将具有mysql数据库的站点从latin1转换为utf8时,尽管确保字符集在系统范围内都是utf8,但某些特殊字符无法正确显示.

问题详情:

这是一个常见问题.但我似乎有一个额外的复杂性.

多年前,一个不知名的开发人员(我),将一个网站与MySQL放在一起.一些表使用latin1_swedish_ci和utf8_general_ci设置.所有输入/显示都是通过iso-8859-1 charset页面完成的.

现在,我的任务是将所有这些数据转换为utf-8,从而最终使编码均匀化.但是,我在两个实例中都遇到了许多特殊字符的问题(即:ü).这些字符似乎无法在UTF-8页面上正确显示.它们显示为 .相反当在mysql查询浏览器中查看utf8表中的数据时,正确输入的utf8’d’u’显示为一些特殊字符,而错误的latin1’u’显示为应显示在页面上.但事实并非如此.

我尝试过很多东西:

> Percona脚本:https://github.com/rlowe/mysql_convert_charset
>将col转换为二进制,然后转换为utf8
>将utf8表转换为拉丁语,然后重复上述过程

似乎没有什么能够治愈这些数据.

倾倒整个数据库并且重要的并不是一个可行的选择,因为它现在是一个巨大的数据库,并且停机时间受到限制.

更新(2013年10月22日)

我已经采取了@deceze建议,并根据http://kunststube.net/frontback/审查了我的所有内容编码区域.我确实找到了一些我仍然在latin1中传递/编码数据的地方.所以,我现在把它全部改为UTF-8.但是,数据仍然在特定字段中显示不正确.在utf8中的表中(没有列具有隐式编码),field1在latin1中.我可以通过运行以下正确显示文本来确认这一点:

select convert(cast(convert(field1 using latin1) as binary) using
utf8) from my table WHERE id = 1

这将把Hahnemühle转换为Hahnemühle.

在field2中,数据显示为不同的(未知)编码.上面的查询,当在field2上使用时,将Hahnem�hle转换为Hahnem hle.我已经通过http://dev.mysql.com/doc/refman/5.5/en/charset-charsets.html上的所有字符集替换了latin1,但似乎没有一个正确地吐出数据.

解决方法:

您可以尝试使用mysqldump从ISO-8859-1转换为utf-8:

mysqldump --user=username --password=password --default-character-set=latin1 --skip-set-charset dbname > dump.sql
chgrep latin1 utf8 dump.sql (or when you prefer  sed -i "" 's/latin1/utf8/g' dump.sql) 
mysql --user=username --password=password --execute="DROP DATABASE dbname; CREATE DATABASE dbname CHARACTER SET utf8 COLLATE utf8_general_ci;"
mysql --user=username --password=password --default-character-set=utf8 dbname < dump.sql
上一篇:mysql – 如何在使用count和group by时加快查询速度


下一篇:mysql错误:无法创建新线程(错误11)