QString内部仍采用UTF-16存储数据且不会改变(一共10种不同情况下的编码)

出处:https://blog.qt.io/cn/2012/05/16/source-code-must-be-utf-8-and-qstring-wants-it/

但是注意,这只是QT运行(RunTime)过程中采用的编码,并不代表源码文件里也是这样的。恰恰相反,源码文件必须是UTF8,带不带BOM都可以。我认为,虽然存储在源代码里的中文字是UTF8,但是QT在编译过程中,遇到中文会立即转换成UTF-16从而对源码里的中文字符进行编码,并存储在EXE文件里(这里对编译器来说,都是静态字符,必须选择一个合适的编码存储在EXE文件里),这是我自己的理解的,不一定完全正确。

由于VS系列编译器自作聪明的帮你做转换,因此源代码里的:

QString s1 = "我是中文";
QString s2("我是中文");
QString s3 = QObject::tr("我是中文")

是不能正确运行的。

但是以上代码却可以在MINGW编译器下运行(经过实际验证),原因是它不会自作聪明帮你做转换。

具体参考:http://blog.csdn.net/dbzhang800/article/details/7325698

-----------------------------------------------------------------------------------

总结:所谓编码一共有这几种不同情况:
1. 源码文件的格式,不同编译器有不同的要求。有些编译器随遇而安使用ANSI,有些要求必须是UTF8否则后果自负,有些能自动识别和区别两者而且还能混合使用。
2. 编译器处理源码文件时可能自动转换编码,造成与期望结果不匹配,或者根据你设置的环境参数设置编码进行处理(VS项目里就有一个编码设置,我还没搞懂)
3. 程序运行时(RunTime)又有一个编码,而且可动态改变。就QT5来说,它的String是UTF16,但其源代码文件存储格式一定是UTF8,字符初次读入或者转换的时候并且还受QTextCodec::codecForName的影响,这样同在QT下就有了3种不同情况下的编码。
4. 手写代码从文本文件读入数据时,通常又有默认字符编码,要小心
5. 有了正确运行/存储的数据,发送Server端时候字符时候又有可能一个编码,而且有可能会被自动转换,要千万小心,比如mysql的传输编码与存储编码就可以是不同的。
6. 接受字符时(还不是接受后存储,仅指从客户端接收数据到内存中,接受过程中即使不写任何转换代码、受环境影响也有可能已经存在自动转换编码的问题),又有编码,需要正确设置。特别注意,发送和接受经常受服务器软件自动设置的影响,不是你发了UTF8编码、发出去的就是UTF8编码,更不用说接受。
7. 存储数据的时候,又有编码格式
8. 调试窗口(比如Console)也有自己的编码格式,调试时显示不正确,不代表运行数据不正确,也不代表最终用户界面的数据不正确。反之也是这样,调试正确,不代表最终数据的编码一定正确。
我用VS调试的时候,发生过左右两个调试窗口,一个正确显示,另一个错误显示的情况,差点让我昏倒。
9. 最终用户的显示又有自己的显示编码。我就遇到过调试窗口编码错误,最终GUI界面显示正确,当时也是差点昏倒,而且编程要以这个为准。
10. 如果要与浏览器打交道,又多一层编码的问题,但原理与上面相同。

上一篇:JavaScript 在不刷新或跳转页面的情况下改变当前浏览器地址栏上的网址


下一篇:QlikView随意改变图例的位置