题记:这阵子一直在学习cocos2d-x,其跨平台的特性确实让人舒爽,引擎的框架概念也很成熟,虽然相应的第三方工具略显单薄,但也无愧是一件移动开发的利器啊,有兴趣的朋友有时间就多了解吧。
使用引擎的过程中遇到的问题很多,中文支持便是一例,虽然问题本身并不复杂,但是网上的相关资料都比较简单零散,自己捣鼓了几下,觉得有必要的整理一下,以此稍稍方便一下遇到相似问题的朋友,也算是自己的一点点学习总结,可惜自己水平有限,讲的不当甚至错误的地方请细心的朋友不吝指出,俗话说的好嘛:贻笑大方事小,误人子弟事大也
一. 不就是用用setlocale嘛,简单!
之前自己并未深入过C/C++对于多字符编码的支持问题,但也算是尝试过一些相关的示例程序,譬如这个中文版的Hello World:
#include <cstdio> #include <clocale> using namespace std; int main() { // first we have to set the locale setlocale(LC_ALL, "chs"); // then we use wprintf to output the Chinese string wprintf(L"%ls\n", L"世界,你好"); // that's all :) return 0; }
程序的逻辑很简单,使用setlocale设置地域信息,然后使用wprintf输出对应的中文信息,一切似乎都非常简单自然。(注:如果使用GCC编译上述代码时,需要将源文件类型改为UTF-8格式,否则会提示解码错误,这是GCC的一个源文件限制)
类似的,这里也有一个相同功能的C++程序:
#include <iostream> using namespace std; int main() { // first we have to set the output stream locale wcout.imbue(locale("chs")); // then we use wcout to output the Chinese string wcout << L"世界,你好" << endl; // that's all :) return 0; }
代码的原理部分与之前的代码如出一辙,在此不再赘述,不过比较令我费解的是这段代码在CodeBlocks+MinGW4.4.1环境下,运行时会引起崩溃(由wcout.imbue(locale("chs"))这行代码引起),具体原因没有细究,似乎是GCC的一个BUG,如有朋友了解,请不吝告知,多谢 :)
关于以上问题的更多的一些信息可以在这里找到。
好了,小小尝试了一下之后,就让我们开始整一整cocos2d-x中的中文了,巧的是cocos2d-x开发包(有兴趣的朋友可以从这里下载)的示例程序中恰好也有一个HelloWorld,那么事不宜迟,就让我们将这个程序修改为中文界面吧 )
二. char 或者 wchar_t,这是一个问题
首先让我们来看看cocos2d-x中原始的HelloWorld里涉及到的文本输出代码是哪些(如果你从未接触过cocos2d,推荐先熟悉一下其中的基本概念,网上优秀的入门教程很多,譬如这里):
// 3. add your codes below... // add a label shows "Hello World" // create and initialize a label CCLabelTTF* pLabel = CCLabelTTF::labelWithString("Hello World", "Arial", 24); // ask director the window size CCSize size = CCDirector::sharedDirector()->getWinSize(); // position the label on the center of the screen pLabel->setPosition( ccp(size.width / 2, size.height - 50) ); // add the label as a child to this layer this->addChild(pLabel, 1);
注释都很明了,大致意思便是创建一个CCLabelTTF,然后设置对应位置,并加入场景的child队列,就这样~~~在此给张示意例图:
OK,到此我们的当前任务已经非常明显了,就是要将图中所示的“Hello World”改为“你好世界”,就是这么简单
简单,让我们首先来一次最直接的修改:
// 3. add your codes below... // add a label shows "Hello World" // create and initialize a label CCLabelTTF* pLabel = CCLabelTTF::labelWithString(L"你好世界", "Arial", 24); // ask director the window size CCSize size = CCDirector::sharedDirector()->getWinSize(); // position the label on the center of the screen pLabel->setPosition( ccp(size.width / 2, size.height - 50) ); // add the label as a child to this layer this->addChild(pLabel, 1);
想法虽然美好,可惜编译器无情的抱怨了:没有对应的调用接口……让我们来看一下labelWithString这个静态函数的声明:
/** creates a CCLabelTTF from a fontname, alignment, dimension and font size */ static CCLabelTTF * labelWithString(const char *label, const CCSize& dimensions, CCTextAlignment alignment, const char *fontName, float fontSize); /** creates a CCLabelTTF from a fontname and font size */ static CCLabelTTF * labelWithString(const char *label, const char *fontName, float fontSize);
我们暂时不用细究labelWithString的第一个重载版本,其实现了字体显示的更多细节控制,我们目前关心的是在源程序中我们调用的第二个版本,非常明显的一点便是其第一个文本参数,是一个常量char指针,而我们之前做的简单修改,实际上是传入了一个常量wchar_t指针,自然便出现了重载函数不存在的情况……那么接下来我们应该如何做呢?将wchar_t强制转换为char类型,恐怕没有这么简单,考虑ASCII字符A,其相应的wchar_t内容编码可能是这样的0x00|0x41,将其强制转换为char之后,其相应内容其实并没有改变,传给labelWithString只是相当于一个空字符串而已……那么让我们来修改labelWithString以让他支持wchar_t的调用或者自己动手扩展类似的接口,诚然,以上方案都是可行的,但是都不是那么简洁……
唉,char 或者 wchar_t,这是一个问题啊~~~
三. 拥抱UTF-8
其实,我们还有更简单的方案,那就是使用UTF-8编码,在此让我简单的引用一段*上关于UTF-8的简介:
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码(定长码),也是一种前缀码。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII相容,这使得原来处理ASCII字符的软件无须或只须做少部份修改,即可继续使用。
看到了UTF-8编码的重要特性之一吗:与ASCII兼容!这就是我们想要的 :) 那么事不宜迟,让我们马上动手将L“你好世界”转换为UTF-8编码,并传入labelWithString试一试吧:
等等,在转码之前也许你会问:不管UTF-8本身的编码方式如何,之前我们硬编码进程序中的L“你好世界”这几个字符原来是什么编码呢?如果我们连原始编码都不了解,谈何转码一说呢?呵呵,你说的非常正确!只可惜关于C++中使用什么编码方式存储多字节字符并没有统一规定,各个编译器期间都有区别,可能是UTF-16,可能是UTF-32,当然,也有可能是UTF-8(这种情况下强制转换就可行了,尽管仍然很Ugly……),不过幸运的是,Win32的API :WideCharToMultiByte为我们屏蔽了这些复杂性,让我们马上来试一试:
inline std::string WideByte2UTF8(const wstring& text) { int asciisize = ::WideCharToMultiByte(CP_UTF8, 0, text.c_str(), text.size(), NULL, 0, NULL, NULL); if (asciisize == ERROR_NO_UNICODE_TRANSLATION || asciisize == 0) { return string(); } char* resultstring = new char[asciisize]; int convresult = ::WideCharToMultiByte(CP_UTF8, 0, text.c_str(), text.size(), resultstring, asciisize, NULL, NULL); if (convresult != asciisize) { return string(); } std::string buffer(resultstring, convresult); delete[] resultstring; return buffer; } // add a label shows "Hello World" // create and initialize a label std::string text = WideByte2UTF8(L"你好世界"); CCLabelTTF* pLabel = CCLabelTTF::labelWithString(text.c_str(), "Arial", 24);
哈哈,我们的第一步尝试成功了,来看一下截图:
四. 还有其他更好的法子吗?
上面的代码虽然可以完成任务,但是用到了平台特有的API,对于像cocos2d-x这般旨在跨平台的引擎而言,其实并不能算作很好的解决方案,那么我们还有什么其他法子吗?
1.wcstombs/mbstowcs怎么样?
其实C函数库中存在类似于WideCharToMultiByte的函数,他们就是wcstombs/mbstowcs,让我们马上来试一试:
//! convert wide string to string inline std::string WStr2Str(const std::wstring& ws) { std::string curLocale = setlocale(LC_ALL, NULL); // get current locale setlocale(LC_ALL, "chs"); const wchar_t* tSource = ws.c_str(); size_t tDsize = 2 * ws.size() + 1; char* tDest = new char[tDsize]; memset(tDest,0,tDsize); wcstombs(tDest,tSource,tDsize); std::string result = tDest; delete[] tDest; setlocale(LC_ALL, curLocale.c_str()); return result; } // add a label shows "Hello World" // create and initialize a label std::string text = WStr2Str(L"你好世界"); CCLabelTTF* pLabel = CCLabelTTF::labelWithString(text.c_str(), "Arial", 24);
不幸的是以上方案失败了:
失败的原因其实很简单,wcstombs是根据当前设置的locale进行转换,由于此处我们设置的locale是“chs”,所以装换的过程是根据GBK编码进行的(就简体中文而言),并非是我们理想中的UTF-8,自然得不到我们期望的结果,那么为什么我们此处不设置locale为UTF-8呢,这是因为:Windows CRT 不支持~~~(唉……),但是我们至此可以找到一个这种方案:通过条件编译实现对应函数的装换,即在Win32平台上调用WideCharToMultiByte,其他支持UTF-8 locale的平台则调用wcstombs,嗯哼,貌似这个方案部分做到了跨平台的特性(对于那些不支持UTF-8 locale的非Win32平台还是不行~~~) :)
2. Boost提供的 utf8_codecvt_facet 怎么样?
Boost中提供的utf8_codecvt_facet可以完成类似的UTF-8编码转换,可惜作为标准IO库中codecvt 的一个扩展,与string/wstring协作时并不是那么直观,有兴趣的朋友可以试上一试,个人感觉不是特别好 :(
3. 第三库如何?
其实cocos2d-x的开发包内置了用于编码转换的iconv库,我们可以尝试一下,当然,更加重量级的还有ICU,如果你有兴趣的也可以研习一番,在此我们便就近试一下iconv吧:
bool IConvConvert(const char *from_charset, const char *to_charset, const char *inbuf, int inlen, char *outbuf, int outlen) { iconv_t cd = iconv_open(to_charset, from_charset); if (cd == 0) return false; const char **pin = &inbuf; char **pout = &outbuf; memset(outbuf,0,outlen); size_t ret = iconv(cd,pin,(size_t *)&inlen,pout,(size_t *)&outlen); iconv_close(cd); return ret == (size_t)(-1) ? false : true; } std::string IConvConvert_GBKToUTF8(const std::string& str) { const char* textIn = str.c_str(); char textOut[256]; bool ret = IConvConvert("gb2312", "utf-8", textIn, strlen(textIn),textOut, 256); return ret ? string(textOut) : string(); } // add a label shows "Hello World" // create and initialize a label std::string text = IConvConvert_GBKToUTF8("你好世界"); CCLabelTTF* pLabel = CCLabelTTF::labelWithString(text.c_str(), "Arial", 24);
哈哈,这次我们成功了:
不过iconv的GNU许可倒是值得考量一下,对于一些用户可能产生困扰,当然如果考虑清楚,并且程序规模不存在问题时,我们还是推荐iconv的,否则cocos2d-x也不会自带iconv了
4. 自给自足,丰衣足食
虽然软件行业从不提倡重造车轮,但是如果你还不满意上述的各类方法,那么这也算是一条路子了,优点是够轻量、够可控等等;缺点同样明显,很脆弱、花时间等等,当然如果你确定考虑清楚了,那就放手干吧,这里给个示例示例:
inline void WStrToUTF8(std::string& dest, const wstring& src){ dest.clear(); for (size_t i = 0; i < src.size(); i++){ wchar_t w = src[i]; if (w <= 0x7f) dest.push_back((char)w); else if (w <= 0x7ff){ dest.push_back(0xc0 | ((w >> 6)& 0x1f)); dest.push_back(0x80| (w & 0x3f)); } else if (w <= 0xffff){ dest.push_back(0xe0 | ((w >> 12)& 0x0f)); dest.push_back(0x80| ((w >> 6) & 0x3f)); dest.push_back(0x80| (w & 0x3f)); } else if (sizeof(wchar_t) > 2 && w <= 0x10ffff){ dest.push_back(0xf0 | ((w >> 18)& 0x07)); // wchar_t 4-bytes situation dest.push_back(0x80| ((w >> 12) & 0x3f)); dest.push_back(0x80| ((w >> 6) & 0x3f)); dest.push_back(0x80| (w & 0x3f)); } else dest.push_back('?'); } } //! simple warpper inline std::string WStrToUTF8(const std::wstring& str){ std::string result; WStrToUTF8(result, str); return result; } // add a label shows "Hello World" // create and initialize a label std::string text = WStrToUTF8(L"你好世界"); CCLabelTTF* pLabel = CCLabelTTF::labelWithString(text.c_str(), "Arial", 24);
结果如下:
五. 最后说几句
Cocos2d-x的中文支持到此也算聊完了,有兴趣的朋友可以看看,以上内容也算是自己的一些学习历程,在此一一列出,希望能给朋友一些借鉴
That's All !
部分参考(排名部分先后):
1.http://*.com/questions/148403/utf8-to-from-wide-char-conversion-in-stl
2.http://www.boost.org/doc/libs/1_48_0/libs/serialization/doc/codecvt.html
3.http://www.cnblogs.com/hnrainll/archive/2011/05/07/2039700.html
4.http://www.gnu.org/software/libiconv/
5.http://site.icu-project.org/
6.http://blog.csdn.net/sjy88813/article/details/6662879
7.http://www.linuxquestions.org/questions/programming-9/wstring-utf8-conversion-in-pure-c-701084/
8.http://zh.wikipedia.org/wiki/UTF-8
原文地址:http://blog.csdn.net/tkokof1/article/details/7426706#reply
总结:原文作者写的很好,本人只是整理一下,内容基本没变,目的是使文章看的更清楚,资料保存的更好。
本人采用了作者自给自足的思路,将作者的示例写成了一个内联的类,添加到项目中使用,在win32和android平台运行,均能正确的显示中文,没有乱码。
本人实验项目如下:http://download.csdn.net/detail/abc13939746593/6654797