移动开发之浅析cocos2d-x的中文支持问题

2023-01-09 21:28:06

题记：这阵子一直在学习cocos2d-x，其跨平台的特性确实让人舒爽，引擎的框架概念也很成熟，虽然相应的第三方工具略显单薄，但也无愧是一件移动开发的利器啊，有兴趣的朋友有时间就多了解吧。

使用引擎的过程中遇到的问题很多，中文支持便是一例，虽然问题本身并不复杂，但是网上的相关资料都比较简单零散，自己捣鼓了几下，觉得有必要的整理一下，以此稍稍方便一下遇到相似问题的朋友，也算是自己的一点点学习总结，可惜自己水平有限，讲的不当甚至错误的地方请细心的朋友不吝指出，俗话说的好嘛：贻笑大方事小，误人子弟事大也

一. 不就是用用setlocale嘛，简单！

之前自己并未深入过C/C++对于多字符编码的支持问题，但也算是尝试过一些相关的示例程序，譬如这个中文版的Hello World：

#include <cstdio>

#include <clocale>

using namespace std;

int main()

{

    // first we have to set the locale

    setlocale(LC_ALL, "chs");

    // then we use wprintf to output the Chinese string

    wprintf(L"%ls\n", L"世界，你好");

    // that's all :)

    return 0;

}

程序的逻辑很简单，使用setlocale设置地域信息，然后使用wprintf输出对应的中文信息，一切似乎都非常简单自然。（注：如果使用GCC编译上述代码时，需要将源文件类型改为UTF-8格式，否则会提示解码错误，这是GCC的一个源文件限制）

类似的，这里也有一个相同功能的C++程序：

#include <iostream>

using namespace std;

int main()

{

    // first we have to set the output stream locale

    wcout.imbue(locale("chs"));

    // then we use wcout to output the Chinese string

    wcout << L"世界，你好" << endl;

    // that's all :)

    return 0;

}

代码的原理部分与之前的代码如出一辙，在此不再赘述，不过比较令我费解的是这段代码在CodeBlocks+MinGW4.4.1环境下，运行时会引起崩溃（由wcout.imbue(locale("chs"))这行代码引起），具体原因没有细究，似乎是GCC的一个BUG，如有朋友了解，请不吝告知，多谢：）

关于以上问题的更多的一些信息可以在这里找到。

好了，小小尝试了一下之后，就让我们开始整一整cocos2d-x中的中文了，巧的是cocos2d-x开发包（有兴趣的朋友可以从这里下载）的示例程序中恰好也有一个HelloWorld，那么事不宜迟，就让我们将这个程序修改为中文界面吧）

二. char 或者 wchar_t，这是一个问题

首先让我们来看看cocos2d-x中原始的HelloWorld里涉及到的文本输出代码是哪些（如果你从未接触过cocos2d，推荐先熟悉一下其中的基本概念，网上优秀的入门教程很多，譬如这里）：

// 3. add your codes below...

// add a label shows "Hello World"

// create and initialize a label

    CCLabelTTF* pLabel = CCLabelTTF::labelWithString("Hello World", "Arial", 24);

// ask director the window size

CCSize size = CCDirector::sharedDirector()->getWinSize();

// position the label on the center of the screen

pLabel->setPosition( ccp(size.width / 2, size.height - 50) );

// add the label as a child to this layer

this->addChild(pLabel, 1);

注释都很明了，大致意思便是创建一个CCLabelTTF，然后设置对应位置，并加入场景的child队列，就这样~~~在此给张示意例图：

OK，到此我们的当前任务已经非常明显了，就是要将图中所示的“Hello World”改为“你好世界”，就是这么简单

简单，让我们首先来一次最直接的修改：

// 3. add your codes below...

// add a label shows "Hello World"

// create and initialize a label

    CCLabelTTF* pLabel = CCLabelTTF::labelWithString(L"你好世界", "Arial", 24);

// ask director the window size

CCSize size = CCDirector::sharedDirector()->getWinSize();

// position the label on the center of the screen

pLabel->setPosition( ccp(size.width / 2, size.height - 50) );

// add the label as a child to this layer

this->addChild(pLabel, 1);

想法虽然美好，可惜编译器无情的抱怨了：没有对应的调用接口……让我们来看一下labelWithString这个静态函数的声明：

/** creates a CCLabelTTF from a fontname, alignment, dimension and font size */

  static CCLabelTTF * labelWithString(const char *label, const CCSize& dimensions, CCTextAlignment alignment, const char *fontName, float fontSize);

  /** creates a CCLabelTTF from a fontname and font size */

  static CCLabelTTF * labelWithString(const char *label, const char *fontName, float fontSize);

我们暂时不用细究labelWithString的第一个重载版本，其实现了字体显示的更多细节控制，我们目前关心的是在源程序中我们调用的第二个版本，非常明显的一点便是其第一个文本参数，是一个常量char指针，而我们之前做的简单修改，实际上是传入了一个常量wchar_t指针，自然便出现了重载函数不存在的情况……那么接下来我们应该如何做呢？将wchar_t强制转换为char类型，恐怕没有这么简单，考虑ASCII字符A，其相应的wchar_t内容编码可能是这样的0x00|0x41，将其强制转换为char之后，其相应内容其实并没有改变，传给labelWithString只是相当于一个空字符串而已……那么让我们来修改labelWithString以让他支持wchar_t的调用或者自己动手扩展类似的接口，诚然，以上方案都是可行的，但是都不是那么简洁……

唉，char 或者 wchar_t，这是一个问题啊~~~

三. 拥抱UTF-8

其实，我们还有更简单的方案，那就是使用UTF-8编码，在此让我简单的引用一段*上关于UTF-8的简介：

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码（定长码），也是一种前缀码。它可以用来表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII相容，这使得原来处理ASCII字符的软件无须或只须做少部份修改，即可继续使用。

看到了UTF-8编码的重要特性之一吗：与ASCII兼容！这就是我们想要的：）那么事不宜迟，让我们马上动手将L“你好世界”转换为UTF-8编码，并传入labelWithString试一试吧：

等等，在转码之前也许你会问：不管UTF-8本身的编码方式如何，之前我们硬编码进程序中的L“你好世界”这几个字符原来是什么编码呢？如果我们连原始编码都不了解，谈何转码一说呢？呵呵，你说的非常正确！只可惜关于C++中使用什么编码方式存储多字节字符并没有统一规定，各个编译器期间都有区别，可能是UTF-16，可能是UTF-32，当然，也有可能是UTF-8（这种情况下强制转换就可行了，尽管仍然很Ugly……），不过幸运的是，Win32的API ：WideCharToMultiByte为我们屏蔽了这些复杂性，让我们马上来试一试：

inline std::string WideByte2UTF8(const wstring& text)

{

int asciisize = ::WideCharToMultiByte(CP_UTF8, 0, text.c_str(), text.size(), NULL, 0, NULL, NULL);

if (asciisize == ERROR_NO_UNICODE_TRANSLATION ||

asciisize == 0)  

{  

return string();

}

char* resultstring = new char[asciisize];

int convresult = ::WideCharToMultiByte(CP_UTF8, 0, text.c_str(), text.size(), resultstring, asciisize, NULL, NULL);

if (convresult != asciisize)

{  

return string();

}  

std::string buffer(resultstring, convresult);

delete[] resultstring;

return buffer;

}

// add a label shows "Hello World"

// create and initialize a label

std::string text = WideByte2UTF8(L"你好世界");

CCLabelTTF* pLabel = CCLabelTTF::labelWithString(text.c_str(), "Arial", 24);

哈哈，我们的第一步尝试成功了，来看一下截图：

四. 还有其他更好的法子吗？

上面的代码虽然可以完成任务，但是用到了平台特有的API，对于像cocos2d-x这般旨在跨平台的引擎而言，其实并不能算作很好的解决方案，那么我们还有什么其他法子吗？

1.wcstombs/mbstowcs怎么样？

其实C函数库中存在类似于WideCharToMultiByte的函数，他们就是wcstombs/mbstowcs，让我们马上来试一试：

//! convert wide string to string

inline std::string WStr2Str(const std::wstring& ws)

{

std::string curLocale = setlocale(LC_ALL, NULL); // get current locale

setlocale(LC_ALL, "chs");

const wchar_t* tSource = ws.c_str();

size_t tDsize = 2 * ws.size() + 1;

char* tDest = new char[tDsize];

memset(tDest,0,tDsize);

wcstombs(tDest,tSource,tDsize);

std::string result = tDest;

delete[] tDest;

setlocale(LC_ALL, curLocale.c_str());

return result;

}

// add a label shows "Hello World"

// create and initialize a label

std::string text = WStr2Str(L"你好世界");

CCLabelTTF* pLabel = CCLabelTTF::labelWithString(text.c_str(), "Arial", 24);

不幸的是以上方案失败了：

失败的原因其实很简单，wcstombs是根据当前设置的locale进行转换，由于此处我们设置的locale是“chs”，所以装换的过程是根据GBK编码进行的（就简体中文而言），并非是我们理想中的UTF-8，自然得不到我们期望的结果，那么为什么我们此处不设置locale为UTF-8呢，这是因为：Windows CRT 不支持~~~（唉……），但是我们至此可以找到一个这种方案：通过条件编译实现对应函数的装换，即在Win32平台上调用WideCharToMultiByte，其他支持UTF-8 locale的平台则调用wcstombs，嗯哼，貌似这个方案部分做到了跨平台的特性（对于那些不支持UTF-8 locale的非Win32平台还是不行~~~）：）

2. Boost提供的 utf8_codecvt_facet 怎么样？

Boost中提供的utf8_codecvt_facet可以完成类似的UTF-8编码转换，可惜作为标准IO库中codecvt 的一个扩展，与string/wstring协作时并不是那么直观，有兴趣的朋友可以试上一试，个人感觉不是特别好：（

3. 第三库如何？

其实cocos2d-x的开发包内置了用于编码转换的iconv库，我们可以尝试一下，当然，更加重量级的还有ICU，如果你有兴趣的也可以研习一番，在此我们便就近试一下iconv吧：

bool IConvConvert(const char *from_charset, const char *to_charset, const char *inbuf, int inlen, char *outbuf, int outlen) 

{

    iconv_t cd = iconv_open(to_charset, from_charset);

if (cd == 0) return false;

const char **pin = &inbuf;

char **pout = &outbuf;

memset(outbuf,0,outlen);

size_t ret = iconv(cd,pin,(size_t *)&inlen,pout,(size_t *)&outlen);

iconv_close(cd);

return ret == (size_t)(-1) ? false : true;

}

std::string IConvConvert_GBKToUTF8(const std::string& str)

{

const char* textIn = str.c_str();

char textOut[256];

bool ret = IConvConvert("gb2312", "utf-8", textIn, strlen(textIn),textOut, 256);

return ret ? string(textOut) : string();

}

// add a label shows "Hello World"

// create and initialize a label

std::string text = IConvConvert_GBKToUTF8("你好世界");

CCLabelTTF* pLabel = CCLabelTTF::labelWithString(text.c_str(), "Arial", 24);

哈哈，这次我们成功了：

不过iconv的GNU许可倒是值得考量一下，对于一些用户可能产生困扰，当然如果考虑清楚，并且程序规模不存在问题时，我们还是推荐iconv的，否则cocos2d-x也不会自带iconv了

4. 自给自足，丰衣足食

虽然软件行业从不提倡重造车轮，但是如果你还不满意上述的各类方法，那么这也算是一条路子了，优点是够轻量、够可控等等；缺点同样明显，很脆弱、花时间等等，当然如果你确定考虑清楚了，那就放手干吧，这里给个示例示例：

inline void WStrToUTF8(std::string& dest, const wstring& src){

dest.clear();

for (size_t i = 0; i < src.size(); i++){

wchar_t w = src[i];

if (w <= 0x7f)

dest.push_back((char)w);

else if (w <= 0x7ff){

dest.push_back(0xc0 | ((w >> 6)& 0x1f));

dest.push_back(0x80| (w & 0x3f));

}

else if (w <= 0xffff){

dest.push_back(0xe0 | ((w >> 12)& 0x0f));

dest.push_back(0x80| ((w >> 6) & 0x3f));

dest.push_back(0x80| (w & 0x3f));

}

else if (sizeof(wchar_t) > 2 && w <= 0x10ffff){

dest.push_back(0xf0 | ((w >> 18)& 0x07)); // wchar_t 4-bytes situation

dest.push_back(0x80| ((w >> 12) & 0x3f));

dest.push_back(0x80| ((w >> 6) & 0x3f));

dest.push_back(0x80| (w & 0x3f));

}

else

dest.push_back('?');

}

}

//! simple warpper

inline std::string WStrToUTF8(const std::wstring& str){

std::string result;

WStrToUTF8(result, str);

return result;

}

// add a label shows "Hello World"

// create and initialize a label

std::string text = WStrToUTF8(L"你好世界");

CCLabelTTF* pLabel = CCLabelTTF::labelWithString(text.c_str(), "Arial", 24);

结果如下：

五. 最后说几句

Cocos2d-x的中文支持到此也算聊完了，有兴趣的朋友可以看看，以上内容也算是自己的一些学习历程，在此一一列出，希望能给朋友一些借鉴

That's All ！

部分参考（排名部分先后）：

1.http://*.com/questions/148403/utf8-to-from-wide-char-conversion-in-stl

2.http://www.boost.org/doc/libs/1_48_0/libs/serialization/doc/codecvt.html

3.http://www.cnblogs.com/hnrainll/archive/2011/05/07/2039700.html

4.http://www.gnu.org/software/libiconv/

5.http://site.icu-project.org/

6.http://blog.csdn.net/sjy88813/article/details/6662879

7.http://www.linuxquestions.org/questions/programming-9/wstring-utf8-conversion-in-pure-c-701084/