16.3 字符编码和Unicode

这个世界上有太多太多的字符,远超过了一个字节(8bit)可能容纳的256个数目.为了显式超过256个字符以外的其它字符,一个新的手段被增加进来,那就是字符编码和字符集(更新和更好的"Unicode"解决方案,我们也将很快谈到.).

因此,到底字节161代表什么字符,是由当前使用的字符集决定的.在ISO 8859-1(Latin-1)字符集中,它代表的是一个倒写的感叹号,而在ISO 8859-2字符集中,则代表的是字母a(Aogonek).

当你在一个窗口上绘制字符的时候,系统必须知道你使用的编码,这成为字体编码,也就是所谓的字符集.创建一个没有指定字符集的字体意味着使用默认编码,这在大多数系统上都是没有问题的,因为大多数人都在使用支持本国语言的系统.

但是,如果你确定某些字符使用的是不同的编码(比如ISO 8859-2),在创建字体的时候,你应该指定这种编码,如下所示:

wxFont myFont(10, wxFONTFAMILY_DEFAULT, wxNORMAL, wxNORMAL,
               false, wxT("Arial"), wxFONTENCODING_ISO8859_2);

否则,在一个西文系统ISO 8859-1中,字符将不能被正确显式.

有时候可能我们无法找到一个合适的满足某种编码的字体,这种情况下,我们可以尝试使用一种代替字体,不过你需要将要显式的字体转换成那种代替字体对应的编码方式.下面的代码演示了应该怎样作.一个字符串text的编码为enc,准备用字体facename显示.同时下面的代码也演示了wxCSConv的用法:

// 我们有一段'enc'编码的文本,我们希望用字体
// 'facename'显示.
//
// 首先,我们必须确定这个字体可以显示这种编码
wxString text; // 编码方式为 'enc'
if (!wxFontMapper::Get()->IsEncodingAvailable(enc, facename))
{
   // 不能支持这种编码,需要查找替代编码.
   // 能支持某种替代编码吗?
   wxFontEncoding alternative;
   if (wxFontMapper::Get()->GetAltForEncoding(enc, &alternative,
                                              facename, false))
   {
       // 我们找到了替代编码方案'alternative',
       // 因此我们进行编码的转换,转换成alternative.
       wxCSConv convFrom(wxFontMapper::GetEncodingName(enc));
       wxCSConv convTo(wxFontMapper::GetEncodingName(alternative));
       text = wxString(text.wc_str(convFrom), convTo) ;
       // 然后创建alternative编码的字体
       wxFont myFont(10, wxFONTFAMILY_DEFAULT, wxNORMAL, wxNORMAL,
               false, facename , alternative);
       dc.SetFont(myFont);
   }
   else
   {
      // 不能找到完美替代编码;尝试有损耗的编码方案
      // ISO 8859-1 (7-bit ASCII)
      wxFont myFont(10, wxFONTFAMILY_DEFAULT, wxNORMAL, wxNORMAL,
              false, facename, wxFONTENCODING_ISO8859_1);
      dc.SetFont(myFont);
    }
}
else
{
    // OK,这个字体可以支持这个编码.
     wxFont myFont(10, wxFONTFAMILY_DEFAULT, wxNORMAL, wxNORMAL,
               false, facename, enc);
     dc.SetFont(myFont);
}
// 最后,我们使用选择的字体绘制可能已经经过编码转换的字符串.
dc.DrawText(text, 100, 100);

转换数据

前面的代码演示了将一组字节流从一种编码转换为另外一种编码的方法.这种转换可以有两种方法,第一种是使用 wxEncodingConverter类,这种方法是不被推荐的(可能在后续版本种被淘汰的方法),你不应该在新的代码种使用这种方法,除非你的编译器不支持wchar_t结构. 推荐使用第二种方法,字符集转换(使用基于wxMBConv的wxCSConv).

wxEncodingConverter

这种方法只能支持部分的字符集,但是如果你的编译器不支持wchar_t结构,这是你唯一的选择,转换方法如下:

wxEncodingConverter converter(enc, alternative, wxCONVERT_SUBSTITUTE);
text = converter.Convert(text);

wxCONVERT_SUBSTITUTE标记表明允许转换过程中如果找不到严格对应的字符,允许存在信息损失, 这将导致带重音符号的字母变成普通的字母或者短破折号和长破折号统一用"-"来代替等.

wxCSConv (wxMBConv)

Unicode的解决方案的核心是,它使用16bit或者甚至是32bit的wchar_t结构来代表一个字符,因此它可以把全世界所有的字符用一种编码表示.这意味着你不需要处理任何编码转换之类的问题除非你需要处理老的8-bit格式数据,前面我们已经说过,8bit的数据必须和字符集一起使用才有意义.

即使你没有把wxWidgets编译成Unicode模式(这种模式下,所有的字符串都是Unicode编码格式),只要你的系统支持,你还是可以使用它进行编码转换.转换的方法是,先把你的字符串从它的编码转换成Unicode编码,然后再从Unicode编码转换成目标编码. wxString类也使用这种方法来提供编码转换支持.要记住的是:非Unicode版本的wxWidgets中的wxString对象采用的是8bit 的方法保存字符串,因此它自己并不知道其内部的数据使用的是什么编码方式.

如果想把wxString转换成Unicode,你需要使用wxString::wc_str函数,这个函数采用一个多字节转换类作为它的参数,这个参数告诉非Unicode版本的wxString它内部的字符串是采用什么编码方式的,但是在Unicode版本的wxWidgets中, 这个参数被忽略,因为wxString内部的编码已经是Unicode了.

在Unicode版本中,我们可以直接使用wx_str返回的字符串了,但是在非Unicode版本中,我们还需要将其转换为我们可以支持的编码方式convTo,因此在下面的代码中,在Unicode版本中,convTo也将被忽略:

text = wxString(text.wc_str(convFrom), convTo);

可以看到字符集编码比字体字体编码更常使用,因此有时候你需要通过下面的代码将字体编码名字装换成字符集编码名字:

wxFontMapper::GetEncodingName(fontencoding);

这就是上面例子中下面这一部分代码的含义:

wxCSConv convFrom(wxFontMapper::GetEncodingName(enc));
wxCSConv convTo(wxFontMapper::GetEncodingName(alternative));
text = wxString(text.wc_str(convFrom) , convTo) ;

有时候你需要直接使用8bit的字节流而不是使用wxString,这可以通过使用wxCharBuffer类获得,下面我们看看这一行代码:

wxCharBuffer output = convTo.cWC2MB(text.wc_str(convFrom));

如果你的输入数据不是一个字符串而也是一个8bit的数据流(比如也是一个wxCharBuffer),你可以使用下面的转换方式:

wxCharBuffer output = convTo.cWC2MB(convFrom.cMB2WC(input));

wxWidgets定义了一些全局的类用于实现字符转换,比如wxConvISO8859_1是一个对象,而wxConvCurrent 是一个指针,指向当前标准C的locale指定的编码类.另外还有一些wxMBConv的子类用来优化特定的编码转换任务,比如 wxMBConvUTF7,wxMBConvUTF8, wxMBConvUTF16LE/BE和wxMBConvUTF32LE/BE.其中后两个被重定义为wxMBConvUFT16/32,它使用机器本身的字节序.更多信息请参考wxWidgets手册中的"wxMBConv Classes Overview"小节.

转化来自外部的临时缓存数据

正如我们刚刚讨论的那样,转换类允许你很方便的把一种字符集转换为另外一种字符集.然而,大多数的转换结果为一个新创建的字符串或者一个临时缓存.有时候我们需要将转换的结果保存起来已备以后使用,这种情况下我们可以把转换的结果复制到一个独立的存储区.

假设我们想在两个电脑之间通过socket传递字符串.我们首先应该在字符串采用的编码上取得一致.否则,平台默认的编码可能把传递的字符串搞的一团糟.在我们的这个例子中,我们把发送出去的字符串先转换成UTF-8编码,在接收的部分,在将UTF-8编码的字符串转换成系统默认的字符串.

下面的代码演示了怎样将符合本地编码的字符串转换成UTF-8,将转换结果存储在一个char*指针中,然后通过socket发送出去,接收的电脑再将收到的字符串从UTF-8转换成它自己的电脑上的本地编码.

// 将本地编码字符串转换成UTF-8编码
const wxCharBuffer ConvertToUTF8(wxString anyString)
{
    return wxConvUTF8.cWC2MB( anyString.wc_str(*wxConvCurrent) ) ;
}
// 将UTF-8编码的字符串转换成本地编码字符串
wxString ConvertFromUTF8(const char* rawUTF8)
{
    return wxString(wxConvUTF8.cMB2WC(rawUTF8), *wxConvCurrent);
}
// 测试以下这两个转换函数
void StringConversionTest(wxString anyString)
{
    // 转化成UTF-8编码并保存在wxCharBuffer中.
    const wxCharBuffer bUTF8 = ConvertToUTF8(anyString);
    // wxCharBuffer可以隐式的转换成char*.
    const char *cUTF8 = bUTF8 ;
    // 重建字符串
    wxString stringCopy = ConvertFromUTF8(cUTF8);
    // 因为是同一个电脑,这两个字符串应该是完全相同的.
    wxASSERT(anyString == stringCopy);
}

帮助文件

你需要为每个支持的语言制作一份帮助文件.你的帮助文件控制器在初始化的时候将指定帮助文件的名称.你可以使用wxLocale::GetName来获取语言相关的名称,也可以直接使用前面介绍的_()宏以便获得语言相关的名称.比如:

m_helpController->Initialize(_("help_english"));

如果你使用的是wxHtmlHelpController,记住你需要给每一个帮助页面指定META标记,如下所示:

<meta http-equiv="Content-Type" content="text/html; charset=iso8859 //2">

你还需要注意帮助工程文件(扩展名.hhp)也许要包含一个指定编码的选项行:

Charset=iso8859-2

这个额外的条目告诉HTML帮助控制器帮助内容和帮助索引使用什么编码格式编码的.