业务背景:
服务端是用Java写的,客户端的是使用C#写的,他们交互以客户端以http协议方式请求服务端,http请求方式要求URL转码为GBK。但是后来发现,服务端收到客户端提交的GBK字符,偶尔会有乱码。于是将同一个字符串分别用URL转换GBK,然后发现只有一点点不一样。
示例如下:
字符串:赟俶鎮臨釵阁紅昇號瀍業區號鋕發廠劉東區灣業區實業蘭創黃鐰甪恆
C#转码结果:
%daS%82m%e6%82%c5R%e2O%b8%f3%bct%95N%cc%96%9ee%98I%85%5e%cc%96%e4k%b0l%8fS%84%a2%96%7c%85%5e%9e%b3%98I%85%5e%8c%8d%98I%ccm%84%93%fcS%e8A%aef%90a
Java转码结果:
%DA%53%82%6D%E6%82%C5%52%E2%4F%B8%F3%BC%74%95%4E%CC%96%9E%65%98%49%85%5E%CC%96%E4%6B%B0%6C%8F%53%84%A2%96%7C%85%5E%9E%B3%98%49%85%5E%8C%8D%98%49%CC%6D%84%93%FC%53%E8%41%AE%66%90%61
对比结果截图:
找了很久的原因都没有发现时什么问题,最后查了一下GBK字符的
范围
发现JAVA转出来是正确的,C#转出来是错误的。每个汉子字符转出GBK应该都睡四个字节码,C#中有些字转出来只有三个字符(当然每两个字符会以%拼接),盯着C#转出来的字节码和GBK进行对比,发现C#中最后一个字母有些是大于F的,看到GBK字符集中是没有最大就到F不可能有什么NMSWZ等这些字母。猜测三个字母中应该最后一个字母是需要转出16进制的。然会就试着转了一下,果然和Java的一样的。
以下是C#的代码:
1 public static void ConvertURLGBKEnCode() 2 { 3 string str2 = "赟俶鎮臨釵阁紅昇號瀍業區號鋕發廠劉東區灣業區實業蘭創黃鐰甪恆"; 4 5 string str = string.Empty; 6 string urlEnCodeStr = string.Empty; 7 Regex reg = new Regex(@"[\u4e00-\u9fa5]");//正则表达式 8 StringBuilder sb1 = new StringBuilder(); 9 for (int i = 0; i <= str2.Length - 1; i++) 10 { 11 string tempStr = str2[i].ToString(); 12 urlEnCodeStr = System.Web.HttpUtility.UrlEncode(tempStr, Encoding.GetEncoding("GBK")); 13 14 // 如果是汉子的话,将URL编码过后再进行16进制转换 15 if (reg.IsMatch(tempStr)) 16 { 17 // 判断转码过后的字符,如果只有4位的话,代表最后一个字符需要转换成16进制行拼接 18 if (urlEnCodeStr.Length <= 4) 19 { 20 StringBuilder sb = new StringBuilder(); 21 string firstStr = urlEnCodeStr.Substring(0, 3); 22 string LastStr = urlEnCodeStr.Substring(3, 1); 23 sb.Append(firstStr + "%"); 24 byte[] targetData = Encoding.GetEncoding("GBK").GetBytes(LastStr); 25 for (int j = 0; j < targetData.Length; j++) 26 { 27 sb.Append(targetData[j].ToString("x2")); 28 } 29 sb1.Append(sb.ToString()); 30 } 31 else 32 { 33 sb1.Append(urlEnCodeStr); 34 } 35 } 36 else 37 { 38 sb1.Append(urlEnCodeStr); 39 } 40 } 41 42 Console.WriteLine(sb1.ToString()); 43 44 Console.ReadLine(); 45 }
对于汉字中的生僻字和繁体字问题已经解决了,但是刚刚有跑一下特殊符号又郁闷了。
将上面C#的代码 :if (reg.IsMatch(tempStr)) 改为 if (urlEnCodeStr.Length > 1) 对于GBK中包含的特殊字符都是可以顺利转换的,但是,不是GBK字符符号的转换就没法确认了。
如:符号:“-”
C#转换结果:“-”; Java:“-”
字符:"("
C# 转换结果: "(",而Java跑出来的结果却是"%28",关于这个左括号我查过了,是不属于GBK中的字符,应该也不算特殊字符,应该是直接显示的,像字母和数字以及"-"等字符一样,但就是不知道为什么,Java会转换成"%28"。
关于这个不是GBK的字符,进行转换GBK的问题还有待研究。