Java 字符转码之UTF-8转为GBK/GB2312

java跟python类似的做法,在java中字符串的编码是java修改过的一种Unicode编码,所以看到java中的字符串,心理要默念这个东西是java修改过的一种Unicode编码的编码。

package string;

import java.nio.charset.Charset;


public class UTF82GBK {

    public static void main(String[] args) throws Exception {
        //系统的默认编码是GBK
        System.out.println("Default Charset=" + Charset.defaultCharset());
        String t = "hfjkds中国中国中国中国中国中国中国中国中国中国中国中国中国中国中国中国中国中国中国中国hfsdkj<img src='sasa' /> fjldsajflkdsjaflkdsjalf <img src='sada' ait=''/>sfdsfadas";  
        //思路:先转为Unicode,然后转为GBK
        String utf8 = new String(t.getBytes( "UTF-8"));
        //等同于:
//        String utf8 = new String(t.getBytes( "UTF-8"),Charset.defaultCharset());
        
        System.out.println(utf8);  
        String unicode = new String(utf8.getBytes(),"UTF-8");   
        //等同于:
//        String unicode = new String(utf8.getBytes(Charset.defaultCharset()),"UTF-8");   
        System.out.println(unicode);  
        String gbk = new String(unicode.getBytes("GBK"));  
        //等同于:
//        String gbk = new String(unicode.getBytes("GBK"),Charset.defaultCharset());  
          
        System.out.println(gbk);  
    }

}

java string 的 byte中存储的其实 是 unicode 但是需要进行处理

byte[] bytes = s.getBytes();
        for (byte aByte : bytes) {
            System.out.println("byte十进制:" + (256 + (int)aByte) + ";16进制:" + String.format("%08x", (256 + (int)aByte)));
        }
        System.out.println("------------------------");
        byte[] gbks = s.getBytes("GBK");
        for (byte aByte : gbks) {
            System.out.println("GBK-byte十进制 :" + (256 + (int)aByte) + ";16进制:" + String.format("%08x", (256 + (int)aByte)));
        }

------------
byte十进制:228;16进制:000000e4
byte十进制:184;16进制:000000b8
byte十进制:141;16进制:0000008d
------------------------
GBK-byte十进制 :178;16进制:000000b2
GBK-byte十进制 :187;16进制:000000bb

 

上一篇:golden ticket和sliver ticket的区别是什么?


下一篇:FineReport如何连接hadoop,hive,Impala数据库,Kerberos认证