JDK自带工具native2ascii

背景:在做Java开发的时候,常常会出现一些乱码,或者无法正确识别或读取的文件,比如常见的validator验证用的消息资源(properties)文件就需要进行Unicode重新编码。原因是java默认的编码方式为unicode,而我们的计算机系统编码常常是GBK等编码,需要将系统的编码转换为java正确识别的编码。

native2ascii - Creates localizable applications by converting a file with characters in any supported character encoding to one with ASCII and/or Unicode escapes or vice versa.

native2ascii命令说明:
native2ascii [options] [inputfile] [outputfile]

[options]:

  -reverse:Perform the reverse operation: Converts a file encoded in ISO-8859-1 with Unicode escapes to a file in any character encoding supported by the jre.

  -encoding encoding name:Specifies the name of the character encoding to be used by the conversion procedure.

[inputfile] [outputfile]

  inputfile:The encoded file to be converted to ASCII.
  outputfile:The converted ASCII file.

假设系统的默认编码为UTF-8,有utf-8编码保存的文件zh.txt内容“熔岩”。

A:将zh.txt转换为Unicode编码,输出文件到u.txt
native2ascii zh.txt u.txt
打开u.txt,内容为“\u7194\u5ca9”。

B:将zh.txt转换为Unicode编码,输出到控制台
native2ascii zh.txt
\u7194\u5ca9
可以看到,控制台输出了“\u7194\u5ca9”。

C:将zh.txt转换为ISO8859-1编码,输出文件到i.txt
native2ascii -encoding ISO8859-1 zh.txt i.txt
打开i.txt文件,内容为“\u00e7\u0086\u0094\u00e5\u00b2\u00a9”。

D:将zh.txt转换为gbk编码,输出文件到g.txt
native2ascii -encoding gbk zh.txt g.txt
打开g.txt文件,内容为“\u9414\u65bf\u535a”。

E:将u.txt转换为本地编码,输出到文件u_nv.txt
native2ascii -reverse u.txt u_nv.txt
打开u_nv.txt文件,内容为“熔岩”。

F:将u.txt转换为本地编码,输出到控制台
native2ascii -reverse u.txt
可以看到,控制台输出了“熔岩”。

G:将i.txt转码到本地编码,输出到控制台
native2ascii -reverse -encoding ISO8859-1 i.txt
可以看到,控制台输出了“熔岩”。

H:将g.txt转码到本地编码,输出到控制台
native2ascii -reverse -encoding gbk g.txt
可以看到,控制台输出了“熔岩”。

从这个结果看,目标达到到了,编码i.txt为ISO8859-1,转为本地编码后内容为“熔岩”。

从这里应该意识到:

native2ascii -reverse命令中-encoding指定的编码为源文件的编码格式;而在native2ascii 命令中-encoding指定的编码为(生成的)目标文件的编码格式。

可以看出,native2ascii是一个将本地编码(可显示内容)和码点(code point)互相转化的工具。

上一篇:redmine3.3.3 rake db:migrate 报错invalid byte sequence in US-ASCII (Argument Error) 解决方法


下一篇:Asp.net的生命周期之页生命周期