InputStream类的read()方法是从流里面取出一个字节,他的函数原型是 int read(); ,Reader类的read()方法则是从流里面取出一个字符(一个char),他的函数原型也是 int read(); 。
我们都知道java使用的是UNICODE字符集,在java中字符和字符串都是使用UTF-16BE编码方式,即一个字符两个字节,在内存中高位在低字节,这也是BE的由来,BIG ENDIAN可以理解成大位的在开头,例如一个char的值是0XAC56,那么在内存中的形式就是AC 56,假设0XAC的内存地址为1,那么0X56的内存地址是2。
接下来再分析一下Reader与InputStream两个类中的read()都分别干了什么,InputStream类的read()方法只是简单的从输入流里面取出一个字节,然后返回他的值,Reader类的read()方法则是先判断出输入流使用的是何种编码方式(实际上如果我们不指定编码,则直接使用系统的默认编码作为输入流的编码,在中文Windows系统中默认为GB2312),然后用输入流的编码方式解码出一个字符(输入流的编码方式确定了也就确定了读取一个字符需要取出个字节),取出一个字符后再把这个字符用UTF-16BE编码并返回编码值,这就是read()方法返回的值。
下面写一个小程序就可以证明上面的结论:
1.首先将同一个句话 周宣自然要慷慨表白一番,说得林岱连连点头,贤婿周宣是洪福之人,也只有他才能娶道蕴。 分别以UTF-8和UTF-16BE两种方式保存,用16进制编辑器打开查看:
2.Reader类的read()方法读取以UTF-8编码的txt:
import java.io.*;
class a {
public static void main(String[] s) throws IOException { System.out.println("Reader类的read()方法读取");
FileInputStream fis = new FileInputStream("测试.txt");
InputStreamReader isr = new InputStreamReader(fis, "UTF-8");
//System.out.println(isr.getEncoding());
int ch = 0;
int[] temp = new int[1024];
int i = 0; while ((ch = isr.read()) != -1) {
temp[i++] = ch;
System.out.print((char) ch);
}
System.out.print("\n\n"); System.out.println("每个字符的编码值:");
for (int j = 0; j < i; j++) {
if (j % 8 == 0 && j != 0) {
System.out.print("\n");
}
System.out.printf("%04X ", temp[j]); } }
}
输出结果如下:
Reader类的read()方法读取
周宣自然要慷慨表白一番,说得林岱连连点头,贤婿周宣是洪福之人,也只有他才能娶道蕴。 每个字符的编码值:
5468 5BA3 81EA 7136 8981 6177 6168 8868
767D 4E00 756A FF0C 8BF4 5F97 6797 5CB1
8FDE 8FDE 70B9 5934 FF0C 8D24 5A7F 5468
5BA3 662F 6D2A 798F 4E4B 4EBA FF0C 4E5F
53EA 6709 4ED6 624D 80FD 5A36 9053 8574
3002 000D
可以看到Reader类的read()方法读取的每个char都是UTF-16BE编码保存的。
接下来用InputStream类的read()方法读取UTF-8编码的txt:
import java.io.*;
class b {
public static void main(String[] s) throws IOException {
System.out.println("InputStream类的read()方法读取");
int ch0 = 0, x = 0;
FileInputStream fis = new FileInputStream("测试.txt");
while ((ch0 = fis.read()) != -1) {
if (x++ % 16 == 0 && x != 0) {
System.out.print("\n");
}
System.out.printf("%02X ", ch0);
}
System.out.print("\n\n");
}
}
输出结果如下:
InputStream类的read()方法读取 E5 91 A8 E5 AE A3 E8 87 AA E7 84 B6 E8 A6 81 E6
85 B7 E6 85 A8 E8 A1 A8 E7 99 BD E4 B8 80 E7 95
AA EF BC 8C E8 AF B4 E5 BE 97 E6 9E 97 E5 B2 B1
E8 BF 9E E8 BF 9E E7 82 B9 E5 A4 B4 EF BC 8C E8
B4 A4 E5 A9 BF E5 91 A8 E5 AE A3 E6 98 AF E6 B4
AA E7 A6 8F E4 B9 8B E4 BA BA EF BC 8C E4 B9 9F
E5 8F AA E6 9C 89 E4 BB 96 E6 89 8D E8 83 BD E5
A8 B6 E9 81 93 E8 95 B4 E3 80 82 0D