Class文件是一组以8位字节为基础单位的二进制流,各个数据项严格按顺序排列,没有任何分隔符。Class文件格式采用一种类似于C语言结构体的伪结构来存储数据,这种伪结构只有两种数据类型:无符号数和表。
我们可以使用一些软件来查看classfile
Sublime_Text 软件
IDEA 插件 Bined
我们可以使用一些软件来查看classfile
无符号数:是基本数据类型,以u1、u2、u4、u8分别代表1个字节、2个字节、4个字节、8个字节的无符号数,可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成的字符串值。
表:由多个无符号数或者其他表作为数据项构成的复合数据类型,所有表都习惯性地以“_info”结尾。整个Class文件本质上就是一张表,如下所示:
魔数
1 .每一个class文件的头4个字节 被称为魔数 magicNumber
2 . 唯一作用是用于确定这个文件是否为一个能被虚拟机接受的class文件
- Class文件魔数值为0xCAFEBABE 如果以个文件不是以CAFEBABE开头,那么它就肯定不是java的class文件。
那么它也是java.class的识别魔数。
很多的文件存储标准中都使用魔数来识别文件的身份。 譬如图片格式.gif 或 jpeg等在文件的头部都存有魔数,使用魔数而不是文件的扩展名称来判断 ,这种情况是处于安全的考虑。
class文件版本号
紧挨着魔数的4个字节表示class的文件的版本号 版本号:
- 次版本号 --minor_version 前2个字节用于表示次版本号
例如:00 00
- 主版本号 --major_version 后2个字节用于表示主版本号
例如: 00 34
这个版本号随着jdk版本的不同而表示不同版本的范围。Java的版本号是从45开始的
如果class的版本号超过虚拟机的版本 会被拒绝执行。
JDK1.2 ----0X002E 46
JDK1.3 ----0X002F 47
JDK1.4 ----0X0030 48
JDK1.5 ----0X0031 49
JDK1.6 ----0X0032 50
JDK1.7 ----0X0033 51
JDK1.8 ----0X0034 52
常量池
CONSTANT_POOL_COUNT和CONSTANT_POOL
紧跟着魔数与版本号之后的是常量池入口,常量池简单理解为class文件的资源库。
- 它是class文件结构中与其他项目关联最多的数据类型
- 是占用class文件空间最大的数据项目之一
- 是在文件中第一个出现的表类型数据项目。
常量池的数量是不固定,所以在常量池的入口需要放置一个u2类型的数据,代表常量池的计数值CONSTANT_POOL_COUNT。
CONSTANT_POOL_COUNT 从1开始计数的。 class文件结构中只有常量池的容量计数是从1开始的。第0项腾出来满足后面某些指向常量池的索引值的数据,在特定的情况下需要表达“不引用任何一个常量池项目” 把索引值的第0项留给JVM自己用。
CONSTANT_POOL是没有索引值为0的入口的,但是在CONSTANT_POOL_COUNT缺失的第0项也是要被计算在内的。
比如CONSTANT_POOL 中有14项 那么CONSTANT_POOL_COUNT的数值就是15
常量池中主要存放两大类常量:
- 字面量: 比较接近java语言层面的常量的概念 比如 字符串 被final关键字声明的常量值。
- 符号引用: 属于编译原理方面的概念 包括三项。
- 类和接口的全名
- 字段的名称和描述符
- 方法的名称和描述符
在加载class文件的时候 是进行动态连接的。在class文件中不会保存各个方法和字段的最终内存布局信息。(需要经过转换) 当虚拟机运行时 需要从常量池获得对应的符号引用,再在类创建时或者运行时解析并翻译到具体的内存地址中。
CONSTANT_POOL_COUNT 占2个字节 本例中为0x20 转换成十进制为32 说明常量池中有31个常量 ----从1开始计数 其他集合类型均从0开始。 索引值为1-31 第0项常量具有特殊意义。
CONSTANT_POOL 表示的是类型数据集合,在该常量池中,每一项常量都是一个表 共有14种 -----JDK1.7版本,这14种结构的表都是不相同的结构数据。14个表都有一共同的特点,都是由u1的标志位开始的,可以通过这个标志位来判断这个常量属于哪种常量的类型。
access_flag
用于表示对该类或接口的访问权限以及该类或接口的属性
this_class
该this_class 项目的值 必须是constant_pool表中的有效索引,该constant_pool索引处的条目必须是表示此文件定义的类或接口 CONSTANT_Class_info 结构class
super_class
必须是constant_pool表中的有效索引, 如果super_class的值不为0 则constant_pool中的条目必须为CONSTANT_Class_info 结构 这个结构表示此类的文件定义的类的直接超类。直接超类不能在其classfile结构的access_flag项中设置 ACC_FINAL 标志。
其实要描述的意思就是说 如果superclass指代的超类,那么它就不能被final修饰。
常量池详细解析常量类型
总共有18个编号的常量类型。
编号1: CONSTANT_UTF8_INFO
TAG1 ------占用一个空间字节
Length: utf-8字符串占用的字节数
Bytes 长度为length字符串
用于表示utf-8的编码的字符串
编号3 CONSTANT_integer_info
Tag3
Bytes 4个字节 Big_Endian(高位在前) 存储int类型的值
编号4 CONSTANT_float_info
Tag4
Bytes 4个字节 Big_Endian(高位在前) 存储float类型的值
编号5 CONSTANT_long_info
Tag5
Bytes 8个字节 Big_Endian(高位在前) 存储long类型的值
编号6 CONSTANT_double_info
Tag6
Bytes 8个字节 Big_Endian(高位在前) 存储double类型的值
编号7 CONSTANT_Class_info
Tag7
Index 2个字节 指向类的全限定名的项的索引
类和接口符号引用
编号8 CONSTANT_String_info
Tag8
Index 2个字节 指向字符串的字面量的索引
编号9 CONSTANT_Fieldref_info
Tag9
Index 2个字节 指向声明字段的类或接口的描述符 CONSTANT_Class_info的索引项
Index 2个字节 指向字段描述符CONSTANT_NameAndType的索引项
字段的符号引用
编号10 CONSTANT_Methodref_info
Tag10
Index 2个字节 指向声明字段的类或接口的描述符 CONSTANT_Class_info的索引项
Index 2个字节 指向字段描述符CONSTANT_NameAndType的索引项
类中方法的符号引用
编号11 CONSTANT_InterfaceMethodref_info
Tag11
Index 2个字节 指向声明字段的类或接口的描述符 CONSTANT_Class_info的索引项
Index 2个字节 指向字段描述符CONSTANT_NameAndType的索引项
接口中方法的符号引用
编号12 CONSTANT_NameAndType
Tag12
Index 2个字节 指向该字段或方法名称常量项的索引
Index 2个字节 指向该字段或方法描述符常量项的索引
字段或方法的符号引用
编号15 CONSTANT_MethodHandler_info
Tag15
Reference_kind 1个字节 1-9之间的一个值 决定了方法句柄的类型。方法句柄类型的值表示方法句柄的字节码行为
Reference_index 2个字节 对常量池的有效索引。
表示方法句柄
编号16 CONSTANT_MethodType_info
Tag16
Descriptor_index 2个字节 指向UTF8_info 结构表示的方法描述符
编号18CONSTANT_InvokeDynamic_info
Tag18
Bootstrap_method_attr_index: 2个字节 当前class文件中引导方法表的bootstrap_methods[] 数组的有效索引
Name_and_type_index: 2个字节 指向NameAndType_info 表示方法名和方法描述符。
表示动态方法的调用点。
整个常量池在classfile中是如何表示的
cafe babe 0000 0034 0020 0a00 0500 1309
0014 0015 0a00 1600 1707 0018 0700 1901
0006 3c69 6e69 743e 0100 0328 2956 0100
0443 6f64 6501 000f 4c69 6e65 4e75 6d62
6572 5461 626c 6501 0012 4c6f 6361 6c56
6172 6961 626c 6554 6162 6c65 0100 0474
常量池的第一行
从0a00 那么0a对应的是十进制的10 这个10映射到常量表中的Tag10的标志 CONSTANT_Methodref_info;
0005 表示 index 2个字节 指向声明方法的类或接口的描述符#5 CONSTANT_Class_info的索引项。指向#5行的内容。
0013 13 转成十进制是19 指向#19行的内容是,表示的index2个字节 指向字段描述符CONSTANT_NameAndType_info的索引项
那么以上的常量池是5个字节。
常量池的第二行
从09 开始 09对应的是十进制9 这个9映射到Tag9的标志
CONSTANT_Fieldref_info;
0014 对应的十进制是20 对应的#20的内容
0015 对应十进制是21 对应的就是#21的内容
常量池的第三行
从0a开始那么0a对应的是十进制的10 这个10映射到常量表中的Tag10的标志 CONSTANT_Methodref_info;
0016 ----十进制22 对应#22行的内容
0017 ----十进制23 对应的#23行的内容
常量池的第四行
从07开始 对应的tag7 CONSTANT_Class_info
0018 ---- 十进制24 对应着#24的内容 表示的是this_class
常量池的第五行
从07开始 对应的tag7 CONSTANT_Class_info
0019 ---- 十进制25 对应着#25的内容 表示的是super_class
常量池中第六行
01 ----CONSTANT_UTF8_INFO
0006 表示占用的字节数和长度
3c69 6e69 743e 表示字符串内容的字节。init字符串的构造方法
这段总共是9个字节。
常量池的第七行
01 ----CONSTANT_UTF8_INFO
0003 表示常量池第七个常量的字符串长度占用的字节
28 2956 表示 ()V构造方法 V表示无返回值
这段总共6个字节。
Method属性
Method属性包含三个字段值
名称access_flag 类型u2 数量1个attributes_count 1
名称 name_index 类型u2 数量1个 attribute_info attributes ----attributes_count
名称 descriptior_index 类型u2 数量1个
descriptior_index
- 参数列表(参数类型) 后-返回值
- void m() 等同于 ()V
- String toString() ->()Ljava/lang/String;
- Long pos(int[] arr1,int arr2,long length) ->([IIJ)J
[ 一维数组
[[ 表示二维数组
关于attributes_count 附加属性的数量
关于 attributes 附加属性
常量池的第八行
01 ----CONSTANT_UTF8_INFO
0004 表示常量池第八个常量的字符串长度占用的字节
43 6f 64 65 表示 code字符串内容
这段总共是7个字节
Fields属性
名称access_flag 类型u2 数量1个attributes_count 1
同method属性
名称 name_index 类型u2 数量1个 attribute_info attributes ----attributes_count
名称 descriptior_index 类型u2 数量1个
同method属性值。
关于attributes_count 附加属性的数量
关于 attributes 附加属性
第9个常量池LineNumberTable 是在后面要使用的常量的名字,在code当中被引用到。
第10号常量池LocalVariableTable是在后面要使用的常量的名字,在code当中被引用到。
第11个常量池 指向的字符串面值this
第十二个常量池 表示整个类的类名称
第13个常量池内容 表示的是main方法的字符串名称
第14个常量池内容 表示的是main方法中的参数 字符串数组 无返回值
第15个常量池 main方法的参数名称的字符串字面量
第16个常量池 mian方法中参数类型的字符串字面量值
第17个常量池 SourceFile 对应后面的附加属性的SourceFile 表示的是源文件的索引
第18个常量池内容 表示的是源文件的名称的字符串字面值
第19个常量池 CONSTANT_NameAndType_info 对应6号常量池构造方法的名字和7号常量池 方法的参数和返回值
第20个常量池 CONSTANT_Class_info 对应的System类 对应了26号常量池的System的字面值
第21号常量池 CONSTANT_NameAndType_info 对应的是27号常量池 out字面值属性的名称,对应了28号常量池的PrintStream的类的字符串字面值。
从22号开始到31号,按照字面意思去理解就可以了。
2.2.9 interfaces 和Fields选项 method选项
因为在我们案例中没有声明接口和成员变量,所以对应没有展开选项的。
因为有两个method
- init 无参的构造方法 ---默认提供的构造方法
- 主函数main
方法中的access_flag
2.2.10 attributes_count 和attribute
附加属性 方法中的附加属性就是code,那么code在这里是比较重要的概念,code是具体代码的实现,当我们写入方法的时候,它能够把方法中代码转化为一条条指令。
在官方文档中,我们可以看到很多十六进制的数字,那么它们对应方法中code的内容实现。
也可以鼠标右键点击
从本地变量表中第0项 放入到栈空间中。
Attributes附加属性
附加属性中 有的代码中存在内容,有的不存在内容
- 既有预定义的属性,也可以自定义 java虚拟机会自动忽略它不认识属性
- Code 表示的是方法表 方法表能够编译成字节码指令,还存放了操作数栈和局部变量的信息。
u2 attribute_name_index 指向常量池中的CONSTANT_UTF8_info 存放的当前属性的名字就是code。
u4 attribute_length 表示的code属性的长度 (不包括前6个字节)。
u2 max_stack 指定当前方法被执行引擎执行的时候,在栈帧中需要分配的操作数栈的大小
u2 max_locals 指定当前方法被执行引擎执行的时候,在栈帧中需要分配的局部变量表的大小
u4 code_length 指定方法字节码的长度, class文件中每条字节码都占用一个字节
u1 code 存放字节码指令本身,它的长度是code_length个字节。
U2 exception_table_length指定异常表的大小
Exception_table异常表 作用对try-catch-finally的描述,可以把它看成是一个数组。每一个数组项都是一个exception_info结构, 一般来说每个catch块对应一个exception_info,编译器也可能会对当前的方法生成一些exception_info.
U2 start_pc 是从字节码code属性中的一部分 起始处到当前异常处理器的起始处的偏移量量
u2 end_pc 从字节码起始处到当前异常处理器 末尾的偏移量
u2 handler_pc 是指当前异常处理器用于处理异常(即catch块)的第一条指令相对于字节码开始处的偏移量。
U2 catch_type 是常量池的索引 指向的是常量池CONSTANT-Class_info 数据项,描述了catch块中的异常类型的信息。这个类必须是java.lang.Throwable的或者是它的子类。
总结:
如果偏移量从start_pc到end_pc之间,如果字节码出现了catch_type所描述的异常,那么就跳转偏移量到handler_pc的字节码中去执行。如果catch_type 为0 就代表不引用任何常量池的信息,那么这个exception_info 用于实现finally的子句。
U2 attribute_count 表示的是code属性中存在的其他属性的个数。会出现在 class中的属性,在field属性也有,在method属性也有
Attributes 可以把它看成是个数组,里面存放了code属性的其他属性。
ConstantValue ----字段表 final关键字自定义的常量值
Deprecated ---类 方法表 字段表
Exception 异常表
EnclosingMethod 类文件 局部类或匿名类的外部封装方法
InnerClass 类文件 内部类列表
可选属性
LineNumberTable 源码的行号和字节码行号的对应关系 可以把这个属性看成是一个数组,
数组中的每项LineNumberinfo结构描述了一条字节码和源码行号的对应关系
LocalVariableTable 建立了方法中的局部变量与源代码中的局部变量的对应关系。