初探JAVA代码在虚拟机中的运行机制

前言

从这篇文章开始,后面我们将持续介绍JAVA虚拟机的工作原理。作为一名Android程序员,我们都知道Java代码有很多种运行方式,比如:可以在命令行中运行,可以在开发工具中运行,可以以jar文件的形式运行,甚至可以在网页中运行。这些执行的方式都离不开JRE(Java Runtime Environment) 即Java运行时环境。
我们平时开发之前搭建环境安装的JDK里面也有JRE,下面这张图片中我们可以看出JRE包含Java虚拟机和Java的一些核心组件库。
初探JAVA代码在虚拟机中的运行机制

什么是JAVA虚拟机

我们常说我们写的代码是在JAVA虚拟机上运行的,到底什么是Java虚拟机昵?

JAVA虚拟机是一种抽象化的计算机,通过在实际的计算机上仿真模拟各种计算功能来实现的。Java虚拟机有自己完善的硬件架构,如处理器、堆栈、寄存器等,还有相应的指令系统。JVM屏蔽了与具体操作系统平台的相关信息,使得Java程序只需生成在Java虚拟机上运行的目标代码(字节码),就可以在各种平台上不加修改的运行。

这么说固然没有毛病,但是感觉有些笼统,感觉这篇文章中写的不错:

深入理解Java虚拟机到底是什么

JAVA为什么要在虚拟机里运行

Java是一门语法复杂,抽象程度很高的高级程序语言。因此,直接在硬件设备上运行Java语言并不可行。所以,在运行Java之前我们要将Java语言进行转换。
将它转换成硬件能够识别的语言,目前这种转换的主流思想是:设计一个面向Java语言特性的虚拟机,并通过编译器将Java程序转换为该虚拟机所能识别的指令序列,也就是Java字节码。之所以叫Java字节码是因为Java字节码指令的操作码(opcode)被固定为一个字节。
我们写一个简单的HelloWorld.java的程序,编译成字节码就是下面图中的中间一列,可以看到它是由一个个字节组成的。并且我们可以将其反汇编为人类可读的代码格式。相对于C语言来说Java版本的反汇编结果相对比较精简,这是因为Java虚拟机相对于物理机而言,抽象程度更高。

# 最左列是偏移|中间列给虚拟机读的机器码|最右列是给人读的代码
0x00: b2 00 02     getstatic java.lang.System.out
0x03: 12 03        ldc 'Hello, World!'
0x05: b6 00 04     invokevirtual java.io.PrintStream.println
0x08: b1           return

Java虚拟机可以由硬件实现,但更为常见的是在各个现有平台(WINDOWS_x64,Linux_aarch64)上提供软件实现。这么做的意义在于,一旦一个程序被转换为JAVA字节码,那么它便可以在不同平台上的虚拟机实现里运行。这就是所谓的“一次编写,到处运行”。

虚拟机的另一个好处是它带来了托管环境(Managed Runtime)。这个托管环境能够代替我们处理一些代码中冗长而且容易出错的部分。其中最广为人知的当属于自动内存管理和垃圾回收,这部分内容催生了一波垃圾回收调优的业务。

除此之外,托管环境还提供了诸如数组越界,动态类型,安全权限等的动态检测,使我们免于书写这些与业务无关的代码。

JAVA虚拟机具体怎么运行Java字节码

下面以标准JDK中的HotSpot虚拟机为例,从虚拟机以及底层硬件两个角度,探索Java具体怎么运行Java字节码的。

虚拟机角度

从虚拟机角度来讲,执行Java代码首先要将.java文件编译成class文件加载到Java虚拟机中。加载后的Java类会被存放于方法区(Method Area)中。实际运行时,虚拟机会执行方法区内的代码。这和段式内存管理中的代码段类似。Java虚拟机也在内存中划分出堆和栈来存储运行时数据。
不同的是,Java虚拟机会将栈细分为Java方法栈和本地方法栈,以及存放各个线程执行位置的PC寄存器。
初探JAVA代码在虚拟机中的运行机制
在运行过程中,每当调用一个java方法时,Java虚拟机会在当前县城的Java方法栈中生成一个栈帧,用来存放局部变量及字节码的操作数。这个栈帧的大小时提前计算好的,而且Java虚拟机不要求栈帧在内存里连续分布。

当退出当前执行的方法时,不管是正常返回还是异常返回,Java虚拟机均会弹出当前线程的当前栈帧,并将之舍弃。

硬件角度

从硬件角度来看,Java字节码无法直接执行,所以Java虚拟机需要将字节码翻译成机器码。
在HotSpot里面,上述翻译过程有两种形式:第一种是解释执行,即逐条将字节码翻译成机器码并执行;第二种是即使编译(Just-In-Time compliation ,JIT)即将一个方法中所有的字节码翻译成机器码后再执行。
初探JAVA代码在虚拟机中的运行机制
前者的优势在于无需等待编译,而后者的优势在于实际运行速度更快。HotSpot默认采用的是混合模式,综合了解释执行和即时编译两者的优点。它会先解释执行字节码,而后将其中反复执行的热点代码以方法为单位进行即时编译。

JAVA虚拟机的运行效率

HotSpot虚拟机采用了多种技术来提升启动性能以及峰值性能,前面所说的即时编译就是最重要的技术之一。即时编译建立在程序符合二八定律的假设上(就是程序中20%的代码占据80%的资源)。对于占据大部分的不常用的代码,我们就不需要花费时间将其编译成机器码,而是采用解释执行的方式执行;另一方面占据小部分的最常用到的代码,我们采用即时编译将其编译为机器码,来达到理想的运行速度。

从理论上来讲,即时编译后的Java程序的执行效率是可能超过C++程序的。这是由于与静态编译相比,即时编译拥有程序的运行时信息,并且能够根据这个信息作出相应的调优。举个例子,我们都知道虚方法是用来实现面向对象语言多态性的。对于一个虚方法调用,尽管他有很多个目标方法,但在实际运行过程中可能只调用其中的一个。这个信息可以被即时编译利用从而减小虚方法调用的开销,从而达到比静态编译的C++程序更高的性能。

为了满足用户在不同场景的需要,HotSpot内置了多个即时编译器:C1、C2和Graal。Graal是Java10引入的实验性即时编译器。为什么会引入这么多编译器,就是为了在编译时间和生成代码的执行效率之间取舍。

  1. C1编译器叫做Client编译器,主要面向的是对启动性能有要求的客户端GUI程序,采用的优化方案简单,因此编译时间较短。
  2. C2又叫Server编译器,面向的是对峰值性能有要求的服务器端程序,优化手段相对比较复杂,所以编译时间较长,但是相对来说编译生成的代码执行效率高。

从JAVA7开始,HotSpot采用分层编译的方式:热点方法首先会被C1编译,而后热点中的热点会进一步被C2编译。为了不干扰应用的正常运行,HotSpot的即时编译放在额外的编译线程中进行的,HotSpot会根据CPU的数量设置编译线程的数目,并且按照1:2的比例配置分配给C1和C2。在计算资源充足的情况下,字节码的解释执行和即时编译可同时进行。编译完成后机器码会在下次调用该方法时启用,以代替原本的解释执行。

小结

前面提到几个问题:

1. Java代码为什么要在虚拟机中运行?

因为Java提供了可移植性,一旦Java代码被编译为Java字节码,就可以在不同平台上的Java虚拟机实现上运行。此外处理机还提供了一托管环境,帮我们处理一些冗长而且容易出错的事物,如内存管理等。

2. Java代码如何在虚拟机中运行?

Java虚拟机将内存分为5个部分方法区,堆,Java方法栈,本地方法栈,PC寄存器。Java代码编译生成的class文件,首先需要加载到方法区中,然后才能在Java虚拟机中运行。

3. Java虚拟机的效率怎么样?

1、理论上讲,Java虚拟机的执行效率可能高于C++程序。
2、为了提高运行效率,标准JDK中HotSpot虚拟机采用混合执行的策略。它会解释执行Java字节码,将其中反复执行的热点代码以方法为单位进行即时编译,翻译成机器码后直接运行在底层硬件上。
3、HotSpot装载了多个不同的即时编译器,以便在编译时间和生成代码的执行效率之间取舍。

感谢

深入拆解JAVA虚拟机–郑雨迪

上一篇:Android自定义无压缩加载超清大图


下一篇:Android学习--深入探索RemoteViews