JVM学习笔记(一)：Java内存区域

2022-03-16 14:18:57

由于Java程序是交由JVM执行的，所以我们在谈Java内存区域划分的时候事实上是指JVM内存区域划分。在讨论JVM内存区域划分之前，先来看一下Java程序具体执行的过程：

首先Java源代码文件(.java后缀)会被Java编译器编译为字节码文件(.class后缀)，然后由JVM中的类加载器加载各个类的字节码文件，加载完毕之后，交由JVM执行引擎执行。在整个程序执行过程中，JVM会用一段空间来存储程序执行期间需要用到的数据和相关信息，这段空间一般被称作为Runtime Data Area（运行时数据区），也就是我们常说的JVM内存。因此，在Java中我们常常说到的内存管理就是针对这段空间进行管理（如何分配和回收内存空间）。

一、运行时数据区域

1. 程序计数器
在汇编语言中，程序计数器是指CPU中的寄存器，它保存的是程序当前执行的指令的地址（也可以说保存下一条指令的所在存储单元的地址），当CPU需要执行指令时，需要从程序计数器中得到当前需要执行的指令所在存储单元的地址，然后根据得到的地址获取到指令，在得到指令之后，程序计数器便自动加1或者根据转移指针得到下一条指令的地址，如此循环，直至执行完所有的指令。
虽然JVM中的程序计数器并不像汇编语言中的程序计数器一样是物理概念上的CPU寄存器，但是JVM中的程序计数器的功能跟汇编语言中的程序计数器的功能在逻辑上是等同的，也就是说是用来指示执行哪条指令的。
jvm中，程序计数器是一块较小的内存空间，它可以看作是当前线程所执行的字节码的行号指示器。在虚拟机的概念模型里，字节码解释器的工作就是通过改变这个计数器的值来选取下一条需要执行的字节码指令。
每个线程都有一个独立的程序计数器
如果线程执行的是非Native方法（Java方法），则程序计数器中保存的是当前需要执行的指令的地址；如果线程执行的是Native方法，则程序计数器中的值是undefined。
由于程序计数器中存储的数据所占空间的大小不会随程序的执行而发生改变，因此，程序计数器不会发生内存溢出现象(OutOfMemory)。

2. 虚拟机栈（又称Java栈）
与程序计数器一样，Java虚拟机栈也是线程私有的，即每个线程都会有一个自己的Java栈（因为每个线程正在执行的方法可能不同），Java虚拟机栈的生命周期与线程相同。虚拟机栈描述的是Java方法执行的内存模型：每个方法在执行的同时都会创建一个栈帧，栈帧用于存储局部变量表、操作数栈、指向当前方法所属的类的运行时常量池的引用、方法返回地址和一些额外的附加信息。
当线程执行一个方法时，就会随之创建一个对应的栈帧，并将建立的栈帧压栈。当方法执行完毕之后，便会将栈帧出栈。因此可知，线程当前执行的方法所对应的栈帧必定位于Java栈的顶部。讲到这里，我们就应该会明白为什么在使用递归方法的时候容易导致栈内存溢出的现象了。
即每一个方法从调用直至执行完成的过程，就对应着一个栈帧在虚拟机栈中入栈到出栈的过程。
经常有人把Java内存区分为堆内存（Heap）和栈内存（Stack），这种分法比较粗糙，Java内存区域的划分实际上远比这复杂。这里所指的“栈”就是虚拟机栈，或者说是虚拟机栈中的局部变量表部分。
下图表示了一个虚拟机栈的模型：

(1). 局部变量表，顾名思义，就是用来存储方法中的局部变量（包括在方法中声明的非静态变量以及函数形参）。对于基本数据类型的变量，则直接存储它的值，对于引用类型的变量，则存的是指向对象的引用。局部变量表的大小在编译期就可以确定其大小了，因此在程序执行期间局部变量表的大小是不会改变的。

八个基本数据类型：byte、short、int、long、float、double、char、boolean

(2). 操作数栈，在数据结构中，栈最典型的一个应用就是用来对表达式求值。想想一个线程执行方法的过程中，实际上就是不断执行语句的过程，而归根到底就是进行计算的过程。因此可以这么说，程序中的所有计算过程都是在借助于操作数栈来完成的。
当一个方法刚刚开始执行的时候，这个方法的操作数栈是空的，在方法的执行过程中，会有各种字节码指令向操作数栈中写入和提取内容，也就是入栈出栈操作。例如，在做算术运算的时候是通过操作数栈来进行的，又或者在调用其他方法的时候是通过操作数栈来进行参数传递的。
举个例子，整数加法的字节码指令iadd在运行的时候要求操作数栈中最接近栈顶的两个元素已经存入了两个int型的数值，当执行这个指令时，会将这两个int值出栈并相加，然后将相加的结果入栈。

(3). 指向运行时常量池的引用，因为在方法执行的过程中有可能需要用到类中的常量，所以必须要有一个引用指向运行时常量。

(4). 方法返回地址，当一个方法执行完毕之后，要返回之前调用它的地方，因此在栈帧中必须保存一个方法返回地址。

3. 本地方法栈
本地方法栈与Java栈的作用和原理非常相似。区别只不过是Java栈是为执行Java方法服务的，而本地方法栈则是为执行本地方法（Native Method）服务的。在JVM规范中，并没有对本地方法栈中方法使用的语言、使用方式以及数据结构作强制规定，虚拟机可以*实现它。在HotSopt虚拟机中直接就把本地方法栈和Java栈合二为一。
与虚拟机栈一样，本地方法栈区域也会抛出*Error和OutOfMemoryError异常。

关于Native方法：
在某些情况下，若Java必须要调用其它语言的代码，如c或C++，就需要使用Native。
Native方法称为本地方法。在Java中以关键字“Native”声明的程序，不提供函数体。其实现使用C/C++语言在另外的文件中编写，编写的规则遵循Java本地接口的规范(简称JNI)。简而言就是Java中声明的可调用使用C/C++实现的方法。
即Native方法就是不由Java实现的方法，一般这些方法都是很底层，跟平台结合紧密，或者使用Java实现性能很差。

4. Java堆
对大多数应用来说，Java堆是Java虚拟机所管理的内存最大的一块。Java堆是被所有线程共享的一块内存区域，在虚拟机启动时创建。此内存区域的唯一目的就是存放对象实例，几乎所有的对象实例都在这里分配内存。
Java堆用来存储对象本身的以及数组（当然，数组引用是存放在Java栈中的）。
Java堆是垃圾收集器管理的主要区域，因此很多时候也被称为“GC堆”。
根据Java虚拟机规范的规定，Java堆可以处于物理上不连续的内存空间，只要逻辑上是连续的即可，就像我们的磁盘空间一样。在实现时，即可以实现成固定大小，也可以是可扩展的，不过当前主流的虚拟机都是按照可扩展来实现的。
如果在堆中没有内存完成实例分配，并且堆也无法再扩展时，将会抛出OutOfMemoryError异常。

5. 方法区
方法区与Java堆一样，是各个线程共享的内存区域。在方法区中，存储了每个类的信息（包括类的名称、方法信息、字段信息）、静态变量、常量、即时编译器编译后的代码等。
在Class文件中除了类的版本、字段、方法、接口等描述信息外，还有一项信息是常量池，用来存储编译期间生成的字面量和符号引用。
在方法区中有一个非常重要的部分就是运行时常量池，它是每一个类或接口的常量池的运行时表示形式，在类和接口被加载到JVM后，对应的运行时常量池就被创建出来。例：存放final修饰的常量
在JVM规范中，没有强制要求方法区必须实现垃圾回收。很多人习惯将方法区称为“永久代”，是因为HotSpot虚拟机以永久代来实现方法区，从而JVM的垃圾收集器可以像管理堆区一样管理这部分区域，从而不需要专门为这部分设计垃圾回收机制。不过自从JDK7之后，Hotspot虚拟机便将字符串常量池从永久代移除了。

例：看下面这段程序，然后画出内存分析图

运行过程分析：
1、首先运行程序，Demo1_car.java就会变为Demo1_car.class，将Demo1_car.class加入方法区，检查是否字节码文件常量池中是否有常量值，如果有，那么就加入运行时常量池

2、遇到main方法，创建一个栈帧，入虚拟机栈，然后开始运行main方法中的程序

3、Car c1 = new Car(); 第一次遇到Car这个类，所以将Car.java编译为Car.class文件，然后加入方法区，跟第一步一样。然后new Car()。就在堆中创建一块区域，用于存放创建出来的实例对象，地址为0X001.其中有两个属性值 color和num。默认值是null 和 0

4、然后通过c1这个引用变量去设置color和num的值，

5、调用run方法，然后会创建一个栈帧，用来装run方法中的局部变量的，入虚拟机栈，run方法中就打印了一句话，结束之后，该栈帧出虚拟机栈。又只剩下main方法这个栈帧了

6、接着又创建了一个Car对象，所以又在堆中开辟了一块内存，之后就是跟之前的步骤一样了。

参考：

JVM的内存区域划分
 java虚拟机内存区域的划分以及作用详解　

二、HotSpot虚拟机对象
(一)、对象的创建
在语言层面上，创建对象通常仅仅是一个new关键字而已，在虚拟机中，对象的创建过程如图：

1. 类加载检查根据new指令的参数在常量池中定位对应类的符号引用
首先检查这个指令的参数是否能在常量池中定位到一个类的符号引用，并且检查这个符号引用代表的类是否已被加载、解析和初始化过。如果没有，那必须先执行相应的类的加载过程。
2. 为新生对象分配内存（分配内存空间的方法：指针碰撞、空闲列表。并发情况下保证线程安全：CAS、TLAB）
对象所需内存的大小在类加载完成后便完全确定，为对象分配空间的任务等同于把一块确定大小的内存从Java堆中划分出来。
(1).根据Java堆中是否规整划分为两种内存的分配方式：（Java堆是否规整由所采用的垃圾收集器是否带有压缩整理功能决定）
a. 指针碰撞(Bump the pointer): Java堆中的内存是绝对规整的，所有用过的内存都放在一边，空闲的内存放在另一边，中间放着一个指针作为分界点的指示器，分配内存也就是把指针向空闲空间那边移动一段与内存大小相等的距离。
b. 空闲列表(Free List): Java堆中的内存不是规整的，已使用的内存和空闲的内存相互交错，就没有办法简单的进行指针碰撞了。虚拟机必须维护一张列表，记录哪些内存块是可用的，在分配的时候从列表中找到一块足够大的空间划分给对象实例，并更新列表上的记录。
(2).分配内存时解决并发问题的两种方案：(可能出现正在给对象A分配内存，指针还没来得及修改，对象B又同时使用了原来的指针来分配内存的情况)
a. 分配内存空间的动作进行同步处理---实际上虚拟机采用CAS配上失败重试的方式保证更新操作的原子性；
b. 把内存分配的动作按照线程划分为在不同的空间之中进行，即每个线程在Java堆中预先分配一小块内存，称为本地线程分配缓冲(TLAB)。哪个线程要分配内存，就在哪个线程的TLAB上分配。只有TLAB用完并分配新的TLAB时，才需要同步锁定。
3. 将分配的内存空间都初始化为零值
虚拟机将分配到的内存空间都初始化为零值（不包括对象头）,如果使用了TLAB，这一工作过程也可以提前至TLAB分配时进行。这一操作保证了对象的实例字段在Java代码中可以不赋初始值就直接使用，程序能访问到这些字段的数据类型所对应的零值。
4. 对对象进行必要的设置，如设置对象头
虚拟机对对象进行必要的设置，例如这个对象是哪个类的实例、如何才能找到类的元数据信息、对象的哈希码、对象的GC分代年龄等信息。这些信息存放在对象的对象头之中。
5. 执行<init>方法，把对象进行初始化
在上面的工作都完成之后，从虚拟机的角度看，一个新的对象已经产生了。但是从Java程序的角度看，对象的创建才刚刚开始，<init>方法还没有执行，所有的字段都还是零。所以，一般来说，执行new指令之后会接着执行<init>方法，把对象按照程序员的意愿进行初始化，这样一个真正可用的对象才算产生出来。

(二)、对象的内存布局
对象在内存中存储的布局可以分为3块区域：对象头、实例数据、对齐填充
对象头：
第一部分存储对象自身的运行时数据，如哈希码、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等
第二部分存储类型指针，即对象指向它的类元数据的指针，虚拟机通过这个指针来确定这个对象是哪个类的实例。如果对象是一个java数组，那么对象头中还必须有一块用于记录数组长度的数据。

实例数据：
实例数据部分是对象真正存储的有效信息，也是程序代码中所定义的各种类型的字段内容。无论是从父类中继承下来的，还是在子类中定义的，都需要记录下来。

对齐填充：
对齐填充并不是必然存在的，也没有特定的含义，仅仅起着占位符的作用。由于HotSpot虚拟机的自动内存管理系统要求对象的起始地址必须是8字节的整数倍，也就是对象的大小必须是8字节的整数倍。而对象头部分正好是8字节的倍数（1倍或者2倍），因此，当对象实例数据部分没有对齐的时候，就需要通过对齐填充来补全。

(三)、对象的访问定位
对象的访问方式取决于虚拟机实现，目前主流的访问方式有使用句柄和直接指针两种。
1. 使用句柄
如果使用句柄的话，那么Java堆中将会划分出一块内存来作为句柄池，引用中存储的就是对象的句柄地址，而句柄中包含了对象实例数据与类型数据各自的具体地址信息。

2. 直接指针
如果使用直接指针访问，那么Java堆对象的布局中就必须考虑如何放置访问类型数据的相关信息，而引用中存储的直接就是对象地址。

使用句柄访问的优势在于引用中存储的是稳定的句柄地址，在对象被移动(垃圾收集时移动对象是非常普遍的行为)时只会改变句柄中的实例数据指针，而引用本身不需要修改。
使用直接指针访问的优势在于速度更快，节省了一次指针定位的时间开销。由于对象的访问在Java中非常频繁，因此这类开销积少成多后也是非常可观的执行成本。

关于对象类型数据，因为的存储在方法区中，因此我的理解就是被虚拟机加载的类信息

主要来自：

《深入理解java虚拟机 JVM高级特性与最佳实践》

码农公寓

相关文章