JVM的垃圾回收机制

2024-04-03 09:17:06

前言：建议先了解JVM的内存结构才能对垃圾回收有更深的理解，可以移步JVM内存结构

我们都知道：java最大的特点就是实现自动内存管理(自动分配对象,自动垃圾回收)，接下来我们就看看它是怎么回收垃圾的。

一.垃圾回收相关算法

垃圾回收主要有两个阶段: 标记阶段清除阶段

标记阶段：该阶段主要为了判断对象是否存活

对象存活：有指针指向对象(对象还有可用的价值)
对象销毁：没有指针指向对象(对象没有可用的价值)

1.引用计数算法

对每一个对象内部保存一个整数的引用属性，记录对象被引用的次数情况。当对象被任何一个变量引用，次数就+1，当引用失效，次数-1。当次数为0，就表示该对象可以被回收
优点: 实现简单，判断效率高，回收没有延迟性
缺点:
- 需要给对象增加额外的空间开销
- 无法处理循环引用(致命的缺点，导致java没有使用该算法)

但是python使用了该算法，看看它是如何解决这个缺点
- 手动解除引用，在合适的时候，程序员自己手动处理回收
- 使用弱引用，weakref是python专门提供用来解决循环引用的

2.可达性分析算法(根搜索算法，追踪性算法)

它是从GC Roots开始，从上到下根据引用判断是否能链接到目标对象。可以达到目标对象，就不是垃圾；达不到的对象就是垃圾。等待回收
相对于引用计数算法，执行效率就没那么高。但是主要可以解决循环引用的问题

哪些元素可以当作为"GC Roots"？ (面试题)

虚拟机栈中的引用：局部变量，方法参数等
本地方法栈中的引用
静态属性的引用：static
常量的引用：static final
同步监视器synchronized 持有的锁对象
临时性加入的引用：比如分代收集中，只针对于java堆中某一个区域进行回收。该区域的对象也有可能被别的区域的对象的属性引用，对于该区域来说，别的区域的对象的引用也可以作为"GC Roots"。 (比如只对新生代进行回收,但是新生代的一些对象被老年代引用,那么老年代的对象也可以作为GC Roots)

清除阶段：

1.标记-清除(Mark-Sweep)算法

对堆内存从头到尾进行线性的遍历，发现某个对象在其Header中没有标记为可达对象，进行回收
优点: 常见，基础。容易想到
缺点: 执行效率不高会产生内存碎片，需要维护一个空闲列表

扩展；何为清除?

不是真的置空。就是把对象的地址放在一个空闲列表中,这时对象实际还在内存中。只有下次有新的对象进来占用空间时,从空闲列表中找到空闲的地址，直接覆盖原来的数据。

2.复制算法

背景：就是为了解决标记-清除算法效率低的问题
将堆内存分为两块，每次只使用一块。在垃圾回收时，将存活的对象复制到未被使用的内存块中,，并进行整理(放到一端)。然后将使用中内存块中的所有对象都进行清除。重复此过程，完成回收
优点：执行高效，保证复制过去之后空间的连续性，不会出现内存碎片
缺点：需要两倍的空间
特别的: 如果系统的垃圾对象很多，复制算法很理想。因为复制算法需要复制的存活对象不多，效率就快，它适合于存活对象少,垃圾对象多的前提下。所以适用于新生代
应用场景: 新生代的survivor0区和survivor1

3.标记-压缩(Mark-Compact)算法

背景：就是对标记-清除算法的改进，主要为了解决内存碎片的问题。适用于老年代
将堆空间中所有对象压缩到堆内存的一端，按顺序排放。之后，清除边界外所有的空间
优点： (解决了其他两个算法的缺陷)
- 对比标记-清除算法，不会产生内存碎片
- 对比复制算法，消除了内存减半的高额代价
缺点: 从效率上看，低于其他两大算法 (对比标记-清除算法，还得增加整理阶段)

难道就没有一种最优的算法吗?

无，没有最好的算法，只有最适合的算法

综合性算法

1.分代收集算法

让不同生命周期的对象采用不同的收集方式，以便提高回收效率
比如：根据新生代和老年代的特点，分别采用不同的算法
- 年轻代：生命周期短，存活率低，回收频繁。就采用复制算法
- 老年代：生命周期长，存活率高，回收不频繁。就采用标记-清除或者标记-整理

2.增量收集算法

垃圾回收会产生STW，增量收集算法就是每次让垃圾回收只回收一小片区域的内存空间。那么就让应用线程和垃圾回收线程交替执行，尽可能减少暂停时间。
缺点：因为线程来回切换,会使得垃圾回收的总成本上升，造成吞吐量下降

3.分区算法

也是为了减少暂停时间，将堆空间分割为多个小块(region)，每个region单独回收。单独使用。主要是说G1回收器

二.垃圾回收相关概念

对象的finalization机制

垃圾回收器发现对象没有引用指向的时候，就准备回收，但是回收之前，会调用对象的finalize()
所有对象都有该方法，它允许在子类中进行重写，一般用于对象回收之前的资源释放。比如：关闭文件,套接字和数据库链接等

注意:

永远不要主动调用该方法，交给垃圾回收器去调用
该方法只能被执行一次

虚拟机对象的三种状态：由于finalize()方法的存在,虚拟机对象一般处于这三种可能的状态

可触及：对象是可达的
可恢复：没有引用指向该对象，准备被回收，但是也有可能在finalize()中被复活 (可救)
不可触及：对象的finalize()被调用过,没有恢复的可能，直接回收 (不可救)

判断对象是否可回收的过程

经历两次标记

对象不是可达的，进行第一次标记
进行筛选，判断对象是否有必要执行finalize()方法
- 如果对象的finalize()已经被调用过，或者根本没有重写finalze()，没有必要执行，直接判定为不可触及
- 如果对象重写了finalize()并且没有执行过，就会将该对象放入一个队列中。虚拟机自动创建的，优先级低的Finalizer线程就会执行该方法。
- 稍后GC会对上述队列进行第二次标记，如果发现又有引用指向对象，就被移出回收集合中。如果还是没有引用指向，直接判定为不可触及

System.gc()的理解

通过代码调用System.gc()会"显示触发Full GC"
然而System.gc()还附带一个免责声明，无法保证每一次调用都一定会触发Full GC。可能就是性能测试的时候用一用

内存溢出与内存泄露 内存溢出：

就是内存空间不够，报OOM。但是随着GC的一直发展，一般情况下不会出现OOM，除非是应用程序占用的内存增长速度非常快，垃圾回收的已经跟不上内存消耗的速度。
造成OOM的原因:
- java虚拟机的堆内存设置不够
- 代码中创建了大量的大对象，并且长时间不能被垃圾收集器收集(存在被引用)
特别的：一般在报OOM之前就会触发Full GC ，但是有一些情况下也可能不触发。比如一些超大对象.类似一个超大数组超过堆的最大值，JVM可以判断垃圾收集也不能解决这个问题,就直接报OOM

内存泄露：

严格意义上来说，只有对象不会被引用，但是GC又不能回收他们的情况，才叫内存泄露，但是宽泛意义上：虽然经过可达性算法验证后，该对象还是被连着的。但是该对象已经不需要了，或者说没有存在的意义了，也成为内存泄露
内存泄露是可能导致OOM，不是一定会导致OOM
内存泄露的例子：
- 单例模式
  - 单例的生命周期和应用程序是一样长的，所以在单例程序中，如果持有对外部对象的引用的话,，那么这个外部对象是不能被回收的，则会导致内存泄露
- 一些提供close的资源未关闭
  - 数据库连接(connecion)，网络连接(socket)，io连接等。这些都需要手动关闭，否则不能回收
注意：列举循环引用不合适，因为循环引用是在引用计数算法中才会出现。而java是采用可达性算法，根本不会出现循环引用

图示内存泄漏：

Stop The World

当垃圾开始收集的时候，用户线程暂停
具体就是当GC进行可达性算法分析的时候，用户线程暂停
任何的GC，都会发生STW。只能说尽可能缩短暂停时间

垃圾回收器中的并行与并发

串行：暂停其他的线程(主要说其他的垃圾回收线程)，只执行它自己的线程.
并行：在自己的线程执行的过程中，其他的垃圾回收线程也执行 (以上都是说在垃圾线程进行的时候,用户线程处于STW)
并发：在一段时间内，自己的垃圾回收线程执行的过程中，用户线程也在执行(范范的理解)
- 注意：这里的并行是：并行的是多个GC线程，而不是并行用户线程和GC线程。可以这样理解：回收垃圾一定要让当前用户线程暂停，因为得判断啊，就像收拾房间的时候，你也不要再制造垃圾

安全点与安全区域

安全点：

程序执行并不是在所有的地方都可以停下来进行GC，只有在一些特定的位置才能停下来，这些位置就称为安全点。
一般安全点选择在具有让程序长时间执行的特征的位置上, 比如：方法的调用，循环跳转和异常跳转等。

两种方式:

抢先式中断：要发生GC了，来，所有的线程都停啊。看看自己是不在安全点:
- 在，呆在原地别动。
- 不在，你这个线程继续往前跑，跑到你的安全点再停
主动式中断：设置一个中断标志，所有的线程到达自己的安全点后，都看一下中断标志。(jvm采用的机制)
- 如果中断标志亮了，就中断。
- 没亮，继续走。如果一些线程还没到安全点，就继续跑，直到安全点才能判断是否要中断。

安全区域：

刚才所有的程序都可以跑到最近的安全点。然后判断是否安全标志亮了。但是有一些程序，处于休眠/阻塞状态。虽然知道GC要来了，但是没办法继续跑到下一个安全点。
咋办呢？就提出安全区域的概念，就是当程序处于不执行的时候(就是休眠/阻塞状态)，就也当做是安全的。可以进行中断。

java的引用 面试题：强软弱虚引用有什么区别?具体的应用场景是什么?

强引用：不够也不回收，我们写的99%都是强引用。比如: String s = new String（"小猴子"）; 会导致内存溢出
软引用：内存不够就回收，内存够不回收。用于缓存
弱引用：发现就回收
虚引用：追踪对象回收信息(主要就是当虚引用对象被回收的时候，会把虚引用放在一个引用队列中，可以从队列中看到对象回收的信息)

　Object obj =new Object();
  obj = null;  //消除强应用
    
  SoftReference<Object> sf =new SoftReference<Object>(obj);  //实现软引用
  WeakReference<User> uwr = new WeakReference<User>(new User(1,"张三")); //实现弱引用

面试题：开发中使用过WeakHashMap吗?

WeakHashMap，用来存储键值对(k-v)。但是它是软引用，即垃圾回收器执行的时候，就会回收该值，从而消除map中的数据
比较适合做本地，堆内缓存的存储机制，缓存的失效依赖于GC的行为

寄语：这个时代，认知升级远比积累知识重要

码农公寓

相关文章