JVM的垃圾回收机制

前言:建议先了解JVM的内存结构才能对垃圾回收有更深的理解,可以移步JVM内存结构

我们都知道:java最大的特点就是实现自动内存管理(自动分配对象,自动垃圾回收),接下来我们就看看它是怎么回收垃圾的。

一.垃圾回收相关算法
垃圾回收主要有两个阶段: 标记阶段 清除阶段
标记阶段:该阶段主要为了判断对象是否存活
  • 对象存活:有指针指向对象(对象还有可用的价值)
  • 对象销毁:没有指针指向对象(对象没有可用的价值)

1.引用计数算法

  • 对每一个对象内部保存一个整数的引用属性,记录对象被引用的次数情况。 当对象被任何一个变量引用,次数就+1,当引用失效,次数-1。当次数为0,就表示该对象可以被回收
  • 优点: 实现简单,判断效率高,回收没有延迟性
  • 缺点:
    • 需要给对象增加额外的空间开销
    • 无法处理循环引用(致命的缺点,导致java没有使用该算法)

JVM的垃圾回收机制

  • 但是python使用了该算法,看看它是如何解决这个缺点
    • 手动解除引用,在合适的时候,程序员自己手动处理回收
    • 使用弱引用,weakref是python专门提供用来解决循环引用的

 2.可达性分析算法(根搜索算法,追踪性算法)

  • 它是从GC Roots开始,从上到下根据引用判断是否能链接到目标对象。 可以达到目标对象,就不是垃圾;达不到的对象就是垃圾。等待回收
  • 相对于引用计数算法,执行效率就没那么高。但是主要可以解决循环引用的问题

哪些元素可以当作为"GC Roots"? (面试题)

  • 虚拟机栈中的引用:局部变量,方法参数等
  • 本地方法栈中的引用
  • 静态属性的引用:static
  • 常量的引用:static final
  • 同步监视器synchronized 持有的锁对象
  • 临时性加入的引用: 比如分代收集中,只针对于java堆中某一个区域进行回收。该区域的对象也有可能被别的区域的对象的属性引用,对于该区域来说,别的区域的对象的引用也可以作为"GC Roots"。 (比如只对新生代进行回收,但是新生代的一些对象被老年代引用,那么老年代的对象也可以作为GC Roots)     

JVM的垃圾回收机制


清除阶段:

 1.标记-清除(Mark-Sweep)算法

  • 对堆内存从头到尾进行线性的遍历,发现某个对象在其Header中没有标记为可达对象,进行回收
  • 优点: 常见,基础。容易想到
  • 缺点: 执行效率不高 会产生内存碎片,需要维护一个空闲列表     
扩展;何为清除?

  • 不是真的置空。就是把对象的地址放在一个空闲列表中,这时对象实际还在内存中。 只有下次有新的对象进来占用空间时,从空闲列表中找到空闲的地址,直接覆盖原来的数据。

2.复制算法

  • 背景:就是为了解决标记-清除算法效率低的问题
  • 将堆内存分为两块,每次只使用一块。在垃圾回收时,将存活的对象复制到未被使用的内存块中,,并进行整理(放到一端)。然后将使用中内存块中的所有对象都进行清除。重复此过程,完成回收
  • 优点:执行高效,保证复制过去之后空间的连续性,不会出现内存碎片
  • 缺点:需要两倍的空间
  • 特别的: 如果系统的垃圾对象很多,复制算法很理想。因为复制算法需要复制的存活对象不多,效率就快,它适合于存活对象少,垃圾对象多的前提下。所以适用于新生代
  • 应用场景: 新生代的survivor0区和survivor1

JVM的垃圾回收机制

3.标记-压缩(Mark-Compact)算法

  • 背景:就是对标记-清除算法的改进,主要为了解决内存碎片的问题。适用于老年代
  • 将堆空间中所有对象压缩到堆内存的一端,按顺序排放。之后,清除边界外所有的空间
  • 优点: (解决了其他两个算法的缺陷)
    • 对比标记-清除算法,不会产生内存碎片
    • 对比复制算法,消除了内存减半的高额代价
  • 缺点: 从效率上看,低于其他两大算法 (对比标记-清除算法,还得增加整理阶段)

JVM的垃圾回收机制

难道就没有一种最优的算法吗?
  • 无,没有最好的算法,只有最适合的算法

综合性算法

1.分代收集算法

  • 让不同生命周期的对象采用不同的收集方式,以便提高回收效率
  • 比如:根据新生代和老年代的特点,分别采用不同的算法
    • 年轻代:生命周期短,存活率低,回收频繁。就采用复制算法
    • 老年代:生命周期长,存活率高,回收不频繁。就采用标记-清除或者标记-整理

2.增量收集算法

  • 垃圾回收会产生STW,增量收集算法就是每次让垃圾回收只回收一小片区域的内存空间。那么就让应用线程和垃圾回收线程交替执行,尽可能减少暂停时间。
  • 缺点:因为线程来回切换,会使得垃圾回收的总成本上升,造成吞吐量下降

3.分区算法

  • 也是为了减少暂停时间,将堆空间分割为多个小块(region),每个region单独回收。单独使用。 主要是说G1回收器

 二.垃圾回收相关概念

对象的finalization机制

  • 垃圾回收器发现对象没有引用指向的时候,就准备回收,但是回收之前,会调用对象的finalize()
  • 所有对象都有该方法,它允许在子类中进行重写,一般用于对象回收之前的资源释放。 比如:关闭文件,套接字和数据库链接等

注意:

  • 永远不要主动调用该方法,交给垃圾回收器去调用
  • 该方法只能被执行一次
虚拟机对象的三种状态:由于finalize()方法的存在,虚拟机对象一般处于这三种可能的状态
  • 可触及:对象是可达的
  • 可恢复:没有引用指向该对象,准备被回收,但是也有可能在finalize()中被复活 (可救)
  • 不可触及:对象的finalize()被调用过,没有恢复的可能,直接回收 (不可救)
判断对象是否可回收的过程

  • 经历两次标记
  1. 对象不是可达的,进行第一次标记
  2. 进行筛选,判断对象是否有必要执行finalize()方法
    • 如果对象的finalize()已经被调用过,或者根本没有重写finalze(),没有必要执行,直接判定为不可触及
    • 如果对象重写了finalize()并且没有执行过,就会将该对象放入一个队列中。虚拟机自动创建的,优先级低的Finalizer线程就会执行该方法。
    • 稍后GC会对上述队列进行第二次标记,如果发现又有引用指向对象,就被移出回收集合中。如果还是没有引用指向,直接判定为不可触及

System.gc()的理解
  • 通过代码调用System.gc()会"显示触发Full GC"
  • 然而System.gc()还附带一个免责声明,无法保证每一次调用都一定会触发Full GC。 可能就是性能测试的时候用一用

内存溢出与内存泄露 内存溢出:
  • 就是内存空间不够,报OOM。但是随着GC的一直发展,一般情况下不会出现OOM,除非是应用程序占用的内存增长速度非常快,垃圾回收的已经跟不上内存消耗的速度。
  • 造成OOM的原因:
    • java虚拟机的堆内存设置不够
    • 代码中创建了大量的大对象,并且长时间不能被垃圾收集器收集(存在被引用)   
  • 特别的:一般在报OOM之前就会触发Full GC ,但是有一些情况下也可能不触发。 比如一些超大对象.类似一个超大数组超过堆的最大值,JVM可以判断垃圾收集也不能解决这个问题,就直接报OOM

内存泄露:

  • 严格意义上来说,只有对象不会被引用,但是GC又不能回收他们的情况,才叫内存泄露,但是宽泛意义上:虽然经过可达性算法验证后,该对象还是被连着的。但是该对象已经不需要了,或者说没有存在的意义了,也成为内存泄露
  • 内存泄露是可能导致OOM,不是一定会导致OOM
  • 内存泄露的例子:
    • 单例模式
      • 单例的生命周期和应用程序是一样长的,所以在单例程序中,如果持有对外部对象的引用的话,,那么这个外部对象是不能被回收的,则会导致内存泄露
    • 一些提供close的资源未关闭
      • 数据库连接(connecion),网络连接(socket),io连接等。这些都需要手动关闭,否则不能回收
  • 注意:列举循环引用不合适,因为循环引用是在引用计数算法中才会出现。 而java是采用可达性算法,根本不会出现循环引用 

图示内存泄漏:

JVM的垃圾回收机制


Stop The World

  •  当垃圾开始收集的时候,用户线程暂停
  • 具体就是当GC进行可达性算法分析的时候,用户线程暂停
  • 任何的GC,都会发生STW。只能说尽可能缩短暂停时间

垃圾回收器中的并行与并发

  • 串行:暂停其他的线程(主要说其他的垃圾回收线程),只执行它自己的线程.
  • 并行:在自己的线程执行的过程中,其他的垃圾回收线程也执行 (以上都是说在垃圾线程进行的时候,用户线程处于STW)
  • 并发:在一段时间内,自己的垃圾回收线程执行的过程中,用户线程也在执行(范范的理解)
    • 注意:这里的并行是:并行的是多个GC线程,而不是并行用户线程和GC线程。 可以这样理解:回收垃圾一定要让当前用户线程暂停,因为得判断啊,就像收拾房间的时候,你也不要再制造垃圾

JVM的垃圾回收机制

 


安全点与安全区域

安全点:

  • 程序执行并不是在所有的地方都可以停下来进行GC,只有在一些特定的位置才能停下来, 这些位置就称为安全点。
  • 一般安全点选择在具有让程序长时间执行的特征的位置上, 比如:方法的调用,循环跳转和异常跳转等。

两种方式:

  • 抢先式中断:要发生GC了,来,所有的线程都停啊。看看自己是不在安全点:
    • 在,呆在原地别动。
    • 不在,你这个线程继续往前跑,跑到你的安全点再停
  • 主动式中断:设置一个中断标志,所有的线程到达自己的安全点后,都看一下中断标志。(jvm采用的机制)
    • 如果中断标志亮了,就中断。
    • 没亮,继续走。 如果一些线程还没到安全点,就继续跑,直到安全点才能判断是否要中断。

安全区域:

  • 刚才所有的程序都可以跑到最近的安全点。然后判断是否安全标志亮了。但是有一些程序, 处于休眠/阻塞状态。虽然知道GC要来了,但是没办法继续跑到下一个安全点。
  • 咋办呢?就提出安全区域的概念,就是当程序处于不执行的时候(就是休眠/阻塞状态),就也当做是安全的。可以进行中断。

java的引用 面试题:强软弱虚引用有什么区别?具体的应用场景是什么?
  • 强引用:不够也不回收,我们写的99%都是强引用。比如: String s = new String("小猴子"); 会导致内存溢出
  • 软引用:内存不够就回收,内存够不回收。用于缓存
  • 弱引用:发现就回收
  • 虚引用:追踪对象回收信息(主要就是当虚引用对象被回收的时候,会把虚引用放在一个引用队列中,可以从队列中看到对象回收的信息)  
 Object obj =new Object();
  obj = null;  //消除强应用
    
  SoftReference<Object> sf =new SoftReference<Object>(obj);  //实现软引用
  WeakReference<User> uwr = new WeakReference<User>(new User(1,"张三")); //实现弱引用

 面试题:开发中使用过WeakHashMap吗?

  • WeakHashMap,用来存储键值对(k-v)。 但是它是软引用,即垃圾回收器执行的时候,就会回收该值,从而消除map中的数据
  • 比较适合做本地,堆内缓存的存储机制,缓存的失效依赖于GC的行为

 

寄语:这个时代,认知升级远比积累知识重要

上一篇:对象到底是怎么new出来的


下一篇:Jvm知识