首先,以java为例,说下gc的有向图回收机制
1 引言
Java的一个重要优点就是通过垃圾收集器GC
(Garbage Collection)自动管理内存的回收,程序员不需要通过调用函数来释放内存。因此,很多程序员认为Java
不存在内存泄漏问题,或者认为即使有内存泄漏也不是程序的责任,而是GC 或JVM的问题。其实,这种想法是不正确的,因为Java
也存在内存泄漏,但它的表现与C++不同。如果正在开发的Java 代码要全天24
小时在服务器上运行,则内存漏洞在此处的影响就比在配置实用程序中的影响要大得多,即使最小的漏洞也会导致JVM耗尽全部可用内存。另外,在很多嵌入式系统中,内存的总量非常有限。在相反的情况下,即便程序的生存期较短,如果存在分配大量临时对象(或者若干吞噬大量内存的对象)的任何Java
代码,而且当不再需要这些对象时也没有取消对它们的引用,则仍然可能达到内存极限。
2 Java
内存回收机制
Java
的内存管理就是对象的分配和释放问题。分配内存的方式多种多样,取决于该种语言的语法结构。但不论是哪一种语言的内存分配方式,最后都要返回所分配的内存块的起始地址,即返回一个指针到内存块的首地址。在Java
中所有对象都是在堆(Heap)中分配的,对象的创建通常都是采用new或者是反射的方式,但对象释放却有直接的手段,所以对象的回收都是由Java虚拟机通过垃圾收集器去完成的。这种收支两条线的方法确实简化了程序员的工作,但同时也加重了JVM的工作,这也是Java
程序运行速度较慢的原因之一。因为,GC 为了能够正确释放对象,GC 必须监控每一个对象的运行状态,包括对象的申请、引用、被引用、赋值等,GC
都需要进行监控。监视对象状态是为了更加准确地、及时地释放对象,而释放对象的根本原则就是该对象不再被引用。Java
使用有向图的方式进行内存管理,可以消除引用循环的问题,例如有三个对象,相互引用,只要它们和根进程不可达,那么GC
也是可以回收它们的。在Java
语言中,判断一块内存空间是否符合垃圾收集器收集标准的标准只有两个:一个是给对象赋予了空值null,以下再没有调用过,另一个是给对象赋予了新值,即重新分配了内存空间。
3
Java 中的内存泄漏
3.1 Java
中内存泄漏与C++的区别
在Java
中,内存泄漏就是存在一些被分配的对象,这些对象有下面两个特点,首先,这些对象是可达的,即在有向图中,存在通路可以与其相连;其次,这些对象是无用的,即程序以后不会再使用这些对象。如果对象满足这两个条件,这些对象就可以判定为Java
中的内存泄漏,这些对象不会被GC
所回收,然而它却占用内存。在C++中,内存泄漏的范围更大一些。有些对象被分配了内存空间,然后却不可达,由于C++中没有GC,这些内存将永远收不回来。在Java
中,这些不可达的对象都由GC 负责回收,因此程序员不需要考虑这部分的内存泄漏。通过分析,可以得知,对于C++,程序员需要自己管理边和顶点,而对于Java
程序员只需要管理边就可以了(不需要管理顶点
的释放)。通过这种方式,Java
提高了编程的效率。
3.2 内存泄漏示例
3.2.1
示例1
在这个例子中,循环申请Object 对象,并将所申请的对象放入一个Vector
中,如果仅仅释放引用本身,那么Vector 仍然引用该对象,所以这个对象对GC 来说是不可回收的。因此,如果对象加入到Vector 后,还必须从Vector
中删除,最简单的方法就是将Vector对象设置为null。
Vector v = new
Vector(10);
for (int i = 1; i<100;
i++)
{Object o = new
Object();
v.add(o);
o =
null;
}//
此时,所有的Object 对象都没有被释放,因为变量v
引用这些对象。实际上无用,而还被引用的对象,GC 就无能为力了(事实上GC
认为它还有用),这一点是导致内存泄漏最重要的原因。
(1)如果要释放对象,就必须使其的引用记数为0,只有那些不再被引用的对象才能被释放,这个原理很简单,但是很重要,是导致内存泄漏的基本原因,也是解决内存泄漏方法的宗旨;
(2)程序员无须管理对象空间具体的分配和释放过程,但必须要关注被释放对象的引用记数是否为0;
(3)一个对象可能被其他对象引用的过程的几种:
a.直接赋值,如上例中的A.a
= E;
b.通过参数传递,例如public void addObject(Object
E);
c.其它一些情况如系统调用等。
3.3
容易引起内存泄漏的几大原因
3.3.1
静态集合类
像HashMap、Vector
等静态集合类的使用最容易引起内存泄漏,因为这些静态变量的生命周期与应用程序一致,如示例1,如果该Vector
是静态的,那么它将一直存在,而其中所有的Object对象也不能被释放,因为它们也将一直被该Vector 引用着。
3.3.2
监听器
在java
编程中,我们都需要和监听器打交道,通常一个应用当中会用到很多监听器,我们会调用一个控件的诸如addXXXListener()等方法来增加监听器,但往往在释放对象的时候却没有记住去删除这些监听器,从而增加了内存泄漏的机会。
3.3.3
物理连接
一些物理连接,比如数据库连接和网络连接,除非其显式的关闭了连接,否则是不会自动被GC 回收的。Java
数据库连接一般用DataSource.getConnection()来创建,当不再使用时必须用Close()方法来释放,因为这些连接是独立于JVM的。对于Resultset
和Statement 对象可以不进行显式回收,但Connection 一定要显式回收,因为Connection
在任何时候都无法自动回收,而Connection一旦回收,Resultset 和Statement
对象就会立即为NULL。但是如果使用连接池,情况就不一样了,除了要显式地关闭连接,还必须显式地关闭Resultset Statement
对象(关闭其中一个,另外一个也会关闭),否则就会造成大量的Statement
对象无法释放,从而引起内存泄漏。
3.3.4
内部类和外部模块等的引用
内部类的引用是比较容易遗忘的一种,而且一旦没释放可能导致一系列的后继类对象没有释放。对于程序员而言,自己的程序很清楚,如果发现内存泄漏,自己对这些对象的引用可以很快定位并解决,但是现在的应用软件并非一个人实现,模块化的思想在现代软件中非常明显,所以程序员要小心外部模块不经意的引用,例如程序员A
负责A 模块,调用了B 模块的一个方法如:public void registerMsg(Object
b);这种调用就要非常小心了,传入了一个对象,很可能模块B就保持了对该对象的引用,这时候就需要注意模块B
是否提供相应的操作去除引用。
4
预防和检测内存漏洞
在了解了引起内存泄漏的一些原因后,应该尽可能地避免和发现内存泄漏。
(1)好的编码习惯。最基本的建议就是尽早释放无用对象的引用,大多数程序员在使用临时变量的时候,都是让引用变量在退出活动域后,自动设置为null。在使用这种方式时候,必须特别注意一些复杂的对象图,例如数组、列、树、图等,这些对象之间有相互引用关系较为复杂。对于这类对象,GC
回收它们一般效率较低。如果程序允许,尽早将不用的引用对象赋为null。另外建议几点:
在确认一个对象无用后,将其所有引用显式的置为null;
当类从Jpanel
或Jdialog 或其它容器类继承的时候,删除该对象之前不妨调用它的removeall()方法;在设一个引用变量为null
值之前,应注意该引用变量指向的对象是否被监听,若有,要首先除去监听器,然后才可以赋空值;当对象是一个Thread
的时候,删除该对象之前不妨调用它的interrupt()方法;内存检测过程中不仅要关注自己编写的类对象,同时也要关注一些基本类型的对象,例如:int[]、String、char[]等等;如果有数据库连接,使用try...finally
结构,在finally 中关闭Statement
对象和连接。
(2)好的测试工具。在开发中不能完全避免内存泄漏,关键要在发现有内存泄漏的时候能用好的测试工具迅速定位问题的所在。市场上已有几种专业检查Java
内存泄漏的工具,它们的基本工作原理大同小异,都是通过监测Java
程序运行时,所有对象的申请、释放等动作,将内存管理的所有信息进行统计、分析、可视化。开发人员将根据这些信息判断程序是否有内存泄漏问题。这些工具包括Optimizeit
Profiler、JProbe Profiler、JinSight、Rational 公司的Purify 等。
下面说下python的垃圾回收机制
python里也同java一样采用了垃圾收集机制,不过不一样的是,python采用的是引用计数机制为主,标记-清除和分代收集两种机制为辅的策略。
引用计数机制的优点:
标记-清除机制,顾名思义,首先标记对象(垃圾检测),然后清除垃圾(垃圾回收)。如图1:
图1
首先初始所有对象标记为白色,并确定根节点对象(这些对象是不会被删除),标记它们为黑色(表示对象有效)。将有效对象引用的对象标记为灰色(表示对象可达,
但它们所引用的对象还没检查),检查完灰色对象引用的对象后,将灰色标记为黑色。重复直到不存在灰色节点为止。最后白色结点都是需要清除的对象。
2、回收对象的组织
这里所采用的高级机制作为引用计数的辅助机制,用于解决产生的循环引用问题。而循环引用只会出现在“内部存在可以对其他对象引用的对象”,比如:list,class等。
为了要将这些回收对象组织起来,需要建立一个链表。自然,每个被收集的对象内就需要多提供一些信息,下面代码是回收对象里必然出现的。
一个对象的实际结构如图2:
图2
通过PyGC_Head的指针将每个回收对象连接起来,形成了一个链表,也就是在1里提到的初始化的所有对象。
3、分代技术
分代技术是一种典型的以空间换时间的技术,这也正是java里的关键技术。这种思想简单点说就是:对象存在时间越长,越可能不是垃圾,应该越少去收集。
这样的思想,可以减少标记-清除机制所带来的额外操作。分代就是将回收对象分成数个代,每个代就是一个链表(集合),代进行标记-清除的时间与代内对象
存活时间成正比例关系。
从上面代码可以看出python里一共有三代,每个代的threshold值表示该代最多容纳对象的个数。默认情况下,当0代超过700,或1,2代超过10,垃圾回收机制将触发。
0代触发将清理所有三代,1代触发会清理1,2代,2代触发后只会清理自己。
转载自:http://www.cnblogs.com/mingaixin/archive/2013/01/31/2886680.html