总听组里几个大神说起线程安全问题。本来对“线程安全”这个定义拿捏得就不是很准,更令人困惑的是,大神们用这个词指代的对象不仅抽象而且千变万化。比如,我们的架构师昨天说:
“平台的A功能不是线程安全的,所以我们要在上层应用中多做一层封装,让它变成一个独占式的功能。”
啥?一个功能还能是线程安全的?
又比如,同事小谢有一次说:
“这个变量我已经加了synchronized关键字去访问了,所以这个变量一定是线程安全的。”
所以线程安全是用来说变量的?加了synchronized关键字就能保证线程安全了吗?
如果我们写着多线程代码,每天debug时把“线程安全”挂在嘴上,但却并不知道它的真正涵义,而且讨论问题时每个人的理解都不一样,岂不是笑话?
于是,出于对代码(qiang)负(po)责(zheng)的心理,去看了一下JCIP的第二章,发现Brian Goetz大神还是讲得很清楚的。
“线程安全”的指代对象
狭义上讲,“线程安全”修饰的是一个类。广义上讲,也可能是整个程序。
讨论线程安全问题时,应该关注的是“状态”,确切来说,是共享、可变的变量。一个类中的变量可以被多个线程访问,且可以做修改,在这种情况下,由于线程调度的顺序不定,或线程之间的执行产生了重叠,类变量的最终结果可能不同,这种情况叫做竞态条件(race condition)。
如果把一个Servlet写成这样:
public class UnsafeServlet implements Servlet{
private long count = 0; //客户端访问计数器
public long getCount(){ return count; }
public void service(ServletRequest req, ServletResponse resp){
//实际处理……
count++;
}
}
由于count++这个操作不是原子的,多个线程调用service()方法时万一出现相互重叠,可能发生计数不准的情况,比如明明有两个客户端来访问,count的值却为1。因此UnsafeServlet这个类不是线程安全的。
既然竞态条件只发生在对共享、可变的变量的处理上,广义上,可以通过三种方法去避免竞态条件:
- 取消多线程对变量的共享
- 把变量设为不可变
- 设置同步机制去控制对变量的访问
在Java中,“同步机制”主要指synchronized关键字提供的互斥锁,但也包括volatile关键字、显式锁和原子变量等。
另外,一个类对自己的状态封装得越好,越利于保证类的线程安全性。因为封装可以收紧对共享变量的访问,便于程序员进行代码维护。
一个无状态的类永远线程安全。
如果程序中只有线程安全的类,这个程序不一定线程安全;反过来说,线程安全的程序中的类也不一定全都是线程安全的。
“线程安全”的具体定义
一个类在多线程环境中,不管多线程的调用顺序如何、执行是否相互重叠等,类的表现始终正确。
“表现正确”是指遵循不变性和操作的后置条件。
不变性是指类中一些状态应该遵循的规律。比如一个进行整数分解的Servlet,用两个类变量去缓存上一次处理的整数和分解因子。那么在任何一个线程访问时,这个整数和分解因子应该是互相匹配的。如果某个线程拿到的整数是7,而因子是2和4,那么这个类的不变性受到了侵犯。
后置条件是指类方法调用的结果。比如UnsafeServlet.service()每次被调用时,count应该增加1。如果两个线程先后调用这个函数而count没有按我们所期待的增加2,则这个类的后置条件受到了侵犯。
原子性
线程安全的前提是保证对共享变量操作的原子性。UnsafeServlet中的count++是一个复合操作。复合操作包括两类:
- read-modify-write: 如count++
- check-then-act: 如单例中的懒加载,先判断类实例是否为空,再创建实例
原子性是指某操作的执行不可打断。假如线程A正在做该操作,则线程B要等A做完以后才能进行该操作。在A看来,B要么没有开始,要么已经做完,没有操作的中间态。
要实现原子性,可以使用Java提供的内在锁。
内在锁
在Java中,每个对象都可以作为一把锁来保证同步机制,这个锁称为内在锁。一个线程只有进入synchronized代码块或synchronized方法时才能获取到对象的内在锁。synchronized方法提供的是这个方法属于的对象的内在锁。
内在锁有两个特征:
- 互斥性:对于某个对象,同一时间只有一个线程能拿到它的内在锁。
- 重入性:一个持有对象A内在锁的线程可以多次进入A保护的其他代码块。这个机制保证了“获取锁”这个动作是以线程为单位的。
用synchronized关键字修饰方法看起来简单粗暴,但可能极大地影响性能。假如我们把Servlet中的整个service方法做成synchronized的,实际上等于把本来应该并行处理的客户端访问做成了串行的,不仅浪费系统资源(多CPU得不到利用),还会降低对客户端的响应。所以,要仔细考虑同步块的粒度,在代码简洁性和程序性能之间找到平衡。
同步机制
设计一个类时,要考虑它的同步机制,即有哪些变量需要同步保护,用哪个锁进行保护,在什么样的粒度上保护等。
值得参考的几个原则是:
- 对每个共享变量的所有访问都应该用同一把锁进行保护。最好用注释等方法标注清楚哪个变量被哪个锁保护,以便维护。
- 涉及某一条不变性的的所有共享变量的操作要用同一把锁进行保护。
- 进行长时间操作,比如network I/O时,尽量不要持锁。
理解以上概念以后,对多线程就有了一个好的基础,可以继续学习了。