深入理解 sync.Once 与 sync.Pool
sync.Once
代表在这个对象下在这个示例下多次执行能保证只会执行一次操作。
var once sync.Once
for i:=0; i < 10; i++ {
once.Do(func(){
fmt.Println("execed...")
})
}
在上面的例子中,once.Do 的参数 func 函数就会保证只执行一次。
sync.Once 原理
那么 sync.Once 是如何保证 Do 执行体函数只执行一次呢?
从 sync.Once 的源码就可以看出其实就是通过一个 uint32 类型的 done 标识实现的。当 done = 1
就标识着已经执行过了。Once 的源码非常简短
package sync
import (
"sync/atomic"
)
type Once struct {
done uint32
m Mutex
}
func (o *Once) Do(f func()) {
if atomic.LoadUint32(&o.done) == 0 {
o.doSlow(f)
}
}
func (o *Once) doSlow(f func()) {
o.m.Lock()
defer o.m.Unlock()
if o.done == 0 {
defer atomic.StoreUint32(&o.done, 1)
f()
}
}
Do
方法内部用到了内存加载同步原语 atomic.LoadUint32
,done = 0
表示还没有执行,所以多个请求在 f
执行前都会进来执行 o.doSlow(f)
,然后通过互斥锁使保证多个请求只有一个才能成功执行,保证了 f 成功返回之后才会内存同步原语将 done
设置为 1。最后释放锁,后面的请求就因无法满足判断而退出。
如果仔细查看源代码中的注释就会发现 go 团队还解释了为什么没有使用 cas 这种同步原语实现。因为 sync.Once
的 Do(f)
在执行的时候要保证只有在 f 执行完之后 do 才返回。想象一下有至少两个请求,Do 是用 cas 实现的:
func (o *Once) Do(f func()) {
if atomic.CompareAndSwapUint32(&o.done, 0, 1) {
f()
}
}
虽然 cas 保证了同一时刻只有一个请求进入 if 判断执行 f()。但是其它的请求却没有等待 f() 执行完成就立即返回了。那么用户端在执行 once.Do 返回之后其实就可能存在 f() 还未完成,就会出现意料之外的错误。如下面例子
var db SqlDb
var once sync.Once
for i:=0; i < 2; i++ {
once.Do(func() {
db = NewSqlDB()
fmt.Println("execed...")
})
}
// #1
db.Query("select * from table")
...
根据上述如果是用 cas 实现的 once,那么当 once.Do
执行完返回并且循环体结束到达 #1 时,由于 db 的初始化函数可能还没完成,那么这个时候 db 还是 nil,那么直接调用 db.Query
就会发生错误了。
sync.Once 使用限制
由于 Go 语言一切皆 struct 的特性,我们在使用 sync.Once 的时候一定要注意不要通过传递参数使用。因为 go 对于 sync.Once 参数传递是值传递,会将原来的 once 拷贝过来,所以有可能会导致 once 会重复执行或者是已经执行过了就不会执行的问题。
func main() {
for i := 0; i < 10; i++ {
once.Do(func() {
fmt.Println("execed...")
})
}
duplicate(once)
}
func duplicate(once sync.Once) {
for i := 0; i < 10; i++ {
once.Do(func() {
fmt.Println("execed2...")
})
}
}
比如上述例子,由于 once 已经执行过一次,once.done 已经为 1。这个时候再通过传递,由于 once.done 已经为1,所以就不会执行了。上面的输出结果只会打印第一段循环的结果 execed...
。
sync.Pool
sync.Pool 其实把初始化的对象放到内部的一个池对象中,等下次访问就直接返回池中的对象,如果没有的话就会生成这个对象放入池中。Pool 的目的是”预热“,即初始化但还未立即使用的对象,由于预先初始化至 Pool,所以到后续取得时候就直接返回已经初始化过得对象即可。这样提高了程序吞吐,因为有时候在运行时初始化一些对象的开销是非常昂贵的,如数据库连接对象等。
现在我们来深入分析 Pool
sync.Pool 原理
sync.Pool 核心对象有三个
- New:函数,负责对象初始化
- Get:获取 Pool 中的对象,如果 Pool 中对象不存在则会调用 New
- Put:将对象放入 Pool 中
New func
Pool 的结构很简单,就 5 个字段
type Pool struct {
...
New func() interface{}
}
字段 New
是一个初始化对象的指针,该方法不是必填的,当没有设置 New 函数时,调用 Get 方法会返回 nil。只有在指定了 New 函数体后,调用 Get 如果发现 Pool 中没有就会调用 New 初始化方法并返回该对象。
poolLocalInternal
在将 Get、Put 之前得先了解 poolLocalInternal 这个对象,里面只有两个对象,都是用来存储要用的对象的:
type poolLocalInternal struct {
private interface{} // Can be used only by the respective P.
shared poolChain // Local P can pushHead/popHead; any P can popTail.
}
操作这个对象时必须要把当前的 goroutine 绑定到 P,并且禁止让出 g。在 Get 和 Put 操作时都是优先操作 private
这个字段,只有在这个字段为 nil 的情况下才会转而读取 poolChain 共享链表,每读取操作都是一次 pop。
Get
每个当前 goroutine 都拥有一个 poolLocalInternal.private
,在 g 调用 Get 方法时会做如下方法:
- 查询
private
是否有值,有直接返回;没有查询共享 poolChain 链表 - 如果 poolChain 链表 pop 返回的值不为 nil,则直接返回;如果没有值则转向其它 P 中的 poolChain 队列中存在的值
- 如果其它的 P 的共享队列中都没有值,就会尝试在主存中地址获取对应的值返回
- 最终都没有就会执行 New 函数体返回,没有设置 New 则返回 nil。
从上面的调用过程来看,Pool.Get 获取值的过程在一定程度与 gmp 模型有很多相似的地方的。
Put
Put 操作就比较简单了,优先将值赋值给 poolLocalInternal.private
(同样是固定将当前的 G 绑定到 P 上),如果同时有多个值 Put,那么就会将剩余的值插入到共享链表 poolChain
sync.Pool 使用限制
因为 pool 每次的 get 操作都会将值 remove + return
,相当于用完即抛。并且要注意 Get 的执行过程。Put 方法的参数类型可以是任意类型,一定要切记不要将不同类型的值存进去。如果存在多协程(或循环)调用 Get 时,你无法确定哪次调用的就是你想要的类型而导致出现未知的错误。