【李宏毅2020 ML/DL】P52 Network Compression - Network Pruning

2023-10-30 13:33:40

我已经有两年 ML 经历，这系列课主要用来查缺补漏，会记录一些细节的、自己不知道的东西。

已经有人记了笔记（很用心，强烈推荐）：https://github.com/Sakura-gh/ML-notes

本节内容综述

本节课继续由助教Arvin Liu讲解，内容为 Network Pruning 。
首先来复习一下 Neuron Pruning in DNN 。
Main Question: Prune what? Evaluation. After Evaluation? Prune? Sort? Threshold or Rank?
Evaluate Importance. 以什么为衡量基准。介绍了不少方法。
接着，复习了一下 Lottery Ticket Hypo 。
Prune what? 考虑到，会不会有个 weight 一开始比较大，其还具有意义吗？而一开始比较小，后来比较的的 weight 会不会更有意义呢？有人做了这个研究。见 Choose which mask?
Wining Tickets property?
Rethink v.s. Lottery. 上节课老师也提过，专门有一篇文章讲到过，还有篇文章与 Lottery 的文章结果正好互相违背。

小细节

Neuron Pruning in DNN

如上图，减少一个神经元的效果。

如上图，对于CNN也可看出减少一个神经元的效果。

注意上面都没有计算 bias 。

Main Question: Prune what?

Which is most important?
How to evaluate importance?

可以：

Evaluate by Weight
Evaluate by Activation
Evaluate by Gradient

After Evaluation?

Sort by importance and prune by rank.
Prune by handcrafted threshold.
Prune by generated threshold.

Evaluate Importance

Eval by weight - sum of L1 norm

如上图，可以进行权重的累加。

Eval by weight - FPGM

每个神经元对应一个 norm ，即“产生的影响”；之后对 norm 进行统计，绘制出类似直方图的东西；然后我们去掉 [ V 1 , T ] [\mathcal{V}_1,\mathcal{T}] [V1,T]这一部分 norm 对应的神经元，因为其影响力较小。

但是存在问题。

如上，可能分布方差过小，或者，没有 norm 接近0，这样的话，砍掉的神经元会对结果造成不小的影响。

于是，提出 FPGM 。

其思想是：可能会有 Large norm 其对应的几个神经元，这些神经元的 norm 其实在几何上很接近，即其作用是相同的，因此，可以砍掉一些，就保留一个。

可以通过几何中心计算。

Eval by BN’s γ - Network Slimming

如上，可以使用 γ 等参数来衡量神经元的重要性，而且 γ 是可以通过学习得到的。

如上，对 γ 做 L1-penalty ，就可以方便地决定哪些 γ 不重要，可以用来剪枝。

Eval by 0s after ReLU - APoZ

把输出统计一下，加起来求平均。

如果一个 ReLU 为激活函数的神经元，其输出总是为 0 ，说明其可能不重要。

可以看出，对于第 5 层，其 CONV5-3 的 APoZ 指标高达 93% 。

Lottery Ticket Hypo

Choose which mask?

上面这些是不同的 mask ，比如有用于过滤一开始比较大小，后来也比较大的；等等。

发现，magnitude_increase和Large final效果是比较好的。

Wining Tickets property?

如上，针对“大乐透理论”进行了不同的实验。

发现，还原的值不重要，但是不还原 sign 不可以。

Conclusion

于是，基于以上两个实验，我们可以构造出“最好的”mask。

Rethink v.s. Lottery

上节课老师也提过，专门有一篇文章讲到过，还有篇文章与 Lottery 的文章结果正好互相违背。

实际上，这篇的核心，是想说明剪枝后，重要的是“结构”，而不是“权重”。

So… what’s the result?

在“大乐透”的文章中其实提到了， θ 0 ′ \theta_0' θ0′必须接近于 θ f i n a l ′ \theta_{final}' θfinal′，也就是说学习率必须要小。

此外，“大乐透”的文章中只根据 weight 进行了 Pruned ，而没把重点放在结构上的 Pruning 。

码农公寓