《过往Net，皆为调参？一篇BagNet论文引发学界震动》

2022-10-15 09:02:43

过往Net，皆为调参？一篇BagNet论文引发学界震动

已认证的官方帐号

近日，一篇有关 BagNet 的 ICLR 2019 论文得到了机器学习社区的广泛关注，来自德国图宾根大学的研究者们发现基于小型局部图像特征分类的简单模型可以在 ImageNet 上实现惊人的高准确率。论文作者认为，这表明过去几年 DNN 的进步大部分是通过调参取得的。
选自blog.evjang，作者：Eric Jang，机器之心编译。

这篇论文真的指出了皇帝的新装？让我们来看看有关它的详细解读。

论文概述

深度卷积网络（CNN）通过学习卷积核权重汇集局部特征，然后进行空间上的池化就能抽取出图像的深层语义特征。而我们可以将这些卷积运算的连续使用视为抽取「层次化的特征」，每一个卷积层都在广泛的特征空间内聚集低层语义信息，并在这基础上生成更高级的信息。

至于算法的最优解，关注深度学习的研究者都相信目前深度卷积网络能聚集全局信息，并最终提取出最有用的高级信息。但是有另一种观点认为，真正的智能视觉理解需要「看到森林的同时关注具体的树木」。

在这篇 BagNet 论文中，作者发现对于 ImageNet 分类任务，BagNet（86% Top-5 准确率）相比于传统的深度 AlexNet（84.7% Top-5 准确率）能获得更好的效果。BagNet 的简要做法为：

将输入图像截取为 33×33 像素的图像块；
在每一个截取的图像块上使用深度网络（1×1 卷积）获得类别向量；
按空间对所有输出的类别向量进行求和（所有截取的图像块）；
通过类别向量最大的元素计数预测分类类别。

图 1：深度 BagNet 的简要流程。A) 模型从截取的图像块抽取特征，其中每一个图像块会馈送到一个线性分类器中，并为每个类别产生一个热力图。求特征空间内所有热力图的均值，并传入 Softmax 函数后取得最终的类别概率。B) ImageNet Top-5 准确率随图像块大小的变化而变化。C) BagNet 和 VGG 分对数的相关性。

图 2：热力图展示了类别的证据，这些证据都是从不同的截取图像块抽取出来的。所有图像块证据特征的空间和就是总的类别证据。

图 3：BagNet 中最具信息量的图像块。

类比表明，对于图像分类，我们也许并不需要非线性模型将一堆局部特征聚合到全局表征中，我们只需要「统计它是一系列树而确定目标是森林」。以下是其他一些时间结论；

BagNet 在使用 33×33 像素的图像块时效果好于 17×17 的图像块（80%）。所以深度网络确实抽取了有用的空间信息（9x9 vs. 17x17 vs. 33x33），但可能不是我们以前想像的全局空间范围（例如 112×112 或 224×224）.
BagNet 模型的空间敏感特征并不会超出 bagging 步骤，这就引出了一个问题：深度网络最强大的能力是否还仅来自于对局部特征的处理。深度网络仅仅和这种不考虑全局空间信息的 BagNet 相同吗？如果是的话，那么深度卷积网络还有很长的路要走。
VGG 看起来非常接近 BagNet，而 DenseNet 和 ResNet 似乎与 BagNet 的做法有很大的不同（作者在 rebuttal 中解释说原因可能是局部特征顶部采用了更非线性的分类器或更大的局部特征大小）。

想法&问题

不管你相不相信 CNN 能够/应该将我们带入通用人工智能，这一论文都提供了一些清晰的证据，表明我们仅通过检查局部特征就可以构建异常强大的图像分类模型。通常来讲，使用可解释性更强的模型来解决应用问题会更有帮助，很高兴看到这种模型在某些问题上表现如此之好。

BagNet 在原理上与广义加性模型（GAM）非常相似，后者比深度学习早很多。GAM 的基本思想是将非线性单变量特征（即 f(x_i)，其中每个 x_i 是一个像素，f 是一个神经网络）组合成一个简单的、可解释的特征，这样就可以查询每个变量的边际预测分布。Lou(2017) 等人采用一种新型松弛 GAM，以支持单变量特征提取器之间的成对交互（2D 边际仍然可以被人类理解）。

作者没有清晰地阐明这一点，但略读一遍论文很容易得出这样的结论：「DNN 糟糕透了，不过是 BagNets 而已」。但实际情况并非如此（作者的实验表明了这一点）。

举一个反例：局部修改（有时只是单个像素）可能改变全局特征表征，这是明显的反例。因此很明显，测试输入实际上进行了全局形状集成。剩下的问题在于，全局形状集成是否发生在我们认为其应该发生的地方，发生在什么任务中。作为一个对 AGI 非常感兴趣的人，我发现 ImageNet 现在没那么有趣了，因为它可以用对图像缺乏全局理解的模型来解决。

作者们也说了很多，他们表示我们需要比全局形状集成的更困难的任务。

在图像生成建模（如 GAN）这项任务中，patch 特征之间的线性交互明显不足以对像素间的无条件联合分布进行建模。或者考虑一下强化学习任务——Life on Earth，该任务中的智能体明显需要执行空间推理来解决一些问题，比如追逐猎物和逃离捕食者。

如果我们训练一个可以通过集成全局信息提高分类性能的模型，而且它最终只是在局部特征上过拟合，那么这将是一个非常有趣的结果，这意味着我们需要一个不允许模型以这种方式作弊的优化目标。我认为「Life-on-Earth」是一项非常合适的任务，尽管我希望找到一种对计算资源要求较低的方法 :)

最后，我们再讨论一点可解释性与因果推理。短期内我们将看到 BagNet 在自动驾驶汽车上非常有用，因为分别考虑每一个图像块有利于算法的并行化，它将为大型图像提供更多的加速。此外，我们也不希望自动驾驶汽车上加载不可解释的模型，因此像 BagNet 那样的「可解释性」模型能为自动驾驶提供更好理解的决策。不过 BagNet 的可解释性似乎与实现泛化性模型的「因果推理」与「流程归纳」并不一致，因此机器学习社区研究者还需要调和这两者的差别。

有一种更积极的方法可以获得更好的因果推断。在设计端到端系统（如机器人、自动驾驶汽车）时，BagNet 这样的方法可以作为非常必要的健全性检查机制：如果你的深度神经网络不比仅检查本地统计规律的方法（如 BagNet）好很多的话，这意味着你的模型还没有从全局信息中获益。我们甚至可以考虑组合优化 BagNet 和 Advantage（DeepNet、BagNet），以让深度神经网络明确地获取比 BagNet 更好的信息。笔者一直在考虑如何更好地验证我们的机器学习系统，构建「无假设」模型，这或许是让机器不去学习愚蠢模式的正确方法。

论文：Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet

论文链接：https://openreview.net/forum?id=SkfMWhAqYQ

摘要：当前，深度神经网络在许多复杂的感知任务上都有卓越的表现，但众所周知它难以理解其自身的决策。在本论文中，我们引入了一种在 ImageNet 上的高性能 DNN 架构，它的决策较为容易解释。我们的模型 BagNet 是 ResNet-50 的一种简单变体，能够基于小型局部图像特征分类完整的图像，且不需要考虑它们的空间顺序。这一策略和深度学习流行之前的 bag-of-feature(BoF）模型密切相关，且在 ImageNet 上取得了惊人的高准确率（取 32 x 32 像素的特征图，top-5 准确率能达到 87.6%；而取 16×16 像素的特征图，top-5 准确率能达到 AlexNet 的性能）。局部特征的约束迫使它要直接分析图像的每部分是如何影响分类的。此外，在特征敏感性、误差分布和图像局部之间的交互方面，BagNets 的行为类似于 VGG-16、ResNet-152 或者 DenseNet-169 这样的*神经网络。这表明，相比于之前的 BoF 分类器，过去几年 DNN 的进步大部分是通过更好地精调取得的，而不是不同的、高质量决策策略。

原文链接：https://blog.evjang.com/2019/02/bagnet.html

发布于 2019-02-14

文章被以下专栏收录

提供专业的前沿科技信息

可逆ResNet：极致的暴力美学

Paper...发表于Paper...

孙剑首个深度学习博士张祥雨：3年看1800篇论文，28岁掌舵旷视基础模型研究

旷视科技

[原创]#Deep Learning回顾#之LeNet、AlexNet、GoogLeNet、VGG、ResNet

我爱机器学习

基于深度学习的文本分类

曾几何时， SVM一统江湖， Lecun见证的Vapnik和Larry Jackel的世纪之赌，从95年坚持到2000年依然岿然不动。但是再过10年，到2010年，深度学习横空出世。 SVM在图像，文本这些高维数据领…

史博发表于聊聊-深度...

写下你的评论...

精选评论（4）

氦氖氩氪氙氡1 年前

说实话我最担心的就是深度学习这一套理论最后被证明只是tricks而不是科学我们这些上了深度学习这条贼船又不能对其中原理有个intuitive understanding的学生是真的怕之前看LeCun和哥大的教授辩论这帮先驱都在不停地思考深度学习是不是正确的路我们学这个的应该有这个忧患意识

匿各用户1 年前

感觉没有什么新意，至少不意外。因为这里仍然是提取了局部信息，只不过是局部信息整合的时候没有使用局部组合时候的位置信息。这个方案可以在图像分类上成功的核心原因就是图像分类可以只依靠这些信息来完成，丢弃一些位置信息不影响判决结果。简单对比人类的判决能力，把图片打乱一下，只要不是特别细碎的信息，人类还是可以判别出图像类别。这个工作没有什么值得讨论的。

匿各用户1 年前

过往Net，皆为调参？一篇BagNet论文引发学界震动？好像这个工作不是调参一样，你ResNet都用了，不调参？哪个学界震动了？其review页面不到30个留言，震动啥了？标题党有意思么？

Twisted Python1 年前

其实换个角度说，局部信息足够做出准确判断的情况下，模型就会满足于利用局部信息。换句话说，任务本身的难度不够，和局部纹理有高度相关性，模型只是隐性的学到了这点儿而已

氦氖氩氪氙氡1 年前

说实话我最担心的就是深度学习这一套理论最后被证明只是tricks而不是科学我们这些上了深度学习这条贼船又不能对其中原理有个intuitive understanding的学生是真的怕之前看LeCun和哥大的教授辩论这帮先驱都在不停地思考深度学习是不是正确的路我们学这个的应该有这个忧患意识
匿各用户回复氦氖氩氪氙氡1 年前

如果你到现在还认为DN不是科学，那只能说你对DN的认知不足。DN的思想已经被引入物理用于考察最根本的物理规律并取得了很重要的成果，怎么会没有科学性？
wang zhang回复匿各用户1 年前

请给出引文, 我只看过通过物理原理类比DN方法的, 还没听说过通过DN去指导研究物理规律的.

匿各用户1 年前

感觉没有什么新意，至少不意外。因为这里仍然是提取了局部信息，只不过是局部信息整合的时候没有使用局部组合时候的位置信息。这个方案可以在图像分类上成功的核心原因就是图像分类可以只依靠这些信息来完成，丢弃一些位置信息不影响判决结果。简单对比人类的判决能力，把图片打乱一下，只要不是特别细碎的信息，人类还是可以判别出图像类别。这个工作没有什么值得讨论的。

匿各用户1 年前

过往Net，皆为调参？一篇BagNet论文引发学界震动？好像这个工作不是调参一样，你ResNet都用了，不调参？哪个学界震动了？其review页面不到30个留言，震动啥了？标题党有意思么？
羊牮回复匿各用户1 年前

你没读懂？论文的意思是说，我仅仅调参都得这么好，所以怀疑以前的全局算法到底有没有起作用。
00000000回复羊牮1 年前

但是并没有resnet好对吧，普通人考90分，学霸考93分，学神95分，剩下那五分说不定有三分题目本身就错了。那几分差距可能是很本质的

Twisted Python1 年前

其实换个角度说，局部信息足够做出准确判断的情况下，模型就会满足于利用局部信息。换句话说，任务本身的难度不够，和局部纹理有高度相关性，模型只是隐性的学到了这点儿而已

HomoAndroid1 年前

这早就有人做过了呀大网络性能好就是因为相当于做了隐式的网络结构搜索你把这个叫调参也没问题
TopazDoor回复HomoAndroid1 年前

其实就是大网络剪枝的过程。

henryWang1 年前

实验科学不都得调参嘛...

小赖sqLai1 年前

不就是一堆patch抽特征跑个ensemble么，真没啥创新。打比赛有个经典trick就是一张图crop五个部位，预测值求平均来着...
TopazDoor回复小赖sqLai1 年前

不如说boosting还能再战几十年hhh

大明1 年前

就是有鼻子有口就是人臉吧？即使咀巴在鼻子之上它也分不出來

张馨宇1 年前

又震动了？

郑华滨1 年前

日常震惊系列，已经震麻木了

多核处理器HW1 年前

在每个patch上用深度网络获取类别向量…自己都用网络了，还要说以前的成功都是调参调的？标题党

Tualatin Celeron1 年前

这文章思路清奇，如果我没理解错，它是说CNN的有效成分只是一个相对传统方法更好的feature detector，至于后端用统计和softmax，还是传统的深层网络结果相差无几。这有点意思。

雨宫夏一1 年前

UC小编get[赞同]

小小鱼1 年前

这原论文的标题就够标题党的……说白了，还是不能克服cnn的空间组合问题，比如嘴在额头上，还是没办法分类对，单纯用局部分类，结果很不好解释

付毕立1 年前

机器之心的小编现在这么low了？

puni1 年前

觉得这篇文章挺好的，至少我是通过这篇文章关注到这个事情的；

paper里提到的内容也很有价值，个人觉得不止是关于模型的准确度的问题，而是帮助大家更好的理解了现在的CNN框架到底做了什么来进行预测的，至少这个黑盒子被揭开了一部分的面纱；

whatever，谢谢作者；

貌似paper作者发了源码？https://github.com/wielandbrendel/bag-of-local-features-models

《过往Net，皆为调参？一篇BagNet论文引发学界震动》

码农公寓

《过往Net，皆为调参？一篇BagNet论文引发学界震动》

过往Net，皆为调参？一篇BagNet论文引发学界震动

文章被以下专栏收录

推荐阅读

可逆ResNet：极致的暴力美学

孙剑首个深度学习博士张祥雨：3年看1800篇论文，28岁掌舵旷视基础模型研究

[原创]#Deep Learning回顾#之LeNet、AlexNet、GoogLeNet、VGG、ResNet

基于深度学习的文本分类

64 条评论

码农公寓

过往Net，皆为调参？一篇BagNet论文引发学界震动

文章被以下专栏收录

推荐阅读

可逆ResNet：极致的暴力美学

孙剑首个深度学习博士张祥雨：3年看1800篇论文，28岁掌舵旷视基础模型研究

[原创]#Deep Learning回顾#之LeNet、AlexNet、GoogLeNet、VGG、ResNet

基于深度学习的文本分类

64 条评论

相关文章