语义分割Searching for Efficient Multi-Scale Architectures for Dense Image Prediction论文详解

2024-01-23 17:34:04

论文链接

动机

目前的工作显示了在图像分类任务上，通过meta learning自动设计的网络的表现已经超过了一些人工设计的网络。但是我们希望把meta learning技巧运用到其他视觉任务上，比如语义分割、目标检测。这类任务依赖高分辨率的图片输入以及多尺度的图片特征表达。但是把分类任务的想法运用到这类更复杂的任务上无法满足任务要求，原因有两点：（1）the
space of network motifs and operators differ notably from systems that perform classification （2）结构搜索必须在高分辨率图片上进行，这导致了计算量过大

贡献

首次将meta learning应用到稠密图像预测，聚焦于语义分割中的像素分类问题。并做了一系列实验展示如何去构建一个计算量和训练时间可容忍的简单代理任务，通过这个代理任务为高分辨率图片提供多尺度预测信息

算法

构建成功的结构搜索方式的两个关键部分：（1）搜索空间的设计（2）代理任务的设计

结构搜索空间

Dense Prediction Cell (DPC)：
OP的可选项：

总共的可选配置有种

结构搜索

使用了一个高效的框架优化服务A service for black-box optimization，用于优化一个目标函数f：b->R，这里b是DPC的所有分支，f(b)是分割评价指标mIoU。在搜索时使用了random search的搜索策略，随机均匀采样k个配置，然后在一些表现最好的配置周围再采样一些配置进行实验。

代理任务的设计

直接在语义分割的网络结构上进行结构搜索计算量大且非常耗时。而图片分类中使用了低分辨率的图片用于结构搜索，然后再应用于高分辨率图片。但这种方式对于语义分割等需要高分辨率图片的任务并不适用。所以，本文使用训练一个简单的backbone网络去生成feature maps，通过缓存这些feature maps构成了一个代理数据集。所以直接用这个代理数据集中的低分辨率的feature maps去训练DPC并进行结构搜索，从而大大减少计算量。

实验

数据集

Cityscapes、Pascal voc 2012、Pascal person-part

评价指标

mIoU
spearman相关系数：衡量两个变量的依赖性的非参数指标。它利用单调方程评价两个统计变量的相关性。如果数据中没有重复值，并且当两个变量完全单调相关时，斯皮尔曼相关系数则为+1或−1

结果

代理任务的效果

从实验可以看出代理数据集中的激活信号与使用shufflenetv2为backbone的end-to-end训练产生的激活信号有较大的spearman相关性，说明了使用代理数据集能够较好地模拟end-to-end训练

DPC的结构搜索

语义分割效果

优缺点

优点：

1.首次将meta learning应用到语义分割等稠密预测的任务中，实现了高效的网络结构自动设计，可以为探索更加高效的小型网络提供思路。
2.使用代理数据集的方法检修DPC结构搜索，减少了计算量，加快网络结构搜索速度

缺点：

使用了370块GPU耗时一周进行了网络结构搜索，计算资源消耗过大

反思

1.实验使用370块GPU，这让大部分高校科研人员不可能复现，也说明了NAS这个方向对于计算资源需求大，如果没有大量计算资源就难以在这个研究方向做出成果
2.个人理解，网络结构的搜索其实就是在一个预先约束所有可选层操作和层连接的网络结构空间下，不断去尝试不同的层操作和层与层连接的组合配置，选择效果最佳的配置

码农公寓