论文地址:http://www.arxiv.org/pdf/1505.04597.pdf
该设计有以下两点优势:
(1)它能够捕捉更多的上下文信息,因为提出了RSU(ReSidual U-blocks)结构,融合了不同尺度的感受野的特征;
(2)它增加了整个架构的深度但并没有显著增加计算成本,因为在这些RSU块中使用了池化操作。
这种架构使能够从头开始训练深度网络,而无需使用图像分类任务中的backbone。
现有网络:
注重利用现有的主干提取深层特征,比如Alexnet, VGG, ResNet, ResNeXt, DenseNet等。这些主干最终都是为图像分类任务而设计的,他们提取的特征代表语义,而不是局部细节和全局对比信息,但这对显著性检测至关重要。他们需要在ImageNet数据集上进行预训练,如果目标数据与ImageNet具有不同的分布,则会比较低效。
存在一些问题:
- 网络结构复杂,这是由于在现有主干网络上添加特征聚合模块,从这些模型中提取多层显著性特征;
- 现有主干网络通常通过牺牲高分辨率的特征映射来实现更深层次的体系结构。
U2Net网络解决的问题:
第一,该网络是一个两层嵌套的U型结构,没有使用图像分类的预训练主干模型,可以从头训练;
第二,新的体系结构允许网络更深入、获得高分辨率,而不会显著增加内存和计算成本。在底层,设计了一个新的RSU,能够在不降低特征映射分辨率的情况下提取级内多尺度特征;在顶层,有一个类似于U-Net的结构,每一stage由一个RSU块填充。
RSU构成:
为介绍RSU,论文中与残差网络进行对比:
其中U代表的就是在输入上提取和编码多尺度特征。
两层嵌套的U型结构:嵌套的U结构可以更有效的提取stage内的多尺度特征和聚集阶段的多层次特征。
更加详细见:(2条消息) U2Net论文解读及代码测试_ling620的专栏-CSDN博客_u2net
代码参考:Github 项目 - U2Net 网络及实现 - AI备忘录 (aiuai.cn)