ENet: A deep neural network architecture for real-time semantic segmentation

2024-03-05 09:10:54

Abstract: 18x faster,75x less flops,79x less param

卷积Param: 0.37m

模型参数： 0.7m

卷积参数和模型参数是不一样的

1.Introduction

为了减少内核调用和唇齿操作，作者的网络架构没有使用bias，只有weights

1). Feature map resilution

下采样有两个缺点，降低特征图分辨率丢失细节信息，语义分割需要输出和原图相同的分辨率，然而在下采样特征图上运行的滤波器有一个更大的感受野，使他们能够收集更多的信息，fcn使用32倍下采样，作者的enet只使用了8倍的下采样。

2). Early downsampling

视觉信息是高度空间冗余，renet是自动去调节整个信息流的冗余流动。最初的网络层不应该有助于分类，相反作为很好的特征处理器和图像预处理

3). Decoder size

Encoder和decoder不是对称的，encoder主要进行信息处理和过滤，是主要结构，decoder负责上采样的输出，并惊醒细节微调。

4). Nonlinear operations

一般网络架构都会在cnn之前进行relu和bn，但是作者发现使用relu降低了模型精度，作者认为relu没有起作用是网络结构层深度的问题，resnet有上百层网络，而enet较少的网络需要快速过滤信息，所以使用prelu和bn。

5). Information-preserving dimensionality changes

在初始化阶段，作者采用3x3 CNN（stride 2）和maxpool并行，之后在concatenate特征图，10倍加速

6). Factorizing filters

Nn的卷积被1xn和nx1大体

7). Dilated conv

交叉使用

8). Regularization

Spatial dropout

码农公寓