论文阅读（Zhuoyao Zhong——【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images）

2022-10-13 11:27:49

Zhuoyao Zhong——【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images

作者和相关链接
- 作者
  - Zhuoyao Zhong， z.zhuoyao@mail.scut.sdu.cn
    Lianwen Jin， lianwen.jin@gmail.com
    Shuye Zhang， shuye.cheung@gmail.com
    Ziyong Feng， feng.ziyong@mail.scut.edu.cn
  - School of Electronic and Information Engineering South China University of Technology Guangzhou, China
- 论文下载
方法概括
- 方法称为DeepText（此方法不是Google的DeepText哦），先用Inception-RPN提取候选的单词区域，再利用一个text-detection网络过滤候选区域中的噪声区域，最后对重叠的box进行投票和非极大值抑制

创新点和贡献
- 对fasterRCNN进行改进用在文字检测上
  - Inception-RPN：RPN后接Inception，来提取候选单词区域（包括2类classification和box regression）
    - anchor的大小更加适合检测单词：4scales(32, 48, 64, 80)*6 aspect ratio(0.2, 0.5, 0.8, 1.0, 1.2, 1.5) = 24种prior bounding box
    - Inception：3*3 conv, 5*5 conv, 3*3 max-pooling
  - Multi-level region-of-interest pooling（MLRP）: ROI pooling从原来只用Conv5变成了Conv5+Conv4的两层（MLRP）
  - Ambiguous Text Category（ATC）：把文字和非文字的两类变成了三类，文字（IOU>0.5），非文字（IOU<0.2），有歧义的文字（IOU在0.2~0.5之间），原理是加入了更多的监督信息，使得分类效果更好
- 对重叠box的去重方法（亮点不多）
- 实验结果（F值）很高，ICDAR2011-0.83，ICDAR2013-0.85，速度约是平均每张图像1.7s（gpu k40）
方法细节
- 网络框架图（Inception-RPN+text detection）：两个网络，Inception-RPN和text detection网络共享了conv1~conv5（来自于VGG16）。

- - ROI Pooling的修改：将Conv4_3和Conv5_3（即Conv4的第三层卷积和Conv5的第三层卷积）的feature map单独进行ROI pooling，再把这两层Pooling后的feature map用一个1*1的卷积进行融合，这里1*1的卷积除了融合多通道（两层）信息，还有一个作用，就是降维，为下一步的FC做准备。

- - - 算法思路简述：同一个样本，先用Inception-RPN训练，再训练text detection网络，detection网络要从Inception-RPN网络中选择，最后的时候更新整个网络权值，共享的部分要把两个模块的权值更新都加上。
- 启发式后处理
  - 包括迭代bounding box的投票（参考文献2）和过滤两个部分，实际上就是个去重的过程，文章细节也没怎么讲

参考文献
1. R. Girshick. Fast r-cnn. In Proc. ICCV, 2015.
2. S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware cnn model. In Proc. ICCV, 2015.