matting系列论文笔记(三):Boosting Semantic Human Matting with Coarse Annotations
论文链接: CVPR2020 Boosting Semantic Human Matting with Coarse Annotations [1]
代码:暂无
文章目录
前言
因为trimap的一些局限性,近来的工作很多都希望不使用trimap,这篇CVPR2020的文章聚焦于Human Matting,同样希望摆脱trimap。文章提出使用前景粗略标注改进matting,达到了接近SOTA的效果。研究人员在主流的语义分割数据集上实验,发现对标注mask的提精明显,相信对AI标注公司来说能大大提高人体像素级标注的效率。
Abstract
trimap的标注是一项劳动密集型工作,且需要较高的技能,尤其是考虑到细致的头发部分。文章提出使用粗标注和精细标注结合来增强端到端语义human matting,不需要trimap作为额外输入。具体的,研究人员训练了三个子网络:
- **mask prediction network(MPN): **使用混合数据估计粗语义mask;
- **quality unification network(QUN): **统一MPN输出的粗语义mask的质量;
- **matting refinement network(MRN): **统一mask和输入图片来预测最终的alpha mask。
研究人员还收集了一些粗糙标注数据集去丰富他们的数据集,为真实图像生成高质量的mask。实验结果显示,文章的方法和SOTA相近。此外,该方法可用于粗标注公共数据集的细化和语义分割,大大降低了标注高质量人类数据的成本。
1. Introduction
主要介绍了什么是matting,以及和语义分割的同与不同。简单讲了下matting问题那个经典的合成公式。接着,文章指出影响matting算法性能的一个关键因素是trimap的精度,介绍了trimap,及其局限性,传统的两种解决方法。
另一个限制是人类matting数据。自然图像中人有各种各样的颜色、姿势、头的位置、衣服、配饰等。围绕前景的语义有意义的结构,如人的头发、皮毛等,对于human matting是挑战性区域。注释如此精确的alpha matte是劳动密集型的,需要比普通用户更高的技能。前人创建了多种数据集,但都有各自的局限性。[2]创建了一个human matting数据集,但仅用于商业用途,而且制作这个数据集花了1200多个小时,实际中不是很可取。所以,文章提出了一种将有限 的精细标注图像和易于采集的粗糙标注图像相结合的解救方案。
为了解决上述问题,文章提出了一种新的框架,利用粗糙和精细的标注数据进行human matting。该方法可以在没有trimap约束的情况下,以高质量的细节和充足的语义信息预测准确的alpha matte。研究人员通过一个拥有三个子网络的耦合pipeline来实现这一目标。
- mask预测网络(MPN): 主要为了预测低分辨率的包含人类信息的粗糙mask。MPN同时使用精细和粗糙标注数据进行训练,以在各种真实图像上获得更好的性能。MPN的输出有可能不同,所以引入了基于混合标注数据训练的QUN;
- 质量统一网咯(QUN): 主要为了将MPN输出的质量水平调整到同一水平。
- matting精炼网络(MRN): 主要用于预测最终精确的alpha matte。输入是原始图像及其统一的粗mask,与MPN和QUN不同的是,matting精细化网络只使用精细标注的数据进行训练。
研究人员还为human matting人物构建了一个混合标注数据集,包含了高质量标注和低质量标注。在该数据集上进行了全面的实验,证明了该文章方法的有效性,其模型能够对粗标注公共数据集和语义分割方法进行细化,进一步验证了方法的泛化性。
该文章的主要贡献:
- 据他们所知,这是第一种使用粗糙注释数据来增强端到端human matting性能的方法。以往的方法要么以trimap作为约束,要么仅使用足够的精细标注数据集。
- 文章提出了一种质量统一的网络来矫正训练过程中的mask质量,以便同时使用粗标注和细标注,使语义信息和结构细节更加精确。
- 该方法可用于细化带有粗标注的公共数据集和语义分割方法,便于从mask(比如DeepLab生成的mask)生成带有细标注的数据。
2. Approach
文章使用了有三个子网络的pipeline。
2.1 Mask Prediction Network
这个阶段主要为了预测粗糙语义mask,文章使用的是具有skip连接的encoder-decoder结构,同时预测前景mask和背景mask。因为是粗糙的mask,所以不需要很高的分辨率,研究人员将输入分辨率变为了192 x 160,这样效率更高一些。这个子网络训练使用了全部的数据,包括高质量和低质量标注的数据。输出的是两通道的mask。
2.2 Quality Unification Network
主要为了将MPN输出的质量水平调整到同一水平。前一个mask预测网络使用了不同质量的标注数据,必然输出的mask不一样。粗糙mask质量的变化会导致推理阶段的matting结果不一致。如果粗mask相对准确,则精炼网络可以很好的输出准确的alpha mask。相反,如果粗mask缺少重要的细节,细化网路将失败。
引入QUN主要为了消除训练MRN网络中的数据偏差。质量统一网络的目的旨在提高粗mask质量的同时降低精细mask的质量,使得mask预测网络的输出质量达到同一水平。校正后的粗面罩是统一的,并允许一致的输入用于训练后面精确的alpha matte预测阶段。
2.3 Matting Refinement Network
matting精炼网络是为了预测精确的alpha matte。所以训练MRN使用的都是高分辨率的图片。MPN和QUN都是低分辨率的。将粗糙mask集成到MRN中作为外部输入特征图,同时经过多次卷积运算后输入尺度缩小4倍。MRN的输出是4通道的,包括3个前景RGB通道和一个alpha matte通道。预测与alpha matte相结合的前景RGB通道能够增强鲁棒性。
2.4 实现细节
详见paper
TensorFlow框架实现,一些实现和训练细节:参数固定之类的。
3. Human matting dataset
数据集的制作,对其他数据集的分析及其局限性。
4. Experiments
评估指标 SAD,MSE,Gradient,Connectivity
Baselines
文章从语义分割、传统matting方法、用户交互方法和自动方法中选出最经典的方法作为baseline。如下图所示。
Performance comparison.
如表2所示,文章方法效果接近DIM,优于其他方法,但是DIM需要高质量的trimap。
Self-comparisons.
Real images
5. Conclusion
文章提出将粗标注数据与细标注数据相结合,以提高端到端语义匹配的性能。我们提出利用混合标注数据集,利用MPN估计粗糙语义mask,然后利用QUN来统一粗糙语义mask的质量。统一mask和输入图像注入MRN来预测最终的alpha matte。收集到的粗糙注释数据集显著丰富了研究人员创建的数据集,并使其能够为真实图像生成高质量的alpha matte。实验结果表明,该方法与现有方法的性能相当。此外,该方法还可用于粗标注公共数据集的细化和语义分割方法,为高质量的人工数据标注提供了一种新的方法。
Reference
[1] Liu J, Yao Y, Hou W, et al. Boosting Semantic Human Matting with Coarse Annotations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8563-8572.
[2] Quan Chen, Tiezheng Ge, Yanyu Xu, Zhiqiang Zhang, Xinxin Yang, and Kun Gai. Semantic human matting. In Proceedings of the 26th ACM international conference on Multimedia, pages 618–626. ACM, 2018. 2, 3, 5, 6, 7.