第三篇还是从论文说起,第一篇[2016SP Letters]Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks其工作流水线分为三个阶段。首先将会将输入图片resize为图片金字塔作为接下来三个阶段cascaded framework的输入;
**阶段一:**使用一个全convolutional network成为proposal network(P-Net)来获得候选图片窗口以及其bounding box regression vectors。接着采用non-maximum suppression来将高度相似的候选图片合并。关于non-maximum suppression(非最大值抑制):去掉detection任务重复的检测框。(推荐看这篇博客https://blog.csdn.net/leviopku/article/details/80886386)
**阶段二:**被选出的候选图片被送入另一个CNN,称为Refine Network(R-Net),其会拒绝一些错误的候选图片
**阶段三:**这个阶段类似于阶段二,但本阶段目的在于更精确地描述出脸部。本阶段会输出五个facial landmarks’ position。
CNN架构:这篇论文意识到Some filters lack diversity of weights that may limit them to produce discriminative description,we reduce the number of filters and change the 5×5 filter to a 3×3 filter to reduce the computing while increase the depth to get better performance。意思是如果使用大的filter,那么出来的结果就是个大的值,局部感知也很小,结果量比较少,如果使用小的filter
这篇重要的东西就这么多,下一篇:2014_ECCV_香港中文大_Facial landmark detection by deep multi-task learning下次再写