High Fidelity Face Manipulation with Extreme Poses and Expressions快速阅读

摘要

因为控制面部结构和语义方面存在的困难,使用GAN同时控制面部姿势和表情是困难的,特别是针对结合表情变化的高分辨率图像合成的头部姿势极限操纵(指人脸头部姿势变化超过60°角)。本文提出将人脸操纵过程分为两个相应的阶段,包括人脸轮廓预测阶段和人脸合成阶段,从而降低该任务的实现难度。在第一阶段,通过条件编解码网络来预测结合头部姿势和表情约束得到的人脸轮廓图。在第二阶段则是分别使用两个编码网络来提取人脸轮廓图的特征和输入的真实人脸图像特征,然后将它们在特征层面级联,最终生成与轮廓图的头部姿势和表情一致且人脸ID与输入的真实人脸图像一致的新的人脸表情图像。在这个过程中,为了更好的实现这两种特征的结合,作者在特征空间引入了一个Proxy network和特征阈值损失来迫使编码器能够有效的从真实人脸图像中提取到相应的人脸结构特征和语义特征。同时,由于高分辨率的人脸数据集缺乏,文章提出了Multi-ViewFace(MVF-HQ)database。

介绍

大部分人脸操纵的做法是将源域人脸图像和目标表情或者姿势的人脸图像在像素层面上级联来生成特定表情或特定姿势的人脸图像。然而本文任务是针对极限姿势和表情的高分辨率图像合成,需要更多的结构和语义信息,所以在图像上的级联是不可行的。因此文章先预测人脸的轮廓图,然后分别使用两个编码网络提取预测的人脸轮廓图和输入人脸图像的特征。由于提取人脸特征缺乏约束,无法保证提取到的人脸特征包含结构信息和语义信息,而人脸识别网络提取的特征包含大量的人脸结构信息,因此本文使用人脸识别网络提取的特征来对文中的编码器进行约束。为了更好的实现约束的目的,文中提出使用特征阈值损失来训练和优化提取人脸特征的编码器。

网络框架

High Fidelity Face Manipulation with Extreme Poses and Expressions快速阅读

本文先是得到预测的人脸边界轮廓图,然后提取到这个轮廓图的特征fB。之后,使用预训练好的人脸识别网络LightCNN作为Proxy来提取输入人脸图像的结构不变的特征和语义特征,然后结合feature threshold 损失,对编码器提取到的特征fi进行约束。由下列公式可知,特征阈值损失是用来控制编码器和Proxy提取到的特征之间的距离。特征阈值损失的作用是通过训练好的Proxy对编码器进行有监督的训练,使其拥有从人脸特征中提取结构和语义特征的能力。当特征阈值损失很小时,表明编码器已经具有从人脸图像中提取人脸结构和语义特征的能力了。
High Fidelity Face Manipulation with Extreme Poses and Expressions快速阅读

最后,将具有人脸结构和语义信息的特征fi与人脸轮廓特征fB级联来生成目标姿势和表情的人脸图像。

参考文献

1.High Fidelity Face Manipulation with Extreme Poses and Expressions

上一篇:VR制作中必须踩的坑365之058(oculus2、UE4、UE5、VR记录一年的踩坑之旅)脸部训练ZRT


下一篇:自行更换iPhone 13屏幕会导致Face ID失效?