论文阅读--Context-aware Synthesis for Video Frame Interpolation
关键词:上下文遮挡推断,视频补帧
论文简介:
本文的关注点在于,目前已知的视频补帧算法都需要估计输入帧的光流并依靠光流计算中间帧。而目前的问题在于在于, 随着视频中动作的变多(比如跑步造成了很多遮挡),光流的估计会越来越差, 进而影响生成中间帧的质量.
因此本文提出了一个新的混合网络, 取代了之前直接根据光流生成中间帧的做法, 在混合像素的基础上, 依靠像素上下文信息regularize混合策略. 部分解决了遮挡错误.
具体的模型如下所示:
从左往右.
作者使用了PWC-Net获取了输入的图片\(I_1\)和\(I_2\)的双向光流, 然后使用ResNet-18的conv_1抽取像素的上下文信息, 每个像素都有一个向量表达其7*7的邻居像素信息.
作者利用前面获取的双向光流对图片进行预扭曲, 在传统方法中, 预扭曲获取的图像会直接blengding的获取最终的中间帧, 作者没有这么做, 而是将预扭曲的图像和前面获取的上下文信息一起输入到一个变形的GridNet中, 并生成最终的图像.
GridNet如图右半部分, 结构和它的名字一样, Grid,格子. 其结构不是流水线型的网络, 而是成方块状. 每一行是基本的流线型CNN, 每一列则是下采样和上采样连接, 意思上是有点和ResNet或者U-net差不多的, 具体的理解我会抽时间看看原论文然后再更新下. 按照作者的说法, GridNet的形式是以全局的低分辨率信息指导本地的高分辨率特征, 所以比较适合像素级别的图片生成.
其实使用什么网络结构都是可解释的,本文的核心贡献还是,考虑了像素的上下文信息进行插帧, 虽然上下文信息考虑的比较粗糙.