本文来自TCSVT 2019的论文《Enhanced Bi-Prediction With Convolutional Neural Network for High-Efficiency Video Coding》
介绍
传统的平均加权运动补偿是基于时域匀速运动和空域匀速运动的假设,无法很好地描述旋转、仿射变换和变形等不规则运动;此外,传统的加权预测是pixel-to-pixel级别的预测,与patch-to-patch级别的预测对比如下图所示,可以清楚的看出patch-to-patch可用的信息比pixel-to-pixel可用信息少,传统加权预测方法存在很大改进空间。
本文提出采用基于CNN的融合方法来提高预测精度,如下图所示,使用CNN来替代传统的平均加权预测方法。
网络结构
网络结构如下所示,输入是前向预测块和后向预测块,网络输出为融合后的预测块。网络共6层卷积层,前五层采用Relu激活函数,并使用skip connection残差连接两个预测块的平均值。
损失函数:MSE Loss
在HEVC中集成方法
对于Merge模式,由于Merge候选可能运动信息不准确,因此在率失真优化选择最佳候选MV时使用线性平均加权,选出最佳候选后使用CNN加权;对于AMVP模式,仅在运动估计后的加权预测使用CNN加权。
尽管HEVC中帧间编码块具有各种大小和非对称分区,但是根据统计数据,在双向预测中,大小为64×64、32×32和16×16的Pus area占总area的75%,因此本文将网络应用于大小分别为64×64、32×32和16×16亮度分量的预测单元。
实验
本文针对不同Qp训练不同的模型,并对于训练数据集,采用两种数据扩充方法:
1. 下采样,双三次插值
2. 以小于CTU大小的步长移动帧,以生成不同的CTU划分,提高编码块的多样性
训练数据来自于HM16.15解码器,并将两个方向的预测值归一化到[0,1]作为网络的输入。
本文还针对网络的是否用skip connect结构、卷积核尺寸、卷积核数、卷积层数进行消融实验对比。
将网络集成到HM-16.15参考软件的性能如下图所示: