在VVC的扩展Merge模式当中,当前CU生成的Merge list中选择一个率失真代价值最小的候选项直接作为自己的运动信息。除了常规Merge模式,VVC还引入了带运动矢量差(Merge mode with MVD)的Merge模式。MMVD是对常规Merge列表的前两个MV进行细化,使预测的MV更加准确,实际上传输的是细化搜索的步长和搜索方向等信息,并没有MVD信息。(这里所谓的MVD应该指的是通过细化常规Merge的MV近似对MV加上MVD)
MMVD技术起源于之前提案中的ultimate motion vector expression(UMVE)技术,该技术是一种新的运动向量表示方法,在skip和merge模式当中使用起始点、运动步长、运动方向三个量来表示运动向量。编码端在发送了Skip Flag和Merge Flag之后,才发送MMVD Flag以指示当前CU是否使用MMVD预测模式。
MMVD技术应用于帧间预测的Skip和Merge模式当中,是一种运动矢量的特殊表达形式,在VTM中,MMVD技术流程大致如下所示:
(1)首先复用常规Merge模式候选列表,将Merge候选列表的前两个候选MV作为初始MV
(2)对于第1步得到初始的MV,分别以该初始MV在参考帧中所指向的位置作为起始点,在上下左右四个方向上,进行8种步长的搜索,如下图所示
关于步长和方向的定义如下:
Distance IDX |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Offset (in unit of luma sample) |
1/4 |
1/2 |
1 |
2 |
4 |
8 |
16 |
32 |
Direction IDX |
00 |
01 |
10 |
11 |
x-axis |
+ |
− |
N/A |
N/A |
y-axis |
N/A |
N/A |
+ |
− |
这样每一个初始MV在每个方向上的每种步长都会形成一个新的MV,该MV包含三个信息,分别是起始点、搜索方向、搜索步长,因此一个初始的MV可以扩展出32个新的MV,所以两个初始MV共生成64个新的MV,分别对这些新的MV也会通过运动补偿得到当前CU的预测值。
(3)在Skip和Merge模式下,将所有得到的64个新的预测值之间进行率失真代价比较,选出最优的MV,在编码时需要编码该MV的三个信息:初始MV在Merge list中的索引值、搜索方向和搜索步长。在解码端的MMVD模式中,当前CU通过接收到从编码端传过来的三个语法元素,以与编码端相同的搜索方式搜索形成最优的MV,再进行运动补偿得到当前CU的预测值。
这里需要注意的是,MVD的符号因初始MV信息的不同而有所不同。
- 当初始MV为单向预测,或者为双向预测且前后双向的参考帧均在当前帧的同一侧时(即双向的参考图片的POC均大于或均小于当前图片的POC),就按照表5.2中指示的符号添加到该初始MV(前向和后向的符号都保持一致)的偏移值上去;
- 当初始MV为双向预测且前后双向的参考帧在当前帧的两侧时(即一向参考图片的POC大于当前图片的POC,另一向参考图像的POC小于当前图像的POC),则将表5.2中指示的符号添加到前向初始MV的偏移值上,而后向初始MV的偏移值取与前向相反的符号。
MVD根据每个方向上POC的差异进行缩放。 如果两个列表中POC的差异相同,则无需缩放。 否则,如果列表0中的POC差大于列表1中的POC,则通过将L0的POC差定义为td并将L1的POC差定义为tb来缩放列表1的MVD,如下图所示。 如果L1的POC差大于L0,则列表0的MVD以相同的方式缩放。 如果起始MV是单一预测的,则MVD将添加到可用MV。
VTM中代码及注释如下:(基于VTM10.0)
(1)从常规Merge候选列表中选取初始MV
//从merge list当中选取两个初始MV
void PU::getInterMMVDMergeCandidates(const PredictionUnit &pu, MergeCtx& mrgCtx, const int& mrgCandIdx)
{
int refIdxList0, refIdxList1;
int k;
int currBaseNum = 0;
const uint16_t maxNumMergeCand = mrgCtx.numValidMergeCand;
for (k = 0; k < maxNumMergeCand; k++) //遍历Merge候选列表
{
if (mrgCtx.mrgTypeNeighbours[k] == MRG_TYPE_DEFAULT_N)
{
//只取MRG_TYPE_DEFAULT_N类型候选项
refIdxList0 = mrgCtx.mvFieldNeighbours[(k << 1)].refIdx;
refIdxList1 = mrgCtx.mvFieldNeighbours[(k << 1) + 1].refIdx;
if ((refIdxList0 >= 0) && (refIdxList1 >= 0))
{
mrgCtx.mmvdBaseMv[currBaseNum][0] = mrgCtx.mvFieldNeighbours[(k << 1)];
mrgCtx.mmvdBaseMv[currBaseNum][1] = mrgCtx.mvFieldNeighbours[(k << 1) + 1];
}
else if (refIdxList0 >= 0)
{
mrgCtx.mmvdBaseMv[currBaseNum][0] = mrgCtx.mvFieldNeighbours[(k << 1)];
mrgCtx.mmvdBaseMv[currBaseNum][1] = MvField(Mv(0, 0), -1);
}
else if (refIdxList1 >= 0)
{
mrgCtx.mmvdBaseMv[currBaseNum][0] = MvField(Mv(0, 0), -1);
mrgCtx.mmvdBaseMv[currBaseNum][1] = mrgCtx.mvFieldNeighbours[(k << 1) + 1];
}
mrgCtx.mmvdUseAltHpelIf[currBaseNum] = mrgCtx.useAltHpelIf[k];
currBaseNum++;
if (currBaseNum == MMVD_BASE_MV_NUM) //只取前两个MV
{
break;
}
}
}
}
(2)基于初始MV,对每种初始MV进行细化搜索,总共得到64种细化MV,遍历这64种细化的MV,通过率失真准则选出最优MV
if ( pu.cs->sps->getUseMMVD() ) //使用MMVD模式,这里选出最优的MMVD的Merge候选(初始MV+搜索方向+搜索步长)
{
cu.mmvdSkip = true;
pu.regularMergeFlag = true; //普通Merge列表依旧可用,因为初始的MV还是要从普通Merge中获取
const int tempNum = (mergeCtx.numValidMergeCand > 1) ? MMVD_ADD_NUM : MMVD_ADD_NUM >> 1;
//对MMVD候选循环遍历,由于每个初始MV共有4种搜索方向,8种搜索步长,即每个初始MV产生32种细化MV
for (int mmvdMergeCand = 0; mmvdMergeCand < tempNum; mmvdMergeCand++)
{
int baseIdx = mmvdMergeCand / MMVD_MAX_REFINE_NUM;//初始MV索引,要么0 要么1(这里就是两个初始MV的起点,每个初始MV有32种4*8的步长+方向的组合)
int refineStep = (mmvdMergeCand - (baseIdx * MMVD_MAX_REFINE_NUM)) / 4;//表示8种步长
if (refineStep >= m_pcEncCfg->getMmvdDisNum())
continue;
//设置MMVD候选的信息,得到每个扩展MV具体的搜索初始点以及每个方向以及对应的步长
mergeCtx.setMmvdMergeCandiInfo(pu, mmvdMergeCand);
PU::spanMotionInfo(pu, mergeCtx);
pu.mvRefine = true;
distParam.cur = singleMergeTempBuffer->Y();
pu.mmvdEncOptMode = (refineStep > 2 ? 2 : 1);
CHECK(!pu.mmvdMergeFlag, "MMVD merge should be set");
// Don't do chroma MC here
// //MMVD的Merge候选运动补偿计算预测值
m_pcInterSearch->motionCompensation(pu, *singleMergeTempBuffer, REF_PIC_LIST_X, true, false);
pu.mmvdEncOptMode = 0;
pu.mvRefine = false;
Distortion uiSad = distParam.distFunc(distParam);//失真函数
m_CABACEstimator->getCtx() = ctxStart;
uint64_t fracBits = m_pcInterSearch->xCalcPuMeBits(pu);//计算码率
double cost = (double)uiSad + (double)fracBits * sqrtLambdaForFirstPassIntra;//计算RD Cost
insertPos = -1;
//更新候选列表
updateCandList(ModeInfo(mmvdMergeCand, false, true, false), cost, RdModeList, candCostList, uiNumMrgSATDCand, &insertPos);
if (insertPos != -1)
{
for (int i = int(RdModeList.size()) - 1; i > insertPos; i--)
{
swap(acMergeTempBuffer[i - 1], acMergeTempBuffer[i]);
}
swap(singleMergeTempBuffer, acMergeTempBuffer[insertPos]);
}
}
} // MMVD
其中,在setMmvdMergeCandiInfo函数中实现对每种MV进行各个方向各步长的搜索
// 设置MMVD的候选信息,candIdx就是32种组合中的一种模式的索引
void MergeCtx::setMmvdMergeCandiInfo(PredictionUnit& pu, int candIdx)
{
const Slice &slice = *pu.cs->slice;
const int mvShift = MV_FRACTIONAL_BITS_DIFF; // 2
//参考MVD的候选,2,8,16,32,64,128,256
const int refMvdCands[8] = { 1 << mvShift , 2 << mvShift , 4 << mvShift , 8 << mvShift , 16 << mvShift , 32 << mvShift, 64 << mvShift , 128 << mvShift };
int fPosGroup = 0;
int fPosBaseIdx = 0;//起始MV的索引
int fPosStep = 0;//搜索步长
int tempIdx = 0;
int fPosPosition = 0;//搜索的方向
Mv tempMv[2];//里面存储前向和后向MV
tempIdx = candIdx;//组合新的MV索引
fPosGroup = tempIdx / (MMVD_BASE_MV_NUM * MMVD_MAX_REFINE_NUM);//整个候选列表的初始位置为0
tempIdx = tempIdx - fPosGroup * (MMVD_BASE_MV_NUM * MMVD_MAX_REFINE_NUM);//传进来扩展MV的索引
fPosBaseIdx = tempIdx / MMVD_MAX_REFINE_NUM;//初始MV的索引(0或者1)
tempIdx = tempIdx - fPosBaseIdx * (MMVD_MAX_REFINE_NUM);//0-31(各自初始向量的32种扩展MV)
fPosStep = tempIdx / 4;//每个初始MV对应的8种搜索步长的索引
fPosPosition = tempIdx - fPosStep * (4);//该值总为0-3,对应四个搜索方向
int offset = refMvdCands[fPosStep]; // 8种步长对应的偏置
if ( pu.cu->slice->getPicHeader()->getDisFracMMVD() )
{
offset <<= 2;
}
const int refList0 = mmvdBaseMv[fPosBaseIdx][0].refIdx;//初始MV的前向参考列表
const int refList1 = mmvdBaseMv[fPosBaseIdx][1].refIdx;//初始MV的后向参考列表
if ((refList0 != -1) && (refList1 != -1)) //双向参考列表存在
{
const int poc0 = slice.getRefPOC(REF_PIC_LIST_0, refList0); // 前向参考帧的POC
const int poc1 = slice.getRefPOC(REF_PIC_LIST_1, refList1); // 后向参考帧的POC
const int currPoc = slice.getPOC();// 当前帧的POC
//前向MV的四种搜索方向
if (fPosPosition == 0)
{
tempMv[0] = Mv(offset, 0);//右
}
else if (fPosPosition == 1)
{
tempMv[0] = Mv(-offset, 0);//左
}
else if (fPosPosition == 2)
{
tempMv[0] = Mv(0, offset);//下
}
else
{
tempMv[0] = Mv(0, -offset);//上
}
//前后参考帧属于同一帧
if ((poc0 - currPoc) == (poc1 - currPoc))
{
tempMv[1] = tempMv[0]; //双向的MVD是一样的
}
else if (abs(poc1 - currPoc) > abs(poc0 - currPoc)) //后向参考帧的POC大于前向参考帧的POC
{
const int scale = PU::getDistScaleFactor(currPoc, poc0, currPoc, poc1); //缩放因子
tempMv[1] = tempMv[0];
const bool isL0RefLongTerm = slice.getRefPic(REF_PIC_LIST_0, refList0)->longTerm;
const bool isL1RefLongTerm = slice.getRefPic(REF_PIC_LIST_1, refList1)->longTerm;
if (isL0RefLongTerm || isL1RefLongTerm) //有其中一个是长期参考帧
{
if ((poc1 - currPoc)*(poc0 - currPoc) > 0) //双向的参考图片的POC均大于或均小于当前图片的POC
{
tempMv[0] = tempMv[1];
}
else //一向参考图片的POC大于当前图片的POC,另一向参考图像的POC小于当前图像的POC
{
tempMv[0].set(-1 * tempMv[1].getHor(), -1 * tempMv[1].getVer());
}
}
else //都不是长期参考帧
tempMv[0] = tempMv[1].scaleMv(scale);
}
else
{
const int scale = PU::getDistScaleFactor(currPoc, poc1, currPoc, poc0);
const bool isL0RefLongTerm = slice.getRefPic(REF_PIC_LIST_0, refList0)->longTerm;
const bool isL1RefLongTerm = slice.getRefPic(REF_PIC_LIST_1, refList1)->longTerm;
if (isL0RefLongTerm || isL1RefLongTerm)
{
if ((poc1 - currPoc)*(poc0 - currPoc) > 0)//若前后参考帧都来自当前帧的时域的同一侧,后向MMVDoffset与前向相等
{
tempMv[1] = tempMv[0];
}
else //若前后参考帧来自不同侧,前向和后向的MMVDoffset相对称
{
tempMv[1].set(-1 * tempMv[0].getHor(), -1 * tempMv[0].getVer());
}
}
else
tempMv[1] = tempMv[0].scaleMv(scale);
}
pu.interDir = 3;
//这里为每个选中的MV选择起始MV然后加上然后加上步长和方向
pu.mv[REF_PIC_LIST_0] = mmvdBaseMv[fPosBaseIdx][0].mv + tempMv[0];
pu.refIdx[REF_PIC_LIST_0] = refList0;
pu.mv[REF_PIC_LIST_1] = mmvdBaseMv[fPosBaseIdx][1].mv + tempMv[1];
pu.refIdx[REF_PIC_LIST_1] = refList1;
}
else if (refList0 != -1) //如果只有前向列表存在
{
if (fPosPosition == 0) //右
{
tempMv[0] = Mv(offset, 0);
}
else if (fPosPosition == 1)
{
tempMv[0] = Mv(-offset, 0); //左
}
else if (fPosPosition == 2)
{
tempMv[0] = Mv(0, offset); //下
}
else
{
tempMv[0] = Mv(0, -offset); //上
}
pu.interDir = 1;
pu.mv[REF_PIC_LIST_0] = mmvdBaseMv[fPosBaseIdx][0].mv + tempMv[0];
pu.refIdx[REF_PIC_LIST_0] = refList0;
pu.mv[REF_PIC_LIST_1] = Mv(0, 0);
pu.refIdx[REF_PIC_LIST_1] = -1;
}
else if (refList1 != -1)
{
if (fPosPosition == 0)
{
tempMv[1] = Mv(offset, 0);
}
else if (fPosPosition == 1)
{
tempMv[1] = Mv(-offset, 0);
}
else if (fPosPosition == 2)
{
tempMv[1] = Mv(0, offset);
}
else
{
tempMv[1] = Mv(0, -offset);
}
pu.interDir = 2;
pu.mv[REF_PIC_LIST_0] = Mv(0, 0);
pu.refIdx[REF_PIC_LIST_0] = -1;
pu.mv[REF_PIC_LIST_1] = mmvdBaseMv[fPosBaseIdx][1].mv + tempMv[1];
pu.refIdx[REF_PIC_LIST_1] = refList1;
}
pu.mmvdMergeFlag = true;
pu.mmvdMergeIdx = candIdx;
pu.mergeFlag = true;
pu.regularMergeFlag = true;
pu.mergeIdx = candIdx;
pu.mergeType = MRG_TYPE_DEFAULT_N;
pu.mvd[REF_PIC_LIST_0] = Mv();
pu.mvd[REF_PIC_LIST_1] = Mv();
pu.mvpIdx[REF_PIC_LIST_0] = NOT_VALID;
pu.mvpIdx[REF_PIC_LIST_1] = NOT_VALID;
pu.mvpNum[REF_PIC_LIST_0] = NOT_VALID;
pu.mvpNum[REF_PIC_LIST_1] = NOT_VALID;
pu.cu->imv = mmvdUseAltHpelIf[fPosBaseIdx] ? IMV_HPEL : 0;//MV使用半像素精度
pu.cu->BcwIdx = (interDirNeighbours[fPosBaseIdx] == 3) ? BcwIdx[fPosBaseIdx] : BCW_DEFAULT;
for (int refList = 0; refList < 2; refList++)
{
if (pu.refIdx[refList] >= 0)
{
pu.mv[refList].clipToStorageBitDepth();
}
}
PU::restrictBiPredMergeCandsOne(pu);
}