《H.264/AVC视频编解码技术详解》视频教程已经在“CSDN学院”上线,视频中详述了H.264的背景、标准协议和实现,并通过一个实战工程的形式对H.264的标准进行解析和实现,欢迎观看!
“纸上得来终觉浅,绝知此事要躬行”,只有自己按照标准文档以代码的形式操作一遍,才能对视频压缩编码标准的思想和方法有足够深刻的理解和体会!
链接地址:H.264/AVC视频编解码技术详解
GitHub代码地址:点击这里
一、上下文自适应的二进制算术编码
在上篇博文【H.264/AVC视频编解码技术详解】十八:算术编码的基本原理与实现中研究了算术编码的基本概念,然而在实际的H.264编解码的方法中,显然是不可能采用上文中简单的算法来实现。在实际应用中,H.264采用的为称作上下文自适应的二进制算术编码(Context-based Adaptive Binary Arithmetic Coding, CABAC)。CABAC算法是H.264中新引入的一种非常复杂的熵编码算法,专门用于视频的压缩编码。事实证明,在视频压缩编码领域,CABAC保持了强大的生命力,在H.264更新的标准H.265中继续保留了CABAC算法,并且废弃了CAVLC而将CABAC作为主要的熵编码方法。
在CABAC中,主要步骤或算法可以分为3个步骤/类别:
- 语法元素的二值化;
- 上下文模型;
- 算术编码;
在本章节中主要讨论语法元素二值化过程,上下文模型和算术编码在后续章节详述。
二、二值化方法
我们知道,预测编码、变换编码等步骤输出的信息多种多样,不会仅仅出现二进制数据,例如宏块类型mb_type或预测模式pred_mode等信息具有比较广泛的取值范围。在输入算术编码器之前,需要对这些语法元素进行二值化操作。在H.264的标准文档中,二值化的方法定义在9.3.2节。
语法元素二值化的输入数据为一个语法元素的值,例如型mb_type等。而输出的信息为语法元素的二值化数据流,以及maxBinIdxCtx、ctxIdxOffset和bypassFlag等信息。在协议文档中定义的二值化方法有:
- 一元二值化(Unary Binarization);
- 截断一元二值化(Truncated Unary Binarization);
- k阶指数哥伦布编码;
- 定长编码;
- 其他方法;
2.1 一元二值化(Unary Binarization)
一元二值化方法是一种非常简单的方法。二值化之后的码流长度等于语法元素的值val,且除了最后一位为0外,前面的val-1位均为1。对应关系为:
2.2 截断一元二值化(Truncated Unary Binarization)
采用截断一元二值化方法时,输入数据除了语法元素的值之外,还需要传入一个值cMax,表示语法元素的上限值。使用截断一元二值化时,如果语法元素的值小于cMax,则采用2.1所述的一元二值化方法;如果语法元素的值等于cMax,则二值化的输出码流为cMax个bit-1。
2.3 k阶指数哥伦布编码
指数哥伦布编码在前面的博文中已有详述,详情可见:
2.4 定长编码
定长编码的输入数据包括语法元素的值和cMax,,表示语法元素的上限值。定长编码的码字长度以cMax的长度为准,并按二进制排列每一个语法元素值作为编码的对应。
三、语法元素的二值化
3.1 语法元素相关的特定二值化方法
在标准协议文档的9.2.3.5描述了宏块类型mb_type和子宏块类型sub_mb_type的二值化。这两种类型的二值化方法不是由某个算法推导,而是由表格指定。表9-36到9-38描述了此类语法元素的值与二进制数据的关系。
3.2 Coded Block Pattern的二值化
对于CBP数据,其二值化码流由前缀和后缀组成。前缀表示亮度cbp,即CodedBlockPatternLuma,由cMax为15的定长编码实现;若ChromaArrayType不等于0或3,则后缀表示色度cbp即CodedBlockPatternChroma,由cMax为2的截断一元编码表示。
3.3 mb_qp_delta的二值化
mb_qp_delta的二值化过程需要首先解决一个其取值有正有负的过程,因此首先采用了标准文档中表9-3中的正负值映射方法将mb_qp_delta全部转换为非负值,而后采用一元编码方法进行二值化。