DCC论文解读 | 基于深度强化学习的视频比特码率控制算法

2021-11-25 03:18:13

原创淘系技术淘系技术 4月2日

随着淘宝内容化的战略升级，直播、短视频等富媒体的表现方式在淘宝业务中落地开花，硕果累累。在互联网信道带宽不断波动的情况下，如何为用户提供高质量的视频播放体验，是各个多媒体服务商孜孜追求的梦想。每当新的技术出现的时候，大家都会积极探索是否可以应用这些新技术来解决目前存在的问题。

近几年深度强化学习在优化学习算法领域大放异采，为很多优化学习问题带来了很好的解决方案。信道带宽波动和视频码率控制这一问题本身也就是优化学习的一个问题。

那么是否可能应用深度强化学习来解决视频码率控制的优化学习问题呢？

淘系技术和达摩院，联合了新竹交通大学的彭文孝教授一起在这个问题上做了前沿技术的探索工作，并取得了一定的成果。相关成果在发表在了Data Compression Conference 2021。下面就重点介绍我们在这一块的工作成果。

背景

随着4G网络的深入普及,目前超过80%的网络流量来自于视频应用, 其应用包括了视频点播、直播和低延时视频会议等。因此, 如何进一步提升的视频压缩比对于现今的视频应用而言就显得格外重要。

视频压缩的目的是尽可能地减少码率的同时维持好的视频质量, 而码率控制算法就是用来平衡视频码率与视频质量的关键技术。在真实应用中, 带宽是有限的, 为了充分地利用带宽又不超出带宽的限制, 我们会使用码率控制使得输出码率接近目标码率。

譬如说, 在一秒的影片中有30帧, 目标码率为500kb/s, 码率控制就是要将500k比特分配至这30帧, 使得这30帧拥有最佳的视觉效果。基于传统机器学习的优化算法如AVC/H.264, HEVC/H.265有不同的方法来解决码率控制的问题。

虽然这些系统都是经过专家的精心设计, 但是由于算法实现的复杂度和对于编码效率的考量，最终的实现版本并不保证就是最佳效果的比特分配实现。

提出方法

深度强化学习网络近几年在优化学习算法领域大放异采。为此，我们提出了利用深度强化学习网络来学习比特分配的新思路。强化学习的目标是学习一种策略来最大化奖励函数, 对于比特分配的应用, 要学习的目标就是比特分配的策略, 而奖励函数可以是压缩后的失真以及码率的误差值。然而因为对于各式各样的影片, 我们无法有效正确的评估失真与码率差的权重。

因此我们提出了独立的两个失真以及码率误差的奖励函数, 当位比特配大于目标码率时, 我们独立采用码率差的奖励函数来引导策略学习, 使其能够回到码率的限制内。而当比特分配小于目标码率时, 我们独立采用失真的奖励函数来引导策略学习,使其能够使用更多的比特来减少失真。我们提出的基于强化学习的比特分配算法如下图所示：

DCC论文解读 | 基于深度强化学习的视频比特码率控制算法

▲ 提出的强化学习架构

实验结果

对于比特分配, 因为希望实际码率能服从目标码率, 我们的主要评估方式是使用BD-PSNR, 其定义为在相同的码率下, 我们提出的方法相对于传统X265(anchor)在客观PSNR评估下的进步量。
从客观品质比较表可以观察到, 我们提出的方法无论在哪种常规的测试影片中, PSNR的值都有显著进步，整体平均进步量为0.94dB。转换成BD-rate，我们的方法相对于X265在相同PSNR下，整体平均会有19.2%的比特率节省量，且仅有6.2%的码率误差。主观品质比较表也显示说明我们的方法相对于传统X265有更好的视觉效果。基于该方法的论文将在Data Compression Conference2021上发表。

DCC论文解读 | 基于深度强化学习的视频比特码率控制算法

▲ 客观品质比较表

DCC论文解读 | 基于深度强化学习的视频比特码率控制算法

▲ 主观品质比较表

未来的应用展望

本项研究工作展现了深度强化学习在视讯编码的潜力，相关的做法可以被扩展到更复杂的编码器控制或者针对过去难以优化的主观视觉品质进行优化。学术上也开始出现利用强化学习优化视讯编码器使得压缩过的视讯可利于物件辨认或者其他电脑视觉应用。我们相信深度强化学习在视讯编码应用还有更多的可能性在未来值得探索。

DCC论文解读 | 基于深度强化学习的视频比特码率控制算法

彭文孝博士于2005年在*新竹交通大学获得电子工程博士学位。他曾在美国加利福尼亚州英特尔微处理器研究实验室工作，并于2015年至2016年在美国纽约IBM Thomas J. Watson研究中心担任访问学者。

自2003年以来，他一直积极参与ISO/IEC MPEG数字视频编码标准化过程，并为HEVC标准，HEVC屏幕内容编码扩展和MPEG-4第10部分的可扩展视频编码(SVC)标准开发做出了贡献。他目前是新竹交通大学计算机科学系的教授，他在视频/图像处理和通信领域撰写了75篇技术论文，并有60多项标准贡献案。

他的研究兴趣包括基于学习的视频/图像编码，多媒体分析和计算机视觉。他曾担任2021 IEEE VCIP，2011 IEEE VCIP，2017 IEEE ISPACS和2018 APSIPA ASC等会议的技术联席主席; 2019 IEEE ICIP的出版主席; IEEE ICME/VCIP/PCS的区域主席/会议主席/Tutorial讲师。

他目前是IEEE电路与系统学会的视觉信号处理和通信技术委员会主席，IEEE JETCAS的副主编，IEEE TCSVT的副编辑，并担任过IEEE TCAS-II的客座编辑以及APSIPA特聘讲师。

????橙子说

点击左下角 “阅读原文”

即可获取【DCC论文完整版】

DCC论文解读 | 基于深度强化学习的视频比特码率控制算法

码农公寓

相关文章