基于纹理特性的全景视频快速帧内编码算法*

时间：2024-07-28

钱鹏飞，王甯琪，张冬冬

(同济大学电子与信息工程学院，上海 201800)

0 引言

随着近年来信息技术的发展以及VR设备的普及，使得消费者对于观看360°全景视频也有了更为迫切的需求。而现在流行的360°全景视频与传统的二维视频有很大的不同。以现在比较通用的矩形球面投影(EquiRectangular Projection,ERP)[1]格式为例：其分辨率和帧率和普通视频相比较高而且还具有特殊的投影格式。这些特性都使得HEVC在编码360°全景视频时显得力不从心，难以取得较好的效果。因此现有的视频编码标准已经无法满足需求，所以现在迫切需要开发出下一代的视频编码技术来解决这一问题。针对这一问题,ITU-T视频编码专家组(Video Coding Experts Group,VCEG)以及动态图像专家组(Moving Picture Experts Group,MPEG) 正在研究新的面向未来的下一代编码技术，并成立了联合视频探索专家组(Joint Video Exploration Team,JVET)[2]来完成相关算法的研究以及标准的制定，期望可以获得远超HEVC的编码性能。到目前为止，JVET已经开发出了下一代视频编码技术，并公布了相关的开源算法性能评估的测试平台：联合探索模型(Joint Exploration Model,JEM)[3]。本文中所有的实验数据均是在JEM7.0平台上获取的并和标准算法进行对比。截至目前来看，VVC比HEVC高出约40%的压缩性能，同时也引入了更高的计算复杂度。相对于HEVC来说，在帧内编码方面VVC并未增加特别的编码技术。所有性能的增加均来自于对HEVC中技术的优化。包括更大的编码单元，多一倍的编码预测模式以及使用了更加复杂的滤波器，这些都使得帧内编码复杂度升高[4]。在此之前已有相关的文献对JEM7.0的编码时间进行分析，文献[5]指出，其编码的时间主要耗费在帧内编码相关的处理上，实验结果表明JEM7.0的计算耗时约为HM16.6[6]的20倍。在文献[7]中提出了新的基于案例的多候选列表方法来更好地利用相邻块信息求出MPM，从而优化帧内编码的时间复杂度。在文献[8]中，提出了一种优化后的QTBT编码结构。虽然现在已经针对VVC做了很多的优化工作，也取得了一些进展，但是其算法的时间复杂度还很高，仍需要继续优化。

本文针对360°全景视频的特性进行了统计分析，利用图像块经过DCT变换后的系数呈现的特性来对编码算法进行优化：图像经过DCT变换后的系数可以在一定程度上反映出视频块的纹理复杂度以及方向性。在本文中，首先对各种待编码的视频进行统计分析，得到各种图像类型的最优预测模式的分布情况和DCT变换后非0系数的关系。然后对视频的原始像素块的纹理方向进行判断，根据判断的结果得到最终缩减后的候选帧内编码预测模式，加快帧内编码预测模式的选择过程。

1 基于纹理特性的快速帧内编码算法分析

在VVC中也采用了和HEVC中相同的帧内模式选择算法，名为粗模式选择(Rough Mode Decision,RMD)。该算法为了降低计算复杂度采用两轮选择的方式。首先使用较低复杂度的代价选择算法选出包含最优模式的若干种候选预测模式，然后从候选预测模式中选择最优的预测模式进行帧内编码。大家都知道，对二维图像做DCT变换，是一个从空间域到频率域的变换过程。变换以后可以发现，左上角的系数一般较大，而右下角的系数一般都趋近于0。这是因为左上角的是低频分量，右下角的则是高频分量。低频分量体现的是图像中目标的轮廓和灰度分布特性，而高频分量则体现的是目标形状的细节信息。在经过DCT变换以后，能量主要集中在低频分量处。如果对一个图像块做完DCT变换以后得到的DCT系数中，非0系数的个数比较少，那么该图像块纹理的细节信息不丰富，也就是其纹理复杂度较低。所以可以依据该特性对图像块的纹理复杂度进行分析，找出其纹理复杂度和帧内编码的最优模式之间的关系。

为了验证上文中的分析，进行了一个实验，统计和分析了在不同数量的非0系数下最优模式的分布情况。通过对实验数据的分析，发现了一个规律：当图像经过DCT变换后非0系数的数量小于某一个阈值的时候，其帧内编码的最优模式分布呈现了较为集中的现象，主要分布在Planar、DC、模式18以及模式50。从图1可以看出，当待编码像素块的DCT非0系数个数为1的时候，几乎所有的像素块的最优的模式都集中在：Planar、DC、水平模式18或垂直模式50。

图1 帧内编码最优模式分布情况

这说明了当像素块的DCT变换后的非0系数较小时，其最优模式的分布呈现一定的规律。进一步利用文献[4]中的算法对像素块进行分析，以Cat_4k视频序列(3 840×1 920)为例。图2为实验结果，从中可以看出，当判断出图像纹理为水平或垂直方向时，其最终的编码模式也属于水平或垂直模式的概率，准确率均超过91%。因此当判断出像素块的纹理方向为水平或垂直时，相应地其最优模式也有很大概率为18或50。根据这一统计分析的结果，可以快速地得出RMD中的模式，从而加快模式选择的过程。

图2 各个尺度下纹理方向预测准确度

2 本文提出的帧内预测模式快速决策算法

从前文的统计信息可以看出，对于所有的测试视频来说，当原始像素值进过DCT变换后的非0系数个数较少的时候，帧内编码的最优模式有较大概率为Planar或DC模式。同时可以看出当图像呈现出一定的纹理方向特征的时候，也会出现大量的水平18或垂直50模式。所以，可以进一步地挖掘图像纹理方向和帧内编码的最优模式之间的关系。算法具体描述如下：首先对待编码像素块进行一次DCT变换，然后得到变换后的系数。统计其中的非0系数的个数，记为NDCT。如果NDCT小于预设的阈值NThreshold(对于32×32以及16×16大小的编码块，NThreshold=11；其余尺寸编码块为NThreshold=2)，则跳过预测模式的粗选择过程，将帧内预测候选模式直接设为0(Planar)和1(DC)。否则，按照JEM7.0标准流程继续。如果前面的条件满足，接着利用文献[9]中的算法得到像素块的纹理方向，记为BlockType(1、2或其他)。如果BlockType为1，表示当前图像纹理方向为水平，则将代表水平预测模式的18加入候选预测模式；如果BolckType为2，表示当前图像的纹理方向为垂直，则将代表垂直预测模式的50加入候选预测模式。算法流程图如图3所示。

图3 帧内预测模式快速决策算法流程图

3 实验结果

(1)

实验结果如表1所示。从中可以看出，本文提出的快速算法平均可以节省24.08%的编码时间，最高为34.80%，最低为13.62%，同时损失了0.80%的BD-Rate。

表1 实验结果(%)

4 结论

在本文中提出了一种针对360°全景视频的帧内预测模式快速决策算法。通过分析图像纹理的复杂度以及方向性来提前预测帧内编码的最优模式以缩减其候选模式数量，减少冗余计算来降低其算法复杂度。实验结果表明，在几乎不影响编码质量的前提下，平均可以节省24.08%的编码时间，具有较大的实用价值，利用本文所提出的快速算法能够将360°全景视频的编码时间大幅降低。现在很多的VR设备都以360°全景视频作为视频源，因此可以将该算法应用在对相关全景视频的压缩中，以提高压缩效率。