利用视觉感知特性指导多视点视频编码量化过程的方法转让专利

申请号 : CN201210402003.9

文献号 : CN103124347B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王永芳商习武刘静宋允东张兆杨

申请人 : 上海大学

摘要 :

本发明涉及一种利用视觉感知特性指导编码量化过程的方法。本方法的操作步骤如下:(1)读取输入视频序列每一帧的亮度值大小,建立频域的恰可辨失真阈值模型,(2)输入视频序列每一帧经过视点内和视点间的预测,(3)对残差数据进行离散余弦变换,(4)动态调节当前帧中每个宏块的量化步长,(5)动态调节率失真优化过程中的拉格朗日参数,(6)对量化的数据进行熵编码,形成码流通过网络传输。本发明在保证主观质量基本保持不变的情况下,提高了视频压缩效率,更加适合在网络中传输。

权利要求 :

1.一种利用视觉感知特性指导多视点视频编码量化过程的方法,其特征在于操作步骤如下:(1) 读取输入视频序列每一帧的亮度值大小,建立频域的恰可辨失真阈值模型,(2) 输入视频序列每一帧经过视点内和视点间的预测,(3) 对残差数据进行离散余弦变换,

(4) 动态调节当前帧中每个宏块的量化步长,(5) 动态调节率失真优化过程中的拉格朗日参数,具体步骤为:① 比较每帧的恰可辨失真阈值均值和当前宏块的恰可辨失真阈值的均值;

② 调整拉格朗日参数,调整后的拉格朗日参数其表达式为:其中 为调节因子, 为调整后的量化步长, 表示编码框架原有量化步长, 表示当前宏块的恰可辨失真阈值的均值, 表示当前帧的恰可辨失真阈值的均值;

③ 编码代价函数的优化,动态调节拉格朗日参数,使得率失真优化函数在量化步长改变的情况下,重新获得最优解;其表达式为:其中 为失真信号, 为不同编码模式下编码的比特数, 是调整后的拉格朗日参数;

(6) 对量化的数据进行熵编码,形成码流通过网络传输。

2.根据权利要求1所述的利用视觉感知特性指导多视点视频编码量化过程的方法,其特征在于所述步骤(1)读取输入视频序列每一帧的亮度值大小,建立频域的恰可辨失真阈值模型的操作步骤如下:① 根据DCT变换的维数分别求出4x4和8x8DCT变换的空间灵敏度因子 ,其公式为:

其中s为控制参数, 为DCT系数向量所代表的频率的角度, 为DCT系数归一化因子表达式为:,

为空间频率,参数r,a,b和c根据DCT变换的大小不同而不同:对于8×8块尺寸的DCT编码格式,为0.6,为1.33,为0.11,为0.18;对于4×4块尺寸的DCT编码格式,为0.6, 为0.8,为0.035,为0.008;

② 根据实验测得人眼在不同背景亮度条件下,亮度掩盖效应 曲线表示如下:其中,为当前编码块的平均像素值;

③ 利用边缘检测器检测当前编码块的纹理特性,求出纹理掩盖因子 ,其表达式如下:其中, 表示变换块的横纵坐标系数, 表示对比掩盖估计因子, 为空间灵敏度因子, 为当前帧的第n个编码块的DCT变换系数;

④ 根据视频序列每帧中物体运动的快慢,实验测得时域掩盖效应因子 表达式为:其中, 为空间频率, 为时间频率;

⑤ 所述步骤①~④求得的四种因子的加权乘积即构成当前编码帧的恰可辨失真阈值。

3.根据权利要求1所述的利用视觉感知特性指导多视点视频编码量化过程的方法,其特征在于所述步骤(2)输入视频序列每一帧经过视点内和视点间的预测的操作步骤如下:① 进行视点内的帧间和帧内预测,将预测值和当前要编码的帧进行比较,选取编码代价较小的一种编码方式;

② 进行视点间的预测,当前视点的当前编码帧根据参考视点的对应帧进行预测,将预测值和参考视点的对应帧进行比较,求得视点间预测的编码代价;

③ 比较视点间和视点内的编码代价,选择较小编码代价的那种预测模式。

4.根据权利要求1所述的利用视觉感知特性指导多视点视频编码量化过程的方法,其特征在于所述步骤(3)对残差数据进行离散余弦变换的操作步骤如下:① 编码块大小的判决,当编码块的任一边长小于8,则归类为4x4变换块,反之,则为

8x8变换块;

② 当为4x4变换块,选择4x4 DCT变换,当为8x8变换块,选择8x8DCT变换。

5.根据权利要求1所述的利用视觉感知特性指导多视点视频编码量化过程的方法,其特征在于所述步骤(4)动态调节当前帧中每个宏块的量化步长的操作步骤如下:① 计算当前帧的恰可辨失真阈值的平均值;

② 计算当前编码宏块的恰可辨失真阈值平均值;

③ 比较每帧的恰可辨失真阈值均值和当前宏块的恰可辨失真阈值的均值,动态调节当前宏块的量化步长,调节后的量化步长其表达式如下:其中, 表示编码框架原有量化步长, 表示当前宏块的恰可辨失真阈值的均值, 表示当前帧的恰可辨失真阈值的均值, 为调节因子。

6.根据权利要求1所述的利用视觉感知特性指导多视点视频编码量化过程的方法,其特征在于所述步骤(6)对量化的数据进行熵编码,形成码流通过网络传输的操作步骤如下:① 量化后的数据进行熵编码,使得量化后的数据形成二进制码流;

② 编码码流通过网络传输。

说明书 :

利用视觉感知特性指导多视点视频编码量化过程的方法

技术领域

[0001] 本发明涉及多视点视频编解码技术领域,特别是利用视觉感知特性指导多视点视频编码量化过程的方法,适用于高清3D视频信号的编解码。

背景技术

[0002] 随着时代发展,人们对视听感受的要求越来越高,不满足于现有的单视二维视频。人们对于立体感体验要求越来越高,从固定角度的立体感到任意角度都可以感受到立体感,从而催生出多视点编码技术的发展。然而,多视点要求的数据大大提高,如何有效的提高视频压缩效率成为研究热点。目前,视频压缩技术主要集中在去除空间冗余、时间冗余和统计冗余三个方面。尽管视频专家推出新一代视频压缩编码技术(HEVC),期待视频压缩效率在H.264基础上再提高一倍。然而,由于人类视觉系统(HVS)自身的特性,存在着感知冗余还是没有被去除。随着对人眼视觉特性研究的渐渐深入,有视频工作者提出了去除人眼冗余的恰可辨失真模型(Just Noticeable Distortion,JND)。即根据得到的JND阈值度量感知冗余的大小,当变化值低于这个阈值就不被人眼感知。
[0003] 目前对于JND的研究主要分为两大类:像素域JND和频域JND模型。其中,文献[1]中提出的JND模型是经典的像素域模型,分别研究了亮度掩盖特性、纹理掩盖特性和时域掩盖特性。文献[2]中提出的频域JND模型在研究了前三种特性外,还研究了人眼对不同频率段的敏感性,这样使得频域JND模型更加符合人眼的视觉特性。
[0004] 针对文献[2]中提出的JND模型,是目前比较完备的DCT域JND模型。它除了包含像素的亮度掩盖特性和纹理掩盖特性,还增加了空间灵敏度函数效应。空间灵敏度函数反映了人眼的带通特性,通过去除人眼不能感知的频率成分达到去除人眼感知频率冗余目的。在时域掩盖效应中,包含了平滑眼球移动效应,不仅包含了运动幅度的大小,还包含了运动的方向信息。有研究者将其与多视点视频相结合作用于残差DCT变换(离散余弦变换)后,极大提高了压缩效率。但是,没有将其用于其他的编码过程如量化过程,故其去除视觉冗余性不够彻底。
[0005] 文献[3]中建立的JND模型,虽然提出了利用JND模型指导量化过程。然而其建立的JND模型是像素域的,缺少了去除人眼频率冗余的过程,导致指导量化过程不够精确。其次,针对JND模型保证了主观质量,只需要对人眼不敏感的地方进行调节量化值,而其它区域量化值保持不变。最后在调整量化参数同时,对应的调整拉格朗日参数。
[0006] 本发明专利申请首次提出将DCT域JND模型应用到多视点视频编码中量化过程,在保证主观质量不变的情况下,进一步提高视频压缩效率。
[0007] 文献[1]:X. Yang, W. Lin, and Z. Lu, “Motion-compensated residue preprocessing in video coding based on just-noticeable-distortion profile,” IEEE Trans. Circuits Syst. Video Technol., vol. 15, no. 6, pp. 742–752,2005.[0008] 文献[2]: Zhenyu Wei and King N. Ngan., "Spatio-Temporal Just Noticeable Distortion Profile for Grey Scale Image/Video in DCT Domain." IEEE transactions on circuits and systems for video technology.VOL. 19, NO. 3, March 2009.[0009] 文献[3]: Z. Chen and C. Guillemot, “Perceptually friendly H.26 /AVC video coding based on foveated just noticeable distortion model,” IEEE Trans. Circuits Syst. Video Technol., vol. 20, no. 6, pp. 806–819, Jun.2010.发明内容
[0010] 本发明的目的是针对已有技术存在的缺陷,提供一种利用视觉感知特性指导多视点视频编码量化过程的方法,该方法在保证视频主观质量不变的情况下,运用频域JND模型指导多视点量化过程,对人眼不敏感的区域提高量化步长,提高了视频压缩效率。在调整步长的同时,动态调整率失真优化函数的拉格朗日参数,使得编码效率进一步提高。
[0011] 为达到上述目的,本发明采用如下的技术方案:
[0012] 一种利用视觉感知特性指导多视点视频编码量化过程的方法,其特征在于操作步骤如下:
[0013] (1) 读取输入视频序列每一帧的亮度值大小,建立频域的恰可辨失真阈值模型,[0014] (2) 输入视频序列每一帧经过视点内和视点间的预测,
[0015] (3) 对残差数据进行离散余弦变换(DCT变换),
[0016] (4) 动态调节当前帧中每个宏块的量化步长,
[0017] (5) 动态调节率失真优化过程中的拉格朗日参数,
[0018] (6) 对量化的数据进行熵编码,形成码流通过网络传输。
[0019] 本发明的利用视觉感知特性指导多视点视频编码量化过程的方法与已有技术相比较,具有如下显而易见的突出实质性特点和显著技术进步:
[0020] 1)、本多视点视频编码方法在保证重建视频质量不变的同时,使得编码过程在通过量化这个子程序就能降低编码码率,试验中最大码率可以降到12.35%;
[0021] 2)、本多视点视频编码方法在保证重建视频质量不变的同时,采用平均主观分数差值,当主观分数差值接近0时,说明两种方法的主观质量越接近,本方法的平均主观分数差值为0.03,因此说本发明的主观质量与多视点视频编解码JMVC代码的主观质量相当;
[0022] 3)、本多视点视频编码方法没有增加特别复杂的编码过程,以较小的复杂度提高视频编码压缩效率。

附图说明

[0023] 图1是本发明中的利用视觉感知特性指导多视点视频编码量化过程的方法的原理框图。
[0024] 图2是频域的恰可辨失真模型的框图。
[0025] 图3是视点内/间预测的框图。
[0026] 图4是DCT变换框图。
[0027] 图5是动态调节量化步长的框图。
[0028] 图6是动态调节率失真代价函数中的拉格朗日参数的框图。
[0029] 图7是熵编码输出的框图。
[0030] 图8a是视频序列ballroom第0个视点第15帧图像使用JMVC原始编码方法的重建图像。
[0031] 图8b是视频序列ballroom第0个视点第15帧图像使用本发明方法的重建图像。
[0032] 图9是视频序列ballroom使用JMVC原始编码方法和本发明方法在不同QP和不同视点情况下,码率、PSNR值、重建视频主观质量评价分数差(DM0S)的对比结果。
[0033] 图10a是视频序列race1第1个视点第35帧图像使用JMVC原始编码方法的重建图像。
[0034] 图10b是视频序列race1第1个视点第35帧图像使用本发明方法的重建图像。
[0035] 图11是视频序列race1使用JMVC原始编码方法和本发明方法在不同QP和不同视点情况下,码率、PSNR值、重建视频主观质量评价分数差(DM0S)的对比结果。
[0036] 图12a是视频序列Crowd第2个视点第45帧图像使用JMVC原始编码方法的重建图像。
[0037] 图12b是视频序列Crowd第2个视点第45帧图像使用本发明方法的重建图像。
[0038] 图13是视频序列Crowd使用JMVC原始编码方法和本发明方法在不同QP和不同视点情况下,码率、PSNR值、重建视频平均主观评分差值(DM0S)的对比结果。

具体实施方式

[0039] 以下结合附图对本发明的优选实施例作进一步的详细说明:
[0040] 实施例一:
[0041] 本实施例利用视觉感知特性指导多视点视频编码量化过程的方法,参见图1,包括以下步骤:
[0042] (1) 读取输入视频序列每一帧的亮度值大小,建立频域的恰可辨失真阈值模型,[0043] (2) 输入视频序列每一帧经过视点内和视点间的预测,
[0044] (3) 对残差数据进行离散余弦变换,
[0045] (4) 动态调节当前帧中每个宏块的量化步长,
[0046] (5) 动态调节率失真优化过程中的拉格朗日参数,
[0047] (6) 对量化的数据进行熵编码,形成码流通过网络传输。
[0048] 实施例二:本实施例与实施例一基本相同,特别之处如下:
[0049] 上述步骤(1)中建立频域JND模型包括四个模型,参见图2:
[0050] (1-1)空间对比灵敏度函数模型是根据人眼的带通特性曲线,对于特定空间频率 其基本的JND阈值可表示为:
[0051]
[0052] 空间频率 的计算公式为:
[0053]
[0054] 其中,和 表示DCT变换块的坐标位置, 为DCT变换块的维数, 和 表示水平和垂直的视角,一般认为水平视角等于垂直视角,其表达为:
[0055]
[0056] 由于人眼视觉敏感度具有方向性,对水平和垂直方向比较敏感,对其他方向的敏感度相对小些。由此加上方向的调制因子可得:
[0057]
[0058] 为DCT系数向量所代表的频率的角度, 为DCT系数归一化因子表达式为:
[0059]
[0060] 最后加上控制参数 形成最终的空间灵敏度函数的调制因子为:
[0061]
[0062] 在多视点编码过程中,由于存在8×8和4×4大小的DCT变换,故参数有所区别。在实验中,对于8×8块尺寸的DCT编码格式,为0.6, 为1.33, 为0.11,为0.18;对于4×4块尺寸的DCT编码格式,为0.6, 为0.8,为0.035,为0.008。
[0063] (1-2)亮度掩盖效应模型是根据实验,人眼视觉感知敏感度在中间灰度值区域比在较黑和较亮的背景区域更加敏感,最后拟合出亮度掩盖效应曲线,其表达式为:
[0064]
[0065] 其中 是当前编码块的平均亮度值。
[0066] (1-3)纹理掩盖效应模型是根据图像纹理性的不同,可将图像分为三个区域:边界区,平滑区和纹理区。人眼依次对其敏感度降低。通常利用canny算子分出图像的各个区域。
[0067] 利用canny算子求出的边缘像素密度如下:
[0068]
[0069] 其中, 是块的边缘像素总数,由Canny边缘检测器获得。
[0070] 利用边缘像素密度 将图像块划分为平坦区,纹理区和边缘区,图像块分类的依据公式如下:
[0071]
[0072] 对于纹理区域,眼睛对低频部分失真不敏感,但高频部分适当进行保留。故得到对比掩盖的估计因子为:
[0073]
[0074] 其中( )是DCT系数标号。
[0075] 由于空间对比灵敏度函数效应和亮度效应的重叠效应,得到最终掩盖效应因子为:
[0076]
[0077] 其中,表示输入视频序列的第 帧, 为DCT系数, 为空间对比度灵敏度函数的阈值, 为亮度掩盖效应特性调制因子。
[0078] (1-4)时间对比灵敏度函数模型是根据实验测得时域掩盖效应的调制因子为:
[0079]
[0080] 其中, 表示时间频率, 表示空间频率。时间频率 其一般计算公式如下:
[0081]
[0082] 分别为空间频率的水平和垂直分量, 为视网膜上物体运动的速度。
[0083] 的计算式为:
[0084]
[0085] 其中, 和 表示像素水平和垂直的视角, 为DCT变换维数,和 表示DCT变换块的坐标位置。
[0086] 视网膜上图像的速度 计算方法如下:
[0087]
[0088] 其中, 是平滑跟踪眼球移动效应增益,实验中取0.98。 表示物体在图像平面的速度, 表示由于漂移运动引起的最小的眼球移动速度,其经验值为0.15.deg/s。 是和眼睛跳跃运动相对应的眼球的最大速度,通常取80deg/s, 是视频序列的帧率。 是每个块的运动矢量, 是像素的视角。
[0089] (1-5)四种因子的加权乘积即构成当前编码帧的恰可辨失真阈值,其表达式为:
[0090]
[0091] 其中, 为空间对比度灵敏度函数的阈值, 为亮度掩盖效应调制因子, 为掩盖效应调制因子, 为时域掩盖调制因子。
[0092] 上述步骤(2)是对输入视频序列进行视点间/内预测,参见图3,其具体步骤如下:
[0093] (2-1)视点内帧间/内预测是通过视点内的帧间预测去除当前帧的时间冗余,通过视点内的帧内预测去除当前帧的空间冗余。在帧内预测和帧间预测中选择率失真优化函数最小的那种预测方式。其中率失真优化函数表达式为:
[0094]
[0095] 其中 为失真信号, 为不同编码模式下编码的比特数, 是调整后的拉格朗日参数。
[0096] (2-2)进行视点间的预测是由于本方法是编码多个视点,通过视点间的对应帧进行预测当前帧,可以去除视点间的冗余信息。
[0097] (2-3)比较视点间和视点内的编码代价,在视点内预测中选择最佳的预测方式再和视点间的预测方式比较,选择率失真优化代价函数最小的预测方式为最佳预测方式。充分考虑视点间和视点内的冗余特性,选择合适的预测方式进一步提高视频压缩效率。
[0098] 上述步骤(3)对残差数据进行离散余弦变换,参见图4,其具体步骤如下:
[0099] (3-1)编码块大小的判决,在多 视点编码 方法中编码 块大小有七种情况,前四种归结为 变换块,后三种为变换块。
[0100] (3-2)对应的DCT变换,对于 变换块采用 DCT变换,对于 变换块采用DCT变换。
[0101] 上述步骤(4)动态调节当前帧中每个宏块的量化步长,参见图5,其具体步骤如下:
[0102] (4-1)通过已建立的JND模型,求出当前帧的平均JND值,平均JND阈值为:
[0103]
[0104] 其中, 和 分别表示图像帧的高度和宽度, 表示当前帧的恰可辨失真阈值, 表示像素的坐标。
[0105] (4-2)当前宏块的JND均值,第M个宏块的平均JND阈值表达为:
[0106]
[0107] (4-3)动态调节当前宏块的量化步长,恰可辨失真阈值反映了人眼对一幅图像各个部分的敏感度的不同,因此可以根据恰可辨失真阈值的不同来动态调节各宏块的量化步长。对于人眼不敏感的地方,将量化步长适当的调大,否则,量化值不变。提出的量化参数调节为:
[0108]
[0109] 其中, 是编码框架原有的步长, 为调节因子,其表达式由下式给出:
[0110]
[0111] 其中, 。
[0112] 上述步骤(5)动态调节率失真优化过程中的拉格朗日参数,参见图6,其具体操作步骤如下:
[0113] (5-1)计算并比较当前帧的JND均值和当前编码宏块的JND均值,为下一步对拉格朗日参数的加权提供依据。
[0114] (5-2)调整朗格朗日参数,前面调节了量化参数,拉格朗日率失真优化中的失真值和码率发生变化,此时再用原有的拉格朗日参数 值,就不能保证是最优解。同时对应加权拉格朗日参数,能使代价函数重新达到最优,调整后的 为:
[0115]
[0116] 其中, 表示多视点编码方法内生成的量化参数, 表示第 个宏块调整后的量化参数值。
[0117] (5-3)将调整后的拉格朗日参数代入到率失真优化代价函数中,其表达式如下:
[0118]
[0119] 其中 为失真信号, 为不同编码模式下编码的比特数, 是调整后的拉格朗日参数。这样使得在量化参数改变的同时,相应改变拉格朗日参数,使得率失真优化函数依然得到最优解。
[0120] 上述步骤(6)对量化的数据进行熵编码,形成码流通过网络传输,参见图7,其具体步骤如下:
[0121] (6-1)对量化的数据进行熵编码,这样使得量化的数据能被二进制码流最有效的表示,去除了量化数据的统计冗余。
[0122] (6-2)将熵编码形成的码流通过网络传输,实现视频的传输。在经过视觉感知特性处理的编码方法由于其占用带宽小,能够更好的适应网络传输。
[0123] 下面进行大量仿真实验来评估本文所提出的利用视觉特性的多视点视频编码方法的性能。在配置为Intel Pentium 4 CPU 3.00GHz, 512M Internal Memory, Intel8254G Express Chipset Family, Windows XP Operation System的PC机上编解码多视点视频序列ballroom、race1、crowd的前48帧,其中,BASIC QP设为20,24,28,32,实验平台选用多视点视频编解码参考软件JMVC,编解码预测结构选用HHI-IBBBP,视点间预测方式采用双向预测方式。
[0124] 视频序列ballroom的实验结果如图8a~8b、图9所示。图8a是视频序列ballroom在量化参数QP=24的情况下,第0个视点第15帧图像使用JMVC原始编码方法的重建图像,重建视频图像的PSNR=40.31dB。图8b是视频序列ballroom在量化参数QP=24的情况下,第0个视点第15帧图像使用本发明方法的重建视频图像,重建视频图像的PSNR=40.10dB。图9是视频序列ballroom使用JMVC原始编码和本发明两种方法,在不同QP和不同视点的情况下,码率、PSNR值、码率节省百分比、重建视频主观质量评价分数差(DM0S)、平均码率节省百分比的统计结果。可以看出,视频序列ballroom在不同QP下,使用本发明方法的编码码率比使用JMVC原始编码方法的编码码率节省了7.47%~9.16%,JMVC原始编码方法和本发明方法的视频主观质量评价分数差为0.03~0.07,可以认为主观质量保持不变。
[0125] 视频序列race1的实验结果如图10a~10b、图11所示。图10a是视频序列race1在量化参数QP=24的情况下,第1个视点第25帧图像使用JMVC原始编码方法的重建视频图像,重建视频图像的PSNR=41.15dB。图10b是视频序列race1在量化参数QP=24的情况下,第1个视点第36帧图像使用JMVC原始编码方法的重建视频图像,重建视频图像的PSNR=40.51dB。图11是视频序列race1使用JMVC原始编码和本发明两种方法,在不同QP和不同视点的情况下,码率、PSNR值、码率节省百分比、重建视频主观质量评价分数差(DM0S)、平均码率节省百分比的统计结果。可以看出,视频序列race1在不同QP下,使用本发明方法的编码码率比使用JMVC原始编码方法的编码码率节省了10.77%~12.35%,JMVC原始编码方法和本发明方法的视频主观质量评价分数差为0.06~0.09,可以认为主观质量保持不变。
[0126] 视频序列crowd的实验结果如图12a~12b、图13所示。图12a是视频序列crowd在量化参数QP=35的情况下,第2个视点第45帧图像使用JMVC原始编码方法的重建视频图像,重建视频图像的PSNR=33.77dB。图12b是视频序列crowd在量化参数QP=35的情况下,第2个视点第45帧图像使用JMVC原始编码方法的重建视频图像,重建视频图像的PSNR=33.12dB。图13是视频序列crowd使用JMVC原始编码和本发明两种方法,在不同QP和不同视点的情况下,码率、PSNR值、码率节省百分比、重建视频主观质量评价分数差(DM0S)、平均码率节省百分比的统计结果。可以看出,视频序列crowd在不同QP下,使用本发明方法的编码码率比使用JMVC原始编码方法的编码码率节省了8.95%~9.83%,JMVC原始编码方法和本发明方法的视频主观质量评价分数差为0.03~0.08,可以认为主观质量保持不变。
[0127] 结合以上各图表可以看出,本发明通过建立DCT域的JND模型,并将其运用到多视点视频编码框架量化过程和率失真优化过程,在保证主观质量不变的情况下,大幅度降低多视点视频编码码率,提高了多视点视频编码的压缩效率。