H264自适应帧内模式选择码率估计的率失真优化方法及其装置转让专利

申请号 : CN201310466589.X

文献号 : CN103581670B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈应军姚健潘柏宇卢述奇

申请人 : 合一网络技术(北京)有限公司

摘要 :

一种H.264中自适应帧内模式选择码率估计的率失真优化方法及其系统,所述方法包括如下步骤:4x4块帧内预测步骤,利用4×4亮度块的上方和左方的已编码和重构像素,以及9种预测模型来实现帧内预测;4x4块残差值获取步骤,利用对象点的实际像素减去得到的预测的像素值,得到4x4块残差值矩阵X;DCT变换步骤,对所述4x4块残差值矩阵X进行DCT变换,得到Y矩阵;评估R值步骤,利用在Y矩阵中经过zig-zag扫描的非零系数和拖尾系数,以及运动矢量评估得到R值;RDO优化步骤,定义代价函数,,通过计算的值,在4x4帧内预测的所有预测模型中选择代价最小者作为最佳帧内预测模型。本发明能够提高编码效率,降低时间复杂度,提高RDO效率。

权利要求 :

1.一种H.264中自适应帧内模式选择码率估计的率失真优化方法,包括如下步骤:步骤1:4x4块帧内预测,利用4×4亮度块的上方和左方的已编码和重构像素,以及9种预测模型来实现帧内预测;

步骤2:4x4块残差值获取,利用对象点的实际像素减去步骤1得到的预测的像素值,得到4x4块残差值矩阵X;

步骤3:DCT变换,对所述4x4块残差值矩阵X进行DCT变换,得到Y矩阵;

步骤4:评估R值,利用在Y矩阵中经过zig-zag扫描的非零系数和拖尾系数,以及运动矢量评估得到R值;

步骤5:RDO优化,定义如下代价函数,Jmode(RD)=D+λmode×R,其中,D为原始图像像素值与重建图像像素值之差的绝对值之和,λmode为与量化参数QP相关的值,R为评估得到的R值,通过计算Jmode(RD)的值,在4x4帧内预测的所有预测模型中选择代价最小者作为最佳帧内预测模型。

2.根据权利要求1所述的率失真优化方法,其中所述DCT变换步骤包括如下步骤:其中, 表示矩阵中每个元素乘以矩阵E中

对应位置上的系数。

3.根据权利要求1所述的率失真优化方法,其中所述评估R值步骤具体为:Total_coeff为在Y矩阵中经过zig-zag扫描非零系数的数目,Trailing_ones为在Y矩阵中经过zig-zag扫描拖尾系数的数目,Total_zero为在Y矩阵中经过zig-zag扫描最后一个非零系数前零的数目,Total_level为在Y矩阵中经过zig-zag扫描所有非零系数的幅值绝对值的和,mv为运动矢量。

4.根据权利要求1所述的率失真优化方法,其中所述RDO优化步骤中,λmode=(QP-12)/3

0.85×2 。

5.一种H.264中自适应帧内模式选择码率估计的率失真优化装置,包括如下单元:

4x4块帧内预测单元,利用4×4亮度块的上方和左方的已编码和重构像素,以及9种预测模型来实现帧内预测;

4x4块残差值获取单元,利用对象点的实际像素减去所述4x4块帧内预测单元得到的预测的像素值,得到4x4块残差值矩阵X;

DCT变换单元,对所述4x4块残差值矩阵X进行DCT变换,得到Y矩阵;

评估R值单元,利用在Y矩阵中经过zig-zag扫描的非零系数和拖尾系数,以及运动矢量评估得到R值;

RDO优化单元,定义如下代价函数,Jmode(RD)=D+λmode×R,其中,D为原始图像像素值与重建图像像素值之差的绝对值之和,λmode为与量化参数QP相关的值,R为评估得到的R值,通过计算Jmode(RD)的值,在4x4帧内预测的所有预测模型中选择代价最小者作为最佳帧内预测模型。

6.根据权利要求5所述的率失真优化装置,其中所述DCT变换单元包括:其中, 表示矩阵中每个元素乘以矩阵E中

对应位置上的系数。

7.根据权利要求5所述的率失真优化装置,其中所述评估R值单元具体为:Total_coeff为在Y矩阵中经过zig-zag扫描非零系数的数目,Trailing_ones为在Y矩阵中经过zig-zag扫描拖尾系数的数目,Total_zero为在Y矩阵中经过zig-zag扫描最后一个非零系数前零的数目,Total_level为在Y矩阵中经过zig-zag扫描所有非零系数的幅值绝对值的和,mv为运动矢量。

8.根据权利要求5所述的率失真优化装置,其中所述RDO优化单元中,λmode=

0.85×2(QP-12)/3。

说明书 :

H264自适应帧内模式选择码率估计的率失真优化方法及

其装置

技术领域

[0001] 本发明涉及图像领域,特别的,涉及一种对H.264自适应帧内模式选择的码率估计的率失真优化(RDO)方法以及系统。

背景技术

[0002] H.264是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT,Joint Video Team)提出的高度压缩数字视频编解码器标准。H.264是ITU-T以H.26x系列为名称命名的标准之一。该标准在视频压缩方面有显著的效果,与之前的其它压缩方法相比,它在同等视频质量的情况下能够节省50%比特率。它的压缩性能的改进主要在可变尺寸的块1/4像素运动补偿,多参考帧运动补偿,先进的帧内预测模式,去方块滤波效应以及自适应熵编码等特性。为了提高压缩性能和码率控制,采用了率失真优化(RDO)方法。但是,在RDO方法中为了实现码率预测,需要大量的运算。
[0003] 具体的来说,H.264视频编码中,为了在RDO下为了得到预测码率,现有的方法是通过真实的熵编码来预测码率,这个过程计算量较大,需要花费较多的时间。在4x4帧内模式选择时需要计算9中帧内预测模式,预测花费时间较多。
[0004] 因此,如何能够提高编码效率,降低计算的时间,提高ROD效率成为H.264编码运算中亟需解决的技术问题。

发明内容

[0005] 本发明的目的在于提出一种在H.264视频编码中自适应帧内模式选择码率估计的率失真优化方法(RDO)及其系统。
[0006] H.264视频编码中自适应帧内模式选择码率估计的率失真优化方法,包括: 1.一种H.264中自适应帧内模式选择码率估计的率失真优化方法,包括如下步骤:
[0007] 步骤1: 4x4块帧内预测,利用4×4 亮度块的上方和左方的已编码和重构像素,以及 9 种预测模型来实现帧内预测;
[0008] 步骤2: 4x4块残差值获取,利用对象点的实际像素减去步骤1得到的预测的像素值,得到4x4块残差值矩阵X;
[0009] 步骤3:DCT变换,对所述4x4块残差值矩阵X进行DCT变换,得到Y矩阵;
[0010] 步骤4:评估R值,利用在Y矩阵中经过zig-zag 扫描的非零系数和拖尾系数,以及运动矢量评估得到R值;
[0011] 步骤5:RDO优化,定义如下代价函数,,其中,D为原始图像像素值与重建图
像像素值之差的绝对值之和, 为与量化参数QP相关的值,R为评估得到的R值,通过计算 的值,在4x4帧内预测的所有预测模型中选择代价最小者
作为最佳帧内预测模型。
[0012] 其中所述DCT变化步骤包括如下步骤:
[0013]
[0014] 其中,
[0015] 表示矩阵中每个元素乘以矩阵 E 中对应位置上的系数。
[0016] 其中所述评估R值步骤具体为:
[0017]Total_coeff为在Y矩阵中经过zig-zag 扫描非零系数的数目,Trailing_ones为在Y矩阵中经过zig-zag 扫描拖尾系数的数目,Total_zero为在Y矩阵中经过zig-zag 扫描最后一个非零系数前零的数目,Total_level为在Y矩阵中经过zig-zag 扫描所有非零系数的幅值绝对值的和,mv为运动矢量。
[0018] 其中所述RDO优化步骤中,
[0019] 。
[0020] 本发明还公开了一种H.264中自适应帧内模式选择码率估计的率失真优化装置,包括如下单元:
[0021] 4x4块帧内预测单元,利用4×4 亮度块的上方和左方的已编码和重构像素,以及9 种预测模型来实现帧内预测;
[0022] 4x4块残差值获取单元,利用对象点的实际像素减去所述4x4块帧内预测单元得到的预测的像素值,得到4x4块残差值矩阵X;
[0023] DCT变换单元,对所述4x4块残差值矩阵X进行DCT变换,得到Y矩阵;
[0024] 评估R值单元,利用在Y矩阵中经过zig-zag 扫描的非零系数和拖尾系数,以及运动矢量评估得到R值;
[0025] RDO优化单元,定义如下代价函数,
[0026] ,其中,D为原始图像像素值与重建图像像素值之差的绝对值之和, 为与量化参数QP相关的值,R为评估得到的R值,通过计算 的值,在4x4帧内预测的所有预测模型中选择代
价最小者作为最佳帧内预测模型。
[0027] 其中所述DCT变化单元包括:
[0028]
[0029] 其中,
[0030] 表示矩阵中每个元素乘以矩阵 E 中对应位置上的系数。
[0031] 其中所述评估R值单元具体为:
[0032]Total_coeff为在Y矩阵中经过zig-zag 扫描非零系数的数目,Trailing_ones为在Y矩阵中经过zig-zag 扫描拖尾系数的数目,Total_zero为在Y矩阵中经过zig-zag 扫描最后一个非零系数前零的数目,Total_level为在Y矩阵中经过zig-zag 扫描所有非零系数的幅值绝对值的和,mv为运动矢量。
[0033] 其中所述RDO优化单元中, 。
[0034] 在本发明中,我们针对4x4帧内预测模式,设计了高效的自适应帧内模式选择码率估计方法来预测码率,在不需要熵编码的条件下预测码率。根据编码图像是静止的序列还是运动的序列来自适应选择,从而提高编码效率,降低时间复杂度,提高RDO效率。

附图说明

[0035] 图1 是根据本发明的自适应帧内模式选择码率估计的率失真优化方法的流程图;
[0036] 图2是根据本发明的自适应帧内模式选择码率估计的率失真优化系统模块图;
[0037] 图3是利用像素 A-M 对方块中 a-p 像素进行帧内 4×4 预测的示意图。

具体实施方式

[0038] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0039] 实施例1:
[0040] 参见图1,在本实施例中公开了H.264中自适应帧内模式选择码率估计的率失真优化方法,该方法包括如下步骤:
[0041] 步骤101:对4x4块进行帧内预测
[0042] 如图3所示,在该步骤利用4×4 亮度块的上方和左方像素 A-M 为已编码和重构像素,用作编解码器中的预测参考像素。a-p 为待预测像素,利用 A-M 值和 9 种预测模型来实现a-p的像素值预测。其中模式 2(DC 预测)根据 A-M 中已编码像素预测,而其余模式只有在所需预测像素全部提供才能使用。对模式3~8,预测像素由A-M加权平均而得。
[0043] 步骤102:4x4块残差值获取
[0044] 通过4x4块帧内预测就可以得到不同模式下的相应4x4位置坐标的像素值,即图3所示的a-p的像素值,它用一个4x4的矩阵来表示。图3中实际的像素值在编码器中已知,用对象点的实际的像素值减去预测的像素值,就得到4x4块残差值矩阵,在本实施例中,用X来表示4x4块残差值矩阵。
[0045] 步骤103:DCT变换
[0046] 对步骤103中得到4x4块残差值矩阵X进行DCT变换,得到矩阵Y
[0047] 在一个具体的实施例中,变换过程为:
[0048]
[0049] 其中,
[0050] 表示矩阵中每个元素乘以矩阵 E 中对应位置上的系数。
[0051] 通过DCT变换,能够进一步节省图像传输码率,压缩图像信号,采用变换编码,去除图像信号中的相关性及减小图像编码的动态范围。变换编码将图像时域信号变换成频域信号,在频域中图像信号能量大部分集中在低频区域,相对时域信号,码率有较大的下降。
[0052] 步骤104:评估R值:
[0053] 利用在Y矩阵中经过zig-zag 扫描的非零系数和拖尾系数,以及运动矢量得到R值。
[0054] 具体而言:
[0055] 首先定义如下参数:
[0056] 1)Total_coeff:在Y矩阵中经过zig-zag 扫描非零系数的数目。
[0057] 2)Trailing_ones:在Y矩阵中经过zig-zag 扫描拖尾系数的数目。
[0058] 3)Total_zero: 在Y矩阵中经过zig-zag 扫描最后一个非零系数前零的数目。
[0059] 4)Total_level: 在Y矩阵中经过zig-zag 扫描所有非零系数的幅值绝对值的和。
[0060] 根据运动矢量mv和公式(1)得到R值,本领域技术人员应当知道mv是在H.264的编码过程中记录得到:
[0061](1)
[0062] 步骤105:RDO优化
[0063] 由于H.264 视频编码标准中仅仅规定了编码后比特流的句法结构和解码器的结构,而对于编码器的结构和实现模式没有具体的规定。
[0064] 因此,在本步骤中,根据公式(2)定义代价函数:
[0065] (2)
[0066] 其中,D为原始图像像素值与重建图像像素值之差的绝对值之和,表示的是原始图像经过复原之后的失真度, 为与量化参数QP相关的值,优选地,,R为评估得到的R值。
[0067] 这样,通过计算 的值,在4x4帧内预测的所有预测模型,即模式1-9,中选择代价最小者作为最佳帧内预测模型。
[0068] 实施例2:
[0069] 参见图2,在本实施例中公开了一种H.264中自适应帧内模式选择码率估计的率失真优化装置,包括如下单元:
[0070] 4x4块帧内预测单元,利用4×4 亮度块的上方和左方的已编码和重构像素,以及9 种预测模型来实现帧内预测;
[0071] 4x4块残差值获取单元,利用对象点的实际像素减去所述4x4块帧内预测单元得到的预测的像素值,得到4x4块残差值矩阵X;
[0072] DCT变换单元,对所述4x4块残差值矩阵X进行DCT变换,得到Y矩阵;
[0073] 评估R值单元,利用在Y矩阵中经过zig-zag 扫描的非零系数和拖尾系数,以及运动矢量评估得到R值;
[0074] RDO优化单元,定义如下代价函数,,
[0075] 其中,D为原始图像像素值与重建图像像素值之差的绝对值之和,原始图像经过复原之后的失真度, 为与量化参数QP相关的值,R为评估得到的R值,通过计算的值,在4x4帧内预测的所有预测模型中选择代价最小者作为最佳帧内预测模型。
[0076] 其中所述DCT变化单元包括:
[0077]
[0078] 其中,
[0079] 表示矩阵中每个元素乘以矩阵 E 中对应位置上的系数。
[0080] 其中所述评估R值单元具体为:
[0081]Total_coeff为在Y矩阵中经过zig-zag 扫描非零系数的数目,Trailing_ones为在Y矩阵中经过zig-zag 扫描拖尾系数的数目,Total_zero为在Y矩阵中经过zig-zag 扫描最后一个非零系数前零的数目,Total_level为在Y矩阵中经过zig-zag 扫描所有非零系数的幅值绝对值的和,mv为运动矢量。
[0082] 其中所述RDO优化单元中, 。
[0083] 因此,在现有技术中,ISO和ITU共同组成的联合专家组提供的H.264编解码器参考模型JM中,在4x4帧内模式选择时,评估R是通过熵编码来实际的运算得到的,运算量大。而本发明的率失真优化方法可以移植到到JM中,实现了自适应帧内模式选择码率估计评估R,在此基础上实现RDO优化。
[0084] 又例如,在采用GPL授权的视频编码自由软件x264是一个基于H.264的。x264的主要功能在于进行H.264/MPEG-4 AVC的视频编码,在它的4x4帧内模式选择码率估计过程中,可以根据本发明的率失真优化方法,灵活的选择R估计函数,得到预估码率,用[0085] 得到的代价来选择最佳4x4帧内模式。
[0086] 因此,对于本发明的自适应帧内模式选择码率估算的率失真算法,可以根据静止还是运动图像序列自适应的选择帧内预测模式码率评估函数,在RDO优化中具有自适应性。并且,在H.264视频编码过程中能够快速的估计出帧内4x4块预测模式编码占用的码率,而不再需要熵编码来得到码率,可以减少视频编码时间。
[0087] 显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
[0088] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。