一种保留特征的视频编码方法转让专利

申请号 : CN201710744516.0

文献号 : CN107454413B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王军杨青沈学林

申请人 : 广东顺德中山大学卡内基梅隆大学国际联合研究院中山大学

摘要 :

本发明提供的视频编码方法使用快速高斯算法替代传统的SIFT方法来进行特征点的提取,这样提取的特征区域更加准确,关键点范围更小;同时在提取得出关键点后,生成相应的感兴趣区域,通过合理调节感兴趣区域与非感兴趣区域的编码码率,并且适当调试两种区域的QP值,来保留原视频中每一帧图片中的特征信息,达到感兴趣区域的高质量要求,同时保证整个视频的主观质量。本发明提供的视频编码方法在相同码率情况下能尽可能保持更多的特征信息,便于观看者(机器)更准确的识别特定目标。

权利要求 :

1.一种保留特征的视频编码方法,其特征在于:包括以下步骤:S1.基于FG-SIFT特征提取方法将视频中的每一帧的关键点提取出来;

S2.对于每一帧视频帧,将其划分成大小一致的若干子块,然后基于分布在各个子块上的关键点的数量,进行ROI参数的计算:其中i表示视频帧中子块的编号,Numkey[i]表示第i个子块中关键点的数量, 表示视频帧中非零的Numkey[i]的期望值,t和T分别表示上限和下限;

S3.基于子块的ROI参数,将各个子块划分成感兴趣区域或非感兴趣区域;

S4.建立子块ROI参数到量化参数QP的映射关系,将多个量化参数QP分别分配给相应的感兴趣区域和非感兴趣区域,其中分配给非感兴趣区域的量化参数QP的值大于分配给感兴趣区域的量化参数QP的值;

S5.对每一帧视频帧进行步骤S3~S4的处理,然后对每一帧视频帧进行编码处理;

所述步骤S1利用FG-SIFT特征提取方法提取关键点的具体过程如下:S11.视频帧的Y分量提取出来;

S12.使用m*m的滑动窗口对视频帧的Y分量进行关键点的检测:(1)计算窗口中x方向上的高斯差分DoG_X(x,y,kσ):DoG_X(x,y,kσ)=G_X(x,y,kσ)-G_X(x,y,σ) =G(x,kσ)*I(x,y)-G(x,σ)*I(x,y) =(G(x,kσ)-G(x,σ))*I(x,y)其中,G(x,kσ)、G(x,σ)表示x维的两个附近尺度的1-D高斯核,I(x,y)表示滑动窗口的图像;

其中

(2)对窗口中y方向上的高斯差分进行求取,y方向上的高斯差分为y维的两个附近尺度的1-D高斯核的差值:G(y,kσ)-G(y,σ);

(3)对DoG_xy(x,y,kσ)进行计算:

DoG_xy(x,y,kσ)=(G(y,kσ)-G(y,σ))*DoG_x(x,y,kσ)(4)将DoG_xy(x,y,kσ)的局部峰值作为候选关键点;

(5)使用滑动窗口按照步骤(1)~(4)的方式计算得到视频帧中的所有候选关键点后,去除掉候选关键点中低对比度的点和边缘点后,将剩余的候选关键点作为关键点,然后将其位置进行输出。

2.根据权利要求1所述的保留特征的视频编码方法,其特征在于:所述步骤S4首先对子块的ROI参数进行平滑处理,然后建立子块ROI参数到量化参数QP的映射关系。

3.根据权利要求2所述的保留特征的视频编码方法,其特征在于:所述建立子块ROI参数到量化参数QP的映射关系具体表示如下:其中RanQP和Ranλ分别表示量化参数QP和ROI参数的值域范围,floor表示舍入运算,D是RanQP到Ranλ之间的常数值。

说明书 :

一种保留特征的视频编码方法

技术领域

[0001] 本发明涉及图像视频编码领域,更具体地,涉及一种保留特征的视频编码方法。

背景技术

[0002] 随着近年来对机器视觉CVS(Computer Visual System,机器视觉感知系统)的深入研究,以及智能视频处理的广泛应用,出现了视频编码质量(码率)和机器识别能力之间的矛盾,即低质量(低码率)的视频通常让机器视觉变得困难。因而面向机器视觉的压缩使用非传统的面向图像质量的压缩显得很有必要。此外,机器视觉和视频压缩两者都有巨大的运算开销,因而面向机器视觉的视频压缩方法需要关注运算的复杂度。
[0003] HEVC(High Efficiency Video Coding,高清视频编码标准)作为最新一代的视频编码标准,相比上一代H.264编码标准,在相同编码质量的情况下,压缩效率可以提升一倍,但是HEVC的编码复杂度会大于H.264的150%。HEVC是基于视频图像质量的的编码方法,即在相同的图像质量下,尽可能的压缩视频编码码率,或者反过来说,在相同的压缩码率下,尽可能的提高图像质量。在机器视觉应用中(比如物体识别、匹配、检索、分类等等),HEVC等传统的视频压缩方法显得无能为力,这是因为,一方面,基于图像质量的视频编码没有考虑到未来压缩后的视频会用于机器视觉,仅仅考虑到人对视频质量的愉悦感。可以想象,对于机器来说,绚丽愉悦的视频质量并没有什么帮助,机器视觉需要的是视频中尽可能的保留更多的视频内容特征的信息。另一方面,现有的视频压缩技术都是有损压缩,因而难免会丢失信息,这些丢失的信息中就很有可能包含视频重要的内容特征。
[0004] 现有技术还提出了一种基于ROI(Region Of Interest,感兴趣区域)的编码方法,该方法可以根据人眼视觉的感兴趣区域,合理调节感兴趣区域与非感兴趣区域的编码码率,并且相应改变感兴趣区域与非感兴趣区域的QP(Quantitative Parameters,量化参数),以此满足感兴趣区域的高质量要求,同时不会影响整帧视频的主观质量。
[0005] 该方法的具体实施过程如下:
[0006] 将视频帧先随意分为ROI和非ROI区域,根据预先设定的感兴趣区域的比例,计算获取ROI区域和非ROI区域的编码码率;然后判断当前宏块是否处于感兴趣区域,感兴趣区域的宏块采用感兴趣区域的码率控制,非感兴趣区域进入非感兴趣区域的码率控制,两者的码率控制相互独立。
[0007] 这种方法中,对各个不同级别的感兴趣区域QP的调整方法是为最感兴趣区域分配最小的QP,其余区域的QP值随着感兴趣区域级别的降低而增加。其中最感兴趣区域的最小编码QP即为原始QP,而其余区域的QP逐步增大。在具体实施的时候,这种方法没有减小最感兴趣部分的QP,而是增大其余区域的QP,依此降低非最感兴趣区域的质量,使得最感兴趣区域的主观质量相对比较好,但并没有实质性地提高感兴趣区域的质量。
[0008] 现有技术中还提出了一种视频压缩中保留视频帧中的特征信息的方法,此方法采用SIFT特征提取方式,根据特征区域把每一帧都分成相应的宏块,然后计算每一宏块的损失函数,损失函数与每个宏块编码前后的失真度和编码的码率线性相关,失真度由编码前后的关键点匹配度决定(完全匹配值为0,完全不匹配值为1),最后给每个宏块赋不同的QP值使得对应宏块的损失函数最小。此方法使用SIFT特征提取方式来提取特征信息,提取的关键点不准确,且特征区域范围较大,所以不能精确反映出视频帧中的特征信息,而且编码时也因为多余的特征区域浪费码率。另外此方法是基于H.264标准下,压缩效率较低。同时该方法需要在传统的编码器前端增加SIFT特征提取方法,SIFT特征提取方法计算量十分巨大,极大的增加了本来计算量就十分巨大的编码器负担。

发明内容

[0009] 本发明为解决以上现有技术提供的视频编码方法存在的易压缩丢失视频帧中的特征信息、提取特征区域不准确的技术缺陷,提供了一种保留特征的视频编码方法。
[0010] 为实现以上发明目的,采用的技术方案是:
[0011] 一种保留特征的视频编码方法,包括以下步骤:
[0012] S1.基于FG-SIFT特征提取方法将视频中的每一帧的关键点提取出来;
[0013] S2.对于每一帧视频帧,将其划分成大小一致的若干子块,然后基于分布在各个子块上的关键点的数量,进行ROI参数的计算:
[0014]
[0015] 其中i表示视频帧中子块的编号,Numkey[i]表示第i个子块中关键点的数量,表示视频帧中非零的Numkey[i]的期望值,t和T分别表示上限和下限;
[0016] S3.基于子块的ROI参数,将各个子块划分成感兴趣区域或非感兴趣区域;
[0017] S4.建立子块ROI参数到量化参数QP的映射关系,将多个量化参数QP分别分配给相应的感兴趣区域和非感兴趣区域,其中分配给非感兴趣区域的量化参数QP的值大于分配给感兴趣区域的量化参数QP的值;
[0018] S5.对每一帧视频帧进行步骤S3~S4的处理,然后对每一帧视频帧进行编码处理。
[0019] 与现有技术相比,本发明的有益效果是:
[0020] 本发明提供的视频编码方法使用快速高斯算法替代传统的SIFT方法来进行特征点的提取,这样提取的特征区域更加准确,关键点范围更小;同时在提取得出关键点后,生成相应的感兴趣区域,通过合理调节感兴趣区域与非感兴趣区域的编码码率,并且适当调试两种区域的QP值,来保留原视频中每一帧图片中的特征信息,达到感兴趣区域的高质量要求,同时保证整个视频的主观质量。本发明提供的视频编码方法在相同码率情况下能尽可能保持更多的特征信息,便于观看者(机器)更准确的识别特定目标。

附图说明

[0021] 图1为方法的流程示意图。
[0022] 图2为方法的具体实施示意图。
[0023] 图3为FG-SIFT特征提取方法的示意图。
[0024] 图4为进行特征点检测的示意图。
[0025] 图5为QP与图像质量的关系示意图。
[0026] 图6为编码前后的关键点示意图。
[0027] 图7为HM16.5编码方式的关键点的匹配图。
[0028] 图8为本发明提供的方法的关键点的匹配图。

具体实施方式

[0029] 附图仅用于示例性说明,不能理解为对本专利的限制;
[0030] 以下结合附图和实施例对本发明做进一步的阐述。
[0031] 实施例1
[0032] 如图1、2所示,本发明提供的方法具体包括以下步骤:
[0033] 一、提取关键点
[0034] FG-SIFT特征提取方法中,提取关键点的具体过程如下:
[0035] 1)尺度空间极值点的检测
[0036] 2)准确的关键点的定位,
[0037] 3)关键点描述子生成。
[0038] 先简要介绍在其中一层(octave)的算法。如图3所示。
[0039] 首先,计算DoG中的x方向上的高斯差分DoG_X(x,y,kσ)。在等式(1)中,DoG_X(x,y,kσ)是两个附近尺度的G_X的差值,其中G_X(x,y,σ)是输入图像I(x,y)和图像I(x,y)在x维的1-D高斯核G(x,σ)(1×n矢量)的卷积。从等式(1)可以直接从两个高斯内核与输入图像的差的卷积产生DoG_X(x,y,kσ)。它可以在从W×H到n的过程中减少一次图像卷积计算和减法运算的次数(W和H是图像的宽度和高度)
[0040]
[0041] 其中
[0042] 接下来,用DoG_x(x,y,kσ)与y方向上的高斯差分的卷积计算出DoG_xy(x,y,kσ),y方向上的高斯差分为y维的两个附近尺度的1-D高斯核G_(x,σ)(1×n矢量)的差值[0043] DoG_xy(x,y,kσ)=(G(y,kσ)-G(y,σ))*DoG_x(x,y,kσ)     (3)[0044] 这个算法选择DoG_xy(x,y,kσ)的局部峰值作为候选关键点时,单层使用3x3点窗口来检测极值点,因为分两个方向来求差值再卷积,实际上滤除了多余的点。
[0045] 接下来,FG-SIFT算法要去除其中低对比度的点和边缘极值点,同时也去除一些噪声。以图4为例,如图4(a)所示,原始图像在x方向上通过与高斯差值的卷积计算之后,消除了图像中x维度的边缘,并且增加了y维度的边缘。然后,如图4(b)所示,DoG_X与y维上的高斯滤波差值卷积之后的结果为在x和y维的高斯差值DoG_XY,y维度的边缘被消除,使角点和曲线更加突出。接下来,在极值点检测之后,如图4(c)所示,极值点主要位于颜色变化区域的边缘。在抑制低对比度和边缘点之后(图4(d)),大部分噪声候选被消除。最后的关键点位于拐角处或曲线处。
[0046] 二、ROI参数的计算:
[0047] 对于每一帧视频帧,将其划分成大小一致的若干子块,然后基于分布在各个子块上的关键点的数量,进行ROI参数的计算:
[0048]
[0049] 其中i表示视频帧中子块的编号,Numkey[i]表示第i个子块中关键点的数量,表示视频帧中非零的Numkey[i]的期望值,t和T分别表示上限和下限。
[0050] 上述方案中,基于子块的ROI参数,将各个子块划分成感兴趣区域或非感兴趣区域。
[0051] 三、子块ROI参数到量化参数QP的映射
[0052] 由于观察到QP的增加使不同内容的不同级别的感知质量下降。一般来说,QP的增加会使背景(通常是未聚焦的区域)的质量稍微降低,而对于前景而言降低得更多。就像如图5所示,视频序列用不同的QP值(图5(a),(b)和(c)的QP值分别为20,30和40)进行编码。可以看出,所示的3个背景区域的感知品质差异不大(图5(d),(e)和(f))。
[0053] 另外,图5(d)、(e)和(f)分别是图5(a),(b)和(c)的背景图,(d)、(e)和(f)的质量用SSIM来衡量分别是0.99、0.97和0.94)也表明了这样的观察结果。基于以上观察,基于对QP变化的敏感性,并且用不同的QP值对每一帧中不同的区域进行编码是非常有意义的。
[0054] 在视频图像编码过程中,图像被分成16x16,8x8或者4x4这样的块,然后对这些块进行DCT变换,这样就导致块与块之间的相关性被忽略。接下来对每个块进行DCT变换得到的系数进行量化的时候取整,而由于不同图像块做了不同的量化处理,有时是量化步长不同,有时是舍入的高频分量不一样,这就导致图像相关性受到破坏,以上这些情况都可能产生块效应。
[0055] 为了避免块效应,采用3×3加权均值滤波器来平滑ROI参数λ。在提取ROI之后,根据其参数λ对每个子块分配QP。通常情况下,具有较低λ的子块对于视觉质量判断不太重要,故在编码处理的时候,对这些区域分配较少的资源。
[0056] 然后建立从ROI参数s[0-2]到QPs(20-50)的映射关系,将多个连续的QP值分配给相对应的子块。其中多个连续QP值就是用来避免块效应的。连续QP值定义如下:
[0057]
[0058] 其中,RanQP和Ranλ分别是QP值和ROI参数的值域范围,floor表示舍入运算,D是RanQP到Ranλ之间的常数值。
[0059] 上述方案中,其中分配给非感兴趣区域的量化参数QP的值大于分配给感兴趣区域的量化参数QP的值。
[0060] 完成量化参数QP的分配后,再进行视频编码。
[0061] 实施例2
[0062] 本实施例采用不同清晰度(1080P,WVGA,WQVGA)的HEVC标准测试视频序列来评估本发明提出的算法。测试基于参考HEVC软件HM16.5实现,所有对于第一帧,测试序列是帧内编码的(I帧),随后是帧间编码帧(P帧)。
[0063] 现在将本发明方法与HM16.5的自带的编码方式,于以下两个方面进行比较:
[0064] 1、匹配效率
[0065] 本发明方法根据特征检测算法得出关键点,进而生成感兴趣区域,根据感兴趣区域,合理调节感兴趣区域与非感兴趣区域的编码码率,并且适当改变感兴趣区域与非感兴趣区域的QP(Quantitative Parameters,量化参数),来保留原视频中每一帧图片中的特征信息,达到感兴趣区域的高质量要求,同时保证整个视频的主观质量。在性能评估中,将HM16.5以表中所示的QP值对整个视频帧进行编码,而本发明中将只是将视频序列中每一帧图片的感兴趣区域以表中所示的QP值,非感兴趣区域以最大的QP值51(量化步长QP的取值范围是21-51)进行编码。
[0066] 以序列Cactus的第3帧,QP=22为例,编码前的图像提取关键点如图6(a)所示,HM16.5编码后得到的关键点如图6(b)所示,本发明方法编码后得到的关键点如图6(c)所示。
[0067] 为了保证视频帧的特征被保留,所以先引入匹配对和匹配度这两个评估标准来对本发明方法输出的视频序列与HM16.5自身编码方式输出的视频序列,与未编码的视频序列进行匹配。结果如表1,表2所示。
[0068] Table 1
[0069]
[0070] 表1本发明提供的方法和HM16.5之间的匹配对比较
[0071] Table 2
[0072]序列/匹配度 分辨率 QP=22 QP=27 QP=32 QP=37
Cactus 1080P 42.59% 44.43% 47.09% 54.08%
BasketballDrive 1080P 31.53% 41.21% 60.38% 70.73%
BasketballDrill WVGA 51.58% 54.72% 55.27% 58.15%
BQMall WVGA 44.36% 46.64% 48.24% 52.58%
BlowingBubbles WQVGA 28.77% 33.52% 37.39% 54.94%
BQSquare WQVGA 56.50% 66.23% 66.20% 66.19%
[0073] 表2本发明提供的方法与HM16.5之间的匹配度
[0074] 匹配步骤如下:将本发明方法输出的视频序列与未编码的视频序列用FG-SIFT找出关键点,生成描述子,然后进行匹配,然后统计两者的匹配线的数目,即为匹配对。HM16.5自身编码方式输出的视频序列也是如此。以序列Cactus的第3帧,QP=22为例,HM16.5编码方式的匹配图如图7所示,本发明方法的匹配图如图8所示。
[0075] 因为本发明中视频帧的特征信息用关键点的形式表现出来,所以可以用关键点的匹配来证明本发明方法能够将视频帧中的特征信息保留下来。用匹配度来进行直观的评判。
[0076] 以下是匹配度的定义:
[0077]
[0078] 如表2所示,匹配度越高,保留特征性能越好。本发明提供的方法的匹配度最高可达到70.73%,平均可达到50.56%,本发明提供的方法基本上保留了视频帧中的特征信息。
[0079] 2.比特率比
[0080] 本发明方法根据感兴趣区域与非感兴趣区域分配不同的连续的QP值(Quantitative Parameters,量化参数),解决高分辨率与传输数据量大之间的矛盾关系,所以用比特率比来评估本发明方法降低码率的性能。结果如表3、表4所示。
[0081] Table 3
[0082]
[0083] 表3本发明提供的方法和HM16.5之间的码率比较
[0084] Table 4
[0085]序列/码率比 分辨率 QP=22 QP=27 QP=32 QP=37
Cactus 1080P 18.63% 33.17% 47.31% 62.30%
BasketballDrive 1080P 28.01% 46.15% 61.93% 73.53%
BasketballDrill WVGA 22.46% 32.92% 48.07% 64.10%
BQMall WVGA 20.74% 29.61% 41.55% 57.86%
BlowingBubbles WQVGA 19.30% 27.57% 36.59% 55.84%
BQSquare WQVGA 21.19% 28.42% 38.97% 52.97%
[0086] 表4本发明提供的方法和HM16.5之间的比特率比
[0087] 在比特率比较方面,如表3和表4所示(比特率是HM16.5返回的相对值),与HM16.5相比,使用本发明的方法的比特率得到比较大程度的降低,最低可降至HM16.5比特率的18.63%,平均可降至HM16.5比特率的40.38%,即降低60-70%。因此本发明满足降低码率的要求。
[0088] 综上所述,本发明方法可以实现编码前后的特征信息尽量不丢失,解决高视频质量与低信息量的矛盾,提高视频压缩低码率编码中的主观视觉质量这三个目标。
[0089] 显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。