自由视点四维空间视频编码系统的编码方法转让专利

申请号 : CN201210180940.4

文献号 : CN102685532B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 周莉王少伟孙涛康晓

申请人 : 山东大学

摘要 :

自由视点四维空间视频编码系统的编码方法,属于视频压缩编码技术领域。将自由视点四维空间视频的编码系统分为两个通道,通道一对亮度和色度信息进行压缩编码,通道二对深度信息进行压缩编码。并且,实际应用中可根据需要使能或者禁止此编码系统中相应的部分,从而得到相应的柱面全景视频编码码流、平面立体视频编码码流或者二维视频编码码流。本发明的自由视点四维空间视频编码系统具有较强的扩展性和适用性,具有不可限量的广阔应用前景。

权利要求 :

1.一种自由视点四维空间视频编码系统的编码方法,将自由视点四维空间视频的编码系统分为两个通道;通道一包含平面图像到柱面图像的映射模块、帧内预测模块、预测模式选择模块、离散余弦变换模块、量化模块、重排序模块、熵编码模块、运动估计模块、运动/视差补偿模块、视差估计以及优化模块、反量化模块、反离散余弦变换模块、滤波模块、柱面全景图像拼接模块;通道二包括深度信息的计算和优化模块、深度信息补偿模块、深度信息的离散余弦变换模块、深度信息的量化模块、深度信息的重排序模块、深度信息的熵编码模块、深度信息的反量化模块、深度信息的反离散余弦变换模块;通道一的视差估计以及优化模块与通道二的深度信息的计算和优化模块连接;其特征在于,编码方法如下:平面图像到柱面图像的映射模块对当前待编码的图像进行映射处理,增加弧度维的信息;一方面帧内预测模块对处理后的带有弧度维的图像帧进行帧内预测,找到帧内预测的最佳预测模式和预测像素值以及相应的绝对误差和SAD的值;另一方面,处理后的带有弧度维的图像帧还需要进行帧间预测;在进行帧间预测过程中,为了充分利用不同视点间图像帧之间的相关性,选用同一视点间和不同视点间的已编码的图像作为参考图像,提高编码效率;运动估计模块对处理后的带有弧度维的图像帧在时域参考图像帧搜索目标范围内进行运动估计,找到当前编码的宏块在时域参考图像中的最佳匹配以及相应的运动矢量;

视差估计以及视差优化模块对处理后的带有弧度维的图像帧在视点间参考图像帧搜索目标范围内进行视差估计,得到当前编码的宏块在视点间参考图像中的最佳匹配以及相应的三维视差矢量;运动/视差补偿模块对运动估计模块和视差估计以及视差优化模块得到的具有弧度维的运动矢量和视差矢量经过进行补偿,得到帧间预测的三维运动/视差矢量和预测像素值以及相应的SAD值;预测模式选择模块通过对帧内预测模块得到的帧内预测SAD值和运动/视差补偿模块得到帧间预测的SAD值进行比较,选择较小的SAD值所用的预测模式作为当前帧的最佳预测方式,并给出相应的预测像素值;当前待编码的图像帧的像素值减去预测模式选择模块得到的预测像素值,从而得到预测残差;离散余弦变换模块和量化模块对预测残差进行变换和量化处理,得到残差系数;残差系数经过重排序模块以及熵编码模块后得到编码码流;此外,量化模块得到的残差系数经过反量化模块和反离散余弦变换模块后得到重建的残差;重建的残差与预测模式选择模块得到的预测像素值相加后得到当前帧像素值的重建;然后再经过滤波模块去除方块效应进行图像增强;柱面全景图像拼接模块对滤波后的图像进行处理,即根据需要对图像进行旋转、变焦技术处理,并对图像帧之间存在的冗余像素和盲区像素进行优化补偿,最终重建出当前帧的柱面全景视频帧,作为后续图像帧编码的参考图像帧;

在通道二中,深度信息计算与优化模块利用通道一中的视差估计以及优化模块得到的三维视差矢量,根据公式(1)中视差矢量和深度之间的关系,得到当前帧的具有弧度维的深度信息;深度信息补偿模块根据深度信息计算与优化模块得到的深度信息对参考图像的深度信息进行补偿,得到深度差值信号;深度差值信号经过深度信息的离散余弦变换模块、深度信息的量化模块、深度信息的重排序模块以及深度信息的熵编码模块后得到深度信息的编码码流;此外,深度信息的量化模块得到的差值系数经过深度信息的反量化模块、深度信息的反离散余弦变换模块后得到重建的差值;重建的差值和深度信息补偿模块得到的深度信息预测值相加后,重建出当前帧的深度信息;

所述公式(1)为视差与物点深度值之间的计算关系:

其中l为双眼到显示屏的距离为,e为两眼间距,p为两像素点之间水平视差,物点距显示屏的深度感知系数为v;

若将通道二功能禁止,编码的码流中没有深度维信息,得到的是柱面全景视频编码码流;若将通道一中弧度计算模块设置为无效,此时编码的码流没有弧度信息,得到的是平面立体视频编码码流;若同时将通道一中弧度计算模块设置为无效,将通道二功能禁止,则得到二维视频编码码流。

说明书 :

自由视点四维空间视频编码系统的编码方法

技术领域

[0001] 本发明涉及一种自由视点四维空间视频编码系统的编码方法,属于视频压缩编码技术领域。

背景技术

[0002] 随着信息技术的快速发展,各种形式的立体视频处理及应用已经涌入人们的生活,如全景环幕电影,平面立体电视与电影、立体医学图像成像与传输、机器人控制立体成像、虚拟现实系统等。与此同时,立体视频处理算法及系统研究近年来已经成为国际上发展最快的研究热点之一。
[0003] 目前,国内外对自由视点立体视频的研究从空间构成上不外乎两种形式:柱面/球面二维视频与平面立体视频。平面立体视频是指具有深度信息的平面三维视频序列,由具有一定视差的多个视频序列组成,表示为(x,y,v)。其利用多个视频序列的运动、视差及深度预测和增强算法,在平面视角范围内进行立体视频处理。而柱面/球面二维视频则是以平面视频处理为基础,进行柱面/球面的二维视频处理从而达到全景立体效果。其中,柱面二维视频是平面二维视频序列在柱面弧度维空间扩展后得到的360度全景视频,表示为(x,y,α)。
[0004] 平面立体视频是基于平面的具有深度信息的空间三维结构视频,柱面二维视频是基于柱面的具有弧度信息的空间三维结构视频。两者虽然都能够实现一定程度的自由视点立体视频显示,但是都有不足。平面立体视频不具有弧度信息,无法显示360度全方位立体视频,而柱面二维视频不具有深度信息,无法显示基于柱面的三维视频。因此就有了自由视点四维空间视频概念。自由视点四维空间视频将柱面空间的二维视频与平面空间的三维视频结合起来,共同组成具有空间四维结构的自由视点四维空间视频系统。该系统在空间范围内具有四维数据结构,表示为平面坐标(x,y)、深度信息维v及弧度信息维α的四维空间结构(x,y,v,α)。弧度维对平面立体视频进行柱面扩展,深度维对柱面二维视频进行深度扩展,在空间上构成了既具有深度信息,又具有弧度信息的视频序列。其同时继承了柱面空间的全方位特性及平面视角的三维视觉特性,能够在柱面空间进行立体视频显示,弥补了平面立体和柱面二维视频的空间缺陷,从真正意义上重现和展示真实世界中360度全方位立体场景。
[0005] 自由视点四维空间中的视频图像帧分为两类:自由视点弧度立体视频序列及自由视点视频序列组中的具有一定弧度距离的对应视频图像帧分别进行拼接而成的自由视点360度柱面全景视频序列。自由视点弧度立体视频序列编码基于现有视频处理标准,进行自由视点的弧度视差估计与弧度深度图像估计,对运动矢量、视差矢量进行旋转和变焦纠正,即针对像素点间的弧度值计算得到弧度运动矢量与弧度视差矢量。
[0006] 在平面立体视频中,视差与物点深度值之间有公式(1)的计算关系。
[0007]
[0008] 其中l为双眼到显示屏的距离为,e为两眼间距,p为两像素点之间水平视差,物点距显示屏的深度感知系数为v。加入弧度维后,视差矢量p也相应具有了弧度值,称为三维视差矢量,表示为p(x,y,α)。在不同视点的视频帧间进行基于宏块的视差估计,在搜索目标范围内计算得到平面视差矢量值,然后再根据矢量弧度值α及平面运动/视差矢量与柱面运动/视差矢量之间的关系进行相应的弧度调整,从而得到四维空间内视频序列的三维视差矢量。
[0009] 由于自由视点四维空间视频处理技术及编码压缩算法是对现有平面立体及柱面二维视频处理技术的扩展,旨在实现柱面360度全景环境中任意角度的立体视频的实时处理,这是目前平面立体视频及柱面二维视频系统所无法媲美的较新的技术领域。目前,国际国内最新研究文献还未见有针对具有四维空间结构的柱面全景立体视频编码压缩系统提出相应的理论及结构。

发明内容

[0010] 针对现有技术的不足,本发明提供一种自由视点四维空间视频编码系统的编码方法。
[0011] 一种自由视点四维空间视频编码系统,将自由视点四维空间视频的编码系统分为两个通道;通道一包含平面图像到柱面图像的映射模块、帧内预测模块、预测模式选择模块、离散余弦变换模块、量化模块、重排序模块、熵编码模块、运动估计模块、运动/视差补偿模块、视差估计以及优化模块、反量化模块、反离散余弦变换模块、滤波模块、柱面全景图像拼接模块;通道二包括深度信息的计算和优化模块、深度信息补偿模块、深度信息的离散余弦变换模块、深度信息的量化模块、深度信息的重排序模块、深度信息的熵编码模块、深度信息的反量化模块、深度信息的反离散余弦变换模块;通道一的视差估计以及优化模块与通道二的深度信息的计算和优化模块连接。
[0012] 一种自由视点四维空间视频编码系统的编码方法为:
[0013] 平面图像到柱面图像的映射模块对当前待编码的图像进行映射处理,增加弧度维的信息;一方面帧内预测模块对处理后的带有弧度维的图像帧进行帧内预测,找到帧内预测的最佳预测模式和预测像素值以及相应的绝对误差和SAD的值;另一方面,处理后的带有弧度维的图像帧还需要进行帧间预测;在进行帧间预测过程中,为了充分利用不同视点间图像帧之间的相关性,选用同一视点间和不同视点间的已编码的图像作为参考图像,提高编码效率;运动估计模块对处理后的带有弧度维的图像帧在时域参考图像帧搜索目标范围内进行运动估计,找到当前编码的宏块在时域参考图像中的最佳匹配以及相应的运动矢量;视差估计以及视差优化模块对处理后的带有弧度维的图像帧在视点间参考图像帧搜索目标范围内进行视差估计,得到当前编码的宏块在视点间参考图像中的最佳匹配以及相应的三维视差矢量;运动/视差补偿模块对运动估计模块和视差估计以及视差优化模块得到的具有弧度维的运动矢量和视差矢量经过进行补偿,得到帧间预测的三维运动/视差矢量和预测像素值以及相应的SAD值;预测模式选择模块通过对帧内预测模块得到的帧内预测SAD值和运动/视差补偿模块得到帧间预测的SAD值进行比较,选择较小的SAD值所用的预测模式作为当前帧的最佳预测方式,并给出相应的预测像素值;当前待编码的图像帧的像素值减去预测模式选择模块得到的预测像素值,从而得到预测残差;离散余弦变换模块和量化模块对预测残差进行变换和量化处理,得到残差系数;残差系数经过重排序模块以及熵编码模块后得到编码码流;此外,量化模块得到的残差系数经过反量化模块和反离散余弦变换模块后得到重建的残差;重建的残差与预测模式选择模块得到的预测像素值相加后得到当前帧像素值的重建;然后再经过滤波模块去除方块效应进行图像增强;柱面全景图像拼接模块对滤波后的图像进行处理,即根据需要对图像进行旋转、变焦技术处理,并对图像帧之间存在的冗余像素和盲区像素进行优化补偿,最终重建出当前帧的柱面全景视频帧,作为后续图像帧编码的参考图像帧。
[0014] 在通道二中,深度信息计算与优化模块利用通道一中的视差估计以及优化模块得到的三维视差矢量,根据公式(1)中视差矢量和深度之间的关系,得到当前帧的具有弧度维的深度信息;深度信息补偿模块根据深度信息计算与优化模块得到的深度信息对参考图像的深度信息进行补偿,得到深度差值信号;深度差值信号经过深度信息的离散余弦变换模块、深度信息的量化模块、深度信息的重排序模块以及深度信息的熵编码模块后得到深度信息的编码码流;此外,深度信息的量化模块得到的差值系数经过深度信息的反量化模块、深度信息的反离散余弦变换模块后得到重建的差值;重建的差值和深度信息补偿模块得到的深度信息预测值相加后,重建出当前帧的深度信息。
[0015] 若将通道二功能禁止,编码的码流中没有深度维信息,得到的是柱面全景视频编码码流;若将通道一中弧度计算模块设置为无效,此时编码的码流没有弧度信息,得到的是平面立体视频编码码流;若同时将通道一中弧度计算模块设置为无效,将通道二功能禁止,则得到二维视频编码码流。
[0016] 本发明中自由视点四维空间视频编码系统与现有技术中的平面二维视频编码系统相比,作了如下四点创新:第一,当前待编码的图像在进行编码前,须经过平面图像到柱面图像的映射模块对当前待编码的图像进行映射处理,从而增加弧度维的信息。第二,在进行帧间预测时,增加了视差估计以及优化模块,利用同一自由视点视频组内不同视点相邻图像帧之间具有相关性,对同一自由视点视频组内不同视点的已编码的图像帧进行视差估计及优化。第三,在进行当前帧重建时,增加了柱面全景图像拼接模块,对图像进行旋转、变焦等技术处理,并对图像帧之间存在的冗余像素和盲区像素进行优化补偿,最终重建出当前帧的柱面全景图,重建后的柱面全景视频帧将作为后续图像帧编码的参考图像帧。第四,增加了通道二中所有的模块,通道二根据通道一中视差估计以及优化模块计算出来的视差矢量,然后利用视差矢量和深度之间的关系进行深度信息的预测编码,从而在弧度维的基础上再增加深度维的信息,最终形成自由视点四维空间视频编码码流。
[0017] 所述的通道一中用到了两种参考帧,即时域参考图像帧和视点间参考图像帧。时域参考图像帧为同一视点间已编码的图像帧,而视点间参考图像帧为同一自由视点视频组内不同视点的已编码的图像帧。
[0018] 所述的通道一中时域参考图像帧、视点间参考图像帧、当前宏块对时域参考图像帧和视点间参考图像帧进行运动估计和视差估计后得到的运动矢量和视差矢量都是具有弧度维的三维矢量。
[0019] 所述的通道一中进行当前帧的重建前还需要进行柱面全景图像拼接处理,从而形成自由视点360度全景视频流,重建后的图像帧将作为后续编码帧的参考图像。
[0020] 所述的通道一得到三维视差矢量后,通道二根据公式(1)中视差矢量和深度之间的关系,从而进行深度信息计算与优化,得到具有弧度维的深度信息。
[0021] 所述的通道一和通道二在得到最优预测后,进行补偿得到差值信号,两路差值信号分别进行DCT变换、量化、熵编码,最终得到各视点编码码流及相应的深度信息编码码流。随后经过反变换、反量化、图像补偿后产生各自的重建帧。
[0022] 所述的通道一和通道二中离散余弦变换、量化、熵编码以及反变换、反量化模块可以复用。简单的将通道二功能禁止,则得到柱面全景视频编码码流;将通道一中弧度计算模块设置为无效则得到平面立体视频编码码流;而同时将通道一中弧度计算模块和通道二功能禁止则得到二维视频编码码流。
[0023] 图2中给出自由视点四维空间视频编码系统的结构。其包含两个通路。通道一对亮度和色度信息进行压缩编码,通道二对深度信息进行压缩编码。通道二根据通道一得到三维视差矢量,利用公式(1)中视差矢量和深度之间的关系,从而进行深度信息计算与优化,得到具有弧度维的深度信息。
[0024] 本发明的有益效果是:
[0025] 作为柱面二维视频和平面立体视频在空间结构上的扩展和增强,四维空间视频处理能够提供前所未有的立体视觉感受,其电子产品将在功能、性能、实时性、娱乐性、灵活性、方便性、可靠性等方面取得飞速的发展,应用无处不在,产值不可限量。本发明的理论研究成果及解决方案将弥补平面立体视频处理以及柱面二维视频处理空间组成上的不足,必然是空间多维视频处理技术发展的研究热点和发展趋势,将会对多媒体产业的发展起到积极的推动作用,具有不可限量的广阔应用前景。并且,实际应用中可根据需要使能或者禁止此编码系统中相应的部分,从而得到相应的柱面全景视频编码码流、平面立体视频编码码流或者二维视频编码码流。因此,本发明的自由视点四维空间视频编码系统具有较强的扩展性和适用性。

附图说明

[0026] 图1是H.264视频编码结构框图。
[0027] 图2是本发明中自由视点四维空间视频编码系统的结构框图。
[0028] 其中,1、当前待编码的图像帧,1-1、平面图像到柱面图像的映射,1-2、帧内预测,1-3、预测模式选择,1-4、预测残差,1-5、离散余弦变换(DCT),1-6、量化,1-7、重排序,1-8、熵编码,1-9、熵编码后的码流经过NAL层传输,2、时域参考图像帧,2-1、运动估计,2-2、运动/视差补偿,3、视点间参考图像帧,3-1、视差估计以及优化,3-2、深度信息的计算和优化,4、当前帧的重建帧,4-1、反量化,4-2、反离散余弦变换(IDCT),4-3、残差的重建,4-4、滤波,4-5、柱面全景图像拼接,5、参考图像的深度信息,5-1、深度信息补偿,5-2、经过弧度深度信息预测与补偿后得到的深度差值信号,5-3、深度信息的离散余弦变换,5-4、深度信息的量化,5-5、深度信息的重排序,5-6、深度信息的熵编码,5-7、深度信息的码流,6、当前帧深度信息的重建,6-1、深度信息的反量化,6-2、深度信息的反离散余弦变换,6-3、深度信息残差的重建,7-1、7-3、7-4、7-5、7-7、7-8为正号,7-2、7-6为负号,8、通道一,9、通道二。

具体实施方式

[0029] 下面结合附图和实施例对本发明进一步说明。
[0030] 实施例:
[0031] 一种自由视点四维空间视频编码系统,将柱面空间的二维视频与平面空间的三维视频结合起来。通道一(8)对亮度和色度信息进行压缩编码,通道二(9)对深度信息进行压缩编码。
[0032] 在通道一(8)中,当前待编码的图像都是无弧度的图像(1),因此在进行预测编码前需要进行平面图像到柱面图像的映射(1-1),增加弧度维的信息。处理后的带有弧度维的图像帧(1-1)一方面经过帧内预测(1-2)进行预测,找到帧内预测的最佳预测模式和预测像素值以及相应的绝对误差和(SAD)值。另一方面,处理后的带有弧度维的图像帧(1-1)还需要进行帧间预测。在进行帧间预测过程中,为了充分利用不同视点间图像帧之间的相关性,选用同一视点间和不同视点间的已编码的图像作为参考图像,提高编码效率。处理后的带有弧度维的图像帧(1-1)在时域参考图像帧(2)搜索目标范围内进行运动估计(2-1)找到当前编码的宏块在时域参考图像中的最佳匹配以及相应的运动矢量。处理后的带有弧度维的图像帧(1-1)在视点间参考图像帧(3)搜索目标范围内进行视差估计以及视差优化(3-1)得到当前编码的宏块在视点间参考图像中的最佳匹配以及相应的三维视差矢量。(2-1)和(3-1)得到的具有弧度维的运动矢量和视差矢量经过运动/视差补偿后(2-2)得到帧间预测的三维运动/视差矢量和预测像素值以及相应的SAD值。预测模式选择部分(1-3)通过对帧内预测(1-2)得到的帧内预测SAD值和运动/视差补偿后(2-2)得到帧间预测的SAD值进行比较,选择较小的SAD值所用的预测模式作为当前帧的最佳预测方式,并给出相应的预测像素值。(1-1)给出的当前帧的像素值和(1-3)给出的预测像素值经过(7-1)和(7-2),表示当前像素值减去预测像素值从而得到预测残差(1-4)。残差(1-4)经过离散余弦变换(1-5)和量化(1-6)重排序(1-7)熵编码(1-8)后得到编码码流,编码后的码流流经过NAL层传输(1-9)。此外,量化(1-6)后的残差系数经过反量化(4-1)反离散余弦变换(4-2)后得到重建的残差(4-3)。重建的残差(4-3)和预测模式选择部分(1-3)得到的预测像素值经过(7-3)和(7-4)后,表示(4-3)给出的残差和(1-3)给出的预测像素值相加从而得到当前帧像素值的重建。然后再经过滤波(4-4)去除方块效应进行图像增强。滤波(4-4)后还需进行柱面全景图像拼接(4-5),根据需要对图像进行旋转、变焦等技术处理,并对图像帧之间存在的冗余像素和盲区像素进行优化补偿,最终重建出当前帧的柱面全景图(4),重建后的柱面全景视频帧将作为后续图像帧编码的参考图像帧。
[0033] 通道二(9)利用通道一(8)中的视差估计以及优化部分(3-1)得到的三维视差矢量后,根据公式(1)中视差矢量和深度之间的关系,从而进行深度信息计算与优化(3-2),得到当前帧的具有弧度维的深度信息。(3-2)得到的深度信息利用参考图像的深度信息(5)进行深度信息补偿(5-1),然后两路信息经过(7-5)和(7-6),表示当前帧的深度信息减去经过弧度深度信息预测与补偿后的深度信息从而得到深度差值信号(5-2)。深度差值信号(5-2)经过深度信息的离散余弦变换(5-3)和深度信息的量化(5-4)深度信息的重排序(5-5)以及深度信息的熵编码(5-6)后得到深度信息的编码码流(5-7)。此外,深度信息的量化(5-4)后的差值系数经过反量化(6-1)反离散余弦变换(6-2)后得到重建的差值(6-3)。重建的差值(6-3)和深度信息补偿部分(5-1)得到的深度信息预测值经过(7-7)和(7-8)后,表示(6-3)给出的差值和(5-1)给出的深度信息预测值相加从而得到当前帧深度信息的重建(6)。
[0034] 图一中为H.264视频编码结构图。它没有弧度信息和深度信息的计算,因此编码生成的码流为平面二维视频编码码流。图二是本发明中自由视点四维空间视频编码系统的结构框图。通道一(8)对亮度和色度信息进行压缩编码,得到亮度和色度信息的编码码流(1-9)。通道二(9)对深度信息进行压缩编码,得到深度信息的编码码流(5-7)。此外,简单的将通道二功能禁止后,编码的码流中没有深度维信息,因此得到的是柱面全景视频编码码流。将通道一中弧度计算模块设置为无效后,此时编码的码流没有弧度信息,从而得到的是平面立体视频编码码流。而同时将通道一中弧度计算模块和通道二功能禁止则得到二维视频编码码流。