单目转多目的立体视频生成方法、求解深度信息图以及生成视差图的方法转让专利

申请号 : CN201210517807.3

文献号 : CN102932662B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘丽丽邢文峰

申请人 : 青岛海信信芯科技有限公司

摘要 :

本发明公开一种单目转多目的立体视频生成方法、求解深度信息图以及生成视差图的方法,能够将现有的2D视频源转换成可以在3D立体显示设备上播放的视频,包括以下步骤:将输入的2D视频利用梯度法求解图像运动矢量的方法得到图像的深度信息图;利用得到的深度信息图渲染生成N视点的3D视差图,并合成3D视频输出。本发明提供一种方法,能够将现有的2D视频源转换成可以在3D立体显示设备上播放的片源,利用梯度法求解运动矢量,利用各种运算简单的方法提取准确的深度图,同时运用一路2D的深度图合成多路的多视点视差图解决3D片源短缺的难题,尤其能够解决多视点裸眼立体显示器的3D片源短缺难题,运算复杂度低,运算量小,利于芯片级硬件实现。

权利要求 :

1.一种单目转多目的立体视频生成方法,其特征在于,包括以下步骤:将输入的2D视频求解得到图像的深度信息图,利用得到的深度信息图渲染生成N视点的3D视差图,并合成3D视频输出;其中,求解得到深度信息图的具体步骤为:

对视频图像进行预处理;

对预处理后的图像利用梯度法得到运动矢量;

对运动矢量进行场景改变度检测以得到视频图像的初始深度信息;

对初始深度信息进行再处理以得到清晰的深度图;

生成视差图的具体步骤为:

结合深度信息图和原始图,视点区的N个视点在显示屏后生成N路虚拟像点,设视点区的N个左视点为L0、L1、L2……LN;N个右视点为R0、R1、R2……RN;则各视点在显示屏后生成的N路虚拟像点曲线为L0”、R0”;L1”、R1”;L2”、20”……LN”、RN”;

求得N视点视差图为:

LN”=S+(2N+1)*depth;

RN”=S-(2N+1)*depth;

S为原2D图像;

进而合成N幅输入到显示屏的视频源;

根据显示器特性将N幅视频源合成一幅视频源到显示器上显示。

2.根据权利要求1所述的单目转多目的立体视频生成方法,其特征在于,所述对视频图像进行预处理具体为:将输入的2D视频由RGB色彩空间转换到YUV空间;

对YUV空间的Y分量进行重复下采样处理,同时进行场景自然度检测和场景相关度检测;

对初始深度信息进行再处理具体为:

对初始深度信息进行重复平滑滤波和重复上采样处理,并根据场景相关度检测信息对视频图像内的边界信息进行保留,得到清晰的深度图;

根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波,得到最终的图像深度信息图。

3.根据权利要求2所述的单目转多目的立体视频生成方法,其特征在于,所述下采样处理具体是将视频原始分辨率降到低分辨率。

4.一种单目转多目的立体视频生成方法,其特征在于,包括以下步骤:将输入的2D视频求解得到图像的深度信息图,利用得到的深度信息图渲染生成N视点的3D视差图,并合成3D视频输出;其中,求解得到深度信息图的具体步骤为:

对视频图像进行预处理;

对预处理后的图像利用梯度法得到运动矢量;

对运动矢量进行场景改变度检测以得到视频图像的初始深度信息;

对初始深度信息进行再处理以得到清晰的深度图;

对初始深度信息进行再处理具体为:

对初始深度信息进行重复平滑滤波和重复上采样处理,并根据场景相关度检测信息对视频图像内的边界信息进行保留,得到清晰的深度图;

根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波,得到最终的图像深度信息图。

5.根据权利要求4所述的单目转多目的立体视频生成方法,其特征在于,生成视差图的具体步骤为:结合深度信息图和原始图,视点区的N个视点在显示屏后生成N路虚拟像点,设视点区的N个左视点为L0、L1、L2……LN;N个右视点为R0、R1、R2……RN;则各视点在显示屏后生成的N路虚拟像点曲线为L0”、R0”;L1”、R1”;L2”、20”……LN”、RN”;

求得N视点视差图为:

LN”=S+(2N+1)*depth;

RN”=S-(2N+1)*depth;

S为原2D图像;

进而合成N幅输入到显示屏的视频源;

根据显示器特性将N幅视频源合成一幅视频源到显示器上显示。

6.根据权利要求4所述的单目转多目的立体视频生成方法,其特征在于,对运动矢量进行场景改变度检测具体为:若场景发生变化,则重新计算变化后的图像利用梯度法得到运动矢量;

反之,进行运动矢量累加。

7.根据权利要求4所述的单目转多目的立体视频生成方法,其特征在于,所述场景自然度检测是完成检测视频的电影模式中上方和下方有大面积的黑幕情况,形成有效的视频图像检测区域;

所述场景改变度检测是检测前后帧的图像是否发生场景变化,场景变化时将重新计算运动矢量;

所述场景相关度检测是检测同一帧图像中的相邻像素是否相关。

8.根据权利要求4所述的单目转多目的立体视频生成方法,其特征在于,所述上采样处理具体是将视频所降到的低分辨率还原到原始分辨率。

9.根据权利要求4所述的单目转多目的立体视频生成方法,其特征在于,所述N视点的N=2,为佩带眼镜的3D模式;所述N视点的N>2,为裸眼的3D模式。

10.一种求解深度信息图的方法,其特征在于,具体包括以下步骤:将输入的2D视频由RGB色彩空间转换到YUV空间;

对YUV空间的Y分量进行重复下采样处理,同时进行场景自然度检测和场景相关度检测;

对下采样处理的视频图像信息利用梯度法得到运动矢量,同时对运动矢量进行场景改变度检测,并判断场景是否发生变化;

若场景发生变化,则重新计算变化后的图像利用梯度法得到运动矢量;

反之,进行运动矢量累加;

进而得到视频图像的初始深度信息;

对初始深度信息进行重复平滑滤波和重复上采样处理,并根据场景相关度检测信息对视频图像内的边界信息进行保留,得到清晰的深度图;

根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波,得到最终的图像深度信息图。

说明书 :

单目转多目的立体视频生成方法、求解深度信息图以及生

成视差图的方法

技术领域

[0001] 本发明涉及多视点立体视频合成领域,尤其涉及一种单目转多目的立体视频生成方法、求解深度信息图以及生成视差图的方法。

背景技术

[0002] 随着告别3D电视元年2010年以及进一步放量发展的2011年,3D显示技术已进入3D电视的普及元年2012年。纵观整个3D电视发展历程,无论是眼镜式3D显示技术还是裸眼3D显示技术都已进入稳定发展期。但是,相对于3D显示技术的迅猛发展,3D片源逐渐成为制约3D电视在消费市场上进一步普及的最大瓶颈。
[0003] 3D片源分为双目片源和多目片源,双目片源需要佩戴辅助设备进行观看,如通过主动快门式、偏振式、红蓝式眼镜等将双目图像分别发送至人的左右两眼,从而形成立体视觉感知。这种方式需要用户佩戴眼镜,观看不便。多目片源播放则采用裸眼3D立体显示设备显示,裸眼3D立体显示技术能够让用户无需佩戴辅助设备即可观看视频所具有的立体效果,是未来立体视频显示的发展方向。
[0004] 无论是双目还是多目片源,由于制作成本高、周期长、对采集设备及辅助设备的要求高等问题,成为制约3D电视普及的瓶颈,而且现有的大量2D视频资料一方面提供了丰富的片源问题,另一方面却由于显示不兼容的问题而无法在3D立体显示设备上显示。

发明内容

[0005] 针对上述问题,本发明的目的在于提供一种单目转多目的立体视频生成方法、求解深度信息图以及生成视差图的方法,能够将现有的2D视频源转换成可以在3D立体显示设备上播放的视频。
[0006] 为达到上述目的,本发明所述一种单目转多目的立体视频生成方法,包括以下步骤:
[0007] 将输入的2D视频求解得到图像的深度信息图,利用得到的深度信息图渲染生成N视点的3D视差图,并合成3D视频输出;其中,
[0008] 求解得到深度信息图的具体步骤为:
[0009] 对视频图像进行预处理;
[0010] 对预处理后的图像利用梯度法得到运动矢量;
[0011] 对运动矢量进行场景改变度检测以得到视频图像的初始深度信息;
[0012] 对初始深度信息进行再处理以得到清晰的深度图。
[0013] 优选地,生成视差图的具体步骤为:
[0014] 结合深度信息图和原始图,视点区的N个视点在显示屏后生成N路虚拟像点,设视点区的N个左视点为L0、L1、L2......LN;N个右视点为R0、R1、R2......RN;则各视点在显示屏后生成的N路虚拟像点曲线为L0”、R0”;L1”、R1”;L2”、20”......LN”、RN”;
[0015] 求得N视点视差图为:
[0016] LN”=S+(2N+1)*depth;
[0017] RN”=S-(2N+1)*depth;
[0018] 进而合成N幅输入到显示屏的视频源;
[0019] 根据显示器特性将N幅视频源合成一幅视频源到显示器上显示。
[0020] 优选地,对视频图像进行预处理具体为:
[0021] 将输入的2D视频由RGB色彩空间转换到YUV空间;
[0022] 对YUV空间的Y分量进行重复下采样处理,同时进行场景自然度检测和场景相关度检测;
[0023] 对初始深度信息进行再处理具体为:
[0024] 对初始深度信息进行重复平滑滤波和重复上采样处理,并根据场景相关度检测信息对视频图像内的边界信息进行保留,得到清晰的深度图;
[0025] 根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波,得到最终的图像深度信息图。
[0026] 优选地,对运动矢量进行场景改变度检测具体为:
[0027] 若场景发生变化,则重新计算变化后的图像利用梯度法得到运动矢量;
[0028] 反之,进行运动矢量累加。
[0029] 优选地,所述场景自然度检测是完成检测视频的电影模式中上方和下方有大面积的黑幕情况,形成有效的视频图像检测区域;
[0030] 所述场景改变度检测是检测前后帧的图像是否发生场景变化,场景变化时将重新计算运动矢量;
[0031] 所述场景相关度检测是检测同一帧图像中的相邻像素是否相关。
[0032] 优选地,所述下采样处理具体是将视频原始分辨率降到低分辨率。
[0033] 优选地,所述上采样处理具体是将视频所降到的低分辨率还原到原始分辨率。
[0034] 优选地,所述N视点的N=2,为佩带眼镜的3D模式;所述N视点的N>2,为裸眼的3D模式。
[0035] 为达到上述目的,本发明所述一种求解深度信息图的方法,具体包括以下步骤:
[0036] 将输入的2D视频由RGB色彩空间转换到YUV空间;
[0037] 对YUV空间的Y分量进行重复下采样处理,同时进行场景自然度检测和场景相关度检测;
[0038] 对下采样处理的视频图像信息利用梯度法得到运动矢量,同时对运动矢量进行场景改变度检测,并判断场景是否发生变化;
[0039] 若场景发生变化,则重新计算变化后的图像利用梯度法得到运动矢量;
[0040] 反之,进行运动矢量累加;
[0041] 进而得到视频图像的初始深度信息;
[0042] 对初始深度信息进行重复平滑滤波和重复上采样处理,并根据场景相关度检测信息对视频图像内的边界信息进行保留,得到清晰的深度图;
[0043] 根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波,得到最终的图像深度信息图。
[0044] 为达到上述目的,本发明所述一种生成视差图的方法,具体包括以下步骤:
[0045] 结合深度信息图和原始图,视点区的N个视点在显示屏后生成N路虚拟像点,设视点区的N个左视点为L0、L1、L2......LN;N个右视点为R0、R1、R2......RN;则各视点在显示屏后生成的N路虚拟像点曲线为L0”、R0”;L1”、R1”;L2”、20”......LN”、RN”;
[0046] 求得N视点视差图为:
[0047] LN”=S+(2N+1)*depth;
[0048] RN”=S-(2N+1)*depth;
[0049] 进而合成N幅输入到显示屏的视频源;
[0050] 根据显示器特性将N幅视频源合成一幅视频源到显示器上显示。
[0051] 本发明的有益效果为:
[0052] 本发明提供一种方法,能够将现有的2D视频源转换成可以在3D立体显示设备上播放的片源,利用梯度法求解运动矢量,利用各种运算简单的方法提取准确的深度图,同时运用一路2D的深度图合成多路的多视点视差图解决3D片源短缺的难题,尤其能够解决多视点裸眼立体显示器的3D片源短缺难题,运算复杂度低,运算量小,利于芯片级硬件实现。

附图说明

[0053] 图1是本发明实施例所述单目转多目的立体视频生成方法的框图;
[0054] 图2是本发明实施例所述深度图求解框图;
[0055] 图3是人眼观看3D显示器产生深度感的原理图;
[0056] 图4是生成视差图像的基本原理;
[0057] 图5是一路2D视频根据深度信息合成多路视频的俯视图。

具体实施方式

[0058] 下面结合说明书附图对本发明做进一步的描述。
[0059] 单目视频(2D)转多目视频(3D)是在现有3D信号比较少的情况下出现的一种技术,它能够将日常观看的普通2D电视节目,通过运算产生出3D的显示效果。
[0060] 2D转3D是在原有2D图像的基础上经过运算,生成新的视差图像,然后将视差图像以3D存储格式输出,通过佩戴合适的3D眼镜,或者输出合适的多视点视频源,通过多视点立体显示器,从而达到实现3D效果的目的。
[0061] 为此,如图1所示,本发明实施例所述一种单目转多目的立体视频生成方法,能够将现有的2D视频源转换成可以在3D立体显示设备上播放的视频。
[0062] 该方法包括以下步骤:
[0063] 将输入的2D视频利用梯度法求解图像运动矢量的方法得到图像的深度信息图;
[0064] 利用得到的深度信息图渲染生成N视点的3D视差图,并合成3D视频输出。
[0065] 本发明实现的内容为两个部分,一部分为利用2D视频图像求解深度图;一部分为利用深度图合成3D视频源。
[0066] 1、得到深度信息图的具体步骤为:
[0067] 将输入的2D视频由RGB色彩空间转换到YUV空间;
[0068] 对YUV空间的Y分量进行重复下采样处理,同时进行场景自然度检测和场景相关度检测;
[0069] 对下采样处理的视频图像信息利用梯度法得到运动矢量,同时对运动矢量进行场景改变度检测,并判断场景是否发生变化;
[0070] 若场景发生变化,则重新计算变化后的图像利用梯度法得到运动矢量;
[0071] 反之,进行运动矢量累加;
[0072] 进而得到视频图像的初始深度信息;
[0073] 对初始深度信息进行重复平滑滤波和重复上采样处理,并根据场景相关度检测信息对视频图像内的边界信息进行保留,得到清晰的深度图;
[0074] 根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波,得到图像的深度信息图。
[0075] 上述步骤的具体处理为:如图2所示;
[0076] 将输入的2D视频先由RGB色彩空间转换到YUV空间,在图像的YUV空间内Y向量表示明亮度,也就是灰阶值,而U向量和V向量主要用于指定像素的颜色,在这里,Y向量集中绝大部分的图像信息,因此,本发明中需要对Y向量进行处理。
[0077] 接着,对Y分量进行下采样到低分辨率以减少运算复杂度(例如:分辨率从1080*1920下采样到64*64等级),在这个分辨率降低过程中,由于分辨率的降低需要分阶段的降低,因此,下采样过程需要重复处理,以达到所需要的视频分辨率。
[0078] 在每次的下采样的过程中需要运用双三次立方插值法以最大程度的保持图像细节,同时在下采样的过程中进行场景自然度检测和场景相关度检测,该两项检测也随着下采样过程的重复处理,也需重复检测,以便记录每一次的检测信息,为后续上采样作为滤波条件生成深度图。在这里,场景自然度检测主要完成检测视频的电影模式中上方和下方有大面积的黑幕情况,形成有效的视频图像检测区域;所述场景相关度检测是检测同一帧图像中的相邻像素是否相关,确保像素之间的合理配合。
[0079] 然后,根据硬件配置,调低到合适的分辨率后根据梯度法求解图像的运动矢量,通过视频的连续播放,对运动矢量进行场景改变度检测。场景改变度检测主要检测前后帧的图像是否发生场景变化,如发生镜头切换等,场景改变时将重新计算运动矢量。在场景未改变的视频帧中进行运动矢量累加,从而求得连续视频帧的运动矢量,得到视频帧的初始深度信息。
[0080] 接着,对初始深度信息进行平滑滤波和上采样操作,在这个过程中需要将低分辨率还原到原始的高分辨率(如从64*64等级到1080*1920),还原过程同样分阶段的进行,因此,重复滤波和上采样步骤需要重复处理,最终到原始的分辨率等级,在进行平滑滤波的时候根据场景相关度检测信息对图像内的边界信息进行保留,即滤波时只在边界内进行滤波,这样就能将图像内前景和背景在边界处区分,从而形成清晰的深度图。
[0081] 最后,根据场景自然度信息和场景改变度信息对深度图进行混合滤波,得到图像的深度信息图。
[0082] 2、生成视差图的具体步骤为:
[0083] 结合深度信息图和原始图,视点区的N个视点在显示屏中生成N路虚拟像点,进而合成N幅输入到显示屏的视频源;
[0084] 根据显示器特性将N幅视频源合成一幅视频源到显示器上显示。
[0085] 对于上述的具体步骤需要一步步以形成原理进行解释说明:
[0086] 首先,要知道人眼在观看3D显示器为什么能够产生深度感,深度感的产生可以进一步的使人眼看到立体场景。在这里,以图3作为解释视图,在图中,观看者以观看距离L观看3D显示器,左、右眼分别看到左、右视差图像中的同源像点O1和Or时,会感觉到空间点O位于显示屏后方H距离处。同理,该行像素上其他同源像点也会相应地产生深度感。这些同源像点综合产生的视觉效果使得观看者感觉到有一条曲线AB出现在显示屏的后方。该曲线AB可看作是某一行像素的深度图。那么,当出现整幅图像时,按照该原理,观看者就可以感觉到具有深度感的整个场景。
[0087] 由深度图生成多幅视差图像的原理是人眼观看3D显示器获得深度感的一个逆过程,即要利用要显示的深度反过来生成相应的视差图像。在这里,以图4解释生产视差图像的基本原理。曲线A’B’为设定的场景某一行像素的深度图,该深度图反映了观看者观看3D显示器上产生的立体效果。在图中,设3D显示器最佳观看距离为L,则在距离显示屏垂直距离L处设定多个水平放置且间距为人眼瞳距的视点来模拟人眼观看3D显示器的实际情况。图中标识了3个视点,当人眼位于视点1处观看折线A’B’时,其视觉效果等同于从显示屏上观看折线A’B’的投影,同理,在视点2和视点3,以及在整个场景的每个视点都可以得到一个在显示屏上的投影图像。该投影图像就是视差图像。当左、右眼位于两个相邻视点观看到对应的投影图像时,就可以观看到图像的立体效果。
[0088] 上述内容介绍的是在单个视点看到的视差图像,下面要解释左、右视点是如何根据上述视差形成原理得到所需要的立体图像。以图5说明,其中视点区代表N个视点,即:L0、L1、L2......LN为左边视点,R0、R1、R2......RN为右边视点。以L0和R0这组左、右视点为例,在图中,L0视点观看深度曲线L0”上的三个虚拟像点,在显示屏上投影三个影点,其中包括L0’。而R0视点观看深度曲线R0”上的三个虚拟像点,在显示屏上投影三个影点,其中包括R0’。L0’和R0’为左、右眼产生的视差图像点。因此,可以得到N个视点生成N路虚拟像点,即合成N幅输入显示屏的视频源,最后根据显示屏的类型,从N幅视频源中按照相应的输入格式合成一幅输入视频源在显示屏上显示。如图上所示,显示屏后的曲线L0”表示L0视点看到的某一行像素形成的像,曲线R0”表示R0视点看到的这行像素形成的像,L0”和R0”之间的视差就是上述求解深度图,即视差偏移量depth,那么,用数学表达式表示为:
[0089] L0”=S+depth
[0090] R0”=S-depth
[0091] 其中S表示原2D图像。
[0092] 当N=2时,就可以作为普通辅助眼镜观看的3D显示输入视频源。
[0093] 当N>2时,N视点视差图分别为
[0094] LN”=S+(2n+1)*depth;
[0095] RN”=S-(2n+1)*depth;
[0096] 最后再根据裸眼立体显示装置的3D像素排列方式将N幅视差图组合排列成一幅裸眼立体显示图,就可以在裸眼立体显示器上进行显示。供于显示的显示器可有裸眼立体显示器、SG屏立体显示器、PR屏立体显示器等。
[0097] 以上,仅为本发明的较佳实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求所界定的保护范围为准。