基于图像运动信息的2D转3D方法转让专利

申请号 : CN201180028889.9

文献号 : CN103053165B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 冯涛张彦丁杨东

申请人 : 北京世纪高蓝科技有限公司

摘要 :

本发明公开了一种基于图像运动信息的2D转3D方法,涉及2D转3D技术领域。该方法包括步骤:S1.基于运动估计的方法得到输入的2D图像各像素的深度值;S2.根据各像素的亮度值,对各像素的深度值进行累加,得到输入的2D图像的深度图;S3.根据步骤S2得到的深度图,进行基于深度图的图像重构左眼和/或右眼图像;S4.将步骤S3的左眼图像和右眼图像合成并输出得到3D图像。在本发明的方法中,由于对运动估计得到的深度值进行了累加处理,得到的深度图连续且稠密,提高了重构图像的质量以及3D视觉效果。

权利要求 :

1.一种基于图像运动信息的2D转3D方法,其特征在于,该方法包括步骤:S1.基于运动估计的方法得到输入的2D图像各像素的深度值;

S2.根据各像素的亮度值,对所述各像素的深度值进行累加,得到所述输入的2D图像的深度图;

S3.根据步骤S2得到的深度图,基于深度图的图像重构,重构左眼和/或右眼图像;

S4.将步骤S3的左眼图像和右眼图像合成并输出得到3D图像;

其中,步骤S1进一步包括:

S1.1基于运动估计的方法计算各像素的运动矢量;

S1.2根据步骤S1.1得到的运动矢量分别计算各像素的深度值,所述运动估计的方法为菱形搜索算法,深度值的计算公式为:y为像素所在行,x为像素所在列,D(x,y)为未知(x,y)处的像素的深度值,MVx以及MVy分别为所述像素水平方向以及竖直方向的运动矢量,C为常量,其中,步骤S2进一步包括:

S2.1从所述输入的2D图像的第一行开始,对各像素的深度值进行累加得到每一个像素的深度累加值D(x,y)';

S2.2按照以下公式,将所述深度累加值归一化到[0,255]之间,得到归一化的深度值D(x,y)″:其中,DEPTH_SCALE为深度值缩放因子,其中,sum为所有像素的深度值之和,sum'为每个像素的平均深度值,width为所述输入的2D图像的宽度值,height为所述输入的2D图像的高度值。

2.如权利要求1所述的基于图像运动信息的2D转3D方法,其特征在于,DEPTH_SCALE=120。

3.如权利要求1所述的基于图像运动信息的2D转3D方法,其特征在于,步骤S3进一步包括:S3.1按照下式重构左眼或右眼图像:

1/Z=Dz(x,y)″-Dzero

其中,xl、xr分别为左眼图像及右眼图像中对应输入的2D图像xc位置的位置,f为眼睛的焦距,tx为两眼之间的距离,Z为像素点离人眼的距离,Dzero为零平面的位置,其取值范围为[0,255];

S3.2将(xc,y)处的像素值拷贝到对应的(xl,y)或(xr,y)处。

4.如权利要求3所述的基于图像运动信息的2D转3D方法,其特征在于Dzero=255。

说明书 :

基于图像运动信息的2D转3D方法

技术领域

[0001] 本发明涉及2D转3D技术领域,尤其涉及一种基于图像运动信息的2D转3D方法。

背景技术

[0002] 三维(Three Dimensions,3D)电视席卷而来成为全球电视产业新的发展方向,各大电视生厂商都推出了自己的3D电视。3D应用在人们的生活中变得越来越流行,但是虽然不断有3D电影拍摄,3D片源仍不能满足目前的市场需要。将二维(Two Dimensions,2D)片源自动的转换为3D成为新的市场需要。2D与3D之间的转换即为生成基于2D视图内容的第二视图视频,该过程包括两个方面的处理:一个为深度估计以得到深度图(depth map/image);另一个为基于深度图的图像重构(Depth Image Based Rendering,DIBR)。深度图以8位灰度值存储了深度信息(0灰度表示最远值,255灰度表示最近值),在过去的多年中,2D转3D这一领域出现了很多算法,较常用的为基于运动估计的2D转3D算法,该方法通过运动估计的方法得到输入图像的深度图,但是,由于深度图需要相当的稠密度及精确度,而现有的基于运动估计的2D转3D算法得到的深度图较为稀疏,在物体分解出不能区分出不同物体,从而影响DIBR得到的图像质量,因此,限制了该方法的推广使用。

发明内容

[0003] (一)要解决的技术问题
[0004] 本发明要解决的技术问题:如何提高基于图像运动信息的2D转3D方法生成图像的质量。
[0005] (二)技术方案
[0006] 为了解决上述技术问题,本发明提供了一种基于运动估计的2D转3D方法,该方法包括步骤:
[0007] S1.基于运动估计的方法得到输入的2D图像各像素的深度值;
[0008] S2.根据各像素的亮度值,对所述各像素的深度值进行累加,得到所述输入的2D图像的深度图;
[0009] S3.根据步骤S2得到的深度图,基于深度图的图像重构,重构左眼和/或右眼图像;
[0010] S4.将步骤S3的左眼图像和右眼图像合成并输出得到3D图像。
[0011] 优选地,步骤S1进一步包括:
[0012] S1.1基于运动估计的方法计算各像素的运动矢量;
[0013] S1.2根据步骤S1.1得到的运动矢量分别计算各像素的深度值。
[0014] 优选地,所述深度值的计算公式为:
[0015]
[0016] 优选地,所述运动估计的方法为菱形搜索算法。
[0017] 优选地,步骤S2进一步包括:
[0018] S2.1从所述输入的2D图像的第一行开始,对各像素的深度值进行累加得到每一个像素的深度累加值D(x,y)':
[0019] S2.2按照以下公式,将所述深度累加值归一化到[0,255]之间,得到归一化的深度值D(x,y)'':
[0020]
[0021] 其中,I(x,y)为(x,y)位置处的像素的亮度值,其取值范围为[0,255];SCALE为亮度值的缩放因子;width为所述输入的2D图像的宽度值,height为所述输入的2D图像的高度值;DEPTH_SCALE为深度值缩放因子,
[0022]
[0023]
[0024] 优选地,步骤S2.1进一步包括:
[0025] S2.11若y为0,则D(x,y)'=0,否则,执行步骤S2.12;
[0026] S2.12若y为奇数,且x为0,则D(x,y)'=D(x,y-1)'+D(x,y),若x不为0,则:
[0027] D(x,y)'=min(D(x-1,y)'+|I(x+1,y)-I(x-1,y)|*SCALE,D(x,y-1)')+D(x,y)*(1+|I(x,y-1)-I(x,y+1)|*SCALE)否则执行步骤S2.13;
[0028] S2.13若x=width-1,则D(x,y)'=D(x,y-1)'+D(x,y),否则:
[0029] D(x,y)'=min(D(x+1,y)'+|I(x+1,y)-I(x-1,y)|*SCALE,D(x,y-1)')+D(x,y)*(1+|I(x,y-1)-I(x,y+1)|*SCALE)S2.14若y<height,则返回步骤S2.11,否则,输出步骤S2.12或S2.13得到的D(x,y)'。
[0030] 优选地,SCALE=0.1。
[0031] 优选地,DEPTH_SCALE=120。
[0032] 优选地,步骤S3进一步包括:
[0033] S3.1按照下式重构左眼或右眼图像:
[0034]
[0035]
[0036]
[0037] 其中,xl、xr分别为左眼图像及右眼图像中对应输入的2D图像xc位置的位置,f为眼睛的焦距,tx为两眼之间的距离,Z为像素点离人眼的距离,Dzero为零平面的位置,其取值范围为[0,255];
[0038] S3.2将(xc,y)处的像素值拷贝到对应的(xl,y)或(xr,y)处。
[0039] 优选地,Dzero=255。
[0040] (三)有益效果
[0041] 在本发明的方法中,由于对运动估计得到的深度值进行了累加处理,得到的深度图连续且稠密,提高了重构图像的质量以及3D视觉效果。

附图说明

[0042] 图1是依照本发明一种实施方式的基于图像运动信息的2D转3D方法流程图;
[0043] 图2是一种双摄像机的视觉模型示意图。

具体实施方式

[0044] 下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0045] 本发明提出的基于图像运动信息的2D转3D方法,结合附图及实施例详细说明如下。
[0046] 如图1所示,依照本发明一种实施方式的基于图像运动信息的2D转3D方法包括步骤:
[0047] S1.基于运动估计的方法得到输入的2D图像各像素的深度值;
[0048] S2.根据各像素的亮度值,对各像素的深度值进行累加,得到输入的2D图像的深度图;
[0049] S3.根据步骤S2得到的深度图,进行基于深度图的图像重构左眼和/或右眼图像;
[0050] S4.将步骤S3的左眼图像和右眼图像合成并输出得到3D图像。
[0051] 在本实施方式的方法中,步骤S1进一步包括:
[0052] S1.1基于运动估计的方法计算各像素的运动矢量,其中,运动估计的方法采用菱形搜索算法,先进行大的菱形的搜索,再进行小的菱形的搜索,最后的到整数像素精度的运动矢量,当然,其他的搜索算法在这里同样适用,不作为对本发明方法的限制;
[0053] S1.2根据步骤S1.1得到的运动矢量分别计算各像素的深度值。
[0054] 其中,深度值的计算公式为:
[0055]
[0056] y为像素所在行,x为像素所在列,D(x,y)为未知(x,y)处的像素的深度值,MVx以及MVy分别为所述像素水平方向以及竖直方向的运动矢量,C为常量,本实施方式中C=1。
[0057] 为了提高步骤S1.1中搜索的精度,减少噪声(特别是某些片源中添加的椒盐噪声)对运动搜索精度的影响,在进行步骤S1.1的运动搜索之前,可对输入的2D图像进行去噪处理,此为本领域的技术人员所公知的,在此不做赘述。
[0058] 由于运动搜索得到的运动矢量不连续,如果直接计算得到的深度图很稀疏,而实际的深度图应该是稠密的,所以本发明根据各像素的亮度信息对运动矢量计算得到的深度值进行累加。
[0059] 在本实施方式中,步骤S2进一步包括:
[0060] S2.1从输入的2D图像的第一行开始,对各像素的深度值进行累加得到每一个像素的深度累加值D(x,y)',该步骤进一步包括:
[0061] S2.11若y为0,则D(x,y)'=0,否则,执行步骤S2.12;
[0062] S2.12若y为奇数,且x为0,则D(x,y)'=D(x,y-1)'+D(x,y),若x不为0,则:
[0063] D(x,y)'=min(D(x-1,y)'+|I(x+1,y)-I(x-1,y)|*SCALE,D(x,y-1)')+D(x,y)*(1+|I(x,y-1)-I(x,y+1)|*SCALE)
[0064] 否则执行步骤S2.13;
[0065] S2.13若x=width-1,则D(x,y)'=D(x,y-1)'+D(x,y),否则:
[0066] D(x,y)'=min(D(x+1,y)'+|I(x+1,y)-I(x-1,y)|*SCALE,D(x,y-1)')+D(x,y)*(1+|I(x,y-1)-I(x,y+1)|*SCALE)
[0067] S2.14若y<height,则返回步骤S2.11,否则,输出步骤S2.12或S2.13得到的D(x,y)'。
[0068] S2.2按照以下公式,将深度累加值归一化到[0,255]之间,得到归一化的深度值D(x,y)'',从而得到连续稠密的深度图:
[0069]
[0070] (6)
[0071] 其中,I(x,y)为(x,y)位置处的像素的亮度值,其取值范围为[0,255];SCALE为亮度值的缩放因子,本实施方式中SCALE=0.1;width为输入的2D图像的宽度值,height为输入的2D图像的高度值;DEPTH_SCALE为深度值缩放因子,本实施方式中,DEPTH_SCALE=120;
[0072]
[0073]
[0074] S2.3对步骤S2.2得到的归一化深度值D(x,y)''进行非对称高斯滤波,得到最终的深度值Dz(x,y)'',该非对称高斯滤波处理为本领域所述熟知的技术,在此不做赘述。
[0075] 由于将在图像水平方向进行投影变换,所以水平方向应尽量保持深度值的连续性,避免运动搜索带来的噪声过大影响,所以本发明未将水平梯度值用于缩放运动得到深度值。
[0076] 由于人眼的视觉特性,有70%的人视觉感知依重于右眼,20%的人依重于左眼。为了减少计算量,本发明在使用DIBR重构图像时仅重构用户不倚重的那只眼,不失一般性,这里默认为左眼。且这种情况下虽然重构帧的质量较差,但不影响3D的视觉效果。因此,本实施方式中在步骤S3中,以左眼图像为例,即,在步骤S3中根据步骤S2得到的深度图,基于DIBR重构左眼图像。
[0077] 如图2所示,其中,Cc为输入的2D图像,Cl为重构的左眼图像,Cr为重构的右眼图像。f为眼睛的焦距,tx为基线距离,即两眼之间的距离,Z为观测的像素点离人眼的距离,按照公式(11)进行计算。Dzero为零平面的位置,取值[0,255],在本实施方式中可取255。公式(9)、(10)为图2中对应Cl、Cr、Cc中同一像素点投影的几何关系,根据公式(9)、(10)计算得到对应输入的2D图像xc位置的xl或xr值,然后将(xc,y)处的像素值拷贝到对应的(xl,y)或(xr,y)处(本实施方式中拷贝到(xl,y))。
[0078] 即步骤S3进一步包括:
[0079] S3.1按照下式重构左眼或右眼图像:
[0080]
[0081]
[0082]
[0083] 其中,xl、xr分别为左眼图像及右眼图像中对应输入的2D图像xc位置的位置,f为眼睛的焦距,tx为两眼之间的距离,Z为像素点离人眼的距离,Dzero为零平面的位置,其取值范围为[0,255];
[0084] S3.2将(xc,y)处的像素值拷贝到对应的(xl,y)或(xr,y)处。
[0085] 为了减少重构图像的锯齿效应,先将输入的2D图像的水平方向进行缩放,以提高投影时的像素精度。在本实施方式中,在水平方向将图像拉伸到原来的4倍,根据以上的人眼视觉关系计算得到每行xl对应的1/4像素精度的x值。若xl对应的x的值超出了图像范围,则根据插值得到xl位置的像素值;若多个xl对应相同的x,则取D(x,y)''最大的xl,其它的xl位置值通过插值得到;若xl对应的x唯一,则xl位置的像素值为输入的2D图像x位置的像素值。
[0086] 以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
[0087] 使用本发明的基于图像运动信息的2D转3D方法得到的图像重构图像质量高,3D视觉效果好,对推动2D片源自动的转换为3D的市场发展具有重要意义。
[0088] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。