基于图分割和多线索融合的单幅图深度估计方法及其系统转让专利

申请号 : CN200910242625.8

文献号 : CN101739683B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王亦洲郭歌王威高文

申请人 : 北京大学

摘要 :

本发明公开了一种基于图分割和多线索融合的单幅图深度估计方法及其系统。所述方法包括:给定输入图像和基元模板,在图模型的基础上利用形状和纹理匹配、遮挡估计以及同时进行的图分割方法,在输入图像中找到与模板相匹配的所有基元;然后提取每一基元深度线索参数,深度线索参数包括基元的大小、遮挡关系以及经计算获取的图像中每个基元的模糊程度;依据所述深度线索参数,对各个基元的深度值进行估计,并将图像中除去基元之外的区域作为背景;根据形状匹配得到的基元三维姿态对各个基元内部区域进行深度拟合,最终得到优化的深度图。本发明综合运用物体成像大小、模糊程度和遮挡关系这些深度线索参数,获取单幅图像的相对深度图。

权利要求 :

1.一种基于图分割和多线索融合的单幅图深度估计方法,其特征在于,包括如下步骤:基元匹配步骤,给定输入图像和基元模板,同时进行形状和纹理匹配、遮挡估计和图分割,实现一对多的基元匹配和检测,从而在输入图像中找到与模板相匹配的所有基元,包括被遮挡的不完整显现的基元,并由形状匹配得到基元三维姿态的估计;

深度线索提取步骤,提取每一所述基元深度线索参数,所述深度线索参数包括基元的大小、遮挡关系以及经计算获取的图像中每个基元的模糊程度;

深度估计步骤,依据所述深度线索参数,对各个基元的深度值进行估计,并将图像中除去基元之外的区域作为背景;

深度优化步骤,根据所述基元的三维姿态建立模型,拟合各个基元内部的深度值,获取深度图。

2.根据权利要求1所述的单幅图深度估计方法,其特征在于,在所述基元匹配步骤中,在所述输入图像中找到与所述模板相匹配的所有基元包括如下步骤:图模型建立步骤,对所述输入图像建立图模型,所述图模型的顶点对应于所述输入图像中所提取的各个特征点,所述图模型的各条边表示特征点之间的邻接关系;

分割步骤,基于所述图模型,同时进行形状及纹理匹配、遮挡估计和图分割,在所述图模型上划分出与所述给定模板对应的各个基元,每个所述基元由多个顶点和边组成。

3.根据权利要求2所述的单幅图深度估计方法,其特征在于,在所述深度线索提取步骤中,获取图像中每个基元的模糊程度包括如下步骤:小波变换步骤,对所述输入图像二维方向上进行小波变换,所述二维方向为小波模极大值的分布方向及梯度方向;

基元边缘点模糊度估计步骤,在所述梯度方向上进行正则性分析,基于所述正则性分析,估计所述基元边缘点的模糊度;

基元内点模糊度估计步骤,依据基元边缘点的模糊度,确定与其最接近的基元内点的模糊度;

基元模糊度计算步骤,计算基元区域内,所有点模糊度的平均值,所述平均值作为所述基元的模糊度。

4.根据权利要求3所述的单幅图深度估计方法,其特征在于,在所述深度估计步骤中,使用置信传播算法,依据提取的所述深度线索参数,估计每个基元的深度值。

5.根据权利要求4所述的单幅图深度估计方法,其特征在于,在深度优化步骤中,采用平面或曲面拟合算法,拟合各个基元内部的深度值,获取深度图。

6.一种基于图分割和多线索融合的单幅图深度估计系统,其特征在于,包括:基元匹配模块,用于给定输入图像和基元模板,同时进行形状和纹理匹配、遮挡估计以及图分割,在输入图像中找到与模板相匹配的所有基元,包括被遮挡的不完整显现的基元,并由形状匹配得到基元三维姿态的估计; 深度线索提取模块,用于提取每一所述基元深度线索参数,所述深度线索参数包括基元的大小、遮挡关系以及经计算获取的图像中每个基元的模糊程度;

深度估计模块,用于依据所述深度线索参数,对各个基元的深度值进行估计,并将图像中除去基元之外的区域作为背景;

深度优化模块,用于根据所述基元的三维姿态建立模型,拟合各个基元内部的深度值,获取深度图。

7.根据权利要求6所述的单幅图深度估计系统,其特征在于,所述基元匹配模块还包括:图模型建立子模块,用于对所述输入图像建立图模型,所述图模型的顶点对应于所述输入图像中所提取的各个特征点,所述图模型的各条边表示特征点之间的邻接关系;

分割子模块,基于所述图模型,同时进行形状匹配和纹理匹配、遮挡估计和图分割,在所述图模型上划分出与所述给定模板对应的各个基元,得到的每个基元由多个顶点和边组成。

8.根据权利要求7所述的单幅图深度估计系统,其特征在于,在所述深度线索提取模块中,包括如下子模块用于获取图像中每个基元的模糊程度:小波变换子模块,用于对所述输入图像二维方向上进行小波变换,所述二维方向为小波模极大值的分布方向及梯度方向;

基元边缘点模糊度估计子模块,用于在所述梯度方向上进行正则性分析,基于所述正则性分析,估计所述基元边缘点的模糊度;

基元内点模糊度估计子模块,用于依据基元边缘点的模糊度,确定与其最接近的基元内点的模糊度; 基元模糊度计算子模块,用于计算基元区域内,所有点模糊度的平均值,所述平均值作为所述基元的模糊度。

9.根据权利要求8所述的单幅图深度估计系统,其特征在于,在所述深度估计模块中,使用置信传播算法,依据提取的所述深度线索参数,估计每个基元的深度值。

10.根据权利要求9所述的单幅图深度估计系统,其特征在于,在深度优化模块中,采用平面或曲面拟合算法,拟合各个基元内部的深度值,获取深度图。

说明书 :

基于图分割和多线索融合的单幅图深度估计方法及其系统

技术领域

[0001] 本发明涉及计算机视觉和图像处理领域,尤其涉及一种基于图分割和多线索融合的单幅图深度估计方法及其系统。

背景技术

[0002] 为满足新一代数字媒体的发展需求,进一步推动立体显示技术的更新,目前在计算机视觉以及其它相关领域中对于三维信息恢复和场景重建问题的研究成为热点之一。随着数字图像采集设备的迅猛发展和广泛普及,大量的二维数据源、图像库、照片集成为人们普遍拥有的媒体素材。如何基于二维图像还原真实世界的立体信息(即第三维度的垂直于图像平面的深度信息),是计算机视觉领域的一个经典难题之一;解决这一问题将使数字媒体产业产生飞跃性的发展,带给人们全新的视觉体验。
[0003] 不同于双目立体视方法或多视方法需要以同一场景从不同角度拍摄的多幅图像为输入,通过摄像机标定、对应点匹配和视差估计来恢复场景的三维深度,单视点单幅图的深度估计方法对于数据源的要求不高,它是从普通的二维图像中直接进行深度估计;同时避免了立体视觉中视场小、立体匹配困难的缺点和多目相机标定的误差;但是由于缺乏视差这一重要的深度线索而使这一问题变得非常困难。
[0004] 目前已有的单视深度估计方法主要包括:基于几何透视的方法(利用透视成像中的几何约束关系确定目标对象的空间三维姿态和整个场景的三维深度信息;主要适用于城市建筑物等含有较为规则形状物体的场景);基于几何光学的方法(聚焦法/散焦法:聚焦法是在焦距可调情况下,使图像中的目标点精确聚焦,然后根据透镜成像原理求得该点相对于相机的距离,该方法硬件昂贵、不易实现,精确聚焦定位不准会带来误差;散焦法根据模糊程度计算图像中各点相对于相机的距离,但如何准确建立散焦模型是主要难点);近年来随着机器学习理论的成熟,采用机器学习和贝叶斯推断方法进行单视深度估计和场景重建的方法显示出了较大的优势。该类方法利用多种深度线索和图像特征,通过训练和学习的方法得到待测图像的深度图。但是这种方法需要采集训练数据、建立样本库,计算的性能也有待进一步提高。
[0005] 总之,目前的单视深度估计方法都还存在着自身的局限性,这个难题还没有很好的解决方案。

发明内容

[0006] 本发明的目的在于提供一种基于图分割和多线索融合的单幅图深度估计方法及其系统,基于本发明,可以克服目前单视深度估计所存在的基于视差所导致的缺陷。
[0007] 本发明一种基于图分割和多线索融合的单幅图深度估计方法,包括如下步骤:基元匹配步骤,给定输入图像和基元模板,利用形状和纹理匹配、遮挡估计以及同时进行的图分割的方法,实现一对多的基元匹配和检测,在输入图像中找到与模板相匹配的所有基元,包括被遮挡的不完整显现的基元,并由形状匹配得到基元三维姿态的估计;深度线索提取步骤,提取每一所述基元深度线索参数,所述深度线索参数包括基元的大小、遮挡关系以及经计算获取的图像中每个基元的模糊程度;深度估计步骤,依据所述深度线索参数,对各个基元的深度值进行估计,并将图像中除去基元之外的区域作为背景。深度优化步骤,根据所述基元的三维姿态建立模型,拟合各个基元内部的深度变化,获取深度图。
[0008] 上述单幅图深度估计方法,优选在所述基元匹配步骤中,在所述输入图像中找到与所述模板相匹配的所有基元包括如下步骤:图模型建立步骤,对所述输入图像建立图模型,所述图模型的定点对应于所述输入图像中所提取的各个特征点,所述图模型的各条边表示特征点之间的邻接关系;分割步骤,基于所述图模型,划分出与所述给定模板对应的各个基元,所述基元由多个定点和边组成。
[0009] 上述单幅图深度估计方法,优选在所述深度线索提取步骤中,所述计算获取的图像中每个基元的模糊程度包括如下步骤:小波变换步骤,对所述输入图像二维方向上进行小波变换,所述二维方向为小波模极大值的分布方向及梯度方向;基元边缘点模糊度估计步骤,在所述梯度方向上进行正则性分析,基于所述正则性分析,估计所述基元内边缘点的模糊度;基元内点模糊度估计步骤,依据基元内边缘点的模糊度,确定与其最接近的基元内点的模糊度;基元模糊度计算步骤,计算基元区域内,所有点模糊度的平均值,所述平均值作为所述每一基元的模糊度。
[0010] 上述单幅图深度估计方法,优选在所述深度估计步骤中,使用置信传播算法,依据提取的所述深度线索参数,估计每个基元的深度值。
[0011] 上述单幅图深度估计方法,优选在深度优化步骤中,采用平面或曲面拟合算法,拟合各个基元内部的深度变化,获取深度图。
[0012] 另一方法,本发明还提供了一种基于图分割和多线索融合的单幅图深度估计系统,包括:基元匹配模块、深度线索提取模块、深度估计模块和深度优化模块。其中,基元匹配模块用于给定输入图像和基元模板,利用形状和纹理匹配的方法在输入图像中找到与模板相匹配的所有基元,包括被遮挡的不完整显现的基元,并估计基元的三维姿态;深度线索提取模块用于提取每一所述基元深度线索参数,所述深度线索参数包括基元的大小、遮挡关系以及经计算获取的图像中每个基元的模糊程度;深度估计模块用于依据所述深度线索参数,对各个基元的深度值进行估计,并将图像中除去基元之外的区域作为背景;深度优化模块用于根据所述基元的三维姿态建立模型,拟合各个基元内部的深度值,获取深度图。
[0013] 上述单幅图深度估计系统,优选所述基元匹配模块还包括:图模型建立子模块和分割子模块。其中,图模型建立子模块用于对所述输入图像建立图模型,所述图模型的顶点对应于所述输入图像中所提取的各个特征点,所述图模型的各条边表示特征点之间的邻接关系;分割子模块用于基于所述图模型,划分出与所述给定模板对应的各个基元,所述基元由多个顶点和边组成。
[0014] 上述单幅图深度估计系统,优选在所述深度线索提取模块中,包括如下子模块用于计算获取的图像中每个基元的模糊程度:小波变换子模块、基元边缘点模糊度估计子模块、基元内点模糊度估计子模块和基元模糊度计算子模块。其中,小波变换子模块用于对所述输入图像二维方向上进行小波变换,所述二维方向为小波模极大值的分布方向及梯度方向;基元边缘点模糊度估计子模块用于在所述梯度方向上进行正则性分析,基于所述正则性分析,估计所述基元内边缘点的模糊度;基元内点模糊度估计子模块,用于依据基元内边缘点的模糊度,确定与其最接近的基元内点的模糊度;基元模糊度计算子模块用于计算基元区域内,所有点模糊度的平均值,所述平均值作为所述每一基元的模糊度。
[0015] 上述单幅图深度估计系统,优选在所述深度估计模块中,使用置信传播算法,依据提取的所述深度线索参数,估计每个基元的深度值。
[0016] 上述单幅图深度估计系统,优选在深度优化模块中,采用平面或曲面拟合算法,拟合各个基元内部的深度值,获取深度图。
[0017] 本发明对于含有纹理基元或者相似物体(可统称为基元)的单幅图进行深度估计的方法,融合基元的大小、基元边缘的模糊程度以及基元之间的遮挡关系这些线索来估计它们的相对深度,具有如下有益效果:
[0018] (1)基于给定模板的先验模型将单视深度估计问题转化为一个相对容易解的问题。
[0019] (2)不同于传统的形状匹配方法,本发明中的形状匹配算法是一对多的匹配,而且匹配的目标个数是不确定的;同时包括了遮挡推断和三维姿态估计,解决由于遮挡造成的不完全匹配问题。
[0020] (3)本发明中形状匹配和深度估计都是基于全局优化模型进行求解,算法更加鲁棒和精确。
[0021] (4)综合运用了物体成像大小、模糊程度和遮挡关系这些指示深度的线索,优于一般的单线索深度估计方法。
[0022] 鉴于上述优点,此发明能够从单幅图像估计和获取三维相对深度信息,能够满足基于深度图的3-DTV系统的视觉质量和立体效果的要求,可以基于丰富的二维图像生成三维数据和素材,满足立体显示系统对于三维数据源的需求。

附图说明

[0023] 图1为本发明基于图分割和多线索融合的单幅图深度估计方法实施例的步骤流程图;
[0024] 图2为计算获取的图像中每个基元的模糊程度的步骤流程图;
[0025] 图3为本发明基于图分割和多线索融合的单幅图深度估计系统实施例的结构示意图;
[0026] 图4为基于图分割和多线索融合的单幅图深度估计系统实施例的工作原理示意图。

具体实施方式

[0027] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0028] 参照图1,图1为本发明基于图分割和多线索融合的单幅图深度估计方法的步骤流程图,包括如下步骤:
[0029] 基元匹配步骤110,给定输入图像和基元模板,利用形状和纹理匹配、遮挡估计和同时进行的图分割方法,实现一对多的基元匹配和检测,在输入图像中找到与模板相匹配的所有基元,包括被遮挡的不完整显现的基元,并由形状匹配得到基元的三维姿态估计;
[0030] 深度线索提取步骤120,提取每一所述基元深度线索参数,所述深度线索参数包括基元的大小、遮挡关系以及经计算获取的图像中每个基元的模糊程度;
[0031] 深度估计步骤130,依据所述深度线索参数,对各个基元的深度值进行估计,并将图像中除去基元之外的区域作为背景;
[0032] 深度优化步骤140,根据所述基元的三维姿态建立模型,拟合各个基元内部的深度变化,获取深度图。
[0033] 下面对上述各个步骤进行详细的说明。
[0034] 基元匹配步骤110中,利用给定的基元模板在输入图像中进行形状匹配找到所有的基元。这里基元的种类不限为单一一种,如果含有多种基元则需要给出各自的模板。本算法中采用图切分的思想,利用各个基元和模板进行匹配的总体代价建立全局最优化模型,最终从图像中找出所有与模板相匹配的基元。注意这里的基元总数是预先未知的,需要在优化过程中逐渐确定。首先对目标图像建立一个图模型,其中图的顶点对应着从图像中提取的各个特征点,特征包括形状、颜色、纹理等,图的各条边表示特征点之间的邻近关系。基于此图模型,我们的目标是在图模型中划分出与模板对应的各个基元,每个基元由若干顶点和边构成。根据贝叶斯理论,希望求得使后验概率最大化的W:
[0035]
[0036] 其中G表示图模型,T表示模板,K为目标基元个数,为形状匹配的三维变换矩阵,决定了最终匹配基元的三维姿态,M为匹配的对应矩阵。这里先验概率模型包括对于目标基元个数、图划分以及变换矩阵、对应矩阵的先验。似然模型用每个基元和模板之间的匹配相似性来度量。由于在当前划分下各个基元与模板的匹配是相对独立的,所以整个模型的似然由每个基元匹配的似然(即匹配的相似性)的连乘组成。为消除背景上的特征点的影响,设置G0为所有不属于基元的特征点集。G0的似然设置为一个常数,G0的先验约束为|G0|<C,C为某个设定的常数。
[0037] 基于上述模型,可以采用多种采样方法来求得最大化上述后验概率的全局最优解。例如马尔可夫-蒙特卡罗(Markov-Chain-Monte-Carlo)方法、吉布斯采样等。本发明中使用Swendsen-Wang Cuts这一高效的采样算法来求解,主要包括图顶点聚联和翻转两种操作。图顶点聚联是通过边的打开或关闭把整个图被划分为若干连接组(每一个在局部相互邻接的顶点的最大集合构成一个连接组)。打开概率的大小取决于相邻顶点的组合与模板局部匹配的好坏。而翻转中把一个连接组的顶点染色为某一个基元的标记或者不匹配标记。不匹配标记用于去除不属于任何基元的特征点。染色概率也取决于与模板匹配的相似性测度。基于上述打开概率和染色概率可以求得接受概率,进而运用Swendsen-Wang Cuts算法求出最优解。其中,Swendsen-Wang Cuts是一种公知的方法。在文献“A.Barbu and S.C.Zhu,Generalizing Swendsen-Wang for Image Analysis,Journal of Computational and Graphical Statistics,16(4):877-900,2007”有明确的说明。
[0038] 在深度线索提取步骤120中,深度线索参数的获取是基于步骤基元匹配步骤110所获取的与给定模板相匹配的基元进行的。基元的大小用直径表示;遮挡关系由形状匹配得到,若匹配基元与模板相比有缺失,即被与其缺失位置临近的另一个基元所遮挡。而基元的模糊程度可以通过图2所示的步骤获取。
[0039] 参照图2,图2为计算获取的图像中每个基元的模糊程度的步骤流程图,包括:
[0040] 小波变换步骤210,对所述输入图像二维方向上进行小波变换,所述二维方向为小波模极大值的分布方向及梯度方向;
[0041] 基元边缘点模糊度估计步骤220,在所述梯度方向上进行正则性分析,基于所述正则性分析,估计所述基元内边缘点的模糊度;
[0042] 基元内点模糊度估计步骤230,依据基元内边缘点的模糊度,确定与其最接近的基元内点的模糊度;
[0043] 基元模糊度计算步骤240,计算基元区域内,所有点模糊度的平均值,所述平均值作为所述每一基元的模糊度。
[0044] 也就是说,利用二维小波分析的李氏指数正则性估计各个基元的模糊度。首先对原始图像进行多尺度的小波变换,该变换在二维方向上进行,不仅考虑了小波模极大值的分布,而且考虑了梯度方向;在梯度方向上进行正则性分析,这样可以更好的保持图像的边缘特性,准确估计出边缘处的模糊度。基元内的非边缘点的模糊度由其最近的边缘点(也必须是在该基元内)的模糊度来决定。最终每个基元模糊度取为它所在区域内所有点模糊度的平均值。
[0045] 深度估计步骤130,通过上述的几个步骤,获得了若干个形状、纹理相似的基元物体,它们的位置、大小、模糊度和相互之间的遮挡关系均已获得。因此,可以通过这些信息来恢复这些基元的深度。所处深度位置越远的物体其成像越小;被遮挡的物体其深度大于遮挡它的物体的深度。根据散焦模型,模糊度也与深度成一定的函数关系。基于这些一般性假设,建立图模型来求解深度。这里把每个基元作为顶点,各自包含着一定的深度线索(属性)。为方便计算把深度z的取值设为0到N之间的离散值,z∈{0,1,2,...N}(0代表最远处,背景的深度值设为0)。使用置信传播算法来估计每个基元的深度。其中数据项为基元大小(用半径r来表示)和模糊度eδ这两个线索能量项的加权和,
[0046]
[0047]
[0048] 其中,w1、w1分别为权衡基元大小和模糊度这两个深度线索而设置的权重系数;rmax、rmin分别为所有基元半径的最大、最小值;z0表示在这一深度值处的物体成像后被精确聚焦。
[0049] 消息传递项为:
[0050]
[0051]
[0052] 用公式(2)可以计算从基元i到j传递消息的更新,其中c(zi,zj)为基元i,j之间遮挡关系的约束,其中,“if i is occluded by j”表示条件“如果基元i被基元j遮挡”,else表示不满足前述条件的情形。Di(zi)由公式(1)计算得到。s表示任意一个除去j以外的与i相邻的所有基元。通过上述公式可求得各个基元的深度值。
[0053] 深度优化步骤140,设基元中心处的深度为深度估计步骤130中得到的深度,假定基元为平面模型,利用步骤110中得到的基元三维姿态,即法向量方向建立平面方程,使用平面拟合方法可以得到优化的深度图。
[0054] 实施例中,基于给定模板的先验模型将单视深度估计问题转化为一个相对容易解的问题,形状匹配算法是一对多的匹配,而且匹配的目标个数是不确定的;由于同时包括了遮挡推断和三维姿态估计,解决由于遮挡造成的不完全匹配问题。综合运用了物体成像大小、模糊程度和遮挡关系这些指示深度的线索,优于一般的单线索深度估计方法。并且,形状匹配和深度估计都是基于全局优化模型进行求解,使本实施例的方法更加具有鲁棒性和精确性。
[0055] 参照图3,图3为本发明基于图分割和多线索融合的单幅图深度估计系统实施例的结构示意图,包括:
[0056] 基元匹配模块310,用于给定输入图像和基元模板,利用形状和纹理匹配、遮挡估计和同时进行的图分割的方法,在输入图像中找到与模板相匹配的所有基元,包括被遮挡的不完整显现的基元,并由形状匹配得到基元的三维姿态估计;
[0057] 深度线索提取模块320,用于提取每一所述基元深度线索参数,所述深度线索参数包括基元的大小、遮挡关系以及经计算获取的图像中每个基元的模糊程度;
[0058] 深度估计模块330,用于依据所述深度线索参数,对各个基元的深度值进行估计,并将图像中除去基元之外的区域作为背景;
[0059] 深度优化模块340,用于根据所述基元的三维姿态建立模型,拟合各个基元内部的深度值,获取深度图。
[0060] 对于基元匹配模块310、深度线索提取模块320、深度估计模块330和深度优化模块340原理与上述方法实施例中所描述的相同,相互之间互相参见即可,在此不再赘述。
[0061] 参照图4,图4为基于图分割和多线索融合的单幅图深度估计系统实施例的工作原理示意图。其中的矩形框表示具体的操作;平行四边形框表述输入或者输出的数据,曲边梯形代表深度线索参数。
[0062] 输入给定图像和基元模板,利用形状和纹理匹配、遮挡估计和同时进行的图分割方法,在输入图像中找到与模板相匹配的所有基元,包括被遮挡的不完整显现的基元,并由形状匹配得到基元的三维姿态估计。然后提取基元的大小,记录遮挡关系,计算图像中每个基元的模糊程度;融合深度线索,该深度线索包括基元大小、基元模糊度和遮挡关系估计各个基元的深度值,图像中除去基元之外的区域作为背景,其深度值设为最大;根据基元的三维姿态建立模型拟合各个基元内部的深度变化,得到更加精细准确的深度图。
[0063] 以上对本发明所提供的融合单视点场景分析的多视点三维场景重建方法及其系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。