基于分类频率敏感三维自组织映射的视差估计方法转让专利

申请号 : CN201610317515.3

文献号 : CN105933691B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黎洪松程福林

申请人 : 桂林电子科技大学

摘要 :

本发明公开一种基于分类频率敏感三维自组织映射的视差估计方法,先由FS‑3DSOM算法对视差图的低亮度区域和高亮度区域分别进行训练,得到最佳匹配的低亮度模式库和高亮度模式库,然后对待估计视差图的低亮度区域和高亮度区域分别进行视差模式识别,得到视差预测图,完成视差估计。本发明所得到的视差预测图的质量更好,并且计算量小。

权利要求 :

1.基于分类频率敏感三维自组织映射的视差估计方法,其特征是,包括如下步骤:

步骤1、先对视差序列样本的每帧图像分块,每个图像块为一个训练矢量,再根据亮度大小将训练矢量进行分类,每个分类形成一个训练矢量集;

步骤2、分别为每个分类的训练矢量集进行以下学习训练,得到每个分类的最佳匹配模式库;

步骤2.1、根据设定的三维自组织映射网络的大小N,从该分类的L个训练矢量集中选择N个训练矢量来构成该分类的初始模式库,其中N<<L;该初始模式库中的训练矢量称为模式矢量,且初始模式库中的模式矢量排列成三维立体结构;

步骤2.2、初始化每个模式矢量的邻域函数Nj(0)和每个模式矢量的响应计数器cj;

步骤2.3、输入该分类训练矢量集中的一个训练矢量,并分别计算该训练矢量与其对应分类的初始模式库中的各个模式矢量的失真 从中选择出与训练矢量失真最小的模式矢量作为获胜模式矢量;

其中,为频率敏感函数;s为设定的频率敏感指数;dj(t)为训练矢量与模式矢量的均方误差;j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t=0,1,…,L-1,L为该分类训练矢量集中训练矢量的个数;

步骤2.4、调整获胜模式矢量及其三维邻域范围内的模式矢量;

步骤2.5、将获胜模式矢量的响应计数器累加1,并返回步骤步骤2.3重新选择一个训练矢量,直到输入完该分类训练矢量集中所有的训练矢量,即得到该分类的最佳匹配模式库;

步骤3、对待估计的视差序列进行分块和分类处理,得到每个分类的待估计图库;并将待估计图库与相同分类的最佳匹配模式库进行视差模式匹配,得到待估计的视差序列的预测图。

2.根据权利要求1所述基于分类频率敏感三维自组织映射的视差估计方法,其特征是,步骤1中,根据下式将图像块分高亮度区域和低亮度区域两类,其中, 为图像块的均值,Th为均值判定限值,X1表示高亮度区域集合,X2表示低亮度区域集合。

3.根据权利要求1所述基于分类频率敏感三维自组织映射的视差估计方法,其特征是,步骤2.1中,采用按固定的间隔抽取的方法从L个训练矢量集中选择N个训练矢量来构成该分类的初始模式库。

4.根据权利要求1所述基于分类频率敏感三维自组织映射的视差估计方法,其特征是,步骤2.3中,频率敏感指数s的取值范围为0≤s≤1。

5.根据权利要求1所述基于分类频率敏感三维自组织映射的视差估计方法,步骤2.4、根据下式调整获胜模式矢量及其三维邻域范围内的模式矢量,其中,Wj(t+1)为第t+1次训练时的模式矢量,Wj(t)为第t次训练时的模式矢量,X(t)为训练矢量,j*为获胜模式矢量, 为获胜模式矢量j*在第t次训练时的邻域函数,α(t)为第t次训练时的学习速度函数;上述j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t=0,1,…,L-1,L为所每一类的训练矢量的个数。

6.根据权利要求1~5中任一项所述基于分类频率敏感三维自组织映射的视差估计方法,步骤3具体为:步骤3.1、先将待估计的视差序列的每帧分块,其中待估计的视差序列的每帧分块大小与视差序列样本的每帧分块大小相一致;再根据步骤1相同的方法将图像块进行分类,每个分类的图像块形成一个待估计图库;

步骤3.2、针对每个分类的待估计图库,根据步骤2.3相同的方法计算该待估计图库中的待估计图像块与所对应分类的最佳匹配模式库中的模式矢量的失真 并选择具有最小失真的模式矢量作为该待估计图像块的预测块;

其中,为频率敏感函数,s为设定的频率敏感指数,bj(t′)为待估计图像块与模式矢量的均方误差,j=0,1,…,N-1,N为设定的三维自组织映射网络的大小,t′=0,1,…,K-1,K为待估计图像块的个数;

步骤3.3、对待估计的视差序列的所有待估计图像快进行步骤3.2的处理,得到待估计的视差序列的预测图。

说明书 :

基于分类频率敏感三维自组织映射的视差估计方法

技术领域

[0001] 本发明涉及图像处理技术领域,具体涉及一种基于分类频率敏感三维自组织映射的视差估计方法。

背景技术

[0002] 视差估计作为立体视频编码的关键技术,已经得到越来越多的重视和关注,各种算法也相继提出。传统视差估计算法大致可分为两大类,一类是基于区域的视差估计,即把图像中的某一点或某一块作为基本匹配单元,在另一幅图像中搜索对应的点或块,从而得到各个点的视差,这类算法可以得到稠密的视差估计。根据匹配策略的不同,基于区域的视差估计可以分为局部法和全局法。代表性的局部法是基于块的方法,实现复杂度低。代表性的全局算法有动态规划法、图割法和置信度传播法等。全局法能得到比局部法更好的结果,但是其计算复杂度高,不便于硬件实现。另一类是基于特征的视差估计,即利用图像的自身特征来实现匹配,这些特征包括一些特征点(如SIFT关键点等)或几何结构。此类算法只能得到稀疏的视差估计,且特征的提取比较复杂。可见,目前视差估计技术仍未成熟,没有一种具有普适性的视差估计方法,而且计算量巨大。

发明内容

[0003] 本发明所要解决的技术问题是提供一种基于分类频率敏感三维自组织映射的视差估计方法,该方法能提高视差预测图像的质量。
[0004] 为解决上述问题,本发明是通过以下技术方案实现的:
[0005] 基于分类频率敏感三维自组织映射的视差估计方法,包括如下步骤:
[0006] 步骤1、先对视差序列样本的每帧图像分块,每个图像块为一个训练矢量,再根据亮度大小将训练矢量进行分类,每个分类形成一个训练矢量集;
[0007] 步骤2、分别每个分类的训练矢量集进行以下学习训练,得到每个分类的最佳匹配模式库;
[0008] 步骤2.1、根据设定的三维自组织映射网络的大小N,从该分类的L个训练矢量集中选择N个训练矢量来构成该分类的初始模式库,其中N<<L;该初始模式库中的训练矢量称为模式矢量,且初始模式库中的模式矢量排列成三维立体结构;
[0009] 步骤2.2、初始化每个模式矢量的邻域函数Nj(0)和每个模式矢量的响应计数器cj;
[0010] 步骤2.3、输入该分类训练矢量集中的一个训练矢量,并分别计算该训练矢量与其对应分类的初始模式库中的各个模式矢量的失真 从中选择出与训练矢量失真最小的模式矢量作为获胜模式矢量;
[0011]
[0012] 其中, 为频率敏感函数;s为设定的频率敏感指数;dj(t)为训练矢量与模式矢量的均方误差;j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t=0,1,…,L-1,L为该分类训练矢量集中训练矢量的个数;
[0013] 步骤2.4、调整获胜模式矢量及其三维邻域范围内的模式矢量;
[0014] 步骤2.5、将获胜模式矢量的响应计数器累加1,并返回步骤步骤2.3重新选择一个训练矢量,直到输入完该分类训练矢量集中所有的训练矢量,即得到该分类的最佳匹配模式库;
[0015] 步骤3、对待估计的视差序列进行分块和分类处理,得到每个分类的待估计图库;并将待估计图库与相同分类的最佳匹配模式库进行视差模式匹配,得到待估计的视差序列的预测图。
[0016] 步骤1中,根据下式将图像块分高亮度区域和低亮度区域两类,
[0017]
[0018] 其中, 为图像块的均值,Th为均值判定限值,X1表示高亮度区域集合,X2表示低亮度区域集合。
[0019] 步骤2.1中,采用按固定的间隔抽取的方法从L个训练矢量集中选择N个训练矢量来构成该分类的初始模式库。
[0020] 步骤2.3中,频率敏感指数s的取值范围为0≤s≤1。
[0021] 步骤2.4、根据下式调整获胜模式矢量及其三维邻域范围内的模式矢量,[0022]
[0023] 其中,Wj(t+1)为第t+1次训练时的模式矢量,Wj(t)为第t次训练时的模式矢量,X(t)为训练矢量,j*为获胜模式矢量, 为获胜模式矢量j*在第t次训练时的邻域函数,α(t)为第t次训练时的学习速度函数;上述j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t=0,1,…,L-1,L为所每一类的训练矢量的个数。
[0024] 步骤3具体为:
[0025] 步骤3.1、先将待估计的视差序列的每帧分块,其中待估计的视差序列的每帧分块大小与视差序列样本的每帧分块大小相一致;再根据步骤1相同的方法将图像块进行分类,每个分类的图像块形成一个待估计图库;
[0026] 步骤3.2、针对每个分类的待估计图库,根据步骤2.3相同的方法计算该待估计图库中的待估计图像块与所对应分类的最佳匹配模式库中的模式矢量的失真 并选择具有最小失真的模式矢量作为该待估计图像块的预测块;
[0027]
[0028] 其中,为频率敏感函数,s为设定的频率敏感指数,bj(t′)为待估计图像块与模式矢量的均方误差,j=0,1,…,N-1,N为设定的三维自组织映射网络的大小,t′=0,1,…,K-1,K为待估计图像块的个数;
[0029] 步骤3.3、对待估计的视差序列的所有待估计图像快进行步骤3.2的处理,得到待估计的视差序列的预测图。
[0030] 与现有技术相比,本发明先由SOM算法对视差图进行训练,得到最佳匹配的视差模式库,然后对视差图进行视差模式识别,得到视差预测图,完成视差估计,所得到的视差预测图的质量更好,并且计算量小。

附图说明

[0031] 图1为视差模式库的训练过程。
[0032] 图2为视差模式识别得到视差预测图过程。
[0033] 图3为Exit序列视差预测图像的PSNR分布情况。
[0034] 图4为Vassar序列视差预测图像的PSNR分布情况。

具体实施方式

[0035] 下面结合实施例,对本发明内容作进一步地详细说明,但本发明的实施方式不限于此。
[0036] 一种基于分类频率敏感三维自组织映射的视差估计方法,包括如下步骤:
[0037] 步骤1)构建训练矢量集,参见图1。
[0038] 步骤1.1)将视差序列样本的每帧图像分割成8×8的子块,得到总的训练矢量集。
[0039] 步骤1.2)根据亮度大小将图像块进行分类。根据需要确定分类数量,在发明中,将图像块分为两类,即高亮度区域的训练矢量集和低亮度区域的训练矢量集。分类的方法可以采用均分法,即将所有的图像块按照均值平均分为两类,即高亮度区域的训练矢量集中含有的训练矢量个数与低亮度区域的训练矢量集中含有的训练矢量个数相同;也可以采用阈值判定法,即计算训练矢量X(t)的均值 根据下式进行分类:
[0040]
[0041] 其中,Th为高亮度区域和低亮度区域均值判定限值,X1和X2分别表示高亮度区域和低亮度区域的训练矢量集。
[0042] 步骤2)构建最佳匹配模式库,参见图1。
[0043] 根据人脑神经元的组织原理所提出的自组织映射(SOM)算法,是一种具有自组织特性的人工神经网络算法。该算法模拟了人脑神经系统对某一图形或某一频率特定兴奋的特征,在模式识别和数据挖掘等领域得到了深入的研究和广泛的应用,是一种高效的数据聚类方法。SOM算法的核心是寻找最佳分类,即通过对大量的样本序列的不断学习和训练,从而得到最优匹配的模式库。
[0044] 为了提高视差模式库的性能,本发明对SOM算法进行了改进,提出了一种三维自组织映射算法(3DSOM)。三维SOM网络结构及其算法能有效地将二维输入映射为三维输出,从而实现三维信号的非线性映射。三维SOM网络将映射层神经元排列成三维立体结构,三维立体结构的行数、列数和层数可根据应用的需要选取不同的值,排列成不同的三维结构以适应不同应用;通常三维邻域形状可选取球形邻域、正方形邻域或正交十字邻域,选取不同的三维邻域形状对算法的性能有一定的影响。SOM网络与普通的竞争网络一样,对于每个输入模式,在映射层都有相应的获胜节点,获胜节点代表最相似的模式,该节点及其三维邻域范围内的所有节点均按一定规则调整其权值。与二维平面结构邻域相比,三维立体结构邻域在相等邻域半径内的节点数量增多,节点被调整的机会增加,因此,更有利于得到最佳匹配的模式。用FS-3DSOM算法对高亮度区域训练矢量集和低亮度区域训练矢量集分别进行学习训练,得到最佳匹配的高亮度模式库和低亮度模式库。
[0045] 具体来说,基于FS-3DSOM算法的模式库训练步骤如下:
[0046] 步骤2.1)设定SOM网络大小为(N,M),其中N、M分别为模式库的大小和模式库中模式矢量的大小。
[0047] 步骤2.2)用随机法从每个分类的训练矢量集中选择N个训练矢量来构成初始模式库,得到初始化模式库{Wj(0),j=0,1,…,N-1},并将初始模式库中模式矢量排列成三维立体结构。其中L>>N。
[0048] 步骤2.3)设置初始化邻域为Nj(0),j=0,1,…,N-1,设置响应计数器cj=1,其中j=0,1,…,N-1。
[0049] 步骤2.4)输入一个训练矢量{X(t),t=0,1,…,L-1}。
[0050] 步骤2.5)将失真测度设定为 其中f(cj)为频率敏感函数,它随着频率敏感参数cj的增大而单调增大,s为频率敏感指数。dj(t)为均方误
2
差,dj(t)=||X(t)-Wj(t)||。分别计算出该训练矢量与模式库中各模式矢量的失真*
并选择获胜模式矢量j为具有最小失真的模式矢量。
[0051] 步骤2.6)按下式调整获胜模式矢量j*及其三维邻域 范围内的模式矢量,[0052]
[0053] 其中, 为邻域函数,通常选用单调递减函数 A0、A1分别为获胜模式矢量j*的最小邻域和最大邻域,T1为邻域衰减常数。在训练的初始阶段,邻域半径较大,而随着训练次数的增加,网络逐渐趋于稳定,只需对获胜节点进行较细微的权值调整,因而邻域半径不断缩小。α(cj)为学习速度函数,它反映了模式矢量调整的幅度大小,一般选用单调递减函数 式中A2为训练开始时的最大学习速度,T2为学习衰减常数。
[0054] 步骤2.7)设置 返回步骤2.4),直到训练完所有的模式矢量。
[0055] 步骤3)对视差图的高亮度区域和低亮度区域分别进行视差模式匹配,得到每帧的视差预测图。参见图2。
[0056] 对视差序列每帧分块,块的大小一般取8×8,然后在对应的视差模式库中寻找与子图像块最匹配的视差模式作为该子块图像的预测块。对所有子块图像进行处理后得到该帧的视差预测图。
[0057] 步骤3.1、将待估计的视差序列的每帧分块,其中待估计的视差序列的每帧分块大小与视差序列样本的每帧分块大小相一致;使用步骤1)中的图像块分类步骤将所有块分为高亮度块和低亮度块。
[0058] 步骤3.2、对于高亮度块,分别计算每一个图像块与高亮度模式库中各模式矢量的失真,并选择具有最小失真的模式矢量作为该图像块的预测块;对于低亮度块,分别计算每一个图像块与低亮度模式库中各模式矢量的失真,并选择具有最小失真的模式矢量作为该图像块的预测块;
[0059] 采用均方误差准则即下式来计算上述待估计图像块与最佳匹配模式库中各模式矢量的失真bj(t′);
[0060] bj(t′)=||Y(t′)-Wj(t′)||2
[0061] 其中,Wj(t′)为模式矢量,Y(t′)为待估计图像块;j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t′=0,1,…,K-1,K为待估计图像块的个数。
[0062] 步骤3.3、对待估计的视差序列的所有图像进行步骤3.2的处理,得到待估计的视差序列的预测图。
[0063] 为了说明本方法的性能,做了大量的仿真实验,实验采用标准立体视频测试序列Exit、Vassar的第1、2视点,图像分辨率为480×640,左右视点各8帧。重建图像品质的客观评价采用峰值信噪比 式中EMSE为原始图像与重建图像之间的均方误差。在基于分类频率敏感三维自组织映射的立体视频视差估计(CFS-3DSOM-DPR)方法中,图像压缩比为 式中M为模式矢量的维数,BO为原始图像的每像素比特数,BC为模式矢量地址比特数。例如,模式矢量大小为M=8×8,模式库大小设为2048,压缩率为46.5。
在基于块的视差估计算法中,块的大小为M=8×8,横向搜索范围为[-31,32],纵向搜索范围为[-15,16],压缩率为46.5。
[0064] 图3和图4给出了CFS-3DSOM-DPR方法与基于块的方法的视差预测图像的PSNR分布情况,其中图3为Exit序列,图4为Vassar序列。表1给出了CFS-3DSOM-DPR方法与基于块的方法的视差预测图像的平均PSNR对比。由表1可以看出,由CFS-3DSOM-DPR方法得到的视差预测图像的平均峰值信噪比(PSNR)较基于块的方法提高了0.78-1.78dB。
[0065] 表1CFS-3DSOM-DPR算法与基于块的方法的比较结果(平均峰值信噪比/dB)[0066]
[0067] (与传统的视差估计方法相比,利用基于分类频率敏感三维自组织映射的立体视频视差估计方法,得到的视差预测图的质量更好,并且计算量小。