一种复杂场景的显著区域检测方法转让专利

申请号 : CN201110163787.X

文献号 : CN102184557B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李永杰杨盼李朝义

申请人 : 电子科技大学

摘要 :

本发明属于计算机视觉技术领域,公开了一种复杂场景的显著区域检测方法。本发明的方法具体包括:对输入图像进行小波变换;建立多尺度图像;特征提取;特征叠加。本发明基于人类大脑视觉信息处理机制,在现有的Itti模型基础上提出了一种复杂场景的显著区域检测方法。本发明的方法通过利用离散小波变换将图像信息分解分为高频成分矩阵和低频成分矩阵,然后建立多尺度图像,再从中提取强度特征金字塔以及方向特征金字塔,最后整合成为一幅显著图。由于考虑了图像的细节信息,较好的提高了细节检测的效果,并且检测效果与人眼的观测结果相一致,更加符合人眼的视觉特性。

权利要求 :

1.一种复杂场景的显著区域检测方法,其特征在于,包括如下步骤:

S1.小波变换:对输入图像进行小波变换,获得高频成分矩阵和低频成分矩阵;

S2.建立多尺度图像:分别对输入图像、高频成分矩阵和低频成分矩阵建立多尺度图像,分别得到输入图像的多尺度图像、高频成分矩阵的多尺度图像和低频成分矩阵的多尺度图像;

S3.特征提取:从步骤S2得到的输入图像的多尺度图像提取两个颜色特征金字塔,从步骤S2得到的高频成分矩阵的多尺度图像提取高频强度特征金字塔以及四个方向高频特征金字塔,从步骤S2得到的低频成分矩阵的多尺度图像提取低频强度特征金字塔以及四个方向低频特征金字塔;

S4.特征叠加:对得到的12个特征金字塔分别进行中央-周边操作和规范化,得到

12个子特征金字塔,所述中央-周边操作是在两个金字塔层之间进行,将高层金字塔图像利用插值放大到低层图像的尺寸,再对两图像进行点对点的减法操作,金字塔的低层称为主尺度,与该主尺度相差的层数称为尺度差,令主尺度c∈{0,1,2},周边尺度s=c+δ,δ∈{2,3},δ即为尺度差,通过计算不同尺度和尺度差的高斯差图像,来提取图像的信息,对得到的12个特征金字塔分别进行中央-周边操作和规范化后得到12个子特征金字塔,即为72个不同尺度的子特征映射图;

所述72个不同尺度的子特征映射图具体分为两类颜色特征映射图、一类高频强度特征映射图、四类高频方向特征映射图、一类低频强度特征映射图和四类低频方向特征映射图,每类特征包含6个子特征映射图,一共72个子特征映射图;将每类特征里面的六个子特征映射图进行点对点相加后规范化处理,得到一个特征映射图;如果某种特征不止一类特征映射图,那么将所有相同类别的特征映射图再相加,然后规范化处理后得到5个特征显著图;最后将这5个特征显著图线性相加得到一幅显著图。

2.根据权利要求1所述的复杂场景的显著区域检测方法,其特征在于,还包括:步骤S5.中央加权:建立一个和显著图大小相同,元素值为1的矩阵,在矩阵的中心位置构建一个二维高斯滤波器,滤波器半径为矩阵中心点到矩阵行列三分之一交叉点处的长度,将建立的矩阵与步骤S4得到的显著图相乘得到中央加权后的显著图。

3.根据权利要求1所述的复杂场景的显著区域检测方法,其特征在于,还包括:步骤S6.三分点加权:建立一个和显著图大小相同,元素值为1的矩阵,在矩阵的三分点位置,即矩阵行和列的三分之一和三分之二的四个交叉点处分别构建一个二维高斯滤波器,将建立的矩阵与步骤S4得到的显著图相乘得到三分点加权后的显著图。

4.根据权利要求2所述的复杂场景的显著区域检测方法,其特征在于,还包括:步骤S6.三分点加权:建立一个和显著图大小相同,元素值为1的矩阵,在矩阵的三分点位置,即矩阵行和列的三分之一和三分之二的四个交叉点处分别构建一个二维高斯滤波器,将建立的矩阵与步骤S5得到的中央加权后的显著图相乘得到三分点加权后的显著图。

5.根据权利要求1至4所述的任一复杂场景的显著区域检测方法,其特征在于,步骤S1所述的小波变换具体为利用双正交样条小波bior3.7进行三层小波分解与重构。

6.根据权利要求5所述的复杂场景的显著区域检测方法,其特征在于,步骤S2所述的建立多尺度图像具体为利用高斯金字塔模型建立多尺度图像。

说明书 :

一种复杂场景的显著区域检测方法

技术领域

[0001] 本发明属于计算机视觉技术领域,特别涉及一种复杂场景的显著区域检测方法。

背景技术

[0002] 面对各类信息的超大膨胀速度,如何有效的组织和管理这些多媒体信息,并从中检测出自己所需要的信息成为当前迫切需要解决的问题。我们希望能够模拟人类的视觉处理机制从大量、冗余、并且内容解释多义的复杂场景数字图像数据中快速、准确地提取这些关键区域,大大提高分析和处理图像的效率和准确度。Itti和Koch基于视觉注意机制提出了一种经典的显著检测模型——Itti模型,参见文献:L.Itti,C.Koch,E.Niebur,Amodel of saliency-based visual attention for rapid scene analysis,Pattern Analysis and Machine Intelligence,IEEE Transactions on,1998,Vol.20(11),1254-1259。这个模型利用了金字塔分层、中央-周边算子以及Winner-Take-All(WTA)机制等,在一些单一目标的场景图像上有一定程度的效果,但也存在很多的不足之处,比如过多参数需要手动置,对复杂场景图像的检测效果较差,并且显著性度量完全依靠图像的局部信息,由于细节信息的能量比较低,没有充分考虑整幅图像的细节信息,并且检测效果与人眼的观测结果不一致。

发明内容

[0003] 本发明的目的是为了解决现有的Itti模型对复杂场景图像中的显著区域提取时存在的缺陷,提出了一种复杂场景的显著区域检测方法。
[0004] 本发明的技术方案是:一种复杂场景的显著区域检测方法,包括如下步骤:
[0005] S1.小波变换:对输入图像进行小波变换,获得高频成分矩阵和低频成分矩阵;
[0006] S2.建立多尺度图像:分别对输入图像、高频成分矩阵和低频成分矩阵建立多尺度图像,分别得到输入图像的多尺度图像、高频成分矩阵的多尺度图像和低频成分矩阵的多尺度图像;
[0007] S3.特征提取:从步骤S2得到的输入图像的多尺度图像提取两个颜色特征金字塔,从步骤S2得到的高频成分矩阵的多尺度图像提取高频强度特征金字塔以及四个方向高频特征金字塔,从步骤S2得到的低频成分矩阵的多尺度图像提取低频强度特征金字塔以及四个方向低频特征金字塔;
[0008] S4.特征叠加:对得到的12个特征金字塔分别进行中央-周边操作和规范化,得到12个子特征金字塔,对12个子特征金字塔分别进行叠加,得到12个特征图,对得到的12个特征图进行规范化,然后对规范化后的12个特征图进行叠加,得到一幅显著图。
[0009] 本发明的有益效果:本发明基于人类大脑视觉信息处理机制,在现有的Itti模型基础上提出了一种复杂场景的显著区域检测方法。本发明的方法通过利用离散小波变换将图像信息分解分为高频成分矩阵和低频成分矩阵,然后建立多尺度图像,再从中提取强度特征金字塔以及方向特征金字塔,最后整合成为一幅显著图。由于考虑了图像的细节信息,较好的提高了细节检测的效果,并且检测效果与人眼的观测结果相一致,更加符合人眼的视觉特性。

附图说明

[0010] 图1是本发明显著图检测方法的流程示意图。
[0011] 图2是本发明的方法对一幅自然图像检测的显著图与经典模型检测作比较的结果图。

具体实施方式

[0012] 下面结合附图和具体的实施例对本发明做进一步的阐述。
[0013] 本发明以人类视觉系统和小波分析为基础,人类视路中很可能存在对图像空间频率非常敏感的视觉频率通道,每一个频率通道就是一个带通滤波器,依次对高低不同的频率分量敏感,帮助视觉系统认知的几乎所有频率成分。而小波变换是一种多分辨率多通道分析信号局部变化的常用工具,使用不同尺度不同截止频率的一组带通滤波器,图像可以被分解成不同带宽频率的系数,这与人类视觉系统的多通道滤波模型理论一致,并且这组小波滤波器的带宽在对数尺度下是相同的,这与人类视觉通路按对数特性变换也是一致的。小波变换可以用不同的分辨率聚焦到原图像不同的独立频带与不同空间方向内的任意细节,因此具有良好的方向选择特性,由于人眼视觉系统在响应频带与空间方向选择上敏感性不同,因而更加符合人眼的视觉特性。
[0014] 为此本发明将图像经小波变换后,其高频部分代表细节,对高频成分采用逐渐精细的时域或空域取样,从而可以聚焦对象的任意细节,具有较强的空间位置和方向选择性,并且能捕捉对应于空间和频率的局部结构信息,而低频部分表示物体的总体形状。然后再从这些高频和低频成分以及原图像中提取特征,得到显著图,最终对显著值进行加权得到最后结果。下面以一副自然图像的显著检测进行具体说明。
[0015] 如图2a所示,首先从图片库中选出一幅自然图像作为输入图像,图像大小为1024×732。具体检测方法的流程如图1所示,具体过程如下:
[0016] S1.小波变换:对输入图像进行小波变换,获得高频成分矩阵和低频成分矩阵;
[0017] 这里的小波变换指的是先对输入图像进行小波分解,然后再分别对高频系数和低频系数分别重构,进而获得高频成分矩阵和低频成分矩阵,在本实施例中即将彩色输入图像进行尺度调整和灰度处理后,通过双正交样条小波bior3.7进行三层小波分解,每一层有三个方向(水平、垂直、对角)的高频系数,分别重构这九个高频成分,然后将所有的高频成分线性叠加起来后量化编码得到一个高频成分矩阵;将最后一层的低频系数直接重构然后量化编码可以得到低频成分矩阵;
[0018] S2.建立多尺度图像:分别对输入图像、高频成分矩阵和低频成分矩阵建立多尺度图像,分别得到输入图像的多尺度图像、高频成分矩阵的多尺度图像和低频成分矩阵的多尺度图像;这里是利用高斯金字塔模型建立多尺度图像。
[0019] 这里的多尺度图像为9层高斯金字塔,其中第0层是输入图像,1到8层分别是用离散高斯滤波器对输入图像进行滤波和采样形成的,大小为输入图像的1/2到1/256。
[0020] S3.特征提取:从步骤S2得到的输入图像的多尺度图像提取两个颜色特征金字塔,从步骤S2得到的高频成分矩阵的多尺度图像提取高频强度特征金字塔以及四个方向高频特征金字塔,从步骤S2得到的低频成分矩阵的多尺度图像提取低频强度特征金字塔以及四个方向低频特征金字塔。
[0021] 其中,强度特征是由红、绿、蓝三种颜色分量的平均值得到;方向特征是其使用四个方向(0°,45°,90°,135°)的Gabor滤波器直接对强度特征进行滤波,即可得到四个方向(0°,45°,90°,135°)上的方向特征映射图;颜色特征分别计算对应于红-绿/绿-红色对的特征图MRG和对应于蓝-黄/黄-蓝色对的特征图MBY,以像素点(200200)为例,对应的红、绿、蓝颜色值为0.5529、0.8078、0.1569,那么这个点的MRG就是红、绿颜色矩阵值相减再除以红、绿、蓝三个值中最大的值,即0.3155。如果红、绿、蓝三个值中最大的值小于0.1,则MBY和MRG都归零。进而可以得到两个颜色特征金字塔、八个方向特征金字塔和两个强度特征金字塔。
[0022] S4.特征叠加:对得到的12个特征金字塔分别进行中央-周边操作和规范化,得到12个子特征金字塔,对12个子特征金字塔分别进行叠加,得到12个特征图,对得到的12个特征图进行规范化,然后对规范化后的12个特征图进行叠加,得到一幅显著图;
[0023] 中央-周边操作和规范化可参考文献:L.Itti,C.Koch,E.Niebur,A model of saliency-based visual attention for rapid scene analysis,Pattern Analysis and Machine Intelligence,IEEE Transactions on,1998,Vol.20(11),1254-1259。具体过程如下:
[0024] 中央-周边操作是在两个金字塔层之间进行,将高层金字塔图像利用插值放大到低层图像的尺寸,再对两图像进行点对点的减法操作。由视觉尺度问题知道,金字塔的不同层对应了视觉中的不同尺度,金字塔的低层称为主尺度,与该主尺度相差的层数称为尺度差,令主尺度c∈{0,1,2},周边尺度s=c+δ,δ∈{2,3},δ即为尺度差,通过计算不同尺度和尺度差的高斯差图像,来提取图像的信息。例如高频的强度特征Ih(1,3)就是将第一层的特征值与第三层的特征值相减后对矩阵边缘相应的缩小,以便利于观察。中央-周边操作高斯金字塔后可以得到12个子特征金字塔,即为72个不同尺度的子特征映射图。
[0025] 由于对单幅独立图像进行显著区域提取,没有先验知识,通过规格化算子N(·)来增强显著峰较少的特征图,同时削弱存在大量显著峰的特征图,在特征映射图中,存在最显著区域(显著性最大)和其它一些较感兴趣(显著性局部极大)。根据皮层中的侧抑制机制,当这一最显著值与局部显著值差值较小时,则认为特征图中的显著区域显著性并不独特,相反,若差值较大,则认为显著性大的区域的确有很高的显著性。因此需要将映射图规格化,首先计算特征映射图的全局最大值M,将映射图归一化到[0,M]的区间内,然后计算2
映射图中除M之外的所有局部最大值的平均值m,用(M-m) 乘以特征图。
[0026] 对12个子特征金字塔分别进行叠加,得到12个特征图,对得到的12个特征图进行规范化,然后对规范化后的12个特征图进行叠加,得到一幅显著图,具体为:72个不同尺度的子特征映射图具体分为两类颜色特征映射图、一类高频强度特征映射图、四类高频方向特征映射图、一类低频强度特征映射图和四类低频方向特征映射图,每类特征包含6个子特征映射图,一共72个子特征映射图。将每类特征里面的六个子特征映射图进行点对点相加后规格化处理,得到一个特征映射图;如果某种特征不止一类特征映射图,那么将所有相同类别的特征映射图再相加,然后规格化处理后可以得到5个特征显著图;最后将这5个特征显著图线性相加就可以得到一幅显著图。例如红绿颜色特征有6个35×50的特征映射图,将这6个矩阵对应点值相加后得到一个特征矩阵,再进行步骤S3中提到的映射图规格化处理。然后将红绿颜色特征矩阵和蓝黄颜色特征矩阵相加后规格化处理得到颜色特征显著图,最后将颜色特征显著图和其他特征显著图相加得到一幅显著图;
[0027] 为了更好的加重了显著性并且与眼动习惯相吻合,还可以包括步骤S5或步骤S6。
[0028] 步骤S5.中央加权:建立一个和显著图大小相同,元素值为1的矩阵,在矩阵的中心位置构建一个二维高斯滤波器,滤波器半径为矩阵中心点到矩阵行列三分之一交叉点处的长度,将建立的矩阵与步骤S4得到的显著图相乘得到中央加权后的显著图;
[0029] 步骤S6.三分点加权:建立一个和显著图大小相同,元素值为1的矩阵,在矩阵的三分点位置,即矩阵行和列的三分之一和三分之二的四个交叉点处分别构建一个二维高斯滤波器,将建立的矩阵与步骤S4得到的显著图相乘得到三分点加权后的显著图。
[0030] 在本实例中,为了能够得到检测更好的结果,在中央加权后同时进行了三分点加权,此时步骤S6修正为:建立一个和显著图大小相同,元素值为1的矩阵,在矩阵的三分点位置,即矩阵行和列的三分之一和三分之二的四个交叉点处分别构建一个二维高斯滤波器,将建立的矩阵与步骤S5得到的中央加权后的显著图相乘得到三分点加权后的显著图。
[0031] 图2为采用本发明方法对自然图像进行显著检测,将结果与人类眼动数据构成的显著图和经典的Itti模型对比的图组。其中:2a.输入自然图像,2b.人类显著图,2c.采用本发明方法检测的显著图像,2d.Itti模型检测所得显著图像。从图中可以看出,人类观察出最显著区域是图像中央的一只昆虫,同时也是本发明的方法检测到的显著图中最亮最显著的物体,这是因为小波分解的高频成分中能够提取出昆虫的特征,其后的中央加权步骤更加重了它的显著性,而Itti模型却没能检测出这只昆虫。可以看出,本发明的方法计算得到的显著图与人类显著图更接近,证明了该方法在显著检测中的可行性。
[0032] 本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。