一种基于信息熵的时空显著性视觉注意方法转让专利
申请号 : CN201010192240.8
文献号 : CN101853513B
文献日 : 2012-02-29
发明人 : 魏龙生 , 桑农 , 王岳环
申请人 : 华中科技大学
摘要 :
权利要求 :
1.一种基于信息熵的时空显著性视觉注意方法,其步骤包括:第1步 提取短视频中的动态显著性图和静态显著性图;其中,动态显著性图的提取过程为:
(A.1)对于输入的短视频,取连续n帧图像序列,按照下述过程将每一帧图像转换成更低水平的灰度级图像:选择短视频中输入的帧数作为灰度级水平的个数,将每一帧由256个灰度级转变成n个灰度级;设所有帧中最大的像素值是Max,对于第k帧Vk中坐标点(x,y),1≤k≤n,将该点对应的像素值Vk(x,y)除以Max得到f(x,y,k),f(x,y,k)的取值范围在[0,1]的区间内;再将[0,1]区间平均分为n等分,然后给落入不同等分中的f(x,y,k)赋予不同的整数值g(x,y,k),这些整数的取值范围是[0,n-1],以g(x,y,k)作为第k帧Vk中坐标点(x,y)的像素值;
(A.2)将步骤(A.1)得到的每一帧图像缩小到4个不同的尺度,所述的连续n帧图像序列变成为4个图像序列V1,s,V2,s,...,Vn,s,分别是原图尺寸的的1/2,1/4,1/8和1/16,s表示尺度的序号,1≤s≤4,分别记为V1,1,V2,1,...,Vn,1,V1,2,V2,2,...,Vn,2,V1,3,V2,3,...,Vn,3和V1,4,V2,4,...,Vn,4;将相同尺度下的n帧缩小的图像按下述方式组合成1个动态的响应图:对于第s个图像序列中的坐标点(x,y),该序列中在(x,y)处的局部区域内的所有的g(x,y,k)构成了一个直方图,该点的熵值是通过此直方图的概率块函数得到的,如式I所示;所有的熵值构成了一个在当前尺度s下的动态的响应图Md,s(x,y):式I
其中
(x′,y′)∈Rs(x,y)
s表示尺度的序号,pg(x′,y′,k)是由直方图产生的概率块函数,此直方图是由第s个图像序列在局部区域Rs(x,y)中的所有像素值得到的,设Rs(x,y)是第s个图像序列在坐标点(x,y)处的一个局部区域,这个局部区域是以(x,y)为圆心,以Vn,4的长度和宽度值中最小值的一半为半径的圆形区域;将尺度较大的3个响应图Md,s(x,y)都缩小到与其中最小尺度响应图相同的尺度,然后联合生成动态显著性图Md(x,y):第2步 将静态显著性图和动态显著性图联合生成最终显著性图;
第3步 胜者全赢:
对于最终显著性图中的每一点ψ,根据熵的最大化方法获得了一个最优的尺寸ψr,再计算该点在一个局部区域内的均值,这个局部区域是以该点为圆心,以ψr为半径的圆形区域,所有的均值构成了一个图,该图中最大值的点即为最显著的点,最显著的点和该点对应的最优尺寸构成了最显著的区域;
第4步 返回抑制:
将最终显著性图中最显著的区域的像素值都置为零,得到了一个新的最终显著性图;
第5步 注意选择:
重复第3步至第5步,直至预先设定的次数,完成后得到的最显著性的点和该点所在区域的尺寸,作为注意焦点。
说明书 :
一种基于信息熵的时空显著性视觉注意方法
技术领域
背景技术
像区域,这样可以降低处理过程的复杂度,还能够减少不必要的计算浪费。在人类视觉信息
处理中,总是迅速选择少数几个显著的对象进行优先处理,而忽略或舍弃其他的非显著的
对象,这样使我们能够有选择地分配计算资源,从而极大地提高视觉信息处理的效率,该过
程被称为视觉注意。
许人类视觉系统以更高复杂度水平更加有效地处理输入的视觉场景。在一个短的视频中,
运动是基于这样的一个事实,那就是在静态场景中人们的注意力更易于被移动的刺激所吸
引。视觉注意中清晰地包括了运动,而快速检测运动的物体是人与环境自适应交互的关键
技术。所以,人类视觉系统不但包括静态的场景,而且包括动态的场景。
具有快速响应功能,该输出能够通过低空间频率来模拟,parvocellular输出提供了细节信
息,该输出能够通过提取图像的高空间频率来模拟,此输出增强了帧的对比度并能吸引静
态帧上的视觉注意。本发明正是从视网膜的两个输出得到启发,从每一帧中提取了两个信
号对应于视网膜的两个主要的输出,将输入的短视频分解成低频率的带宽来模拟动态的输
出和分解成高频率的带宽来模拟静态的输出,得到动态显著性图和静态显著性图,这两个
图融合生成最终显著性图。
“A model of saliency-based visual attention for rapidscene analysis,”IEEE
Transactions on Pattern Analysis and MachineIntelligence,20(11),pp.1254-1259,
1998.)提出的静态视觉注意模型,该模型使用了初级的视觉特征如亮度,方位和颜色。
attention model,”Neurocomputing,vol.71,pp.853-856,2008.)。具体过程描述如下:首
先,对于视频图像中每一帧计算出一个静态显著性图;其次,对于每一个静态显著性图中的
每一个点,计算最优的尺度;再次,根据这些最优的尺度和静态显著性图计算出熵值图,这
样,对每一帧图得就得到了一个静态的熵值图;最后,由这些静态的熵值图序列得到一个新
的熵值图,该熵值图就是动态显著性图。
发明内容
最小尺度响应图相同的尺度,然后利用这4个相同尺度的缩小的图像联合生成动态显著性
图;
圆形区域,所有的均值构成了一个图,该图中最大值的点即为最显著的点,最显著的点和该
点对应的最优尺寸构成了最显著的区域。
所有帧的静态显著性图来计算动态显著性;此方法存在两个缺点:其一是计算每一帧的静
态显著图时,耗费了大量的时间,其二是当动态的目标不在静态显著性区域内部时,此方法
检测不到动态显著性部分;本发明直接计算所有帧之间的动态显著性,仅仅计算当前帧的
静态显著性图,这样很好地解决了以上两个问题,节约了计算时间,并能更好地检测出动态
显著性部分;另外本发明还运用了多尺度的方法计算了动态显著性,这样就能更好地计算
出视频中不同大小物体的动态显著性,获得良好的视觉效果。
附图说明
具体实施方式
图像转换成更低水平的灰度级图像,本发明中,我们选择短视频中输入的帧数作为灰度级
水平的个数。如果输入的是彩色图像,则首先转变成灰度图像,再将每一帧由256个灰度级
转变成n个灰度级(n<256)。设所有帧中最大的像素值是Max,对于第k帧Vk(1≤k≤n)
中坐标点(x,y),将该点对应的像素值Vk(x,y)除以Max得到f(x,y,k),这样f(x,y,k)的
取值范围在[0,1]的区间内,如方程(1)所示;再将[0,1]区间平均分为n等分,然后给落
入不同等分中的f(x,y,k)赋予不同的整数值g(x,y,k),这些整数的取值范围是[0,n-1],
如方程(2)所示。图2显示了一个将彩色帧(a)转变成一个灰度帧(b),再转变成8个灰度
级水平帧(c)和4个灰度级水平帧(d)的一个例子。
1/4,1/8和1/16,这样此图像序列变成了4个图像序列V1,s,V2,s,K,Vn,s(s表示尺度的序号,
1≤s≤4),分别记为V1,1,V2,1,K,Vn,1,V1,2,V2,2,K,Vn,2,V1,3,V2,3,K,Vn,3和V1,4,V2,4,K,Vn,4。
设Rs(x,y)是第s个图像序列在坐标点(x,y)处的一个局部区域,这个局部区域是以(x,
y)为圆心,以Vn,4的长度和宽度值中最小值的一半为半径的圆形区域。对于第s个图像序
列中的坐标点(x,y),该序列中在(x,y)处的局部区域内的所有的g(x,y,k)构成了一个直
方图,该点的熵值是通过此直方图的概率块函数得到的,如方程(3)所示。熵值越大,该点
的显著性就越强,所有的熵值构成了一个在当前尺度下的动态的响应图Md,s(x,y):
建4个更广范围的颜色通道,令R=r-(g+b)/2表示红色,G=g-(r+b)/2表示绿色,B=
b-(r+g)/2表示蓝色,Y=(r+g)/2-|r-g|/2-b表示黄色,(如果是负值则令其为零),则RG
=|R-G|是红绿对比度,BY=|B-Y|是蓝黄对比度。所以颜色特征被分解成红绿对比度和
蓝黄对比度2个特征类型。
亮的部分抑制周围亮的部分,中央闭合的细胞抑制中心亮的部分增强周边亮的部分,如果
当前帧是彩色图像,则首先转变成灰度图像,再将图像中每个点的像素值减去该点周围四
邻域像素值的均值作为该点的响应值(如果是负值则令其为零),这样得到了亮度开启的
特征类型图,同样将图像中每个点周围四邻域像素值的均值减去该点的像素值作为该点的
响应值(如果是负值则令其为零),这样得到了亮度闭合的特征类型图。
和纵坐标的高斯包络的空间常量,σu、σv分别与Gabor滤波器的频率带宽Bf和方位带宽
Bθ并有以下关系:
特征类型时,如果当前帧是彩色图像,先转变成灰度图像,再用这4个Gabor滤波器分别滤
波,得到了4个方位的特征类型图。
(T.Ojala,M. and D.Harwood,“Acomparative study of texture measures
with classification based on featureddistributions,”Pattern Recognition,29(1):
51-59,1996.)首先介绍了这种算子并显示了其强大的纹理分类的能力。同样如果当前帧是
彩色图像,先转变成灰度图像,在图像中给定的位置(xc,yc),LBP被定义为一个中心像素和
周边八邻域像素比较得到的二值次序的集合(如图3所示),结果的十进制可以被下述式子
表示出来:
得到的,两个LBP算子如图4所示。所以,本发明一共使用了10个特征类型。
前帧的尺寸,F(1)的尺寸是F(0)尺寸的一半,F(2)的尺寸是F(1)尺寸的一半,……F(8)
的尺寸是F(7)尺寸的一半,取c∈{2,3,4},δ∈{3,4},a=c+δ,令
固定范围[0,L,M]内,以消除依赖于特征的幅度差别,其中M是该特征图中的最大像素值;
2)计算除全局最大值外所有局部极大的均值 3)用 乘该特征图。所有小于最大
值20%的值都置为零。
别。若该差值较大,最感兴趣区域就会突出出来,若该差值较小,表明特征图中不含任何具
有独特性质的区域。N(.)的生物学依据在于它近似地表达了皮层的侧抑制机制,即近邻相
似特征通过特定的联结相互抑制。特征图被组合成4个特征显著性描述,即灰度特征显著
性描述 颜色特征显著性描述 方位特征显著性描述 和纹理特征显著性描述 这些描
述可以统一表示成
了使他们可比较,用另外一个标准化算子Norm(.)将动态和静态显著性图标准化到[0,1]
区间内,具体是将动态显著性图中的每一点的像素值除以动态显著性图中的最大像素值,
将静态显著性图中的每一点的像素值除以静态显著性图中的最大像素值。当融合他们的
时候,定义权值为t∈{0,K,1},表示动态显著性图对于最终显著性图的权重,一般情况下
0.4≤t≤0.6能达到较好的效果,最终显著性图M(x,y)可表示为:
性。
均值构成了一个图,该图中最大值的点即为最显著的点,最显著的点和该点对应的最优尺
寸构成了最显著的区域。
除当前最终显著性图中的最显著的区域,本发明是将最终显著性图中最显著的区域的像素
值都置为零。这样就得到了一个新的最终显著性图。
(d)给出了根据Ban等人提出的方法得到的最终显著性图及其扫描路径。图7(a)和(b)给
出了根据本发明的方法得到的动态显著性图及其扫描路径,图7(c)和(d)给出了根据本发
明的方法得到的最终显著性图及其扫描路径。实验中,我们取t=0.5表示动态显著性图
和静态显著性图同等重要。图7(d)用不同尺度的框表示了该区域显著性的尺寸,而其他的
图没有包含尺度信息,其中的方框仅仅表示显著性区域的位置。
路,做一些简单的变化或更改的设计,都落入本发明保护的范围。