一种基于信息熵的时空显著性视觉注意方法转让专利

申请号 : CN201010192240.8

文献号 : CN101853513B

文献日 : 2012-02-29

本发明公开了一种基于信息熵的时空显著性视觉注意方法，步骤为：①提取短视频中的动态显著性图和静态显著性图；②将静态显著性图和动态显著性图联合生成最终显著性图；③胜者全赢；④返回抑制，将最终显著性图中最显著性的区域的像素值都置为零，得到了一个新的最终显著性图；⑤注意选择。在计算动态显著性时，本发明直接计算所有帧之间的动态显著性，仅仅计算当前帧的静态显著性图，这样很好地解决了现有方法存在的问题，节约了计算时间，并能更好地检测出动态显著性部分；另外本发明还运用了多尺度的方法计算了动态显著性，这样就能更好地计算出视频中不同大小物体的动态显著性，获得良好的视觉效果。

1.一种基于信息熵的时空显著性视觉注意方法，其步骤包括：第1步提取短视频中的动态显著性图和静态显著性图；其中，动态显著性图的提取过程为：

(A.1)对于输入的短视频，取连续n帧图像序列，按照下述过程将每一帧图像转换成更低水平的灰度级图像：选择短视频中输入的帧数作为灰度级水平的个数，将每一帧由256个灰度级转变成n个灰度级；设所有帧中最大的像素值是Max，对于第k帧Vk中坐标点(x，y)，1≤k≤n，将该点对应的像素值Vk(x，y)除以Max得到f(x，y，k)，f(x，y，k)的取值范围在[0，1]的区间内；再将[0，1]区间平均分为n等分，然后给落入不同等分中的f(x，y，k)赋予不同的整数值g(x，y，k)，这些整数的取值范围是[0，n-1]，以g(x，y，k)作为第k帧Vk中坐标点(x，y)的像素值；

(A.2)将步骤(A.1)得到的每一帧图像缩小到4个不同的尺度，所述的连续n帧图像序列变成为4个图像序列V1，s，V2，s，...，Vn，s，分别是原图尺寸的的1/2，1/4，1/8和1/16，s表示尺度的序号，1≤s≤4，分别记为V1，1，V2，1，...，Vn，1，V1，2，V2，2，...，Vn，2，V1，3，V2，3，...，Vn，3和V1，4，V2，4，...，Vn，4；将相同尺度下的n帧缩小的图像按下述方式组合成1个动态的响应图：对于第s个图像序列中的坐标点(x，y)，该序列中在(x，y)处的局部区域内的所有的g(x，y，k)构成了一个直方图，该点的熵值是通过此直方图的概率块函数得到的，如式I所示；所有的熵值构成了一个在当前尺度s下的动态的响应图Md，s(x，y)：式I

其中

(x′，y′)∈Rs(x，y)

s表示尺度的序号，pg(x′，y′，k)是由直方图产生的概率块函数，此直方图是由第s个图像序列在局部区域Rs(x，y)中的所有像素值得到的，设Rs(x，y)是第s个图像序列在坐标点(x，y)处的一个局部区域，这个局部区域是以(x，y)为圆心，以Vn，4的长度和宽度值中最小值的一半为半径的圆形区域；将尺度较大的3个响应图Md，s(x，y)都缩小到与其中最小尺度响应图相同的尺度，然后联合生成动态显著性图Md(x，y)：第2步将静态显著性图和动态显著性图联合生成最终显著性图；

第3步胜者全赢：

对于最终显著性图中的每一点ψ，根据熵的最大化方法获得了一个最优的尺寸ψr，再计算该点在一个局部区域内的均值，这个局部区域是以该点为圆心，以ψr为半径的圆形区域，所有的均值构成了一个图，该图中最大值的点即为最显著的点，最显著的点和该点对应的最优尺寸构成了最显著的区域；

第4步返回抑制：

将最终显著性图中最显著的区域的像素值都置为零，得到了一个新的最终显著性图；

第5步注意选择：

重复第3步至第5步，直至预先设定的次数，完成后得到的最显著性的点和该点所在区域的尺寸，作为注意焦点。

一种基于信息熵的时空显著性视觉注意方法

技术领域

[0001] 本发明属于计算机视觉领域，具体涉及一种基于信息熵的时空显著性视觉注意方法。

背景技术

[0002] 视觉注意方法主要是解决图像中的数据筛选问题。在计算机图像中，任务所关心的内容通常仅仅是图像中很小的一部分，所以，有必要将不同的处理优先级赋予不同的图
像区域，这样可以降低处理过程的复杂度，还能够减少不必要的计算浪费。在人类视觉信息
处理中，总是迅速选择少数几个显著的对象进行优先处理，而忽略或舍弃其他的非显著的
对象，这样使我们能够有选择地分配计算资源，从而极大地提高视觉信息处理的效率，该过
程被称为视觉注意。

[0003] 人类视觉系统通过选择性视觉注意机制可以轻易地找到自然场景中感兴趣的区域和目标。视觉注意机制为计算机视觉提供了类似加速处理的想象空间。选择性注意也允
许人类视觉系统以更高复杂度水平更加有效地处理输入的视觉场景。在一个短的视频中，
运动是基于这样的一个事实，那就是在静态场景中人们的注意力更易于被移动的刺激所吸
引。视觉注意中清晰地包括了运动，而快速检测运动的物体是人与环境自适应交互的关键
技术。所以，人类视觉系统不但包括静态的场景，而且包括动态的场景。

[0004] 人类视觉选择性注意过程就如同经过了视网膜的处理过程，视网膜通过不同的感兴趣细胞得到两个输出：magnocellular输出和parvocellular输出。magnocellular输出
具有快速响应功能，该输出能够通过低空间频率来模拟，parvocellular输出提供了细节信
息，该输出能够通过提取图像的高空间频率来模拟，此输出增强了帧的对比度并能吸引静
态帧上的视觉注意。本发明正是从视网膜的两个输出得到启发，从每一帧中提取了两个信
号对应于视网膜的两个主要的输出，将输入的短视频分解成低频率的带宽来模拟动态的输
出和分解成高频率的带宽来模拟静态的输出，得到动态显著性图和静态显著性图，这两个
图融合生成最终显著性图。

[0005] 时空显著性模型主要包括动态模型和静态模型，大部分视觉注意计算的模型是静态的并且是基于特征融合理论的，使用最广的是Itti等人(L.Itti，C.Koch and E.Niebur，
“A model of saliency-based visual attention for rapidscene analysis，”IEEE
Transactions on Pattern Analysis and MachineIntelligence，20(11)，pp.1254-1259，
1998.)提出的静态视觉注意模型，该模型使用了初级的视觉特征如亮度，方位和颜色。

[0006] 近些年来有很多文献将动态的显著性引进到视觉注意机制当中，Ban等人提出了一个典型的动态选择注意模型(S.Ban，I.Lee and M.Lee，“Dynamic visual selective
attention model，”Neurocomputing，vol.71，pp.853-856，2008.)。具体过程描述如下：首
先，对于视频图像中每一帧计算出一个静态显著性图；其次，对于每一个静态显著性图中的
每一个点，计算最优的尺度；再次，根据这些最优的尺度和静态显著性图计算出熵值图，这
样，对每一帧图得就得到了一个静态的熵值图；最后，由这些静态的熵值图序列得到一个新
的熵值图，该熵值图就是动态显著性图。

[0007] Ban等人提出的模型在理论上非常有优越性，但是当运动的目标不在显著性区域内部时，该模型很难检测到运动的区域。

发明内容

[0008] 本发明的目的在于提出一种基于信息熵的时空显著性视觉注意方法，该方法具有良好的尺度不变性，能获得良好的视觉效果。

[0009] 本发明提供了一种基于信息熵的时空显著性视觉注意方法，具体步骤为：

[0010] 第1步提取短视频中的动态显著性图和静态显著性图；其中，动态显著性图的提取过程为：

[0011] (A.1)对于输入的短视频，取连续n帧图像序列，将每一帧图像转换成更低水平的灰度级图像；

[0012] (A.2)将步骤(A.1)得到的每一帧图像缩小到4个不同的尺度，将相同尺度下的n帧缩小的图像组合成1个动态的响应图，再将尺度较大的3个动态响应图缩小到与其中
最小尺度响应图相同的尺度，然后利用这4个相同尺度的缩小的图像联合生成动态显著性
图；

[0013] 第2步将静态显著性图和动态显著性图联合生成最终显著性图；

[0014] 第3步胜者全赢：

[0015] 对于最终显著性图中的每一点ψ，根据熵的最大化方法获得了一个最优的尺寸ψr，再计算该点在一个局部区域内的均值，这个局部区域是以该点为圆心，以ψr为半径的
圆形区域，所有的均值构成了一个图，该图中最大值的点即为最显著的点，最显著的点和该
点对应的最优尺寸构成了最显著的区域。

[0016] 第4步返回抑制：

[0017] 将最终显著性图中最显著的区域的像素值都置为零，得到了一个新的最终显著性图；

[0018] 第5步注意选择：

[0019] 重复第3步至第5步，直至预先设定的次数，完成后得到的最显著性的点和该点所在区域的尺寸，作为注意焦点。

[0020] 本发明提出一种基于信息熵的时空显著性视觉注意方法，包括动态显著性和静态显著性二方面，在计算动态显著性时，现有的方法是先计算每一帧的静态显著性图，再根据
所有帧的静态显著性图来计算动态显著性；此方法存在两个缺点：其一是计算每一帧的静
态显著图时，耗费了大量的时间，其二是当动态的目标不在静态显著性区域内部时，此方法
检测不到动态显著性部分；本发明直接计算所有帧之间的动态显著性，仅仅计算当前帧的
静态显著性图，这样很好地解决了以上两个问题，节约了计算时间，并能更好地检测出动态
显著性部分；另外本发明还运用了多尺度的方法计算了动态显著性，这样就能更好地计算
出视频中不同大小物体的动态显著性，获得良好的视觉效果。

附图说明

[0021] 图1是本发明流程图；

[0022] 图2(a)输入的彩色帧；(b)灰度帧；(c)8个灰度级水平帧；(d)4个灰度级水平帧；

[0023] 图3是LBP算子；

[0024] 图4(a)原始的LBP算子；(b)延伸的LBP算子；

[0025] 图5(a)和(b)是第一帧的静态显著性图和扫描路径；(c)和(d)是最后一帧的静态显著性图和扫描路径；

[0026] 图6(a)和(b)是Ban的根据静态显著性图得到的动态显著性图及其扫描路径；(c)和(d)是Ban的最终显著性图及其扫描路径；

[0027] 图7(a)和(b)是本发明根据连续帧得到的动态显著性图及其扫描路径；(c)和(d)是本发明的最终显著性图及其扫描路径。

具体实施方式

[0028] 下面结合附图和实例对本发明作进一步详细的说明。

[0029] 如图1所示，本发明方法包括以下步骤：

[0030] (1)提取短视频中的动态显著性图和静态显著性图；

[0031] (A)提取短视频中的动态显著性图：

[0032] (A.1)对于输入的短视频V，取连续n帧图像序列V1，V2，……Vn，一般情况下，当3≤n≤8时能达到较好的实验效果，为了加快计算的速度和降低计算的复杂性，将每一帧
图像转换成更低水平的灰度级图像，本发明中，我们选择短视频中输入的帧数作为灰度级
水平的个数。如果输入的是彩色图像，则首先转变成灰度图像，再将每一帧由256个灰度级
转变成n个灰度级(n＜256)。设所有帧中最大的像素值是Max，对于第k帧Vk(1≤k≤n)
中坐标点(x，y)，将该点对应的像素值Vk(x，y)除以Max得到f(x，y，k)，这样f(x，y，k)的
取值范围在[0，1]的区间内，如方程(1)所示；再将[0，1]区间平均分为n等分，然后给落
入不同等分中的f(x，y，k)赋予不同的整数值g(x，y，k)，这些整数的取值范围是[0，n-1]，
如方程(2)所示。图2显示了一个将彩色帧(a)转变成一个灰度帧(b)，再转变成8个灰度
级水平帧(c)和4个灰度级水平帧(d)的一个例子。

[0033] f(x，y，k)＝Vk(x，y)/Max (1)

[0034]

[0035] (A.2)为了更有效地检测出运动的区域，我们将每一帧图缩小到4个不同的尺度，以第k帧Vk为例，Vk被缩小到Vk，1，Vk，2，Vk，3和Vk，44个不同的尺度，分别是原图尺寸的的1/2，
1/4，1/8和1/16，这样此图像序列变成了4个图像序列V1，s，V2，s，K，Vn，s(s表示尺度的序号，
1≤s≤4)，分别记为V1，1，V2，1，K，Vn，1，V1，2，V2，2，K，Vn，2，V1，3，V2，3，K，Vn，3和V1，4，V2，4，K，Vn，4。
设Rs(x，y)是第s个图像序列在坐标点(x，y)处的一个局部区域，这个局部区域是以(x，
y)为圆心，以Vn，4的长度和宽度值中最小值的一半为半径的圆形区域。对于第s个图像序
列中的坐标点(x，y)，该序列中在(x，y)处的局部区域内的所有的g(x，y，k)构成了一个直
方图，该点的熵值是通过此直方图的概率块函数得到的，如方程(3)所示。熵值越大，该点
的显著性就越强，所有的熵值构成了一个在当前尺度下的动态的响应图Md，s(x，y)：

[0036]

[0037] 其中

[0038] (x′，y′)∈Rs(x，y) (4)

[0039] pg(x′，y′，k)是由直方图产生的概率块函数，此直方图是由第s个图像序列在局部区域Rs(x，y)中的所有像素值得到的。

[0040] 再将尺度较大的3个响应图都缩小到与其中最小尺度响应图相同的尺度，然后联合生成动态显著性图Md(x，y)：

[0041]

[0042] (B)提取当前帧的静态显著性图

[0043] 静态显著性图包括颜色对比度，亮度对比度和方位，采用Itti等人提出的模型就可以完成。

[0044] 作为本发明的一种改进，静态显著性图也可以考虑纹理信息，这种静态显著性模型是Itti等人提出的模型的一种延伸。下面具体说明如下：

[0045] (B.1)显著性特征的提取

[0046] 四种低水平的视觉特征：颜色对比度，亮度对比度，方位和纹理被提取和融合成了静态显著性图。令r，g和b分别是输入图像的三个颜色通道，即为红绿蓝三原色，我们创
建4个更广范围的颜色通道，令R＝r-(g+b)/2表示红色，G＝g-(r+b)/2表示绿色，B＝
b-(r+g)/2表示蓝色，Y＝(r+g)/2-|r-g|/2-b表示黄色，(如果是负值则令其为零)，则RG
＝|R-G|是红绿对比度，BY＝|B-Y|是蓝黄对比度。所以颜色特征被分解成红绿对比度和
蓝黄对比度2个特征类型。

[0047] 我们将亮度特征分为成亮度开启(由亮到暗)和亮度闭合(由暗到亮)2种类型，这是由于人类视觉系统的视觉感知场中的活性细胞有2种类型，中央开启的细胞增强中心
亮的部分抑制周围亮的部分，中央闭合的细胞抑制中心亮的部分增强周边亮的部分，如果
当前帧是彩色图像，则首先转变成灰度图像，再将图像中每个点的像素值减去该点周围四
邻域像素值的均值作为该点的响应值(如果是负值则令其为零)，这样得到了亮度开启的
特征类型图，同样将图像中每个点周围四邻域像素值的均值减去该点的像素值作为该点的
响应值(如果是负值则令其为零)，这样得到了亮度闭合的特征类型图。

[0048] 用Gabor滤波器检测出4个方位特征类型0°，45°，90°和135°，Gabor滤波器的数学表达式为：

[0049] h(u，v)＝q(u′，v′)cos(2πωfu′) (6)

[0050] 其中

[0051] (u′，v′)＝(ucos(φ)+vsin(φ)，-usin(φ)+vcos(φ)) (7)

[0052]

[0053] ωf表示Gabor滤波器的中心频率，它决定了滤波器带通区域中心在频率上的位置，通过选取不同的ωf可以得到不同的尺度。σu和σv分别是Gabor滤波器沿着横坐标
和纵坐标的高斯包络的空间常量，σu、σv分别与Gabor滤波器的频率带宽Bf和方位带宽
Bθ并有以下关系：

[0054]

[0055]

[0056] 一般情况下取ωf＝0.12，Bf＝1.25，Bθ＝π/6，φ是高斯坐标轴与横坐标轴的夹角，当φ分别取0°，45°，90°和135°时，得到4个不同的Gabor滤波器。在提取方位
特征类型时，如果当前帧是彩色图像，先转变成灰度图像，再用这4个Gabor滤波器分别滤
波，得到了4个方位的特征类型图。

[0057] 对于纹理特征，我们考虑了局部二值模式LBP(Local Binary Pattern)，LBP是用来描述图像的局部空间结构特征并且已被广泛用来解释人类感知的纹理特征，Ojala等人
(T.Ojala，M. and D.Harwood，“Acomparative study of texture measures
with classification based on featureddistributions，”Pattern Recognition，29(1)：
51-59，1996.)首先介绍了这种算子并显示了其强大的纹理分类的能力。同样如果当前帧是
彩色图像，先转变成灰度图像，在图像中给定的位置(xc，yc)，LBP被定义为一个中心像素和
周边八邻域像素比较得到的二值次序的集合(如图3所示)，结果的十进制可以被下述式子
表示出来：

[0058]

[0059] 其中ic是中心位置(xc，yc)的像素值，in是周边八邻域的像素值，函数s(x)被定义成：

[0060]

[0061] 本发明使用了2个LBP算子，一个是原始的LBP算子，另一个是环半径的延伸的LBP算子，该算子可以保持尺寸和旋转不变性，当它的像素点不在像素中心时，是通过插值
得到的，两个LBP算子如图4所示。所以，本发明一共使用了10个特征类型。

[0062] (B.2)计算当前帧的静态显著性图

[0063] 对于当前帧的每一个特征类型图，将其分解成9个高斯金字塔图(从尺度0到尺度8)，这样对于每一个特征类型F，有9个特征图F(i)(i∈{0，1，K，8})，F(0)的尺寸等于当
前帧的尺寸，F(1)的尺寸是F(0)尺寸的一半，F(2)的尺寸是F(1)尺寸的一半，……F(8)
的尺寸是F(7)尺寸的一半，取c∈{2，3，4}，δ∈{3，4}，a＝c+δ，令

[0064] F(c，a)＝|F(c)ΘF(a)| (13)

[0065] 其中Θ表示高斯金字塔的逐点差，这样每一个特征类型都有6个特征图，10个特征类型一共产生了60个特征图。

[0066] 我们使用Itti等人的特征图归一化算子N(.)来增强显著峰较少的特征图，而削弱存在大量显著峰的特征图。对每一特征图，该算子的操作包括：1)归一化该特征图至一
固定范围[0，L，M]内，以消除依赖于特征的幅度差别，其中M是该特征图中的最大像素值；
2)计算除全局最大值外所有局部极大的均值 3)用乘该特征图。所有小于最大
值20％的值都置为零。

[0067] 仅考虑局部极大值可使N(.)对特征图中有意义的区域进行比较，而忽略均匀区域。全局最大值与所有局部极大均值之差反映了最感兴趣区域与平均感兴趣区域间的差
别。若该差值较大，最感兴趣区域就会突出出来，若该差值较小，表明特征图中不含任何具
有独特性质的区域。N(.)的生物学依据在于它近似地表达了皮层的侧抑制机制，即近邻相
似特征通过特定的联结相互抑制。特征图被组合成4个特征显著性描述，即灰度特征显著
性描述颜色特征显著性描述方位特征显著性描述和纹理特征显著性描述这些描
述可以统一表示成

[0068]

[0069] 其中表示逐点求和。得到4个特征图和这4个特征显著性描述被进一步地归一化，并相加得到静态显著性图Ms(x，y)，如式(15)所示：

[0070]

[0071] (2)获取短视频中的最终显著性图

[0072] 动态显著性图和静态显著性图如上所述，最终显著性图是他们的权重和，这两个图都竞争显著性，动态显著性图强调时间的显著性，静态显著性图强调空间的显著性，为
了使他们可比较，用另外一个标准化算子Norm(.)将动态和静态显著性图标准化到[0，1]
区间内，具体是将动态显著性图中的每一点的像素值除以动态显著性图中的最大像素值，
将静态显著性图中的每一点的像素值除以静态显著性图中的最大像素值。当融合他们的
时候，定义权值为t∈{0，K，1}，表示动态显著性图对于最终显著性图的权重，一般情况下
0.4≤t≤0.6能达到较好的效果，最终显著性图M(x，y)可表示为：

[0073] M(x，y)＝t×Norm(Md(x，y))+(1-t)×Norm(Ms(x，y)) (16)

[0074] 由以上的计算过程可知，此时最终显著性图M(x，y)的尺寸是原输入视频帧V1的尺寸的1/16，为了与原视频帧的尺寸保持一致，将M(x，y)的尺寸放大到与V1相同的尺寸。

[0075] (3)胜者全赢(Winner-take-all)：对于最终显著性图中的每一点ψ，根据熵的最大化方法获得一个最优的尺寸ψr，如方程(17)所示，此方程表示了该点位置处的空间显著
性。

[0076]

[0077] 其中D是最终显著性图中以圆心为ψ半径为r的圆形局部区域所有像素值的集合，HD(r，ψ)是根据方程(18)得到的熵值，WD(r，ψ)是由方程(19)得到的尺度间的尺度。

[0078]

[0079]

[0080] 其中pd，r，ψ是通过在以上局部区域内标准化像素的直方图得到的概率块函数，描述值d是集合D中的一个元素。

[0081] 这样对于最终显著性图中的每一点ψ，获得了一个最优的尺寸ψr，再计算该点在一个局部区域内的均值，这个局部区域是以该点为圆心，以ψr为半径的圆形区域，所有的
均值构成了一个图，该图中最大值的点即为最显著的点，最显著的点和该点对应的最优尺
寸构成了最显著的区域。

[0082] (4)返回抑制(Inhibition-of-return)：根据胜者全赢的方法得到了一个最显著的区域，在视线注意到这一区域之后，为了实现注意转移，使之注意到下一个区域，就要消
除当前最终显著性图中的最显著的区域，本发明是将最终显著性图中最显著的区域的像素
值都置为零。这样就得到了一个新的最终显著性图。

[0083] (5)注意选择：重复步骤(3)至(5)，直至预先设定的次数λ，当4≤λ≤10时能达到良好的实验效果，完成后得到的最显著性的点和该点所在区域的尺寸，作为注意焦点。

[0084] 图5给出了一个短视频中第一帧和最后一帧的静态显著性图及其扫描路径。图6(a)和(b)给出了根据Ban等人提出的方法得到的动态显著性图及其扫描路径，图6(c)和
(d)给出了根据Ban等人提出的方法得到的最终显著性图及其扫描路径。图7(a)和(b)给
出了根据本发明的方法得到的动态显著性图及其扫描路径，图7(c)和(d)给出了根据本发
明的方法得到的最终显著性图及其扫描路径。实验中，我们取t＝0.5表示动态显著性图
和静态显著性图同等重要。图7(d)用不同尺度的框表示了该区域显著性的尺寸，而其他的
图没有包含尺度信息，其中的方框仅仅表示显著性区域的位置。

[0085] 本发明不仅局限于上述具体实施方式，本领域一般技术人员根据本发明公开的内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思
路，做一些简单的变化或更改的设计，都落入本发明保护的范围。

一种基于信息熵的时空显著性视觉注意方法转让专利

申请号 : CN201010192240.8

文献号 : CN101853513B

文献日 : 2012-02-29

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 魏龙生 , 桑农 , 王岳环

申请人 : 华中科技大学

摘要 :

权利要求 :

说明书 :