基于视觉注意力的实时的视频和图像抽象化方法转让专利

申请号 : CN200910095238.6

文献号 : CN101488220B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 赵汉理金小刚茅晓阳

申请人 : 浙江大学

摘要 :

本发明公开了一种基于视觉注意力的实时的视频和图像抽象化方法,包括输入待处理的实时的视频和图像,将实时的视频和图像的红绿蓝颜色空间转换到CIE-Lab颜色空间,生成视觉注意力分布图,导出兴趣区域函数图,采用基于特征流场的抽象化方法得到初始的实时的抽象化视频和图像,采用线性插值技术得到新的实时的抽象化视频和图像,将实时的视频和图像由CIE-Lab颜色空间重新转换回红绿蓝颜色空间七个步骤。本发明方法的每一个步骤都可以在家用电脑的图形卡硬件中并行处理,有效地解决了现有的实时视频抽象化方法存在的均匀抽象化的问题,为非专业人员提供了一种简便直观的实时的视频和图像的抽象化方法。

权利要求 :

1.一种基于视觉注意力的实时的视频和图像抽象化方法,该方法包括以下七个步骤:(1)输入实时的视频和图像,等待处理;

(2)将步骤(1)中待处理的实时的视频和图像由红绿蓝颜色空间转换到CIE-Lab颜色空间,得到CIE-Lab颜色空间的实时的视频和图像;

(3)对步骤(1)中输入的实时的视频和图像采用视觉感知模型,得到实时的视频和图像的视觉注意力分布图;

(4)采用高斯平滑技术,将步骤(3)中的视觉注意力分布图转换为兴趣区域函数图;

(5)对步骤(2)中得到的CIE-Lab颜色空间的实时的视频和图像采用基于特征流的抽象化方法,得到初始的实时的抽象化视频和图像;

(6)利用兴趣区域函数为权值,将步骤(5)中得到的初始的实时的抽象化视频和图像与CIE-Lab颜色空间的实时的视频和图像进行线性插值,得到新的实时的抽象化视频和图像;

(7)新的实时的视频和图像由CIE-Lab颜色空间转换到红绿蓝颜色空间。

2.根据权利要求1所述的实时的视频和图像抽象化方法,其特征在于:所述的由红绿蓝颜色空间转换到CIE-Lab颜色空间的转换方法如下:按照下面的公式进行转换:

式中R,G,B分别表示像素的红绿蓝颜色值,L是像素的亮度通道值,a和b是像素的两个彩色通道值。

3.根据权利要求1所述的实时的视频和图像抽象化方法,其特征在于:所述的对输入的实时的视频和图像采用视觉感知模型,得到实时的视频和图像的视觉注意力分布图的方法如下:利用实时的视频和图像的亮度L,颜色C,对比度O三个特征,分别构造出对应的亮度高斯金字塔BL、颜色高斯金字塔BC和对比度高斯金字塔BO,将所述的金字塔的各层进行差分计算得到亮度差分图CL、颜色差分图CC和对比度差分图CO,再对各差分图进行正则化处理得到三个特征对应的亮度特征图FL、颜色特征图FC和对比度特征图FO,最后加权平均并正则化得到实时的视频和图像的视觉注意力分布图。

4.根据权利要求1所述的实时的视频和图像抽象化方法,其特征在于:所述的采用高斯平滑技术,将实时的视频和图像的视觉注意力分布图转换为兴趣区域函数图的方法如下:利用阈值tm将实时的视频和图像的视觉注意力分布图转换为黑白的模板,黑白模板中的白色区域表示视觉上吸引注意力的区域,黑色区域表示视觉上的背景区域;利用高斯平滑技术对黑白模板进行滤波,得到实时的视频和图像的兴趣区域函数图s。

5.根据权利要求1所述的实时的视频和图像抽象化方法,其特征在于:所述的采用基于特征流的抽象化方法,得到初始的实时的抽象化视频和图像的方法如下:创建一个连贯的特征流场V(x,y),初始值垂直于CIE-Lab颜色空间的实时的视频和图像的亮度图上的梯度场对CIE-Lab颜色空间的实时的视频和图像进行沿流场方向和垂直于流场方向进行双边滤波,同时利用基于特征流场的高斯差分算法抽取线条区域,并对抽取的线条区域和双边滤波结果进行相乘,得到初始的实时的抽象化视频和图像。

6.根据权利要求1所述的实时的视频和图像抽象化方法,其特征在于:所述的以兴趣区域函数为权值,将初始的实时的抽象化视频和图像与CIE-Lab颜色空间的实时的视频和图像进行线性插值,得到新的实时的抽象化视频和图像的方法如下:利用线性插值公式计算出新的实时的抽象化视频和图像:

La=s·La′+(1-s)·L

式中s表示兴趣区域函数,La′表示初始的实时的抽象化视频和图像,L是CIE-Lab颜色空间的实时的视频和图像,La为得到新的实时的抽象化视频和图像。

7.根据权利要求1所述的实时的视频和图像抽象化方法,其特征在于:所述的由CIE-Lab颜色空间转换到红绿蓝颜色空间的转换方法如下:转换按照下面的公式进行:式中R,G,B分别表示像素的红绿蓝颜色值,L是像素的亮度通道值,a和b是像素的两个彩色通道。

说明书 :

基于视觉注意力的实时的视频和图像抽象化方法

技术领域

[0001] 本发明涉及计算机图像及视频处理技术领域,特别是涉及一种基于视觉注意力的实时的视频和图像抽象化方法。

背景技术

[0002] 实时视频抽象化通过简化低对比度区域及增强高对比度区域,提供了一种简洁、快速、美观的可视信息交流工具。
[0003] 当艺术家想要描绘一幅景色时,他们并不是直接画出场景里的所有可视信息。相反,他们只选择其中重要的信息,并用自己的想象力把这些信息展现出来。线条能够很有效和自然地描述信息,并且已经被人类使用了上万年了。近年来,由于能使图像及视频更易于理解,抽象化技术已经变得越来越流行。一些研究人员使用眼睛跟踪器来捕获被测试人员的注意力,提出了非均匀的图像抽象化方法,参见D.Decarlo and A.Santella.Stylization and Abstraction of Photographs.In Proceedings of the ACMSIGGRAPH,2002,pp 769-776。然而,眼睛跟踪器硬件昂贵,而且捕获视觉注意也需要花费额外时间,这种抽象化方法的速度是非常慢而且不适合普通用户的使用。
[0004] 最近,一些研究人员提出了一个自动、实时的图像及视频抽象化框架。该系统使用可分离的双边滤波器来进一步减少低对比度区域的对比度,同时使用各向同性的高斯差分算法来人为地提高对比度区域的对比度,参见H. S.C.Olsen,and B.Gooch.Real-Time Video Abstraction.InProceedings of the ACM SIGGRAPH,2006,pp1221-1226。还有一些研究人员使用双边网格来进一步加速双边滤波器算法,能够对较高分辨率的视频进行实时处理,参见J.Chen,S.Paris,and F.Durand.Real-TimeEdge-Aware Image Processing with the Bilateral Grid.In Proceedings of theACM SIGGRAPH,
2007,pp.171-182。但所有这些自动抽象化方法都使用各向同性的算法来进行抽象化。这些算法确实能够在图形卡上快速运行,然而由于该算法是基于各向同性的,抽象化效果不具有流线感。一些研究人员先构造出图像的特征流场,然后利用该特征流场来进行基于流场的抽象化,提高了抽象化的效果,参见H.Zhao,X.Jin,J.Shen,X.Mao,and J.Feng.Real-Time Feature-Aware Video Abstraction.The Visual Computer,24(7),2008,pp.727-734 以 及 H.Kang,S.Lee,and C.K.Chui.Flow-BasedImage Abstraction.IEEE Transaction on Visualization and Computer Graphics,15(1),2009,pp.62-76。然而上述所有算法都是假设高对比度区域为易于引起视觉注意的区域,而低对比度区域为不易引起视觉注意的区域。然而,相对于颜色和亮度,对比度本身也是一个重要的特征,对比度的变化往往也能引起视觉的注意。为了更好地传递可视信息,视觉上感兴趣区域的抽象化程度应该比背景区域的抽象化程度低一些。而现有算法不能很好地解决这个问题,整张视频和图像都是均匀抽象化的。Itti等人提出了一种自动的视觉注意力分布图生成算法,可以很好地指导图像的非均匀抽象化,参见L.Itti,C.Koch,and E.Niebur.A Model of Saliency-Based VisualAttention for Rapid Scene Analysis.IEEE Transaction on Pattern Analysis andMachine Intelligence,20(11),1998,pp.1254-1259。然而这个方法运行速度慢,不能直接用于视频和图像的实时抽象化。

发明内容

[0005] 本发明提供一种基于视觉注意力的实时的视频和图像抽象化方法。该方法采用了一种基于视觉感知模型,有效地解决了现有实时视频抽象化方法存在的整张视频和图像均匀抽象化的问题,本发明的每一个步骤都可以在家用电脑的图形卡硬件中并行处理,为非专业人员提供了一种简便直观的实时的视频和图像的抽象化方法。
[0006] 为了达到上述目的,本发明采用以下技术方案如下:
[0007] 包括以下七个步骤:
[0008] 1)输入待处理的实时的视频和图像,待处理的实时的视频和图像是红绿蓝颜色空间的图像,其中颜色参数用C表示,对比度参数用O表示;
[0009] 2)将步骤1)中待处理的实时的视频和图像由红绿蓝颜色空间转换到CIE-Lab颜色空间,得到CIE-Lab颜色空间的实时的视频和图像,使实时的视频和图像的亮度通道和彩色通道相分离,其中亮度参数用L表示;
[0010] 3)对步骤1)中的实时的视频和图像采用视觉感知模型,得到实时的视频和图像的视觉注意力分布图;
[0011] 利用图像的亮度,颜色,对比度等三个特征,分别得到三个特征对应的亮度特征图FL、颜色特征图FC和对比度特征图FO,最后加权平均并正则化得到实时的视频和图像的视觉注意力分布图;
[0012] 4)采用高斯平滑技术,将得到的实时的视频和图像的视觉注意力分布图转换为兴趣区域函数图:利用阈值tm将实时的视频和图像的视觉注意力分布图转换为黑白的模板,然后利用高斯平滑技术对模板进行滤波得到兴趣区域函数图s;
[0013] 5)对步骤2)中得到的CIE-Lab颜色空间的实时的视频和图像采用基于特征流的抽象化方法,得到初始的实时的抽象化视频和图像;
[0014] 6)以兴趣区域函数为权值,将步骤5)中得到的初始的实时的抽象化视频和图像与CIE-Lab颜色空间的实时的视频和图像进行线性插值,得到新的实时的抽象化视频和图像;
[0015] 7)将得到步骤6)中得到的新的实时的抽象化视频和图像由CIE-Lab颜色空间转换到红绿蓝颜色空间。
[0016] 本发明所述的颜色空间转换方法如下:
[0017] 1)红绿蓝颜色空间转换到CIE-Lab颜色空间按照下面的公式进行转换:
[0018]
[0019] 2)CIE-Lab颜色空间转换到红绿蓝颜色空间按照下面的公式进行转换:
[0020]
[0021] 式中R,G,B分别表示红绿蓝颜色值。L是亮度通道值,a和b是两个彩色通道值。在CIE-Lab颜色空间对图像进行处理的特点就是对L的处理只会改变象素的明暗,不会影响到象素的彩色效果。而且,两种颜色空间的相互转换是可逆的。
[0022] 本发明所述的对实时的视频和图像采用视觉感知模型,得到实时的视频和图像的视觉注意力分布图的方法如下:
[0023] 首先构造实时的视频和图像的亮度L,颜色C,对比度O三个特征对应的亮度高斯金字塔BL、颜色高斯金字塔BC和对比度高斯金字塔BO,利用高斯滤波器得到亮度高斯金字塔BL的底层和颜色高斯金字塔BC的底层,利用Gabor滤波器得到对比度高斯金字塔BO的底层,再运用图形硬件的mipmap纹理技术快速地生成高斯金字塔的上端层次。
[0024] 亮度L为颜色空间转换后CIE-Lab颜色空间中视频和图像的亮度值,颜色C为输入的实时的视频和图像的红绿蓝平均值,对比度O为Gabor滤波器计算结果。
[0025] 为了加快计算速度,高斯滤波器可以用重复的Bartlett卷积来近似。对金字塔各层进行差分计算得到亮度差分图CL、颜色差分图CC和对比度差分图CO,再对各差分图进行正则化处理得到三个特征对应的亮度特征图FL、颜色特征图FC和对比度特征图FO。为了加速正则化处理,将特征图从图形硬件读回CPU端,计算出每个图各自的最小值,最大值,及平均值,再将这些统计值当作参数送回图形硬件进行后续计算。最后加权平均并正则化得到实时的视频和图像的视觉注意力分布图。默认情况下,三个特征图的权值都是1/3。
[0026] 本发明所述的采用高斯平滑技术,将得到的实时的视频和图像的视觉注意力分布图转换为兴趣区域函数图的方法如下:
[0027] 利用阈值tm将实时的视频和图像的视觉注意力分布图转换为黑白的模板,视觉注意力分布图的计算数值大于或等于阈值tm的令其等于1,小于阈值tm的令其等于0,1即为白色,0即为黑色。模板中的白色区域表示视觉上比较吸引注意力的区域,而黑色区域表示视觉上的背景区域。tm越大,表示视觉注意力区域越小;而tm越小,表示视觉注意力区域越大。经验性地,tm位于区间[0.3,0.7]内。为了避免黑白区域之间边界上的突然变化,利用高斯平滑技术对模板进行滤波。为了加速大尺度的高斯平滑,可以运用高斯金字塔来加速。同样地,金字塔的构造充分利用了图形硬件的mipmap技术以及Bartlett卷积的近似。
[0028] 本发明所述的采用基于特征流的抽象化方法,得到初始的实时的抽象化视频和图像的方法如下:
[0029] 首先,创建一个连贯的特征流场V(x,y),初始值垂直于CIE-Lab颜色空间的实时的视频和图像的亮度图上的梯度场 。对该特征流场进行双边滤波的操作,使得该流场在特征相近区域变得平滑,而显著的边缘能保持其原有的方向。其次,根据各象素所处的特征流信息,对CIE-Lab颜色空间的实时的视频和图像进行沿流场方向和垂直于流场方向的双边滤波,同时利用基于特征流场的高斯差分算法抽取线条区域,并对抽取的线条区域和双边滤波结果进行相乘,得到初始的实时的抽象化视频和图像。
[0030] 本发明所述的以兴趣区域函数为权值,将初始的实时的抽象化视频和图像与原始的实时的视频和图像进行线性插值,得到新的实时的抽象化视频和图像的方法如下:
[0031] 整张初始的实时的抽象化视频和图像都是均匀抽象化的。为了更好地传递可视信息,视觉上感兴趣区域的抽象化程度应该比背景区域的抽象化程度低一些。利用线性插值公式计算出新的实时的抽象化视频和图像:
[0032] La=s·La′+(1-s)·L
[0033] 式中s表示兴趣区域函数,La′表示初始的实时的抽象化视频和图像,L是原始的实时的视频和图像,La为得到新的实时的抽象化视频和图像。
[0034] 本发明针对现有的实时视频抽象化方法存在的均匀抽象化(视觉上感兴趣区域的抽象化程度同背景区域的抽象化程度是相同的)的缺点,采用了一种基于视觉注意力的非均匀抽象化的技术方案处理实时的视频和图像,更好地传递可视信息,有效地解决了上述问题。本发明算法明确,界面友好,结果鲁棒,且该方法可以用于视频、图像中的实时抽象化设计。

附图说明

[0035] 图1是本发明方法的技术方案流程图;
[0036] 图2是视觉注意力分布图及兴趣区域函数图的生成过程图。

具体实施方式

[0037] 下面结合附图对本发明一种基于视觉注意力的实时的视频和图像抽象化方法通过实施例进行详细说明,本发明可以在家用电脑的图形卡硬件中并行处理。
[0038] 如图1所示,一种基于视觉注意力的实时的视频和图像抽象化方法,包括输入待处理的实时的视频和图像,将实时的视频和图像的红绿蓝颜色空间转换到CIE-Lab颜色空间,生成视觉注意力分布图,导出兴趣区域函数图,采用基于特征流场的抽象化方法得到初始的实时的抽象化视频和图像,采用线性插值技术得到新的实时的抽象化视频和图像,将实时的视频和图像由CIE-Lab颜色空间重新转换回红绿蓝颜色空间七个步骤。
[0039] 现具体介绍本方法的七个步骤:
[0040] 1)输入待处理的实时的视频和图像,该实时的视频和图像是红绿蓝颜色空间的;
[0041] 2)将步骤1)中的实时的视频和图像由红绿蓝颜色空间转换到CIE-Lab颜色空间,得到CIE-Lab颜色空间的实时的视频和图像,使实时的视频和图像的亮度通道和彩色通道相分离;
[0042] 对于实时的视频和图像,将待处理实时的视频和图像序列中的每一帧图像的每个象素原红绿蓝颜色空间转换到CIE-Lab颜色空间,使实时的视频和图像的亮度通道和彩色通道相分离。红绿蓝颜色空间转换到CIE-Lab颜色空间按照下面的公式进行转换:
[0043]
[0044] 式中R,G,B分别表示红绿蓝颜色值,L是亮度通道值,a和b是两个彩色通道值。在CIE-Lab颜色空间对图像进行处理的特点就是对L的处理只会改变象素的明暗,不会影响到象素的彩色效果。而且,两种颜色空间的相互转换是可逆的。
[0045] 3)如图2所示,对输入的红绿蓝颜色空间的实时的视频和图像采用视觉感知模型,得到实时的视频和图像的视觉注意力分布图;
[0046] 首先构造实时的视频和图像的亮度L,颜色C,对比度O三个特征对应的亮度高斯金字塔BL、颜色高斯金字塔BC和对比度高斯金字塔BO,利用高斯滤波器对亮度特征进行滤波得到亮度高斯金字塔BL的底层,利用Gabor滤波器对对比度特征进行滤波得到对比度高斯金字塔BO的底层,用高斯滤波器对颜色特征进行滤波得到亮度高斯金字塔BC的底层,再运用图形硬件的mipmap纹理技术快速地生成高斯金字塔的上端层次。
[0047] 亮度L为颜色空间转换后CIE-Lab颜色空间中视频和图像的亮度值,颜色C为输入的实时的视频和图像的红绿蓝平均值,对比度O为Gabor滤波器计算结果。
[0048] 为了加快计算速度,高斯滤波器可以用重复的Bartlett卷积来近似。Bartlett卷积如下式表示:
[0049]
[0050] 利用图形硬件的双线性插值特性,该卷积只需要两次纹理查找即可完成。对得到的金字塔各层进行差分计算得到亮度差分图CL、颜色差分图CC和对比度差分图CO,各层仅需要一次双线性纹理查找。再对各差分图进行正则化处理,就是将所得的结果缩放到区间[0,1]之间,得到三个特征对应的亮度特征图FL、颜色特征图FC和对比度特征图FO。为了加速正则化处理,将特征图从图形硬件读回CPU端,,计算出每个图各自的最小值,最大值,及平均值,再将这些统计值当作参数送回图形硬件进行后续计算。先将差分图进行线性缩放2
到[0,1]区间之间,再乘以(1-m),式中,m表示特征图的平均值。最后加权平均并正则化得到实时的视频和图像的视觉注意力分布图。默认情况下,三个特征图的权值都是1/3。
[0051] 4)如图2所示,采用高斯平滑技术,将得到的实时的视频和图像的视觉注意力分布图转换为兴趣区域函数图;
[0052] 利用阈值tm将实时的视频和图像的视觉注意力分布图转换为的黑白模板,视觉注意力分布图的计算数值大于或等于阈值tm的令其等于1,小于阈值tm的令其等于0,1即为白色,0即为黑色。黑白模板中的白色区域表示视觉上比较吸引注意力的区域,而黑色区域表示视觉上的背景区域。tm越大,表示视觉注意力区域越小;而tm越小,表示视觉注意力区域越大。经验性地,tm位于区间[0.3,0.7]内。
[0053] 为了避免黑白区域之间边界上的突然变化,利用高斯平滑技术对黑白模板进行滤波得到实时的视频和图像的兴趣区域函数图s。
[0054]
[0055]
[0056] 式中(x0,y0)表示图像中的位置,H和W分别为平滑窗口的垂直及水平方向宽度,f为黑白模板的值。
[0057] 为了加速大尺度的高斯平滑,可以运用高斯金字塔来加速。同样地,金字塔的构造充分利用了图形硬件的mipmap技术以及Bartlett卷积的近似。
[0058] 5)对CIE-Lab颜色空间的实时的视频和图像采用基于特征流的抽象化方法,得到初始的实时的抽象化视频和图像。
[0059] 首先,创建一个连贯的特征流场V(x,y),初始值垂直于CIE-Lab颜色空间的实时的视频和图像的亮度图上的梯度场 该梯度场用Sobel算子得出。对该特征流场进行双边滤波的操作,使得该流场在特征相近区域变得平滑,而显著的边缘能保持其原有的方向。其次,根据各象素所处的特征流信息,对图像进行沿流场方向和垂直于流场方向进行双边滤波,同时利用基于特征流场的高斯差分算法抽取线条区域,得到初始的实时的抽象化视频和图像。
[0060] 特征流场双边滤波操作定义为:
[0061]
[0062]
[0063] 式中,Ωh(X)和Ωv(X)分别表示象素X在特征流场水平方向及竖直方向上的邻域,领域分别为平滑窗口的垂直及水平方向宽度,kh和kv为相应的归一化项,Vcur为初始特征流向量值。
[0064] 强度权因子函数wm定义为:
[0065]
[0066] 式中 表示梯度的强度值。当一个邻居象素的梯度强度比较高时,它对应的强度权因子函数值就比较大,反之亦然。参数η用来控制双曲正切函数的下降率,一般设定为1。
[0067] 方向权因子函数wd定义为:
[0068] wd(X,Y)=dot_product(V(X),V(Y))
[0069] V(X)表示之前计算得出的X象素的特征流向量。
[0070] 基于流的双边滤波公式如下:
[0071]
[0072]
[0073] 式中,B为双边滤波结果,L为输入亮度值,H表示平行于V(X)方向的宽度,W表示垂直于V方向的宽度。
[0074] 6)以兴趣区域函数为权值,将初始的实时的抽象化视频和图像与原始的实时的视频和图像进行线性插值,得到新的实时的抽象化视频和图像;
[0075] 整张初始的实时的抽象化视频和图像都是均匀抽象化的。为了更好地传递可视信息,视觉上感兴趣区域的抽象化程度应该比背景区域的抽象化程度低一些。利用线性插值公式计算出新的实时的抽象化视频和图像:
[0076] La=s·La′+(1-s)·L
[0077] 式中s表示兴趣区域函数,La′表示初始的实时的抽象化视频和图像,L是原始的实时的视频和图像,La为得到新的实时的抽象化视频和图像。
[0078] 7)将得到新的实时的抽象化视频和图像由CIE-Lab颜色空间转换到红绿蓝颜色空间。
[0079] CIE-Lab颜色空间转换到红绿蓝颜色空间按照下面的公式进行转换:
[0080]
[0081] 式中R,G,B分别表示图像中每个像素的红绿蓝颜色值,L表示图像中每个像素的亮度通道值,a和b是两个彩色通道值。在CIE-Lab颜色空间对图像进行处理的特点就是对L的处理只会改变象素的明暗,不会影响到象素的彩色效果。而且,两种颜色空间的相互转换是可逆的。