对背景区域和前景区域进行建模的方法转让专利

申请号 : CN200580004903.6

文献号 : CN1918604B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 法蒂·M.·波利克力

申请人 : 三菱电机株式会社

摘要 :

由动态场景获得图像的时间序列。使用滤波器确定空间梯度。通过利用滤波器的输出的稀疏,产生本征背景图像作为中值滤波后的梯度。随后本征背景图像被分成图像的原始序列,以产生本征前景图像。可由阈值限制本征前景图像以获得检测掩蔽。

权利要求 :

1.一种用于根据场景的输入图像序列来对所述场景的背景区域和前景区域进行建模的方法,包括:将每个输入图像转换为对数图像;

将滤波器Sn应用于每个对数图像;

从滤波后的对数图像的时间窗来确定中值图像;

r

先经过Sn的反向滤波器Sn,再经过滤波器G,而对中值图像进行反向滤波,其中G=r -1(Sn.Sn) ;

从当前对数图像中减去反向滤波后的中值图像,以获得对数前景图像;

向对数前景图像应用反对数,以获得本征前景图像;以及对反向滤波后的中值图像应用反对数,以获得本征背景图像。

2.如权利要求1所述的方法,还包括:在处理每个输入图像时,更新本征背景图像。

3.如权利要求1所述的方法,其中,输入图像的采样周期随时间而变化。

4.如权利要求1所述的方法,其中,输入图像的采样周期根据场景中的运动对象而变化。

5.如权利要求1所述的方法,其中,所述滤波器Sn是空间导数滤波器。

6.如权利要求1所述的方法,其中,所述滤波器Sn是线检测器。

7.如权利要求1所述的方法,还包括:检测本征前景图像中的运动对象;以及产生运动对象的掩蔽图像。

8.如权利要求7所述的方法,其中,掩蔽图像是基于本征背景图像和本征前景图像之间的差值的强度统计的。

9.如权利要求1所述的方法,还包括:使用线检测器从本征背景图像中检测线和轮廓。

说明书 :

对背景区域和前景区域进行建模的方法

技术领域

[0001] 本发明一般涉及图像处理,更具体地说,本发明涉及在图像序列中检测前景。 背景技术
[0002] 在例如监视、跟踪和识别应用的许多计算机视觉应用中,必要的第一步是检测场景中的前景对象。典型地,通过如图1A所示的背景相减方法100来完成这一步骤。在120中处理由场景获得的输入图像序列110,以产生背景图像130。随后在140中从图像110中减去背景图像,以产生前景图像150。
[0003] 现有技术的前景检测方法或者关于场景的组成作出严格的假设,或者不能够处理突发的照明改变,或者在计算上复杂且耗费时间。
[0004] 一般可将现有技术的前景检测方法分类为单层和多层。单层方法开发出一种基于过去观测结果的单动态模型。
[0005] 构建单层背景图像的最简单的方法是测量像素强度的均值或方差。可在每个(RGB)通道的基础上测量所述强度,以表征彩色变化。随后,可将所述强度用作阈值,以检测前景区域。然而,这样的进行平均的操作通常产生“重影”区域,所述重影区域既不是真实背景,也不是真实前景。
[0006] 一种方法用高斯函数和alpha混合来对背景像素的统计分布进行建模,参见C.R.Wren,A.Azarbayejani,T.J.Darrell和A.P.Pentland“Pfinder:Real-time tracking of the human body”,PAMI,19(7),pp.780-785,1997年7月。使用预置的混合权重α以如下的方式根据当前图像It来更新背景图像Bt:
[0007] Bt=(1-α)Bt-1+αIt.
[0008] 混合权重α调整背景应该以多快的速度来与当前图像进行混合。这种进行平均的方法对混合权重的选择非常敏感。取决于α的值,会将前景图像包含在背景图像中,或者不适应照明改变。
[0009] 可选择的“投票”方法基于出现的频率来选择强度值。这种“投票”方法比进行平均的方法更具优点。它不会模糊背景并且允许突然的照明改变。投票方法的主要缺点是它在计算上的复杂性。可应用量化以减少候选值的数量和操作的数量。然而,量化降低了将前景从背景分离的能力。
[0010] 卡尔 曼(Kalman)滤 波器 可用 于 背景 检测,参见 K.Karmann,A.Brand,“Time-varing image processing and moving objectrecognition”.Elsevier Science Publish.,1990,C.Ridder,O.Munkelt和H.Kirchner,“Adaptive background estimation and foregrounddetection using Kalman filtering,”Proc.ICAM,1995,以及K.Toyama,J.Krumm,B.Brumitt,B.Meyers,“Wallflower:Principles andPractice of Background Maintenance,”Proc.of Int’l Conf.onComputer Vision,pp.255-261,1999.由J.Zhong和S.Sclaroff在“Segmenting foreground objects from a dynamic,texturedbackground via a robust Kalman filter,”Proc.of IEEE Int’l Conf.onComputer Vision,pp.44-50,2003中描述了直接操作于数据子空间上的卡尔曼滤波器的形式。
[0011] 一种类似的自回归模型获得动态场景的属性,参见A.Monnet,A.Mittal,N.Paragios 和 V.Ramesh,“Background modeling andsubtraction of dynamic scenes,”Proc.of IEEE Int’l Conf.on ComputerVision,pp.1305-1312,2003。 [0012] 所述卡尔曼滤波器为离散时间过程的状态提供最佳估计,例如背景的强度,所述离散时间过程遵守线性随机差分方程。可在每个时间步进改变卡尔曼滤波器的各种参数,诸如转移矩阵、过程噪声协方差和测量噪声协方差。通过使用更大的协方差值,背景更加快速地适应照明改变。然而,所述滤波器变得对场景中的噪声和对象更加敏感。 卡尔曼滤波器的另一缺点是它区分多峰(multimodal)分布的能力,所述多峰分布即运动的树叶或草、或者是水面上的波。卡尔曼滤波器在存在较大的非线性的情况下性能较差。 [0013] 另一种方法用高斯分布函数的混合来对图像中的背景进行建模,参见C.Stauffer和W.Grimson,“Adaptive background mixturemodels for real-time tracking,”Proco.of IEEE Int’l Conf.on ComputerVision and Pattern Recognition,1999。与明确地将所有像素的值建模为一种特定类型的分布的处理不同,由逐像素的高斯分布函数的混合来对背景进行建模以支持多峰背景。基于混合中每个高斯函数的持续性和方差来确定与背景区域对应的高斯模型。不符合背景分布的像素值被认为是前景,直到有以足够和一致的支持证据将所述像素包括在背景中的高斯模型。这一方法包括学习常数和控制应该用于背景的像素的比例的参数。高斯混合式方法是许多相关方法的基础,O.Javed,K.Shafique和M.Shah,“A hierarchical approach to robust backgroundsubtraction using color and gradient information,”MVP,pp.22-27,2002。
[0014] 所述混合式方法适用于照明改变并且不会造成重影效果。此外,所述混合式方法可处理多峰背景。然而,当场景是动态的并且表现出时间上的非静态属性时,所述方法的性能会恶化。基于混合式模型的解决方案的另一缺点是构建和更新背景模型的计算工作量。对于大量混合中的模型而言,这些方法由于变得在计算上要求过多,而无法在实践中实施。 [0015] 非参数方法使用高斯内核来对特定的像素上的密度进行建模,参见A.Elgammal,D.Harwood和L.Davis,“Non-parametric model forbackground subtraction,”Proc.of European Conf.on Computer Vision,pp.II:751767,2000。
[0016] 另一种方法在对动态特性的建模过程中结合光流,参见A.Mittal和N.Paragios,“Motion-Based background subtraction using adaptivekernel density estimation,”Proc.Int’l Conf.on Computer Vision and Pattern Recognition,2004。 [0017] 统计方法可使用彩色、全局和动态特征以增强对象检测特征,参见C.Jiang和M.O.Ward,“Shadow identification”,Proc.of IEEEInt’l Conf.on Computer Vision and Pattern Recognition,pp.606-612,1992,以 及Stauder,R.Mech和 J.Ostermann,“Detection of movingcast shadows for object segmentation”,IEEE Transactions onMultimedia,vol.1,no.1,pp.65-76,1999年3月。
[0018] 因此,需要改进现有技术的前景检测方法。
[0019] 本征图像
[0020] 对于场景的一种解释表明:每个图像都是场景的特性的乘积。那么,“本征(intrinsic)”图像是反映场景中的特征之一的图像的分解,H.G.Barrow和J.M.Tenenbaum,“Recovering intrinsic scenecharacteristics from images”,Computer Vision Systems,AcademicPress,pp.3-26,1978。
[0021] 将场景的输入图像It分解为反射图像R和照明图像Lt的处理可表示为乘积: [0022] It=R·Lt. (1)
[0023] 反射图像R包含场景的反射值,照明图像Lt包含照明强度。因为照明图像Lt代表场景中入射光的分布,而反射图像R描述场景的表面反射属性,所以这一表示对于分析和处理输入图像中获得的场景的反射和照明属性是有用处的。
[0024] 在现有技术中,本征图像处理场景的单个图像之内的空间特性,所述特性诸如是图像纹理中可见的反射和照明,本征图像自身并不处理场景中前景对象的时间演变。 [0025] 如图1B中所示,一种分解方法在照明条件中有非常大变化的情况下,通过由固定的点获得的输入图像序列101来估计产生反射图像102和照明图像103的最大可能性,参见Y.Weiss,“Deriving intrinsicimages from image sequences”,Proc.of IEEE Int’l Conf.on ComputerVision,pp.68-75,2001年7月。应注意到,在照明图像中,从右(R) 向左(L)的照明是清晰可见的。
[0026] 该方法已扩展为从图像序列中得到变化的反射图像和相应的照明图像,参见Y.Matsushita,K.Nishino,K.Ikeuchi和 S.Masao,“Illumination normalization with time-dependent intrinsic images forvideo surveillance”,Proc.of IEEE Int’l Conf.on Computer Vision andPattern Recognition,2004。Matsushita等人也描述了捕捉照明变化的照明本征空间。在该方法中,场景是静态的,唯一检测的是诸如照明条件的场景的外部因素变化。不考虑前景图像的运动。
[0027] 另一种方法从单彩色图像中恢复类似于反射图像的照明不变图像,参见G.D.Finlayson,S.D.Hordley 和 M.S.Drew,“RemovingShadows from Images,”Proc.of Eurepean Conf.on Computer VisionVol.4,pp.823-826,2002。Finlayson等人假设输入图像包含非阴影表面和投射在这些表面上的阴影。他们通过最小化彩色分布的熵来计算对数色度空间中用于“不变方向”的角度。
[0028] 另一种方法使用多个提示以从单个图像中恢复阴影图像和反射图像,参见M.Tappen,W.Freeman,E.Adelson,“Recovering Shadingand Reflectance from a single image”,NIPS,2002。Tappen等人使用彩色信息和被训练用于识别灰度级模式的分类器。将每个本征图像分类为是由阴影引起的,或是由表面反射中的改变引起的。应注意到,该方法也不考虑场景中前景对象的运动。
[0029] 另一种确定的方法使用灰度级,以及本地和静态特征,参见M.Kilger,“A shadow handler in a video-based real-time trafficmonitoring system”,Proc.of IEEE Workshop on Applications ofComputer Vision,pp.11-18,1992, 以 及 D.Koller,K.Danilidis和H.Nagel,“Model-based object tracking in monocular image sequences ofroad traffic scenes”,Int’l Journal of Computer Vision,vol.10,pp.257-281,1993。
[0030] 通常,现有技术的本征图像不考虑场景中前景对象的运动。因此,需要提供反映场景自身中的运动变化的改进的本征图像。
[0031] 此外,需要使用改进的本征图像来改善前景检测。

发明内容

[0032] 替代通过背景相减的传统前景检测方式,本发明将动态场景的图像分解为时变本征背景和前景图像。这些本征图像的乘积表征所述场景。
[0033] 由场景获得图像的时间序列。使用滤波器确定空间梯度。通过利用滤波器的输出的稀疏,本征背景图像作为中值滤波后的梯度而产生。随后本征背景图像被分成图像的原始序列,以产生本征前景图像。
[0034] 本发明还提供一种以阈值限制本征前景图像的强壮方法,以获得检测掩蔽。本发明还可检测静态和运动线。
[0035] 即使在突发和严重的照明改变情况下,本发明在计算上也是有效率且有效的。 附图说明
[0036] 图1A示出检测场景中的前景的现有技术的方法;
[0037] 图1B示出现有技术的本征图像;
[0038] 图2示出根据本发明的检测场景中的前景的方法;
[0039] 图3示出图2的方法的详细步骤;
[0040] 图4示出根据本发明的在道路场景情况下的本征图像;以及
[0041] 图5示出根据本发明的在高尔夫场景情况下的本征图像。

具体实施方式

[0042] 本征背景图像
[0043] 如图2所示,本发明提供一种检测图像中的前景区域的方法200。前景区域典型地代表场景中的运动对象。在300中处理由场景获得的输入图像序列210,以产生本征背景图像230。由所述本征背景图像在240中去除每个输入图像210,以产生本征前景图像序列250。在优选实施例中,在处理序列210中的每个当前图像时,更新本征背景图像。 [0044] 本发明以前景特征和背景特征的乘积来表征场景,即
[0045] It=B·Ft, (2)
[0046] 其中,背景图像Bt230是相对静态的,前景图像Ft250表征场景的动态特征,例如,运动对象。应该注意的是背景图像会发生变化,但是与前景图像相比,这种变化要经过长得多的时间量程。因此,根据本发明,通过在240中由本征背景图像去除输入图像来确定本征前景图像
[0047] 应注意到这种定义与现有技术形成了鲜明的对比,现有技术将背景特征和前景特征表示为加性的推断,即,It=B+Ft,并且前景图像是Ft=It-B。
[0048] 在真实世界的场景中,尽管“静态”特征的改变与动态特征相比非常慢,但是静态特征和动态特征均随时间而改变。例如,在“静态”的室外场景中,建筑物阴影的运动相对较慢,在室内场景中,当背包被放在某处而无人注意时,该背包就最终被包含在背景中。 [0049] 因此,单非时变静态图像可代表背景的想法是错误的。当非时变背景图像B(x,y)合理地描述没有运动对象的静态场景时,估计的前景图像F(x,y,t)趋向于包含相当多的纹理和阴影,特别是在全局照明变化的情况下。因此,与暗示地假设反射图像是非时变的照明图像的根据Weiss的方法不同,本发明使用时变本征图像,即,随时间而更新背景图像和前景图像两者。
[0050] 如在图3中所详细示出的,本发明由场景获得N个输入图像序列210,{It-N,...,It-1,It}。图像211是当前输入图像。获得图像的速率可取决于场景中运动对象的速度。如果将连续图像中运动对象的表面之间的重叠最小化,则对所述对象得到的统计不大可能会损害背景图像230。
[0051] 因此,图像的支持集是{It-kN,...,It-k,It},其中,k是采样周期。尽管选择较长的采样周期是合理的,但是较短的采样周期用于对象移动较快的场景。总之,采样周期k不是关键的决定。还应注意到,可以随时间,根据场景中的平均运动以变化的速度来获得图像。 [0052] 接着,在310中确定每个输入图像It210的强度值的对数(log)。由此产生了“对数”图像311-312。其中,对数图像312是针对当前输入图像211的。
[0053] 接着,将空间导数滤波器sn 320应用于对数图像it 311-312,以根据sn*it来确定T强度梯度。其中,“*”代表卷积。导数滤波器可以是s0=[1-1],s1=[1-1]。 [0054] 还可以使用形式为fline=[-1 2 -1]的线检测器(line detector)来替代使用导数滤波器。该滤波器的输出也是稀疏的。该滤波器可捕获场景中的静态和运动边缘,这对于形状析取是非常必要的。
[0055] 因为滤波器输出在空间和时间上是拉普拉斯分布并且独立的,所以滤波后的背景图像的最大似然估计 是通过下式得出的中值图像330:
[0056]
[0057] 应该注意,中值图像330是在n个先前的对数输入图像311和当前对数输入图像312的“窗口”上进行滤波的结果。通过对每个新的输入图像进行更新,本征背景图像总是正确的。这是以下情况的直接结果:当将导数滤波器320应用于自然场景的图像时,所述滤波器的输出具有稀疏的趋势。
[0058] 随后通过使用估计的滤波后的背景图像 根据下式来确定本征前景图像ftn250:
[0059]
[0060] 现在通过解答下面的线性方程系统来对中值图像330进行“反向”滤波: [0061]
[0062] 和
[0063]
[0064] 其中,snr340是sn的反向滤波器,滤波器g 350是满足下述傅立叶方程的滤波器: [0065]
[0066] 滤波器g 350独立于输入图像序列210,并且可被预先确定。
[0067] 仍旧在对数域中,随后从当前图像的对数310中减去滤波器350的输出351,所述输出为本征背景图像的对数。
[0068] 随后通过根据 在361-362中通过应用反对数而获得最终的本征前景图像250和本征背景图像230。
[0069] 还可使用掩蔽图像Mt。掩蔽图像Mt基于当前本征背景图像和前景图像之间的差值Dt(x,y)=Bt(x,y)-Ft(x,y)的强度统计来表示当前输入图像It中的前景像素。 [0070] 可通过高斯函数来逼近所述差值的分布。因此,分布的均值μt和方差σt2得以确定,并且95%的百分点被指定为阈值τ=2.5σ。通过下式得出所述掩蔽图像Mt: [0071]
[0072] 对于交通场景的输入图像序列401,图4根据本发明示出相应的本征背景图像402、本征前景图像403和掩蔽图像404。可清楚看出,掩蔽图像跟随运动的车辆。所述场景包含远处活动的灌木和云,以及车辆下弥漫的阴影。应注意到,前景图像403是精确的,并且不包含这些伪像。还可以看出在掩蔽图像404中消除了所述弥漫的阴影。
[0073] 图5示出高尔夫场景的输入图像501、相应的本征背景图像502、本征前景图像503和掩蔽图像504。在这一场景中,天空的颜色发生改变并且阴影更加突出。根据本发明的方法精确地将输入图像分解为背景图像和前景图像。
[0074] 本发明的效果
[0075] 本发明从由静止相机获得的输入图像序列中检测诸如运动对象的前景区域。与现有技术的加性的背景/前景方案相对比,本发明将序列分解为随时间变化的相乘的本征背景图像和本征前景图像的乘积。所提出的方法有一些优点。乘积比求和具有更高的增益,因此,本发明对突然的和严重的照明改变比较不敏感。本发明不是基于模型的,因此不需要模型拟合。本发明在计算上是高效的,并且可实现为实时系统。本发明不需要对参数精调谐。本发明还可估计场景的静态边缘图。最重要的是,相乘的背景/前景特征比现有技术中加性的方案产生更好的性能。
[0076] 尽管已通过优选实施例的示例描述了本发明,但是应该理解:在不脱离本发明的精神和范围的情况下,可进行各种其它的改变和修改。因此,所附权利要求的目的在于覆盖本发明的真正精神和范围内的所有这样的改变和修改。