会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 图形技术 / / 识别视频帧中的乱真区

识别视频帧中的乱真区

阅读:32发布:2021-03-03

IPRDB可以提供识别视频帧中的乱真区专利检索,专利查询,专利分析的服务。并且本发明涉及识别视频帧中的乱真区。在数字视频监视系统中,采用多个处理阶段在视频序列中识别表示移动对象的前景区。还设置了对象跟踪阶段5,以识别当前帧中的候选对象与已经在一个或更多个之前帧中标识别出的候选对象之间的对应。这样,就可以计算出由该前景对象或每个前景对象采取的路径,并且可以将该路径信息记录在轨迹数据库中。为了提高跟踪性能,对象跟踪阶段5采用确定是否要跟踪特定对象的状态转变对象管理方案。作为对象管理方案的一部分,从系统中删除基于乱真对象的运动特征而识别出的乱真对象。这确保了有价值的处理资源不被浪费在跟踪可能表现为例如噪声或随机运动的不希望的赝像上。,下面是识别视频帧中的乱真区专利的具体信息内容。

1.一种对出现在视频序列中的对象进行选择性跟踪的方法,该视频序列包括多个帧,每个帧都包括多个像素,所述方法包括以下步骤:(i)对所述视频序列的第一帧和第二帧进行比较,以识别所述第一帧和所述第二帧内的表示进行帧间运动的对象的像素的区域;

(ii)确定所述区域是否出现在预定数量的后续帧中,如果是,则为所述区域分配一表示其位置在所述预定数量的后续帧上的改变的运动参数;

(iii)将所述运动参数与一阈值进行比较,以确定是否要跟踪所述区域;以及(iv)如果要跟踪所述区域,则针对识别出所述区域的后续帧,记录所述区域的帧内位置,其中,为所述区域分配第一运动参数和第二运动参数,所述第一运动参数表示参考点在所述区域上的位置方差,而所述第二运动参数表示所述区域的帧移动速度,如果所述第一运动参数大于预定的第一阈值并且所述第二运动参数大于预定的第二阈值,则跟踪所述区域。

2.根据权利要求1所述的方法,其中,所述步骤(ii)中的所述预定数量的后续帧是连续帧。

3.根据权利要求1或2所述的方法,其中,如果要跟踪所述区域,则该方法还包括以下步骤:修改所述步骤(iv)中的所述后续帧的外观,以提供所述区域在被跟踪的视觉指示。

4.根据权利要求1或2所述的方法,其中,所述第二阈值大于所述第一阈值。

5.根据权利要求1或2所述的方法,其中,所述参考点是所述区域中的近似中心。

6.一种对出现在视频序列中的对象进行跟踪的方法,该视频序列包括多个帧,每个帧都包括多个像素,所述方法包括以下步骤:(i)对所述视频序列的第一帧和第二帧进行比较,以识别所述第一帧和所述第二帧中的表示进行帧间运动的对象的像素的区域;

(ii)基于所述区域在所述多个视频帧上的运动特征,向其分配一运动参数ζm;以及(iii)针对所述视频序列的识别出所述区域的后续帧,只有当所述区域的运动参数小于一预定阈值Tζ时才记录所述区域的帧位置,其中,所述运动因子ζm被定义为:

其中, 和 分别是x方向和y方向上的位置方差, 和 分别是x方向和y方向上的速度方差,而τ是一预定常量。

7.根据权利要求6所述的方法,其中,在步骤(iii)之前,将表示所述区域的位置的数据存储在对象队列中,并且其中,在所述运动参数ζm大于所述预定阈值Tζ的情况下,擦除所述数据。

8.一种视频处理系统,该视频处理系统用于对出现在视频序列中的对象进行选择性跟踪,该视频序列包括多个帧,每个帧都包括多个像素,所述视频处理系统被设置用于:(i)对所述视频序列的第一帧和第二帧进行比较,以识别所述第一帧和所述第二帧中的表示进行帧间运动的对象的像素的区域;

(ii)确定所述区域是否出现在预定数量的后续帧中,如果是,则为所述区域分配一表示其位置在所述预定数量的后续帧上的改变的运动参数;

(iii)将所述运动参数与一阈值进行比较,以确定是否要跟踪所述区域;以及(iv)如果要跟踪所述区域,则针对识别出所述区域的后续帧,记录所述区域的帧位置,其中,为所述区域分配第一运动参数和第二运动参数,所述第一运动参数表示参考点在所述区域上的位置方差,而所述第二运动参数表示所述区域的帧移动速度,如果所述第一运动参数大于预定的第一阈值并且所述第二运动参数大于预定的第二阈值,则跟踪所述区域。

9.一种视频监视系统,该视频监视系统包括根据权利要求8所述的视频处理系统。

说明书全文

识别视频帧中的乱真区

技术领域

[0001] 本发明涉及用于对视频帧、特别是包括视频序列的一部分的视频帧中的乱真区(spurious region)进行识别的方法和系统。

背景技术

[0002] 数字视频处理的应用范围很广。 例如,现代视频监视系统采用数字处理技术在视频中提供与移动对象有关的信息。 这种系统典型地包括直接或经由网络链路连接至计算机系统的视频摄像机。 计算机系统运行被设置用于处理并分析从摄像机提供的视频数据的软件。
[0003] 图1是示出这种监视系统的软件级阶段的框图。 在第一阶段1中,从视频数据的初始段获知背景模型。该背景模型通常包括表示相对静态背景内容的统计信息。 在这方面,应当明白,与前景中的对象相比,背景场景会保持相对静止。 在第二阶段3中,对每个输入视频帧进行前景提取和背景适应。 将当前帧和背景模型进行比较,来估计当前帧的哪些像素表示前景区,而哪些像素表示背景区。 还对背景模型中的微小变化进行更新。 在第三阶段5中,从帧到帧跟踪前景区,并且在当前帧的前景区与之前帧中被跟踪的前景区之间建立对应。 同时,更新轨迹数据库,以使每个前景区的跟踪历史都可用于高级应用7,高级应用7例如可以对一个或更多个跟踪对象进行行为分析。
[0004] 处理了每个视频帧之后,对背景模型进行有效性验证9,以确定它是否仍旧有效。 所采集的场景的显著或突然变化可能需要返回第一阶段1进行新背景模型的初始化。
[0005] 美国专利申请公报No.2003/0053659A1中公开了一种已知的智能视频系统。Stauffer 和 Grimson 在“Learning Patterns of Activity usingReal-Time Tracking”,IEEE Transactions on Pattern Analysis and MachineIntelligence,Volume 22,No.8,August 2000中公开了一种已知的前景提取和跟踪方法。
[0006] 在前景提取阶段3中,共同的是,要将一些图像区分类为前景对象,虽然事实上并非如此。例如,如果视频场景包含重复性运动(如,树上的树叶前后摆动),则前景提取阶段3可以将移动区分类为前景,虽然事实上树叶形成了背景场景的部分。 另外,采集、编码以及解码视频数据的处理将不可避免地将噪声引入系统。 这种噪声可能会通过前景提取阶段3的固有操作而被检测为前景。 考虑这种不正确分类的图像区,并且在此称为乱真区。
[0007] 人们希望识别出视频帧中的这种乱真区。 这样,对于要在感兴趣的真实区上进行后续处理步骤的目的来说,就可以忽视这些区域。 例如,人们希望仅在真实前景区上运行对象跟踪阶段5。由于尝试跟踪表示重复运动或噪声的区域,视频处理系统将有价值的处理和存储器资源浪费在了用户不感兴趣的数据上。

发明内容

[0008] 本发明的第一方面提供了一种对出现在视频序列中的对象进行跟踪的方法,该视频序列包括多个帧,每个帧都包括多个像素,所述方法包括以下步骤:(i)对所述视频序列中的第一帧和第二帧进行比较,以识别其中的像素表示进行帧间运动的对象的区域;(ii)确定所述区域是否出现在预定数量的后续帧中,如果是,则为所述区域分配一表示其位置在所述预定数量的帧上的改变的运动参数;(iii)将所述运动参数与一阈值进行比较,以确定是否要跟踪所述区域;以及(iv)如果要跟踪所述区域,则针对识别出所述区域的后续帧,记录所述区域的帧位置。
[0009] 本发明的优选特征在附加于此的从属权利要求中限定。
[0010] 本发明的另一方面提供了一种对出现在视频序列中的对象进行跟踪的方法,该视频序列包括多个帧,每个帧都包括多个像素,所述方法包括以下步骤:(i)对所述视频序列的第一帧和第二帧进行比较,以识别其中的像素表示进行帧间运动的对象的区域;(ii)基于所述区域在所述多个视频帧上的运动特征,向其分配一运动参数ζm;以及(iii)针对所述视频序列的识别出所述区域的后续帧,只有当所述区域的运动参数小于一预定阈值Tζ时才记录所述区域的帧位置。
[0011] 本发明的另一方面提供了一种视频处理系统,该视频处理系统用于对出现在视频序列中的对象进行选择性跟踪,该视频序列包括多个帧,每个帧都包括多个像素,所述视频处理系统被设置用于:(i)对所述视频序列中的第一帧和第二帧进行比较,以识别其中的像素表示进行帧间运动的对象的区域;(ii)确定所述区域是否出现在预定数量的后续帧中,如果是,则为所述区域分配一表示其位置在所述预定数量的帧上的改变的运动参数;(iii)将所述运动参数与一阈值进行比较,以确定是否要跟踪所述区域;以及(iv)如果要跟踪所述区域,则针对识别出所述区域的后续帧,记录所述区域的帧位置。
[0012] 本发明的另一方面提供了一种对包括视频序列的一部分的视频帧中的对象进行分类的方法,该方法包括以下步骤:(a)在第一帧中识别第一对象,并将该第一对象与具有多个预定状态之一的状况参数相关联,每个状态都具有与其相关联的不同变换(transition)规则;(b)在后续帧中识别至少一个候选对象;(c)将该候选对象或每个候选对象与所述第一对象进行比较,以确定其间是否存在对应;以及(d)根据其关联转变规则对所述第一对象的状况参数进行更新,所述转变规则表示取决于是否在步骤(c)中识别出对应,应该将所述状况参数转变为所述多个预定状态中的哪一个。
[0013] 通过将对象分类为处于特定状态下,可以决定是否应当跟踪该对象。 应用与该对象相关联的预定规则,在与后续帧中的候选对象进行比较之后来确定对象的更新后状态。 更新后状态可以反映该对象为新、真实、遮蔽(occlude),或者已经从后续帧中消失,从而在接收到下一帧时可以应用适当的规则。
[0014] 所述方法还可以包括:针对所述视频序列中的多个后续帧重复步骤(b)到(d)。
[0015] 如果在步骤(c)中没有识别出对应,则与状态相关联的转变规则可以使状况参数维持其当前状态。 状况参数可以具有新状态或真实状态,在步骤(c)中识别出对应的情况下,与新状态相关联的转变规则使状况参数改变成真实状态。 所述方法还可以包括:仅当所述状况参数处于真实状态下时,才记录所述第一对象与对应候选对象之间的位置变化。
[0016] 只有当在步骤(c)中在多个后续帧中识别出对应时,才可以将所述状况参数改变成真实状态。
[0017] 只有当(i)在步骤(c)中识别出对应和(ii)对象的提取位置特征满足一组预定标准时,才可以将所述状况参数改变成真实状态。 步骤(ii)可以包括基于所述第一区在多个视频帧上的位置特征,向其分配一运动因子ζm;并且如果运动因子小于预定阈值Tζ,则将所述第一对象分类为满足所述预定标准。 运动因子ζm可以如下给出:
[0018]
[0019] 其中,σcx2和σcy2分别是所述第一对象在x方向和y方向上的位置方差,σvx2和σvy2分别是x方向和y方向的速度方差,而τ是一预定常量。
[0020] 所述方法还可以包括:连同表示所记录的所述第一对象与对应候选对象之间的位置变化的覆盖迹线一起,来显示所述后续帧中的对应候选对象。
[0021] 所述状况参数还可以具有遮蔽状态,在步骤(c)中没有识别出对应并且所述第一对象覆盖了出现在同一帧中的感兴趣的不同区域的情况下,与真实状态相关联的转变规则使所述状况参数改变成所述遮蔽状态。
[0022] 所述方法还可以包括:提供表示所述第一对象的外观特征fio的第一数据集,并且针对后续帧中的所述候选区或每个候选区提取表示该相应对象的外观特征fib的第二数据集,步骤(c)包括在代价函数Cob中对所述第一外观数据集和所述第二外观数据集或每个第二外观数据集进行组合,由此生成表示所述第一对象与所述新候选区或每个新候选区之间的对应程度的数字参数。
[0023] 代价函数可以由下面的表达式给出:
[0024]o b 2 o
[0025] 其中,fi 表示所述第一对象的外观特征,fi 表示候选区的外观特征,σi 是fi 在预定数量帧上的方差,而n是第一数据集和第二数据集中的外观特征的数量。
[0026] 所述第一对象和候选对象的外观特征可以包括与该对象和候选对象的帧位置有关的特征,以及与该对象和候选对象的形状有关的特征。 如果在步骤(c)中识别出了对b应,则可以利用与该第一对象对应的候选对象的外观特征fi 对所述第一对象的外观特征o
fi 进行更新。
[0027] 本发明的另一方面提供了一种存储在计算机可读介质上的计算机程序,该计算机程序包括一指令集,使计算机执行以下步骤,(a)在第一帧中识别第一对象,并将该第一对象与具有多个预定状态之一的状况参数相关联,每个状态都具有与其相关联的不同转变规则;(b)在后续帧中识别至少一个候选对象;(c)将该候选对象或每个候选对象与所述第一对象进行比较,以确定其间是否存在对应;以及(d)根据其关联转变规则对所述第一对象的状况参数进行更新,所述转变规则表示取决于是否在步骤(c)中识别出对应,应该将所述状况参数转变为所述多个预定状态中的哪一个。
[0028] 本发明的另一方面提供了一种视频处理装置,该视频处理装置包括:输入部,其用于接收视频序列的帧;对象队列部,其被设置用于存储表示在一个或更多个帧中识别的对象的并且与每个对象相关联的数据、表示多个预定状态之一的状况参数;视频分析装置,其被设置用于接收其中有一个或更多个候选对象的帧,并且确定该候选对象或每个候选对象是否与所述对象队列中的对象相匹配;以及状态变换控制器,其被设置用于根据与对象的状况参数的状态相对应的转变规则来更新对象队列中的每一个对象的状况参数,所述转变规则指示所述多个预定状态中的所述状况参数应当被转变成的那个预定状态。
[0029] 根据本发明的另一方面,提供了一种状态转变数据库,该状态转变数据库供视频处理系统使用,存储表示视频帧中识别的一个或更多个对象的信息,每一个对象都被分类成多个预定对象状态中的一个,所述数据库针对每一个相应对象状态定义了多个不同转变规则,所述转变规则根据所述对象是否和后续帧中出现的对象匹配而定义了两个或更多个将该对象转换成的更新状态。

附图说明

[0030] 下面参照附图,通过实施例,对本发明进行说明,其中:
[0031] 图1是示出常规智能视频系统的处理阶段的框图;
[0032] 图2是示出根据本发明一实施方式的智能视频监视系统的组件的框图;
[0033] 图3是示出图2所示监视系统的处理阶段的框图;
[0034] 图4是监视系统的前景提取阶段中使用的背景模型的表示图;
[0035] 图5是将视频帧输入至前景提取阶段的表示图;
[0036] 图6是前景提取阶段生成的前景遮罩的表示图;
[0037] 图7是示出监视系统的阴影去除阶段的功能部件的框图;
[0038] 图8a-8h是按阴影去除阶段的不同操作相态生成的遮罩图像的表示图:
[0039] 图9a-9e示意地示出了跟踪多个视频帧中出现的两个不同对象的处理;
[0040] 图10是指示有多个提取位置特征的斑点遮罩的表示图;
[0041] 图11是示出监视系统的对象跟踪阶段的处理子阶段的框图;
[0042] 图12是表示用于对象跟踪阶段中的对象队列的表;
[0043] 图13是对象跟踪阶段中的匹配价值处理子阶段的示意表示图;
[0044] 图14是示出多个对象状态和与每一个对象状态关联的转变规则的流程图;
[0045] 图15a-15c是在不同处理阶段由监视系统接收的图像,该图像可用于理解对象跟踪阶段的操作;
[0046] 图16是示出涉及高级跟踪方案的流程图:
[0047] 图17是示出可以在匹配价值处理子阶段中执行的多个附加步骤的流程图:
[0048] 图18是轨迹数据库和显示控制应用的框图;
[0049] 图19是示出跟踪和对象类别信息的后处理视频帧的表示图;
[0050] 图20a-20d示出了第一视频序列的顺序帧,这些帧可用于理解本发明;
[0051] 图21a-21d示出了第二视频序列的顺序帧,这些帧可用于理解本发明;以及[0052] 图22a-22d示出了第一视频序列的顺序帧,这些帧可用于理解本发明。

具体实施方式

[0053] 参照图2,智能视频监视系统10包括:摄像机11、个人计算机(PC)13,以及视TM频监视器15。摄像机11是web摄像机,例如,Logitec Pro4000彩色web摄像机。可以使用能够输出数字图像数据的任何类型的摄像机,例如,数字摄像放像机或具有模-数转换装置的模拟摄像机。 Web摄像机11通过网络14与PC 13进行通信,网络14可以是诸如局域网(LAN)或互联网的任何网络。 实际上,web摄像机11和PC 13经由各自的网络连接(未示出),如数字用户线路(DSL)调制解调器,连接至网络14。 另选的是,web摄像机11可以通过PC通用串行总线(USB)端口12直接连接至PC 13。 PC 13可以包括任何标准计算机。 在这种情况下,PC 13是具有1GHz处理器、512兆字节随机存取存储器(RAM),以及40吉字节硬盘驱动器的台式计算机。视频监视器15是通过标准视频连接器连接至PC 13的17″薄膜晶体管(TFT)监视器。
[0054] PC 13的硬盘驱动器上提供有视频处理软件。该软件被设置用于对从web摄像机11接收到的视频数据执行多个处理操作。 该视频数据表示所采集的视频的单独帧,每个帧都由多个像素组成。 在这个实施方式中,每个帧都具有320像素(宽度)乘以240像素(高度)的显示格式。 可以根据应用而使用另选的显示格式。 因为web摄像机11是彩色摄像机,所以每个像素都由表示像素在帧中的位置的数据,以及决定所显示颜色的三个色彩成分(即,红色成分、绿色成分,以及蓝色成分)的相应权重来表示。 如在本领域中能够理解的,给定像素的亮度Y可以近似为下式:
[0055] Y=α.R+β.G+γ.B (1)
[0056] 其中,α=0.114,β=0.587,而γ=0.299。
[0057] R、G和B分别表示红色成分、绿色成分和蓝色成分的值。 尽管已知Y的另选表达式,但本申请人已经发现上式是优选的。
[0058] 如图3所示,视频处理软件包括多个阶段。 图3与图1类似,但是增加了阴影去除阶段17和对象特征化阶段18,这两个阶段都并入在前景提取阶段3与对象跟踪阶段5之间。
[0059] 阴影去除阶段17的目的是从每个视频帧中去除阴影区和高亮区。这样,识别前景区的形状的后续处理阶段就能够以改进的可靠性来运行。包含阴影去除阶段17并不是本发明的要点,而是用于提供改进的运行。
[0060] 对象特征化阶段18的目的是针对在视频帧中识别的每个前景区提取所谓的特征集。 特征集包括多个预定特征,这多个预定特征在后续步骤中用于将当前视频帧中的对象和之前视频帧中识别的对象匹配起来。
[0061] 背景获知
[0062] 视频处理软件最初运行在背景获知阶段1。这个阶段的目的是根据视频数据的初始段来建立背景模型。这个视频段典型地包括一百个帧。 因为任何图像的背景场景都可能保持相对静止(与前景对象相比),所以这个阶段建立了其中应当看不到前景对象的背景模型。
[0063] 图4示出了背景模型19。 在这种情况下,将web摄像机11定向至停车场。 在PC 13的存储器中,背景模型19由一组存储的表示像素位置的数据,以及每个像素的红色成分、绿色成分以及蓝色成分的相应权重来表示。
[0064] 建立了背景模型19后,通过PC 13接收输入视频帧,并且通过视频处理软件处理这些视频帧。 随后的前景提取阶段3、阴影去除阶段17、对象特征化阶段18、对象跟踪阶段5以及高级应用7实时地处理这些视频帧。
[0065] 前景提取和背景适应
[0066] 前景提取和背景适应阶段3(以下称为“前景提取阶段”)对当前帧的每个像素进行分析。将每个像素与背景模型19中占据相应位置的像素进行比较,来估计当前帧的该像素是否表示前景对象或背景的一部分。 动态地更新背景模型19中的微小变化。 背景模型19中的更剧烈或突然的变化需要再获知操作,利用标号9所表示的测试来执行再获知操作。
[0067] 尽管前景提取阶段3的详细说明不是理解本发明的要点,但技术人员应当明白,存在执行前景提取3的已知方法。 或许最简单的是,将每个像素的亮度与背景模型19中占据相应位置的像素的亮度进行比较。 如果二者之间的差异大于预定阈值,则将当前像素分类为前景像素。
[0068] 一种特别有效的方法是所谓的高斯混合(MoG)方法,该方法由Stauffer & Grimson在“Learning Patterns of Activity Using Real-TimeTracking”,IEEE Transactions on Pattern Analysis and Machine Intelligence,Volume 22,No.8 August 2000,pp.747-757中进行了详细说明。 美国专利申请公报No.2003/0053658中还描述了MoG方法的实现。 本申请人的未决英国专利申请No.0425937.0中公开了建立背景模型和执行前景提取的另一种MoG方法。 该英国申请的全部内容,或其国外等同物通过引用被并入于此。 所有引用都描述了适于建立上述背景模型19的背景获知方法。
[0069] 总之,MoG方法涉及将输入视频帧的每个像素都建模为不同高斯(或正态)统计分布的混合。 这反映了同一场景点的采样有可能示出高斯噪声分布的假定。 正态分布的混合反映了可以随时间而观察一个以上处理的期望。 基于混合的每个分布的持久性(persistence)和方差,确定哪一个分布对应于当前背景。将与背景分布不相配的像素分类为前景像素,直到存在不对应并且由建立在多个帧上的一致证据支持的分布为止。
[0070] 对于此处所述实施方式的情况,前景提取阶段3优选地利用MoG方法进行操作。 然而,这绝非要点,也可以使用另选方法。
[0071] 通过参照图5将更好地理解前景提取阶段3的操作,图5示出了来自web摄像机11的输入视频帧21。 视频帧21描绘了(a)穿过停车场的人23,和(b)穿越停车场的下部的车辆25。 将视频帧21的每个像素与背景模型19中的相应像素进行比较,来确定应该将像素分类为前景像素还是分类为背景像素。 结果,前景提取阶段3生成前景遮罩。
遮罩是包括与每个像素的类别有关的信息(即,它是表示前景还是表示背景)的图像数据集。 参照图6,该图示出了前景遮罩27的视觉表示图,其中,用白色示出前景像素,而用于黑色示出背景像素。
[0072] 前景遮罩27包括第一前景区29和第二前景区31。然而,前景区29、31在其形状方面都没有被特别好地限定,而且,仅利用前景遮罩27,难以确定实际表示的是哪一个前景对象。 这是由如图5所示通过人23和车辆25投射到背景上的阴影造成的。 表示阴影的像素与背景模型19中占据相应位置的像素相比具有更暗的强度。因此,这些像素被错误地分类为前景像素。 高亮区的存在会造成类似问题。
[0073] 作为阴影和高亮的结果,随后的处理阶段中可能会出现问题。 例如,如果对象特征化阶段18从前景提取阶段3直接接收到前景遮罩27,则识别前景对象的确定特征可能会遇到困难。 对象跟踪阶段5可能在形成当前帧中的前景对象与之前帧中被跟踪的前景对象之间的对应时遇到困难。 如果视频监视系统10包括其中对象根据它们各自的遮罩轮廓与哪一个“真实世界”对象相似而进行分类的对象分类阶段,则可能出现类似问题。
[0074] 为了缓解上述问题,视频处理软件包括阴影去除阶段17。
[0075] 阴影去除
[0076] 图7示出了阴影去除阶段17的主要功能要件。 采用了两分支处理,包括弱阴影去除32和强阴影去除33。 这两个处理在前景遮罩27上并行运行,并且据此分别生成更新遮罩和部分区域遮罩。
[0077] 应当理解,并行运行不是本发明的要点。 然而,对于这个实时视频监视系统10的目的,优选为并行运行。
[0078] 弱阴影去除32的目的是仅去除存在于当前帧中的最严重的阴影。实际上,假定仅存在几个高度可辨识阴影。然而,就弱阴影去除32本身来说,因为事实上帧很可能具有多个强度变化的阴影,所以它是不够的。 结果,很可能的是,多个像素将仍旧被错误地分类为前景像素。
[0079] 与此相反,强阴影去除33的目的是充分去除存在于当前帧中的每个阴影。 结果,很可能的是,某些真实前景区将被不正确地检测为阴影区。 将阴影投影到其本身上的对象(所谓的自身阴影)特别易受影响。 例如,示出人脸的帧可能包括由鼻子投射到脸颊上的自身阴影区。强阴影去除33将去除这种区域,而不管这个区域的像素实际上形成了前景对象(即,脸)的一部分。 结果通常是其中同一对象的几部分看上去彼此分离的碎片图像,后续处理步骤会将每个碎片都解释为单独的对象。
[0080] 阴影去除阶段17使用来自弱阴影去除29和强阴影去除30的输出,来生成所谓的对象分类遮罩。 对象分类遮罩包括部分区遮罩,部分区遮罩提供了前景对象形状的改进的表示,并具有附加分类信息,以确保在恰当的情况下,将碎片对象部分识别为属于同一对象。 为此,在弱阴影去除32之后,在更新遮罩上采用连接区块分析(CCA)操作34。CCA操作34生成发送至前景对象形成阶段35的对象遮罩。 下面对CCA阶段34和前景对象形成阶段35的操作进行说明。
[0081] CCA操作34的目的是识别更新后的前景遮罩中的一簇或更多簇图像像素。一簇可以包括两个或更多个相邻或相连的像素。 此后,由软件自动建立限定围住每一簇的最小矩形区的边界。 将每个矩形区在帧上的位置添加至第一更新遮罩,以形成对象遮罩。
[0082] 为了例示上述处理,我们假定图6所示前景遮罩27是阴影去除阶段17的当前输入。图8a示出了根据弱阴影去除32所得的更新后的前景遮罩36。 如预期的那样,尽管已经去除了一些阴影,但是每个对象29′、31′的形状都保持较差的限定。图8b示出了通过CCA阶段34生成的对象遮罩37,其中,已经添加了围住相应簇29′和31′的矩形边界。
[0083] 图8c示出了强阴影去除33之后的部分区遮罩38。 应注意到,每个对象29″和31″的形状都被较好的限定。然而,强阴影去除33不可避免地造成一些前景像素被不正确地分类为背景像素,并且每个对象都碎成多个分离部分。
[0084] 在前景对象形成阶段35中,比较对象遮罩37和部分区遮罩38,以在部分区遮罩38中识别位置落入对象遮罩37的公共矩形区内的前景像素。 将落入公共矩形区的所有前景像素分类为属于同一前景对象。 将两个矩形区中的每一个都称为斑点遮罩。
[0085] 如上所述,将前景对象形成阶段35生成的输出称为对象分类遮罩39。对象分类遮罩39利用强阴影去除33提供前景对象的改进的形状表示。 通过为落入尺寸由弱阴影去除32确定的给定边界区内的每个部分分配公共标识而避免了因前景区的碎片造成的潜在问题。 图8d示出了对象分类遮罩39的包含由前景对象形成阶段35得到的两个斑点遮罩的视觉表示。
[0086] 参照图8e到8h将更好地理解CCA阶段34和对象形成阶段35的工作原理。 图8e示出了弱阴影去除32之后的前景遮罩的特写部分。 呈现了单个簇的前景像素。 图8f示出了由CCA阶段34生成的对象遮罩的特写部分。 CCA阶段34限定了正好大得足够围住每个前景像素的矩形边界。 图8g示出了强阴影去除33之后的部分区遮罩的特写部分。 除了呈现有单个簇的前景像素以外,还存在两个分离的簇。 图8h示出了前景对象形成阶段35之后的对象分类遮罩的特写部分。 将落入由CCA阶段34限定的矩形边界内的部分区遮罩中的所有前景像素都分类为表现公共前景区。
[0087] 在本申请人的未决英国专利申请No.0424030.5中公开了阴影去除阶段的包括软件级操作在内的进一步细节。 该英国申请的全部内容,或其国外等同物通过引用被并入于此。
[0088] 对象跟踪
[0089] 直到现在,对视频处理软件的说明都集中在被设置用于识别输入视频帧中的可能前景区并且被设置用于通过阴影去除阶段17减轻阴影和高亮的影响的阶段上。本部分要描述以下阶段的操作,即,对象跟踪阶段5的操作。
[0090] 来自阴影去除阶段17的输出是表示对象分类遮罩的视频数据,其本身可以包括其中每一个都表示可能(或“候选”)前景对象的形状的一个或更多个斑点遮罩。 图8d所示的对象分类遮罩39中呈现了分别表示人和车辆的形状的两个斑点遮罩29A、29B。对象跟踪阶段5被设置用于识别当前帧中的斑点遮罩与已经在一个或更多个之前帧中识别出的斑点遮罩之间的对应。 这样,就可以计算该前景对象或每个前景对象所采取的路径,并且可以将该路径信息记录在轨迹数据库中。 可以将该路径信息显示在视频监视器
15上和/或设置成可用于高级应用7,高级应用7例如被设置用于基于对象所采取的路径来进行行为分析。
[0091] 图9示出了对象跟踪的原理。 参照图9a,在第一帧中示出了第一对象130和第二对象132,每个单独对象的帧位置都是由笛卡尔坐标表示的。图9b和9c分别在视频序列的第二和第三后续帧中示出了第一对象130和第二对象132。要注意的是,对象130、132在每个帧中的位置都发生了变化,这表示对象运动。在下述的对象跟踪阶段5中,计算每个对象130、132所采取的轨迹矢量,并且显示由该轨迹矢量表示的路径。 图9d和
9e分别示出了在接收到第二和第三帧之后与每个对象130、132相关联的路径,图9e在此示出了针对所有三个帧的累积路径。 还示出了表示计算出的轨迹矢量的笛卡尔坐标。
[0092] 为了跟踪每一个斑点遮罩,首先必需在当前帧中的斑点遮罩与之前帧中已识别的斑点遮罩之间建立对应或匹配。 为清楚起见,以下将在之前帧中已识别的斑点遮罩称为“对象”。 如在下面详细说明的,为斑点遮罩和对象的每一个组合分配一匹配代价Cob,该代价表示每一对之间匹配的程度。利用基于特征的对应度量来计算匹配代价Cob。如本领域技术人员应当理解的,基于特征的对应度量涉及从每个对象中提取多个特征,并且在代价函数中利用这些特征来识别与输入斑点遮罩的匹配。 作为另一种方案,可以使用基于模板的对应度量,这种方法采用外观模板,例如,采用直方图或色块的形式,并且将输入斑点遮罩与每个模板进行比较,来寻找匹配。 随着斑点遮罩和对象的数量增加,基于模板的方法趋于耗时,因此,出于这个原因,基于特征的方法是优选的。
[0093] 基于特征的对应方法中的第一阶段是从输入帧的每个斑点遮罩中提取预定特征。 这是通过如图3所示的对象特征化阶段18来执行的。 多个特征包括与每个斑点遮罩相关联的“特征集”。 表1列出了该特征集的特征,这些特征是在大量试验之后选定的,用于识别给出在比较操作中得到的恰当结果的那些特征。 这些特征被分组成四个主要集合,即,位置、形状、颜色河速度特征。 右手列涉及在位置特征更新处理中采用的Kalman滤色器算法,下面将继续进一步说明。
[0094]
[0095] 表1.对象特征化阶段18所提取的特征集
[0096] 图10示出了斑点遮罩41的位置特征。 中心位置特征43是斑点遮罩41的质心/重心。 还示出了边界框45和对象边界椭圆47,后者在尺寸上足以围住其周圆内的所有像素。 边界框45是围住斑点遮罩41的所有前景像素的最小矩形。 特征的剩余部分无需解释。
[0097] 已经为每个斑点遮罩生成了特征集,此后通过对象跟踪阶段5来接收每个特征集。 下面参照图11来说明对象跟踪阶段5的操作。
[0098] 如图11所示,对象跟踪阶段5包括多个子阶段55、57、59、63、65。 在第一子阶段55中,针对(a)输入斑点遮罩和(b)存储在对象队列中的对象的每一个组合,计算上述匹配代价Cob。对象队列保持由与已经在之前帧(或者更正确的说,预定数量的之前帧)中识别的对象有关的数据。 参照图12,其示出了对象队列71的表示。 要注意的是,不但存储与每个对象相关联的特征集,而且还呈现多个其它参数,包括状况参数、跟踪记录参数(TR)以及丢失记录参数(LR)。
[0099] 在第二子阶段57中,识别斑点遮罩与对象之间的匹配。 在第三子阶段59中,基于前一阶段的结果来更新对象队列71。 这涉及用匹配对象所匹配的斑点遮罩的相应特征来代替它们的非位置特征。 在第三子阶段59处没有对位置特征进行更新。 在第四子阶段63中,可以利用状态转变对象管理方案来更新与对象队列71中的每个对象相关联的状况参数。状态转变对象管理方案包括基于多个特征来确定对象的状态的一套规则。对象的状况决定了是否要跟踪、删除对象,或者使其状况参数改变。 作为状态转变对象管理方案的一部分,也可以检查对象,以确定它们是否表示乱真对象,与此相反,真前景对象很可能是用户感兴趣的。 在第五子阶段65中,对象特征预测利用Kalman滤色器算法(下面要说明)来更新匹配对象的位置特征。对象队列71被反馈至第一子阶段55,并且利用针对对象队列中的每一个对象的更新后特征集,计算斑点遮罩的下一个集合的匹配代价。
[0100] 如上所述,在第五子阶段65中,Kalman滤色器算法对匹配对象在对象队列71中的位置特征进行更新。 更具体地说,该算法预测下一个帧的三个位置特征的各自值。 这反映了这样的事实,即,为了成功地将对象队列71中的对象与(由于运动)可能占据了帧中不同位置的输入斑点遮罩进行匹配,在执行第一子阶段55中的匹配代价计算之前预测并更新位置特征是有利的。 Kalman滤色器算法是在视觉处理系统中通常使用的递归算法,并且其概念本领域技术人员应当理解得很好。 而且,关于Kalman滤色器的信息公开在“An Introduction to the Kalman Filter”byGreg Welch and Gray Bishop,SIGGRAPH 2001 Course 8,ComputerGraphics,Annual Conference on Computer Graphics & InteractiveTechnicques,ACM Press,Addison-Wesley,Los Angeles,California,USA,August 2001 Course Pack 中。 这个文献目前可以在http://www.cs.unc.edu/~tracker/media/pdf/SIGGRAPH2001 CoursePark08.pdf处获得。
[0101] 参照表1中的右手列,要注意的是,中心位置特征(xco,yco)是利用第二阶o o oKalman滤色器预测的。这允许我们预测每个遮罩的速度特征(vx,vy)。速度特征(vx,o
vy)是中心位置特征的一阶导数,并且用于第四子阶段63中采用的状态转变对象管理方案中。
[0102] 在第三子阶段59中,通过用特征集的剩余非位置特征所匹配的斑点遮罩的相应特征值来替换其当前值,来更新该非位置特征。 因为Kalman滤色器处理是计算上的加强,所以它们可以节省存储器和处理能力。
[0103] 下面对每一个上述子阶段进行更详细的说明。
[0104] 在第一子阶段55中,利用下面的度量向每一个斑点遮罩分配一匹配代价函数Cob:
[0105]
[0106] 或
[0107]
[0108] 这个度量公知为Mahalanobis距离度量,并且将来自斑点遮罩特征集fib的所有特o征和存储在对象队列71中的对象特征集fi 组合成一个合宜(convenient)代价函数Cob(其中,将协方差度量假定为单位矩阵(identitymatrix))。 参数σi是通过前面的观察计算出o
的fi 的标准偏差。 优选的是,前面的观察的数量为五十个帧,尽管在初始条件下,标准偏差将明显地使用较少观察,直到已经接收到五十个帧为止。代价函数Cob的值越小,斑点遮罩与对象之间的匹配越好。
[0109] 针对(a)当前帧中的斑点遮罩和(b)存储在对象队列71中的对象的每一个组合,计算代价函数Cob。 在图13中例示了这个操作,该图示出了对象队列71和与三个斑点遮罩相关联的特征集列表72。 斑点遮罩被标注为A、B和C,而对象被标注为D、E和F。如图12所示,来自第一子阶段55的输出是可以表示为指示每一配对的结果的单元格(grid)的“对应列表”。 表2(下面)是示范性对应列表,用于涉及具有三个斑点遮罩A、B和C的输入帧和存储有三个对象D、E和F的对象队列的匹配代价计算。 单元格中示出的数字是针对每个相应配对的代价函数Cob。
[0110]
[0111] 表2.对应列表
[0112] 对代价函数Cob的值设定阈值Tc。具体地说,如果Cob大于Tc,例如,12,则不将该值输入对应列表中。大的Cob值表示特征集之间较低的对应,因此我们可以立即丢弃生成相对较大Cob值的任何配对。 这就缩减了所需的处理量。 从上述实施例可看到,针对斑点遮罩B和对象D的配对的代价函数Cob大于12,因此,没有将该值输入对应列表中。
[0113] 为了进一步缩减所需的处理量,采用了早期跳越策略,从而能够渐进地计算代价函数Cob。 当Cob值随着每一次新特征比较而增加时,将Cob与Tc进行比较。 如果Cob>Tc,则计算立即停止,并且不将当前配对输入对应列表中。
[0114] 在第二子阶段57中,利用对应列表进行最佳匹配寻找。进行全局搜索来识别具有最低代价函数Cob的配对。 在上述实施例中,斑点遮罩A和对象E的配对得到了最低代价。 这个配对被视为“匹配”,并且从对应列表中去除包含斑点遮罩A或对象E在内的任何其它配对(即,A & D、A & F、B & E以及C & E)。 重复该处理直到对应列表为空为止。 最终结果是所谓的“匹配列表”,其指示了哪个对象与每个斑点遮罩相对应。表3示出了上述实施例所得的匹配列表。
[0115]斑点遮罩 对象队列中的对象
A E
B F
C D
[0116] 表3.基于表2的对应列表的匹配列表
[0117] 在上述实施例中,每个斑点遮罩都已经和对象队列中的对象进行了匹配。 然而,存在可以通过最佳匹配寻找阶段57获得的两种其它情况。在斑点遮罩不能和对象队列中的任何对象匹配的情况下(在该情况下,对于所有对象比较来说,代价函数Cob都将大于Tc),可以假定斑点遮罩表示视频序列中的“新”对象。 如果对象队列中存在不能匹配任何斑点遮罩的对象,则可以假定该对象已经从视频序列中“消失”。 术语“新”和“消失”表示可以存储在对象队列中的状况标题下的两种类型的对象状况。 下面会变得清楚,我们可以对具有不同状况的对象采用不同的跟踪策略,以便更有效且更有效率地进行跟踪。 具体地说,我们使用对象的状况来决定是否要记录该对象的跟踪历史。
[0118] 在第三子阶段59中,更新对象队列。如前所述,这包括针对队列中已经匹配了输入斑点遮罩的那些对象更新非位置特征。
[0119] 在第四子阶段63中,对每个对象的状况都进行监测,并且在需要时进行更新。更具体地说,每个对象都被分配了一状况,取决于该状况的值来确定是否要跟踪该对象和/或是否要从对象队列中删除该对象。 分配给对象的状况是通过考虑了可能在视频序列中出现的各种情况的状态转变对象管理方案来确定的。 下面将说明两种不同状态转变对象管理方案。
[0120] 简单跟踪方案
[0121] 如果我们假定我们的视频序列包括没有彼此遮蔽(遮蔽意指从一对象的角度看另一对象的全部或部分被隐藏)的多个对象,则可以采用相对简单的跟踪方案。 这个跟踪方案由图14所示状态转变对象管理方案来表示,并且在第四子阶段63处应用于存储在对象队列71中的每个对象。
[0122] 参照图14,对象队列71中的每个对象都将占据两个主要状态(即,“新”和“真实”)中的一个。 “新”对象被定义未与输入斑点匹配预定数量帧To的对象。 一旦“新”对象与输入斑点匹配了To帧,则将其视为“真实”,并且记录其位置以进行跟踪。 另一方面,如果对象未与输入斑点匹配不同的预定数量帧TOM,则将其从对象队列80中去除。 在这个实施方式中,将To设为十帧,而将TOM设为五帧。
[0123] 对象的当前状态由对象队列71中其状况参数来限定。依次进行流程中的每一个步骤,在第一步骤75中,对象的状况决定了在这个帧段内哪一个附加步骤将被应用至对象。 如果对象当前被分类为“新”并且与输入斑点遮罩相匹配,如步骤77A中所确定的,则在步骤77B中递增TR参数。 在随后的步骤77C中,进行测试来确定TR是否大于To。 如果是,则在步骤77D中应用进一步的测试来确定对象是否为乱真对象(该测试要在下面进行说明)。 如果对象被视为乱真对象,则在步骤77E中从对象队列中删除该对象。如果对象没有被视为乱真对象,则将对象队列中的状况参数改成“真实”。 如果步骤84的结果为否,则将对象队列71中的状况参数保持为“新”。
[0124] 如果对象当前被分类为“真实”并且已经与输入斑点遮罩相匹配,则将其状况参数保持为“真实”。 如果在步骤79A中不存在匹配,则在步骤79B中递增LR参数。在随后的步骤79C中,确定LR是否大于TOM,其表示(在这种情况下)对象没有与输入斑点遮罩匹配5帧。如果是,则在步骤79D中从对象队列中删除该对象。如果否,则将对象队列中的状况参数保持为“真实”。
[0125] 跟踪对象队列71中被分类为“真实”的任何对象。 这是通过记录帧内的每个“真实”对象的坐标并且计算随着接收到越来越多的帧该对象所采取的轨迹来进行的。将这个轨迹信息存储在轨迹数据库中,该轨迹数据库使得轨迹信息可用于显示或由高级应用7进行处理。 优选的是,具有“真实”状态的对象被显示在由边界框包围的视频监视器15上。 轨迹信息用于标绘表示对象所采取的累积路径的踪迹线。 如果跟踪多个对象,则可以用不同的相应颜色来标绘踪迹线。
[0126] 乱真对象识别
[0127] 作为第四子阶段63的一部分,对对象队列中的每个“新”对象进行乱真对象识别,如图14中步骤77D所示。 具体地说,第四子阶段63分析每个对象的运动特征,以确定该对象是否表示乱真前景区。 在这一方面,前景提取阶段3的操作可以得到被分类为前景的特定图像区,即使它们不表示用户感兴趣的前景对象也是如此。 因此,值得识别出这些对象,从而不对它们进行后续处理操作。
[0128] 前景提取阶段3中可能生成乱真区的原因有多种。 存在重复运动(如树上的树叶或树枝的移动)是一个普通原因。 因为树叶相对于背景模型移动,所以表示树叶的像素可以被分类为前景像素。 可是,该区域的像素不表示真实前景,因此,这种区域通常被视为乱真区。 视频处理软件也可能将噪声引入整个系统中。噪声像素可能被前景提取阶段3解释为前景像素。 在任一情况下,都不希望浪费处理和记录乱真区的轨迹的存储器资源。 出于这个原因,采用乱真对象识别来识别并随后去除任何被视为乱真对象的对象。
[0129] 为了例示场景中噪声和/或随机运动的影响,参照图15a到15c进行说明。 图15a示出了在背景获知阶段1生成的背景模型。 该背景模型示出了不存在移动对象的停车场区。 图15b示出了存在三个前景对象的输入视频帧,三个前景对象为,穿越停车场的人、正离开停车场的车辆以及在位于该帧的左手侧的车辆附近行走的人。 图15c示出了前景提取之后的前景遮罩。表示三个上述对象的像素已经被正确地分类为前景区。 这些区域是监视目的所感兴趣的,并且这些区域的轨迹应当由对象跟踪阶段5来跟踪。 然而,存在许多其它白色区域,特别是在树到帧的右上方的区域中。 这些白色区域表示已经被分类为前景的像素,即使它们不表示任何可见的前景对象。 这些是乱真区的示例,它们的存在是由于噪声和树的随机运动。 很明显,我们不希望对这些对象进行跟踪。
[0130] 为了识别乱真区,对由对象队列80中的每个“新”对象展现的运动进行监视。应注意到,某些运动特征,在多个帧上测量时,可能指示通常会引起乱真效果的随机运动和/或噪声影响。 因此,在图14的对象管理方案的步骤85中,视频处理软件可用于检测具有这些运动特征的对象,从而可以采取恰当的动作,例如,从对象队列80中删除这些斑点遮罩。
[0131] 作为第一实施例,在多数监测应用中,展示很少或没有运动的真实前景对象会突然出现在帧中是不太可能的。 这很可能是指示由视频编解码器中的量化错误造成的乱真区。 由此,对象队列中的具有近零运动并且被分类为“新”的任何对象都被视为乱真对象。 该对象被优选地从对象队列71中去除,或者至少被防止改变成“真实”对象,即使它已经被跟踪了足够时段。
[0132] 为了测量对象所展示的运动的量,软件监测器在多个帧上监测对象的中心点b b b b(xc,yc)的位置。 该信息可以从对象队列80中的特征集信息中获得。中心点(xc,yc)
2 2
的运动还可以由中心点位置的方差(σcx,σcy)来限定,该方差是从在之前帧上获取的值导出的。 在这种情况下,将中心点位置具有近零方差的“新”对象视为乱真对象。
[0133] 作为第二实施例,因随机效应(如噪声或其它现象(例如,摆动的树叶))而生2 2
成的对象通常展示随机运动。 这种类型的运动将展示中心点位置(σcx,σcy)的大的方
2 2
差,并且展示中心点位置的速度(σvx,σvy)的甚至更大的方差。 在这种情况下,步骤
85需要同时计算中心点位置的变化(或方差)和速度在多个帧上的变化(或方差)。 如果两个值都大于各自的阈值级,则将该对象视为乱真对象并且从对象队列71中去除。
[0134] 便利的是,可以利用基于位置方差与速度方差的比率的所谓运动因子ξm来检测上述情形中的任一或两者。 为了同时考虑x和y坐标,运动因子优选地由下式给出:
[0135]
[0136] 其中,σcx2和σcy2分别是x方向和y方向上的位置变化,σvx2和σvy2分别是x方向和y方向上的速度方差,而τ是一预定常量,其防止运动因子在对象保持整体静止(由此使分母为零)的情况下发生突变。 在本实施方式中,将值0.1用于τ。
[0137] 优选的是,在预定数量的之前采集的帧上相对于对象的位置和速度,在逐帧的基础上计算对象的位置方差值和速度方差值。帧的数量可以根据帧采集速率而改变。 对于每秒25帧的采集速率来说,5到10帧之间的窗口是合适的。例如,如果我们使用5帧窗口,则我们通过用对象的当前位置减去之前5个帧(t-1、t-2、t-3、t-4、t-5)上其平均位置来计算该对象在当前帧t中的中心点位置的方差。同样,我们通过用最近记录的速度减去之前5个帧上的平均速度来计算速度方差。 在这一方面,应当理解的是,速度表示位置在各个帧之间的变化。当接收到下一帧t+1时,计算对象的相对于包括帧t、t-1、t-2、t-3和t-4的更新后窗口的位置方差和速度方差。
[0138] 将运动因子与预定阈值Tζ进行比较,以确定对象的移动是否规则,从而:
[0139] 如果ζm>Tζ,则运动是规则的——不是乱真对象
[0140] 否则,运动是不规则的——是乱真对象
[0141] 在这个实施方式中,将Tζ的值设为2.5。找到这个值,以保持针对每秒25帧的视频采集速率(包括监测普通人和车辆运动)的真实。 对于包含相对恒定运动的慢运动情况来说,可以将Tζ的值设得更高,以去除更多噪声。对于带有突然运动变化的快运动情况来说,应当将Tζ的值设得稍微低于2.5,以容忍大的速度变化。 实际上,设置了两个值范围,第一个较低范围表示不规则的对象运动,而较高范围表示与真实前景对象相关联的规则运动。
[0142] 总起来说,该子阶段被设置用于识别当前帧与之前帧之间的运动表示乱真效果(如噪声或随机运动)的前景对象。将该运动与在预定数量的之前帧上记录的位置特征的滑动窗口进行比较,以确定x方向和y方向上的当前位置方差和速度方差(如果超出预定限制,则表示存在可以从随后的跟踪阶段中忽视的不希望的对象)。如果需要,所述系统可以通过显示来自背景模型的像素而不是表示乱真对象的那些像素,来抑制所检测到的乱真对象的显示。
[0143] 高级跟踪方案
[0144] 在简单跟踪方案中,假定出现在帧序列中的对象没有被其它对象遮蔽,或者临时地从视野中消失。因此,图14的状态转变管理方案仅需要两个主要状态,即,“新”状态和“真实”状态,以便决定是否要跟踪对象或从对象队列中删除。 然而,在多数实际监视情形中,对象可以在任何位置或任何时间出现在场景中或者从场景中消失。 对象在重新出现在别的地方之前可能仅消失几帧。 多个对象可以移过场景,彼此遮蔽,然后在某时分离。因此,在第四子阶段63中提供了一种利用复杂状态转变管理方案的高级跟踪方案。 图16中示出了该状态转变管理方案。
[0145] 参照图16,应当看到,对象队列中的每个对象都将占据六个主要状态,即,“新”100、“成熟”101、“暂时不可用”102、“遮蔽”103、“消失”104以及“重新出现”105中的一个。 针对每个输入帧,对象队列中的对象可以保持它们的状况、改变它们的状况,或者从对象队列中被删除。与图14的管理方案相同,每个状态都采用不同的跟踪策略,以确定是否应当跟踪(即,记录并显示其运动轨迹)、删除占据该状态的对象,以及/或使其状况改变,以反映在接收到新的帧时该对象的行为。
[0146] 下面依次对该管理方案的各个状态进行说明。
[0147] 新100对象刚刚或不久之前出现在场景中。 该对象可能是乱真对象,例如,因随机噪声造成的乱真对象,因此,必需在可能将该对象接受为真实前景对象之前累积该对象的置信度(confidence)。 这种累积是以与图13中描绘的简单管理方案类似的方式,即,通过在步骤100a中执行匹配操作并且在与输入斑点遮罩相匹配的情况下递增跟踪记录(TR)来执行的。 在步骤100c中,如果对象匹配了预定数量的连续帧To,例如,10帧,则进入其中执行上述乱真识别测试的步骤100d。如果在步骤100a中没有形成匹配,或者在步骤100d中对象被视为乱真对象,则将该对象从对象队列80中去除。 如果在步骤100d中该对象没有被视为乱真对象,则更新该对象的特征集,使其状况为“成熟”。
[0148] 成熟101对象已被接受为真实前景对象。 在这种情况下,视频处理软件在视频监视器上显示环绕该对象的边界框。 另外,随着接收到其他帧而跟踪对象的运动,并且存储轨迹信息,将其显示在视频监视器15上。假如在步骤101a中该对象继续与输入斑点遮罩相匹配,则其状况保持“成熟”。然而,如果没有形成匹配,则在步骤101b中进行测试,以确定该对象是否与对象队列80中的另一对象交叠。如果两个对象的边界框之间交叠,则这种情况就会出现。 如果是这种情况,则更新该对象,使其状况为“遮蔽”。如果不存在交叠,则在步骤101c中将丢失记录(LR)参数设为“1”,并将对象状况更新成“暂时不可用”。
[0149] 暂时不对象出于多种原因而可能暂时不可用。 对象可能被噪声破坏、
[0150] 可用102在另一对象后面消失,或者简单地退出场景。 如果在步骤102a中对象再一次与输入斑点遮罩匹配,则对象重新进入场景,因此其状况返回至“成熟”。 如果不存在匹配,则在步骤102b中重复步骤101b的交叠测试,以针对遮蔽进行测试。 如果为否,则在步骤102c中递增LR,并在步骤102d中与阈值Tol进行比较。 Tol是在将对象视为丢失之前可能错过成熟对象的帧的数量。 因此,如果LR大于Tol,则将对象的状况改变成“消失”。 如果LR小于Tol,则将该状况保持为“暂时不可用”。 在这种情况下,仍旧跟踪对象,以使其轨迹信息被存储并且被显示。
[0151] 遮蔽103在这种情况下,对象与对象队列中的其它对象交叠。 例如,如果对象表示讨论中涉及的两个或更多个人或者他们中的一个站在另一个后面,则这种情况可能出现。 在这种情况下,可能无法提取并更新单独的特征描述。 然而,遮蔽了感兴趣对象的对象边界框特征提供了对于其位置的某些约束。 如果在步骤103a中,对象与输入斑点遮罩相匹配,则该对象的状况再一次成为表示该对象已经与遮蔽对象分离开的“成熟”。如果不存在匹配,则步骤103b确定交叠是否仍然存在,在该情况下,保持对象的“遮蔽”状况。 如果不存在交叠,则在步骤103c中将LR设为1,并将状况改变成“消失”。 在“成熟”和“暂时不可用”状态的情况下,仍然跟踪该对象,以使其跟踪信息被存储并被显示。
[0152] 消失104如果对象的状况达到“消失”,则这将反映该对象已完全离开场景,或者变得隐藏在背景对象后面,例如,走到树后或穿过建筑物的门。 如果在步骤104a中,对象再一次与输入斑点遮罩相匹配,则在步骤104e中将TR设为1,并将状况更新成“重新出现”。 然而,这必须出现在由阈值TOM设定的确定数量的帧之内。 如果在步骤104a中没有形成匹配,则在步骤104b中递增LR,并在步骤104c中与TOM进行比较。 如果LR大于TOM,则在步骤104d中从对象队列中删除该对象。 否则,将该对象的状况保持为“消失”。 在这种情况下,不对该对象进行跟踪。
[0153] 重新出现在这种情况下,之前被分类为“消失”的对象在相对短的时105间内重新出现在场景中。 如果例如已经进入建筑物门的对象稍后从门中再度出现,就会出现这种情况。希望在将该对象的状况返回至“成熟”之前,累积其置信度。 因此,除非在步骤105a中,重新出现的对象与输入斑点遮罩相匹配,否则在步骤105e中该对象将被从对象队列中删除。 如果出现了匹配,则在步骤105b中递增TR,并在步骤105c中与另一参数Tor进行比较。除非该对象建立了足够的置信度使TR超过Tor,否则其状况保持“重新出现”。如果TR超过Tor,则进入其中执行上述乱真识别测试的步骤105d。如果该对象被视为乱真对象,则从对象队列80中删除该对象。如果该对象没有被视为乱真对象,则将该对象的状况更新为“成熟”。 在“消失”状态下,不对该对象进行跟踪。
[0154] 高级跟踪方案的额外匹配代价
[0155] 直到现在,对象跟踪阶段5的第一子阶段55都采用了如式(2)定义的单一匹配代价Cob,其生成了用于在最佳匹配寻找子阶段57中进行分析的单一对应列表。 该匹配代价Cob在简单和高级跟踪方案下都起到了充分的作用。 然而,给定在高级跟踪方案提供的额外状态,当它们具有特定状况时,提供考虑了对象特征的多个匹配代价是有利的。 因此,在另选实施方式中,提供了三个匹配代价,即,(i)Cob,其与式(2)相同,o(ii)Cno-numpels,其与式(2)相同,但是没有考虑特征集的np 特征,以及(iii)Cno-vel,其与式o o
(2)相同,但是没有考虑特征集的速度特征(vx,vy)。
[0156] 基于下列规则生成了四个对应列表,而不是由第一子阶段55生成一个对应列表:
[0157] Lold-包含所有斑点遮罩-对象对的对应列表,其中,Cob<Tc且状况≠“新”;
[0158] Lnew-包含所有斑点遮罩-对象对的对应列表,其中,Cob<Tc且状况=“新”;
[0159] Lno-numpels-包含所有斑点遮罩-对象对的对应列表,其中,Cno-numpels<Tc且状况为“成熟”、“暂时不可用”或“遮蔽”;以及
[0160] Lno-vel-包含所有斑点遮罩-对象对的对应列表,其中,Cno-vel<Tc并且状况为“成熟”、“暂时无用”或“遮蔽”。
[0161] 其中,Tc优选地具有和以前相同的值,即12。
[0162] 在第一子阶段57中,按照Lold、Lnew、Lno-numpels和Lno-vel的顺序对每个对应列表依次进行全局搜索。 这种依次确保了在对“新”对象进行处理之前处理置信度更高的“成熟”对象。
[0163] Lno-numpels列表包括代价函数值,其由于Cno-numpels不包括与npo特征有关的信息而不受斑点遮罩像素的数量上的突变的显著影响。 在这一方面,背景相减误差,或局部遮o蔽情形可能造成np 值的突变,这种突变进而可能阻止有效匹配的形成。如果车辆部分地驶出场景接着马上返回,则这种情形就会出现。
[0164] 使用Lno-vel列表,因为在“遮蔽”状态下,将通过Kalman滤色处理来更新对象o o的特征。如果我们不忽略速度特征(vx,vy),则在对象与遮蔽对象分离开的情况下可以不跟踪该对象。 这是因为Kalman滤色器将基于遮蔽对象的特征来预测被遮蔽对象的速度。
[0165] 为了防止Lno-numpels和Lno-vel对应列表受乱真对象和噪声影响,我们限制针对具有“成熟”、“暂时不可用”以及“遮蔽”状况的对象来计算代价函数Cno-numpels和Cno-vel。
[0166] 额外匹配代价以及高级跟踪方案的使用,提供了有效且强壮的操作。 能够以提高的可靠性来跟踪被遮蔽或暂时消失的对象。
[0167] 图17的流程图中示出了对Lold、Lnew、Lno-numpels以及Lno-vel执行的步骤序列。 全局搜索包括:获取Lold(步骤109),识别对应列表中的最低代价函数并且将匹配的斑点遮罩一对象配对传递至匹配列表(步骤111),去除由匹配的斑点遮罩或对象得到的任何剩余代价函数(步骤113),以及确定对应列表是否为空(步骤115)。如果是,则在步骤117中获取下一个对应列表并且从步骤109起重复处理。 如果否,则利用当前对应列表重复步骤111,直到其为空为止。 当四个对应列表中的每一个都为空时,在第三子阶段59中更对象队列。
[0168] 初始条件
[0169] 以上对于对象跟踪阶段5的说明假定了在对象队列71中存在至少一个对象。 然而,当视频处理软件初次运行时,或者视频场景中不存在活动性时,对象队列71将为空。 这意味着当通过对象跟踪阶段5接收到斑点遮罩集时,将不存在与其进行比较的对象。 在这种情况下,将斑点遮罩输入对象队列71中作为“新”对象,但在第四子阶段63中不经状态转变管理方案处理。 在第五子阶段65中,Kalman滤色器算法针对每一个对象预测并更新位置特征。 当接收到下一个帧时,对象跟踪阶段5如前所述进行操作,对象队列71现在包括要与输入斑点遮罩进行比较的一个或更多个对象。
[0170] 轨迹信息
[0171] 对于那些被分类为“真实”(在简单跟踪方案中)或“成熟”、“暂时不可用”,或“遮蔽”(在高级跟踪方案中)的斑点遮罩来说,通过对象状况更新子阶段63生成轨迹信息。 对于每个跟踪对象来说,该轨迹信息都可以包括其中心位置的笛卡尔坐标,以及该信息涉及的对象身份。 可以生成另选形式的轨迹信息,例如位移或矢量信息。参照图18,通过作为轨迹信息数据库的第一高级应用121来接收轨迹信息。轨迹数据库121存储轨迹信息并且根据其实时地计算场景上的每个对象所采取的路径。 轨迹数据库121输出由作为显示控制应用的第二高级应用123接收的路径数据。
[0172] 显示控制应用123对存储在PC 13的硬盘驱动器上的视频数据在视频监视器1上的显示进行控制。 显示控制应用70能够从图3所示的所有处理阶段接收视频数据,并且被设置用于实时或以其它方式显示由该视频数据表示的任何视频序列。 操作员可以在单个屏幕上观看多个图像。例如,操作员可能希望同时观看背景模型19和对象分类遮罩39。操作员特别兴趣的将是来自轨迹数据库121的路径数据。图19示出了来自显示控制应用123的后处理帧125。 与前景对象23、25相对应的斑点遮罩已经被识别为“真实”并且将它们的轨迹记录在轨迹数据库121中。 所得路径数据生成了分别表示在构成当前帧的视频段过程中对象所采取的累积路径的踪迹线129、127。尽管图19中不可见,但是轨迹数据库还为每条踪迹线129、127分配了不同颜色,以表示它们与不同对象相关联。
[0173] 而且还可以提供高级应用7。例如,对象分类应用可以将来自阴影去除阶段7的斑点遮罩与“现实生活”对象的模板进行比较。 如果匹配,则对象分类应用可以显示标识与其边界框相邻的对象的标签,如图19所示。
[0174] 总起来说,上述对象跟踪阶段5通过提供将每个对象都分类为具有特定状态的状态转变对象管理方案,而提供了改进的对象跟踪。 对象被分类成的状态决定了是否要跟踪该对象,即,是否记录其运动轨迹,以及基于对所述当前状态特定的预定规则是要维持当前状态还是改变。
[0175] 通过参照图20到22,将更好的理解智能视频监视系统19的性能,图20到22示出了根据多种实际情形而得到的结果。 在每一种情况下,都采用了上述高级跟踪方案。
[0176] 参照图20a到20b,图中示出了视频序列中的四个帧。 在图20a中,在该帧的左手侧识别了单个对象,即,汽车。 这时,对象的状况参数为“成熟”。 通过围住汽车的边界框来确认识别。 在图20b和20c中,该对象开始从帧的边缘消失。 然而,利用Cno-numpels代价函数进行了匹配,因此像素数量的突然减少并没有严重地影响结果。将状况保持为“成熟”,并且继续跟踪该对象。 在图20d中,该对象返回至视野中,并且仍然被跟踪。
[0177] 参照图21a到21d,图中示出了另一视频序列中的四个帧。 在图21a中,第一和第二对象已经被识别为朝向帧的左下侧。 这时,每个对象的状况参数都为“成熟”。在图21b和21c中,这两个对象彼此靠近地移动,致使它们各自的边界框交叠。 在这种情况下,较大对象的状况参数被保持为“成熟”,而较小对象的状况参数被改变成“遮蔽”。这是因为并入的遮罩与较大对象的边界框更加相似。然而,Kalman滤色器基于较小对象的当前特征集继续预测其位置。而且,利用忽视了较小对象的速度特征的Cno-vel代价函数进行匹配,因此利用后续帧形成了匹配,并且状况参数重新进入“成熟”状态。
跟踪时刻不停,对两个对象进行正确跟踪,直到它们的边界框分离开为止,如图21d所示。
[0178] 最后,参照图22a到22d,图中示出了又一视频序列中的四个帧。 在这种情况下,该视频序列是利用带有鱼眼透镜的摄像机来采集的,使用这种摄像机在现代视频监视系统中很普遍的。 在图21a中,第一对象被识别为朝向帧的左手侧,即,移动的车辆。第二对象,即,朝向帧的右手侧定位的车辆已经开始移动。然而,该对象被分类为“新”,因为其还未在10个连续帧中得到匹配。 在图21b中,第一对象继续得到匹配,并因此被跟踪,尽管其尺寸因鱼眼透镜的畸变而动态地改变。 在这个阶段,第二对象在超过10个连续帧上得到了匹配,因此被分类为“成熟”对象。 第二对象的边界框由此可见。 在图21c中,第一对象在帧中不再可见,因此其状况被改变成“消失”。第二对象继续移动,因此其状况被保持为“成熟”,并且其继续被跟踪。 而并不顾及其运动因鱼眼透镜的畸变而呈现抛物线的事实。 在图11d中,和前面一样继续跟踪第二对象,并且不受对象的改变形状的影响。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用