一种面向空基监视的多目标跟踪方法转让专利

申请号 : CN201910331239.X

文献号 : CN110163890B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 曹先彬罗晓燕李沛钊

申请人 : 北京航空航天大学

摘要 :

本发明公开了一种面向空基监视的多目标跟踪方法,属于航空监视领域。首先获取待检测场景图中所有疑似目标的位置坐标信息。对某个疑似目标使用基于外表信息的特征提取网络和运动信息的特征提取网络进行提取后融合,同理针对每帧图像中的所有疑似目标,分别计算融合了外表和运动信息的特征向量。将上一帧和当前帧中每个疑似目标,两两遍历,得到每两个疑似目标之间的相似度,并以疑似目标作为点,相似度作为边上的权重构建图卷积神经网络,将当前帧中每个点通过权重对该点传播相连边的另一点的特征向量并更新,重新计算每两个疑似目标的特征相似度,保证两帧之间多目标一对一匹配。本发明能高效传播目标特征向量,易于构建和训练。

权利要求 :

1.一种面向空基监视的多目标跟踪方法,其特征在于,具体步骤如下:

步骤一、获取待检测场景图并对其进行初步处理,使用通用检测器完成场景中所有疑似目标的检测,得到所有疑似目标的检测框的位置坐标信息;

步骤二、针对某视频帧图像,对该帧图像中的某个疑似目标,使用基于外表信息的特征提取网络和基于运动信息的特征提取网络进行处理,分别获得疑似目标的外表特征向量和运动特征向量;

步骤三、对外表特征向量和运动特征向量使用多源信息集成模块进行特征获取和融合,得到该疑似目标的结合了外表和运动信息的特征向量;

即,

其中Fi为当前帧中第i个疑似目标的结合了外表和运动信息的特征向量,Ai为第i个疑似目标的外表特征向量,Mi为第i个疑似目标的运动特征向量, 为融合外表和运动特征向量的核函数;

步骤四、针对待检测场景图的每帧图像中出现的所有疑似目标,分别计算各疑似目标的结合了外表和运动信息的特征向量;

步骤五、从上一帧和当前帧中各选择一个疑似目标,根据各自的结合了外表和运动信息的特征向量,计算两个疑似目标的相似度并归一化;

归一化相似度计算公式如下:

其中sij为输出的当前帧中第i个疑似目标和前一帧图像中第j个疑似目标的归一化相似度,Fi为当前帧中第i个疑似目标的结合了外表和运动信息的特征向量;Fj为前一帧中第j个疑似目标结合了外表和运动信息的特征向量, 为计算归一化相似度的核函数;

步骤六、将上一帧和当前帧中每个疑似目标,两两遍历,得到每两个疑似目标之间的相似度;

步骤七、将上一帧和当前帧中所有疑似目标作为点,两疑似目标之间的相似度作为两点间边的权重,构建图卷积神经网络;

同一帧图像中的疑似目标点之间的权重为0;

步骤八、针对当前帧中的某点,通过权重对该点传播相连边的另一点的特征向量,将当前帧中每个点都完成特征向量的传播进行更新;

更新公式如下:

F′I=ρ(SFJWθ)

F′J=ρ(STFIWθ)

s′ij=MLPθ(Fi,Fj)

其中,FI为当前帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵;FJ为前一帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵,F′I为更新后的当前帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵;F′J为更新后的前一帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵;ρ(·)为非线性层,S为更新后两帧中所有疑似目标的相似度组成的矩阵,Wθ为可学习参数矩阵,MLPθ(·)为可学习多层感知机,s′ij为更新后当前帧中第i个疑似目标和前一帧图像中第j个疑似目标的归一化的相似度;

步骤九、将上一帧和当前帧中的所有疑似目标点,利用更新的特征向量再次重新计算每两个疑似目标的特征相似度,从而通过监督学习保证了两帧之间多目标的一对一匹配。

2.如权利要求1所述的一种面向空基监视的多目标跟踪方法,其特征在于,步骤二中所述的基于外表信息的特征提取网络采用卷积神经网络,通过卷积核的空间卷积操作及池化层、卷积层的多层堆叠,实现图像从冗余特征到精细特征的过度,以及从像素信息到语义信息的转换,实现强有力的目标图像的空间特征提取;

基于运动信息的特征提取采用长短记忆循环神经网络,将疑似目标的检测框中心点坐标作为输入,通过五个长短期记忆循环神经网络单元融合目标前五帧的坐标信息,完成跨时域的信息结合和分析,从而输出目标的运动信息。

3.如权利要求1所述的一种面向空基监视的多目标跟踪方法,其特征在于,所述的步骤九具体为:上一帧中有m个疑似目标,当前帧中有n个疑似目标,则共计算m*n次来评估两帧中所有疑似目标两两之间的相似度;当某特征相似度的值达到预先设定的阈值后,则该特征相似度对应的两个疑似目标为一对一匹配。

说明书 :

一种面向空基监视的多目标跟踪方法

技术领域

[0001] 本发明属于航空监视领域,具体是一种面向空基监视的多目标跟踪方法。

背景技术

[0002] 近年来,随着国家对低空领域使用权限的不断开放,空基监视平台中的各种技术及任务发展迅速;如辅助安防管理、特殊场景监视等。安全监测、安防管理、情报收集分析、铁轨异常行人或异物跟踪检测等应用在铁轨监视任务中,无人机可以在空基视角下对铁轨上的异常行人或异物进行系统地监视,确保铁路运输的安全性和高效性。而在这些任务中,对于复杂场景下的多目标跟踪的统计与分析是其中最为重要的环节之一,在很多场景尤其是人群密集或铁轨上存在异常行人或运动异物的场景下,统计场景中运动物体轨迹信息对于安全监测、突发情况预警以及情报分析等多类任务均有不可估量的作用。
[0003] 在大多数需要进行多目标跟踪的场景下,物体的密集度较高,运动不规律,存在遮挡、消失和形变等情况。早期的方法一般使用逐个目标的分别跟踪。但由于存在同一物体运动形变、遮挡和运动规律差异性较大,而基于以上方法的多目标跟踪算法无法准确地在多物体跟踪的情况下完成准确的一对一匹配。
[0004] 近年来,将外表信息和运动信息相结合的方法运用到物体跟踪上取得了不错的效果。同时,图卷积神经网络在非欧几里德空间上的运算和信息传播以及在图结构信息的分析上也有了突破性进展;将以上两种方法相结合以完成多个目标的准确跟踪是大势所趋。
[0005] 对多物体进行跟踪的方法很多。近年来效果较好的大部分为基于单个目标特征提取并跟踪的方法,使用复杂的特征提取网络完成对每个目标的逐一跟踪,在一定程度上解决了多目标跟踪问题中最为棘手的逐帧匹配问题。但此类方法无法保证两帧之间的目标一对一匹配,同时不允许两帧所有匹配结果的信息传播,进而无法实现多目标跟踪的匹配最优解,在一定程度上限制了其效果。

发明内容

[0006] 本发明提供一种面向空基监视的多目标跟踪方法,使用基于外表特征和运动特征的特征提取网络,并构建图卷积神经网络,在特征充分提取的基础之上完成两视频帧之间的跟踪目标特征充分交互,充分利用相关信息,实现效果卓越的空基视角下的多目标跟踪;有效确保了所有跟踪目标的一对一匹配跟踪,跟踪性能鲁棒,可适应跟踪物体的形变和遮挡等问题,为后续的安全监测、安防监控及情报分析等应用带来了极大的便利。
[0007] 具体步骤如下:
[0008] 步骤一、获取待检测场景图并对其进行初步处理,使用通用检测器完成场景中所有疑似目标的检测,得到所有疑似目标的检测框的位置坐标信息。
[0009] 步骤二、针对某视频帧图像,对该帧图像中的某个疑似目标,使用基于外表信息的特征提取网络和运动信息的特征提取网络进行处理,分别获得疑似目标的外表特征向量和运动特征向量。
[0010] 基于外表信息的特征提取网络采用卷积神经网络,通过卷积核的空间卷积操作及池化层、卷积层的多层堆叠,实现图像从冗余特征到精细特征的过度,以及从像素信息到语义信息的转换,实现强有力的目标图像的空间特征提取。
[0011] 基于运动信息的特征提取采用长短记忆循环神经网络,将疑似目标的检测框中心点坐标作为输入,通过五个长短期记忆循环神经网络单元融合目标前五帧的坐标信息,完成跨时域的信息结合和分析,从而输出目标的运动信息。
[0012] 步骤三、对外表特征向量和运动特征向量使用多源信息集成模块进行特征获取和融合,得到该疑似目标的结合了外表和运动信息的特征向量。
[0013] 即,
[0014]
[0015] 其中Fi为融合后该帧中第i个疑似目标的特征向量,Ai为第i个疑似目标的外表特征向量,Mi为第i个疑似目标的运动特征向量, 为融合外表和运动特征向量的核函数。
[0016] 步骤四、针对待检测场景图的每帧图像中出现的所有疑似目标,分别计算各疑似目标的结合了外表和运动信息的特征向量。
[0017] 步骤五、从上一帧和当前帧中各选择一个疑似目标,根据各自的结合了外表和运动信息的特征向量,计算两个疑似目标的相似度并归一化。
[0018] 归一化相似度计算公式如下:
[0019]
[0020] 其中sij为输出的当前帧中第i个疑似目标和前一帧图像中第j个疑似目标的归一化相似度,Fi为当前帧中第i个疑似目标的结合了外表和运动信息的特征向量;Fj为前一帧中第j个疑似目标结合了外表和运动信息的特征向量, 为计算归一化相似度的核函数。
[0021] 步骤六、将上一帧和当前帧中每个疑似目标,两两遍历,得到每两个疑似目标之间的相似度。
[0022] 步骤七、将上一帧和当前帧中所有疑似目标作为点,两疑似目标之间的相似度作为两点间边的权重,构建图卷积神经网络;
[0023] 同一帧图像中的疑似目标点之间的权重为0。
[0024] 步骤八、针对当前帧中的某点,通过权重对该点传播相连边的另一点的特征向量,将当前帧中每个点都完成特征向量的传播进行更新。
[0025] 更新公式如下:
[0026] F′I=ρ(SFJWθ)
[0027] F′J=ρ(STFIWθ)
[0028] s′ij=MLPθ(Fi,Fj)
[0029] 其中,FI为当前帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵;FJ为前一帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵,F′I为更新后的当前帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵;F′J为更新后的前一帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵;ρ(·)为非线性层,S为更新后两帧中所有疑似目标的相似度组成的矩阵,Wθ为可学习参数矩阵,MLPθ(·)为可学习多层感知机,s′ij为更新后当前帧中第i个疑似目标和前一帧图像中第j个疑似目标的归一化的相似度。
[0030] 步骤九、将上一帧和当前帧中的所有疑似目标点,利用更新的特征向量再次重新计算每两个疑似目标的特征相似度,从而通过监督学习保证了两帧之间多目标的一对一匹配。
[0031] 上一帧中有m个疑似目标,当前帧中有n个疑似目标,则共计算m*n次来评估两帧中所有疑似目标两两之间的相似度;当某特征相似度的值达到预先设定的阈值后,则该特征相似度对应的两个疑似目标为一对一匹配。
[0032] 本发明的优点在于:
[0033] 1)、一种面向空基监视的多目标跟踪方法,图卷积神经网络可以让单一目标感知所有潜在匹配目标的特征,在所有目标中选择最相似的目标完成匹配;图卷积神经网络可以高效传播目标特征向量,易于构建和训练。
[0034] 2)、一种面向空基监视的多目标跟踪方法,整个网络框架,即相似度计算网络和图卷积神经网络,可以在统一框架下完成端到端监督训练,并让所有模块同时优化,取得鲁棒高效的跟踪结果。

附图说明

[0035] 图1为本发明一种面向空基监视的多目标跟踪方法的流程图;
[0036] 图2为本发明外表信息的特征提取网络和运动信息的特征提取网络的结构图。
[0037] 图3为本发明从上一帧和当前帧中各选择一个疑似目标计算相似度的结构图。
[0038] 图4为本发明构建的图卷积神经网络的结构图。

具体实施方式

[0039] 为了使本发明能够更加清楚地理解其技术原理,下面结合附图具体、详细地阐述本发明实施例。
[0040] 本发明提供了一种面向空基监视的多目标跟踪方法,在空基监视平台下对一定范围内场景中多疑似目标做检测并跟踪目标位置,对在空基监视下的各项应用具有重大意义。本方法在特征提取网络的基础上构建图卷积神经网络,对检测目标特征进行特征传播和相似度关系更新,进而完成对图像中多目标信息及特征的提取与信息传递,最后实现对多个目标的分别识别和准确跟踪,得到复杂场景下各目标的检测框坐标及目标编号。该方法跟踪性能鲁棒,跟踪效果显著。
[0041] 如图1所示,具体步骤如下:
[0042] 步骤一、获取待检测场景图并对其进行初步处理,使用通用检测器完成场景中所有疑似目标的无差别初步检测,得到所有疑似目标的检测框的位置坐标信息。
[0043] 步骤二、针对某视频帧图像,对该帧图像中的某个疑似目标,使用基于外表信息的特征提取网络和运动信息的特征提取网络进行处理,分别获得疑似目标的外表特征向量和运动特征向量。
[0044] 如图2所示,在目标跟踪中,移动的目标具有外表信息和运动信息等多方面的信息特征,为实现目标的快速准确跟踪,对目标的具有分别性的特征提取至关重要。如何提取运动物体的多源信息并加以结合,实习特征的有效性至关重要。目前主流的方法有采用外表信息或者运动信息来识别运动物体的,但均存在信息利用不完善,特征提取鲁棒性较弱等缺陷。
[0045] 本方法中的特征提取网络采用外表特征提取网络和运动信息提取网络相互结合的方法,以实现对运动目标的全部信息充分提取的目的,也是下一步完成多目标之间相似性计算的重要前提。
[0046] 基于外表信息的特征提取网络采用卷积神经网络,卷积神经网络中间三层卷积层和两层池化层和一层全连接层组成。通过卷积核的空间卷积操作及池化层、卷积层的多层堆叠,实现图像从冗余特征到精细特征的过度,以及从像素信息到语义信息的转换,实现强有力的目标图像的空间特征提取。
[0047] 基于运动信息的特征提取采用长短记忆循环神经网络,将疑似目标的检测框中心点坐标作为输入,通过五个长短期记忆循环神经网络单元融合目标前五帧的坐标信息,完成跨时域的信息结合和分析,从而输出目标的运动信息。
[0048] 长短期记忆循环神经网络可以有效地让前一帧的运动信息影响下一帧的信息提取和分析,从而实现时域上的对物体运动信息的分析和捕捉。
[0049] 步骤三、对外表特征向量和运动特征向量使用多源信息集成模块进行特征获取和融合,得到该疑似目标的结合了外表和运动信息的特征向量。
[0050] 即,
[0051]
[0052] 其中Fi为融合后该帧中第i个疑似目标的特征向量,Ai为第i个疑似目标的外表特征向量,Mi为第i个疑似目标的运动特征向量, 为融合外表和运动特征向量的核函数。
[0053] 步骤四、针对待检测场景图的每帧图像中出现的所有疑似目标,分别计算各疑似目标的结合了外表和运动信息的特征向量。
[0054] 步骤五、从上一帧和当前帧中各选择一个疑似目标,根据各自的结合了外表和运动信息的特征向量,计算两个疑似目标的相似度并归一化。
[0055] 遍历当前帧和上一帧跟踪结果所有目标的特征,计算每一个当前帧检测目标和上一帧跟踪目标的特征相似度评估,将两帧之间的各疑似目标的结合了外表信息和运动信息的特征向量,两两做比对计算其相似度,归一化相似度计算公式如下:
[0056]
[0057] 其中sij为输出的当前帧中第i个疑似目标和前一帧图像中第j个疑似目标的归一化相似度,Fi为当前帧中第i个疑似目标的结合了外表和运动信息的特征向量;Fj为前一帧中第j个疑似目标结合了外表和运动信息的特征向量, 为计算归一化相似度的核函数。
[0058] 如图3所示,将两物体的待评估的特征向量在维度上进行拼接后乘以多层可学习的权重矩阵,并接上非线性层相似度归一化完成拟合,输出两特征向量在0到1之间的相似度估值,该相似度估值表征两特征向量的相似程度,及当前帧检测物体与上一帧跟踪目标的相似程度;输出越接近0即为目标越不相似,越接近1即为目标越相似。
[0059] 该相似度计算模块可通过监督学习完成参数更新,以此实现整个模型端到端训练。通过监督训练及权重的更新,可使该学习单元快速准确地输出两向量之间的相似程度,是下一步完成信息传递交互的基础和前提。
[0060] 步骤六、将上一帧和当前帧中每个疑似目标,两两遍历,得到每两个疑似目标之间的相似度。
[0061] 步骤七、将上一帧和当前帧中所有疑似目标的特征向量作为点,两疑似目标之间的相似度作为两点间边的权重,构建带有权重的图卷积神经网络;
[0062] 图卷积神经网络是二步图结构,在此基础上应用图卷积神经网络形成,同一帧图像中的疑似目标点之间的权重为0。
[0063] 图卷积神经网络可以在非欧几里德分布的数据上完成各数据点的信息传播,在多目标跟踪问题中,需要确定当前帧和上一帧之间的一对一目标匹配。目标不可一对多,多对一地匹配,即要求所有相似度完成一定的信息传播,进而完成确定的一对一匹配。图卷积神经网络可以利用特征之间的相似度来完成各目标之间的特征信息传播。
[0064] 步骤八、针对当前帧中的某点,使用图卷积神经网络通过权重对该点传播相连边的另一点的特征向量,将当前帧中每个点都完成特征向量的传播进行更新,完成各疑似目标之间的相似性信息传播。
[0065] 如图4所示,使用图卷积神经网络边上的权重作为权重因子,对一个点传播其他点的特征向量,以此来完成特征向量的更新。重复这样的操作直到每个点都完成了相对于其他点的信息集成和信息传递,以及每个点都在信息传递的基础上更新了点的特征向量。该可学习权重维度为特征向量的维度,与跟踪目标个数无关。进一步,将已经更新过的特征向量重新计算当前帧和上一帧的检测目标和跟踪结果目标的特征相似度。
[0066] 将各疑似目标通过传播得到的特征与本身特征相结合,并完成自身特征更新。
[0067] 更新公式如下:
[0068] F′I=ρ(SFJWθ)
[0069] F′J=ρ(STFIWθ)
[0070] s′ij=MLPθ(Fi,Fj)
[0071] 其中,FI为当前帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵;FJ为前一帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵,F′I为更新后的当前帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵;F′J为更新后的前一帧所有疑似目标的结合了外表和运动信息的特征向量组成的矩阵;ρ(·)为非线性层,S为更新后两帧中所有疑似目标的相似度组成的矩阵,Wθ为可学习参数矩阵,MLPθ(·)为可学习多层感知机,s′ij为更新后当前帧中第i个疑似目标和前一帧图像中第j个疑似目标的归一化的相似度。
[0072] 前两个图卷积神经网络信息传播的公式是指所有目标提取的特征向量通过关系矩阵和网络中可学习的权重矩阵进行更新。使用可学习的权重矩阵来控制信息集成过程,在监督学习的基础之下确保信息传播更新的可控性和可调节性,并通过反向传播更新信息集成的权重矩阵参数,实现更有效地信息传播和集成。
[0073] 特征矩阵共有两个维度,一个维度是特征矩阵代表的视频帧中所有的目标,另一维度是特征维度;这两个特征矩阵每一个矩阵代表了一帧中所有目标的特征向量。
[0074] 步骤九、将上一帧和当前帧中所有疑似目标点,利用更新的特征向量再次重新计算每两个疑似目标的特征相似度,从而通过监督学习保证了两帧之间多目标的一对一匹配。
[0075] 在更新特征的基础上,重新计算两疑似目标间的相似度,并构建所有目标的相似度矩阵。上一帧中有m个疑似目标,当前帧中有n个疑似目标,则共计算m*n次来评估两帧中所有疑似目标两两之间的相似度;当某特征相似度的值达到预先设定的阈值后,则该特征相似度对应的两个疑似目标为一对一匹配,从而输出当前帧所有有效检测框的目标编号及检测框坐标。
[0076] 将已经更新过的特征向量重新计算当前帧和上一帧的检测目标和跟踪结果目标的特征相似度,通过相似度矩阵读出上一帧跟踪结果和当前帧检测框的匹配情况,从而通过监督学习保证了两帧之间多目标的逐队匹配。在相似度矩阵中,相似度高的即为上一帧跟踪目标在下一帧的跟踪结果。
[0077] 同时,当两帧中目标个数不同时,则必有目标死亡(即目标被遮挡而未被检测或离开视频范围)或目标出生(即有新的目标进入视频),认为死亡的目标消失而不做任何匹配操作,出生的目标为其分配新的ID。
[0078] 一对一匹配指两帧中的所有疑似目标,除去目标出生和目标死亡的情况,都能匹配且仅匹配一个下一帧的目标。该模型输出的关系矩阵可以保证在设定阈值的情况下对两帧中目标一对一匹配。
[0079] 本发明用图卷积神经网络完成所有匹配对之间的信息传输,完成所有匹配结果的信息传输,输出一对一目标跟踪匹配在当前帧的结果。