一种基于目标场景一致性的无人机视频多目标跟踪方法转让专利

申请号 : CN202010015437.8

文献号 : CN111275736A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李国荣黄庆明苏荔于洪洋

申请人 : 中国科学院大学

摘要 :

本发明涉及计算机视觉附属装置的技术领域,特别是涉及一种基于目标场景一致性的无人机视频多目标跟踪方法,可利用场景与目标表观的一致性来衡量目标间的相似性,提高无人机视频上的跟踪性能;包括:(1)使用基于ResNet的孪生网络(Siamese Network)来计算物体与场景的一致性;(2)使用基于ResNet的孪生网络(Siamese Network)来计算物体与物体表观的相似性;(3)构建分支网络,该网络包括一个卷积层和两个全连接层,网络的输入为两个孪生网络的第五个卷积层输出的特征,输出检测结果偏移量的估计;利用多任务学习方法将这三个网络融合起来,使其相互促进。

权利要求 :

1.一种基于目标场景一致性的无人机视频多目标跟踪方法,其特征在于,包括:(1)使用基于ResNet的孪生网络(Siamese Network)来计算物体与场景的一致性;该网络前五层为卷积层,后接全连接层和soft max,输出物体与场景一致性的置信度;

(2)使用基于ResNet的孪生网络(Siamese Network)来计算物体与物体表观的相似性;

该网络前五层为卷积层,后接全连接层和soft max,输出为物体与物体表观的相似性,相似性越大,这两个物体是同一个物体的概率越大;

(3)构建分支网络,该网络包括一个卷积层和两个全连接层,网络的输入为两个孪生网络的第五个卷积层输出的特征,输出检测结果偏移量的估计;

利用多任务学习方法将这三个网络融合起来,使其相互促进。

2.如权利要求1所述的一种基于目标场景一致性的无人机视频多目标跟踪方法,其特征在于,还包括利用在ImageNet上训练好的RetNet50的前五个卷积层的参数来初始化孪生网络的前五个卷积层的参数,全连接层和其余卷积层的参数则使用随机方式来初始化。

3.如权利要求2所述的一种基于目标场景一致性的无人机视频多目标跟踪方法,其特征在于,还包括利用已标注的视频序列,通过在物体真实位置上添加扰动,得到带有偏差的物体位置,作为检测结果。利用这些检测结果,构建训练数据集,训练整个网络。

说明书 :

一种基于目标场景一致性的无人机视频多目标跟踪方法

技术领域

[0001] 本发明涉及计算机视觉附属装置的技术领域,特别是涉及一种基 于目标场景一致性的无人机视频多目标跟踪方法。

背景技术

[0002] 多目标跟踪(MOT)是许多视频分析任务的关键步骤,如视频事 件分、行为理解。MOT旨在跟踪视频中出现的物体,给出每个物体在 每帧中的位置。现有的MOT方法可以根据利用目标检测结果方式,现 有的MOT方法可以分为两类:线下跟踪和线上跟踪。线下跟踪在关联 检测结果时考虑整个视频上的目标检测结果;而线上跟踪则考虑当前 帧上的检测结果及已得到的每个物体的运动轨迹。
[0003] 现有的方法通常使用跟踪物体的多种线索(如表观、运动)来综 合衡量相邻帧中物体间的相似性。但是,在无人机视频中,目标尺度 较小,因而自身信息尤其是表观信息的判别性不强,导致现有的多目 标跟踪方法在无人机视频上跟踪性能不好。

发明内容

[0004] 为解决上述技术问题,本发明提供一种可利用目标与场景的一致 性、目标与目标的表观相似性来综合衡量两个目标是同一个物体的概 率,提高无人机中多目标跟踪的精度的基于目标场景一致性的无人机 视频多目标跟踪方法。
[0005] 本发明的一种基于目标场景一致性的无人机视频多目标跟踪方 法,包括:
[0006] (1)使用基于ResNet的孪生网络(Siamese Network)来计算物体 与场景的一致性;该网络前五层为卷积层,后接全连接层和soft max, 输出物体与场景一致性的置信度;
[0007] (2)使用基于ResNet的孪生网络(Siamese Network)来计算物体 与物体表观的相似性;该网络前五层为卷积层,后接全连接层和soft max,输出为物体与物体表观的相似性,相似性越大,这两个物体是同 一个物体的概率越大;
[0008] (3)构建分支网络,该网络包括一个卷积层和两个全连接层,网 络的输入为两个孪生网络的第五个卷积层输出的特征,输出检测结果 偏移量的估计;
[0009] 利用多任务学习方法将这三个网络融合起来,使其相互促进。
[0010] 本发明的一种基于目标场景一致性的无人机视频多目标跟踪方 法,还包括利用在ImageNet上训练好的RetNet50的前五个卷积层的 参数来初始化孪生网络的前五个卷积层的参数,全连接层和其余卷积 层的参数则使用随机方式来初始化。
[0011] 本发明的一种基于目标场景一致性的无人机视频多目标跟踪方 法,还包括利用已标注的视频序列,通过在物体真实位置上添加扰动, 得到带有偏差的物体位置,作为检测结果。利用这些检测结果,构建 训练数据集,训练整个网络。
[0012] 与现有技术相比本发明的有益效果为:在多目标跟踪时,不仅利 用目标之间的相似性,还利用了场景与目标的一致性,从而能够应对 无人机视频中目标较小、表观区分性弱,从而实现更准确的目标关联, 提升跟踪精度;设计多任务学习框架,使得多个相关的任务互相促进, 提升目标检测的精度,从而进一步提高了跟踪的准确性。

附图说明

[0013] 图1是本发明的结构示意图;

具体实施方式

[0014] 下面结合附图和实施例,对本发明的具体实施方式作进一步详细 描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0015] 实施例:
[0016] 孪生的每个分支网络的主干网络均是基于RestNet50的前五个卷 积层,其中前四层卷积层输出的特征维度为14*14*1024,经第五个卷 积层后得到2048维特征。用f1,f2,f3,f4表示四个分支网络前五个卷积层 输出的特征。将前两个网络得到两个2048维特征(f1,f2)拼接在一起, 输入全连接层来得到表观-场景一致性的置信度 这里的 损失函数定义为:
[0017]
[0018] 其中 表示目标与场景一致性关系的真实值, 表示目 标与场景一致;表示目标与场景不一致。
[0019] 后两个网络得到的特征f3,f4输入全连接层和soft-max层,得到目 标与目标的表观相似性度量 这里的损失函数定义为:
[0020]
[0021] 其中 表示目标与场景一致性关系的真实值, 表示两个物 体的表观相似,即是同一个物体; 表示被比较的目标不是同一 个物体。
[0022] 四个网络得到的四个2048维特征(f1,f2,f3,f4)并列放在一起组成 2×2×2048维的特征,然后输入卷积层和两个全连接层,得到检测结果 偏移量的估计 这里的损失函数定义为:
[0023]
[0024] 这里检测结果与物体真实位置的偏移量△p=(△x,△y),
[0025]
[0026] 在训练时,使用在ImageNET上预训练好的RestNet50的参数来初 始化前五个卷积层的参数,其余参数均是随机初始化;
[0027] 构造训练数据集:在目标的真实位置基础上,添加扰动,得到有 偏差的结果,用作目标的检测结果,构建训练数据集;通过最小化如 下损失函数,得到最优的网络参数。
[0028] 其中ω为网络的所有参数,||ω||2表示ω的L2 范数。
[0029] 设计基于孪生网络的目标-场景一致性度量网络,该网络包括两 个基于RestNet的网络,且这两个网络共享卷积层的参数,用于提取 计算第t帧的物体与第t+1帧物体的场景的一致性;
[0030] 使用两个基于RestNet网络构建用于计算目标表观相似性的孪 生网络,用于计算第t帧的物体与第t+1帧物体的表观相似性,这两 个网络也共享卷积层参数;
[0031] 同时,引入另一个检测结果偏移估计网络,用于调整目标检测结 果。该网络由一个卷积层和两个全连接层构成,其输入为前面两个孪 生网络提取的特征矩阵。通过引入该分支网络,能够使得目标场景的 一致性估计、目标的表观相似性估计和目标检测结果偏移估计这三个 任务网络共享部分参数,相互促进。
[0032] 本发明的一种基于目标场景一致性的无人机视频多目标跟踪方 法,以上所述所有部件的安装方式、连接方式或设置方式均为常见机 械方式,并且其所有部件的具体结构、型号和系数指标均为其自带技 术,只要能够达成其有益效果的均可进行实施,故不在多加赘述。
[0033] 本发明的一种基于目标场景一致性的无人机视频多目标跟踪方 法,在未作相反说明的情况下,“上下左右、前后内外以及垂直水平” 等包含在术语中的方位词仅代表该术语在常规使用状态下的方位,或 为本领域技术人员理解的俗称,而不应视为对该术语的限制,与此同 时,“第一”、“第二”和“第三”等数列名词不代表具体的数量及顺 序,仅仅是用于名称的区分,而且,术语“包括”、“包含”或者其任 何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过 程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列 出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固 有的要素。
[0034] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的 普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出 若干改进和变型,这些改进和变型也应视为本发明的保护范围。