一种基于目标场景一致性的无人机视频多目标跟踪方法转让专利

申请号 : CN202010015437.8

文献号 : CN111275736A

文献日 : 2020-06-12

本发明涉及计算机视觉附属装置的技术领域，特别是涉及一种基于目标场景一致性的无人机视频多目标跟踪方法，可利用场景与目标表观的一致性来衡量目标间的相似性，提高无人机视频上的跟踪性能；包括：(1)使用基于ResNet的孪生网络(Siamese Network)来计算物体与场景的一致性；(2)使用基于ResNet的孪生网络(Siamese Network)来计算物体与物体表观的相似性；(3)构建分支网络，该网络包括一个卷积层和两个全连接层，网络的输入为两个孪生网络的第五个卷积层输出的特征，输出检测结果偏移量的估计；利用多任务学习方法将这三个网络融合起来，使其相互促进。

1.一种基于目标场景一致性的无人机视频多目标跟踪方法，其特征在于，包括：(1)使用基于ResNet的孪生网络(Siamese Network)来计算物体与场景的一致性；该网络前五层为卷积层，后接全连接层和soft max,输出物体与场景一致性的置信度；

(2)使用基于ResNet的孪生网络(Siamese Network)来计算物体与物体表观的相似性；

该网络前五层为卷积层，后接全连接层和soft max,输出为物体与物体表观的相似性，相似性越大，这两个物体是同一个物体的概率越大；

(3)构建分支网络，该网络包括一个卷积层和两个全连接层，网络的输入为两个孪生网络的第五个卷积层输出的特征，输出检测结果偏移量的估计；

利用多任务学习方法将这三个网络融合起来，使其相互促进。

2.如权利要求1所述的一种基于目标场景一致性的无人机视频多目标跟踪方法，其特征在于，还包括利用在ImageNet上训练好的RetNet50的前五个卷积层的参数来初始化孪生网络的前五个卷积层的参数，全连接层和其余卷积层的参数则使用随机方式来初始化。

3.如权利要求2所述的一种基于目标场景一致性的无人机视频多目标跟踪方法，其特征在于，还包括利用已标注的视频序列，通过在物体真实位置上添加扰动，得到带有偏差的物体位置，作为检测结果。利用这些检测结果，构建训练数据集，训练整个网络。

一种基于目标场景一致性的无人机视频多目标跟踪方法

技术领域

[0001] 本发明涉及计算机视觉附属装置的技术领域，特别是涉及一种基于目标场景一致性的无人机视频多目标跟踪方法。

背景技术

[0002] 多目标跟踪(MOT)是许多视频分析任务的关键步骤，如视频事件分、行为理解。MOT旨在跟踪视频中出现的物体，给出每个物体在每帧中的位置。现有的MOT方法可以根据利用目标检测结果方式，现有的MOT方法可以分为两类：线下跟踪和线上跟踪。线下跟踪在关联检测结果时考虑整个视频上的目标检测结果；而线上跟踪则考虑当前帧上的检测结果及已得到的每个物体的运动轨迹。

[0003] 现有的方法通常使用跟踪物体的多种线索(如表观、运动)来综合衡量相邻帧中物体间的相似性。但是，在无人机视频中，目标尺度较小，因而自身信息尤其是表观信息的判别性不强，导致现有的多目标跟踪方法在无人机视频上跟踪性能不好。

发明内容

[0004] 为解决上述技术问题，本发明提供一种可利用目标与场景的一致性、目标与目标的表观相似性来综合衡量两个目标是同一个物体的概率，提高无人机中多目标跟踪的精度的基于目标场景一致性的无人机视频多目标跟踪方法。

[0005] 本发明的一种基于目标场景一致性的无人机视频多目标跟踪方法，包括：

[0006] (1)使用基于ResNet的孪生网络(Siamese Network)来计算物体与场景的一致性；该网络前五层为卷积层，后接全连接层和soft max, 输出物体与场景一致性的置信度；

[0007] (2)使用基于ResNet的孪生网络(Siamese Network)来计算物体与物体表观的相似性；该网络前五层为卷积层，后接全连接层和soft max,输出为物体与物体表观的相似性，相似性越大，这两个物体是同一个物体的概率越大；

[0008] (3)构建分支网络，该网络包括一个卷积层和两个全连接层，网络的输入为两个孪生网络的第五个卷积层输出的特征，输出检测结果偏移量的估计；

[0009] 利用多任务学习方法将这三个网络融合起来，使其相互促进。

[0010] 本发明的一种基于目标场景一致性的无人机视频多目标跟踪方法，还包括利用在ImageNet上训练好的RetNet50的前五个卷积层的参数来初始化孪生网络的前五个卷积层的参数，全连接层和其余卷积层的参数则使用随机方式来初始化。

[0011] 本发明的一种基于目标场景一致性的无人机视频多目标跟踪方法，还包括利用已标注的视频序列，通过在物体真实位置上添加扰动，得到带有偏差的物体位置，作为检测结果。利用这些检测结果，构建训练数据集，训练整个网络。

[0012] 与现有技术相比本发明的有益效果为：在多目标跟踪时，不仅利用目标之间的相似性，还利用了场景与目标的一致性，从而能够应对无人机视频中目标较小、表观区分性弱，从而实现更准确的目标关联，提升跟踪精度；设计多任务学习框架，使得多个相关的任务互相促进，提升目标检测的精度，从而进一步提高了跟踪的准确性。

附图说明

[0013] 图1是本发明的结构示意图；

具体实施方式

[0014] 下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

[0015] 实施例：

[0016] 孪生的每个分支网络的主干网络均是基于RestNet50的前五个卷积层，其中前四层卷积层输出的特征维度为14*14*1024，经第五个卷积层后得到2048维特征。用f1,f2,f3,f4表示四个分支网络前五个卷积层输出的特征。将前两个网络得到两个2048维特征(f1,f2)拼接在一起，输入全连接层来得到表观－场景一致性的置信度这里的损失函数定义为：

[0017]

[0018] 其中表示目标与场景一致性关系的真实值，表示目标与场景一致；表示目标与场景不一致。

[0019] 后两个网络得到的特征f3,f4输入全连接层和soft-max层，得到目标与目标的表观相似性度量这里的损失函数定义为：

[0020]

[0021] 其中表示目标与场景一致性关系的真实值，表示两个物体的表观相似，即是同一个物体；表示被比较的目标不是同一个物体。

[0022] 四个网络得到的四个2048维特征(f1,f2,f3,f4)并列放在一起组成 2×2×2048维的特征，然后输入卷积层和两个全连接层，得到检测结果偏移量的估计这里的损失函数定义为：

[0023]

[0024] 这里检测结果与物体真实位置的偏移量△p＝(△x,△y)，

[0025]

[0026] 在训练时，使用在ImageNET上预训练好的RestNet50的参数来初始化前五个卷积层的参数，其余参数均是随机初始化；

[0027] 构造训练数据集：在目标的真实位置基础上，添加扰动，得到有偏差的结果，用作目标的检测结果，构建训练数据集；通过最小化如下损失函数，得到最优的网络参数。

[0028] 其中ω为网络的所有参数，||ω||2表示ω的L2 范数。

[0029] 设计基于孪生网络的目标-场景一致性度量网络，该网络包括两个基于RestNet的网络，且这两个网络共享卷积层的参数，用于提取计算第t帧的物体与第t+1帧物体的场景的一致性；

[0030] 使用两个基于RestNet网络构建用于计算目标表观相似性的孪生网络，用于计算第t帧的物体与第t+1帧物体的表观相似性，这两个网络也共享卷积层参数；

[0031] 同时，引入另一个检测结果偏移估计网络，用于调整目标检测结果。该网络由一个卷积层和两个全连接层构成，其输入为前面两个孪生网络提取的特征矩阵。通过引入该分支网络，能够使得目标场景的一致性估计、目标的表观相似性估计和目标检测结果偏移估计这三个任务网络共享部分参数，相互促进。

[0032] 本发明的一种基于目标场景一致性的无人机视频多目标跟踪方法，以上所述所有部件的安装方式、连接方式或设置方式均为常见机械方式，并且其所有部件的具体结构、型号和系数指标均为其自带技术，只要能够达成其有益效果的均可进行实施，故不在多加赘述。

[0033] 本发明的一种基于目标场景一致性的无人机视频多目标跟踪方法，在未作相反说明的情况下，“上下左右、前后内外以及垂直水平” 等包含在术语中的方位词仅代表该术语在常规使用状态下的方位，或为本领域技术人员理解的俗称，而不应视为对该术语的限制，与此同时，“第一”、“第二”和“第三”等数列名词不代表具体的数量及顺序，仅仅是用于名称的区分，而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

[0034] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

一种基于目标场景一致性的无人机视频多目标跟踪方法转让专利

申请号 : CN202010015437.8

文献号 : CN111275736A

文献日 : 2020-06-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李国荣 , 黄庆明 , 苏荔 , 于洪洋

申请人 : 中国科学院大学

摘要 :

权利要求 :

说明书 :