一种目标跟踪方法、设备及存储介质转让专利

申请号 : CN202010195175.8

文献号 : CN111091585B

文献日 : 2020-07-17

本发明实施例提供了一种目标跟踪方法、设备及存储介质；方法包括：确定包括跟踪目标的模板区域图像，从帧序列的当前帧中，获取与前一跟踪目标对应的至少一个搜索区域图像；对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；对当前搜索初始特征和模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；比较当前自双线性特征和当前互双线性特征，得到相似性信息，从而得到至少一个相似性信息；基于至少一个相似性信息从至少一个搜索区域图像中确定当前跟踪目标，从而得到至少一个当前跟踪目标。通过本发明实施例，能够提升目标跟踪的准确性。

1.一种目标跟踪方法，其特征在于，包括：

获取待跟踪视频，从所述待跟踪视频对应的帧序列的初始帧中，确定包括跟踪目标的模板区域图像；

从所述帧序列的当前帧中，获取与前一跟踪目标对应的至少一个搜索区域图像；所述当前帧为所述帧序列中除所述初始帧之外的任一帧，所述前一跟踪目标的位置信息为所述跟踪目标对应的目标对象在所述当前帧的前一帧中的位置信息；

对当前搜索区域图像和所述模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；所述当前搜索区域图像为所述至少一个搜索区域图像中的任一搜索区域图像；

对所述当前搜索初始特征和所述模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；所述当前自双线性特征和所述当前互双线性特征均为双线性特征；

其中，所述当前自双线性特征为所述当前搜索区域图像和所述模板区域图像的自双线性特征的综合，所述当前互双线性特征为所述当前搜索区域图像和所述模板区域图像的互双线性特征的综合；所述自双线性特征指在孪生跟踪网络任一分支内部进行提取的双线性特征，所述互双线性特征指通过所述孪生跟踪网络两分支交互产生的双线性特征；所述孪生跟踪网络包括用于对所述模板区域图像进行处理的模板分支和用于对所述当前搜索区域图像进行处理的搜索分支；

比较所述当前自双线性特征和所述当前互双线性特征，得到相似性信息，从而当完成所述至少一个搜索区域图像的处理时，得到至少一个相似性信息；

基于所述至少一个相似性信息从所述至少一个搜索区域图像中确定所述目标对象的位置信息，得到当前跟踪目标，从而当完成所述待跟踪视频的处理时，得到至少一个当前跟踪目标。

2.根据权利要求1所述的方法，其特征在于，所述对所述当前搜索初始特征和所述模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征，包括：对所述当前搜索初始特征和所述模板初始特征均进行空间通道压缩，得到与所述当前搜索初始特征对应的当前搜索空间特征和当前搜索通道特征，以及与所述模板初始特征对应的模板空间特征和模板通道特征；

对所述模板空间特征、所述模板通道特征、所述当前搜索空间特征和所述当前搜索通道特征进行特征整合，得到所述当前自双线性特征和所述当前互双线性特征，从而完成对所述当前搜索初始特征和所述模板初始特征的双线性特征的提取。

3.根据权利要求1或2所述的方法，其特征在于，所述从所述待跟踪视频对应的帧序列的初始帧中，确定包括跟踪目标的模板区域图像；从所述帧序列的当前帧中，获取与前一跟踪目标对应的至少一个搜索区域图像，包括：从所述待跟踪视频对应的所述帧序列的所述当前帧中，截取所述跟踪目标的所在区域，得到所述模板区域图像；

在所述当前帧中，确定与所述前一跟踪目标对应的目标位置信息；

以所述目标位置信息为中心，根据尺度步长，截取至少一个区域，得到与所述前一跟踪目标对应的所述至少一个搜索区域图像；尺度步长为预先设置的用于确定不同尺度的搜索区域的尺度间隔。

4.根据权利要求1或2所述的方法，其特征在于，所述对当前搜索区域图像和所述模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征，包括：对所述当前搜索区域图像和所述模板区域图像均进行整体特征提取，得到分别对应的当前搜索整体特征和模板整体特征；

对所述当前搜索整体特征和所述模板整体特征均进行有效特征提取，得到分别对应的所述当前搜索初始特征和所述模板初始特征，从而完成对所述当前搜索区域图像和所述模板区域图像的特征提取。

5.根据权利要求2所述的方法，其特征在于，所述对所述当前搜索初始特征和所述模板初始特征均进行空间通道压缩，得到与所述当前搜索初始特征对应的当前搜索空间特征和当前搜索通道特征，以及与所述模板初始特征对应的模板空间特征和模板通道特征，包括：对所述当前搜索初始特征进行空间压缩，得到所述当前搜索空间特征；

对所述当前搜索初始特征进行通道压缩，得到所述当前搜索通道特征；

对所述模板初始特征进行空间压缩，得到所述模板空间特征；

对所述模板初始特征进行通道压缩，得到所述模板通道特征，从而完成对所述当前搜索初始特征和所述模板初始特征的空间通道压缩。

6.根据权利要求5所述的方法，其特征在于，所述对所述当前搜索初始特征进行空间压缩，得到所述当前搜索空间特征，包括：对所述当前搜索初始特征进行卷积处理，得到当前搜索卷积特征；

对所述当前搜索卷积特征进行第一降通道处理，得到初始当前搜索空间特征；

对所述初始当前搜索空间特征进行综合化处理，得到所述当前搜索空间特征，从而完成对所述当前搜索初始特征的空间压缩。

7.根据权利要求5所述的方法，其特征在于，所述对所述当前搜索初始特征进行通道压缩，得到所述当前搜索通道特征，包括：对所述当前搜索初始特征进行池化处理，得到当前搜索池化特征；

对所述当前搜索池化特征进行第二降通道处理，得到初始当前搜索通道特征；

对所述初始当前搜索通道特征进行通道还原处理，得到所述当前搜索通道特征，从而完成对所述当前搜索初始特征的通道压缩。

8.根据权利要求2所述的方法，其特征在于，所述对所述模板空间特征、所述模板通道特征、所述当前搜索空间特征和所述当前搜索通道特征进行特征整合，得到所述当前自双线性特征和所述当前互双线性特征，包括：对所述模板空间特征和所述模板通道特征进行双线性处理，得到当前模板自双线性特征；

对所述当前搜索空间特征和所述当前搜索通道特征进行双线性处理，得到当前搜索自双线性特征；

对所述模板空间特征和所述当前搜索通道特征进行双线性处理，得到当前模板互双线性特征；

对所述当前搜索空间特征和所述模板通道特征进行双线性处理，得到当前搜索互双线性特征；

将所述当前模板自双线性特征和所述当前搜索自双线性特征叠加为所述当前自双线性特征，将所述当前模板互双线性特征和所述当前搜索互双线性特征叠加为所述当前互双线性特征，从而完成对所述模板空间特征、所述模板通道特征、所述当前搜索空间特征和所述当前搜索通道特征的特征整合。

9.根据权利要求8所述的方法，其特征在于，所述对所述模板空间特征和所述模板通道特征进行双线性处理，得到当前模板自双线性特征，包括：对所述模板空间特征和所述模板通道特征进行乘处理，得到初始当前模板自双线性特征；

对所述初始当前模板自双线性特征进行形变处理，得到所述当前模板自双线性特征。

10.根据权利要求1、2、5至9任一项所述的方法，其特征在于，所述基于所述至少一个相似性信息从所述至少一个搜索区域图像中确定所述目标对象的位置信息，得到当前跟踪目标，包括：从所述至少一个相似性信息中选择相似性最高的相似性信息，得到目标相似性信息；

从所述至少一个搜索区域图像中，确定与所述目标相似性信息匹配的搜索区域图像，得到目标搜索区域图像；

计算所述目标搜索区域图像和所述前一跟踪目标的更新率，得到当前更新率，获取历史更新率；所述历史更新率为所述当前帧之前的视频帧所对应的更新率；

综合所述当前更新率和所述历史更新率，对所述目标搜索区域图像进行位置调整，得到所述当前跟踪目标。

11.根据权利要求1、2、5至9任一项所述的方法，其特征在于，所述基于所述至少一个相似性信息从所述至少一个搜索区域图像中确定所述目标对象的位置信息，得到当前跟踪目标，从而当完成所述待跟踪视频的处理时，得到至少一个当前跟踪目标之后，所述方法还包括：根据所述至少一个当前跟踪目标，确定所述目标对象的目标运动信息；

分析所述目标运动信息，确定针对所述目标对象的处理信息。

12.根据权利要求1、2、5至9任一项所述的方法，其特征在于，所述对当前搜索区域图像和所述模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；所述当前搜索区域图像为所述至少一个搜索区域图像中的任一搜索区域图像；对所述当前搜索初始特征和所述模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；比较所述当前自双线性特征和所述当前互双线性特征，得到相似性信息，包括：利用目标跟踪模型，对所述当前搜索区域图像和所述模板区域图像均进行特征提取，得到分别对应的所述当前搜索初始特征和所述模板初始特征；并对所述当前搜索初始特征和所述模板初始特征进行双线性特征的提取，得到所述当前自双线性特征和所述当前互双线性特征；以及比较所述当前自双线性特征和所述当前互双线性特征，得到所述相似性信息；

其中，所述目标跟踪模型为预先训练的用于确定针对所述目标对象而确定的输入图像之间的相似性的模型。

13.根据权利要求12所述的方法，其特征在于，所述利用目标跟踪模型，对所述当前搜索区域图像和所述模板区域图像均进行特征提取，得到分别对应的所述当前搜索初始特征和所述模板初始特征之前，所述方法还包括：获取训练样本对；所述训练样本对包括样本图像对和标注相似性信息，所述样本图像对包括模板区域样本图像和搜索区域样本图像；

利用原始目标跟踪模型，对所述搜索区域样本图像和所述模板区域样本图像均进行初始特征提取，得到分别对应的搜索初始特征和模板样本初始特征；并对所述搜索初始特征和所述模板样本初始特征均进行双线性特征的提取，得到样本自双线性特征和样本互双线性特征，比较所述样本自双线性特征和所述样本互双线性特征，得到预测相似性信息；

获取所述预测相似性信息与所述标注相似性信息的差异，得到损失函数值；利用所述损失函数值，持续训练所述原始目标跟踪模型，直到满足预设训练截止条件时，停止训练所述原始目标跟踪模型，得到所述目标跟踪模型。

14.一种目标跟踪设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至13任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至13任一项所述的方法。

一种目标跟踪方法、设备及存储介质

技术领域

[0001] 本发明涉及计算机视觉领域中的跟踪技术，尤其涉及一种目标跟踪方法、设备及存储介质。

背景技术

[0002] 目标跟踪是指对视频序列中的运动目标进行检测、提取、识别和跟踪，获得运动目标的运动参数，如位置、速度、加速度和运动轨迹等，从而进行下一步的处理与分析，实现对运动目标的行为理解，以完成更高一级的检测任务；目前，目标跟踪得到了广泛的应用。

[0003] 一般来说，为实现目标跟踪，通常先获取视频帧搜索区域的图像的初始特征，再将搜索区域的图像的初始特征与跟踪目标对应的模板区域的图像的初始特征匹配，最后根据匹配结果确定跟踪目标在搜索区域中的位置，从而完成目标跟踪。然而，上述实现目标跟踪的过程中，由于所采用的初始特征无法全面地表达搜索区域的图像的信息，因此，利用初始特征进行目标跟踪时，易受形变和/或背景的干扰，导致跟踪漂移；所以，目标跟踪的准确性差。

发明内容

[0004] 本发明实施例提供一种目标跟踪方法、设备及存储介质，能够提升目标跟踪的准确性。

[0005] 本发明实施例的技术方案是这样实现的：

[0006] 本发明实施例提供一种目标跟踪方法，包括：

[0007] 获取待跟踪视频，从所述待跟踪视频对应的帧序列的初始帧中，确定包括跟踪目标的模板区域图像；

[0008] 从所述帧序列的当前帧中，获取与前一跟踪目标对应的至少一个搜索区域图像；所述当前帧为所述帧序列中除所述初始帧之外的任一帧，所述前一跟踪目标为所述跟踪目标对应的目标对象在所述当前帧的前一帧中的位置信息；

[0009] 对当前搜索区域图像和所述模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；所述当前搜索区域图像为所述至少一个搜索区域图像中的任一搜索区域图像；

[0010] 对所述当前搜索初始特征和所述模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；

[0011] 比较所述当前自双线性特征和所述当前互双线性特征，得到相似性信息，从而当完成所述至少一个搜索区域图像的处理时，得到至少一个相似性信息；

[0012] 基于所述至少一个相似性信息从所述至少一个搜索区域图像中确定所述目标对象的位置信息，得到当前跟踪目标，从而当完成所述待跟踪视频的处理时，得到至少一个当前跟踪目标。

[0013] 上述方案中，利用损失函数值，持续训练原始目标跟踪模型，直到满足预设训练截止条件时，停止训练原始目标跟踪模型，得到目标跟踪模型之后，目标跟踪方法还包括：

[0014] 当获取到新的训练样本对时，利用新的训练样本对对目标跟踪模型进行优化；

[0015] 相应地，利用目标跟踪模型，对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；并对当前搜索初始特征和模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；以及比较当前自双线性特征和当前互双线性特征，得到相似性信息，包括：

[0016] 利用优化后的目标跟踪模型，对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；并

[0017] 对当前搜索初始特征和模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；以及

[0018] 比较当前自双线性特征和当前互双线性特征，得到相似性信息。

[0019] 本发明实施例提供一种目标跟踪装置，包括：

[0020] 图像获取模块，用于获取待跟踪视频，从所述待跟踪视频对应的帧序列的初始帧中，确定包括跟踪目标的模板区域图像；从所述帧序列的当前帧中，获取与前一跟踪目标对应的至少一个搜索区域图像；所述当前帧为所述帧序列中除所述初始帧之外的任一帧，所述前一跟踪目标为所述跟踪目标对应的目标对象在所述当前帧的前一帧中的位置信息；

[0021] 初始特征模块，用于对当前搜索区域图像和所述模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；所述当前搜索区域图像为所述至少一个搜索区域图像中的任一搜索区域图像；

[0022] 双线性特征模块，用于对所述当前搜索初始特征和所述模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；

[0023] 相似性模块，用于比较所述当前自双线性特征和所述当前互双线性特征，得到相似性信息，从而当完成所述至少一个搜索区域图像的处理时，得到至少一个相似性信息；

[0024] 目标跟踪模块，用于基于所述至少一个相似性信息从所述至少一个搜索区域图像中确定所述目标对象的位置信息，得到当前跟踪目标，从而当完成所述待跟踪视频的处理时，得到至少一个当前跟踪目标。

[0025] 本发明实施例提供一种目标跟踪设备，包括：

[0026] 存储器，用于存储可执行指令；

[0027] 处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的目标跟踪方法。

[0028] 本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的目标跟踪方法。

[0029] 本发明实施例具有以下有益效果：由于目标跟踪结果是通过获取搜索区域图像和模板区域图像对应的双线性特征，进而通过双线性特征确定的；而双线性特征具备更强的特征表示，能够从细微特征上区分跟踪目标与其他信息；因此，所获得的目标跟踪结果即至少一个当前跟踪目标的准确性高，从而提升了目标跟踪的准确性。

附图说明

[0030] 图1是本发明实施例提供的目标跟踪系统的一个可选的架构示意图；

[0031] 图2是本发明实施例提供的一种图1中的服务器的结构示意图；

[0032] 图3是本发明实施例提供的目标跟踪方法的一个可选的流程示意图；

[0033] 图4是本发明实施例提供的目标跟踪方法的另一个可选的流程示意图；

[0034] 图5是本发明实施例提供的一种示例性的获取模板区域图像的示意图；

[0035] 图6是本发明实施例提供的一种示例性的获取至少一个搜索区域图像的示意图；

[0036] 图7是本发明实施例提供的目标跟踪方法的又一个可选的流程示意图；

[0037] 图8是本发明实施例提供的获取目标跟踪模型的一个可选的流程示意图；

[0038] 图9是本发明实施例提供的获取目标跟踪模型的另一个可选的流程示意图；

[0039] 图10是本发明实施例提供的一种示例性的目标跟踪应用示意图；

[0040] 图11是本发明实施例提供的一种示例性的获取相似性信息的示意图。

具体实施方式

[0041] 为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

[0042] 在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

[0043] 在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

[0044] 除非另有定义，本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

[0045] 对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

[0046] 1）人工智能（Artificial Intelligence，AI），是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

[0047] 2）机器学习（Machine Learning，ML），是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能；重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

[0048] 3）人工神经网络，是一种模仿生物神经网络结构和功能的数学模型，本文中人工神经网络的示例性结构包括深度神经网络（Deep Neural Networks， DNN）、卷积神经网络（Convolutional Neural Network，CNN）和循环神经网络（Recurrent Neural Network，RNN）等。其中，DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层，并且层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连；在信息推荐领域中，能够对用户进行合理的兴趣推测和衍生，提升内容多样性。

[0049] 4）损失函数，又称代价函数，是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数；而损失函数即通过损失函数计算得到的值。

[0050] 5）孪生跟踪网络（Siamese Tracking Network），由模板分支和搜索分支组成，以通过模板分支和搜索分支两分支的相关运算得到跟踪预测结果；其中，模板分支用于对模板区域的图像进行处理，搜索分支用于对搜索区域的图像进行处理。

[0051] 6）双线性特征（Bilinear Feature），两个初始特征（比如，两个一阶特征描述子）进行特征处理（比如，外积）所得到的特征；双线性特征形式为XAY，其中，X和Y即为两个初始特征一阶特征描述子；另外，本发明实施例中的双线性特征包括自双线性特征（Self-Bilinear Feature）和互双线性特征（Inter-Bilinear Feature），而自双线性特征指在孪生跟踪网络任一分支内部进行提取的双线性特征，互双线性特征指通过孪生跟踪网络两分支交互产生的双线性特征。

[0052] 一般来说，为实现目标跟踪，通常先获取视频帧搜索区域的图像的初始特征，再将搜索区域的图像的初始特征与跟踪目标对应的模板区域的图像的初始特征匹配，最后根据匹配结果确定跟踪目标在搜索区域中的位置，从而完成目标跟踪；比如，基于相关滤波的目标跟踪方法，基于孪生网络的目标跟踪方法。然而，上述实现目标跟踪的过程中，由于所采用的初始特征无法全面地表达搜索区域的图像，没有充分挖掘深度特征的潜力；因此，利用初始特征进行目标跟踪时，易受相似背景的干扰，导致跟踪漂移，另外，也无法针对非刚体目标在跟踪过程中的剧烈形变实现准确跟踪；所以，目标跟踪的准确性差。

[0053] 另外，针对目标跟踪，还可以采用基于部件匹配的目标跟踪方法，即将跟踪目标划分为多个部件进行分别跟踪；然而，由于需要跟踪的目标的种类繁多，部件如何划分在实际情况中很难设计；并且，基于部件匹配的计算量大，从而，跟踪效率低。

[0054] 此外，针对目标跟踪，又可以通过跟踪目标在初始帧的目标框，微调该目标框，在当前帧中产生多个候选框，然后对多个候选框进行特征提取、分类和目标框回归，从而进行前景背景判断和回归定位，来实现目标跟踪；比如，基于MDNet的目标跟踪方法。然而，上述实现目标跟踪的方法中，是一种二阶段回归跟踪方法，需要对目标框进行微调，而且需要产生大量候选框，并对所有候选框进行分类和回归，效率较低。

[0055] 基于此，本发明实施例提供一种目标跟踪方法、设备及存储介质，能够充分挖掘跟踪任务中特征的潜力，通过特征编码，实现从初始特征到双线性特征的快速获取，效率高，且利用双线性特征进行目标跟踪的准确度高。

[0056] 下面说明本发明实施例提供的目标跟踪设备的示例性应用，本发明实施例提供的目标跟踪设备可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，也可以实施为服务器。下面，将说明目标跟踪设备实施为服务器时的示例性应用。

[0057] 参见图1，图1是本发明实施例提供的目标跟踪系统的一个可选的架构示意图；在该目标跟踪系统100中，为支撑一个目标跟踪应用，终端200通过网络300连接服务器400，网络300可以是广域网或者局域网，又或者是二者的组合。

[0058] 终端200，用于通过网络300从服务器400中获取处理信息，并在图形界面210上显示。

[0059] 服务器400，用于从待跟踪视频对应的帧序列的初始帧中，确定包括跟踪目标的模板区域图像，并从帧序列的当前帧中，获取与前一跟踪目标对应的至少一个搜索区域图像；当前帧为帧序列中除初始帧之外的任一帧，前一跟踪目标为跟踪目标对应的目标对象在当前帧的前一帧中的位置信息；对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；当前搜索区域图像为至少一个搜索区域图像中的任一搜索区域图像；对当前搜索初始特征和模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；比较当前自双线性特征和当前互双线性特征，得到相似性信息，从而得到与至少一个搜索区域图像对应的至少一个相似性信息；基于至少一个相似性信息从至少一个搜索区域图像中确定当前跟踪目标，从而得到目标对象在待跟踪视频中的至少一个当前跟踪目标。另外，还用于根据至少一个当前跟踪目标通过网络300向终端200发送处理信息。

[0060] 参见图2，图2是本发明实施例提供的一种图1中的服务器的结构示意图，图2所示的服务器400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。服务器400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

[0061] 处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

[0062] 用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

[0063] 存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本发明实施例描述的存储器450旨在包括任意适合类型的存储器。存储器450可选地包括在物理位置上远离处理器 410的一个或多个存储设备。

[0064] 在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

[0065] 操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

[0066] 网络通信模块452，用于经由一个或多个（有线或无线）网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证（Wi-Fi）、和通用串行总线（USB，Universal Serial Bus）等；

[0067] 显示模块453，用于经由一个或多个与用户接口430相关联的输出装置431（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作外围设备和显示内容和信息的用户接口）；

[0068] 输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

[0069] 在一些实施例中，本发明实施例提供的目标跟踪装置可以采用软件方式实现，图2示出了存储在存储器450中的目标跟踪装置455，其可以是程序和插件等形式的软件，包括以下软件模块：图像获取模块4551、初始特征模块4552、双线性特征模块4553、相似性模块4554、目标跟踪模块4555、应用模块4556、模型训练模块4557和模型优化模块4558，将在下文中说明各个模块的功能。

[0070] 在另一些实施例中，本发明实施例提供的目标跟踪装置可以采用硬件方式实现，作为示例，本发明实施例提供的目标跟踪装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的目标跟踪方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件。

[0071] 下面，将结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的目标跟踪方法。

[0072] 参见图3，图3是本发明实施例提供的目标跟踪方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

[0073] S101、获取待跟踪视频，从待跟踪视频对应的帧序列的初始帧中，确定包括跟踪目标的模板区域图像。

[0074] 在本发明实施例中，当目标跟踪设备进行目标跟踪时，获取待处理的对象，也就获得了待跟踪视频；接着，从待跟踪视频中进行目标对象的跟踪时，也就获得了跟踪目标；此时，目标跟踪设备在待跟踪视频对应的帧序列的第一帧（即初始帧）中，截取包括跟踪目标的区域，也就获得了模板区域图像。

[0075] S102、从帧序列的当前帧中，获取与前一跟踪目标对应的至少一个搜索区域图像；当前帧为帧序列中除初始帧之外的任一帧，前一跟踪目标为跟踪目标对应的目标对象在当前帧的前一帧中的位置信息。

[0076] 在本发明实施例中，目标跟踪设备对帧序列中初始帧的后续帧进行遍历，以依次确定跟踪目标的运动信息；遍历过程中，对于每个当前帧，目标跟踪设备获取前一帧的跟踪结果即前一跟踪目标，并在当前帧中截取至少一个包括前一跟踪目标的区域，也就获得了至少一个搜索区域图像。

[0077] 需要说明的是，待跟踪视频是由多个视频帧按照一定序列组成的，因此，通过对待跟踪视频进行解码，就能获得待跟踪视频对应的帧序列，即按一定序列排列的多个视频帧。易知，当前帧为待跟踪的视频帧，为帧序列中除初始帧之外的任一帧；前一帧为已完成跟踪的视频帧，为帧序列中除最后一个视频帧之外的任一帧。此外，跟踪目标为目标对象在初始帧中的位置信息，前一跟踪目标为跟踪目标对应的目标对象在当前帧的前一帧中的位置信息；以及，这里的位置信息可以是一个点，还可以是一个区域，等等，本发明实施例对此不作具体限定。另外，至少一个搜索区域图像在大小上可以相同，也可以不同，等等，本发明实施例对此不作具体限定。

[0078] S103、对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；当前搜索区域图像为至少一个搜索区域图像中的任一搜索区域图像。

[0079] 在本发明实施例中，目标跟踪设备获得了至少一个搜索区域图像之后，对至少一个搜索区域图像进行遍历，以依次确定各搜索区域图像中目标对象的位置信息；遍历过程中，对于每个当前搜索区域图像，目标跟踪设备将当前搜索区域图像和模板区域图像组合，分别进行特征的提取，即对当前搜索区域图像和模板区域图像均进行特征提取，也就得到了与当前搜索区域图像对应的当前搜索初始特征，以及与模板区域图像对应的模板初始特征。

[0080] 需要说明的是，特征提取指获取初始特征和/或人工设计的特征的过程，这里的初始特征指利用网络模型获得的特征，比如为一阶深度特征；当前搜索初始特征为当前搜索区域图像的初始特征，模板初始特征为模板区域图像的初始特征。另外，易知，当前搜索区域图像为至少一个搜索区域图像中的任一搜索区域图像。

[0081] 此外，当至少一个搜索区域图像的大小不同时，为方便处理，将至少一个搜索区域图像缩放至同一大小之后，再执行后续的处理。

[0082] S104、对当前搜索初始特征和模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征。

[0083] 在本发明实施例中，目标跟踪设备对当前搜索初始特征和模板初始特征进行双线性特征的提取，所提取到的双线性特征即当前自双线性特征和当前互双线性特征；这里，当前自双线性特征和当前互双线性特征为获取到的用于确定当前搜索区域图像和模板区域图像之间的相似性的特征。

[0084] S105、比较当前自双线性特征和当前互双线性特征，得到相似性信息，从而当完成至少一个搜索区域图像的处理时，得到至少一个相似性信息。

[0085] 在本发明实施例中，由于双线性特征能够较好地表征当前搜索区域图像和模板区域图像，因此，目标跟踪设备获得了当前自双线性特征和当前互双线性特征之后，就能够通过相似性运算，得到关于当前搜索区域图像和模板区域图像之间的相似性信息；从而当目标跟踪设备完成了至少一个搜索区域图像与模板区域图像的对比处理时，即完成了至少一个搜索区域图像的处理时，针对至少一个搜索区域图像，也就能够得到至少一个相似性信息。

[0086] 这里，相似性信息表征当前搜索区域图像和模板区域图像之间的相似性的信息，比如，相关响应图；至少一个相似性信息表征至少一个搜索区域图像中的每个搜索区域图像与模板区域图像之间的相似性的信息所构成的集合。

[0087] 比如，目标跟踪设备，可以利用相关滤波层求相关响应图来得到相似性信息，还可以通过RPN（Region Proposal Network）层来得到相似性信息。

[0088] S106、基于至少一个相似性信息从至少一个搜索区域图像中确定目标对象的位置信息，得到当前跟踪目标，从而当完成待跟踪视频的处理时，得到至少一个当前跟踪目标。

[0089] 在本发明实施例中，目标跟踪设备获得了至少一个相似性信息之后，从至少一个搜索区域图像中确定一个相似性最高的搜索区域图像，并根据该确定的搜索区域图像确定目标对象的位置信息，得到当前跟踪目标，也就完成了在当前帧中对目标对象的跟踪；从而，当目标跟踪设备完成对后续帧的目标跟踪之后，也就完成了在后续帧中对目标对象的跟踪，即完成了待跟踪视频的处理，此时，也就得到了至少一个视频帧（帧序列的至少一个视频帧）对应的至少一个当前跟踪目标，即目标跟踪结果；易知，至少一个当前跟踪目标包括跟踪目标、前一跟踪目标和当前跟踪目标。

[0090] 需要说明的是，目标跟踪设备还可以对模板区域图像和至少一个搜索区域图像同时进行特征提取、空间通道压缩、特征整合和相似性获取，来得到至少一个相似性信息；本发明实施例对此不作具体限定。

[0091] 可以理解的是，本发明实施例通过对初始特征进一步提取特征并整合，得到双线性特征；进而，基于双线性特征实现目标对象在待跟踪视频中的目标跟踪；这里，由于双线性特征的表征能力强，因此，获得的目标跟踪结果的准确性高；另外，双线性特征通过对初始特征进一步提取特征并整合就能够得到，方便获取，且计算量小，实时性强，能够较好地适应于目标跟踪的应用中，充分挖掘了目标跟踪任务中初始特征的潜力。

[0092] 进一步地，参见图4，图4是本发明实施例提供的目标跟踪方法的另一个可选的流程示意图；如图4所示，在本发明实施例中，S104可通过S1041-S1042实现；也就是说，模板跟踪设备对所述当前搜索初始特征和所述模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征，包括：S1041-S1042，下面结合图4示出的步骤进行说明。

[0093] S1041、对当前搜索初始特征和模板初始特征均进行空间通道压缩，得到与当前搜索初始特征对应的当前搜索空间特征和当前搜索通道特征，以及与模板初始特征对应的模板空间特征和模板通道特征。

[0094] 在本发明实施中，目标跟踪设备获得了当前搜索初始特征和模板初始特征之后，分别进一步的进行特征的获取；从而，目标跟踪设备对当前搜索初始特征和模板初始特征均进行空间通道压缩，也就得到了与当前搜索初始特征对应的两种进一步获得的特征：当前搜索空间特征和当前搜索通道特征，以及与模板初始特征对应的两种进一步获得的特征：模板空间特征和模板通道特征。

[0095] 需要说明的是，当前搜索空间特征是当前搜索区域图像的空间特征，当前搜索通道特征是当前搜索区域图像的通道特征，模板空间特征是模板区域图像的空间特征，模板通道特征是模板区域图像的通道特征。

[0096] S1042、对模板空间特征、模板通道特征、当前搜索空间特征和当前搜索通道特征进行特征整合，得到当前自双线性特征和当前互双线性特征。

[0097] 在本发明实施例中，目标跟踪设备获得了模板空间特征、模板通道特征、当前搜索空间特征和当前搜索通道特征之后，就能够进行双线性特征的编码了；从而，目标跟踪设备对模板空间特征、模板通道特征、当前搜索空间特征和当前搜索通道特征进行特征整合，也就获得了当前自双线性特征和当前互双线性特征。

[0098] 这里，当前自双线性特征和当前互双线性特征均为双线性特征，当前自双线性特征为当前搜索区域图像和模板区域图像的自双线性特征的综合，当前互双线性特征为当前搜索区域图像和模板区域图像的互双线性特征的综合。

[0099] 进一步地，S101中目标跟踪设备从待跟踪视频对应的帧序列的初始帧中，确定包括跟踪目标的模板区域图像，从帧序列的当前帧中，获取与前一跟踪目标对应的至少一个搜索区域图像，包括S1011-S1013，下面对各步骤分别进行说明。

[0100] S1011、从待跟踪视频对应的帧序列的初始帧中，截取跟踪目标的所在区域，得到模板区域图像。

[0101] 在本发明实施例中，目标跟踪设备在执行目标跟踪任务时，也就明确了目标对象在初始帧中的位置信息，即跟踪目标；此时，目标跟踪设备通过将跟踪目标的所在区域从初始帧中进行截取，也就获得了模板区域图像。

[0102] 示例性地，参见图5，图5是本发明实施例提供的一种示例性的获取模板区域图像的示意图；如图5所示，当目标对象为用户A时，初始帧5-1中确定了跟踪目标5-11，将跟踪目标5-11截取下来，就得到了模板区域图像5-2。

[0103] S1012、在当前帧中，确定与前一跟踪目标对应的目标位置信息。

[0104] 需要说明的是，针对初始帧的后续帧中的每个视频帧，即当前帧，获取当前帧的前一帧的目标跟踪结果即前一跟踪目标，并确定该前一跟踪目标在当前帧中的位置信息，也就获得了目标位置信息。

[0105] S1013、以目标位置信息为中心，根据尺度步长，截取至少一个区域，得到与前一跟踪目标对应的至少一个搜索区域图像，尺度步长为预先设置的用于确定不同尺度的搜索区域的尺度间隔。

[0106] 在本发明实施例中，目标跟踪设备中预先设置有尺度步长，用于确定不同尺度的搜索区域；从而，目标跟踪设备获得了目标位置信息之后，以目标位置信息为中心，根据尺度步长，就能够确定至少一个区域，将该至少一个区域从当前帧中截取出来，也就得到了至少一个搜索区域图像。

[0107] 需要说明的是，搜索区域图像与模板区域图像在大小上可以相等，也可以不等；实际应用中，为提升目标跟踪的准确性，可选择搜索区域图像比模板区域图像稍大。

[0108] 示例性地，参见图6，图6是本发明实施例提供的一种示例性的获取至少一个搜索区域图像的示意图；如图6所示，当目标对象为用户A时，初始帧6-1中确定了跟踪目标6-11（前一跟踪目标），在第二帧6-2中，确定与跟踪目标6-11对应的目标位置信息6-21；进而，根据尺度步长（10个像素），确定三个搜索区域图像6-31、6-32和6-33，即至少一个搜索区域图像6-3。

[0109] 进一步地，在本发明实施例中，S103可通过S1031和S1032实现；也就是说，目标跟踪设备对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征，包括S1031和S1032，下面对各步骤分别进行说明。

[0110] S1031、对当前搜索区域图像和模板区域图像均进行整体特征提取，得到分别对应的当前搜索整体特征和模板整体特征。

[0111] 在本发明实施例中，目标跟踪设备在获取当前搜索区域图像和模板区域图像分别对应的初始特征时，先对当前搜索区域图像和模板区域图像的整体特征进行提取，也就得到了当前搜索区域图像的整体特征：当前搜索整体特征，以及模板区域图像的整体特征：模板整体特征。

[0112] 需要说明的是，整体特征提取指获取图像的整体的特征的处理过程，比如，利用特征提取器（CIResNet22或AlexNet或CIResInception22）提取特征的过程。

[0113] S1032、对当前搜索整体特征和模板整体特征均进行有效特征提取，得到分别对应的当前搜索初始特征和模板初始特征，从而完成对当前搜索区域图像和模板区域图像的特征提取。

[0114] 在本发明实施例中，由于当前搜索整体特征和模板整体特征均是分别对应的图像的整体信息对应的特征，包括背景信息和关于目标对象的信息；其中，背景信息是对目标跟踪无贡献且具有干扰性的信息，而关于目标对象的信息是用于目标跟踪的信息，是有效的信息；因此，这里，目标跟踪设备对当前搜索整体特征和模板整体特征分别进一步进行有效特征的提取，也就得到了当前搜索区域图像的初始特征：当前搜索初始特征，模板区域图像的初始特征：模板初始特征；此时，也就完成了对当前搜索区域图像和模板区域图像的特征提取。

[0115] 需要说明的是，有效特征提取指获取图像的对目标跟踪存在贡献性的特征的过程；比如，crop-inside操作。

[0116] 进一步地，在本发明实施例中，S1041可通过S10411-S10414实现；也就是说，目标跟踪设备对当前搜索初始特征和模板初始特征均进行空间通道压缩，得到与当前搜索初始特征对应的当前搜索空间特征和当前搜索通道特征，以及与模板初始特征对应的模板空间特征和模板通道特征，包括S10411-S10414，下面对各步骤分别进行说明。

[0117] S10411、对当前搜索初始特征进行空间压缩，得到当前搜索空间特征。

[0118] 在本发明实施例中，目标跟踪设备对当前搜索初始特征进行空间压缩，所获得的空间压缩结果即当前搜索空间特征；这里，当前搜索空间特征可以为全局特征。

[0119] S10412、对当前搜索初始特征进行通道压缩，得到当前搜索通道特征。

[0120] 在本发明实施中，目标跟踪设备同样对当前搜索初始特征进行通道压缩，所获得的通道压缩结果即当前搜索通道特征；这里，当前搜索通道特征可以为全局特征。

[0121] S10413、对模板初始特征进行空间压缩，得到模板空间特征。

[0122] 在本发明实施例中，目标跟踪设备对模板初始特征进行空间压缩，所获得的空间压缩结果即模板空间特征；这里，模板空间特征可以为全局特征。

[0123] S10414、对模板初始特征进行通道压缩，得到所模板通道特征，从而完成对模板初始特征和模板初始特征的空间通道压缩。

[0124] 在本发明实施中，目标跟踪设备同样对模板初始特征进行通道压缩，所获得的通道压缩结果即模板通道特征；这里，模板通道特征可以为全局特征；另外，当完成空间压缩和通道压缩之后，也就完成了对模板初始特征和模板初始特征的空间通道压缩。

[0125] 需要说明的是，S10411-S10414在执行顺序上可以是先后顺序，还可以是并行顺序，又可以是其他执行顺序，本发明实施例对此不作具体限定。

[0126] 进一步地，在本发明实施例中，S10411可通过S104111-S104113实现；也就是说，目标跟踪设备对当前搜索初始特征进行空间压缩，得到当前搜索空间特征，包括S104111-S104113，下面对各步骤分别进行说明。

[0127] S104111、对当前搜索初始特征进行卷积处理，得到当前搜索卷积特征。

[0128] 在本发明实施例中，目标跟踪设备对当前搜索初始特征进行空间压缩时，先对当前搜索初始特征进行卷积处理，所获得的卷积处理结果即当前搜索卷积特征。

[0129] 需要说明的是，卷积处理指利用通道数不变的卷积层对特征进行处理的过程，比如，利用1x1卷积层对当前搜索初始特征进行处理，并维持特征的通道数不变的处理。

[0130] S104112、对当前搜索卷积特征进行第一降通道处理，得到初始当前搜索空间特征。

[0131] 在本发明实施例中，目标跟踪设备获得了当前搜索卷积特征之后，再对当前搜索卷积特征进行第一降通道处理，所获得的第一降通道处理结果即初始当前搜索空间特征。

[0132] 需要说明的是，第一降通道处理指利用通道数降低为1的卷积层对特征进行处理的过程，比如，利用1x1卷积层对当前搜索卷积特征进行处理，并将特征通道数降至1的处理。

[0133] S104113、对初始当前搜索空间特征进行综合化处理，得到当前搜索空间特征，从而完成对当前搜索初始特征的空间压缩。

[0134] 在本发明实施例中，目标跟踪设备获得了初始当前搜索空间特征之后，再对初始当前搜索空间特征进行综合化处理，所获得的综合化处理结果即当前搜索空间特征；当完成了卷积处理、第一降通道处理和综合化处理时，也就完成了对当前搜索初始特征的空间压缩。

[0135] 需要说明的是，综合化处理指获取特征的全局特征的处理，比如，将特征变形为向量形式的特征的处理。

[0136] 同理，S10413中目标跟踪设备对模板初始特征进行空间压缩，得到模板空间特征，包括：目标跟踪设备对模板初始特征进行卷积处理，得到模板卷积特征；并对模板卷积特征进行第一降通道处理，得到初始模板空间特征；以及对初始模板空间特征进行综合化处理，得到模板空间特征，从而完成对模板初始特征的空间压缩。

[0137] 进一步地，在本发明实施例中，S10412可通过S104121-S104123实现；也就是说，目标跟踪设备对当前搜索初始特征进行通道压缩，得到当前搜索通道特征，包括S104121-S104123，下面对各步骤进行说明。

[0138] S104121、对当前搜索初始特征进行池化处理，得到当前搜索池化特征。

[0139] 在本发明实施例中，目标跟踪设备对当前搜索初始特征进行通道压缩时，先对当前搜索初始特征进行池化处理，所获得的池化处理结果即当前搜索池化特征。

[0140] 需要说明的是，池化处理用于对特征进行下采样降维、去除冗余信息和压缩等，以简化网络复杂度、减少计算量、减少内存消耗；比如，利用一个全局平均池化层进行的处理。

[0141] S104122、对当前搜索池化特征进行第二降通道处理，得到初始当前搜索通道特征。

[0142] 在本发明实施例中，目标跟踪设备获得了当前搜索池化特征之后，对该当前搜索池化特征进行第二降通道处理，所获得的第二降通道处理结果即初始当前搜索通道特征（比如，向量形式的特征）。

[0143] 需要说明的是，第二降通道处理指利用通道数减半的卷积层对特征进行处理的过程；比如，利用卷积层对当前搜索池化特征进行处理，并将特征通道数压缩一半的处理。

[0144] S104123、对初始当前搜索通道特征进行通道还原处理，得到当前搜索通道特征，从而完成对当前搜索初始特征的通道压缩。

[0145] 在本发明实施例中，目标跟踪设备获得了初始当前搜索通道特征之后，对该初始当前搜索通道特征进行通道还原处理，所获得的通道还原处理结果即当前搜索通道特征；当完成了池化处理、第二降通道处理和通道还原处理之后，也就完成了对当前搜索初始特征的通道压缩。

[0146] 需要说明的是，通道还原处理指利用通道数增半的卷积层对特征进行处理的过程；比如，利用卷积层对初始当前搜索通道特征进行处理，并将特征通道数增加一半的处理。

[0147] 同理，S10414中目标跟踪设备对模板初始特征进行通道压缩，得到模板通道特征，从而完成对模板初始特征的通道压缩，包括：目标跟踪设备对模板初始特征进行池化处理，得到模板池化特征；并对模板池化特征进行第二降通道处理，得到初始模板通道特征；以及对初始模板通道特征进行通道还原处理，得到模板通道特征，从而完成对模板初始特征的通道压缩。

[0148] 进一步地，在本发明实施例中，S1042可通过S10421-S10425实现；也就是说，目标跟踪设备对模板空间特征、模板通道特征、当前搜索空间特征和当前搜索通道特征进行特征整合，得到当前自双线性特征和当前互双线性特征，包括S10421-S10425，下面对各步骤进行说明。

[0149] S10421、对模板空间特征和模板通道特征进行双线性处理，得到当前模板自双线性特征。

[0150] 在本发明实施例中，目标跟踪设备进行特征整合时，针对模板区域图像，将模板空间特征和模板通道特征进行双线性处理，来获得对应的自双线性特征，即当前模板自双线性特征。

[0151] S10422、对当前搜索空间特征和当前搜索通道特征进行双线性处理，得到当前搜索自双线性特征。

[0152] 在本发明实施例中，目标跟踪设备针对搜索区域图像，将当前搜索空间特征和当前搜索通道特征进行双线性处理，来获得对应的自双线性特征，即当前搜索自双线性特征。

[0153] S10423、对模板空间特征和当前搜索通道特征进行双线性处理，得到当前模板互双线性特征。

[0154] 在本发明实施例中，目标跟踪设备针对模板区域图像，将模板区域图像对应的模板空间特征和当前搜索区域图像对应的当前搜索通道特征交互，以进行双线性处理，来获得对应的互双线性特征，即当前模板互双线性特征。

[0155] S10424、对当前搜索空间特征和模板通道特征进行双线性处理，得到当前搜索互双线性特征。

[0156] 在本发明实施例中，目标跟踪设备针对当前搜索区域图像，将当前搜索区域图像对应的当前搜索空间特征和模板区域图像对应的模板通道特征交互，以进行双线性处理，来获得对应的互双线性特征，即当前搜索互双线性特征。

[0157] S10425、将当前模板自双线性特征和当前搜索自双线性特征叠加为当前自双线性特征，将当前模板互双线性特征和当前搜索互双线性特征叠加为当前互双线性特征，从而完成对模板空间特征、模板通道特征、当前搜索空间特征和当前搜索通道特征的特征整合。

[0158] 在本发明实施例中，目标跟踪设备针对获得的当前模板自双线性特征、当前搜索自双线性特征、当前模板互双线性特征和当前搜索互双线性特征，进一步进行叠加处理。

[0159] 这里，目标跟踪设备将自双线性特征进行叠加，即将当前模板自双线性特征和当前搜索自双线性特征叠加，所获得的叠加结果即当前自双线性特征；将互双线性特征进行叠加，即将当前模板互双线性特征和当前搜索互双线性特征叠加，所获得的叠加结果即当前互双线性特征。

[0160] 此外，叠加的过程即特征融合的过程；比如，可以是自适应加权平均和多层特征融合等方式。

[0161] 需要说明的是，当完成了双线性处理和叠加处理后，也就完成了对模板空间特征、模板通道特征、当前搜索空间特征和当前搜索通道特征的特征整合。

[0162] 进一步地，在本发明实施例中，S10421可通过S104211和S104212实现；也就是说，目标跟踪设备对模板空间特征和模板通道特征进行双线性处理，得到当前模板自双线性特征，包括S104211和S104212，下面对各步骤分别进行说明。

[0163] S104211、对模板空间特征和模板通道特征进行乘处理，得到初始当前模板自双线性特征。

[0164] 在本发明实施例中，目标跟踪设备对模板空间特征和模板通道特征进行双线性处理时，先将获得的模板空间特征和模板通道特征进行乘处理，所获得的乘处理结果即初始当前模板自双线性特征。

[0165] 需要说明的是，乘处理指特征之间的乘运算方式，比如，矩阵乘法和外积等；另外，为了能够进行乘处理，可能在进行乘处理之前还需要对特征进行预处理，比如，对模板空间特征进行转置处理，得到一个行向量。

[0166] S104212、对初始当前模板自双线性特征进行形变处理，得到当前模板自双线性特征。

[0167] 在本发明实施例中，目标跟踪设备获得了初始当前模板自双线性特征之后，对初始当前模板自双线性特征进行形变处理，以与初始特征的形式相同；这里，所获得的形变处理结果即当前模板自双线性特征。

[0168] 同理，S10422中目标跟踪设备对当前搜索空间特征和当前搜索通道特征进行双线性处理，得到当前搜索自双线性特征，包括：目标跟踪设备对当前搜索空间特征和当前搜索通道特征进行乘处理，得到初始当前搜索自双线性特征；并对初始当前搜索自双线性特征进行形变处理，得到当前搜索自双线性特征。

[0169] 同理，S10423中目标跟踪设备对模板空间特征和当前搜索通道特征进行双线性处理，得到当前模板互双线性特征，包括：目标跟踪设备对模板空间特征和当前搜索通道特征进行乘处理，得到初始当前模板互双线性特征；并对初始当前模板互双线性特征进行形变处理，得到当前模板互双线性特征。

[0170] 同理，S10424中目标跟踪设备对当前搜索空间特征和模板通道特征进行双线性处理，得到当前搜索互双线性特征，包括：目标跟踪设备对当前搜索空间特征和模板通道特征进行乘处理，得到初始当前搜索互双线性特征；并对初始当前搜索互双线性特征进行形变处理，得到当前搜索互双线性特征。

[0171] 进一步地，在本发明实施例中，S106中目标跟踪设备基于至少一个相似性信息从至少一个搜索区域图像中确定目标对象的位置信息，得到当前跟踪目标，包括S1061-S1064，下面对各步骤分别进行说明。

[0172] S1061、从至少一个相似性信息中选择相似性最高的相似性信息，得到目标相似性信息。

[0173] 在本发明实施例中，目标跟踪设备获得了至少一个相似性信息之后，从至少一个相似性信息中选择一个相似性最高的相似性信息，也就获得了目标相似性信息；也就是说，目标相似性信息为至少一个相似性信息中相似性最高的相似性信息。

[0174] 需要说明的是，为使至少一个相似性信息之间具备可比较性，还可以（对缩放处理了的至少一个搜索区域图像，将至少一个相似性信息进行上采样到原图后再进行下面的处理）将至少一个相似性信息与预设的余弦窗进行固定权重的加权求和得到相似得分，相似得分最高的相似性信息即相似性最高的相似性信息。

[0175] S1062、从至少一个搜索区域图像中，确定与目标相似性信息匹配的搜索区域图像，得到目标搜索区域图像。

[0176] 需要说明的是，至少一个相似性信息与至少一个搜索区域图像信息一一对应；从而，目标跟踪设备从至少一个搜索区域图像中，能够确定到与目标相似性信息匹配的搜索区域图像；此时，也就获得了目标搜索区域图像。

[0177] S1063、计算目标搜索区域图像和前一跟踪目标的更新率，得到当前更新率，获取历史更新率；历史更新率为当前帧之前的视频帧所对应的更新率。

[0178] 在本发明实施例中，目标跟踪设备比较目标搜索区域图像和前一跟踪目标之间的变化，就能够获得目标搜索区域图像和前一跟踪目标的更新率，即当前更新率；另外，目标跟踪设备还可以获取当前帧的前至少一个帧对应的历史更新率，比如，前一帧的更新率0.3，前二帧的更新率0.5。这里，历史更新率为当前帧之前的视频帧所对应的更新率。

[0179] S1064、综合当前更新率和历史更新率，对目标搜索区域图像进行位置调整，得到当前跟踪目标。

[0180] 需要说明的是，为了进一步准确地确定当前帧的目标跟踪结果，目标跟踪设备综合当前更新率和历史更新率两方面考虑，进行目标搜索区域图像的位置调整，得到当前帧的目标跟踪结果，也就得到了当前跟踪目标。

[0181] 进一步地，参见图7，图7是本发明实施例提供的目标跟踪方法的又一个可选的流程示意图；如图7所示，在本发明实施例中，S106之后，还包括S107和S108；也就是说，目标跟踪设备基于至少一个相似性从至少一个搜索区域图像中确目标对象的位置信息，得到当前跟踪目标，从而当完成待跟踪视频的处理时，得到至少一个当前跟踪目标之后，该目标跟踪方法还包括S107和S108，下面将结合图7示出的步骤进行说明。

[0182] S107、根据至少一个当前跟踪目标，确定目标对象的目标运动信息。

[0183] 在本发明实施例中，目标跟踪设备获得了至少一个当前跟踪目标之后，由于至少一个当前跟踪目标表征了目标对象在待跟踪视频中的动态变化信息的跟踪结果；因此，能够根据至少一个当前跟踪目标，获得目标对象在待跟踪视频中的运行信息，也就获得了目标运动信息。

[0184] S108、分析目标运动信息，确定针对目标对象的处理信息。

[0185] 在本发明实施例中，目标跟踪设备获得了该目标运动信息之后，通过分析目标运动信息，就能够明确目标对象的运动轨迹，进而针对目标对象的运动轨迹确定对应的处理信息。

[0186] 需要说明的是，目标跟踪方法可以应用于无人零售、自动驾驶、人机交互和视频监控等应用场景中。

[0187] 进一步地，在本发明实施例中，目标跟踪设备对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；当前搜索区域图像为至少一个搜索区域图像中的任一搜索区域图像；对当前搜索初始特征和模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；比较当前自双线性特征和当前互双线性特征，得到相似性信息，包括：利用目标跟踪模型，对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；并对当前搜索初始特征和模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；以及比较当前自双线性特征和当前互双线性特征，得到相似性信息；其中，目标跟踪模型为预先训练的用于确定针对目标对象而确定的输入图像之间的相似性的模型。

[0188] 需要说明的是，目标跟踪设备利用预先训练好的模型即目标跟踪模型进行相似性信息的获取；这里，目标跟踪模型为孪生网络结构，不同的网络分支分别对模板区域图像和至少一个搜索区域图像进行处理；通过将双线性特征应用在孪生网络结构中，提升了双线性特征的获取效率。

[0189] 进一步地，在本发明实施例中，目标跟踪设备利用目标跟踪模型，对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征之前，还包括训练获得目标跟踪模型的过程；也就是说，参见图8，图8是本发明实施例提供的获取目标跟踪模型的一个可选的流程示意图；下面将结合图8示出的步骤进行说明。

[0190] S109、获取训练样本对；训练样本对包括样本图像对和标注相似性信息，样本图像对包括模板区域样本图像和搜索区域样本图像。

[0191] 在本发明实施例中，目标跟踪设备获取目标跟踪数据集（比如，GOT10K数据集，或数据集组合），并基于目标跟踪数据集选取模板区域样本图像，以及选取相隔不远的帧中截取搜索区域样本图像，再结合以中心及附近区域为1，边缘区域为0的标注相似性信息，来获得训练样本对。

[0192] S110、利用原始目标跟踪模型，对搜索区域样本图像和模板区域样本图像均进行初始特征提取，得到分别对应的搜索初始特征和模板样本初始特征；并对搜索初始特征和模板样本初始特征进行双线性特征的提取，得到样本自双线性特征和样本互双线性特征，比较样本自双线性特征和样本互双线性特征，得到预测相似性信息。

[0193] 需要说明的是，原始目标跟踪模型为待训练的模型；另外，由于利用原始目标跟踪模型对搜索区域样本图像和模板区域样本图像进行处理获得预测相似性信息的过程，与上述对搜索区域样本图像和模板区域样本图像进行处理获得预测相似性信息的过程类似，本发明实施例在此不再赘述。

[0194] S111、获取预测相似性信息与标注相似性信息的差异，得到损失函数值；并利用损失函数值，持续训练原始目标跟踪模型，直到满足预设训练截止条件时，停止训练原始目标跟踪模型，得到目标跟踪模型。

[0195] 在本发明实施例中，目标跟踪设备为了确定原始目标跟踪模型的处理能力，通过比较预测相似性信息与标注相似性信息就能实现；这里，目标跟踪设备获取预测相似性信息与标注相似性信息的差异，根据获取的差异和预设的损失函数（比如，交叉熵损失），也就得到了损失函数值；接下来，就可以利用该损失函数值对原始目标跟踪模型进行迭代训练了（比如，通过随机梯度下降方法优化原始目标跟踪模型的网络参数）。

[0196] 需要说明的是，预设训练截止条件可以是获取到的损失函数值小于预设阈值，还可以是其他的判断条件，本发明实施例对此不作具体限定。

[0197] 还需要说明的是，本发明实施例中所提到的模型可以为人工神经网络模型，还可以为其他网络模型，本发明实施例对此不作具体限定。

[0198] 进一步地，在本发明实施例中，S111之后还包括S112；也就是说，目标跟踪设备利用损失函数值，持续训练原始目标跟踪模型，直到满足预设训练截止条件时，停止训练原始目标跟踪模型，得到目标跟踪模型，包括S112；参见图9，图9是本发明实施例提供的获取目标跟踪模型的另一个可选的流程示意图；下面将结合图9示出的步骤进行说明。

[0199] S112、当获取到新的训练样本对时，利用新的训练样本对对目标跟踪模型进行优化。

[0200] 需要说明的是，当目标跟踪设备获得了目标跟踪模型时，还可以通过获取新的训练样本对对目标跟踪模型进行优化，以提升目标跟踪模型的泛化能力。

[0201] 在本发明实施例中，当目标跟踪设备获得了新的训练样本对之后，能够基于新的训练样本优化目标跟踪模型，以利用优化后的目标跟踪模型进行目标跟踪。这里，优化过程与训练得到目标跟踪模型的过程类似，本发明实施例在此不再赘述。

[0202] 相应地，利用目标跟踪模型，对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；并对当前搜索初始特征和模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；以及比较当前自双线性特征和当前互双线性特征，得到相似性信息，包括：利用优化后的目标跟踪模型，对当前搜索区域图像和模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；并对当前搜索初始特征和模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；以及比较当前自双线性特征和当前互双线性特征，得到相似性信息。

[0203] 可以理解的是，目标跟踪设备通过不断对目标跟踪模型进行优化，能够提升优化后的目标跟踪模型的泛化能力，进而基于优化后的目标跟踪模型实现目标跟踪时，能够进一步提升目标跟踪的效果。

[0204] 下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

[0205] 示例性地，在无人零售的应用场景中，需要确定用户A在无人零售商店的运动信息，以确定用户A（目标对象）的购买习惯。参见图10，图10是本发明实施例提供的一种示例性的目标跟踪应用示意图；如图10所示，在给定的购物视频中（待跟踪视频），首帧（初始帧）中给定了目标框（跟踪目标），易知，目标框中包含用户A，从首帧中根据目标框获取模板区域图像（具体过程参见图5）；并从第二帧中以目标框的中心位置（目标位置信息）为中心，根据预设尺度步长截取两个尺度比模板区域图像稍大的搜索区域图像，也就得到了两个搜索区域图像（至少一个搜索区域图像，具体过程参见图6）；针对模板区域图像和至少一个搜索区域图像进行如下处理，以获得至少一个相关响应图（至少一个相似性信息）；进而从至少一个相关响应图中，选择相关响应图的响应最大的搜索区域图像，得到目标搜索区域图像；最后，根据一定更新率改变目标搜索区域图像的尺寸和中心位置，得到第二帧中的目标跟踪结果（当前跟踪目标）。接下来，当获得了第二帧到最后一帧的目标跟踪时，也就获得了用户A在购物视频中的目标跟踪结果（至少一个当前跟踪目标）；此时，也就能够根据用户A在购物视频中的目标跟踪结果，确定用户A在无人零售商店的运动信息了，再结合商品摆放位置，就能够确定用户A的购买习惯了。

[0206] 下面，继续进一步说明上述示例性应用的处理步骤。参见图11，图11是本发明实施例提供的一种示例性的获取相似性信息的示意图；如图11所述，采用具有两个网络分支的孪生跟踪网络（目标跟踪模型）对模板区域图像11-11（图10中的模板区域图像）和当前搜索区域图像11-12（图10中的两个搜索区域图像中的第一个搜索区域图像）进行处理。首先，利用特征提取器11-21对模板区域图像11-11进行特征提取，得到初始特征11-31（模板初始特征）；同时，利用特征提取器11-22对当前搜索区域图像11-12进行特征提取，得到初始特征11-32（当前搜索初始特征）。

[0207] 其次，利用空间分支11-311对初始特征11-31进行空间压缩，得到空间特征11-411（模板空间特征）；同时，利用通道分支11-312对初始特征11-31进行通道压缩，得到通道特征11-412（模板通道特征）。同理，利用空间分支11-321对初始特征11-32进行空间压缩，得到空间特征11-421（当前搜索空间特征）；同时，利用通道分支11-322对初始特征11-32进行通道压缩，得到通道特征11-422（当前搜索通道特征）。

[0208] 然后，空间特征11-411和通道特征11-412组合，得到当前模板自双线性特征11-511；同时，空间特征11-411和通道特征11-422组合，得到当前模板互双线性特征11-512。同理，空间特征11-421和通道特征11-422组合，得到当前搜索自双线性特征11-521；同时，空间特征11-421和通道特征11-412组合，得到当前搜索互双线性特征11-522。

[0209] 再后，将当前模板自双线性特征11-511和当前搜索自双线性特征11-521叠加，得到最终的自双线性特征11-61（当前自双线性特征）；同时，将当前模板互双线性特征11-512和当前搜索互双线性特征11-522叠加，得到最终的互双线性特征11-62（当前互双线性特征）。

[0210] 最后，利用相关滤波层11-7计算最终的自双线性特征11-61和最终的互双线性特征11-62的相关响应图11-8（相似性信息）。

[0211] 基于上述描述，针对模板区域图像信息和第二个搜索区域图像，同样也能够获得对应的一个相关响应图。

[0212] 可以理解的是，通过本发明实施例，在保证目标跟踪效率的情况下，通过编码双线性特征（双线性特征归一化和初始特征组合），能够从细微但重要的细节上区分目标对象和相似背景；并且，双线性特征在目标跟踪模型的应用，使得目标跟踪模型在进行目标跟踪时，能够具备更强的抗目标对象形变干扰的能力，提升了目标跟踪的鲁棒性和准确性，不容易发生跟踪漂移。

[0213] 下面继续说明本发明实施例提供的目标跟踪装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的目标跟踪装置455中的软件模块可以包括：

[0214] 图像获取模块4551，用于获取待跟踪视频，从所述待跟踪视频对应的帧序列的初始帧中，确定包括跟踪目标的模板区域图像；从所述帧序列的当前帧中，获取与前一跟踪目标对应的至少一个搜索区域图像；所述当前帧为所述帧序列中除所述初始帧之外的任一帧，所述前一跟踪目标为所述跟踪目标对应的目标对象在所述当前帧的前一帧中的位置信息；

[0215] 初始特征模块4552，用于对当前搜索区域图像和所述模板区域图像均进行特征提取，得到分别对应的当前搜索初始特征和模板初始特征；所述当前搜索区域图像为所述至少一个搜索区域图像中的任一搜索区域图像；

[0216] 双线性特征模块4553，用于对所述当前搜索初始特征和所述模板初始特征进行双线性特征的提取，得到当前自双线性特征和当前互双线性特征；

[0217] 相似性模块4554，用于比较所述当前自双线性特征和所述当前互双线性特征，得到相似性信息，从而当完成所述至少一个搜索区域图像的处理时，得到至少一个相似性信息；

[0218] 目标跟踪模块4555，用于基于所述至少一个相似性信息从所述至少一个搜索区域图像中确定所述目标对象的位置信息，得到当前跟踪目标，从而当完成所述待跟踪视频的处理时，得到至少一个当前跟踪目标。

[0219] 进一步地，所述双线性特征模块4553，还用于对所述当前搜索初始特征和所述模板初始特征均进行空间通道压缩，得到与所述当前搜索初始特征对应的当前搜索空间特征和当前搜索通道特征，以及与所述模板初始特征对应的模板空间特征和模板通道特征；并对所述模板空间特征、所述模板通道特征、所述当前搜索空间特征和所述当前搜索通道特征进行特征整合，得到所述当前自双线性特征和所述当前互双线性特征，从而完成对所述当前搜索初始特征和所述模板初始特征的双线性特征的提取。

[0220] 进一步地，所述图像获取模块4551，用于从所述待跟踪视频对应的所述帧序列的所述当前帧中，截取所述跟踪目标的所在区域，得到所述模板区域图像；在所述当前帧中，确定与所述前一跟踪目标对应的目标位置信息；以所述目标位置信息为中心，根据尺度步长，截取至少一个区域，得到与所述前一跟踪目标对应的所述至少一个搜索区域图像；尺度步长为预先设置的用于确定不同尺度的搜索区域的尺度间隔。

[0221] 进一步地，所述初始特征模块4552，还用于对所述当前搜索区域图像和所述模板区域图像均进行整体特征提取，得到分别对应的当前搜索整体特征和模板整体特征；对所述当前搜索整体特征和所述模板整体特征均进行有效特征提取，得到分别对应的所述当前搜索初始特征和所述模板初始特征，从而完成对所述当前搜索区域图像和所述模板区域图像的特征提取。

[0222] 进一步地，所述双线性特征模块4553，还用于对所述当前搜索初始特征进行空间压缩，得到所述当前搜索空间特征；对所述当前搜索初始特征进行通道压缩，得到所述当前搜索通道特征；对所述模板初始特征进行空间压缩，得到所述模板空间特征；对所述模板初始特征进行通道压缩，得到所述模板通道特征，从而完成对所述当前搜索初始特征和所述模板初始特征的空间通道压缩。

[0223] 进一步地，所述双线性特征模块4553，还用于对所述当前搜索初始特征进行卷积处理，得到当前搜索卷积特征；对所述当前搜索卷积特征进行第一降通道处理，得到初始当前搜索空间特征；对所述初始当前搜索空间特征进行综合化处理，得到所述当前搜索空间特征，从而完成对所述当前搜索初始特征的空间压缩。

[0224] 进一步地，所述双线性特征模块4553，还用于对所述当前搜索初始特征进行池化处理，得到当前搜索池化特征；对所述当前搜索池化特征进行第二降通道处理，得到初始当前搜索通道特征；对所述初始当前搜索通道特征进行通道还原处理，得到所述当前搜索通道特征，从而完成对所述当前搜索初始特征的通道压缩。

[0225] 进一步地，所述双线性特征模块4553，还用于对所述模板空间特征和所述模板通道特征进行双线性处理，得到当前模板自双线性特征；对所述当前搜索空间特征和所述当前搜索通道特征进行双线性处理，得到当前搜索自双线性特征；对所述模板空间特征和所述当前搜索通道特征进行双线性处理，得到当前模板互双线性特征；对所述当前搜索空间特征和所述模板通道特征进行双线性处理，得到当前搜索互双线性特征；将所述当前模板自双线性特征和所述当前搜索自双线性特征叠加为所述当前自双线性特征，将所述当前模板互双线性特征和所述当前搜索互双线性特征叠加为所述当前互双线性特征，从而完成对所述模板空间特征、所述模板通道特征、所述当前搜索空间特征和所述当前搜索通道特征的特征整合。

[0226] 进一步地，所述双线性特征模块4553，还用于对所述模板空间特征和所述模板通道特征进行乘处理，得到初始当前模板自双线性特征；对所述初始当前模板自双线性特征进行形变处理，得到所述当前模板自双线性特征。

[0227] 进一步地，所述相似性模块4554，还用于从所述至少一个相似性信息中选择相似性最高的相似性信息，得到目标相似性信息；从所述至少一个搜索区域图像中，确定与所述目标相似性信息匹配的搜索区域图像，得到目标搜索区域图像；计算所述目标搜索区域图像和所述前一跟踪目标的更新率，得到当前更新率，获取历史更新率；所述历史更新率为所述当前帧之前的视频帧所对应的更新率；综合所述当前更新率和所述历史更新率，对所述目标搜索区域图像进行位置调整，得到所述当前跟踪目标。

[0228] 进一步地，所述目标跟踪装置455还包括应用模块4556，用于根据所述至少一个当前跟踪目标，确定所述目标对象的目标运动信息；分析所述目标运动信息，确定针对所述目标对象的处理信息。

[0229] 进一步地，所述初始特征模块4552、所述双线性特征模块4553和所述相似性模块4554，还用于利用目标跟踪模型，对所述当前搜索区域图像和所述模板区域图像均进行特征提取，得到分别对应的所述当前搜索初始特征和所述模板初始特征；并对所述当前搜索初始特征和所述模板初始特征进行双线性特征的提取，得到所述当前自双线性特征和所述当前互双线性特征；以及比较所述当前自双线性特征和所述当前互双线性特征，得到所述相似性信息；其中，所述目标跟踪模型为预先训练的用于确定针对所述目标对象而确定的输入图像之间的相似性的模型。

[0230] 进一步地，所述目标跟踪装置455还包括模型训练模块4557，用于获取训练样本对；所述训练样本对包括样本图像对和标注相似性信息，所述样本图像对包括模板区域样本图像和搜索区域样本图像；利用原始目标跟踪模型，对所述搜索区域样本图像和所述模板区域样本图像均进行初始特征提取，得到分别对应的搜索初始特征和模板样本初始特征；并对所述搜索初始特征和所述模板样本初始特征均进行双线性特征的提取，得到样本自双线性特征和样本互双线性特征，比较所述样本自双线性特征和所述样本互双线性特征，得到预测相似性信息；获取所述预测相似性信息与所述标注相似性信息的差异，得到损失函数值；利用所述损失函数值，持续训练所述原始目标跟踪模型，直到满足预设训练截止条件时，停止训练所述原始目标跟踪模型，得到所述目标跟踪模型。

[0231] 进一步地，所述目标跟踪装置455还包括模型优化模块4558，用于当获取到新的训练样本对时，利用所述新的训练样本对对所述目标跟踪模型进行优化；

[0232] 相应地，所述初始特征模块4552、所述双线性特征模块4553和所述相似性模块4554，还用于利用优化后的目标跟踪模型，对所述当前搜索区域图像和所述模板区域图像均进行特征提取，得到分别对应的所述当前搜索初始特征和所述模板初始特征；并对所述当前搜索初始特征和所述模板初始特征进行双线性特征的提取，得到所述当前自双线性特征和所述当前互双线性特征；以及比较所述当前自双线性特征和所述当前互双线性特征，得到所述相似性信息。

[0233] 本发明实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的目标跟踪方法，例如，如图3和图4示出的目标跟踪方法。

[0234] 在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

[0235] 在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

[0236] 作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper Text Markup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

[0237] 作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

[0238] 综上所述，通过本发明实施例，由于目标跟踪结果是通过获取搜索区域图像和模板区域图像对应的双线性特征，进而通过双线性特征确定的；而双线性特征具备更强的特征表示，能够从细微特征上区分跟踪目标与其他信息；因此，所获得的目标跟踪结果的准确性高，从而提升了目标跟踪的准确性。

[0239] 以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

一种目标跟踪方法、设备及存储介质转让专利

申请号 : CN202010195175.8

文献号 : CN111091585B

文献日 : 2020-07-17

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 宋奕兵

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :