模型训练方法、装置、终端及存储介质转让专利

申请号 : CN201910397253.X

文献号 : CN110147836B

文献日 : 2021-07-02

本发明实施例公开了一种模型训练方法、装置、终端及存储介质，方法包括：获取模板图像和测试图像；调用第一物体识别模型对模板图像中跟踪对象的特征处理得到第一参考响应，调用第二物体识别模型对模板图像中跟踪对象的特征处理得到第一参考响应；调用第一物体识别模型对测试图像中跟踪对象的特征处理得到第一测试响应，调用第二物体识别模型对测试图像中跟踪对象的特征处理得到第二测试响应；对第一测试响应进行跟踪处理得到在跟踪对象的跟踪响应；基于第一参考响应与第二参考响应之间差异信息、第一测试响应与第二测试响应之间差异信息和跟踪标签与跟踪响应之间差异信息更新第一物体识别模型。本发明实施例可以提高视觉目标跟踪的准确性。

1.一种模型训练方法，其特征在于，包括：获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象在所述测试图像中的标注位置；

调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应；

调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；

对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

获取所述第一物体识别模型对应的损失优化函数；

基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值；

按照减小所述损失优化函数的值的原则，对所述第一物体识别模型进行更新。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：获取第二物体识别模型；

对所述第二物体识别模型进行裁剪，得到第一物体识别模型。

3.如权利要求1所述的方法，其特征在于，所述损失优化函数包括特征识别损失函数和跟踪损失函数，所述基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值，包括：获取所述特征识别损失函数，并基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息，确定所述特征识别损失函数的值；

获取所述跟踪损失函数，并基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值；

基于所述特征识别损失函数的值和所述跟踪损失函数的值确定损失优化函数的值。

4.如权利要求3所述的方法，其特征在于，所述第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述第一测试响应是由所述第一卷积层对应的第一测试子响应、所述第二卷积层对应的第二测试子响应以及所述第三卷积层对应的第三测试子响应融合得到的；所述基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值，包括：

基于所述第一卷积层对应的第一跟踪标签与对所述第一测试子响应进行跟踪处理得到的第一跟踪响应之间的差异信息，确定所述第一卷积层的跟踪损失值；

基于所述第二卷积层对应的第二跟踪标签与对所述第二测试子响应进行跟踪处理得到的第二跟踪响应之间的差异信息，确定所述第二卷积层的跟踪损失值；

基于所述第三卷积层对应的第三跟踪标签与对所述第三测试子响应进行跟踪处理得到的第三跟踪响应之间的差异信息，确定所述第三卷积层的跟踪损失值；

将所述第一卷积层对应的跟踪损失值、所述第二卷积层对应的跟踪损失值以及所述第三卷积层对应的跟踪损失值进行融合处理，得到跟踪损失函数的值；

其中，所述第一跟踪响应、所述第二跟踪响应以及所述第三跟踪响应具有不同分辨率。

5.权利要求4所述的方法，其特征在于，所述第一物体识别模型包括多个卷积层，所述多个卷积层按照连接顺序相连接，所述第一卷积层为所述连接顺序所指示的第一个卷积层，所述第三卷积层为所述连接顺序所指示的最后一个卷积层，所述第二卷积层为除所述第一个卷积层和所述最后一个卷积层外的任意一个卷积层。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：获取包括跟踪对象的参考图像，并基于所述参考图像确定用于训练的正样本和负样本，所述正样本是指包括所述跟踪对象的图像，所述负样本是指不包括所述跟踪对象的图像，所述正样本包括所述跟踪对象的正样本跟踪标签，所述负样本包括所述跟踪对象的负样本跟踪标签，所述参考图像中包括所述跟踪对象的标注信息；

调用所述已更新的第一物体识别模型对所述正样本进行识别处理，得到正样本识别响应，并调用所述已更新的第一物体识别模型对所述负样本进行识别处理，得到负样本识别响应；

对所述正样本识别响应进行跟踪处理，得到在所述正样本中对所述跟踪对象的正样本跟踪响应；并对所述负样本识别响应进行跟踪处理，得到所述在所述负样本中对所述跟踪对象的负样本跟踪响应；

基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型。

7.如权利要求6所述的方法，其特征在于，所述基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型，包括：获取跟踪损失优化函数；

基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，确定所述跟踪损失优化函数的值；

按照减小所述跟踪损失优化函数的值的原则，对所述已更新的第一物体识别模型进行更新。

8.如权利要求6或7所述的方法，其特征在于，所述方法还包括：获取待处理图像，并根据所述参考图像中的所述跟踪对象的标注信息确定所述待处理图像中包括的预测跟踪对象；

调用已更新的第一物体识别模型对所述参考图像中的所述跟踪对象进行识别处理，得到第一识别特征；

调用所述已更新的第一物体识别模型对所述待处理图像中的所述预测跟踪对象进行识别处理，得到第二识别特征；

基于所述第一识别特征和所述第二识别特征确定用于跟踪处理的目标特征，并采用跟踪算法对所述目标特征进行跟踪处理，得到所述跟踪对象在所述待处理图像中的位置信息。

9.一种模型训练装置，其特征在于，包括：获取单元，用于获取训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象在所述测试图像中的标注位置；

处理单元，用于调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应；

所述处理单元，还用于调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；

所述处理单元，还用于对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

更新单元，用于获取所述第一物体识别模型对应的损失优化函数；基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值；按照减小所述损失优化函数的值的原则，对所述第一物体识别模型进行更新。

10.一种终端，包括输入设备和输出设备，其特征在于，还包括：处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1‑8任一项所述的模型训练方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1‑8任一项所述的模型训练方法。

模型训练方法、装置、终端及存储介质

技术领域

[0001] 本发明涉及互联网技术领域，具体涉及视觉目标跟踪领域，尤其涉及一种模型训练方法、一种模型训练装置、一种终端及一种存储介质。

背景技术

[0002] 随着科技的发展，计算机视觉成为当前较为热门的研究领域，视觉目标跟踪是计算视觉领域中的一个重要研究方向。所谓视觉目标跟踪是指：在已知某图像中的跟踪对象
的大小与位置的情况下，预测该跟踪对象在其他图像中的大小与位置。视觉目标跟踪通常
应用于视频监控、人机交互以及无人驾驶等对实时性要求较高的应用场景中，例如：在给定
某视频序列中的某帧图像中的跟踪对象的大小与位置的情况下，预测该视频序列的后续帧
图像中的该跟踪对象的大小与位置。目前，视觉目标跟踪主要是采用传统的图像处理模型
实现跟踪处理的，但发明人实践中发现，传统的图像处理模型是为了实现图像分类任务而
设计的，采用图像分类数据进行训练得到，然而，视觉目标跟踪并不是为了实现图像分类任
务，因此传统的图像处理模型并不适合应用在视觉目标跟踪场景，导致视觉目标跟踪的准
确性低。

发明内容

[0003] 本发明实施例提供了一种模型训练方法、装置、终端及存储介质，可以更好的对第一物体识别模型进行训练，使得更新训练得到的第一物体识别模型具备较佳的视觉目标跟
踪性能，使其更适用于视觉目标跟踪场景，提高视觉目标跟踪的准确性。

[0004] 一方面，本发明实施例提供了一种模型训练方法，所述模型训练方法包括：

[0005] 获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象
在所述测试图像中的标注位置；

[0006] 调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进
行识别处理，得到第二参考响应；

[0007] 调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对
象的特征进行识别处理，得到第二测试响应；

[0008] 对所述第一测试响应进行跟踪处理，得到在所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

[0009] 基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，
更新所述第一物体识别模型。

[0010] 另一方面，本发明实施例提供了一种模型训练装置，所述模型训练装置包括：

[0011] 获取单元，用于获取训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所
述跟踪对象在所述测试图像中的标注位置；

[0012] 处理单元，用于调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟
踪对象的特征进行识别处理，得到第二参考响应；

[0013] 所述处理单元，还用于调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试
图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；

[0014] 所述处理单元，还用于对所述第一测试响应进行跟踪处理，得到在所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

[0015] 更新单元，用于基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应
之间的差异信息，更新所述第一物体识别模型。

[0016] 再一方面，本发明实施例提供了一种终端，所述终端包括输入设备和输出设备，所述终端还包括：

[0017] 处理器，适于实现一条或多条指令；以及，

[0018] 计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

[0019] 获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象
在所述测试图像中的标注位置；

[0020] 调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进
行识别处理，得到第二参考响应；

[0021] 调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对
象的特征进行识别处理，得到第二测试响应；

[0022] 采用跟踪训练算法对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

[0023] 基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，
更新所述第一物体识别模型。

[0024] 再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

[0025] 获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象
在所述测试图像中的标注位置；

[0026] 调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进
行识别处理，得到第二参考响应；

[0027] 调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对
象的特征进行识别处理，得到第二测试响应；

[0028] 采用跟踪训练算法对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

[0029] 基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，
更新所述第一物体识别模型。

[0030] 本发明实施例通过第二物体识别模型对第一物体识别模型训练时，分别调用第一物体识别模型和第二物体识别模型对模板图像中的所述跟踪对象的特征进行识别处理得
到第一参考响应和第二参考响应，再调用第一物体识别模型和第二物体识别模型对测试图
像中的所述跟踪对象的特征进行识别处理得到第一测试响应和第二测试响应；进一步的，
对第一测试响应进行跟踪处理，得到跟踪对象的跟踪响应；进而，便可以根据第一参考响应
与第二参考响应之间的差异信息、第一测试响应与第二测试响应之间的差异信息，确定第
一物体识别模型相比于第二物体识别模型在特征提取性能上的损失；以及根据跟踪标签与
跟踪响应之间的差异信息，确定第一物体识别模型在跟踪性能上的损失。基于第一物体识
别模型在特征提取性能上的损失以及在跟踪性能上的损失更新第一物体识别模型，可以使
得更新后的第一物体识别模型具有与第二物体识别模型相同或较相近的特征提取性能，并
且提取到的特征更适用于视觉目标跟踪场景中，从而可提高视觉目标跟踪的准确性。

附图说明

[0031] 为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普
通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0032] 图1是本发明实施例提供的一种基于第一物体识别模型进行视觉目标跟踪的场景图；

[0033] 图2是本发明实施例提供的一种的模型训练方法的流程示意图；

[0034] 图3a是本发明实施例提供的一种卷积神经网络的结构图；

[0035] 图3b是本发明实施例提供的一种确定跟踪响应和跟踪标签的示意图；

[0036] 图4是本发明实施例提供的另一种的模型训练方法的流程示意图；

[0037] 图5是本发明实施例提供的一种获取第一物体识别模型的示意图；

[0038] 图6是本发明实施例提供的一种第一物体识别模型联合优化的示意图；

[0039] 图7是本发明另一实施例提供的一种获取正样本和负样本的示意图；

[0040] 图8是本发明实施例提供的一种模型训练装置的结构示意图；

[0041] 图9是本发明实施例提供的一种终端的结构示意图。

具体实施方式

[0042] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

[0043] 本发明实施例提供了一种第一物体识别模型，所述第一物体识别模型是指具有图像识别性能的图像识别模型，例如超分辨率测试序列(Visual Geometry Group，VGG)模型、
谷歌网络GoogleNet模型以及深度残差网络(Deep residual network,ResNet)模型等。所
述第一物体识别模型可以准确对图像进行特征提取并且其提取到的特征更适用于视觉目
标跟踪场景，因此将所述第一物体识别模型结合相关跟踪算法应用在视觉目标跟踪场景
中，可以提高视觉目标跟踪的准确性和实时性。

[0044] 具体地，利用第一物体识别模型和跟踪算法实现视觉目标跟踪的步骤可包括：(1)获取待处理图像和包括跟踪对象的参考图像，所述跟踪对象为所述参考图像中的需要被跟
踪的图像元素，例如参考图像中的人、动物等；所述参考图像中可包括跟踪对象的标注信
息，所述标注信息用于表示跟踪对象的大小和位置。可选的，所述标注信息可以标注框的形
式表示，例如下文所述的图1中101所示；(2)根据参考图像中的标注信息确定待处理图像中
包括的预测跟踪对象，此处所述的预测跟踪对象是指在待处理图像中可能为跟踪对象的图
像元素。可选的，在(2)中可以根据参考图像中的标注框的大小在待处理图像中生成多个候
选框，每个候选框代表一个预测跟踪对象，例如下文所述的图1中的A、B、C表示确定出的三
个预测跟踪对象；(2)调用第一物体识别模型对所述参考图像中的跟踪对象进行识别处理，
得到第一识别特征，所述第一识别特征是指跟踪对象的特征，例如跟踪对象的脸部轮廓特
征、眼睛特征或者跟踪对象的姿态特征等等；(3)调用第一物体识别模型对所述待处理图像
中包括的预测跟踪对象进行识别处理，得到第二识别特征，所述第二识别特征是指各个预
测跟踪对象的特征，例如各个预测跟踪对象的脸部轮廓特征、眼睛特征、鼻子特征或者姿态
特征等等；(4)基于所述第一识别特征和所述第二识别特征确定用于跟踪处理的目标特征，
并采用跟踪算法对所述目标特征进行跟踪处理，得到所述跟踪对象在所述待处理图像中的
位置。在一个实施例中，所述跟踪算法可以包括相关滤波器跟踪算法、基于双网络的跟踪算
法、稀疏表示算法等，本发明实施例中以相关滤波器算法为例。所述相关滤波器算法对目标
特征进行跟踪处理后，得到一个高斯形状的响应图，该响应图上峰值的位置即表示跟踪到
的跟踪对象在所述待处理图像中的位置。

[0045] 其中，所述根据第一识别特征和所述第二识别特征确定用于跟踪处理的目标特征可以理解为：通过对跟踪对象的特征和各个预测跟踪对象的特征的分析，确定出将各个预
测跟踪对象中哪个预测跟踪对象作为待处理图像中包括的跟踪对象，以便于后续利用跟踪
算法对该预测跟踪对象的特征进行处理，以得到跟踪对象在所述待处理图像中的位置，从
而完成对跟踪对象的跟踪。在一个实施例中，步骤(4)的实施方式可以包括：将第一识别特
征分别与各个第二识别特征进行匹配度评分，将匹配度评分最高的第二识别特征确定为目
标特征。在其他实施例中，步骤(4)的实施方式还可以包括：将各个第二识别特征进行融合
处理，将融合处理的结果确定为目标特征。

[0046] 例如，参考图1为本发明实施例提供的一种视觉目标跟踪的场景，101表示参考图像，102为待处理图像，1011表示以标注框形式表示的跟踪对象的标注信息，标注框1101的
大小表示参考图像中跟踪对象的大小，标注框1101的位置表示跟踪对象在参考图像中的位
置，103表示第一物体识别模型。假设根据标注框1011在待处理图像102中生成A，B和C三个
预测跟踪对象，然后调用第一物体识别模型103对1011进行识别处理，得到第一识别特征，
并调用第一物体识别模型分别对预测跟踪对象A、B以及C进行识别处理，得到三个第二识别
特征。进一步的，基于第一识别特征和三个第二识别特征确定目标特征，假设将预测跟踪对
象C对应的第二识别特征确定为目标特征；再采用跟踪算法比如相关跟踪滤波器算法对目
标特征进行跟踪处理，得到一个高斯形状的响应图，该响应图上峰值点表示跟踪对象在待
处理图像中的位置如104所示。

[0047] 基于上述的第一物体识别模型，本发明实施例还提出了一种模型训练方法，所述模型训练方法用于训练第一物体识别模型，以保证第一物体识别模型可以准确对图像进行
特征提取并且提取到的特征更适用于跟踪场景。具体地，所述模型训练方法可以由终端执
行，具体地可有终端的处理器执行，所述终端可包括但不限于：智能终端、平板电脑、膝上计
算机、台式电脑，等等。参见图2，该模型训练方法可包括以下步骤S201‑S205：

[0048] S201、获取用于训练的模板图像和测试图像。

[0049] 其中，所述模板图像和所述测试图像是用来对模型进行训练更新的图像，所述模板图像和所述测试图像中均包括跟踪对象，所述模板图像中还可以包括跟踪对象的标注信
息，此处所述跟踪对象的标注信息用于表示跟踪对象在模板图像中的大小和位置，所述标
注信息可以是终端为模板图像标注的；所述测试图像中还包括测试图像对应的响应标签，
所述响应标签用于表示跟踪对象在测试图像中的标注位置，所述标注位置可以指终端标注
的、跟踪对象在测试图像中的真实位置；所述测试图像中也可以包括跟踪对象的标注信息，
此处所述跟踪对象的标注信息是用于表示跟踪对象在测试图像中的大小和位置。

[0050] 在一个实施例中，所述模板图像与测试图像可以是同一个视频序列中的两帧图像，例如，利用拍摄装置录制一段包括跟踪对象的视频序列，选择视频序列中任意一帧包括
跟踪对象的图像作为模板图像，选择视频序列中除该模板图像之外，且包括跟踪对象的一
帧图像作为测试图像。

[0051] 在其他实施例中，所述模板图像与测试图像也可以不是同一个视频序列中的图像，例如，模板图像可以是通过拍摄装置对包括跟踪对象的第一拍摄场景进行拍摄得到的
图像，测试图像可以在得到模板图像之前或者之后，利用拍摄装置对包括跟踪对象的第二
拍摄场景进行拍摄得到的图像，也即，模板图像和测试图像是两张相互独立的图像。

[0052] 由于同一视频序列的图像之间通常具备上下语义关系，相比于相互独立的模板图像及测试图像，更有利于对第一物体识别模型进行训练，且使得训练更新后的第一物体识
别模型获得更佳的性能。因此，本发明实施例可以模板图像和测试图像处于同一视频序列
为例进行说明。

[0053] S202、调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用所述第二物体识别模型对所述模板图像中的所述跟踪对
象的特征进行识别处理，得到第二参考响应。

[0054] S203、调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟
踪对象的特征进行识别处理，得到第二测试响应。

[0055] 其中，所述第一物体识别模型和第二物体识别模型的相同点是：两者均为具有图像识别性能的图像识别模型。可选的，卷积神经网络模型由于其较强的特征提取性能成为
目前常用的图像识别模型，本发明实施例中所述第一物体识别模型和第二物体识别可以为
卷积神经网络模型，例如VGG模型、GoogleNet模型以及ResNet模型等。所述第一物体识别模
型与所述第二物体识别模型的区别在于：所述第二物体识别模型是已更新的图像识别模
型，或者说第二物体识别模型是预先训练并测试好的用于图像识别的模型，所述第一物体
识别模型是待更新的图像识别模型。

[0056] 所述卷积神经网络模型主要应用在图像识别、人脸识别以及文字识别等方向，卷积神经网络的网络结构可如图3a所示：主要包括卷积层301、池化层302和全连接层303，每
个卷积层与一个池化层连接，所述卷积层301主要用于进行特征提取，所述池化层302也叫
子采样层，主要用于缩减输入数据的规模，所述全连接层303根据卷积层提取到的特征来计
算分类的分类值，最后输出分类及其对应的分类值。由此可知，所述第一物体识别模型和所
述第二物体识别模型的网络结构也包括卷积层、池化层和全连接层。

[0057] 每个卷积神经网络模型包括多个卷积层，每个卷积层负责提取图像的不同特征，前一个卷积层提取到的特征作为后一个卷积层的输入，每个卷积层负责提取的特征可以是
根据特定函数设定的，或者是人为设定的。例如，对于图形类的图像识别时，可以设定第一
卷积层负责提取图形的整体形状特征；第二卷积层负责提取图形的线条特征；第三卷积层
负责提取图形的非连续性特征等。再如，对于包含人脸的图像识别时，可以设定第一卷积层
负责提取人脸的轮廓特征；第二卷积层负责提取人脸的五官特征。每个卷积层中包括多个
相同尺寸的用于进行卷积计算的滤波器，每个滤波器对应一个滤波器通道，每个滤波器进
行卷积计算后得到一组特征，因此，每个卷积层对输入图像进行识别处理后提取到多维特
征。在卷积层中，卷积层的数量越多，卷积神经网络模型的网络结构越深，提取到的特征数
量也就越多；每个卷积层中包括的滤波器数量越多，每个卷积层提取到特征维度越高。

[0058] 应当理解的，如果一个模型包括的卷积层较多，和/或每个卷积层中滤波器数量较多，则对该模型进行存储时需要较大的存储空间，将需要较多存储空间的模型称为重量级
模型；相反的，如果一个模型包括的卷积层较少、和/或每个卷积层中滤波器数量较少，则对
该模型进行存储时不需要较大的存储空间，将需要较少存储空间的模型称为轻量级模型。

[0059] 作为一种可选的实施方式，第一物体识别模型与第二物体识别模型可以均为重量级模型，或者，第二物体识别模型为重量级模型，第一物体识别模型为第二物体识别模型进
行模型压缩处理得到的轻量级模型。如果第一物体识别模型属于重量级模型，则更新后的
第一物体识别模型能够提取到高维度的特征，具有更好的识别性能，将其应用在视觉目标
跟踪场景中时，可提高跟踪的准确性。如果第一物体识别模型是通过对第二物体识别模型
进行模型压缩处理得到的轻量级模型，则更新后的第一物体识别模型具有与第二物体识别
模型相似的特征提取性能，由于其更少的存储空间使其能够有效的应用在移动设备以及其
他低功耗产品中。另外，如果将其应用在视觉目标跟踪场景中时，可以快速的进行特征提
取，实现视觉目标跟踪的实时性。在实际应用中，可以根据具体的场景需求，选择第一物体
识别模型为重量级模型还是轻量级模型。

[0060] 由图1部分的实施例描述可知，在视觉目标跟踪领域中，影响跟踪准确性的主要因素之一是第一物体识别模型提取到的特征是否准确，而第一物体识别模型的特征提取主要
依赖于卷积层，所以本发明实施例中，所述对第一物体识别模型进行更新，实质上是训练第
一物体识别模型的卷积层，以提高第一物体识别模型的特征提取性能。基于此，在步骤S202
中所述调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理得
到第一参考响应实质是调用第一物体识别模型的卷积层对模板图像中跟踪对象的特征进
行特征提取处理得到第一参考响应。

[0061] 所述第一参考响应是用于表示第一物体识别模型识别到的模板图像中的所述跟踪对象的特征，比如大小、形状、轮廓等，所述第一参考响应可以用特征图表示；同理可知
的，所述第二参考响应是用于表示第二物体识别模型识别到的模板图像中的所述跟踪对象
的特征；所述第一测试响应是用于表示第一物体识别模型识别到的测试图像中的额跟踪对
象的特征；所述第二测试响应是用于表示第二物体识别模型识别到的测试图像中跟踪对象
的特征。

[0062] 在一个实施例中，由前述可知，模板图像中可包括跟踪对象的标注信息，所述标注信息的作用可以是：确定出模板图像中第一物体识别模型需要识别的跟踪对象的大小及其
所在的位置，以便于第一物体识别模型可以准确的确定出需要对谁进行识别处理；模板图
像中跟踪对象的标注信息可以是以标注框形式表示的。可选的，所述调用第一物体识别模
型对模板图像中的所述跟踪对象的特征进行识别处理得到第一参考响应可以指调用第一
物体识别模型并结合模板图像中的标注信息对模板图像进行识别处理。例如，假设模板图
像中的标注信息是以标注框的形式表示的，所述调用第一物体识别模型对模板图像中的所
述跟踪对象的特征进行识别处理得到第一参考响应可以指对模板图像中的标注框的特征
进行识别处理。

[0063] 在其他实施例中，如果模板图像中只包括跟踪对象，或者包括跟踪对象和对跟踪对象的识别处理无影响的背景，例如墙面、地面、天空等，此种情况下，终端无论是否为模板
图像设置跟踪对象的标注信息，都能使得第一物体识别模型准确的确定出需要对谁进行识
别处理。

[0064] 在一个实施例中，所述调用第一物体识别模型对模板图像中的所述跟踪对象的特征进行识别处理得到第一参考响应的实施方式可以为：将模板图像作为第一物体识别模型
的输入，第一物体识别模型的第一卷积层利用一定尺寸的多个滤波器对模板图像进行卷积
计算，提取到模板图像中的跟踪对象的第一特征；将第一特征作为第二卷积层的输入，第二
卷积层利用多个滤波器对第一特征进行卷积计算，提取到模板图像中的跟踪对象第二特
征；将第二特征输入到第三卷积层，第三卷积层利用多个滤波器对第二特征进行卷积计算，
得到模板图像中的跟踪对象第四特征，依次类推，直到最后一个卷积层完成卷积计算后，输
出的结果即为第一参考响应。对于调用第一物体识别对测试图像进行识别处理得到第一测
试响应的实施方式、调用所述第二物体识别模型对所述测试图像进行识别处理得到第二参
考响应的实施方式，以及调用所述第二物体识别模型对所述测试图像进行识别处理得到第
二测试响应的实施方式可与上述描述的实施方式相同，在此不一一赘述。

[0065] S204、对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应。

[0066] 为了保证第一物体识别模型适用于视觉目标跟踪场景中，除了要确保第一物体识别模型具有较强特征提取性能外，还要保证第一物体识别模型提取到的特征更好的适用于
跟踪场景，或者说更好的用于跟踪算法中。基于此，本发明实施例需要通过步骤S204实现对
第一物体识别模型的跟踪训练。

[0067] 在一个实施例中，所述步骤S204实施方式可包括：采用跟踪训练算法对所述第一测试响应进行跟踪处理，得到在所述跟踪对象的跟踪响应。其中，所述跟踪训练算法是用于
对第一物体识别模型进行跟踪训练的算法，可以包括相关滤波器跟踪算法、基于双网络的
跟踪算法、稀疏表示算法等。所述跟踪响应用于表示根据跟踪训练算法和第一测试响应确
定出的跟踪对象在测试图像中的跟踪位置，实际上所述跟踪位置可以理解为根据跟踪训练
算法和第一测试响应预测到的跟踪对象在测试图像中所处的位置。

[0068] 在一个实施例中，如果跟踪训练算法为相关滤波器算法，所述采用跟踪训练算法对第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应的方式可以为：采用跟踪训
练算法对第一测试响应进行跟踪处理得到一个高斯形状的响应图，根据所述响应图确定跟
踪响应。可选的，所述根据所述响应图确定跟踪响应的实施方式可以为：将所述响应图作为
跟踪响应。这样，所述响应图能够反映跟踪对象在测试图像中的跟踪位置，具体地，可以将
所述响应图中最大值点或者峰值点作为跟踪对象在测试图像中的跟踪位置。

[0069] 在步骤S401中，所述跟踪标签用于表示跟踪对象在测试图像中的标注位置，所述标注位置可以指终端预先标注的、跟踪对象在测试图像中真实的位置。在一个实施例中，所
述跟踪标签也可以为一个高斯形状的响应图，该响应图上的峰值点表示跟踪对象在测试图
像中真实的位置。

[0070] 例如，参考图3b所示为本发明实施例提供的一种确定跟踪标签和跟踪响应的示意图，假设304表示测试图像，3041表示跟踪对象，终端预先为测试图像标注的跟踪标签可以
如图3b中306所示，306上的峰值点B表示跟踪对象在测试对象中的标注位置。调用第一物体
识别模型对304进行识别处理得到第一测试响应；再采用跟踪训练算法例如相关滤波器算
法对第一测试响应进行跟踪处理得到跟踪响应如305所示，305上的峰值点A表示跟踪对象
在测试图像中的跟踪位置。

[0071] 在其他实施例中，如果采用其他跟踪训练算法对第一测试响应进行跟踪处理时，可以根据具体的跟踪训练算法的特征确定跟踪响应。

[0072] S205、基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差
异信息，更新所述第一物体识别模型。

[0073] 由前述可知，所述第一参考响应是用于表示第一物体识别模型识别到的模板图像中的所述跟踪对象的特征，比如大小、形状、轮廓等，所述第二参考响应是用于表示第二物
体识别模型识别到的模板图像中的所述跟踪对象的特征；由此可知，所述第一参考响应与
所述第二参考响应之间的差异信息可以包括第一物体识别模型和第二物体识别模型对模
板图像进行特征提取时，提取到的特征之间的差异大小。

[0074] 在一个实施例中，所述特征之间的差异大小可以通过特征之间的距离表示，例如假设第一参考响应包括第一物体识别模型识别到的模板图像中跟踪对象的脸部轮廓，表示
为脸部轮廓1，以及第二参考响应包括第二物体识别模型识别到的模板图像中跟踪对象的
脸部轮廓，表示为脸部轮廓2；所述第一参考响应与所述第二参考响应之间的差异信息可以
包括脸部轮廓1与脸部轮廓2之间的距离。在其他实施例中，所述特征之间的差异大小还可
以通过特征之间的相似度值来表示，相似度值越大表示特征之间的差异越小，相似度值越
小表示特征之间的差异越大。

[0075] 同理可知，所述第一测试响应与所述第二测试响应之间的差异信息可以包括第一物体识别模型和第二物体识别模型对测试图像进行特征提取时，提取到的特征之间的差异
大小。由步骤S204中描述可知，所述跟踪标签与所述跟踪响应之间的差异信息反映了跟踪
对象在测试图像中的跟踪位置和标注位置之间的距离。

[0076] 在具体实施过程中，可以根据基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所
述跟踪响应之间的差异信息，确定第一物体识别模型对应的损失优化函数的值，然后按照
减小所述损失优化函数的值的原则，对所述第一物体识别模型进行更新。此处的更新是指：
更新第一物体识别模型中的各模型参数。其中，第一物体识别模型的模型参数可包括但不
限于：梯度参数、权重参数等等。

[0077] 本发明实施例中利用第二物体识别模型对第一物体识别模型进行训练过程中，首先分别调用第一物体识别模型和第二物体识别模型对模板图像中的所述跟踪对象的特征
进行识别处理得到第一参考响应和第二参考响应，再调用第一物体识别模型和第二物体识
别模型对测试图像中的所述跟踪对象的特征进行识别处理得到第一测试响应和第二测试
响应；进一步的，对第一测试响应进行跟踪处理，得到跟踪对象的跟踪响应；进而，便可以根
据第一参考响应与第二参考响应之间的差异信息、第一测试响应与第二测试响应之间的差
异信息，确定第一物体识别模型相比于第二物体识别模型在特征提取性能上的损失；以及
根据跟踪标签与跟踪响应之间的差异信息，确定第一物体识别模型在跟踪性能上的损失。
基于第一物体识别模型在特征提取性能上的损失以及在跟踪性能上的损失更新第一物体
识别模型，可以使得更新后的第一物体识别模型具有与第二物体识别模型相同或较相近的
特征提取性能，并且提取到的特征更适用于视觉目标跟踪场景中，从而可提高视觉目标跟
踪的准确性。

[0078] 请参见图4，是本发明实施例提供的另一种模型训练方法的流程示意图。该模型训练方法可以由终端执行；此处的终端可包括但不限于：智能终端、平板电脑、膝上计算机、台
式电脑，等等。请参见图4，该模型训练方法可包括以下步骤S401‑S408：

[0079] S401，获取第二物体识别模型，并对所述第二物体识别模型进行裁剪，得到第一物体识别模型。

[0080] 可选的，所述第二物体识别模型为已训练完成的用于图像识别的重量级模型，所述第一物体识别模型为待训练的用于图像识别的轻量级模型。由前述可知，通过对第二物
体识别模型进行模型压缩处理得到轻量级的第一物体识别模型，再将轻量级的第一物体识
别模型应用在视觉目标跟踪领域时可以实现实时的视觉目标跟踪。所述模型压缩是指对已
训练好的重量级模型进行时间和空间上的压缩，以除去重量级模型中包括的一些不重要的
滤波器或者参数，提升特征提取速度。在本发明实施例中，所述模型压缩可以包括模型裁剪
和模型训练，所述模型裁剪是指可以通过裁剪模型中包括的滤波器数量和特征通道数的方
式减轻第二物体识别模型的网络结构，以得到第一物体识别模型；所述模型训练是指基于
迁移学习技术，采用第二物体识别模型和用于训练的模板图像和测试图像对裁剪得到的第
一物体识别模型进行更新训练，以使得第一物体识别模型具有与第二物体识别模型相同或
相似的特征识别性能。

[0081] 所述迁移学习技术是指将一个模型的性能迁移到另一个模型上，本发明实施例中迁移学习是指调用第二物体识别模型对模板图像中的所述跟踪对象的特征进行识别处理
得到第二参考响应，将所述第二参考响应作为监督标签训练第一物体识别模型对模板图像
中的所述跟踪对象的特征的识别，再调用第二物体识别模型对测试图像中的所述跟踪对象
的特征进行识别处理得到第二测试响应，将所述第二测试响应作为监督标签训练第一物体
识别模型对测试图像中的所述跟踪对象的特征的识别。老师‑学习模型是一种典型的基于
迁移学习技术进行模型压缩的方法，在本发明实施例中，第二物体识别模型相当于老师模
型，第一物体识别模型相当于学生模型。

[0082] 在一个实施例中，在对所述第二物体识别模型裁剪得到第一物体识别模型过程中，裁剪可以指将第二物体识别模型中每个卷积层中包括的滤波器个数减去一定数量，和/
或将每个卷积层对应的特征通道数也减去相应数量。例如，将第二物体识别模型的每个卷
积层中滤波器个数和特征通道数减去五分之三，或者减去八分之七或者任意数量；经过实
践证明，将第二物体识别模型中每个卷积层中包括的滤波器个数和每个卷积层对应的特征
通道数减去八分之七，能够通过训练更新得到较好的第一物体识别模型。例如，参考图5为
本发明实施例提供的一种对第二物体识别模型进行裁剪得到第一物体识别模型的示意图，
应当理解的，通过上述方法对第二物体识别模型进行裁剪处理只涉及到卷积层，所以为方
便描述，图5中只示出第一物体模型和第二物体识别模型的卷积层。假设第二物体识别模型
为VGG‑8模型，由前述可知第一物体识别模型也为VGG‑8模型。VGG‑8模型中包括5个卷积层，
501表示的第二物体识别模型的卷积层，502表示第一物体识别模型的卷积层，503表示第二
物体识别模型的每个卷积层中包括的滤波器个数、特征通道数、滤波器的尺寸。基于上述描
述，对第二物体识别模型中每个卷积层包括的滤波器个数、特征通道数均减去八分之七，得
到第一物体识别模型的各个卷积层中滤波器个数、特征通道数以及滤波器的尺寸，如504所
示。

[0083] S402，获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示跟踪对
象在测试图像中的标注位置。

[0084] S403，调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用所述第二物体识别模型对所述模板图像中的所述跟踪对
象的特征进行识别处理，得到第二参考响应。

[0085] S404，调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟
踪对象的特征进行识别处理，得到第二测试响应。

[0086] S405，对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应。

[0087] 在一个实施例中，步骤S405的实施方式可包括采用跟踪训练算法对第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应。所述跟踪训练算法中可包括跟踪算法参数，
所述采用跟踪训练算法对所述第一测试响应进行跟踪处理，得到在所述测试图像中对所述
跟踪对象的跟踪响应的实施方式可以是：将第一测试响应代入已知跟踪算法参数的跟踪训
练算法中进行计算，根据计算得到的结果确定跟踪响应。本发明实施例中所述跟踪训练算
法中的跟踪算法参数是根据第二物体识别模型和模板图像对跟踪训练算法进行训练得到
的。下面以跟踪训练算法为相关滤波器算法为例，介绍利用第二物体识别模型和模板图像
对跟踪训练算法进行训练，得到相关滤波器跟踪算法的跟踪算法参数的过程。所述相关滤
波器跟踪算法的跟踪算法参数是指相关滤波器参数的滤波器参数，对相关滤波器算法的训
练过程可包括步骤S11‑13：

[0088] S11，根据模板图像生成训练样本，并获取训练样本对应的跟踪标签；

[0089] 在一个实施例中，模板图像中包括跟踪对象以及跟踪对象对应的跟踪标签，根据模板图像生成的训练样本中也包括跟踪对象。其中，所述模板图像中包括的跟踪对象对应
的跟踪标签可以指跟踪对象在模板图像中的真实位置，所述模板图像中包括跟踪对象的跟
踪标签可以是终端预先标注的。可选的，根据模板图像生成训练样本的方式可以为：在模板
图像中裁剪出包括跟踪对象的图像块，对图像块进行循环移位处理得到训练样本，训练样
本对应的跟踪标签根据模板图像中包括的跟踪标签和循环移位操作的程度决定。

[0090] 对模板图像进行循环移位处理的方式可以为：将模板图像的图像块进行像素化处理，确定用于表示跟踪对象的像素点，这些像素点组成了跟踪对象的像素矩阵，对于像素矩
阵中每行进行循环移位处理，得到多个新的像素矩阵。在上述循环移位过程中，每个像素点
的值没有改变，只是像素点位置发生改变，像素点的值不变所以通过循环移位后的矩阵还
用于表示跟踪对象，像素点的位置发生改变，新的像素点矩阵渲染出来的跟踪对象的位置
发生了变化。

[0091] 上述对像素矩阵的每行进行循环移位处理，可以包括：像素矩阵的每行可以表示为一个nx1的向量，向量中每个向量元素对应一个像素点；将nx1向量中的每个像素点依次
向右或者向左移动，每移动一次得到一组新的向量。

[0092] S12，调用第二物体识别模型对训练样本进行特征提取处理，得到训练样本中跟踪对象的特征；

[0093] 调用第二物体识别模型对多个训练样本进行特征提取处理实质是调用第二物体识别模型的卷积层对训练样本进行特征提取的过程。第二物体识别模型包括多个卷积层，
每个卷积层中包括多个用于卷积计算的滤波器，所以每个卷积层提取到特征是多维的，经
每个卷积层提取到的多维特征依次作为下一个卷积层的输入，直到得到最后一个卷积层的
输出。例如，第二物体识别模型包括5个卷积层，通过5个卷积层对训练样本进行特征提取处
理后，得到的训练样本的特征的维度为D，假设表示第二物体识别模型提取到的第i维的
特征，最后第二物体识别模型提取到的训练的特征表示为

[0094] S13，获取用于确定相关滤波器参数的岭回归方程，并对所述岭回归方程进行求解，得到相关滤波器参数。

[0095] 相关滤波器算法的工作原理是：提取包括跟踪对象的图像的特征；将提取到的特征与相关滤波器进行卷积计算，得到响应图，从所述响应图中确定出图像中跟踪对象的位
置。卷积计算时，要求两个相同大小的量之间才能进行卷积运算，因此要保证相关滤波器的
维度和训练样本的特征的维度相同。相关滤波器算法对应的岭回归方程可如公式(1)所示:

[0096]

[0097] 其中，★表示卷积运算，D表示第二物体识别模型提取到的训练样本的特征维度，wi表示相关滤波器的第i维滤波器参数，x表示训练样本，y表示训练样本x的跟踪标签，
表示训练样本x的第i维特征，表示正则化系数。

[0098] 通过最小化式(1)的岭回归方程，便可得到相关滤波器的各个维度的滤波器参数。具体地，最小化式(1)，并将式(1)在频域进行求解，得到相关滤波器的各个维度的滤波器参
数，以求解第d维度的滤波器参数为例，介绍在频域求解滤波器参数的公式。在频域求解第d
维度的滤波器参数的公式表示为(2)：

[0099]

[0100] 在公式(2)中，wd表示第d个卷积层对应的相关滤波器参数，⊙表示点乘运算，表*
示离散傅里叶变换，·表示复共轭运算。依据公式(2)可以计算得到各个维度的相关滤波
器的滤波器参数，各个维度的滤波器参数组成相关滤波器算法的滤波器参数。

[0101] 通过步骤S11‑S13对相关滤波器算法训练得到相关滤波器的滤波器参数后，可以基于相关滤波器算法对第一测试响应进行跟踪处理，得到所述测试图像中对所述跟踪对象
的跟踪响应。具体地，采用相关滤波器算法对第一测试响应进行跟踪处理，得到在所述测试
图像中对所述跟踪对象的跟踪响应可通过公式(3)表示，

[0102]

[0103] 在公式(3)中，w表示相关滤波器的滤波器参数，表示第一测试响应，表示反离散傅里叶变化，r表示跟踪响应。

[0104] S406，获取所述第一物体识别模型对应的损失优化函数。

[0105] 为了保证第一物体识别模型和第二物体识别模型有相同或者相近的特征提取性能，同时保证第一物体识别模型提取的特征更适用于视觉跟踪场景，本发明实施例提出了
对第一物体识别模型进行特征识别损失和跟踪损失的联合优化。对第一物体识别模型进行
联合优化时，第一物体识别模型对应的损失优化函数可表示为公式(4)：

[0106]

[0107] 在公式(4)中，表示特征识别损失，表示跟踪损失，λ表示特征识别损失和跟踪损失对第一物体识别模型的优化重要性的参数，其取值可以在0‑1范围内，λ越大
表示跟踪损失对第一物体识别模型的损失优化影响越大，Θ表示第一物体识别模型的网络
2
参数，Υ表示正则化系数，Υ‖Θ‖防止第一物体识别模型过拟合。

[0108] S407，基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差
异信息，确定所述损失优化函数的值。

[0109] 通过步骤S406可知，第一物体识别模型的损失优化函数包括特征识别损失函数和跟踪损失函数，在步骤S407中确定损失优化函数的值时，可以首先确定特征识别损失函数
的值和跟踪损失函数的值，再根据特征识别损失函数的值和跟踪损失函数的值确定优化损
失函数的值。

[0110] 具体地，所述基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之
间的差异信息，确定所述损失优化函数的值，包括：获取所述特征识别损失函数，并基于所
述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试
响应之间的差异信息，确定所述特征识别损失函数的值；获取所述跟踪损失函数，并基于所
述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值；基于所述特征识
别损失函数的值和所述跟踪损失函数的值确定损失优化函数的值。

[0111] 关于特征识别损失函数的值：由前述可知，所述第一参考响应用于表示第一物体识别模型识别到的模板图像中的所述跟踪对象的特征，所述第二用于表示第二物体识别模
型识别到的模板图像中的所述跟踪对象的特征，所述第一参考响应与所述第二参考响应之
间的差异信息反映了第一物体识别模型和第二物体识别模型对模板图像中的所述跟踪对
象的特征进行特征提取时，提取到的特征之间的差异大小，所述差异大小可以用距离来表
示，也即第一参考响应与所述第二参考响应之间的差异信息包括第一参考响应与所述第二
参考响应之间的距离；

[0112] 同理的，所述第一测试响应与所述第二测试响应之间的差异信息包括第一测试响应与所述第二测试响应之间的距离。特征识别损失函数是通过约束上述的特征之间的距
离，以使得第一物体识别模型和第二物体识别模型有相同或相近的特征提取性能。由此可
知，特征损失优化函数包括两部分损失，一部分为关于测试图像的特征识别损失，一部分是
关于模板图像的特征识别损失。

[0113] 关于测试图像的特征识别损失的损失值由第一参考响应与所述第二参考响应之间的距离确定，关于模板图像的特征识别损失的损失值由第一测试响应与所述第二测试响
应之间的距离确定，将关于测试图像的特征识别损失的损失值和关于参考图像的识别损失
的损失值代入到特征识别损失函数中，便可计算得到特征识别损失函数的值。例如，特征识
别损失函数可表示为公式(5)：

[0114]

[0115] 其中，表示特征识别损失函数，关于参考图像的特征识别损失，表示关于测试对象的特征识别损失，表示第一参考响应，ψ(x)表示第二参考响应，
表示第一测试响应，ψ(z)表示第二测试响应。

[0116] 关于跟踪损失函数的值：跟踪标签与跟踪响应之间的差异反映了跟踪响应与跟踪标签之间的欧式距离，通过约束两者之间的欧式距离，优化第一物体识别模型的跟踪性能。
将根据跟踪响应与跟踪标签之间的欧式距离代入到跟踪损失函数，便可求得跟踪损失函数
的值。例如，跟踪损失函数可表示为公式(6)：

[0117]

[0118] 其中，表示跟踪损失函数，r表示跟踪响应，g表示跟踪响应，r可以通过公式(8)得到，公式(7)中w表示跟踪训练算法的滤波器参数，可以通过前述S11‑S13的步骤得到。

[0119] 应当理解的，由前述可知，第一物体识别模型包括多个卷积层，第一测试响应是将第一物体识别模型的各个卷积层对测试图像进行识别处理得到的各个子测试响应进行融
合处理后得到的。例如，假设第一物体识别模型包括第一卷积层、第二卷积层和第三卷积
层，所述第一测试响应是由第一卷积层对应的第一测试子响应、所述第二卷积层对应的第
二测试子响应以及所述第三卷积层对应的第三测试子响应融合得到的。为了保证第一物体
识别模型提取到的特征更适用于视觉目标跟踪场景中，可以对第一物体识别模型进行多尺
度的跟踪损失优化。

[0120] 所谓多尺度的跟踪损失优化是指：计算第一物体识别模型的多个卷积层的跟踪损失值，再根据多个卷积层的跟踪损失值确定第一物体识别模型的跟踪损失函数的值。具体
地，假设第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述基于所述跟踪
标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值，包括：基于所述第一卷
积层对应的第一跟踪标签与法对所述第一测试子响应进行跟踪处理得到的第一跟踪响应
之间的差异信息，确定所述第一卷积层的跟踪损失值；基于所述第二卷积层对应的第二跟
踪标签与对所述第二测试子响应进行跟踪处理得到的第二跟踪响应之间的差异信息，确定
所述第二卷积层的跟踪损失值；基于所述第三卷积层对应的第三跟踪标签与对所述第三测
试子响应进行跟踪处理得到的第三跟踪响应之间的差异信息，确定所述第三卷积层的跟踪
损失值；将所述第一卷积层对应的跟踪损失值、所述第二卷积层对应的跟踪损失值以及所
述第三卷积层对应的跟踪损失值进行多尺度融合处理，得到跟踪损失函数的值。

[0121] 其中，第一跟踪子响应、第二跟踪子响应以及第三跟踪子响应可以是采用跟踪训练算法对分别对第一卷积层、第二卷积层以及第三卷积层对应的第一测试子响应、第二测
试子响应以及第三测试子响应进行跟踪处理得到的，由于不同卷积层提取到的特征不相
同，所以第一跟踪子响应、第二跟踪子响应以及第三跟踪子响具有不同的分辨率。其中，跟
踪训练算法对不同卷积层的测试子响应进行跟踪处理时所使用的跟踪算法参数不相同，在
某个卷积层下的跟踪算法参数是通过第二物体识别模型和相应卷积层对应的模板图像进
行训练得到的，具体的训练过程可参考步骤S11‑S13，在此不再赘述。

[0122] 应当理解的，第一物体识别模型中包括的多个卷积层是按照连接顺序连接在一起的，上述提及到的第一卷积层、第二卷积层以及第三卷积层可以是第一物体识别模型的卷
积层中任意三个卷积层，或者所述第一卷积层为所述连接顺序所指示的第一个卷积层，所
述第三卷积层为所述连接顺序所指示的最后一个卷积层，所述第二卷积层为除所述第一个
卷积层和所述最后一个卷积层外的任意一个卷积层，此时第一卷积层可以称为第一物体识
别模型的高层卷积层、第二物体识别模型为第一物体识别模型的中层卷积层，所述第三卷
积层为第一物体识别模型的低层卷积层。经实践证明，对于只有5个卷积层的第一物体识别
模型，选用所述连接顺序所指示的第一个卷积层、所述连接顺序所指示的最后一个卷积层
以及第二卷积层进行多尺度跟踪损失优化，能够使得第一物体识别模型提取到的特征更好
的适用于跟踪场景中。

[0123] 在多尺度跟踪损失优化的情况下，上述公式(6)可改写成公式(8)和(9)：

[0124]

[0125]

[0126] 其中，l表示第一物体识别模型的第l个卷积层，rl表示跟踪算法对第l个卷积层的第l个测试子响应进行跟踪处理得到的第l跟踪子响应，gl表示第l个卷积层对应的测试图
像中包括的跟踪对象的跟踪标签。其中，跟踪算法对第l卷积层的第l测试子响应进行跟踪
处理得到的第l跟踪子响应时，用到的第l卷积层对应的跟踪算法参数是通过第二物体识别
模型和第l卷积层对应的模板图像训练得到的，具体的训练过程可参考步骤S11‑S13部分的
描述。

[0127] 参考图6，为本发明实施例提供的一种对第一物体识别模型进行联合优化的示意图，图中示出特征识别损失优化如公式(5)和多尺度跟踪损失优化如公式(8)，图6中601表
示第一物体识别模型，602表示第二物体识别模型。

[0128] S408，按照减小所述损失优化函数的值的原则，对所述第一物体识别模型进行更新。

[0129] 通过步骤S406‑S407确定了第一物体识别模型的特征识别损失函数的值和跟踪损失函数的值后，两者代入公式(4)，计算得到损失优化函数的值，按照减小损失优化函数的
值的原则，更新第一物体识别模型。换句话说，不断减小损失优化函数的值，根据损失优化
函数的值可反推出特征识别损失函数的值和跟踪损失函数的值，再通过调整第一物体识别
模型的模型参数以使第一参考响应与第二参考响应之间的距离，以及第一测试响应与第二
测试响应之间的距离满足特征识别损失函数的值；同时，调整第一物体识别模型的模型参
数以使得跟踪响应与跟踪标签之间的欧式距离满足跟踪损失函数的值。

[0130] 重复执行上述步骤S401‑S408可训更新得到一个既具有良好特征识别性能又使得提取到的特征更适用于视觉目标跟踪场景中的第一物体识别模型。经实践证明，采用本发
明实施例提供的模型训练方法，通过结合对第二物体识别模型进行模型压缩和知识迁移处
理，得到的第一物体识别模型的容量仅有第二物体识别模型的几十分之一，并且第一物体
识别模型拥有与第二物体识别模型相近的特征提取性能、更好的跟踪性能，实现了视觉跟
踪的实时性。

[0131] 由于前述步骤S401‑S408对第一物体识别模型进行更新时使用的模板图像和测试图像均为包括跟踪对象的图像，如此可保证更新后的第一物体识别模型能够具有较好的对
跟踪对象进行特征提取的能力。但是在实际应用中，调用第一物体识别模型进行识别处理
的待处理图像中可能除了包括有跟踪对象外，还包括其他背景，因此，为了进一步提高第一
物体识别模型的能力，本发明实施例通过S401‑S408对第一物体识别模型进行更新后，还利
用正样本和负样本对第一物体识别模型进行更新处理，以使得第一物体识别模型具有更好
的特征辨别能力，也即能够更好的区分出图像中包括的跟踪对象和背景。

[0132] 具体地，利用正样本和负样本对第一物体识别模型进行更新处理，可包括：获取包括跟踪对象的参考图像，并基于所述参考图像确定用于训练的正样本和负样本，所述参考
图像可以为待使用第一物体识别模型实现跟踪的视频序列中的第一帧图像，所述正样本是
指包括所述跟踪对象的图像，所述负样本是指不包括所述跟踪对象的图像，所述正样本包
括所述跟踪对象的正样本跟踪标签，所述负样本包括所述跟踪对象的负样本跟踪标签；调
用所述已更新的第一物体识别模型对所述正样本进行识别处理，得到正样本识别响应，并
调用所述已更新的第一物体识别模型对所述负样本进行识别处理，得到负样本识别响应；
对所述正样本识别响应进行跟踪处理，得到在所述正样本中对所述跟踪对象的正样本跟踪
响应；并对所述负样本识别响应进行跟踪处理，得到所述在所述负样本中对所述跟踪对象
的负样本跟踪响应；基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以
及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物
体识别模型。

[0133] 可选的，基于参考图像获取正样本和负样本的方式可以为：通过对参考图像进行随机裁剪，得到多个图像块，将包含跟踪对象的图像块作为正样本，将不包括跟踪对象的图
像块作为负样本。其中，正样本对应的正样本跟踪标签即为跟踪对象在正样本中的真实位
置，负样本由于不包含跟踪对象，其对应的负样本跟踪标签为0。例如，图7所示为获取正样
本和负样本的示意图，图7中701为参考图像，对参考图像进行随机的裁剪，得到多个图像块
如701中包括的多个标注框，每个标注框代表一个图像块；假设跟踪对象为702，从701的多
个图像块中选择包括702的图像块作为正样本如图中703和704，选择不包括702的图像块为
负样本如图中705和706。703和704对应的正样本跟踪标签为跟踪对象在703和704中的真实
位置如703和704下方图中的圆点所示。由于负样本705和706中不包括跟踪对象，因此其对
应的跟踪标签为0，所以不出现圆点。

[0134] 在一个实施例中，所述基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更
新的第一物体识别模型，包括：获取跟踪损失优化函数；基于所述正样本跟踪响应与所述正
样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差
异信息，确定所述跟踪损失优化函数的值；按照减小所述跟踪损失优化函数的值的原则，对
所述已更新的第一物体识别模型进行训练。

[0135] 正样本跟踪响应与正样本跟踪标签之间的差异信息包括第一物体识别模型对正样本进行跟踪处理，得到跟踪对象的位置与跟踪对象在该正样本中的真实位置之间的欧氏
距离，同样的，负样本跟踪响应与负样本跟踪标签之间的差异信息包括第一物体识别模型
对负样本进行跟踪处理，得到的跟踪对象的位置与跟踪对象与该负样本中跟踪对象的真实
位置之间的欧式距离。将上述两者带入到跟踪损失优化函数中，得到跟踪损失优化函数的
值，然后按照减小跟踪损失优化函数的值的原则，再次更新已更新的第一物体识别模型。通
过重复执行跟踪损失优化的步骤，完成对已更新的第一物体识别模型的更新。

[0136] 在一个实施例中，基于步骤S407中关于多尺度跟踪优化的描述，此处基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负
样本跟踪标签之间的差异信息，更新所述已更新的第一物体识别模型时，也可以是采用多
尺度优化。

[0137] 由前述可知，第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述正样本跟踪标签包括第一卷积层对应的第一正样本跟踪标签、第二卷积层对应的第二正样
本跟踪标签以及第三卷积层对应的第三正样本跟踪标签；正样本识别响应是由第一卷积层
对应的正样本第一子识别响应、第二卷积层对应的正样本第二子识别响应以及第三卷积层
对应的正样本第三子识别响应融合得到的；所述负样本识别响应是由第一卷积层对应的负
样本第一子识别响应、第二卷积层对应的负样本第二子识别响应以及第三卷积层对应的负
样本第三子识别响应。

[0138] 所述正样本跟踪响应可以包括采用跟踪训练算法对正样本第一子识别响应进行跟踪处理得到的第一正样本跟踪响应、对正样本第二子识别响应进行跟踪处理得到的第二
正样本跟踪响应以及对正样本第三子识别响应进行跟踪处理得到的第三正样本跟踪响应。
所述负样本跟踪响应可以包括采用跟踪训练算法对第一负样本识别响应进行跟踪处理时
得到的第一负样子跟踪响应、跟踪训练算法对第二负样本识别响应进行跟踪处理时得到的
第二负样本子跟踪相应，以及跟踪训练算法对第三负样本识别响应进行跟踪处理时得到的
第三负样本子跟踪响应。

[0139] 所述多尺度跟踪损失优化的实施方式可以为：基于第一正样本跟踪响应与第一正样本跟踪标签之间的差异信息、以及第一负样本跟踪响应与负样本跟踪响应之间的差异信
息，确定第一卷积层的跟踪损失优化函数的值；基于第二正样本跟踪响应与第二正样本跟
踪标签之间的差异信息、以及第二负样本跟踪响应与负样本跟踪响应之间的差异信息，确
定第二卷积层的跟踪损失优化函数的值，以及基于第三正样本跟踪响应与第三正样本跟踪
标签之间的差异信息、以及第三负样本跟踪响应与负样本跟踪响应之间的差异信息，确定
第三卷积层的跟踪损失优化函数的值；最后根据第一卷积层的跟踪损失优化函数的值、第
二卷积层的跟踪损失优化函数的值以及第三卷积层的跟踪损失优化函数的值，确定跟踪损
失优化函数的值。假设多尺度跟踪损失优化的跟踪损失优化函数可以表示为公式(10)所
示：

[0140]

[0141] 其中，

[0142]

[0143] 其中，rl+表示跟踪训练算法对第l卷积层对应的正样本第l子识别响应进行处理得‑
到的第l正样本跟踪响应，gl表示第l卷积层下正样本对应的正样本跟踪标签，rl表示跟踪
训练算法对第l卷积层对应的负样本第l子识别响应进行处理得到的第l负样本跟踪响应，
wl表示第l卷积层对应的跟踪算法参数。

[0144] 由前述可知，不同卷积层对应的跟踪算法参数由第二物体识别模型和相应的卷积层下对应的正样本训练得到的，不同卷积层下对应的正样本是具有相同尺寸不同分辨率的
图像，对于具体的训练过程可参考上述S11‑S13的步骤，在此不再赘述。

[0145] 通过利用参考图像对第一物体识别模型进行再次更新后，可以将第一物体识别模型和某些跟踪算法相结合应用在场景分析、监控设备以及人机交互等需要进行视觉目标跟
踪的场景中。具体地，将第一物体识别模型和某些跟踪算法相结合应用在视觉目标跟踪场
景中的实施方式可以包括：获取待处理图像，并根据参考图像中跟踪对象的标注信息确定
所述待处理图像中包括的预测跟踪对象，所述待处理图像可以是待使用第一物体识别模型
进行视觉目标跟踪的视频序列中除第一帧以外的图像；调用已更新的第一物体识别模型对
所述参考图像中的所述跟踪对象进行识别处理，得到第一识别特征；调用所述已更新的第
一物体识别模型对所述待处理图像中的预测跟踪对象进行识别处理，得到第二识别特征；
基于所述第一识别特征和所述第二识别特征确定用于跟踪处理的目标特征，并采用跟踪算
法对所述目标特征进行跟踪处理，得到所述跟踪对象在所述待处理图像中的位置信息。对
于此部分具体的应用可参考图1部分相应的描述。

[0146] 本发明实施例采用重量级的第二物体识别模型对轻量级的第一物体识别模型训练时，分别调用第一物体识别模型和第二物体识别模型对用于训练的模板图像中的所述跟
踪对象的特征进行识别处理得到第一参考响应和第二参考响应，再调用第一物体识别模型
和第二物体识别模型对用于训练的测试图像中的所述跟踪对象的特征进行识别处理得到
第一测试响应和第二测试响应；然后对第一测试响应进行跟踪处理得到跟踪响应；最后根
据第一参考响应与第二参考响应之间的差异信息、第一测试响应与第二测试响应之间的差
异信息，确定第一物体识别模型相比于第二物体识别模型在特征提取性能上的损失，以及
根据跟踪标签与跟踪响应之间的差异信息，确定第一物体识别模型在跟踪性能上的损失，
进而再根据特征提取性能上的损失和跟踪性能上的损失联合对第一物体识别模型进行损
失优化，使得更新后的轻量级第一物体识别模型具有与第二物体识别模型相同或较相近的
特征提取性能，更快的特征提取速度，并且保证第一物体识别模型提取到的特征更适用于
视觉目标跟踪场景中，从而提高了视觉目标跟踪的准确性和实时性。

[0147] 基于上述模型训练方法实施例的描述，本发明实施例还公开了一种模型训练装置，该模型训练装置可以执行图2和图4所示的方法。请参见图8，所述模型训练装置可运行
如下单元：

[0148] 获取单元801，用于获取训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所
述跟踪对象在测试图像中的标注位置；

[0149] 处理单元802，用于调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所
述跟踪对象的特征进行识别处理，得到第二参考响应；

[0150] 所述处理单元802，还用于调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述
测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；

[0151] 所述处理单元802，还用于对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

[0152] 更新单元803，用于基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响
应之间的差异信息，更新所述第一物体识别模型。

[0153] 在一个实施例中，所述获取单元801还用于：获取第二物体识别模型；所述处理单元802还用于；对所述第二物体识别模型进行裁剪，得到第一物体识别模型。

[0154] 在一个实施例中，所述更新单元803在基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪
标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型时，执行如下操作：获取
所述第一物体识别模型对应的损失优化函数；基于所述第一参考响应与所述第二参考响应
之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标
签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值；按照减小所述损失优化
函数的值的原则，对所述第一物体识别模型进行更新。

[0155] 在一个实施例中，所述损失优化函数包括特征识别损失函数和跟踪损失函数，所述更新单元803在基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一
测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的
差异信息，确定所述损失优化函数的值时，执行如下操作：获取所述特征识别损失函数，并
基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第
二测试响应之间的差异信息，确定所述特征识别损失函数的值；获取所述跟踪损失函数，并
基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值；基于所述
特征识别损失函数的值和所述跟踪损失函数的值确定损失优化函数的值。

[0156] 在一个实施例中，所述第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述第一测试响应是由所述第一卷积层对应的第一测试子响应、所述第二卷积层对
应的第二测试子响应以及所述第三卷积层对应的第三测试子响应融合得到的；所述更新单
元803在基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值
时，执行如下操作：

[0157] 基于所述第一卷积层对应的第一跟踪标签与对所述第一测试子响应进行跟踪处理得到的第一跟踪响应之间的差异信息，确定所述第一卷积层的跟踪损失值；基于所述第
二卷积层对应的第二跟踪标签与对所述第二测试子响应进行跟踪处理得到的第二跟踪响
应之间的差异信息，确定所述第二卷积层的跟踪损失值；基于所述第三卷积层对应的第三
跟踪标签与对所述第三测试子响应进行跟踪处理得到的第三跟踪响应之间的差异信息，确
定所述第三卷积层的跟踪损失值；将所述第一卷积层对应的跟踪损失值、所述第二卷积层
对应的跟踪损失值以及所述第三卷积层对应的跟踪损失值进行融合处理，得到跟踪损失函
数的值；其中，所述第一跟踪响应、所述第二跟踪响应以及所述第三跟踪响应具有不同分辨
率。

[0158] 在一个实施例中，所述第一物体识别模型包括多个卷积层，所述多个卷积层按照连接顺序相连接，所述第一卷积层为所述连接顺序所指示的第一个卷积层，所述第三卷积
层为所述连接顺序所指示的最后一个卷积层，所述第二卷积层为除所述第一个卷积层和所
述最后一个卷积层外的任意一个卷积层。

[0159] 在一个实施例中，所述获取单元801，还用于获取包括跟踪对象的参考图像，并基于所述参考图像确定用于训练的正样本和负样本，所述正样本是指包括所述跟踪对象的图
像，所述负样本是指不包括所述跟踪对象的图像，所述正样本包括所述跟踪对象的正样本
跟踪标签，所述负样本包括所述跟踪对象的负样本跟踪标签，所述参考图像中包括所述跟
踪对象的标注信息；

[0160] 所述处理单元802，还用于调用所述已更新的第一物体识别模型对所述正样本进行识别处理，得到正样本识别响应，并调用所述已更新的第一物体识别模型对所述负样本
进行识别处理，得到负样本识别响应；

[0161] 所述处理单元802，还用于对所述正样本识别响应进行跟踪处理，得到在所述正样本中对所述跟踪对象的正样本跟踪响应；并对所述负样本识别响应进行跟踪处理，得到所
述在所述负样本中对所述跟踪对象的负样本跟踪响应；

[0162] 所述更新单元803，还用于基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述
已更新的第一物体识别模型。

[0163] 在一个实施例中，所述更新单元803在基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信
息，训练所述已更新的第一物体识别模型时，执行如下步骤：

[0164] 获取跟踪损失优化函数；基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，确定所述跟
踪损失优化函数的值；按照减小所述跟踪损失函数的值的原则，对所述已更新的第一物体
识别模型进行更新。

[0165] 在一个实施例中，所述获取单元801，还用于获取待处理图像；所述处理单元802，还用于根据所述参考图像中的所述跟踪对象的标注信息确定所述待处理图像中包括的预
测跟踪对象；所述处理单元802，还用于调用已更新的第一物体识别模型对所述参考图像中
的所述跟踪对象进行识别处理，得到第一识别特征；所述处理单元803，还用于调用所述已
更新的第一物体识别模型对所述待处理图像中的所述预测跟踪对象进行识别处理，得到第
二识别特征；所述处理单元802，还用于基于所述第一识别特征和所述第二识别特征确定用
于跟踪处理的目标特征，并采用跟踪算法对所述目标特征进行跟踪处理，得到所述跟踪对
象在所述待处理图像中的位置信息。

[0166] 根据本发明的一个实施例，图2或图4所示的方法所涉及的各个步骤均可以是由图8所示的模型训练装置中的各个单元来执行的。例如，图2所示的步骤S201可由图8中所示的
获取单元801来执行，步骤S202‑S204所示的步骤可由图8中所示的处理单元802来执行，步
骤S205所示的步骤可由图8所示的更新单元803来执行；又如，图4中所示的步骤S401、S402
以及S406可由图8中所示的获取单元801来执行，步骤S403‑S405、以及S407可由图8中处理
单元802来执行，步骤S408可由图8中所示的更新单元803来执行。

[0167] 根据本发明的另一个实施例，图8所示的模型训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功
能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效
果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个
单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于模型训
练装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可
以由多个单元协作实现。

[0168] 根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运
行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，
来构造如图8中所示的模型训练装置设备，以及来实现本发明实施例的模型训练方法。所述
计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上
述计算设备中，并在其中运行。

[0169] 本发明实施例中利用第二物体识别模型对第一物体识别模型进行训练过程中，首先分别调用第一物体识别模型分别调用第一物体识别模型和第二物体识别模型对模板图
像中的所述跟踪对象的特征进行识别处理得到第一参考响应和第二参考响应，再调用第一
物体识别模型和第二物体识别模型对测试图像中的所述跟踪对象的特征进行识别处理得
到第一测试响应和第二测试响应；进一步的，对第一测试响应进行跟踪处理，得到跟踪对象
的跟踪响应；进而，便可以根据第一参考响应与第二参考响应之间的差异信息、第一测试响
应与第二测试响应之间的差异信息，确定第一物体识别模型相比于第二物体识别模型在特
征提取性能上的损失；以及根据跟踪标签与跟踪响应之间的差异信息，确定第一物体识别
模型在跟踪性能上的损失。基于第一物体识别模型在特征提取性能上的损失以及在跟踪性
能上的损失更新第一物体识别模型，可以使得更新后的第一物体识别模型具有与第二物体
识别模型相同或较相近的特征提取性能，并且提取到的特征更适用于视觉目标跟踪场景
中，从而可提高视觉目标跟踪的准确性。

[0170] 基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种终端。请参见图9，该终端至少包括处理器901、输入设备902、输出设备903以及计算机存储介质904。
所述输入设备902中还可包括摄像组件，摄像组件可用于获取模板图像和/或测试图像，所
述拍摄组件还可以用于获取参考图像和/或待处理图像，所述摄像组件可以是终端出厂时
配置在终端上的组件，也可以是与终端相连接的外部组件。可选的，该终端还可与其他设备
相连接，以接收其他设备发送的模板图像和/或测试图像，或者接受其他设备发送的参考图
像和/或待处理图像。

[0171] 计算机存储介质904可以存储在终端的存储器中，所述计算机存储介质904用于存储计算机程序，所述计算机程序包括程序指令，所述处理器901用于执行所述计算机存储介
质904存储的程序指令。处理器901或称CPU(Central Processing Unit，中央处理器))是终
端的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多
条指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器
901可以用于执行：获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均
包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述
跟踪对象在测试图像中的标注位置；调用第一物体识别模型对所述模板图像中的所述跟踪
对象的特征进行识别处理，得到第一参考响应，并调用所述第二物体识别模型对所述模板
图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应；调用所述第一物体识别
模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用
所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二
测试响应；对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响
应用于表示所述跟踪对象在所述测试图像中的跟踪位置；基于所述第一参考响应与所述第
二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及
所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型。

[0172] 本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括
终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提
供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处
理器901加载并执行的一条或多条指令，这些指令可以是一个或多个计算机程序(包括程序
代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的
存储器(non‑volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于
远离前述处理器的计算机存储介质。

[0173] 在一个实施例中，可由处理器901加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关模型训练实施例中的方法的相应步骤；具体实现中，计算机存储介
质中的一条或多条指令由处理器901加载并执行如下步骤：

[0174] 获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象
在测试图像中的标注位置；调用第一物体识别模型对所述模板图像中的所述跟踪对象的特
征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述
跟踪对象的特征进行识别处理，得到第二参考响应；调用所述第一物体识别模型对所述测
试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体
识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；对
所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示
所述跟踪对象在所述测试图像中的跟踪位置；基于所述第一参考响应与所述第二参考响应
之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标
签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型。

[0175] 在一个实施例中，计算机存储介质中的一条或多条指令由处理器901加载还执行如下步骤：获取第二物体识别模型；对所述第二物体识别模型进行裁剪，得到第一物体识别
模型。

[0176] 在一个实施例中，所述处理器901在基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标
签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型时，执行如下操作：

[0177] 获取所述第一物体识别模型对应的损失优化函数；基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以
及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值；按照减小
所述损失优化函数的值的原则，对所述第一物体识别模型进行更新。

[0178] 在一个实施例中，所述损失优化函数包括特征识别损失函数和跟踪损失函数，所述处理器901在基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测
试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差
异信息，确定所述损失优化函数的值时，执行如下操作：

[0179] 获取所述特征识别损失函数，并基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息，确定所述特征识别
损失函数的值；获取所述跟踪损失函数，并基于所述跟踪标签与所述跟踪响应之间的差异
信息确定所述跟踪损失函数的值；基于所述特征识别损失函数的值和所述跟踪损失函数的
值确定损失优化函数的值。

[0180] 在一个实施例中，所述第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述第一测试响应是由所述第一卷积层对应的第一测试子响应、所述第二卷积层对
应的第二测试子响应以及所述第三卷积层对应的第三测试子响应融合得到的；所述处理器
901在基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值时，
执行如下操作：

[0181] 基于所述第一卷积层对应的第一跟踪标签与对所述第一测试子响应进行跟踪处理得到的第一跟踪响应之间的差异信息，确定所述第一卷积层的跟踪损失值；

[0182] 基于所述第二卷积层对应的第二跟踪标签与对所述第二测试子响应进行跟踪处理得到的第二跟踪响应之间的差异信息，确定所述第二卷积层的跟踪损失值；基于所述第
三卷积层对应的第三跟踪标签与对所述第三测试子响应进行跟踪处理得到的第三跟踪响
应之间的差异信息，确定所述第三卷积层的跟踪损失值；将所述第一卷积层对应的跟踪损
失值、所述第二卷积层对应的跟踪损失值以及所述第三卷积层对应的跟踪损失值进行融合
处理，得到跟踪损失函数的值；其中，所述第一跟踪响应、所述第二跟踪响应以及所述第三
跟踪响应具有不同分辨率。

[0183] 在一个实施例中，所述第一物体识别模型包括多个卷积层，所述多个卷积层按照连接顺序相连接，所述第一卷积层为所述连接顺序所指示的第一个卷积层，所述第三卷积
层为所述连接顺序所指示的最后一个卷积层，所述第二卷积层为除所述第一个卷积层和所
述最后一个卷积层外的任意一个卷积层。

[0184] 在一个实施例中，计算机存储介质中的一条或多条指令由处理器901加载还执行如下步骤：

[0185] 获取包括跟踪对象的参考图像，并基于所述参考图像确定用于训练的正样本和负样本，所述正样本是指包括所述跟踪对象的图像，所述负样本是指不包括所述跟踪对象的
图像，所述正样本包括所述跟踪对象的正样本跟踪标签，所述负样本包括所述跟踪对象的
负样本跟踪标签，所述参考图像中包括所述跟踪对象的标注信息；调用所述已更新的第一
物体识别模型对所述正样本进行识别处理，得到正样本识别响应，并调用所述已更新的第
一物体识别模型对所述负样本进行识别处理，得到负样本识别响应；对所述正样本识别响
应进行跟踪处理，得到在所述正样本中对所述跟踪对象的正样本跟踪响应；并对所述负样
本识别响应进行跟踪处理，得到所述在所述负样本中对所述跟踪对象的负样本跟踪响应；
基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响
应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型。

[0186] 在一个实施例中，所述处理器901在基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，
训练所述已更新的第一物体识别模型时，执行如下操作：

[0187] 获取跟踪损失优化函数；基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，确定所述跟
踪损失优化函数的值；按照减小所述跟踪损失函数的值的原则，对所述已更新的第一物体
识别模型进行更新。

[0188] 在一个实施例中，计算机存储介质中的一条或多条指令由处理器901加载还执行如下步骤：

[0189] 获取待处理图像，并根据所述参考图像中的所述跟踪对象的标注信息确定所述待处理图像中包括的预测跟踪对象；调用已更新的第一物体识别模型对所述参考图像中的所
述跟踪对象进行识别处理，得到第一识别特征；调用所述已更新的第一物体识别模型对所
述待处理图像中的所述预测跟踪对象进行识别处理，得到第二识别特征；基于所述第一识
别特征和所述第二识别特征确定用于跟踪处理的目标特征，并采用跟踪算法对所述目标特
征进行跟踪处理，得到所述跟踪对象在所述待处理图像中的位置信息。

[0190] 以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

模型训练方法、装置、终端及存储介质转让专利

申请号 : CN201910397253.X

文献号 : CN110147836B

文献日 : 2021-07-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王宁 , 宋奕兵 , 刘威

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :