视频分类模型处理方法、装置及数据处理设备转让专利

申请号 : CN202111189823.X

文献号 : CN113642532B

文献日 : 2022-02-08

相似专利: 请登录后查看

本申请提供一种视频分类模型处理方法、装置及数据处理设备，采用知识蒸馏的方式结合已训练的教师模型对学生模型进行训练，在训练过程中分析教师模型提取的类别特征的各项数据之间的关联性，得到类别关联性特征，并通过知识蒸馏的训练方式将类别关联性特征迁移至学生模型，使得学生模型在提取特征的过程中关注类别间的关系，从而能够提取鲁棒性更强的特征，进而使结构相对简单的学生模型在保持高性能的情况下具有更高的分类精度。

1.一种视频分类模型处理方法，其特征在于，所述方法包括：将样本视频帧输入训练好的教师模型进行处理，获取所述教师模型输出的第一类别特征及第一类别关联性特征，并根据所述第一类别特征及第一类别关联性特征确定第一组合特征；所述第一类别特征包括所述样本视频帧在多个预设分类上的特征数据；所述第一类别关联性特征表征所述第一类别特征中不同预设分类的特征数据之间的关联性；

将所述样本视频帧输入训练好的学生模型进行处理，获取所述学生模型输出的预测分类结果；

通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值；

根据所述预测分类结果及所述样本视频帧的视频帧分类标签确定分类损失值；

根据所述蒸馏损失值和所述分类损失值对所述学生模型的模型参数进行调整；

其中，所述教师模型包括第一特征提取单元及第一类别关系感知单元；

所述将样本视频帧输入训练好的教师模型进行处理，获取所述教师模型输出的第一类别特征及第一类别关联性特征的步骤，包括：将所述样本视频帧输入所述第一特征提取单元，获得所述第一类别特征；

将所述第一类别特征输入所述第一类别关系感知单元，通过所述第一类别关系感知单元提取所述第一类别特征中各项特征数据之间的关联性特征，获得所述第一类别关联性特征。

2.根据权利要求1所述的方法，其特征在于，所述第一组合特征包括第一拼接特征；所述第一特征提取单元包括多个第一特征提取层及第一全连接层；

所述将所述样本视频帧输入所述第一特征提取单元，获得所述第一类别特征的步骤，包括：

将所述样本视频帧输入所述第一特征提取单元，通过所述多个第一特征提取层对所述样本视频帧进行特征提取，通过所述第一全连接层对所述多个第一特征提取层输出的数据进行处理获得所述第一类别特征；

所述根据所述第一类别特征及第一类别关联性特征确定第一组合特征的步骤，包括：对所述第一类别特征及所述第一类别关联性特征进行拼接，获得所述第一拼接特征。

3.根据权利要求2所述的方法，其特征在于，所述学生模型包括第二特征提取单元，所述第二特征提取单元包括多个第二特征提取层及第二全连接层，所述知识蒸馏模型包括分别与所述多个第二特征提取层对应的多个第一知识蒸馏单元；所述蒸馏损失值包括第一蒸馏损失值；

所述通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值的步骤，包括：针对每个所述第一知识蒸馏单元，根据多个所述第一特征提取层输出的特征数据、所述第一拼接特征以及与该第一知识蒸馏单元对应的第二特征提取层输出的特征数据进行知识蒸馏计算，获得第一蒸馏损失值。

4.根据权利要求3所述的方法，其特征在于，所述第一组合特征还包括第一融合特征；

所述知识蒸馏模型还包括第二知识蒸馏单元；所述蒸馏损失值还包括第二蒸馏损失值；所述教师模型还包括第三全连接层；

所述根据所述第一类别特征及第一类别关联性特征确定第一组合特征的步骤，还包括：

通过所述第三全连接层对所述第一拼接特征进行处理，获得第一融合特征；

所述方法还包括：

获取所述学生模型对所述样本视频帧进行处理所输出的第二类别特征及第二类别关联性特征，并根据所述第二类别特征及第二类别关联性特征确定第二融合特征；所述第二类别特征包括所述样本视频帧在多个预设分类上的特征数据；所述第二类别关联性特征表征所述第二类别特征中不同预设分类的特征数据之间的关联性；

所述通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值的步骤，还包括：通过所述第二知识蒸馏单元根据所述第一融合特征和所述第二融合特征进行知识蒸馏处理，获得第二蒸馏损失值。

5.根据权利要求4所述的方法，其特征在于，所述学生模型还包括第二类别关系感知单元及第四全连接层；

所述获取所述学生模型对所述样本视频帧进行处理所输出的第二类别特征及第二类别关联性特征，并根据所述第二类别特征及第二类别关联性特征确定第二融合特征的步骤，包括：

将所述样本视频帧输入所述第二特征提取单元，通过所述多个第二特征提取层对所述样本视频帧进行特征提取，通过所述第二全连接层对所述多个第二特征提取层输出的数据进行处理获得所述第二类别特征；

将所述第二类别特征输入所述第二类别关系感知单元，通过所述第二类别关系感知单元提取所述第二类别特征中各项特征数据之间的关联性特征，获得所述第二类别关联性特征；

对所述第二类别特征及所述第二类别关联性特征进行拼接，获得第二拼接特征；

通过所述第四全连接层对所述第二拼接特征进行处理，获得第二融合特征。

6.根据权利要求2所述的方法，其特征在于，所述将所述第一类别特征输入所述第一类别关系感知单元，通过所述第一类别关系感知单元提取所述第一类别特征中各项特征数据之间的关联性特征，获得所述第一类别关联性特征的步骤，包括：通过所述第一类别关系感知单元中共享权重的第一卷积单元对所述第一类别特征进行处理，获得第一K矩阵、第一Q矩阵及第一V矩阵；

将所述第一K矩阵与转置后的第一Q矩阵相乘，获得第一关系矩阵；

对所述第一关系矩阵进行逻辑回归处理，并与所述第一V矩阵相乘，获得所述第一类别关联性特征。

7.根据权利要求5所述的方法，其特征在于，所述将所述第二类别特征输入所述第二类别关系感知单元，通过所述第二类别关系感知单元提取所述第二类别特征中各项特征数据之间的关联性特征，获得所述第二类别关联性特征的步骤，包括：通过所述第二类别关系感知单元中共享权重的第二卷积单元对所述第二类别特征进行处理，获得第二K矩阵、第二Q矩阵及第二V矩阵；

将所述第二K矩阵与转置后的第二Q矩阵相乘，获得第二关系矩阵；

对所述第二关系矩阵进行逻辑回归处理后，与所第二V矩阵相乘，获得所述第二类别关联性特征。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：将待处理视频数据输入训练好的所述学生模型，由所述学生模型对所述待处理视频数据进行分类预测，得到所述待处理视频数据对应的分类预测结果。

9.一种视频分类模型处理装置，其特征在于，所述装置包括第一数据处理模块，用于将样本视频帧输入训练好的教师模型进行处理，获取所述教师模型输出的第一类别特征及第一类别关联性特征，并根据所述第一类别特征及第一类别关联性特征确定第一组合特征；所述第一类别特征包括所述样本视频帧在多个预设分类上的特征数据；所述第一类别关联性特征表征所述第一类别特征中不同预设分类的特征数据之间的关联性；

第二数据处理模块，用于将所述样本视频帧输入训练好的学生模型进行处理，获取所述学生模型输出的预测分类结果；

第一损失计算模块，用于通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值；

第二损失计算模块，用于根据所述预测分类结果及所述样本视频帧的视频帧分类标签确定分类损失值；

模型参数调整模块，用于根据所述蒸馏损失值和所述分类损失值对所述学生模型的模型参数进行调整；

其中，其中，所述教师模型包括第一特征提取单元及第一类别关系感知单元；

所述第一数据处理模块具体用于将所述样本视频帧输入所述第一特征提取单元，获得所述第一类别特征；将所述第一类别特征输入所述第一类别关系感知单元，通过所述第一类别关系感知单元提取所述第一类别特征中各项特征数据之间的关联性特征，获得所述第一类别关联性特征。

10.一种数据处理设备，其特征在于，所述数据处理设备包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述处理器执行时，实现权利要求1‑8任意一项所述的方法。

视频分类模型处理方法、装置及数据处理设备

技术领域

[0001] 本申请涉及大数据处理技术领域，具体而言，涉及一种视频分类模型处理方法、装置及数据处理设备。

背景技术

[0002] 视频分类是将不同的视频数据按照其内容进行分类，通常在处理大量视频数据的分类任务时，会使用基于机器学习的分类模型根据视频图像帧进行分类。在一些视频分类
场景中，需要分类模型具有较快的处理速度和较高的分类精度，例如，对即时性要求较高的
直播视频进行分类。

[0003] 通常结构相对简单的分类模型由于其计算量相对较小，可以具有较快的分类速度。但是，结构相对简单的分类模型提取的特征缺乏一定的显著性，容易出现误分类现象，
无法保证分类精度。

发明内容

[0004] 为了克服现有技术中的上述不足，本申请的目的在于提供一种视频分类模型处理方法，其特征在于，所述方法包括：

[0005] 将样本视频帧输入训练好的教师模型进行处理，获取所述教师模型输出的第一类别特征及第一类别关联性特征，并根据所述第一类别特征及第一类别关联性特征确定第一
组合特征；所述第一类别特征包括所述样本视频帧在多个预设分类上的特征数据；所述第
一类别关联性特征表征所述第一类别特征中不同预设分类的特征数据之间的关联性；

[0006] 将所述样本视频帧输入训练好的学生模型进行处理，获取所述学生模型输出的预测分类结果；

[0007] 通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值；

[0008] 根据所述预测分类结果及所述样本视频帧的视频帧分类标签确定分类损失值；

[0009] 根据所述蒸馏损失值和所述分类损失值对所述学生模型的模型参数进行调整。

[0010] 在一种可能的实现方式中，所述第一组合特征包括第一拼接特征，所述教师模型包括第一特征提取单元及第一类别关系感知单元；所述第一特征提取单元包括多个第一特
征提取层及第一全连接层；

[0011] 所述将样本视频帧输入训练好的教师模型进行处理，获取所述教师模型输出的第一类别特征及第一类别关联性特征，并根据所述第一类别特征及第一类别关联性特征确定
第一组合特征的步骤，包括：

[0012] 将所述样本视频帧输入所述第一特征提取单元，通过所述多个第一特征提取层对所述样本视频帧进行特征提取，通过所述第一全连接层对所述多个第一特征提取层输出的
数据进行处理获得所述第一类别特征；

[0013] 将所述第一类别特征输入所述第一类别关系感知单元，通过所述第一类别关系感知单元提取所述第一类别特征中各项特征数据之间的关联性特征，获得所述第一类别关联
性特征；

[0014] 对所述第一类别特征及所述第一类别关联性特征进行拼接，获得所述第一拼接特征。

[0015] 在一种可能的实现方式中，所述学生模型包括第二特征提取单元，所述第二特征提取单元包括多个第二特征提取层及第二全连接层，所述知识蒸馏模型包括分别与所述多
个第二特征提取层对应的多个第一知识蒸馏单元；所述蒸馏损失值包括第一蒸馏损失值；

[0016] 所述通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值的步骤，包括：

[0017] 针对每个所述第一知识蒸馏单元，根据多个所述第一特征提取层输出的特征数据、所述第一拼接特征以及与该第一知识蒸馏单元对应的第二特征提取层输出的特征数据
进行知识蒸馏计算，获得第一蒸馏损失值。

[0018] 在一种可能的实现方式中，所述第一组合特征还包括第一融合特征；所述知识蒸馏模型还包括第二知识蒸馏单元；所述蒸馏损失值还包括第二蒸馏损失值；所述教师模型
还包括第三全连接层；

[0019] 所述根据所述第一类别特征及第一类别关联性特征确定第一组合特征的步骤，还包括：

[0020] 通过所述第三全连接层对所述第一拼接特征进行处理，获得第一融合特征；

[0021] 所述方法还包括：

[0022] 获取所述学生模型对所述样本视频帧进行处理所输出的第二类别特征及第二类别关联性特征，并根据所述第二类别特征及第二类别关联性特征确定第二融合特征；所述
第二类别特征包括所述样本视频帧在多个预设分类上的特征数据；所述第二类别关联性特
征表征所述第二类别特征中不同预设分类的特征数据之间的关联性；

[0023] 所述通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值的步骤，还包括：

[0024] 通过所述第二知识蒸馏单元根据所述第一融合特征和所述第二融合特征进行知识蒸馏处理，获得第二蒸馏损失值。

[0025] 在一种可能的实现方式中，所述学生模型还包括第二类别关系感知单元及第四全连接层；

[0026] 所述获取所述学生模型对所述样本视频帧进行处理所输出的第二类别特征及第二类别关联性特征，并根据所述第二类别特征及第二类别关联性特征确定第二融合特征的
步骤，包括：

[0027] 将所述样本视频帧输入所述第二特征提取单元，通过所述多个第二特征提取层对所述样本视频帧进行特征提取，通过所述第二全连接层对所述多个第二特征提取层输出的
数据进行处理获得所述第二类别特征；

[0028] 将所述第二类别特征输入所述第二类别关系感知单元，通过所述第二类别关系感知单元提取所述第二类别特征中各项特征数据之间的关联性特征，获得所述第二类别关联
性特征；

[0029] 对所述第二类别特征及所述第二类别关联性特征进行拼接，获得第二拼接特征；

[0030] 通过所述第四全连接层对所述第二拼接特征进行处理，获得第二融合特征。

[0031] 在一种可能的实现方式中，所述将所述第一类别特征输入所述第一类别关系感知单元，通过所述第一类别关系感知单元提取所述第一类别特征中各项特征数据之间的关联
性特征，获得所述第一类别关联性特征的步骤，包括：

[0032] 通过所述第一类别关系感知单元中共享权重的第一卷积单元对所述第一类别特征进行处理，获得第一K矩阵、第一Q矩阵及第一V矩阵；

[0033] 将所述第一K矩阵与转置后的第一Q矩阵相乘，获得第一关系矩阵；

[0034] 对所述第一关系矩阵进行逻辑回归处理，并与所述第一V矩阵相乘，获得所述第一类别关联性特征。

[0035] 在一种可能的实现方式中，所述将所述第二类别特征输入所述第二类别关系感知单元，通过所述第二类别关系感知单元提取所述第二类别特征中各项特征数据之间的关联
性特征，获得所述第二类别关联性特征的步骤，包括：

[0036] 通过所述第二类别关系感知单元中共享权重的第二卷积单元对所述第二类别特征进行处理，获得第二K矩阵、第二Q矩阵及第二V矩阵；

[0037] 将所述第二K矩阵与转置后的第二Q矩阵相乘，获得第二关系矩阵；

[0038] 对所述第二关系矩阵进行逻辑回归处理后，与所第二V矩阵相乘，获得所述第二类别关联性特征。

[0039] 在一种可能的实现方式中，所述方法还包括：

[0040] 将待处理视频数据输入训练好的所述学生模型，由所述学生模型对所述待处理视频数据进行分类预测，得到所述待处理视频数据对应的分类预测结果。

[0041] 本申请的另一目的在于提供一种视频分类模型处理装置，所述装置包括

[0042] 第一数据处理模块，用于将样本视频帧输入训练好的教师模型进行处理，获取所述教师模型输出的第一类别特征及第一类别关联性特征，并根据所述第一类别特征及第一
类别关联性特征确定第一组合特征；所述第一类别特征包括所述样本视频帧在多个预设分
类上的特征数据；所述第一类别关联性特征表征所述第一类别特征中不同预设分类的特征
数据之间的关联性；

[0043] 第二数据处理模块，用于将所述样本视频帧输入训练好的学生模型进行处理，获取所述学生模型输出的预测分类结果；

[0044] 第一损失计算模块，用于通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值；

[0045] 第二损失计算模块，用于根据所述预测分类结果及所述样本视频帧的视频帧分类标签确定分类损失值；

[0046] 模型参数调整模块，用于根据所述蒸馏损失值和所述分类损失值对所述学生模型的模型参数进行调整。

[0047] 本申请的另一目的在于提供一种电子设备，包括处理器及机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述处理器执行
时，实现本申请提供的视频分类模型处理方法。

[0048] 本申请的另一目的在于提供一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被一个或多个处理器执行时，实
现本申请提供的视频分类模型处理方法。

[0049] 相对于现有技术而言，本申请具有以下有益效果：

[0050] 本申请实施例提供的视频分类模型处理方法、装置及数据处理，通过分析教师模型提取的类别特征的各项数据之间的关联性，得到类别关联性特征，并通过知识蒸馏的训
练方式将类别关联性特征迁移至学生模型，使得学生模型在提取特征的过程中关注类别间
的关系，从而能够提取鲁棒性更强的特征，进而使结构相对简单的学生模型在保持高性能
的情况下具有更高的分类精度。

附图说明

[0051] 为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对
范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这
些附图获得其他相关的附图。

[0052] 图1为本申请实施例提供的模型训练场景示意图之一；

[0053] 图2为本申请实施例提供的视频分类模型处理方法的步骤流程示意图；

[0054] 图3为本申请实施例提供的模型训练场景示意图之二；

[0055] 图4为本申请实施例提供的第一类别感知单元的示意图；

[0056] 图5为本申请实施例提供的数据处理设备的示意图；

[0057] 图6为本申请实施例提供的视频分类模型处理装置的功能模块示意图。

具体实施方式

[0058] 为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是
本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施
例的组件可以以各种不同的配置来布置和设计。

[0059] 因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通
技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范
围。

[0060] 应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

[0061] 在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

[0062] 在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一
体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接
相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上
述术语在本申请中的具体含义。

[0063] 基于前述背景技术中提及的问题，在一些场景中，要求视频分类模型具有较高的处理速度和较高的分类精度。例如，在视频直播场景中，直播平台在从直播视频数据提供终
端获取到直播视频后，需要快速地确定直播视频数据所属的场景类别，所述场景类别可以
包括全屏游戏界面、带主播形象的游戏界面、教学、动漫、户外、连麦、分屏舞蹈等。根据不同
的场景类别，直播视频数据将被送入不同的后续处理环节，例如，针对不同的场景类别执行
相应的内容推送、内容审核等。由于直播场景对即时性要求较高，因此要求视频分类模型具
有较高的处理性能，通常倾向选用结构相对简单、处理效率较高的分类模型。

[0064] 但是，一般的图像分类模型是通过特征提取网络获得抽象的图像全局特征，然后根据图像全局特征执行后续分类预测。该全局特征主要由图像中占大面积的画面内容决定
的，当两个视频帧中占据大面积的图像内容较为相似时，结构相对简单的分类模型提取获
得的特征较为相似，导致分类模型容易出现误分类。例如，结构较为简单的分类模型在识别
全屏游戏界面和带主播形象的游戏界面时容易出现误分类。

[0065] 有鉴于此，本实施例提供一种可以兼顾分类模型处理性能和分类精度的方案，下面对本实施例提供的方案进行详细阐述。

[0066] 首先请参见图1，图1为本实施例提供的模型训练架构的示意图，为了保证模型的处理效率，结合训练好的结构相对复杂的教师模型210，采用了知识蒸馏的方式来训练结构
相对简单、处理效率更高的学生模型220。同时，为了提高学生模型220的分类精度，在训练
过程中获取教师模型210提取的类别特征（logits）之间的关联关系得到类别关联性特征，
然后结合知识蒸馏模型230的方式将类别关联性特征迁移至学生模型220。

[0067] 请参照图2，图2为本实施例提供的视频分类模型处理方法的示意图，下面结合图2对本实施例提供的视频分类模型处理方法的各个步骤进行详细阐述。

[0068] 步骤S110，将样本视频帧输入训练好的教师模型210进行处理，获取所述教师模型210输出的第一类别特征及第一类别关联性特征，并根据所述第一类别特征及第一类别关
联性特征确定第一组合特征。所述第一类别特征包括所述样本视频帧在多个预设分类上的
特征数据。

[0069] 在本实施例中，所述教师模型210为已训练好的且相较于所述学生模型220的结构相对更复杂的分类模型。在一个例子中，请再次参照图1，所述教师模型210可以包括第一特
征提取单元211及第一类别关系感知单元212。在步骤S110中，可以将所述样本视频帧输入
所述第一特征提取单元211，通过所述第一特征提取单元211对所述样本视频帧进行特征提
取，获得所述第一特征提取单元211输出的数据作为所述第一类别特征。其中，所述第一类
别特征包括由所述第一特征提取单元211提取的所述样本视频帧在多个预设分类上的特征
数据。示例性地，所述第一类别特征类似于通常分类模型中特征提取部分输出的Logits特
征，在通常分类模型中Logits特征经过类似Softmax的函数处理后可以获得分类结果。

[0070] 步骤S120，将所述样本视频帧输入训练好的学生模型220进行处理，获取所述学生模型220输出的预测分类结果。

[0071] 在本实施例中，所述学生模型220为需要训练的结构相对简单的分类模型。在将所述样本视频帧输入所述学生模型220后，所述学生模型220会对输入的所述样本视频帧进行
特征提取，并根据提取到的特征对所述样本视频帧的分类进行预测，获得所述预测分类结
果。

[0072] 步骤S130，通过知识蒸馏模型230结合所述第一组合特征对所述教师模型210和所述学生模型220提取的特征进行知识蒸馏处理，获得蒸馏损失值。

[0073] 具体地，在本实施例中，所述教师模型210和所述学生模型220在对所述样本视频帧进行处理时，会先通过各自的特征提取层进行特征提取，获得中间特征。然后再根据中间
特征会经过全连接层得到类别特征（Logits特征）。在步骤S130中，可以通过知识蒸馏模型
230结合所述第一组合特征对所述教师模型210和所述学生模型220提取的中间特征进行知
识蒸馏处理。

[0074] 示例性地，所述知识蒸馏模型230可以根据所述第一组合特征以及所述教师模型210和所述学生模型220提取的特征，通过预设的蒸馏损失函数计算获得所述蒸馏损失值。
所述蒸馏损失值可以表征所述教师模型210提取的特征及所述第一组合特征与所述学生模
型220提取的特征之间的差异。所述蒸馏损失值越小表示所述学生模型220提取的特征与所
述教师模型210提取的特征越趋近，且所述学生模型220提取的特征中更能再现所述第一组
合特征的特性。在一种可能的实现方式中，所述知识蒸馏模型230可以为跨层知识蒸馏的语
义校准（Semantic Calibration With Cross‑layer Knowledge Distillation，Sem‑CKD）
模型。

[0075] 步骤S140，根据所述预测分类结果及所述样本视频帧的视频帧分类标签确定分类损失值。

[0076] 在本实施例中，所述样本视频帧还具有预先标注的视频帧分类标签，根据所述学生模型220得出的所述预测分类结果及所述视频帧分类标签，通过预设的分类损失函数可
以计算获得所述分类损失值。所述分类损失值可以表征所述预测分类结果与所述视频帧分
类标签之间的差异，所述分类损失值越小表示所述学生模型220的预测结果越准确。

[0077] 步骤S150，根据所述蒸馏损失值和所述分类损失值对所述学生模型220的模型参数进行调整。

[0078] 具体地，在本实施例中，可以以减小所述蒸馏损失值及所述分类损失值为目的，对所述学生模型220的模型参数进行调整。针对所述样本视频帧，可以进行多次迭代调整，直
至所述蒸馏损失值及所述分类损失值无法继续降低或者迭代次数达到预设阈值，则可以判
定训练完成。在本实施例中，也可以以多个样本视频帧为一组，计算整体的蒸馏损失值及分
类损失值，并进行多次迭代调整以减少整体的蒸馏损失值及分类损失值。

[0079] 基于上述设计，在本实施例中，执行知识蒸馏的过程时除了使用到教师模型210得出的第一类别特征，还加入了根据所述第一类别特征得出的第一类别关联性特征。将教师
模型210得出的所述第一类别关联性特征通过知识蒸馏的方式迁移到学生模型220，从而使
学生模型220可以学习到在提取特征的过程中关注类别间的关系，从而能够提取鲁棒性更
强的特征，进而可以在维持所述学生模型220有较高处理效率的情况下，提高所述学生模型
220的分类精度。

[0080] 在一种可能的实现方式中，请参照图3，所述第一特征提取单元211可以包括多个第一特征提取层2111及第一全连接层2112。

[0081] 在步骤S110中可以先将所述样本视频帧输入所述第一特征提取单元211，通过所述多个第一特征提取层2111对所述样本视频帧进行特征提取，并通过所述第一全连接层
2112对所述多个第一特征提取层2111输出的数据进行处理，获得所述第一类别特征。其中，
所述第一全连接层2112包括预先训练获得的多个第一一维卷积核，每个所述第一一维卷积
核分别与所述多个预设分类中的一个预设分类对应。所述第一全连接层2112先对最后一个
所述第一特征提取层2111输出的特征进行平均池化处理获得第一池化特征，然后通过每个
所述第一一维卷积核对所述第一池化特征进行卷积，获得分别与每个所述预设分类对应特
征数据，即，将所述第一池化特征分别与每个所述第一一维卷积核进行矩阵相乘后再进行
求和，得到与每个所述预设分类对应的特征值。并将获得的多个特征数据组合为所述第一
类别特征。

[0082] 然后将所述第一类别特征输入所述第一类别关系感知单元212，通过所述第一类别关系感知单元212提取所述第一类别特征中各项特征数据之间的关联性特征，获得所述
第一类别关联性特征。

[0083] 所述第一组合特征可以包括由所述第一类别特征和第一类别关联性特征拼接形成的第一拼接特征。在获得所述第一类别特征和第一类别关联性特征之后，可以对所述第
一类别特征及所述第一类别关联性特征进行拼接，以获得所述第一拼接特征。

[0084] 如此，所述第一组合特征中即包含了由所述教师模型210确定的所述样本视频帧在每个预设分类上的特征，又包括了各个预设分类上特征数据之间的关联。将该第一组合
特征通过知识蒸馏迁移至学生模型220后，学生模型220的特征提取动作也会更加关注各预
设分类数据之间的关联性。

[0085] 进一步地，所述知识蒸馏模型230输出的蒸馏损失值包括第一蒸馏损失值。请再次参照图3，所述学生模型220的第二特征提取单元221包括多个第二特征提取层2211及第二
全连接层2212，所述知识蒸馏模型230包括分别与所述多个第二特征提取层2211对应的多
个第一知识蒸馏单元231。

[0086] 在步骤S130中针对每个所述第一知识蒸馏单元231，可以根据多个所述第一特征提取层2111输出的特征数据、所述第一拼接特征以及与该第一知识蒸馏单元231对应的第
二特征提取层2211输出的特征数据进行知识蒸馏计算，获得第一蒸馏损失值。

[0087] 具体地，每个所述第一特征提取层2111输出的特征均会输入至各所述第一知识蒸馏单元231，所述第一拼接特征也会输入至各所述第一知识蒸馏单元231，而每个所述第二
特征提取层2211输出的特征只输入与其对应的第一知识蒸馏单元231。针对每个所述第一
知识蒸馏单元231，其可以计算对应的第二特征提取层2211的特征和每个所述第一特征提
取层2111输出的特征及所述第一拼接特征之间的蒸馏损失值，多个所述第一知识蒸馏单元
231得出的蒸馏损失值形成数据集合一起作为所述第一蒸馏损失值。

[0088] 由于所述教师模型210与所述学生模型220的模型结构复杂度不一致，所述第一类别关系感知单元212和所述第二类别关系感知单元222提取的所述第一类别关联性特征和
所述第二类别关联性特征之间语义差异较大，直接通过最小化所述第一类别关联性特征和
所述第二类别关联性特征来迁移类别关联性特征会导致学生模型220难以收敛。因此，在本
实施例中将所述教师模型210提取的所述第一类别关联性特征添加到所述知识蒸馏模型
230中，从而可以将鲁棒性更好的所述第一类别关联性特征与所述教师模型210提取的中间
层特征自适应地蒸馏到学生模型220中间的每一个所述第二特征提取层2211特征中，让学
生模型220学习到在提取特征的过程中就有意识关注类别间的关系，从而在学生模型220进
行分类预测时可以结合类别关联性进行预测，克服因全局特征相似导致的误分类问题。

[0089] 在一种可能的实现方式中，所述第一组合特征还包括第一融合特征，所述蒸馏损失值还包括第二蒸馏损失值。请参照图3，所述知识蒸馏模型230还包括第二知识蒸馏单元
232，所述教师模型210还包括第三全连接层213。

[0090] 在步骤S110中根据所述第一类别特征及第一类别关联性特征确定第一组合特征的过程中，在获得所述第一拼接特征之后，还可以通过所述第三全连接层213对所述第一拼
接特征进行处理，获得第一融合特征。其中，所述第三全连接层213包括预先训练获得的多
个第三一维卷积核，每个所述第三一维卷积核分别与所述多个预设分类中的一个预设分类
对应。所述第三全连接层213先对所述第一拼接特征进行平均池化处理获得第三池化特征，
然后通过每个所述第三一维卷积核对所述第三池化特征进行卷积，获得分别与每个所述预
设分类对应特征数据，即，将所述第三池化特征分别与每个所述第三一维卷积核进行矩阵
相乘后再进行求和，得到与每个所述预设分类对应的特征值。并将获得的多个特征数据组
合为所述第一融合特征。

[0091] 在步骤S120中通过所述学生模型220对所述样本视频帧进行处理时，还可以获取所述学生模型220对所述样本视频帧进行处理所输出的第二类别特征及第二类别关联性特
征，并根据所述第二类别特征及第二类别关联性特征确定第二融合特征。其中，所述第二类
别特征包括所述样本视频帧在多个预设分类上的特征数据。所述第二类别关联性特征表征
所述第二类别特征中不同预设分类的特征数据之间的关联性。

[0092] 在步骤S130中，可以通过所述第二知识蒸馏单元232根据所述第一融合特征和所述第二融合特征进行知识蒸馏处理，获得第二蒸馏损失值。

[0093] 具体地，请再次参照图3，所述学生模型220还包括第二类别关系感知单元222及第四全连接层223。在本实施例中，所述第二类别关系感知单元222的结构及功能可以与所述
第一类别关系感知单元212类似，但所述第二类别关系感知单元222与所述第一类别关系感
知单元212为相对独立的两个单元。

[0094] 在通过所述学生模型220对所述样本视频帧进行处理时，可以将所述样本视频帧输入所述第二特征提取单元221，通过所述第二特征提取单元221的所述多个第二特征提取
层2211对所述样本视频帧进行特征提取，通过所述第二全连接层2212对所述多个第二特征
提取层2211输出的数据进行处理获得所述第二类别特征。其中，所述第二全连接层2212包
括预先训练获得的多个第二一维卷积核，每个所述第二一维卷积核分别与所述多个预设分
类中的一个预设分类对应。所述第二全连接层2212先对最后一个所述第二特征提取层2211
输出的特征进行平均池化处理获得第二池化特征，然后通过每个所述第二一维卷积核对所
述第二池化特征进行卷积，获得分别与每个所述预设分类对应特征数据，即，将所述第二池
化特征分别与每个所述第二一维卷积核进行矩阵相乘后再进行求和，得到与每个所述预设
分类对应的特征值。并将获得的多个特征数据组合为所述第二类别特征。

[0095] 然后将所述第二类别特征输入所述第二类别关系感知单元222，通过所述第二类别关系感知单元222提取所述第二类别特征中各项特征数据之间的关联性特征，获得所述
第二类别关联性特征。

[0096] 再对所述第二类别特征及所述第二类别关联性特征进行拼接，获得所述第二拼接特征，并通过所述第四全连接层223对所述第二拼接特征进行处理，获得第二融合特征。

[0097] 在一种可能的实现方式中，所述第一类别关系感知单元212可以为基于注意力机制的处理单元。示例性地，所述第一类别关系感知单元212提取所述第一类别特征中各项特
征数据之间的关联性特征时，可以通过所述第一类别关系感知单元212中共享权重的第一
卷积单元对所述第一类别特征进行处理，获得第一K矩阵、第一Q矩阵及第一V矩阵，然后将
所述第一K矩阵与转置后的第一Q矩阵相乘，获得第一关系矩阵。再对所述关系矩阵进行逻
辑回归处理，并与所述第一V矩阵相乘，获得所述第一类别关联性特征。

[0098] 在一种可能的实现方式中，所述第二类别关系感知单元222可以为基于注意力机制的处理单元。示例性地，在通过所述第二类别关系感知单元222提取所述第二类别特征中
各项特征数据之间的关联性特征时，可以通过所述第二类别关系感知单元222中共享权重
的第二卷积单元对所述第二类别特征进行处理，获得第二K矩阵、第二Q矩阵及第二V矩阵。
然后将所述第二K矩阵与转置后的第二Q矩阵相乘，获得第二关系矩阵。再对所述关系矩阵
进行逻辑回归处理后，与所第二V矩阵相乘，获得所述第二类别关联性特征。

[0099] 具体地，请参照图4，图4为所述第一类别关系感知单元212和所述第二类别关系感知单元222的结构示意图，在本实施例中，所述第一类别关系感知单元212和所述第二类别
关系感知单元222的结构可以为相同的。以所述第一类别关系感知单元212为例，所述第一
类别特征可以为一个10*1*1的矩阵向量，在所述第一类别特征被输入至所述第一类别关系
感知单元212后，先经过三个共享权重的1*1卷积核进行卷积处理，获得三个10*1*1的矩阵，
分别为第一K矩阵、第一Q矩阵及第一V矩阵，并对三个矩阵都进行维度调整（Reshape）。然后
将调整后的第一K矩阵与转换至后的第一Q矩阵相乘，得到10*10的第一关系矩阵。在通过
Softmax函数对第一关系矩阵进行处理，然后在于维度调整后的第一V矩阵相乘，获得10*1*
1的矩阵向量作为所述第一类别关联性特征。相应的，所述第二类别关系感知单元222的处
理过程与所述第一类别关系感知单元212的处理过程相似。

[0100] 如此，通过注意力机制，可以获得由所述教师模型210提取的所述第一类别特征中各项数据之间的关联性，即各个预设类别的特征之间的关联性。然后通过知识蒸馏将该第
一类别关联性特征转移到学生模型220，从而使所述学生模型220学习到提取鲁棒性更好的
特征，提高学生模型220的分类精度。

[0101] 在本实施例中，在所述学生模型220训练完成后，可以将待处理视频数据输入训练好的所述学生模型220，由所述学生模型220对所述待处理视频数据进行分类预测，得到所
述待处理视频数据对应的分类预测结果。

[0102] 基于同一发明构思，本实施例还提供一种数据处理设备100，该数据处理设备100可以为具有一定图像识别处理能力的电子设别，例如，所述数据处理设别可以为个人电脑、
服务器或服务器集群。请参照图5，图5所述数据处理设备100的方框示意图。所述数据处理
设备100包括视频分类模型处理装置110、机器可读存储介质120、处理器130。

[0103] 所述机器可读存储介质120、处理器130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线
实现电性连接。所述视频分类模型处理装置包括至少一个可以软件或固件（firmware）的形
式存储于所述机器可读存储介质120中或固化在所述数据处理设备100的操作系统
（operating system，OS）中的软件功能模块。所述处理器130用于执行所述机器可读存储介
质120中存储的可执行模块，例如所述视频分类模型处理装置所包括的软件功能模块及计
算机程序等。

[0104] 其中，所述机器可读存储介质120可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器
（Programmable Read‑Only Memory，PROM），可擦除只读存储器（Erasable Programmable
Read‑Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable
Read‑Only Memory，EEPROM）等。其中，机器可读存储介质120用于存储程序，所述处理器130
在接收到执行指令后，执行所述程序。

[0105] 所述处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器130可以是通用处理器130，包括中央处理器130（Central Processing Unit，简称CPU）、网
络处理器130（Network Processor，简称NP）等；还可以是数字信号处理器130（DSP）、专用集
成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻
辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框
图。通用处理器130可以是微处理器130或者该处理器130也可以是任何常规的处理器130
等。

[0106] 请参照图6，本实施例还提供一种视频分类模型处理装置，视频分类模型处理装置110包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划
分，视频分类模型处理装置可以包括第一数据处理模块111、第二数据处理模块112、第一损
失计算模块113、第二损失计算模块114及模型参数调整模块115。

[0107] 所述第一数据处理模块111用于将样本视频帧输入训练好的教师模型210进行处理，获取所述教师模型210输出的第一类别特征及第一类别关联性特征，并根据所述第一类
别特征及第一类别关联性特征确定第一组合特征。所述第一类别特征包括所述样本视频帧
在多个预设分类上的特征数据。所述第一类别关联性特征表征所述第一类别特征中不同预
设分类的特征数据之间的关联性。

[0108] 本实施例中，所述第一数据处理模块111可用于执行图2所示的步骤S110，关于所述第一数据处理模块111的具体描述可参对所述步骤S110的描述。

[0109] 所述第二数据处理模块112用于将所述样本视频帧输入训练好的学生模型220进行处理，获取所述学生模型220输出的预测分类结果。

[0110] 本实施例中，所述第二数据处理模块112可用于执行图2所示的步骤S120，关于所述第二数据处理模块112的具体描述可参对所述步骤S120的描述。

[0111] 所述第一损失计算模块113用于通过知识蒸馏模型230结合所述第一组合特征对所述教师模型210和所述学生模型220提取的特征进行知识蒸馏处理，获得蒸馏损失值。

[0112] 本实施例中，所述第一损失计算模块113可用于执行图2所示的步骤S130，关于所述第一损失计算模块113的具体描述可参对所述步骤S130的描述。

[0113] 所述第二损失计算模块114用于根据所述预测分类结果及所述样本视频帧的视频帧分类标签确定分类损失值。

[0114] 本实施例中，所述第二损失计算模块114可用于执行图2所示的步骤S140，关于所述第二损失计算模块114的具体描述可参对所述步骤S140的描述。

[0115] 所述模型参数调整模块115用于根据所述蒸馏损失值和所述分类损失值对所述学生模型220的模型参数进行调整。

[0116] 本实施例中，所述模型参数调整模块115可用于执行图2所示的步骤S150，关于所述模型参数调整模块115的具体描述可参对所述步骤S150的描述。

[0117] 综上所述，本申请实施例提供的视频分类模型处理方法、装置及数据处理，通过分析教师模型提取的类别特征的各项数据之间的关联性，得到类别关联性特征，并通过知识
蒸馏的训练方式将类别关联性特征迁移至学生模型，使得学生模型在提取特征的过程中关
注类别间的关系，从而能够提取鲁棒性更强的特征，进而使结构相对简单的学生模型在保
持高性能的情况下具有更高的分类精度。

[0118] 在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示
了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能
和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部
分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行
指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附
图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可
以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个
方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于
硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0119] 另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

[0120] 所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说
对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计
算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个
人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。
而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read‑Only Memory）、随机存取存
储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

[0121] 需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存
在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖
非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要
素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备
所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在
包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0122] 以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵
盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

视频分类模型处理方法、装置及数据处理设备转让专利

申请号 : CN202111189823.X

文献号 : CN113642532B

文献日 : 2022-02-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 梁翠晓 , 张枫

申请人 : 广州虎牙信息科技有限公司

摘要 :

权利要求 :

说明书 :