视频分类模型处理方法、装置及数据处理设备转让专利
申请号 : CN202111189823.X
文献号 : CN113642532B
文献日 : 2022-02-08
发明人 : 梁翠晓 , 张枫
申请人 : 广州虎牙信息科技有限公司
摘要 :
权利要求 :
1.一种视频分类模型处理方法,其特征在于,所述方法包括:将样本视频帧输入训练好的教师模型进行处理,获取所述教师模型输出的第一类别特征及第一类别关联性特征,并根据所述第一类别特征及第一类别关联性特征确定第一组合特征;所述第一类别特征包括所述样本视频帧在多个预设分类上的特征数据;所述第一类别关联性特征表征所述第一类别特征中不同预设分类的特征数据之间的关联性;
将所述样本视频帧输入训练好的学生模型进行处理,获取所述学生模型输出的预测分类结果;
通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理,获得蒸馏损失值;
根据所述预测分类结果及所述样本视频帧的视频帧分类标签确定分类损失值;
根据所述蒸馏损失值和所述分类损失值对所述学生模型的模型参数进行调整;
其中,所述教师模型包括第一特征提取单元及第一类别关系感知单元;
所述将样本视频帧输入训练好的教师模型进行处理,获取所述教师模型输出的第一类别特征及第一类别关联性特征的步骤,包括:将所述样本视频帧输入所述第一特征提取单元,获得所述第一类别特征;
将所述第一类别特征输入所述第一类别关系感知单元,通过所述第一类别关系感知单元提取所述第一类别特征中各项特征数据之间的关联性特征,获得所述第一类别关联性特征。
2.根据权利要求1所述的方法,其特征在于,所述第一组合特征包括第一拼接特征;所述第一特征提取单元包括多个第一特征提取层及第一全连接层;
所述将所述样本视频帧输入所述第一特征提取单元,获得所述第一类别特征的步骤,包括:
将所述样本视频帧输入所述第一特征提取单元,通过所述多个第一特征提取层对所述样本视频帧进行特征提取,通过所述第一全连接层对所述多个第一特征提取层输出的数据进行处理获得所述第一类别特征;
所述根据所述第一类别特征及第一类别关联性特征确定第一组合特征的步骤,包括:对所述第一类别特征及所述第一类别关联性特征进行拼接,获得所述第一拼接特征。
3.根据权利要求2所述的方法,其特征在于,所述学生模型包括第二特征提取单元,所述第二特征提取单元包括多个第二特征提取层及第二全连接层,所述知识蒸馏模型包括分别与所述多个第二特征提取层对应的多个第一知识蒸馏单元;所述蒸馏损失值包括第一蒸馏损失值;
所述通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理,获得蒸馏损失值的步骤,包括:针对每个所述第一知识蒸馏单元,根据多个所述第一特征提取层输出的特征数据、所述第一拼接特征以及与该第一知识蒸馏单元对应的第二特征提取层输出的特征数据进行知识蒸馏计算,获得第一蒸馏损失值。
4.根据权利要求3所述的方法,其特征在于,所述第一组合特征还包括第一融合特征;
所述知识蒸馏模型还包括第二知识蒸馏单元;所述蒸馏损失值还包括第二蒸馏损失值;所述教师模型还包括第三全连接层;
所述根据所述第一类别特征及第一类别关联性特征确定第一组合特征的步骤,还包括:
通过所述第三全连接层对所述第一拼接特征进行处理,获得第一融合特征;
所述方法还包括:
获取所述学生模型对所述样本视频帧进行处理所输出的第二类别特征及第二类别关联性特征,并根据所述第二类别特征及第二类别关联性特征确定第二融合特征;所述第二类别特征包括所述样本视频帧在多个预设分类上的特征数据;所述第二类别关联性特征表征所述第二类别特征中不同预设分类的特征数据之间的关联性;
所述通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理,获得蒸馏损失值的步骤,还包括:通过所述第二知识蒸馏单元根据所述第一融合特征和所述第二融合特征进行知识蒸馏处理,获得第二蒸馏损失值。
5.根据权利要求4所述的方法,其特征在于,所述学生模型还包括第二类别关系感知单元及第四全连接层;
所述获取所述学生模型对所述样本视频帧进行处理所输出的第二类别特征及第二类别关联性特征,并根据所述第二类别特征及第二类别关联性特征确定第二融合特征的步骤,包括:
将所述样本视频帧输入所述第二特征提取单元,通过所述多个第二特征提取层对所述样本视频帧进行特征提取,通过所述第二全连接层对所述多个第二特征提取层输出的数据进行处理获得所述第二类别特征;
将所述第二类别特征输入所述第二类别关系感知单元,通过所述第二类别关系感知单元提取所述第二类别特征中各项特征数据之间的关联性特征,获得所述第二类别关联性特征;
对所述第二类别特征及所述第二类别关联性特征进行拼接,获得第二拼接特征;
通过所述第四全连接层对所述第二拼接特征进行处理,获得第二融合特征。
6.根据权利要求2所述的方法,其特征在于,所述将所述第一类别特征输入所述第一类别关系感知单元,通过所述第一类别关系感知单元提取所述第一类别特征中各项特征数据之间的关联性特征,获得所述第一类别关联性特征的步骤,包括:通过所述第一类别关系感知单元中共享权重的第一卷积单元对所述第一类别特征进行处理,获得第一K矩阵、第一Q矩阵及第一V矩阵;
将所述第一K矩阵与转置后的第一Q矩阵相乘,获得第一关系矩阵;
对所述第一关系矩阵进行逻辑回归处理,并与所述第一V矩阵相乘,获得所述第一类别关联性特征。
7.根据权利要求5所述的方法,其特征在于,所述将所述第二类别特征输入所述第二类别关系感知单元,通过所述第二类别关系感知单元提取所述第二类别特征中各项特征数据之间的关联性特征,获得所述第二类别关联性特征的步骤,包括:通过所述第二类别关系感知单元中共享权重的第二卷积单元对所述第二类别特征进行处理,获得第二K矩阵、第二Q矩阵及第二V矩阵;
将所述第二K矩阵与转置后的第二Q矩阵相乘,获得第二关系矩阵;
对所述第二关系矩阵进行逻辑回归处理后,与所第二V矩阵相乘,获得所述第二类别关联性特征。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:将待处理视频数据输入训练好的所述学生模型,由所述学生模型对所述待处理视频数据进行分类预测,得到所述待处理视频数据对应的分类预测结果。
9.一种视频分类模型处理装置,其特征在于,所述装置包括第一数据处理模块,用于将样本视频帧输入训练好的教师模型进行处理,获取所述教师模型输出的第一类别特征及第一类别关联性特征,并根据所述第一类别特征及第一类别关联性特征确定第一组合特征;所述第一类别特征包括所述样本视频帧在多个预设分类上的特征数据;所述第一类别关联性特征表征所述第一类别特征中不同预设分类的特征数据之间的关联性;
第二数据处理模块,用于将所述样本视频帧输入训练好的学生模型进行处理,获取所述学生模型输出的预测分类结果;
第一损失计算模块,用于通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理,获得蒸馏损失值;
第二损失计算模块,用于根据所述预测分类结果及所述样本视频帧的视频帧分类标签确定分类损失值;
模型参数调整模块,用于根据所述蒸馏损失值和所述分类损失值对所述学生模型的模型参数进行调整;
其中,其中,所述教师模型包括第一特征提取单元及第一类别关系感知单元;
所述第一数据处理模块具体用于将所述样本视频帧输入所述第一特征提取单元,获得所述第一类别特征;将所述第一类别特征输入所述第一类别关系感知单元,通过所述第一类别关系感知单元提取所述第一类别特征中各项特征数据之间的关联性特征,获得所述第一类别关联性特征。
10.一种数据处理设备,其特征在于,所述数据处理设备包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现权利要求1‑8任意一项所述的方法。
说明书 :
视频分类模型处理方法、装置及数据处理设备
技术领域
背景技术
场景中,需要分类模型具有较快的处理速度和较高的分类精度,例如,对即时性要求较高的
直播视频进行分类。
无法保证分类精度。
发明内容
组合特征;所述第一类别特征包括所述样本视频帧在多个预设分类上的特征数据;所述第
一类别关联性特征表征所述第一类别特征中不同预设分类的特征数据之间的关联性;
征提取层及第一全连接层;
第一组合特征的步骤,包括:
数据进行处理获得所述第一类别特征;
性特征;
个第二特征提取层对应的多个第一知识蒸馏单元;所述蒸馏损失值包括第一蒸馏损失值;
进行知识蒸馏计算,获得第一蒸馏损失值。
还包括第三全连接层;
第二类别特征包括所述样本视频帧在多个预设分类上的特征数据;所述第二类别关联性特
征表征所述第二类别特征中不同预设分类的特征数据之间的关联性;
步骤,包括:
数据进行处理获得所述第二类别特征;
性特征;
性特征,获得所述第一类别关联性特征的步骤,包括:
性特征,获得所述第二类别关联性特征的步骤,包括:
类别关联性特征确定第一组合特征;所述第一类别特征包括所述样本视频帧在多个预设分
类上的特征数据;所述第一类别关联性特征表征所述第一类别特征中不同预设分类的特征
数据之间的关联性;
时,实现本申请提供的视频分类模型处理方法。
现本申请提供的视频分类模型处理方法。
练方式将类别关联性特征迁移至学生模型,使得学生模型在提取特征的过程中关注类别间
的关系,从而能够提取鲁棒性更强的特征,进而使结构相对简单的学生模型在保持高性能
的情况下具有更高的分类精度。
附图说明
范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其他相关的附图。
具体实施方式
本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施
例的组件可以以各种不同的配置来布置和设计。
技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范
围。
体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接
相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上
述术语在本申请中的具体含义。
端获取到直播视频后,需要快速地确定直播视频数据所属的场景类别,所述场景类别可以
包括全屏游戏界面、带主播形象的游戏界面、教学、动漫、户外、连麦、分屏舞蹈等。根据不同
的场景类别,直播视频数据将被送入不同的后续处理环节,例如,针对不同的场景类别执行
相应的内容推送、内容审核等。由于直播场景对即时性要求较高,因此要求视频分类模型具
有较高的处理性能,通常倾向选用结构相对简单、处理效率较高的分类模型。
的,当两个视频帧中占据大面积的图像内容较为相似时,结构相对简单的分类模型提取获
得的特征较为相似,导致分类模型容易出现误分类。例如,结构较为简单的分类模型在识别
全屏游戏界面和带主播形象的游戏界面时容易出现误分类。
相对简单、处理效率更高的学生模型220。同时,为了提高学生模型220的分类精度,在训练
过程中获取教师模型210提取的类别特征(logits)之间的关联关系得到类别关联性特征,
然后结合知识蒸馏模型230的方式将类别关联性特征迁移至学生模型220。
联性特征确定第一组合特征。所述第一类别特征包括所述样本视频帧在多个预设分类上的
特征数据。
征提取单元211及第一类别关系感知单元212。在步骤S110中,可以将所述样本视频帧输入
所述第一特征提取单元211,通过所述第一特征提取单元211对所述样本视频帧进行特征提
取,获得所述第一特征提取单元211输出的数据作为所述第一类别特征。其中,所述第一类
别特征包括由所述第一特征提取单元211提取的所述样本视频帧在多个预设分类上的特征
数据。示例性地,所述第一类别特征类似于通常分类模型中特征提取部分输出的Logits特
征,在通常分类模型中Logits特征经过类似Softmax的函数处理后可以获得分类结果。
特征提取,并根据提取到的特征对所述样本视频帧的分类进行预测,获得所述预测分类结
果。
特征会经过全连接层得到类别特征(Logits特征)。在步骤S130中,可以通过知识蒸馏模型
230结合所述第一组合特征对所述教师模型210和所述学生模型220提取的中间特征进行知
识蒸馏处理。
所述蒸馏损失值可以表征所述教师模型210提取的特征及所述第一组合特征与所述学生模
型220提取的特征之间的差异。所述蒸馏损失值越小表示所述学生模型220提取的特征与所
述教师模型210提取的特征越趋近,且所述学生模型220提取的特征中更能再现所述第一组
合特征的特性。在一种可能的实现方式中,所述知识蒸馏模型230可以为跨层知识蒸馏的语
义校准(Semantic Calibration With Cross‑layer Knowledge Distillation,Sem‑CKD)
模型。
以计算获得所述分类损失值。所述分类损失值可以表征所述预测分类结果与所述视频帧分
类标签之间的差异,所述分类损失值越小表示所述学生模型220的预测结果越准确。
至所述蒸馏损失值及所述分类损失值无法继续降低或者迭代次数达到预设阈值,则可以判
定训练完成。在本实施例中,也可以以多个样本视频帧为一组,计算整体的蒸馏损失值及分
类损失值,并进行多次迭代调整以减少整体的蒸馏损失值及分类损失值。
模型210得出的所述第一类别关联性特征通过知识蒸馏的方式迁移到学生模型220,从而使
学生模型220可以学习到在提取特征的过程中关注类别间的关系,从而能够提取鲁棒性更
强的特征,进而可以在维持所述学生模型220有较高处理效率的情况下,提高所述学生模型
220的分类精度。
2112对所述多个第一特征提取层2111输出的数据进行处理,获得所述第一类别特征。其中,
所述第一全连接层2112包括预先训练获得的多个第一一维卷积核,每个所述第一一维卷积
核分别与所述多个预设分类中的一个预设分类对应。所述第一全连接层2112先对最后一个
所述第一特征提取层2111输出的特征进行平均池化处理获得第一池化特征,然后通过每个
所述第一一维卷积核对所述第一池化特征进行卷积,获得分别与每个所述预设分类对应特
征数据,即,将所述第一池化特征分别与每个所述第一一维卷积核进行矩阵相乘后再进行
求和,得到与每个所述预设分类对应的特征值。并将获得的多个特征数据组合为所述第一
类别特征。
第一类别关联性特征。
一类别特征及所述第一类别关联性特征进行拼接,以获得所述第一拼接特征。
特征通过知识蒸馏迁移至学生模型220后,学生模型220的特征提取动作也会更加关注各预
设分类数据之间的关联性。
全连接层2212,所述知识蒸馏模型230包括分别与所述多个第二特征提取层2211对应的多
个第一知识蒸馏单元231。
二特征提取层2211输出的特征数据进行知识蒸馏计算,获得第一蒸馏损失值。
特征提取层2211输出的特征只输入与其对应的第一知识蒸馏单元231。针对每个所述第一
知识蒸馏单元231,其可以计算对应的第二特征提取层2211的特征和每个所述第一特征提
取层2111输出的特征及所述第一拼接特征之间的蒸馏损失值,多个所述第一知识蒸馏单元
231得出的蒸馏损失值形成数据集合一起作为所述第一蒸馏损失值。
所述第二类别关联性特征之间语义差异较大,直接通过最小化所述第一类别关联性特征和
所述第二类别关联性特征来迁移类别关联性特征会导致学生模型220难以收敛。因此,在本
实施例中将所述教师模型210提取的所述第一类别关联性特征添加到所述知识蒸馏模型
230中,从而可以将鲁棒性更好的所述第一类别关联性特征与所述教师模型210提取的中间
层特征自适应地蒸馏到学生模型220中间的每一个所述第二特征提取层2211特征中,让学
生模型220学习到在提取特征的过程中就有意识关注类别间的关系,从而在学生模型220进
行分类预测时可以结合类别关联性进行预测,克服因全局特征相似导致的误分类问题。
232,所述教师模型210还包括第三全连接层213。
接特征进行处理,获得第一融合特征。其中,所述第三全连接层213包括预先训练获得的多
个第三一维卷积核,每个所述第三一维卷积核分别与所述多个预设分类中的一个预设分类
对应。所述第三全连接层213先对所述第一拼接特征进行平均池化处理获得第三池化特征,
然后通过每个所述第三一维卷积核对所述第三池化特征进行卷积,获得分别与每个所述预
设分类对应特征数据,即,将所述第三池化特征分别与每个所述第三一维卷积核进行矩阵
相乘后再进行求和,得到与每个所述预设分类对应的特征值。并将获得的多个特征数据组
合为所述第一融合特征。
征,并根据所述第二类别特征及第二类别关联性特征确定第二融合特征。其中,所述第二类
别特征包括所述样本视频帧在多个预设分类上的特征数据。所述第二类别关联性特征表征
所述第二类别特征中不同预设分类的特征数据之间的关联性。
第一类别关系感知单元212类似,但所述第二类别关系感知单元222与所述第一类别关系感
知单元212为相对独立的两个单元。
层2211对所述样本视频帧进行特征提取,通过所述第二全连接层2212对所述多个第二特征
提取层2211输出的数据进行处理获得所述第二类别特征。其中,所述第二全连接层2212包
括预先训练获得的多个第二一维卷积核,每个所述第二一维卷积核分别与所述多个预设分
类中的一个预设分类对应。所述第二全连接层2212先对最后一个所述第二特征提取层2211
输出的特征进行平均池化处理获得第二池化特征,然后通过每个所述第二一维卷积核对所
述第二池化特征进行卷积,获得分别与每个所述预设分类对应特征数据,即,将所述第二池
化特征分别与每个所述第二一维卷积核进行矩阵相乘后再进行求和,得到与每个所述预设
分类对应的特征值。并将获得的多个特征数据组合为所述第二类别特征。
第二类别关联性特征。
征数据之间的关联性特征时,可以通过所述第一类别关系感知单元212中共享权重的第一
卷积单元对所述第一类别特征进行处理,获得第一K矩阵、第一Q矩阵及第一V矩阵,然后将
所述第一K矩阵与转置后的第一Q矩阵相乘,获得第一关系矩阵。再对所述关系矩阵进行逻
辑回归处理,并与所述第一V矩阵相乘,获得所述第一类别关联性特征。
各项特征数据之间的关联性特征时,可以通过所述第二类别关系感知单元222中共享权重
的第二卷积单元对所述第二类别特征进行处理,获得第二K矩阵、第二Q矩阵及第二V矩阵。
然后将所述第二K矩阵与转置后的第二Q矩阵相乘,获得第二关系矩阵。再对所述关系矩阵
进行逻辑回归处理后,与所第二V矩阵相乘,获得所述第二类别关联性特征。
关系感知单元222的结构可以为相同的。以所述第一类别关系感知单元212为例,所述第一
类别特征可以为一个10*1*1的矩阵向量,在所述第一类别特征被输入至所述第一类别关系
感知单元212后,先经过三个共享权重的1*1卷积核进行卷积处理,获得三个10*1*1的矩阵,
分别为第一K矩阵、第一Q矩阵及第一V矩阵,并对三个矩阵都进行维度调整(Reshape)。然后
将调整后的第一K矩阵与转换至后的第一Q矩阵相乘,得到10*10的第一关系矩阵。在通过
Softmax函数对第一关系矩阵进行处理,然后在于维度调整后的第一V矩阵相乘,获得10*1*
1的矩阵向量作为所述第一类别关联性特征。相应的,所述第二类别关系感知单元222的处
理过程与所述第一类别关系感知单元212的处理过程相似。
一类别关联性特征转移到学生模型220,从而使所述学生模型220学习到提取鲁棒性更好的
特征,提高学生模型220的分类精度。
述待处理视频数据对应的分类预测结果。
服务器或服务器集群。请参照图5,图5所述数据处理设备100的方框示意图。所述数据处理
设备100包括视频分类模型处理装置110、机器可读存储介质120、处理器130。
实现电性连接。所述视频分类模型处理装置包括至少一个可以软件或固件(firmware)的形
式存储于所述机器可读存储介质120中或固化在所述数据处理设备100的操作系统
(operating system,OS)中的软件功能模块。所述处理器130用于执行所述机器可读存储介
质120中存储的可执行模块,例如所述视频分类模型处理装置所包括的软件功能模块及计
算机程序等。
(Programmable Read‑Only Memory,PROM),可擦除只读存储器(Erasable Programmable
Read‑Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable
Read‑Only Memory,EEPROM)等。其中,机器可读存储介质120用于存储程序,所述处理器130
在接收到执行指令后,执行所述程序。
络处理器130(Network Processor,简称NP)等;还可以是数字信号处理器130(DSP)、专用集
成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻
辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框
图。通用处理器130可以是微处理器130或者该处理器130也可以是任何常规的处理器130
等。
分,视频分类模型处理装置可以包括第一数据处理模块111、第二数据处理模块112、第一损
失计算模块113、第二损失计算模块114及模型参数调整模块115。
别特征及第一类别关联性特征确定第一组合特征。所述第一类别特征包括所述样本视频帧
在多个预设分类上的特征数据。所述第一类别关联性特征表征所述第一类别特征中不同预
设分类的特征数据之间的关联性。
蒸馏的训练方式将类别关联性特征迁移至学生模型,使得学生模型在提取特征的过程中关
注类别间的关系,从而能够提取鲁棒性更强的特征,进而使结构相对简单的学生模型在保
持高性能的情况下具有更高的分类精度。
了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能
和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部
分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行
指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附
图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可
以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个
方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于
硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计
算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个
人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存
储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖
非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要
素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备
所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在
包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。