一种特征提取模型生成方法、装置、电子设备和存储介质转让专利

申请号 : CN202110606977.8

文献号 : CN113065533B

文献日 : 2021-11-02

本公开关于一种特征提取模型生成方法、装置、电子设备和存储介质，该方法包括：对视频数据中预设数量个目标帧位置处的图像进行采样，得到预设数量个采样图像；基于预设的图像增强程度，对预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目标图像，并基于预设数目个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度，对其他采样图像进行图像增强处理，得到其他目标图像，将第一个目标图像和其他目标图像作为目标图像，基于目标图像，对待训练特征提取模型进行训练，得到视频特征提取模型。该方法可以提高图像增强的有效性，并提高自监督学习的准确性。

1.一种特征提取模型生成方法，其特征在于，所述方法包括：获取视频数据；

对所述视频数据中预设数量个目标帧位置处的图像进行采样，得到所述预设数量个采样图像；

基于预设的图像增强程度，对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目标图像；

根据所述预设数量个采样图像中每个其他采样图像对应的图像增强程度，对所述每个其他采样图像进行图像增强处理，得到其他目标图像，所述每个其他采样图像对应的图像增强程度为基于所述每个其他采样图像的上一帧采样图像对应的图像增强程度确定的增强程度，所述每个其他采样图像对应的图像增强程度用于模拟两帧采样图像之间的动态变化，所述其他采样图像为所述预设数量个采样图像中除第一帧采样图像外的采样图像；

将所述第一个目标图像和所述其他目标图像作为多个按序排列的目标图像；

基于至少两组多个按序排列的目标图像，对待训练特征提取模型进行对比学习训练，得到视频特征提取模型。

2.根据权利要求1所述的特征提取模型生成方法，其特征在于，所述根据所述每个其他采样图像对应的图像增强程度，对所述每个其他采样图像进行图像增强处理，得到所述其他目标图像包括：

根据所述每个其他采样图像对应的图像增强参数，对所述每个其他采样图像进行图像增强处理，得到所述其他目标图像，所述图像增强参数表征所述每个其他采样图像对应的图像增强程度，所述图像增强参数为基于所述每个其他采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数进行更新的参数。

3.根据权利要求2所述的特征提取模型生成方法，其特征在于，所述基于预设的图像增强程度，对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目标图像包括：

将预设的初始图像增强参数作为所述预设的图像增强程度；

根据所述初始图像增强参数，对所述第一帧采样图像进行图像增强处理，得到第一个目标图像；

所述根据所述每个其他采样图像对应的图像增强参数，对所述每个其他采样图像进行图像增强处理，得到所述其他目标图像包括：从所述其他采样图像中确定目标采样图像；

根据所述目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数，确定所述目标采样图像对应的图像增强参数；

根据所述目标采样图像对应的图像增强参数，对所述目标采样图像进行图像增强处理，得到所述其他目标图像。

4.根据权利要求1所述的特征提取模型生成方法，其特征在于，所述对所述视频数据中预设数量个目标帧位置处的图像进行采样，得到所述预设数量个采样图像包括：对所述视频数据中与预设采样参数对应的目标帧位置处的图像进行采样，得到第一帧采样图像；

将所述第一帧采样图像作为当前采样图像；

将所述预设采样参数作为当前采样参数；

根据所述当前采样图像的目标帧位置和所述当前采样参数，对所述当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样，得到所述当前采样图像的下一采样图像；

根据所述下一采样图像，更新所述当前采样图像；

根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率，更新所述当前采样参数中的视频采样率；

重复所述根据所述当前采样图像的目标帧位置和所述当前采样参数，确定所述当前采样图像的下一采样图像至所述根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率，更新所述当前采样参数的步骤，直到采样图像的数量达到所述预设数量。

5.根据权利要求1所述的特征提取模型生成方法，其特征在于，所述基于所述多个按序排列的目标图像，对所述待训练特征提取模型进行训练，得到视频特征提取模型还包括：从所述多个按序排列的目标图像中获取第一数量个训练图像；

在第一训练阶段，基于所述第一数量个训练图像，对待训练业务模型进行训练，得到第一待训练模型；

从所述多个按序排列的目标图像中获取第二数量个训练图像；

在第二训练阶段，基于所述第二数量个训练图像，对所述第一待训练模型中的非特征提取网络进行训练，得到第二待训练模型；

从所述多个按序排列的目标图像中获取第三数量个训练图像；

在第三训练阶段，基于所述第三数量个训练图像，对所述第二待训练模型中的特征提取网络进行训练，得到目标业务模型。

6.根据权利要求1所述的特征提取模型生成方法，其特征在于，所述基于所述多个按序排列的目标图像，对所述待训练特征提取模型进行训练，得到视频特征提取模型之后，所述方法还包括：

将所述视频数据输入到所述视频特征提取模型中进行特征提取，得到视频特征数据；

将所述视频特征数据输入到待训练视频分类模型中进行分类，得到所述视频数据对应的每个视频类别概率，所述视频类别概率表征所述视频数据属于不同的视频类别的概率；

根据所述每个视频类别概率，确定所述视频数据对应的视频类别信息；

根据所述视频类别信息和所述每个视频类别概率，确定分类损失数据；

根据所述视频类别信息、所述每个视频类别概率和预设的标签平滑参数，确定标签平滑损失数据；

基于所述分类损失数据和所述标签平滑损失数据，对所述待训练视频分类模型进行训练，得到视频分类模型。

7.根据权利要求1所述的特征提取模型生成方法，其特征在于，所述方法还包括：对所述预设数量个采样图像进行翻转处理或灰度化处理，得到预设数量个预处理采样图像；

基于预设的图像增强程度，对所述预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理，得到第一个目标图像；

基于所述预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度，对所述其他预处理采样图像进行图像增强处理，得到其他目标图像，所述其他预处理采样图像为所述预设数量个预处理采样图像中除第一帧预处理采样图像外的采样图像。

8.一种特征提取模型生成装置，其特征在于，所述装置包括：视频数据获取模块，被配置为执行获取视频数据；

采样模块，被配置为执行对所述视频数据中预设数量个目标帧位置处的图像进行采样，得到所述预设数量个采样图像；

第一图像增强模块，被配置为执行基于预设的图像增强程度，对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目标图像；

第二图像增强模块，被配置为执行根据所述预设数量个采样图像中每个其他采样图像对应的图像增强程度，对所述每个其他采样图像进行图像增强处理，得到其他目标图像，所述每个其他采样图像对应的图像增强程度为基于所述每个其他采样图像的上一帧采样图像对应的图像增强程度确定的增强程度，所述每个其他采样图像对应的图像增强程度用于模拟两帧采样图像之间的动态变化，所述其他采样图像为所述预设数量个采样图像中除第一帧采样图像外的采样图像；

目标图像确定模块，被配置为执行将所述第一个目标图像和所述其他目标图像作为多个按序排列的目标图像；

特征提取模型训练模块，被配置为执行基于至少两组多个按序排列的目标图像，对待训练特征提取模型进行对比学习训练，得到视频特征提取模型。

9.根据权利要求8所述的特征提取模型生成装置，其特征在于，所述第二图像增强单元包括：

参数增强处理单元，被配置为执行根据所述每个其他采样图像对应的图像增强参数，对所述每个其他采样图像进行图像增强处理，得到所述其他目标图像，所述图像增强参数表征所述每个其他采样图像对应的图像增强程度，所述图像增强参数为基于所述每个其他采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数进行更新的参数。

10.根据权利要求9所述的特征提取模型生成装置，其特征在于，所述第一图像增强模块包括：

初始增强程度确定单元，被配置为执行将预设的初始图像增强参数作为所述预设的图像增强程度；

第一个目标图像获取单元，被配置为执行根据所述初始图像增强参数，对所述第一帧采样图像进行图像增强处理，得到第一个目标图像；

所述参数增强处理单元包括：

目标采样图像确定单元，被配置为执行从所述其他采样图像中确定目标采样图像；

图像增强参数确定单元，被配置为执行根据所述目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数，确定所述目标采样图像对应的图像增强参数；

其他目标图像获取单元，被配置为执行根据所述目标采样图像对应的图像增强参数，对所述目标采样图像进行图像增强处理，得到所述其他目标图像。

11.根据权利要求8所述的特征提取模型生成装置，其特征在于，所述采样模块包括：第一帧采样图像确定单元，被配置为执行对所述视频数据中与预设采样参数对应的目标帧位置处的图像进行采样，得到第一帧采样图像；并将所述第一帧采样图像作为当前采样图像；

当前采样参数确定单元，被配置为执行将所述预设采样参数作为当前采样参数；

下一采样图像确定单元，被配置为执行根据所述当前采样图像的目标帧位置和所述当前采样参数，对所述当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样，得到所述当前采样图像的下一采样图像；

当前采样图像更新单元，被配置为执行根据所述下一采样图像，更新所述当前采样图像；

视频采样率更新单元，被配置为执行根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率，更新所述当前采样参数中的视频采样率；

采样图像获取单元，被配置为执行重复所述根据所述当前采样图像的目标帧位置和所述当前采样参数，确定所述当前采样图像的下一采样图像至所述根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率，更新所述当前采样参数的步骤，直到采样图像的数量达到所述预设数量。

12.根据权利要求8所述的特征提取模型生成装置，其特征在于，所述特征提取模型训练模块包括：

第一训练图像获取模块，被配置为执行从所述多个按序排列的目标图像中获取第一数量个训练图像；

第一训练模块，被配置为执行在第一训练阶段，基于所述第一数量个训练图像，对待训练业务模型进行训练，得到第一待训练模型；

第二训练图像获取模块，被配置为执行从所述多个按序排列的目标图像中获取第二数量个训练图像；

第二训练模块，被配置为执行在第二训练阶段，基于所述第二数量个训练图像，对所述第一待训练模型中的非特征提取网络进行训练，得到第二待训练模型；

第三训练图像获取模块，被配置为执行从所述多个按序排列的目标图像中获取第三数量个训练图像；

第三训练模块，被配置为执行在第三训练阶段，基于所述第三数量个训练图像，对所述第二待训练模型中的特征提取网络进行训练，得到目标业务模型。

13.根据权利要求8所述的特征提取模型生成装置，其特征在于，所述装置还包括：特征提取模块，被配置为执行将所述视频数据输入到所述视频特征提取模型中进行特征提取，得到视频特征数据；

视频分类模块，被配置为执行将所述视频特征数据输入到待训练视频分类模型中进行分类，得到所述视频数据对应的每个视频类别概率，所述视频类别概率表征所述视频数据属于不同的视频类别的概率；

视频类别确定模块，被配置为执行根据所述每个视频类别概率，确定所述视频数据对应的视频类别信息；

分类损失确定模块，被配置为执行根据所述视频类别信息和所述每个视频类别概率，确定分类损失数据；

标签平滑损失确定模块，被配置为执行根据所述视频类别信息、所述每个视频类别概率和预设的标签平滑参数，确定标签平滑损失数据；

分类模型训练模块，被配置为珍惜基于所述分类损失数据和所述标签平滑损失数据，对所述待训练视频分类模型进行训练，得到视频分类模型。

14.根据权利要求8所述的特征提取模型生成装置，其特征在于，所述装置还包括：预处理模块，被配置为执行对所述预设数量个采样图像进行翻转处理或灰度化处理，得到预设数量个预处理采样图像；

第一预处理图像增强模块，被配置为执行基于预设的图像增强程度，对所述预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理，得到第一个目标图像；

第二预处理图像增强模块，被配置为执行基于所述预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度，对所述其他预处理采样图像进行图像增强处理，得到其他目标图像，所述其他预处理采样图像为所述预设数量个预处理采样图像中除第一帧预处理采样图像外的采样图像。

15.一种电子设备，其特征在于，所述电子设备包括：处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的一种特征提取模型生成方法。

16.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的一种特征提取模型生成方法。

17.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至7任一项所述的一种特征提取模型生成方法。

一种特征提取模型生成方法、装置、电子设备和存储介质

技术领域

[0001] 本公开涉及机器学习模型技术领域，尤其涉及一种特征提取模型生成方法、装置、电子设备和存储介质。

背景技术

[0002] 自监督学习是不依赖任何标签值，通过对数据内在特征的挖掘，找到样本间的关系的方法。自监督学习由于没有人工标注信息，因此自监督学习的重点在于如何自动为输
入的数据产生标签信息，可以通过对输入的数据进行采样和数据增强的方式，对输入的数
据进行区别，从而可以在特征提取时得到有效的特征信息。

[0003] 相关技术中，对视频数据的数据增强通常采用相同程度的增强，而在实际的视频数据中，物体会移动，摄像机也会抖动，视频数据中的帧数据会发生模糊甚至丢失，单纯的
对所有帧采用相同程度的增强不能够充分模拟视频数据中对象的动态变化或摄像头的动
态变化，导致图像增强的有效性低，从而导致自监督学习的准确性低。

发明内容

[0004] 本公开提供一种特征提取模型生成方法、装置、电子设备和存储介质，以至少解决相关技术中图像增强的有效性低，且自监督学习的准确性低的问题。本公开的技术方案如
下：

[0005] 根据本公开实施例的第一方面，提供一种特征提取模型生成方法，所述方法包括：

[0006] 获取视频数据；

[0007] 对所述视频数据中预设数量个目标帧位置处的图像进行采样，得到所述预设数量个采样图像；

[0008] 基于预设的图像增强程度，对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目标图像；

[0009] 基于所述预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度，对所述其他采样图像进行图像增强处理，得到其他目标图像，所述其他采样图像
为所述预设数量个采样图像中除第一帧采样图像外的采样图像；

[0010] 将所述第一个目标图像和所述其他目标图像作为多个按序排列的目标图像；

[0011] 基于所述多个按序排列的目标图像，对待训练特征提取模型进行训练，得到视频特征提取模型。

[0012] 作为一个可选的实施例，所述基于所述预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度，对所述其他采样图像进行图像增强处理，得到其他
目标图像包括：

[0013] 根据每个其他采样图像对应的图像增强程度，对所述每个其他采样图像进行图像增强处理，得到所述其他目标图像，所述每个其他采样图像对应的图像增强程度为基于所
述上一帧采样图像对应的图像增强程度确定的增强程度。

[0014] 作为一个可选的实施例，所述根据所述每个其他采样图像对应的图像增强程度，对所述每个其他采样图像进行图像增强处理，得到所述其他目标图像包括：

[0015] 根据所述每个其他采样图像对应的图像增强参数，对所述每个其他采样图像进行图像增强处理，得到所述其他目标图像，所述图像增强参数表征所述每个其他采样图像对
应的图像增强程度，所述图像增强参数为基于所述每个其他采样图像的上一帧采样图像对
应的图像增强参数和预设的帧间增强参数进行更新的参数。

[0016] 作为一个可选的实施例，所述基于预设的图像增强程度，对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目标图像包括：

[0017] 将预设的初始图像增强参数作为所述预设的图像增强程度；

[0018] 根据所述初始图像增强参数，对所述第一帧采样图像进行图像增强处理，得到第一个目标图像；

[0019] 所述根据所述每个其他采样图像对应的图像增强参数，对所述每个其他采样图像进行图像增强处理，得到所述其他目标图像包括：

[0020] 从所述其他采样图像中确定目标采样图像；

[0021] 根据所述目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数，确定所述目标采样图像对应的图像增强参数；

[0022] 根据所述目标采样图像对应的图像增强参数，对所述目标采样图像进行图像增强处理，得到所述其他目标图像。

[0023] 作为一个可选的实施例，所述对所述视频数据中预设数量个目标帧位置处的图像进行采样，得到所述预设数量个采样图像包括：

[0024] 对所述视频数据中与所述预设采样参数对应的目标帧位置处的图像进行采样，得到第一帧采样图像；

[0025] 将所述第一帧采样图像作为当前采样图像；

[0026] 将所述预设采样参数作为当前采样参数；

[0027] 根据所述当前采样图像的目标帧位置和所述当前采样参数，对所述当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样，得到所述当前采样图像的下一采样图
像；

[0028] 根据所述下一采样图像，更新所述当前采样图像；

[0029] 根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率，更新所述当前采样参数中的视频采样率；

[0030] 重复所述根据所述当前采样图像的目标帧位置和所述当前采样参数，确定所述当前采样图像的下一采样图像至所述根据所述当前采样图像的目标帧位置、所述下一采样图
像的目标帧位置和所述视频数据的帧率，更新所述当前采样参数的步骤，直到采样图像的
数量达到所述预设数量。

[0031] 作为一个可选的实施例，所述基于所述多个按序排列的目标图像，对所述待训练特征提取模型进行训练，得到视频特征提取模型还包括：

[0032] 从所述多个按序排列的目标图像中获取第一数量个训练图像；

[0033] 在第一训练阶段，基于所述第一数量个训练图像，对待训练业务模型进行训练，得到第一待训练模型；

[0034] 从所述多个按序排列的目标图像中获取第二数量个训练图像；

[0035] 在第二训练阶段，基于所述第二数量个训练图像，对所述第一待训练模型中的非特征提取网络进行训练，得到第二待训练模型；

[0036] 从所述多个按序排列的目标图像中获取第三数量个训练图像；

[0037] 在第三训练阶段，基于所述第三数量个训练图像，对所述第二待训练模型中的特征提取网络进行训练，得到目标业务模型。

[0038] 作为一个可选的实施例，所述基于所述多个按序排列的目标图像，对所述待训练特征提取模型进行训练，得到视频特征提取模型之后，所述方法还包括：

[0039] 将所述视频数据输入到所述视频特征提取模型中进行特征提取，得到视频特征数据；

[0040] 将所述视频特征数据输入到待训练视频分类模型中进行分类，得到所述视频数据对应的每个视频类别概率，所述视频类别概率表征所述视频数据属于不同的视频类别的概
率；

[0041] 根据所述每个视频类别概率，确定所述视频数据对应的视频类别信息；

[0042] 根据所述视频类别信息和所述每个视频类别概率，确定分类损失数据；

[0043] 根据所述视频类别信息、所述每个视频类别概率和预设的标签平滑参数，确定标签平滑损失数据；

[0044] 基于所述分类损失数据和所述标签平滑损失数据，对所述待训练视频分类模型进行训练，得到视频分类模型。

[0045] 作为一个可选的实施例，所述方法还包括：

[0046] 对所述预设数量个采样图像进行翻转处理或灰度化处理，得到预设数量个预处理采样图像；

[0047] 基于预设的图像增强程度，对所述预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理，得到第一个目标图像；

[0048] 基于所述预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度，对所述其他预处理采样图像进行图像增强处理，得到其他
目标图像，所述其他预处理采样图像为所述预设数量个预处理采样图像中除第一帧预处理
采样图像外的采样图像。

[0049] 根据本公开实施例的第二方面，提供一种特征提取模型生成装置，所述装置包括：

[0050] 视频数据获取模块，被配置为执行获取视频数据；

[0051] 采样模块，被配置为执行对所述视频数据中预设数量个目标帧位置处的图像进行采样，得到所述预设数量个采样图像；

[0052] 第一图像增强模块，被配置为执行基于预设的图像增强程度，对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目标图像；

[0053] 第二图像增强模块，被配置为执行基于所述预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度，对所述其他采样图像进行图像增强处理，得到
其他目标图像，所述其他采样图像为所述预设数量个采样图像中除第一帧采样图像外的采
样图像；

[0054] 目标图像确定模块，被配置为执行将所述第一个目标图像和所述其他目标图像作为多个按序排列的目标图像；

[0055] 特征提取模型训练模块，被配置为执行基于所述多个按序排列的目标图像，对待训练特征提取模型进行训练，得到视频特征提取模型。

[0056] 作为一个可选的实施例，所述第二图像增强模块包括：

[0057] 第二图像增强单元，被配置为执行根据每个其他采样图像对应的图像增强程度，对所述每个其他采样图像进行图像增强处理，得到所述其他目标图像，所述每个其他采样
图像对应的图像增强程度为基于所述上一帧采样图像对应的图像增强程度确定的增强程
度。

[0058] 作为一个可选的实施例，所述第二图像增强单元包括：

[0059] 参数增强处理单元，被配置为执行根据所述每个其他采样图像对应的图像增强参数，对所述每个其他采样图像进行图像增强处理，得到所述其他目标图像，所述图像增强参
数表征所述每个其他采样图像对应的图像增强程度，所述图像增强参数为基于所述每个其
他采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数进行更新的参
数。

[0060] 作为一个可选的实施例，所述第一图像增强模块包括：

[0061] 初始增强程度确定单元，被配置为执行将预设的初始图像增强参数作为所述预设的图像增强程度；

[0062] 第一个目标图像获取单元，被配置为执行根据所述初始图像增强参数，对所述第一帧采样图像进行图像增强处理，得到第一个目标图像；

[0063] 所述参数增强处理单元包括：

[0064] 目标采样图像确定单元，被配置为执行从所述其他采样图像中确定目标采样图像；

[0065] 图像增强参数确定单元，被配置为执行根据所述目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数，确定所述目标采样图像对应的图像增强参
数；

[0066] 其他目标图像获取单元，被配置为执行根据所述目标采样图像对应的图像增强参数，对所述目标采样图像进行图像增强处理，得到所述其他目标图像。

[0067] 作为一个可选的实施例，所述采样模块包括：

[0068] 第一帧采样图像确定单元，被配置为执行对所述视频数据中与所述预设采样参数对应的目标帧位置处的图像进行采样，得到第一帧采样图像；并将所述第一帧采样图像作
为当前采样图像；

[0069] 当前采样参数确定单元，被配置为执行将所述预设采样参数作为当前采样参数；

[0070] 下一采样图像确定单元，被配置为执行根据所述当前采样图像的目标帧位置和所述当前采样参数，对所述当前采样图像的目标帧位置的下一目标帧位置处的图像进行采
样，得到所述当前采样图像的下一采样图像；

[0071] 当前采样图像更新单元，被配置为执行根据所述下一采样图像，更新所述当前采样图像；

[0072] 视频采样率更新单元，被配置为执行根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率，更新所述当前采样参数中的视频采样
率；

[0073] 采样图像获取单元，被配置为执行重复所述根据所述当前采样图像的目标帧位置和所述当前采样参数，确定所述当前采样图像的下一采样图像至所述根据所述当前采样图
像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率，更新所述当前
采样参数的步骤，直到采样图像的数量达到所述预设数量。

[0074] 作为一个可选的实施例，所述特征提取模型训练模块包括：

[0075] 第一训练图像获取模块，被配置为执行从所述多个按序排列的目标图像中获取第一数量个训练图像；

[0076] 第一训练模块，被配置为执行在第一训练阶段，基于所述第一数量个训练图像，对待训练业务模型进行训练，得到第一待训练模型；

[0077] 第二训练图像获取模块，被配置为执行从所述多个按序排列的目标图像中获取第二数量个训练图像；

[0078] 第二训练模块，被配置为执行在第二训练阶段，基于所述第二数量个训练图像，对所述第一待训练模型中的非特征提取网络进行训练，得到第二待训练模型；

[0079] 第三训练图像获取模块，被配置为执行从所述多个按序排列的目标图像中获取第三数量个训练图像；

[0080] 第三训练模块，被配置为执行在第三训练阶段，基于所述第三数量个训练图像，对所述第二待训练模型中的特征提取网络进行训练，得到目标业务模型。

[0081] 作为一个可选的实施例，所述装置还包括：

[0082] 特征提取模块，被配置为执行将所述视频数据输入到所述视频特征提取模型中进行特征提取，得到视频特征数据；

[0083] 视频分类模块，被配置为执行将所述视频特征数据输入到待训练视频分类模型中进行分类，得到所述视频数据对应的每个视频类别概率，所述视频类别概率表征所述视频
数据属于不同的视频类别的概率；

[0084] 视频类别确定模块，被配置为执行根据所述每个视频类别概率，确定所述视频数据对应的视频类别信息；

[0085] 分类损失确定模块，被配置为执行根据所述视频类别信息和所述每个视频类别概率，确定分类损失数据；

[0086] 标签平滑损失确定模块，被配置为执行根据所述视频类别信息、所述每个视频类别概率和预设的标签平滑参数，确定标签平滑损失数据；

[0087] 分类模型训练模块，被配置为珍惜基于所述分类损失数据和所述标签平滑损失数据，对所述待训练视频分类模型进行训练，得到视频分类模型。

[0088] 作为一个可选的实施例，所述装置还包括：

[0089] 预处理模块，被配置为执行对所述预设数量个采样图像进行翻转处理或灰度化处理，得到预设数量个预处理采样图像；

[0090] 第一预处理图像增强模块，被配置为执行基于预设的图像增强程度，对所述预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理，得到第一个目标图
像；

[0091] 第二预处理图像增强模块，被配置为执行基于所述预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度，对所述其他预处理
采样图像进行图像增强处理，得到其他目标图像，所述其他预处理采样图像为所述预设数
量个预处理采样图像中除第一帧预处理采样图像外的采样图像。

[0092] 根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括：

[0093] 处理器；

[0094] 用于存储所述处理器可执行指令的存储器;

[0095] 其中，所述处理器被配置为执行所述指令，以实现如上述所述的一种特征提取模型生成方法。

[0096] 根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述所述
的一种特征提取模型生成方法。

[0097] 根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现上述所述的一种特征提取模型生成方法。

[0098] 本公开的实施例提供的技术方案至少带来以下有益效果：

[0099] 对视频数据中预设数量个目标帧位置处的图像进行采样，得到预设数量个采样图像；基于预设的图像增强程度，对预设数量个采样图像中的第一帧采样图像进行图像增强
处理，得到第一个目标图像，并基于预设数量个采样图像中的其他采样图像的上一帧采样
图像对应的图像增强程度，对其他采样图像进行图像增强处理，得到其他目标图像，将第一
个目标图像和其他目标图像作为目标图像，基于目标图像，对待训练特征提取模型进行训
练，得到视频特征提取模型。该方法可以根据每一个采样图像的图像增强参数，对该采样图
像进行图像增强，从而提高了图像增强的有效性，并提高增强后的图像间的帧间连续性。

[0100] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

[0101] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

[0102] 图1是根据一示例性实施例示出的一种视频特征提取模型生成方法的应用场景示意图。

[0103] 图2是根据一示例性实施例示出的一种视频特征提取模型生成方法的流程图。

[0104] 图3是根据一示例性实施例示出的一种视频特征提取模型生成方法中对视频数据进行采样的流程图。

[0105] 图4是根据一示例性实施例示出的一种视频特征提取模型生成方法中对预处理采样图像和采样图像进行图像增强处理的流程图。

[0106] 图5是根据一示例性实施例示出的一种视频特征提取模型生成方法中在图像增强时基于每个采样图像的图像增强参数，对采样图像进行图像增强处理的流程图。

[0107] 图6是根据一示例性实施例示出的一种视频特征提取模型生成方法中训练视频分类模型的流程图。

[0108] 图7是根据一示例性实施例示出的一种视频特征提取模型生成方法中对目标业务模型进行分阶段训练的流程图。

[0109] 图8是根据一示例性实施例示出的一种视频特征提取模型生成装置的结构示意图。

[0110] 图9是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

[0111] 为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

[0112] 需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相
一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面
相一致的装置和方法的例子。

[0113] 图1为根据一示例性实施例示出的一种视频特征提取模型生成方法的应用场景示意图，该应用场景包括服务器110和客户端120，服务器110获取客户端120上传的视频数据，
服务器110对视频数据中预设数量个目标帧位置处的图像进行采样，得到预设数量个采样
图像，并基于预设的图像增强程度，对预设数量个采样图像中的第一帧采样图像进行图像
增强处理，得到第一个目标图像，再基于预设数量个采样图像中的其他采样图像的上一帧
采样图像对应的图像增强程度，对其他采样图像进行图像增强处理，得到其他目标图像，将
第一个目标图像和其他目标图像作为目标图像，服务器110将目标图像作为训练数据，通过
自监督学习的方式生成视频特征提取模型。

[0114] 在本公开实施例中，服务器110可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器110可以包括有网络通信单元、处理器和
存储器等等。具体的，服务器110可以获取视频数据，对视频数据中预设数量个目标帧位置
处的图像进行采样，得到预设数量个采样图像，并对每个采样图像分别进行图像增强处理，
得到目标图像。服务器110还可以目标图像作为训练数据，通过自监督学习的方式生成视频
特征提取模型。

[0115] 在本发明实施例中，客户端120包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如
应用程序等。本申请实施例中实体设备上运行的操作系统可以包括但不限于安卓系统、IOS
系统、linux、Unix、windows等。客户端120基于API（Application Programming Interface，
应用程序接口）将视频数据发送给服务器110。

[0116] 图2是根据一示例性实施例示出的一种视频特征提取模型生成方法的流程图，如图2所示，该方法用于服务器中，包括以下步骤。

[0117] S210.获取视频数据；

[0118] S220.对视频数据中预设数量个目标帧位置处的图像进行采样，得到预设数量个采样图像。

[0119] 作为一个可选的实施例，基于预设采样参数，对预设数量个目标帧位置处中的第一个帧位置处的图像进行采样，得到第一帧采样图像。基于预设数量个目标帧位置处中的
其他帧位置处的上一帧位置处的图像对应的采样参数，对其他帧位置处的图像进行采样，
得到其他采样图像，其他采样图像为预设数量个采样图像中除第一帧采样图像外的采样图
像。

[0120] 作为一个可选的实施例，请参见图3，对视频数据中预设数量个目标帧位置处的图像进行采样，得到预设数量个采样图像包括：

[0121] S310.对视频数据中与预设采样参数对应的目标帧位置处的图像进行采样，得到第一帧采样图像；

[0122] S320.将第一帧采样图像作为当前采样图像；

[0123] S330.将预设采样参数作为当前采样参数；

[0124] S340.根据当前采样图像的目标帧位置和当前采样参数，对当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样，得到当前采样图像的下一采样图像；

[0125] S350.根据下一采样图像，更新当前采样图像；

[0126] S360.根据当前采样图像的目标帧位置、下一采样图像的目标帧位置和视频数据的帧率，更新当前采样参数中的视频采样率；

[0127] S370.重复根据当前采样图像的目标帧位置和所述当前采样参数，确定当前采样图像的下一采样图像至根据当前采样图像的目标帧位置、下一采样图像的目标帧位置和视
频数据的帧率，更新当前采样参数的步骤，直到采样图像的数量达到预设数量。

[0128] 作为一个可选的实施例，在对视频数据进行采样时，利用预设采样参数只能对视频数据进行均匀采样，在视频数据中的对象处于加速运动或减速运动时，或者摄像机发生
平移或抖动时，通过均匀采样得到的采样图像与视频数据在采样过程中的实际动态变化不
匹配，因此可以利用分布函数模拟视频数据中对象的动态变化或坐标参考系的动态变化，
从而通过视频数据在采样过程中的动态分布数据，确定采样图像的目标帧位置，得到预设
数量个采样图像。

[0129] 作为一个可选的实施例，预设采样参数包括预设的采样率、预设的采样图像的数量、视频数据的帧率和视频数据的帧数，根据预设采样参数，确定第一帧采样图像的目标帧
位置。根据第一帧采样图像的目标帧位置，得到第一帧采样图像。将第一帧采样图像作为当
前采样图像，并将预设的采样率作为当前采样参数。根据当前视频采样参数和视频数据的
帧率，可以确定视频数据采集过程中的动态分布数据。根据当前采样图像的目标帧位置和
动态分布数据，可以确定当前采样图像的下一采样图像的目标帧位置，动态分布数据可以
确定两个相邻的采样图像间的目标帧位置的差值。根据当前采样图像的下一采样图像的目
标帧位置，可以更新当前采样图像。根据当前采样图像的目标帧位置、当前采样图像的下一
采样图像的目标帧位置和视频数据的帧率，可以更新当前视频采样参数。基于更新后的当
前采样图像的目标帧位置和更新后的当前视频采样参数，可以确定更新后的当前采样图像
的下一采样图像的目标帧位置，并可以再次对当前采样图像和当前视频采样参数进行更
新，并更新动态分布数据。重复上述采样和更新的步骤直到采样图像的数量达到预设数量，
根据每一个采样图像的目标帧位置，可以得到多个按序排列的采样图像。该多个按序排列
的采样图像对应当前采样的视频数据。

[0130] 作为一个可选的实施例，视频数据包括帧图像，当前采样的采样图像的数目为帧。当对视频数据的采样为均匀采样时，可以得到目标帧位置的均匀分布为
，每一帧采样图像和下一帧采样图像间的采样间隔为。假设
为5，当前采样图像对应的帧位置为第1帧，则下一采样图像对应的帧位置为第6帧，若此
时视频数据中的对象为加速状态，或者摄像机的方向平移，或者摄像机的抖动变得剧烈，则
可以根据预设的分布函数模拟视频数据中对象的动态变化或视频数据对应的参考系的动
态变化，缩短采样率，实际采样的下一采样图像可以为第5帧或者第4帧。

[0131] 作为一个可选的实施例，在进行非均匀采样的采样过程开始时，初始的采样率为帧/s，视频数据的帧率为，根据预设的采样率可以确定第一帧采样图像的目标帧位
置。此时可以根据均匀分布确定第一帧采样图像的目标帧位置，即时对应第一帧采样
图像，第一帧采样图像的目标帧位置为。

[0132] 在当前采样图像不为第一帧采样图像时，可以设当前采样图像的目标帧位置为，则当前采样图像的下一帧采样图像的目标帧位置为，其中，的部分，也就是可
以采用预设的分布函数进行模拟，例如高斯分布函数或拉普拉斯分布函数。

[0133] 在采用高斯分布函数时，可以使用方差为的高斯分布函数，为预先定义的超参数，可以设定为。当前采样图像和当前采样图像的下一帧采样图像间的目标帧
位置差值符合高斯分布，即，可以根据高斯分布得到的值，计
算当前采样图像的下一帧采样图像间的目标帧位置。

[0134] 在采用拉普拉斯分布函数时，可以使用平均绝对方差为的拉普拉斯分布函数，为预先定义的超参数，可以设定为。当前采样图像和当前采样图像的
下一帧采样图像间的目标帧位置差值符合拉普拉斯分布，即，
可以根据拉普拉斯分布得到Δs的值，计算当前采样图像的下一帧采样图像间的目标帧位
置。

[0135] 根据当前采样图像的目标帧位置、当前采样图像的下一帧采样图像的目标帧位置和视频数据的帧率，可以更新当前视频采样参数，具体的公式为。更新当前
采样图像，将当前采样图像的下一帧采样图像作为当前采样图像。基于更新后的当前视频
采样参数和视频数据的帧率，可以更新动态分布数据，从而计算当前采样图像和当前采样
图像的下一帧采样图像间的目标帧位置差值，直到采样图像的数量达到预设数量。

[0136] 基于视频数据采集过程中的当前采样图像的目标帧位置和当前采样参数，确定下一采样图像的目标帧位置，可以模拟视频数据中对象的动态变化和坐标参考系的动态变
化，提高图像采样的准确率和平滑度。

[0137] S230.基于预设的图像增强程度，对预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目标图像；

[0138] S240.基于预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度，对其他采样图像进行图像增强处理，得到其他目标图像，其他采样图像为预设数
量个采样图像中除第一帧采样图像外的采样图像；

[0139] S250.将第一个目标图像和其他目标图像作为多个按序排列的目标图像；

[0140] 作为一个可选的实施例，请参见图4，该方法还包括：

[0141] S410.对预设数量个采样图像进行翻转处理或灰度化处理，得到预设数量个预处理采样图像；

[0142] S420.基于预设的图像增强程度，对预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理，得到第一个目标图像；

[0143] S430.基于预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度，对其他预处理采样图像进行图像增强处理，得到其他目标
图像，其他预处理采样图像为预设数量个预处理采样图像中除第一帧预处理采样图像外的
采样图像。

[0144] 作为一个可选的实施例，服务器可以基于预设的随机分布数据，确定是否要对视频数据对应的预设数量个采样图像进行翻转处理或灰度化处理，随机分布数据可以为伯努
利分布数据。服务器在对视频数据对应的预设数量个采样图像进行翻转处理或灰度化处理
时，是对预设数量个采样图像中每一个采样图像均进行翻转处理或灰度化处理。

[0145] 服务器在对预设数量个采样图像进行翻转处理或灰度化处理，得到预处理采样图像，服务器可以对每个预处理采样图像进行图像增强处理，得到目标图像。在进行图像增强
处理时，服务器可以基于预设的图像增强程度，对预设数量个预处理采样图像中的第一帧
预处理采样图像进行图像增强处理，并根据上一帧预处理采样图像对应的图像增强程度，
对其他预处理采样图像进行图像增强处理。

[0146] 服务器可以对采样图像采用不同的预处理方式，并在预处理后，对预处理采样图像多次进行不同的图像增强处理，得到多组目标图像。例如，服务器对视频数据对应的预
设数量个采样图像进行图像增强处理，服务器可以对预设数量个采样图像进行翻转处
理，得到预处理采样图像。服务器对预处理采样图像进行图像增强处理，得到一组目
标图像。服务器对采样图像进行图像增强处理，得到另一组目标图像。或者服务器可以对
预设数量个采样图像进行翻转处理，得到预处理采样图像。服务器对预处理采样图像
进行图像增强处理，得到一组目标图像。服务器可以对预设数量个采样图像进行灰度化
处理，得到预处理采样图像，服务器对预处理采样图像进行图像增强处理，得到另一
组目标图像。服务器就可以得到两组目标图像，在后续步骤中，根据这两组目标图像进行对
比学习。服务器还可以获得两组以上的目标图像。

[0147] 对采样图像进行翻转处理或灰度化处理，可以简单生成与采样图像相似的预处理采样图像，从而将预处理采样图像应用到后续的对比学习中，可以提高自监督学习的准确
率。

[0148] 作为一个可选的实施例，基于预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度，对其他采样图像进行图像增强处理，得到其他目标图像包括：

[0149] 根据每个其他采样图像对应的图像增强程度，对每个其他采样图像进行图像增强处理，得到其他目标图像，每个其他采样图像对应的图像增强程度为基于上一帧采样图像
对应的图像增强程度确定的增强程度。

[0150] 作为一个可选的实施例，基于上一帧采样图像对应的图像增强程度，可以确定其他采样图像对应的图像增强程度，根据每个其他采样图像对应的图像增强程度，对每个其
他采样图像进行图像增强处理，得到其他目标图像。因此，图像增强程度是一个动态变化的
信息，可以表征两帧采样图像之间的动态变化，从而在进行图像增强时，将两帧采样图像之
间发生的动态变化增加到图像增强中，得到目标其他图像。

[0151] 根据每个其他采样图像的图像增强程度，对其他采样图像进行图像增强，可以通过图像增强程度模拟两帧采样图像之间的动态变化，使得图像增强的结果上也可以表示这
种动态变化，从而在应用到后续的对比学习中，可以提高自监督学习的准确性。

[0152] 作为一个可选的实施例，根据每个其他采样图像对应的图像增强程度，对每个其他采样图像进行图像增强处理，得到其他目标图像包括：

[0153] 根据每个其他采样图像对应的图像增强参数，对每个其他采样图像进行图像增强处理，得到其他目标图像，图像增强参数表征每个其他采样图像对应的图像增强程度。

[0154] 作为一个可选的实施例，可以通过图像增强参数表示每个其他采样图像对应的图像增强程度，图像增强参数是动态变化的图像增强参数，图像增强参数为基于每个其他采
样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数进行更新的参，图像
增强参数可以包括图像缩放参数、图像裁剪参数和颜色扰动参数中的一种或多种。

[0155] 例如，图像增强参数包括图像缩放参数。服务器根据每个其他采样图像的上一帧采样图像对应的图像缩放参数和预设的帧间缩放参数，确定每个其他采样图像对应的图像
缩放参数。服务器根据每个采样图像对应的图像缩放参数，对每个其他采样图像进行图像
缩放处理，可以得到其他目标图像。图像增强参数包括图像缩放参数和图像裁剪参数。服务
器根据每个其他采样图像的上一帧采样图像对应的图像缩放参数和预设的帧间缩放参数，
确定每个其他采样图像对应的图像缩放参数，并根据每个其他采样图像对应的图像缩放参
数，对每个其他采样图像进行图像缩放处理，可以得到缩放后图像。服务器根据每个缩放后
图像的上一个缩放后图像对应的图像裁剪参数和预设的帧间裁剪参数，确定每个缩放后图
像对应的图像裁剪参数。服务器根据每个采样图像对应的图像裁剪参数，对每个缩放后图
像进行图像裁剪处理，可以得到其他目标图像。

[0156] 在对采样图像进行图像增强时，根据每一个采样图像的上一帧采样图像的图像增强参数，实时更新每一个采样图像的图像增强参数，从而可以模拟自然条件下视频出现的
各种变形，提高图像增强的有效性。

[0157] 作为一个可选的实施例，请参见图5，基于预设的图像增强程度，对预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目标图像包括：

[0158] S510.将预设的初始图像增强参数作为所述预设的图像增强程度；

[0159] S520.根据初始图像增强参数，对第一帧采样图像进行图像增强处理，得到第一个目标图像；

[0160] 根据每个其他采样图像对应的图像增强参数，对每个其他采样图像进行图像增强处理，得到其他目标图像包括：

[0161] S530.从其他采样图像中确定目标采样图像；

[0162] S540.根据目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数，确定目标采样图像对应的图像增强参数；

[0163] S550.根据目标采样图像对应的图像增强参数，对目标采样图像进行图像增强处理，得到其他目标图像。

[0164] 作为一个可选的实施例，在对多个按序排列的采样图像中的第一帧采样图像进行图像增强时，服务器获取预设的初始图像增强参数，将初始图像增强参数作为第一帧采样
图像对应的图像增强参数。服务器可以根据第一帧采样图像对应的图像增强参数，对第一
帧采样图像进行图像增强处理，得到第一个目标图像，第一个目标图像为第一帧采样图像
的增强后图像。

[0165] 作为一个可选的实施例，在初始图像增强参数为初始图像缩放参数时，初始图像缩放参数可以设置为。在初始图像增强参数为初始图像裁剪参数时，设
采样图像的尺寸信息为，对采样图像进行裁剪的目标为将每个采样图像变成
224x224大小的规整的图像，初始图像裁剪参数可以为。在初始图像
增强参数为初始颜色扰动参数时，初始颜色扰动参数可以为 ,分别
对应为三个颜色通道的初始颜色扰动参数。

[0166] 作为一个可选的实施例，服务器可以从其他采样图像中确定目标采样图像。服务器可以根据目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数，
确定目标采样图像对应的第一图像增强参数。帧间增强参数可以为预设的平滑分布数据的
参数，帧间增强参数可以包括帧间缩放参数、帧间裁剪参数和帧间颜色扰动参数。平滑分布
数据用来模拟相邻两帧采样图像间图像增强参数的变化，图像增强参数的变化可以包括相
邻两帧采样图像间缩放参数的变化、裁剪位置的变化或者颜色扰动变化。平滑分布数据可
以采用高斯分布或者拉普拉斯分布。服务器根据目标采样图像对应的图像增强参数，对目
标采样图像进行图像增强处理，可以得到其他目标图像，其他目标图像为其他采样图像的
增强后图像。

[0167] 作为一个可选的实施例，在图像增强参数为图像缩放参数时，设目标采样图像的上一帧采样图像对应的图像缩放参数为，则目标采样图像对应的图像
缩放参数为。计算目标采样图像对应的图像缩放参数的公式为
。

[0168] 若为高斯分布，则该高斯分布的方差为，为帧间缩放参数，是一个预先定义的超参数。可以从同一对象在相邻两帧采样图像中像素位置的变化来确定，即高斯
分布对应的像素位置的变化的发生概率大于90%概率的分布区间，从而确定帧间缩放参数
。

[0169] 利用高斯分布模拟图像缩放参数的变化，计算目标采样图像对应的图像缩放参数的公式为：

[0170] 服务器根据高斯分布确定图像缩放参数的变化程度，从而确定和。

[0171] 若为拉普拉斯分布，则该拉普拉斯分布的方差为，为帧间缩放参数,是一个预先定义的超参数。可以从同一对象在相邻两帧采样图像中像素位置的变化来确定
，从而确定帧间缩放参数。

[0172] 利用拉普拉斯分布模拟图像缩放参数的变化，计算目标采样图像对应的图像缩放参数的公式为：

[0173] 服务器根据拉普拉斯分布确定图像缩放参数的变化程度，从而确定和。

[0174] 服务器根据目标采样图像对应的图像缩放参数，对目标采样图像进行缩放处理，得到其他目标图像。

[0175] 作为一个可选的实施例，在图像增强参数为图像裁剪参数时，设目标采样图像的上一帧采样图像对应的图像裁剪参数为，则目标采样图像对应的图像裁
剪参数，计算目标采样图像对应的图像裁剪参数的公式为
。若为高斯分布，则该高斯分布的方差为，
为帧间缩放参数，是一个预先定义的超参数。服务器可以从同一对象在相邻两帧采样图
像中像素位置的变化来确定，即高斯分布对应的像素位置的变化大于90%概率的分布
区间，从而确定帧间缩放参数。

[0176] 利用高斯分布模拟图像缩放参数的变化，计算目标采样图像对应的图像裁剪参数的公式为：

[0177] 服务器根据高斯分布图像裁剪参数的变化程度，从而确定和。

[0178] 若为拉普拉斯分布，则该拉普拉斯分布的方差为，为帧间裁剪参数,是一个预先定义的超参数。可以从同一对象在相邻两帧采样图像中像素位置的变化来确定
，从而确定帧间缩放参数。利用拉普拉斯分布模拟图像裁剪参数的变化，计
算目标采样图像对应的图像裁剪参数的公式为：

[0179]

[0180] 服务器根据拉普拉斯分布确定图像裁剪参数的变化程度，从而确定和。

[0181] 服务器根据目标采样图像对应的图像裁剪参数，对目标采样图像进行裁剪处理，得到其他目标图像。

[0182] 作为一个可选的实施例，在图像增强参数为颜色扰动参数时，设目标采样图像的上一帧采样图像对应的颜色扰动参数为：

[0183]

[0184] 则对于目标采样图像对应的颜色扰动参数为：

[0185] 。

[0186] 计算目标采样图像对应的颜色扰动参数的公式为：

[0187] 。若为高斯分布，则该高斯分布的方差为，为帧间颜色扰动参数，是一个预先定义的
超参数。可以根据经验值，从同一对象在相邻两帧采样图像中像素值的变化来确定，即
高斯分布对应的像素值的变化发生概率大于90%概率的分布区间，从而确定帧间颜色扰动
参数。

[0188] 利用高斯分布模拟颜色扰动参数的变化，计算目标采样图像对应的颜色扰动参数的公式为：

[0189]

[0190] 服务器根据高斯分布确定颜色扰动参数的变化程度，从而确定、和。

[0191] 若为拉普拉斯分布，则该拉普拉斯分布的方差为，为帧间颜色扰动参数,是一个预先定义的超参数。可以根据经验值，从同一对象在相邻两帧采样图像中像素值
的变化来确定，从而确定帧间颜色扰动参数。利用拉普拉斯分布模拟图像颜
色扰动参数的变化，计算目标采样图像对应的颜色扰动参数的公式为：

[0192]

[0193] 服务器根据拉普拉斯分布确定颜色扰动参数的变化程度，从而确定、和。

[0194] 服务器根据目标采样图像对应的颜色扰动参数，对目标采样图像中的像素点
进行颜色偏移处理，得到其他目标图像。

[0195] 将第一个目标图像和其他目标图像作为目标图像，在将目标图像输入到待训练特征提取模型中进行模型训练之前，可以对目标图像进行高斯模糊处理。

[0196] 基于每一个采样图像的上一帧采样图像的图像增强参数，以及预设的平滑分布数据模拟得到的帧间增强参数，确定每一个采样图像的图像增强参数，根据每一个采样图像
的图像增强参数，对该采样图像进行图像增强，从而提高了图像增强的有效性，同时由于考
虑到了帧间增强参数，因此也可以提高增强后的图像间的帧间连续性。

[0197] S260.基于多个按序排列的目标图像，对待训练特征提取模型进行训练，得到视频特征提取模型。

[0198] 作为一个可选的实施例，服务器可以采用自监督学习的方式，对视频数据的特征进行学习，待训练特征提取模型。服务器将目标图像输入到待训练特征提取模型中进行特
征提取，得到目标图像对应的训练特征数据。目标图像可以有多组，因此训练特征模型也可
以有多组。选择一个目标视频数据，目标视频数据的其中一组目标图像与目标视频数据的
另一组目标图像相似，目标视频数据的其中一组目标图像与其他视频数据的各组目标图像
均不相似，因此可以将目标图像输入到待训练特征提取模型中，通过相似图像间的对比以
及非相似图像间的对比，可以对待训练特征提取模型进行训练，得到视频特征提取模型。

[0199] 作为一个可选的实施例，在输入为两组目标图像时，可以得到两组目标图像分别对应的第一训练特征数据和第二训练特征数据。服务器可以计算第一训练特征数据和第二
训练特征数据间的损失数据。损失数据的计算公式为：

[0200]

[0201] 其中，为两组目标图像中一组目标图像对应的第一训练特征数据，为两组目标图像中另一组目标图像对应的第二训练特征数据，为与不相同的训练特征数据。
为加快模型训练的温度参数，一般可以取0.1。

[0202] 和可以用内积公式进行计算。具体公式如下：

[0203]

[0204] 其中，表示向量的范数，表征向量的范数，范数定义为向量所有元素的平方和的开平方。表示向量的转置。

[0205] 服务器基于损失数据，对待训练特征提取模型进行训练，得到视频特征提取模型。

[0206] 在自监督学习中，通过对比学习的方式学习视频特征，生成视频特征提取模型，可以不需要人工标注信息，从而减少人工成本，缩短模型开发周期。

[0207] 作为一个可选的实施例，请参见图6，基于多个按序排列的目标图像，对待训练特征提取模型进行训练，得到视频特征提取模型包括：

[0208] S610.从多个按序排列的目标图像中获取第一数量个训练图像；

[0209] S620.在第一训练阶段，基于第一数量个训练图像，对待训练业务模型进行训练，得到第一待训练模型；

[0210] S630.从多个按序排列的目标图像中获取第二数量个训练图像；

[0211] S640.在第二训练阶段，基于第二数量个训练图像，对第一待训练模型中的非特征提取网络进行训练，得到第二待训练模型；

[0212] S650.从多个按序排列的目标图像中获取第三数量个训练图像；

[0213] S660.在第三训练阶段，基于第三数量个训练图像，对第二待训练模型中的特征提取网络进行训练，得到目标业务模型。

[0214] 作为一个可选的实施例，服务器在对待训练特征提取模型、待训练分类模型等模型进行训练时，可以采用分阶段训练的方式进行训练。服务器可以从多个目标图像中获取
第一数量个训练图像，第一数量个训练图像的数量少于目标图像的总数量。在第一训练阶
段，服务器基于第一数量个训练图像，对待训练业务模型进行训练，得到第一待训练模型。
服务器固定第一待训练模型中前预设数目层神经网络的参数，将第一待训练模型中前预设
数目层神经网络作为特征提取网络。服务器从多个目标图像中获取第二数量个训练图像，
第二数量个训练图像的数量少于目标图像的总数量，第二数量个训练图像的数量大于第一
数量个训练图像的数量。在第二训练阶段，服务器基于第二数量个训练图像，对第一待训练
模型中的非特征提取网络进行训练，得到第二待训练模型。

[0215] 服务器固定第二待训练模型中后预设数目层神经网络的参数，将第二待训练模型中后预设数目层神经网络作为非特征提取网络。服务器从多个目标图像中获取第三数量个
训练图像，第三数量个训练图像的数量少于目标图像的总数量，第三数量个训练图像的数
量可以大于第一数量个训练图像的数量。在第三训练阶段，服务器基于第三数量个训练图
像，对第二待训练模型中的特征提取网络进行训练，得到目标业务模型。

[0216] 服务器在分阶段训练目标业务模型时，也可以交替重复第二训练阶段和第三训练阶段多次，直到目标业务模型中的模型参数符合预期参数。

[0217] 采用多阶段训练的方式，训练得到目标业务模型，每次可以使用少量数据进行训练，从而可以减少内存占用，并提高模型训练的效率。

[0218] 作为一个可选的实施例，请参见图7，基于多个按序排列的目标图像，对待训练特征提取模型进行训练，得到视频特征提取模型之后，该方法还：

[0219] S710.将视频数据输入到所述视频特征提取模型中进行特征提取，得到视频特征数据；

[0220] S720.将视频特征数据输入到待训练视频分类模型中进行分类，得到视频数据对应的每个视频类别概率；

[0221] S730.根据每个视频类别概率，确定视频数据对应的视频类别信息；

[0222] S740.根据视频类别信息和每个视频类别概率，确定分类损失数据；

[0223] S750.根据视频类别信息、每个视频类别概率和预设的标签平滑参数，确定标签平滑损失数据；

[0224] S760.基于分类损失数据和标签平滑损失数据，对待训练视频分类模型进行训练，得到视频分类模型。

[0225] 作为一个可选的实施例，在得到视频特征提取模型后，可以应用于视频分类场景。服务器将视频数据输入到视频特征提取模型中进行特征提取，得到视频特征数据。服务器
将视频特征数据输入到待训练视频分类模型中进行分类，可以得到视频数据对应的每个视
频类别概率，视频类别概率表征视频数据属于不同的视频类别的概率。

[0226] 服务器根据每个视频类别概率，确定视频数据对应的视频类别信息，并根据视频类别信息和每个视频类别概率，确定分类损失数据。分类损失数据的具体公式如下：

[0227]

[0228] 其中，表示视频类别的数目，为标签信息，标签信息包括0和1,0表示不属于该视频类别，1表示属于该视频类别。表示视频类别概率。

[0229] 服务器预设的标签平滑参数可以取0.1，加入标签平滑参数后，表示的标签信息包括和 , 表示不属于该视频类别, 表示属于该视频类别。服务器
可以根据视频类别信息、每个视频类别概率和预设的标签平滑参数，确定标签平滑损失数
据。标签平滑损失数据对应的公式与分类损失数据对应的公式相同。

[0230] 服务器根据分类损失数据和标签平滑损失数据，对待训练视频分类模型进行训练，可以得到视频分类模型。

[0231] 基于分类损失数据和标签平滑损失数据，训练得到视频分类模型，通过标签平滑可以减少错误标签，提高视频分类的准确性。

[0232] 本公开实施例在生成视频特征提取模型后，服务器可以基于视频特征提取模型从视频数据中提取视频特征数据，将视频特征数据输入到待训练视频分类模型等待训练业务
模型中，训练得到视频分类模型等目标业务模型。服务器可以基于目标业务模型对视频数
据进行视频分析，根据视频分析的结果生成推荐信息或者广告信息等，将推荐信息或广告
信息发送到客户端。

[0233] 本公开实施例提出了一种视频特征提取模型生成方法，该方法包括：对视频数据中预设数量个目标帧位置处的图像进行采样，得到预设数量个采样图像；基于预设的图像
增强程度，对预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目
标图像，并基于预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强
程度，对其他采样图像进行图像增强处理，得到其他目标图像，将第一个目标图像和其他目
标图像作为目标图像，基于目标图像，对待训练特征提取模型进行训练，得到视频特征提取
模型。该方法可以模拟视频数据中对象的动态变化和坐标参考系的动态变化，提高图像采
样的准确率和平滑度，该方法还可以根据每一个采样图像的图像增强参数，对该采样图像
进行图像增强，从而提高了图像增强的有效性，并提高增强后的图像间的帧间连续性。该方
法还可以通过标签平滑的方式提高视频分类的准确率，并通过分阶段训练的方式提高模型
训练的效率。

[0234] 图8是根据一示例性实施例示出的一种视频特征提取模型生成装置框图。参照图8，该装置包括：

[0235] 视频数据获取模块810，被配置为执行获取视频数据；

[0236] 采样模块820，被配置为执行对视频数据中预设数量个目标帧位置处的图像进行采样，得到预设数量个采样图像；

[0237] 第一图像增强模块830，被配置为执行基于预设的图像增强程度，对预设数量个采样图像中的第一帧采样图像进行图像增强处理，得到第一个目标图像；

[0238] 第二图像增强模块840，被配置为执行基于预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度，对其他采样图像进行图像增强处理，得到其他
目标图像，其他采样图像为预设数量个采样图像中除第一帧采样图像外的采样图像；

[0239] 目标图像确定模块850，被配置为执行将第一个目标图像和其他目标图像作为多个按序排列的目标图像；

[0240] 特征提取模型训练模块860，被配置为执行基于多个按序排列的目标图像，对待训练特征提取模型进行训练，得到视频特征提取模型。

[0241] 作为一个可选的实施例，第二图像增强模块840包括：

[0242] 第二图像增强单元，被配置为执行根据每个其他采样图像对应的图像增强程度，对每个其他采样图像进行图像增强处理，得到其他目标图像，每个其他采样图像对应的图
像增强程度为基于上一帧采样图像对应的图像增强程度确定的增强程度。

[0243] 作为一个可选的实施例，第二图像增强单元包括：

[0244] 参数增强处理单元，被配置为执行根据每个其他采样图像对应的图像增强参数，对每个其他采样图像进行图像增强处理，得到其他目标图像，图像增强参数表征每个其他
采样图像对应的图像增强程度，图像增强参数为基于每个其他采样图像的上一帧采样图像
对应的图像增强参数和预设的帧间增强参数进行更新的参数。

[0245] 作为一个可选的实施例，第一图像增强模块850包括：

[0246] 初始增强程度确定单元，被配置为执行将预设的初始图像增强参数作为预设的图像增强程度；

[0247] 第一个目标图像获取单元，被配置为执行根据初始图像增强参数，对第一帧采样图像进行图像增强处理，得到第一个目标图像；

[0248] 参数增强处理单元包括：

[0249] 目标采样图像确定单元，被配置为执行从其他采样图像中确定目标采样图像；

[0250] 图像增强参数确定单元，被配置为执行根据目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数，确定目标采样图像对应的图像增强参数；

[0251] 其他目标图像获取单元，被配置为执行根据目标采样图像对应的图像增强参数，对目标采样图像进行图像增强处理，得到其他目标图像。

[0252] 作为一个可选的实施例，采样模块820包括：

[0253] 第一帧采样图像确定单元，被配置为执行对视频数据中与预设采样参数对应的目标帧位置处的图像进行采样，得到第一帧采样图像；并将第一帧采样图像作为当前采样图
像；

[0254] 当前采样参数确定单元，被配置为执行将预设采样参数作为当前采样参数；

[0255] 下一采样图像确定单元，被配置为执行根据当前采样图像的目标帧位置和当前采样参数，对当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样，得到当前采
样图像的下一采样图像；

[0256] 当前采样图像更新单元，被配置为执行根据下一采样图像，更新当前采样图像；

[0257] 视频采样率更新单元，被配置为执行根据当前采样图像的目标帧位置、下一采样图像的目标帧位置和视频数据的帧率，更新当前采样参数中的视频采样率；

[0258] 采样图像获取单元，被配置为执行重复根据当前采样图像的目标帧位置和当前采样参数，确定当前采样图像的下一采样图像至根据当前采样图像的目标帧位置、下一采样
图像的目标帧位置和视频数据的帧率，更新当前采样参数的步骤，直到采样图像的数量达
到预设数量。

[0259] 作为一个可选的实施例，特征提取模型训练模块860包括：

[0260] 第一训练图像获取模块，被配置为执行从多个按序排列的目标图像中获取第一数量个训练图像；

[0261] 第一训练模块，被配置为执行在第一训练阶段，基于第一数量个训练图像，对待训练业务模型进行训练，得到第一待训练模型；

[0262] 第二训练图像获取模块，被配置为执行从多个按序排列的目标图像中获取第二数量个训练图像；

[0263] 第二训练模块，被配置为执行在第二训练阶段，基于第二数量个训练图像，对第一待训练模型中的非特征提取网络进行训练，得到第二待训练模型；

[0264] 第三训练图像获取模块，被配置为执行从多个按序排列的目标图像中获取第三数量个训练图像；

[0265] 第三训练模块，被配置为执行在第三训练阶段，基于第三数量个训练图像，对第二待训练模型中的特征提取网络进行训练，得到目标业务模型。

[0266] 作为一个可选的实施例，该装置还包括：

[0267] 特征提取模块，被配置为执行将视频数据输入到视频特征提取模型中进行特征提取，得到视频特征数据；

[0268] 视频分类模块，被配置为执行将视频特征数据输入到待训练视频分类模型中进行分类，得到视频数据对应的每个视频类别概率，视频类别概率表征视频数据属于不同的视
频类别的概率；

[0269] 视频类别确定模块，被配置为执行根据每个视频类别概率，确定视频数据对应的视频类别信息；

[0270] 分类损失确定模块，被配置为执行根据视频类别信息和每个视频类别概率，确定分类损失数据；

[0271] 标签平滑损失确定模块，被配置为执行根据视频类别信息、每个视频类别概率和预设的标签平滑参数，确定标签平滑损失数据；

[0272] 分类模型训练模块，被配置为珍惜基于分类损失数据和标签平滑损失数据，对待训练视频分类模型进行训练，得到视频分类模型。

[0273] 作为一个可选的实施例，该装置还包括：

[0274] 预处理模块，被配置为执行对预设数量个采样图像进行翻转处理或灰度化处理，得到预设数量个预处理采样图像；

[0275] 第一预处理图像增强模块，被配置为执行基于预设的图像增强程度，对预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理，得到第一个目标图像；

[0276] 第二预处理图像增强模块，被配置为执行基于预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度，对其他预处理采样图像
进行图像增强处理，得到其他目标图像，其他预处理采样图像为预设数量个预处理采样图
像中除第一帧预处理采样图像外的采样图像。

[0277] 关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

[0278] 图9是根据一示例性实施例示出的一种用于生成特征提取模型的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图9所示。该电子设备包括通过系统总
线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能
力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操
作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行
提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被
处理器执行时以实现一种特征提取模型的生成方法。

[0279] 本领域技术人员可以理解，图9中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以
包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

[0280] 在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以实现一种特征提取模型的生成
方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD‑ROM、磁带、软盘
和光数据存储设备等。

[0281] 在示例性实施例中，还提供一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现上述的一种特征提取模型生成方法。

[0282] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或
者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识
或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的
权利要求指出。

[0283] 应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

一种特征提取模型生成方法、装置、电子设备和存储介质转让专利

申请号 : CN202110606977.8

文献号 : CN113065533B

文献日 : 2021-11-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 朱文涛 , 杨森 , 姚鹏

申请人 : 北京达佳互联信息技术有限公司

摘要 :

权利要求 :

说明书 :