一种基于自注意力模型的短视频场景分类方法及系统转让专利

申请号 : CN202311188902.8

文献号 : CN116935292B

文献日 : 2023-12-08

本发明涉及视频分类系统技术领域，提供了一种基于自注意力模型的短视频场景分类方法及系统。该方法包括，确定待处理视频的镜头边界，进行镜头分割，得到若干个分割镜头；基于若干个分割镜头，先提取关键帧，再提取每个关键帧的场景特征；对每个关键帧的场景特征进行去噪处理，得到去噪后的帧特征；基于同一镜头下的去噪后的帧特征，采用帧级通道注意力处理，得到帧权值，并将帧权值与去噪后的帧特征相乘，得到特征表示；基于若干个特征表示，采用自注意力模型关联同一视频的不同镜头，学习多个镜头与短视频场景的语义表征之间的关联，得到分类结果。本发明提高了短视频特征的语义表征能力，保证了语义信息不被削弱。

1.一种基于自注意力模型的短视频场景分类方法，其特征在于，包括：确定待处理视频的镜头边界，进行镜头分割，得到若干个分割镜头；

基于若干个分割镜头，先提取关键帧，再提取每个关键帧的场景特征；

在提取每个镜头视频关键帧的特征后，使用去噪自编码器对视频中每个关键帧的场景特征进行编码和解码，编码模块采用两层全连接和LeakyRelu激活函数，解码模块是编码模块的反向操作，编解码器模型计算：其中，表示每个镜头中的关键帧， l是框架的索引，，其中 q为一个镜头的关键帧数，d 为帧的尺寸，和为编码器的权值，和是解码器的权重，为LeakyRelu激活函数； , ；

对每个关键帧的场景特征进行去噪处理，得到去噪后的帧特征；

基于同一镜头下的去噪后的帧特征，采用帧级通道注意力处理，得到帧权值，同一镜头中的所有帧经过去噪自编码器后，输入到通道注意力中，学习帧的重要性，将权重与去噪自编码器生成的视频帧的特征相乘，得到每帧按重要性加权的特征表示；

帧的学习权重：

通道注意力的计算：

式中，是Softmax，d1为模型去噪后原始帧特征的维数；

基于若干个特征表示，采用自注意力模型关联同一视频的不同镜头，学习多个镜头与短视频场景的语义表征之间的关联，得到分类结果；对于多头自注意力，需要从原始特征中获取Query (Q）、Key(K）和Value(V）；

式中， , 和是的映射矩阵；

多头自注意力计算如下：

其中，是第i个样本的多头自注意力的特征表示，是连接操作，表示自注意力机制中的查询矩阵，表示键矩阵，表示的转置，表示数值矩阵，三个矩阵都是输入X经过三次不同的线性转换得到的投影矩阵，上标j是样本的索引，h是head的索引，表示第h个头，表示缩放系数。

2.根据权利要求1所述的基于自注意力模型的短视频场景分类方法，其特征在于，所述确定待处理视频的镜头边界的过程采用TransNetV2方法，所述采用TransNetV2方法的过程包括：每个镜头对应一个DDCNN单元、跳跃连接和帧相似度计算。

3.根据权利要求1所述的基于自注意力模型的短视频场景分类方法，其特征在于，采用VGG16_places365网络提取每个关键帧的场景特征。

4.根据权利要求1所述的基于自注意力模型的短视频场景分类方法，其特征在于，所述去噪处理的过程包括：采用编码器对每个关键帧的场景特征进行编码处理后，经解码器进行解码处理，得到去噪后的帧特征。

5.根据权利要求1所述的基于自注意力模型的短视频场景分类方法，其特征在于，在对待处理视频进行分类之前，包括：将重构损失和帧级分类损失和镜头级分类损失的加权和作为目标函数，采用随机梯度下降算法对目标函数进行优化。

6.根据权利要求5所述的基于自注意力模型的短视频场景分类方法，其特征在于，所述重构损失为：所述帧级分类损失为：

所述镜头级分类损失为

其中，表示镜头关键帧和预测结果的均方误差，表示模型预测结果和标签的交叉熵，视频用表示，其中，m是

每个视频包含的镜头数，并且，f 是每个镜头的尺寸，每个镜头中的关键帧用表示，l是框架的索引，，q为一个镜头的关键帧数，d为帧的尺寸，，。

7.一种基于自注意力模型的短视频场景分类系统，其特征在于，包括：镜头分割模块，其被配置为：确定待处理视频的镜头边界，进行镜头分割，得到若干个分割镜头；

帧提取模块，其被配置为：基于若干个分割镜头，先提取关键帧，再提取每个关键帧的场景特征；

特征提取模块，其被配置为：对每个关键帧的场景特征进行去噪处理，得到去噪后的帧特征；在提取每个镜头视频关键帧的特征后，使用去噪自编码器对视频中每个关键帧的场景特征进行编码和解码，编码模块采用两层全连接和LeakyRelu激活函数，解码模块是编码模块的反向操作，编解码器模型计算：其中，表示每个镜头中的关键帧， l是框架的索引，，其中 q为一个镜头的关键帧数，d 为帧的尺寸，和为编码器的权值，和是解码器的权重，为LeakyRelu激活函数； , ；

去噪和加权模块，其被配置为：基于同一镜头下的去噪后的帧特征，采用帧级通道注意力处理，同一镜头中的所有帧经过去噪自编码器后，输入到通道注意力中，学习帧的重要性，将权重与去噪自编码器生成的视频帧的特征相乘，得到每帧按重要性加权的特征表示；

帧的学习权重：

通道注意力的计算：

式中，是Softmax，d1为模型去噪后原始帧特征的维数；

分类模块，其被配置为：基于若干个特征表示，采用自注意力模型关联同一视频的不同镜头，学习多个镜头与短视频场景的语义表征之间的关联，得到分类结果；对于多头自注意力，需要从原始特征中获取Query (Q）、Key(K）和Value(V）；

式中， , 和是的映射矩阵；

多头自注意力计算如下：

8.根据权利要求7基于自注意力模型的短视频场景分类系统，其特征在于，在对待处理视频进行分类之前，包括：将重构损失和帧级分类损失和镜头级分类损失的加权和作为目标函数，采用随机梯度下降算法对目标函数进行优化；

所述重构损失为：

所述帧级分类损失为：

所述镜头级分类损失为

其中，表示镜头关键帧和预测结果的均方误差，表示模型预测结果和标签的交叉熵，视频用表示，其中，m是

每个视频包含的镜头数，并且，f 是每个镜头的尺寸，每个镜头中的关键帧用表示，l是框架的索引，，q为一个镜头的关键帧数，d为帧的尺寸，，。

一种基于自注意力模型的短视频场景分类方法及系统

技术领域

[0001] 本发明涉及视频分类系统技术领域，尤其涉及一种基于自注意力模型的短视频场景分类方法及系统。

背景技术

[0002] 本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

[0003] 视频场景分类是对视频中包含的静态或动态场景进行分类，是视频内容理解中的一项重要任务。近年来，随着计算机视觉的快速发展，出现了许多视频场景分类的方法。传统的视频场景分类方法是从视觉模态中提取特征。研究人员提出了多种提取视频场景时空特征的方法，包括分别对时空特征建模或直接对时空特征建模。随着深度学习框架在计算机视觉领域的发展，卷积神经网络也被应用到视频场景分类中。三维卷积和长、短特征的表示也被用来表示视频场景的时空特征。

[0004] 与传统视频不同，短视频数据大多来自普通社交媒体用户，不同于电影和剧集，短视频制作过程简单，没有特定的表达形式和团队配置要求，具有生产流程简单、制作门槛低等特点。这给短视频场景的分类带来了以下挑战；1）短视频多模态之间的一致性和互补性的协调问题；2）噪声信息；3）同一场景的数据类紧凑性差；4）数据不完整；5）各模态的语义强度不一致；6）数据类别不平衡。这些问题使得传统的短视频场景表示方法无法学习到语义丰富的场景表示。近年来，一些短视频场景分类研究已经考虑到上述挑战，并提出了相应的方法。然而，大多数短视频都存在镜头拼接的问题，导致镜头之间的不连续。如果采用短视频场景的序列化特征提取方法，语义信息会被削弱。再加上短视频存在噪声信息，这些显著影响了短视频特征的语义表征能力，降低了短视频分类的准确率。

发明内容

[0005] 为了解决上述背景技术中存在短视频中镜头不连续导致的内容差异较大的问题和存在噪声信息等技术问题，本发明提供一种基于自注意力模型的短视频场景分类方法及系统，其通过将短视频进行镜头分割和去噪处理，增强了短视频中多镜头的场景语义强度，更好地学习短视频场景的特征表示。并将该特征表示的短视频数据进行分类，提高了同一视频内镜头间内容差异大和存在噪声问题下短视频分类的准确率。

[0006] 为了实现上述目的，本发明采用如下技术方案：

[0007] 本发明的第一个方面提供一种基于自注意力模型的短视频场景分类方法。

[0008] 一种基于自注意力模型的短视频场景分类方法，包括：

[0009] 确定待处理视频的镜头边界，进行镜头分割，得到若干个分割镜头；

[0010] 基于若干个分割镜头，先提取关键帧，再提取每个关键帧的场景特征；

[0011] 对每个关键帧的场景特征进行去噪处理，得到去噪后的帧特征；

[0012] 基于同一镜头下的去噪后的帧特征，采用帧级通道注意力处理，得到帧权值，并将帧权值与去噪后的帧特征相乘，得到特征表示；

[0013] 基于若干个特征表示，采用自注意力模型关联同一视频的不同镜头，学习多个镜头与短视频场景的语义表征之间的关联，得到分类结果。

[0014] 进一步地，所述确定待处理视频的镜头边界的过程采用TransNetV2方法，所述采用TransNetV2方法的过程包括：每个镜头对应一个DDCNN单元、跳跃连接和帧相似度计算。

[0015] 进一步地，采用VGG16_places365网络提取每个关键帧的场景特征。

[0016] 进一步地，所述去噪处理的过程包括：采用编码器对每个关键帧的场景特征进行编码处理后，经解码器进行解码处理，得到去噪后的帧特征。

[0017] 进一步地，所述自注意力模型为：

[0018]

[0019]

[0020] 其中，是第i个样本的多头自注意力的特征表示，是连接操作，表示自注意力机制中的查询矩阵，表示键矩阵，
表示的转置，表示数值矩阵，三个矩阵都是输入X经过三次不同的线性转换得到的投影矩阵，上标j是样本的索引，h是head的索引，表示第h个头，表示缩放系数。

[0021] 进一步地，在对待处理视频进行分类之前，包括：将重构损失和帧级分类损失和镜头级分类损失的加权和作为目标函数，采用随机梯度下降算法对目标函数进行优化。

[0022] 进一步地，所述重构损失为：

[0023]

[0024] 所述帧级分类损失为：

[0025]

[0026] 所述镜头级分类损失为

[0027]

[0028] 其中，表示镜头关键帧和预测结果的均方误差，表示模型预测结果和标签的交叉熵，视频用表示，其中，
m是每个视频包含的镜头数，并且，f 是每个镜头的尺寸，每个镜头中的关键帧用表示，l是框架的索引，，q为一个镜头的关键帧数，d为帧的尺寸，
，。

[0029] 本发明的第二个方面提供一种基于自注意力模型的短视频场景分类系统。

[0030] 一种基于自注意力模型的短视频场景分类系统，包括：

[0031] 镜头分割模块，其被配置为：确定待处理视频的镜头边界，进行镜头分割，得到若干个分割镜头；

[0032] 帧提取模块，其被配置为：基于若干个分割镜头，先提取关键帧，再提取每个关键帧的场景特征；

[0033] 特征提取模块，其被配置为：对每个关键帧的场景特征进行去噪处理，得到去噪后的帧特征；

[0034] 去噪和加权模块，其被配置为：基于同一镜头下的去噪后的帧特征，采用帧级通道注意力处理，得到帧权值，并将帧权值与去噪后的帧特征相乘，得到特征表示；

[0035] 分类模块，其被配置为：基于若干个特征表示，采用自注意力模型关联同一视频的不同镜头，学习多个镜头与短视频场景的语义表征之间的关联，得到分类结果。

[0036] 进一步地，所述自注意力模型为：

[0037]

[0038]

[0039] 其中，是第i个样本的多头自注意力的特征表示，是连接操作，表示自注意力机制中的查询矩阵，表示键矩阵，
表示的转置，表示数值矩阵，三个矩阵都是输入X经过三次不同的线性转换得到的投影矩阵，上标j是样本的索引，h是head的索引，表示第h个头，表示缩放系数。

[0040] 进一步地，在对待处理视频进行分类之前，包括：将重构损失和帧级分类损失和镜头级分类损失的加权和作为目标函数，采用随机梯度下降算法对目标函数进行优化；

[0041] 所述重构损失为：

[0042]

[0043] 所述帧级分类损失为：

[0044]

[0045] 所述镜头级分类损失为

[0046]

[0047] 其中，表示镜头关键帧和预测结果的均方误差，表示模型预测结果和标签的交叉熵，视频用表示，其中，
m是每个视频包含的镜头数，并且，f 是每个镜头的尺寸，每个镜头中的关键帧用表示，l是框架的索引，，q为一个镜头的关键帧数，d为帧的尺寸，
，。

[0048] 与现有技术相比，本发明的有益效果是：

[0049] 本发明对镜头内视频帧之间的关联及镜头间的关联建模，提高了短视频特征的语义表征能力，保证了语义信息不被削弱。

[0050] 本发明考虑了短视频噪声问题，采用去噪模型，从而获得更好的短视频场景特征表示和更好的分类性能。

附图说明

[0051] 构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

[0052] 图1是本发明示出的基于自注意力模型的短视频场景分类方法的框架图；

[0053] 图2是本发明示出的基于自注意力模型的短视频场景分类方法的流程图。

具体实施方式

[0054] 下面结合附图与实施例对本发明作进一步说明。

[0055] 应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

[0056] 需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

[0057] 需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

[0058] 实施例一

[0059] 本实施例提供了一种基于自注意力模型的短视频场景分类方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

[0060] 确定待处理视频的镜头边界，进行镜头分割，得到若干个分割镜头；

[0061] 基于若干个分割镜头，先提取关键帧，再提取每个关键帧的场景特征；

[0062] 对每个关键帧的场景特征进行去噪处理，得到去噪后的帧特征；

[0063] 基于同一镜头下的去噪后的帧特征，采用帧级通道注意力处理，得到帧权值，并将帧权值与去噪后的帧特征相乘，得到特征表示；

[0064] 基于若干个特征表示，采用自注意力模型关联同一视频的不同镜头，学习多个镜头与短视频场景的语义表征之间的关联，得到分类结果。

[0065] 下面结合附图对本实施例的技术方案进行详细介绍，如图1、图2所示：

[0066] S1：数据集预处理

[0067] 为了充分保持短视频的真实分布，数据集在类内是不平衡的，很多类别存在不一致。对数据集进行预处理，去除对场景语义分析无用的噪声数据。并按照7：3的比例分为训练集和测试集。

[0068] S2：镜头分割

[0069] 首先根据镜头边界将短视频分成m个镜头。使用TransNetV2方法检测镜头边界。视频帧需要调整为48×27×3，输入到TransNetV2内的6个DDCNN单元。其中每个单元由四个3×3×3卷积操作组成，每个卷积操作都有F个过滤器和不同的扩展率（时间维度为1,2,4,8）。DDCNN单元包括卷积操作和批处理归一化。通过DDCNN进行特征学习，与一些传统方法的RGB直方图特征和可学习相似特征拼接，再进行一些全连接操作后，最终获取每一帧是否是镜头边界帧的概率，从而完成视频分割。在镜头分割结果中，只使用前6个镜头，如果少于6个镜头，复制已有的镜头。

[0070] S3：镜头特征提取

[0071] 在分割的镜头中提取关键帧，每5秒提取一帧，每个镜头总共提取50个关键帧。使用VGG16_places365网络提取每一帧的场景特征。VGG16_places365是在包含365个类别的大型图像场景数据集上训练的网络。它在地点数据集和其他场景识别数据集上都取得了最好的识别性能。该网络由13个卷积层、3个全连接层、5个池化层和1个softmax层组成。

[0072] S4：视频帧去噪

[0073] 在提取每个镜头视频关键帧的特征后，使用去噪自编码器对视频中每个关键帧的场景特征进行编码和解码。编码模块采用两层全连接和LeakyRelu激活函数，解码模块是编码模块的反向操作。编解码器模型计算：

[0074]

[0075]

[0076] 其中，表示每个镜头中的关键帧， l是框架的索引，，其中 q为一个镜头的关键帧数，d 为帧的尺寸，和为编码器的权值，和是解码器的权重，为LeakyRelu激活函数。 , 。

[0077] S5：帧级通道注意力

[0078] 同一镜头中的所有帧经过去噪自编码器后，输入到通道注意力中，学习帧的重要性。将权重与去噪自编码器生成的视频帧的特征相乘，得到每帧按重要性加权的特征表示。

[0079] 帧的学习权重：

[0080]

[0081] 通道注意力的计算：

[0082]

[0083] 式中，是Softmax，d1为模型去噪后原始帧特征的维数。

[0084] S6：镜头级多头自注意力

[0085] 使用镜头级多头自注意力模型来关联同一视频的不同镜头，从而学习多个镜头与短视频场景的语义表征之间的关联。对于多头自注意力，需要从原始特征中获取Query (Q）、Key(K）和Value(V）。

[0086]

[0087] 式中， , 和是的映射矩阵。

[0088] 多头自注意力计算如下：

[0089]

[0090]

[0091] 其中，是第i个样本的多头自注意力的特征表示，是连接操作，表示自注意力机制中的查询矩阵，表示键矩阵，
表示的转置，表示数值矩阵，三个矩阵都是输入X经过三次不同的线性转换得到的投影矩阵，上标j是样本的索引，h是head的索引，表示第h个头，表示缩放系数。

[0092] 所有镜头的特征经过多头自注意力模块进行关联，将关联后的多头特征通过串联方式进行连接，得到视频的场景特征表示。最后采用softmax对短视频进行场景分类。

[0093] S7：计算损失

[0094] 最后的损失包括重构损失、帧级分类损失和镜头级分类损失三部分。

[0095] 重构损失是解码后的特征向量与去噪后的自编码器输入向量的差值，损失函数采用均方误差损失：

[0096] 。

[0097] 帧级分类损失是编码器模型输出与标签输出的差值，损失函数采用交叉熵损失：

[0098]

[0099] 镜头级分类损失是多头自注意输出与标签输出的差值，损失函数采用交叉熵损失：

[0100]

[0101] 最后的损失是三个损失的加权和：

[0102]

[0103] 其中，表示镜头关键帧和预测结果的均方误差，表示模型预测结果和标签的交叉熵，视频用表示，其中，
m是每个视频包含的镜头数，并且，f 是每个镜头的尺寸，每个镜头中的关键帧用表示，l是框架的索引，，q为一个镜头的关键帧数，d为帧的尺寸，
，。

[0104] S8：模型优化

[0105] 将最后的损失Loss作为目标函数，采用随机梯度下降（SGD）算法对目标函数进行优化。

[0106] 实施例二

[0107] 本实施例提供了一种基于自注意力模型的短视频场景分类系统。

[0108] 一种基于自注意力模型的短视频场景分类系统，包括：

[0109] 镜头分割模块，其被配置为：确定待处理视频的镜头边界，进行镜头分割，得到若干个分割镜头；

[0110] 帧提取模块，其被配置为：基于若干个分割镜头，先提取关键帧，再提取每个关键帧的场景特征；

[0111] 特征提取模块，其被配置为：对每个关键帧的场景特征进行去噪处理，得到去噪后的帧特征；

[0112] 去噪和加权模块，其被配置为：基于同一镜头下的去噪后的帧特征，采用帧级通道注意力处理，得到帧权值，并将帧权值与去噪后的帧特征相乘，得到特征表示；

[0113] 分类模块，其被配置为：基于若干个特征表示，采用自注意力模型关联同一视频的不同镜头，学习多个镜头与短视频场景的语义表征之间的关联，得到分类结果。

[0114] 此处需要说明的是，上述镜头分割模块、帧提取模块、特征提取模块、去噪和加权模块以及分类模块与实施例一中的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

[0115] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

一种基于自注意力模型的短视频场景分类方法及系统转让专利

申请号 : CN202311188902.8

文献号 : CN116935292B

文献日 : 2023-12-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 郭杰 , 张瑜 , 马玉玲 , 张艳辉 , 巩蕊 , 刘萌 , 聂秀山

申请人 : 山东建筑大学

摘要 :

权利要求 :

说明书 :