基于语义嵌入软相似性的多标签视频哈希检索方法及设备转让专利

申请号 : CN202110563373.X

文献号 : CN113177141B

文献日 : 2022-07-15

本发明公开了一种基于语义嵌入软相似性的多标签视频哈希检索方法及设备。抽取多标签视频中的多个关键帧构成视频帧序列，使用通过在卷积神经网络+循环神经网络的基础架构上叠加注意力模块构建的特征提取网络模块提取视频特征，使用哈希层网络提取哈希编码，使用图神经网络学习视频样本标签语义嵌入向量和类别标签之间相似关系构建语义嵌入软相似度作为监督信息指导网络学习高质量哈希编码。本方法构建了一种端到端的深度学习模型，完成输入视频，输出与查询视频相似视频形式的多标签视频检索任务，有效提高了多标签视频检索的检索效率和精度。

1.基于语义嵌入软相似性的多标签视频哈希检索方法，其特征在于，包含以下步骤：步骤S1，构建视频数据集，该数据集中的每个视频至少包含一个标签；

步骤S2，构建深度学习网络模型，该模型包括特征提取网络、哈希网络和多标签学习网络；

步骤S3，利用S1构建的视频数据集对步骤S2构建的深度学习模型进行训练，具体为：步骤S3‑1，将S1构建的视频数据集中的视频数据输入特征提取网络和哈希网络得到视频特征向量和哈希编码；

步骤S3‑2，将所有标签的初始语义向量和共现概率矩阵输入多标签学习网络中学习得到各标签的语义嵌入词向量和标签关联关系矩阵；

步骤S3‑3，使用S3‑2得到的标签语义嵌入词向量将S3‑1中输入的视频数据对应的标签向量进行扩充改写得到显性标签向量；

步骤S3‑4，使用S3‑2得到的标签关联关系矩阵和语义嵌入词向量计算S3‑1中输入的视频数据对应的隐性标签向量；

步骤S3‑5，使用集合S3‑4和S3‑5得到的显/隐性标签向量计算显性和隐性相似度，并通过带权相加的形式形成语义嵌入软相似度；

步骤S3‑6，使用S3‑1得到的哈希码计算哈希码相似度；

步骤S3‑7，将S3‑6得到的哈希码相似度与S3‑5得到的软相似度进行对比产生的哈希损失和量化S3‑1得到的哈希码产生的量化损失反向传播更新特征提取网络和哈希网络参数；

步骤S3‑8，将S3‑1得到的视频特征向量和S3‑2得到的标签语义嵌入词向量进行矩阵乘法得到视频预测标签，将预测标签和实际标签进行对比产生分类损失反向传播更新多标签学习网络参数；

步骤S4，利用步骤S3训练好的模型进行多标签视频检索。

2.根据权利要求1所述的基于语义嵌入软相似性的多标签视频哈希检索方法，其特征在于：所述步骤S1具体为：步骤S1‑1，采集M个视频生成数据集，每个视频与一个或多个标签相关；

步骤S1‑2，对每个视频按照每秒1帧的频率进行采样，将所有采样视频帧平均分成L段，每段随机选取1帧作为关键帧，为每个视频生成一个包含L帧的视频帧序列；

步骤S1‑3，定义数据集中每个视频的标签向量，根据数据集标签总个数n为每个视频样本构建到一个长度为n的标签向量，每一位代表一个标签，含有该标签时对应位为1，否则为

0；

步骤S1‑4，使用glove模型得到所有标签的初始语义向量；

步骤S1‑5，根据视频标签信息统计所有标签的共现概率矩阵；

步骤S1‑6，至此，生成了n个标签的初始语义向量和共现概率矩阵，以及包含了由M个长度为L的视频帧序列表示的视频数据集，数据集中每个视频对应一个标签向量。

3.根据权利要求2所述的基于语义嵌入软相似性的多标签视频哈希检索方法，其特征在于：所述n大于等于2。

4.根据权利要求1所述的基于语义嵌入软相似性的多标签视频哈希检索方法，其特征在于：所述步骤S2具体为：深度学习网络为一个端到端网络，特征提取网络为卷积神经网络和长短时记忆神经网络，包含卷积层、池化层和全连接层，哈希网络为全连接层，图卷积神经网络为全卷积网络，包含卷积层和池化层。

5.根据权利要求1所述的基于语义嵌入软相似性的多标签视频哈希检索方法，其特征在于：所述步骤S4具体为：将待检索视频和检索数据库对应的视频帧序列输入特征提取网络和哈希网络得到各自的哈希编码，根据相似视频哈希码也相似的原则进行哈希检索，返回与待检索视频最相似的视频。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1‑5中任一所述的方法。

7.一种计算机可读介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现如权利要求1‑5中任一所述的方法。

基于语义嵌入软相似性的多标签视频哈希检索方法及设备

技术领域

[0001] 本发明涉及人工智能和视频检索领域，具体涉及一种基于语义嵌入软相似性的多标签视频哈希检索方法。

背景技术

[0002] 视频检索即根据用户需求从视频数据库中搜索并返回符合要求的视频，其中基于内容的视频检索是一种以视频搜视频的检索方式，它是对视频自身建模，通过相关技术提取视频的向量化特征并使用特征相似性表示原始视频数据相似性，从而找到相似度较高的视频。但是，这种最近邻搜索方式更多的是适用于对检索时间要求不高的低维数据，受数据激增的影响，传统的基于内容的视频检索面临占用大量存储空间和消耗大量检索时间的双重考验。这种情况下，哈希检索凭借检索速度快、存储空间小的优点成为检索领域的热门方法。根据是否使用监督信息，现有的哈希方法可分为无监督和有监督哈希两类：无监督哈希方法在哈希学习的过程中，不依赖于数据标签，通常采用某种随机映射的方式学习数据特征表示；而有监督的哈希在哈希学习过程中除了数据本身，还会使用诸如数据类别、数据相似性之类的数据标注作为监督。

[0003] 近些年来，受深度神经网络在特征表征上的突出表现的启发，哈希方法开始与深度学习结合以提高检索性能，并显示出了优越性。视频哈希检索大多是由图像哈希检索方法改进而来，它们通常是使用视频帧特征近似表示视频特征以完成哈希检索。然而这些视频哈希方法的性能并不够好，原因如下：(1)不同于图像只具有空间特征，时序特征是视频数据的一个重要特点。仅仅对视频帧进行简单融合会导致视频特征的大量丢失从而影响检索结果；(2)对于很多视频来说，不是所有视频帧的内容都与主要内容有关，在对视频建模时同等看待所有视频帧的重要性会导致生成的视频特征区分性不强；(3)随着视频数据量和信息量的进一步扩大，为了更客观的描述视频主题，人们在上传视频时对视频的标注往往不是单个标签，例如某节日音乐晚会的视频可能涵盖节日、音乐会、钢琴、小提琴等不同层次不同角度的标注，传统的单标签学习没有考虑标签间的相互关系，会对检索效果产生很大影响。

[0004] 基于以上分析，本发明研究和探索出一种适用于多标签视频检索方法，该方法是一种基于语义嵌入软相似性的多标签视频哈希检索方法。本发明致力于在卷积神经网络+循环神经网络的基础架构上叠加注意力模块来提取视频特征，其中双层混合注意力模块由叠加在卷积网络后面的自注意力子模块和叠加在循环神经网络中的相互注意力子模块构成。该特征提取网络可以充分发挥卷积网络在单帧图像特征提取、循环网络在多帧图像时序信号处理、注意力模块在生成视频判别性特征时权重分配这三方面的优势。针对多标签视频，我们使用图神经网络学习视频标签语义嵌入词向量和标签之间的关联关系，并据此构建了一种语义嵌入软相似度作为监督信息指导网络生成高质量的哈希编码。

发明内容

[0005] 本发明是一种针对多标签视频的哈希检索方法，其输入是一个完整的视频，输出为与输入视频包含至少一个相同标签的多个视频。本发明的技术方案包含以下步骤：

[0006] 步骤S1，构建视频数据集，该数据集中的每个视频至少包含一个标签。

[0007] 步骤S2，构建深度学习网络模型，该模型包括特征提取网络、哈希网络和多标签学习网络；

[0008] 步骤S3，利用S1构建的视频数据集对步骤S2构建的深度学习模型进行训练；

[0009] 步骤S4，利用步骤S3训练好的模型进行多标签视频检索。

[0010] 进一步地，所述步骤S1具体为：

[0011] 步骤S1‑1，采集M个视频生成数据集，每个视频与一个或多个标签相关；

[0012] 步骤S1‑2，对每个视频按照每秒1帧的频率进行采样，将所有采样视频帧平均分成L段，每段随机选取1帧作为关键帧，为每个视频生成一个包含L帧的视频帧序列；

[0013] 步骤S1‑3，定义数据集中每个视频的标签向量，根据数据集标签总个数n为每个视频构建到一个长度为n的标签向量，每一位代表一个标签，含有该标签时对应位为1，否则为0。

[0014] 步骤S1‑4，使用glove模型得到所有标签的初始语义向量；

[0015] 步骤S1‑5，根据视频标签信息统计所有标签的共现概率矩阵。

[0016] 步骤S1‑6，至此，生成了n个标签的初始语义向量和共现概率矩阵，以及包含了由M个长度为L的视频帧序列表示的视频数据集，数据集中每个视频对应一个标签向量。

[0017] 更进一步地，所述n大于等于2。

[0018] 进一步地，所述步骤S2具体为：

[0019] 深度学习网络为一个端到端网络，特征提取网络为卷积神经网络和长短时记忆神经网络，包含卷积层、池化层和全连接层，哈希网络为全连接层，图卷积神经网络为全卷积网络，包含卷积层和池化层。

[0020] 进一步地，所述步骤S3具体为：

[0021] 步骤S3‑1，将S1构建的视频数据集中的视频数据输入特征提取网络和哈希网络得到视频特征向量和哈希编码；

[0022] 步骤S3‑2，将所有标签的初始语义向量和共现概率矩阵输入多标签学习网络中学习得到各标签的语义嵌入词向量和标签关联关系矩阵；

[0023] 步骤S3‑3，使用S3‑2得到的标签语义嵌入词向量将S3‑1中输入的视频数据对应的标签向量进行扩充改写得到显性标签向量。

[0024] 步骤S3‑4，使用S3‑2得到的标签关联关系矩阵和语义嵌入词向量计算S3‑1中输入的视频数据对应的隐性标签向量。

[0025] 步骤S3‑5，使用集合S3‑4和S3‑5得到的标签向量计算显性和隐性相似度，并通过带权相加的形式形成语义嵌入软相似度。

[0026] 步骤S3‑6，使用S3‑1得到的哈希码计算哈希码相似度。

[0027] 步骤S3‑7，将S3‑6得到的哈希码相似度与S3‑5得到的软相似度进行对比产生的哈希损失和量化S3‑1得到的哈希码产生的量化损失反向传播更新特征提取网络和哈希网络参数。

[0028] 步骤S3‑8，将S3‑1得到的视频特征向量和S3‑2得到的标签语义嵌入词向量进行矩阵乘法得到视频预测标签，将预测标签和实际标签进行对比产生分类损失反向传播更新多标签学习网络参数。

[0029] 进一步地，所述步骤S4具体为：

[0030] 将待检索视频和检索数据库对应的视频帧序列输入特征提取网络和哈希网络得到各自的哈希编码，根据相似视频哈希码也相似的原则进行哈希检索，返回与待检索视频最相似的视频。

[0031] 基于同一思想，本发明还设计了一种电子设备，其特征在于，包括：

[0032] 一个或多个处理器；

[0033] 存储装置，用于存储一个或多个程序；

[0034] 当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述基于语义嵌入软相似性的多标签视频哈希检索方法。

[0035] 基于同一思想，本发明还设计了一种计算机可读介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现上述基于语义嵌入软相似性的多标签视频哈希检索方法。

[0036] 本发明的优点：

[0037] 1、不同于大多数视频哈希检索算法是通过对视频帧特征进行池化、用循环神经网络处理视频帧或者直接使用三维深度神经网络来提取视频特征的，本发明创新性地构建了一个基于双层混合注意力机制的深度哈希模型，通过在2D‑CNN(二维卷积神经网络)+LSTM(长短期记忆神经网络)基础架构上叠加注意力模块的形式提取固定数量视频帧的特征向量。注意力模块旨在促使网络给具有分辨性视频特征的视频帧分配较大的权重，由自注意力子模块和相互关系子模块构成。自注意力只与单独的视频帧相关，在CNN之后使用全连接操作对不同视频帧赋予不同的权重形成帧级视频特征；相互关系注意力是根据时序信息进行权重分配，在LSTM中根据每一步的隐藏层特征计算时序视频帧权重形成视频特征。由于LSTM的输入是单帧特征和帧级视频特征融合后的特征，相互关系注意力子模块输出的视频特征已经包含了帧级信息和时序信息，我们认为该特征即为最终视频特征。

[0038] 2、本发明利用一个图卷积神经网络分支学习标签语义嵌入词向量和标签之间的关联关系，旨在为每个标签构建特定的特征空间的同时挖掘样本之间的关联程度，并据此构建语义嵌入软相似性作为监督信息。语义嵌入软相似性包含显性相似度和隐性相似度两部分，其中，显性相似度是显性标签向量的余弦相似度，显性标签向量是通过使用标签语义嵌入词向量扩充视频标签向量得到的；隐性相似度是隐性标签向量的余弦相似度，隐性标签向量是通过标签语义嵌入词向量和关联关系矩阵构建的。语义嵌入软相似度可以有效缓解由于多标签标注不全、部分标签缺失等原因导致的检索精度损耗问题，提升哈希检索的准确度。

[0039] 3、本发明在对视频数据集采样时，采用了等间隔内随机采样策略，使得每次训练样本包含不同视频帧数据，提高了所发明方法的鲁棒性。

附图说明

[0040] 图1是本发明实施例的深度学习神经网络总体架构图。

[0041] 图2是本发明的系统流程图。

具体实施方式

[0042] 传统的视频哈希检索方法主要针对单标签视频，但是随着视频数据量和信息量的进一步扩大，为了更好的保留数据中的重要信息，更客观的描述视频主题，人们对视频的标注不再局限于单个标签，例如某节日音乐晚会的视频可能涵盖节日、音乐会、钢琴、小提琴等不同层次不同角度的标注。当面对多标签视频时，这些传统的视频哈希检索方法的效果并不好。本发明提出一种基于语义嵌入软相似性的多标签视频哈希检索方法。本方法利用深度学习网络对视频中的多个关键帧进行特征提取形成视频特征和哈希编码用于哈希检索，利用图神经网络学习标签之间的相互关系和标签语义嵌入词向量构建语义嵌入软相似性作为监督信息指导网络生成高质量的哈希编码，从而实现准确度更高的多标签视频哈希检索任务。

[0043] 本发明提供的方法设计了一种新型的深度学习网络模型，其总体结构参见图1。其具体实施例包含以下步骤：

[0044] 步骤S1，构建视频数据集，该数据集中的每个视频的标签至少与一个类别相关，每个视频由抽取的L帧关键帧表示。具体实施过程说明如下：

[0045] 步骤S1‑1，采集M个视频生成数据集，每个视频与一个或多个标签相关；

[0046] 步骤S1‑2，对每个视频按照每秒1帧的频率进行采样，将所有采样视频帧平均分成L段，每段随机选取1帧作为关键帧，为每个视频生成一个包含L帧的视频帧序列；

[0047] 步骤S1‑3，定义数据集中每个视频的标签向量，根据数据集标签总个数n为每个视频构建到一个长度为n的标签向量，每一位代表一个标签，含有该标签时对应位为1，否则为0。

[0048] 步骤S1‑4，使用glove模型得到所有标签的初始语义向量；

[0049] 步骤S1‑5，根据视频标签信息统计所有标签的共现概率矩阵。

[0050] 步骤S1‑6，至此，生成了n个标签的初始语义向量和共现概率矩阵，以及包含了由M个长度为L的视频帧序列表示的视频数据集，数据集中每个视频对应一个标签向量。

[0051] 优选地,选取含有原视频的YouTube‑8M‑Simplified数据集，取M＝52060，L＝10，n＝100。

[0052] 步骤S2，构建深度学习网络模型，该模型包括特征提取网络、哈希网络和多标签学习网络；该深度学习网络为一个端到端网络，特征提取网络为卷积神经网络和长短时记忆神经网络，包含卷积层、池化层和全连接层，哈希网络为全连接层，图卷积神经网络为全卷积网络，包含卷积层和池化层；具体的步骤为：

[0053] S2‑1，将代表一个视频的L帧视频图像依次输入特征提取网络中的卷积神经网络中，输出L个特征向量；

[0054] S2‑2，分别对将上一步得到的L个特征向量做全连接操作，每个特征向量映射到一个节点，输出L个特征值；

[0055] S2‑3，分别计算上一步得到的L个特征值占特征值总和的比重，得到L个视频帧对应的帧级权重值。

[0056] S2‑4，计算S2‑2得到的特征向量与上一步得到的对应的帧级权重的加权和，并使用sigmoid函数处理加权和得到帧级视频特征，输出1个帧级视频特征向量。

[0057] S2‑5，将S2‑2得到的L个特征向量分别与上一步得到的帧级视频特征拼接，输出L个特征向量。

[0058] S2‑6，将上一步得到的L个特征向量作为L个时序信号输入特征提取网络中的长短时记忆网络，输出为L个隐藏层特征向量；

[0059] S2‑7，使用softmax函数分别计算L个隐藏层特征向量占隐藏层特征向量总和的比重得到L个时序级权重，输出L个时序级权重值。

[0060] S2‑8，计算S2‑6得到的特征向量与上一步得到的对应的时序级权重的加权和，并使用sigmoid函数处理加权和得到视频特征，输出一个视频特征向量。

[0061] S2‑9，将上一步得到的1个特征向量输入哈希网络，输出一个定长的哈希编码。

[0062] S2‑10，将所有标签的初始语义向量和共现概率矩阵输入多标签学习网络中学习得到各标签的语义嵌入词向量和标签关联关系矩阵；

[0063] S2‑11，使用S2‑10得到的标签语义嵌入词向量对S2‑1中输入的视频数据对应标签向量进行扩充改写得到显性标签向量。

[0064] S2‑12，使用S2‑10得到的标签关联关系矩阵计算S2‑1中输入的视频数据对应的隐性标签向量。

[0065] S2‑13，使用S2‑11和S2‑12得到显、隐性标签向量计算显性和隐性相似度，以带权相加的形式形成语义嵌入软相似度。

[0066] 进一步的，所述步骤S2中特征提取网络中的卷积神经网络包含13层，第1层为输入层，由L帧视频图像构成；第2层是卷积层，卷积核大小是7×7，步长为2，卷积核的个数均为64；第3层为池化层，池化尺寸是3×3；第4层是残差块，残差块由3个卷积块构成，每个卷积块包含64个大小是1×1，步长为1的卷积核、64个大小是3×3，步长为1的卷积核和256个大小是1×1，步长为1卷积核；第5层是残差块，残差块由3个卷积块构成，每个卷积块包含128个大小是1×1，步长为1的卷积核、128个大小是3×3，步长为1的卷积核和512个大小是1×
1，步长为1卷积核；第6层是残差块，残差块由3个卷积块构成，每个卷积块包含256个大小是
1×1，步长为1的卷积核、256个大小是3×3，步长为1的卷积核和1024个大小是1×1，步长为
1卷积核；第7层是残差块，残差块由3个卷积块构成，每个卷积块包含512个大小是1×1，步长为1的卷积核、512个大小是3×3，步长为1的卷积核和2048个大小是1×1，步长为1卷积核；第8层为平均池化层，池化尺寸是1×1。

[0067] 优选地，池化层采用最大值池化法；

[0068] 进一步地，步骤S2中特征提取网络中的长短时记忆网络采用双层结构，隐藏层特征维度为512，输出层特征维度为512；

[0069] 进一步地，步骤S2中哈希网络包函一层全连接层，将特征提取网络输出的特征向量与l个神经元相连，生成长度为k的哈希编码。

[0070] 进一步地，所述步骤S2中多标签学习网络包含2层，第1层是卷积层，卷积核大小是3×3，步长为1，卷积核的个数均为1024，第2层为卷积层，卷积核大小是3×3，步长为1，卷积核的个数均为512。

[0071] 进一步地，采用相似度损失+量化损失+分类损失作为模型的损失函数，其定义为：

[0072] L＝L1+λ1L2+λ2L3

[0073] 其中，λ1、λ2为调节因子。

[0074] 具体地，

[0075]

[0076] 其中，β是一个调节因子，ψij为指示符，ψij＝1代表完全相同或完全不相同，ψij＝0代表部分相似；为哈希编码内积值，sij为视频样本相似度。

[0077]

[0078] 其中，fi、fj为哈希层输出向量，是一个全1向量，||*||1为L1范式。

[0079]

[0080] 其中，为通过视频的预测类别，y为真实标签。

[0081] 步骤S3，利用S1构建的视频数据集对步骤S2构建的深度学习模型进行训练；

[0082] 进一步地，网络的输入为一个由L个视频帧表示的视频样本，输出为N个与输入视频相似的视频。哈希码相似度和语义嵌入软相似度对比产生的哈希损失和二值化哈希码产生的量化损失反向传播更新特征提取网络和哈希网络参数，视频特征向量和标签语义嵌入词向量相乘得到的视频预测标签和实际标签对比产生的分类损失反向传播更新多标签学习网络参数。

[0083] 步骤S4，将待检索视频和检索数据库对应的视频帧序列分别输入步骤S3训练好的特征提取网络和哈希网络得到各自的哈希编码，根据相似视频哈希码也相似的原则进行哈希检索，返回与待检索视频最相似的视频。

[0084] 本发明的优点：

[0085] 1、不同于大多数视频哈希检索算法是通过对视频帧特征进行池化、用循环神经网络处理视频帧或者直接使用三维深度神经网络来提取视频特征的，本发明创新性地构建了一个基于双层混合注意力机制的深度哈希模型，通过在2D‑CNN(二维卷积神经网络)+LSTM(长短期记忆神经网络)基础架构上叠加注意力模块的形式提取固定数量视频帧的特征向量。注意力模块旨在促使网络给具有分辨性视频特征的视频帧分配较大的权重，由自注意力子模块和相互关系子模块构成。自注意力只与单独的视频帧相关，在CNN之后使用全连接操作对不同视频帧赋予不同的权重形成帧级视频特征；相互关系注意力是根据时序信息进行权重分配，在LSTM中根据每一步的隐藏层特征计算时序视频帧权重形成视频特征。由于LSTM的输入是单帧特征和帧级视频特征融合后的特征，相互关系注意力子模块输出的视频特征已经包含了帧级信息和时序信息，我们认为该特征即为最终视频特征。

[0086] 2、本发明利用一个图卷积神经网络分支学习标签语义嵌入词向量和标签之间的关联关系，旨在为每个标签构建特定的特征空间的同时挖掘样本之间的关联程度，并据此构建语义嵌入软相似性作为监督信息。语义嵌入软相似性包含显性相似度和隐性相似度两部分，其中，显性相似度是显性标签向量的余弦相似度，显性标签向量是通过使用标签语义嵌入词向量扩充视频标签向量得到的；隐性相似度是隐性标签向量的余弦相似度，隐性标签向量是通过标签语义嵌入词向量和关联关系矩阵构建的。语义嵌入软相似度可以有效缓解由于多标签标注不全、部分标签缺失等原因导致的检索精度损耗问题，提升哈希检索的准确度。

[0087] 3、本发明在对视频数据集采样时，采用了等间隔内随机采样策略，使得每次训练样本包含不同视频帧数据，提高了所发明方法的鲁棒性。

[0088] 本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

基于语义嵌入软相似性的多标签视频哈希检索方法及设备转让专利

申请号 : CN202110563373.X

文献号 : CN113177141B

文献日 : 2022-07-15

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 邱雁成

申请人 : 北湾科技(武汉)有限公司

摘要 :

权利要求 :

说明书 :