基于联合语义矩阵的深度跨模态哈希的图像检索方法转让专利
申请号 : CN202110730743.4
文献号 : CN113177132B
文献日 : 2021-09-14
发明人 : 曹媛 , 陈娜 , 桂杰
申请人 : 中国海洋大学
摘要 :
权利要求 :
1.一种基于联合语义矩阵的深度跨模态哈希的图像检索方法,其特征在于,该方法包括以下步骤:
S1:随机获取一个批次数量的图像文本对数据,并构造标签矩阵;
S2:图像和文本数据分别送入预训练模型VGG19层模型和Word2Vec模型分别得到图像特征和文本特征;
S3:利用S2中获取到的图像特征和文本特征构造联合语义矩阵;
S4:利用S1获得的标签矩阵和S3获得的联合语义矩阵作为监督信息,构建深度跨模态有监督哈希框架,设置改进后的目标函数,监督网络参数的训练;所述目标函数的改进具体如下:
(1)将最小化两种形式的样本在公共表示空间中的损失: (3)其中 , , , , ,
, ,是用于计算两个向量之间相似度的余弦函数,1是指示符函数,当两个元素属于同一类时,其值为1,否则为0;上式(3)中使用的负对数似然函数为定义如下: (4)为了消除跨模态差异,首先最小化网络学习的图像‑文本对之间的特征表示之间的距离;更具体地说,将特征表示空间的模态不变损失函数表示如下: (5)(2)使用线性分类器来预测公共表示空间中投影样本的语义标签;因此使用以下目标函数来衡量标签空间中的歧视性损失: (6)关于联合语义矩阵部分,计算了联合语义矩阵S,以探索输入示例的潜在语义关系;因此使用以下目标函数来最小化相似度矩阵S和哈希码余弦相似度之间的误差,这是学习语义相关的二进制码所需要损失函数: (7)其中γ是超参数,它使我们的联合语义矩阵框架更灵活,而S是联合语义矩阵;根据等式(3)、(5)、(6)和(7),最终得出DCSJM的目标函数,如下所示: (8)其中, , 和 是超参数;
S5:重复S1到S4的步骤,直至训练次数到达设定次数,得到训练好的深度跨模态有监督哈希模型;
S6:待检索图像数据经过S1、S2和S3处理后,输入至S5训练好的深度跨模态有监督哈希模型进行检索,输出检索结果。
2.如权利要求1所述的图像检索方法,其特征在于,所述S3中联合语义矩阵构建具体为:
S3‑1:首先,将通过不同模态获得的原始特征:图像特征 和文本特征 进行归一化,以获得归一化后的图像特征 和归一化后的文本特征 ,然后计算各自的余弦相似度,以获得图像模态相似度矩阵 和文本相似度矩阵 ;使用上述余弦相似度矩阵来表示不同模态输入数据的原始域关系;对于汉明空间,通过使用余弦相似度来获得深度网络生成的二进制代码之间的相似度矩阵;
S3‑2:因此联合语义矩阵表示为 ,其中 表示图像相似度矩阵,表示文本相似度矩阵,而 表示融合关系两个矩阵中的一个,使用 表示实例和 之间的潜在语义相关性;为解释组合函数 ,首先采用加权求和方法将 和 融合在一起,如下所示:
(1)然后,将所得的 矩阵中的每一行用作每个实例的新特征,表示该实例与其他实例之间的相似关系;然后,计算 以获得实例之间的高级域特征表示;因此,最终表示如下:
(2)其中, 是一个权衡参数,用于调整高阶邻域描述的重要性。
3.如权利要求1所述的图像检索方法,其特征在于,所述S4中:所述深度跨模态有监督哈希框架包括三个部分:一是利用数据特征生成联合语义矩阵部分;二是图片子网,原始数据首先输入去掉最后一个全连接层的VGG19层模型得到深度特征表示,再将得到的深度表示特征输入两层全连接层,然后再将两层全连接层得到的特征分别送入并行的哈希层和标签预测层;三是文本子网,原始数据首先输入句子CNN网络得到深度文本的特征表示,再将得到的深度表示输入两层全连接层,然后再将两层全连接层得到的特征分别送入并行的哈希层和标签预测层。
说明书 :
基于联合语义矩阵的深度跨模态哈希的图像检索方法
技术领域
背景技术
而被研究人员广泛研究。散列的主要原理是将数据从原始空间映射到汉明空间,并尽可能
保留原始空间和汉明空间之间的相似性。二进制代码可以用于大规模检索或其他应用,不
仅可以大大减少存储空间,而且可以提高搜索速度。
本思想是通过最小化不同模态的加权平均汉明距离来学习哈希函数,并使用广义特征值求
解方法获得最小值。再到线性跨模态哈希算法(LCMH),该算法思想是使用可拓展的k‑means
算法(一种聚类算法),计算数据点和中心点之间的距离以保持数据内模态内部相似性,通
过最小化公共空间中不同模态的同一物体之间的距离以保持模态之间的相似性。近几年,
随着深度神经网络的发展,深度跨模态哈希算法也随之大力发展;例如深度跨模态哈希算
法(DCMH),该方法是一个端到端的框架,通过相似度矩阵以及负对数似然函数对样本数据
处理来训练网络参数,虽然DCMH是一种开创性的,具有出色的性能的深度哈希方法,但他并
不能很好的处理数据模态内关联以及不同模态间哈希码的进一步关联。成对关系深度哈希
算法(PRDH)是DCMH的改进方法,该方法主要是集成不同类型的成对语速,更好的反映来自
多模态数据之间的相关性。尽管目前对深度跨模态哈希算法已经有较为深入的研究,但是
最终的应用效果并不理想。
发明内容
确的检索效果。本发明中的无监督信息是通过训练数据的特征表示来构造联合语义矩阵,
以联合语义矩阵作为无监督部分的监督信息;有监督信息是通过训练数据生成标签矩阵,
以标签矩阵作为有监督部分的监督信息。特别需要注意的是,在有监督信息部分,通过在网
络特征层后再加了一层标签预测网络层,通过标签预测层与真实的标签矩阵之间的保距来
监督网络的训练。
一个类别向量 ,其中c表示类别数,如果第i个实例在第j个类别中,则 ,
否则 。
态,其中n表示公共空间表示的维数, 表示图像训练样本数据,而 表示通过图像网络训
练学习的网络参数。 类似地, 表示文本训练样本数据,而 表示通过文本网络训练学习
到的网络参数。在本发明中,训练样本中的图像表示矩阵,文本表示矩阵和标签表示矩阵分
别表示为 , , ,其中 表示公共表示空间
中第i个实例的图像, 表示第j个实例的文本。
;对于随机训练批次的样本 ,使用 和 分别表示图
像数据和文本数据的原始数据特征,图像数据特征是从VGG19层fc7获得,文本数据特征是
从Word2Vec模型获得;同样, 和 分别表示从图像网络和文本网
络获得的二进制代码,其中d表示长度二进制代码。
弦相似度,以获得图像模态相似度矩阵 和文本相似度矩阵
;使用上述余弦相似度矩阵来表示不同模态输入数据的原始域关系;
类似地,对于汉明空间,也可以通过使用余弦相似度来获得深度网络生成的二进制代码之
间的相似度矩阵;
息,并集成更精确的字段。因此联合语义矩阵表示为 ,其中 表示
图像相似度矩阵, 表示文本相似度矩阵,而 表示融合关系两个矩阵中的一个,使用
表示实例 和 之间的潜在语义相关性;为了更好地解释组合函数 ,首先采
用加权求和方法将 和 融合在一起,如下所示:
终表示如下:
之外的语义信息。
层的VGG19层模型得到深度特征表示,再将得到的深度表示特征输入两层全连接层,然后再
将两层全连接层得到的特征分别送入并行的哈希层和标签预测层;三是文本子网,原始数
据首先输入句子CNN网络得到深度文本的特征表示,再将得到的深度表示输入两层全连接
层,然后再将两层全连接层得到的特征分别送入并行的哈希层和标签预测层。
作为受监管网络参数的训练。为了了解多模式数据的判别特征,将最小化标签空间和公共
表示空间中的判别损失;同时,还最小化每个图像‑文本对的表示之间的距离,以减小跨模
态之间的差异;此外,再将联合语义矩阵与线性分类器之间的距离最小化,以充分利用标签
信息和联合矩阵获得的潜在相关性。
符函数,当两个元素属于同一类时,其值为1,否则为0;上式(3)中使用的负对数似然函数为
定义如下:
失:
习语义相关的二进制码所需要损失函数:
相同的汉明空间中实现相同的标准评估操作;联合语义矩阵可以获得特征空间的潜在高级
语义相关性。因此,本发明提供的DCSJM模型不仅使用标签的语义信息,而且还使用特征空
间中存在的潜在语义信息。且根据实际实验结果表明,本发明所提出的模型比其他基线方
法具有更优的检索性能。
附图说明
具体实施方式
文本经过Text CNN(文本网络)获得文本特征的过程);
T3表示);
TextCNN获得的特征送入下面的两层全连接层和一层哈希层中训练,其中哈希层的得到的
汉明空间的相似度矩阵以BI1、BI2、BI3、BT1、BT2、BT3为例与联合语义矩阵训练网络参数)。将标
签预测层P所得数据与标签矩阵训练参数;
对应一个类别向量 ,其中c表示类别数,如果第i个实例在第j个类别中,则
,否则 。构造得到每个批次的数据的标签矩阵T。
下,用 表示每个批次的 个实例,每个实例由一对图像和文本表示,例如
。对于随机训练批次的样本 ,使用 和 分别表示
图像数据和文本数据的原始数据特征,图像数据特征是从VGG19层fc7获得,文本数据特诊
是从Word2Vec模型获得。同样, 和 分别表示从图像网络和文本
网络获得的二进制代码,其中d表示长度二进制代码。
像模态相似度矩阵 和文本相似度矩阵 ;使用
上述余弦相似度矩阵来表示不同模态输入数据的原始域关系。类似地,对于汉明空间,也可
以通过使用余弦相似度来获得深度网络生成的二进制代码之间的相似度矩阵。
确的字段。因此联合语义矩阵表示为 ,其中 表示图像相似度矩
阵, 表示文本相似度矩阵,而 表示融合关系 两个矩阵中的一个,使用 表
示实例 和 之间的潜在语义相关性。为了更好地解释组合函数 ,首先采用加权求和方
法将 和 融合在一起,如下所示:
此,最终表示如下:
相同语义类别的样本不管是不是同一种模态,他们的特征表示和哈希码也应相似;为了了
解多模式数据的判别特征,将最小化标签空间和公共表示空间中的判别损失;还最小化每
个图像‑文本对的表示之间的距离,以减小跨模态之间的差异;将联合语义矩阵与线性分类
器之间的距离最小化,以充分利用标签信息和联合矩阵获得的潜在相关性。
符函数,当两个元素属于同一类时,其值为1,否则为0。上式(3)中使用的负对数似然函数为
定义如下:
这是学习语义相关的二进制码所需要损失函数:
示,并使用fc7层学习的4096维特征作为图像表示向量。对于文本数据使用句子CNN来学习
每个文本的300维表示向量。
的大规模多模态哈希算法(SCM_orth ,SCM_seq),用于跨模态相似性搜索的潜在语义稀疏
哈希算法(LSSH),多模态数据的集中数据矩阵分解哈希方法(CMFH),用于跨模态检索的有
监督矩阵分解哈希方法(SMFH),用于大规模跨模态相似性搜索的标签一致矩阵分解哈希
(LCMFH),用于大规模检索的基于标签类别监督矩阵分解哈希(LCSMFH)。
示,其中图2是以表格展示的是本文所提方法与基线方法mAP对比结果。其中对比结果分为
以文本检索图像和以图像检索文本,在以图像检索文本中各个检索长度均优于基线任务,
以16位为例所提方法优于最好基线方法约3%。图3是以折线图表示图片搜索文本的mAP结
果。图4是以折线图表示文本搜索图片mAP结果。在利用文本搜索图片的实验室中本方法在
16位上的搜索结果也优于其他基准方法。实验结果表明,总体来说本发明所提供的方法性
能表现在各个领域都优于其他基准方法。