一种两级网络的图像文本跨媒体检索方法转让专利

申请号 : CN201910355345.1

文献号 : CN110059217B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李志欣凌锋张灿龙周韬

申请人 : 广西师范大学

摘要 :

本发明公开一种两级网络的图像文本跨媒体检索方法,首先通过构建了跨媒体两级网络来探索两级对齐,它分别包含两个用于全局,局部的子网。接着利用训练数据集来对跨媒体两级模型进行训练,以确定跨媒体两级模型中的网络参数,由此得到训练好的跨媒体两级模型。最后,利用该训练好的跨媒体两级模型对待检索图像和待检索文本进行相似度检索。实验表明,本发明在跨媒体检索的应用上达到了不错的效果。

权利要求 :

1.一种两级网络的图像文本跨媒体检索方法,其特征是,包括如下步骤:步骤1、构建跨媒体两级模型阶段:

所构建的跨媒体两级模型包括全局生成对抗网络和局部跨媒体注意网络;

步骤2、训练数据集的获取阶段:

步骤2.1、从现有图像文本跨媒体的数据集中获取原始图像和原始文本,并将所获取原始图像和原始文本中相互对应的1个原始图像和1个原始文本形成图像文本对;

步骤2.2、对每个图像文本对中的原始图像和原始文本分别附上不同的模态标签,由此得到训练数据集;

步骤3、跨媒体两级模型进行训练阶段:

步骤3.1、利用图像文本对跨媒体两级模型中的全局生成对抗网络进行训练;

步骤3.1.1、先将图像文本对中的原始图像输入到全局卷积神经网络中进行图像的特征提取训练,再将所提取到的图像的特征送入到全局图像全连接网络中进行降维训练,以训练出该原始图像的图像全局表示;

步骤3.1.2、先将图像文本对中的原始文本输入到字符型卷积神经网络中进行文本的特征提取训练,再将所提取到的文本的特征送入全局长期短期记忆网络学习其全局代表性,后将学习后的文本的特征送入到全局文本全连接网络中进行降维训练,以训练出该原始文本的文本全局表示;

步骤3.1.3、利用每个图像文本对中的原始图像训练所得的图像全局表示和原始文本训练所得的文本全局表示,去训练全局生成对抗网络的全局特征相似度;

步骤3.2、利用图像文本对跨媒体两级模型中的局部跨媒体注意网络进行训练;

步骤3.2.1、先将图像文本对中的原始图像输入快速候选区域卷积神经网络中进行图像候选区域提取训练,再将所提取到的图像候选区域送入到局部卷积神经网络中进行图像候选区域的特征提取训练,后将所提取到的图像候选区域的特征送入到局部图像全连接网络中进行降维训练,以训练出该原始图像的图像局部表示;

步骤3.2.2、先将图像文本对中的原始文本输入到词嵌入矩阵进行单词提取训练,再将所提取到的单词向量送入文本双向长期短期记忆网络总结出所提取单词向量的语义信息,以生成不同的文本片段,并对生成的文本片段进行注意机制训练来捕获其中有用的文本片段,后将有用的文本片段送入到局部文本全连接网络中进行降维训练,以训练出该原始文本的文本局部表示;

步骤3.2.3、利用每个图像文本对中的原始图像训练所得的图像局部表示和原始文本训练所得的文本局部表示,去训练局部跨媒体注意网络的局部特征相似度;

步骤3.3、利用步骤3.1训练所得全局生成对抗网络的全局特征相似度和步骤3.2训练所得训练局部跨媒体注意网络的局部特征相似度,去训练跨媒体两级模型的综合相似度;

步骤3.4、利用步骤2所得到的训练数据集中的所有图像文本对对步骤1所构建的跨媒体两级模型进行重复步骤3.1‑3.3的训练过程,以确定跨媒体两级模型中的网络参数,由此得到训练好的跨媒体两级模型;

步骤4、检索阶段:

将待检索图像和待检索文本同时输入到步骤3所训练好的跨媒体两级模型中,通过训练好的跨媒体两级模型输出待检索图像和待检索文本之间的综合相似度,从而确定该待检索图像和待检索文本是否相似。

2.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤

2.1所述的图像文本跨媒体的数据集为Flickr30K和MS‑COCO。

3.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤

2.2中,对于每个图像文本对,将其原始图像的模态标签记做01,并将其原始文本的模态标签记做10。

4.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤

3.1.3中,全局生成对抗网络的全局特征相似度等于图像全局表示与文本全局表示之间的点积。

5.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤

3.2.3中,局部跨媒体注意网络的局部特征相似度等于图像局部表示与文本局部表示之间的点积。

6.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤

3.4中,综合相似度等于全局特征相似度和局部特征相似度之和。

说明书 :

一种两级网络的图像文本跨媒体检索方法

技术领域

[0001] 本发明涉及计算机跨媒体检索领域,具体涉及一种两级网络的图像文本跨媒体检索方法。

背景技术

[0002] 跨媒体既表现为包括网络文本、图像、音频、视频等复杂媒体对象混合并存,又表现为各类媒体对象形成复杂的关联关系和组织结构,还表现在具有不同模态的媒体对象跨越媒介或平台高度交互融合。通过“跨媒体”能从各自的侧面表达相同的语义信息,能比单一的媒体对象及其特定的模态更加全面地反映特定的内容信息。相同的内容信息跨越各类媒体对象交叉传播与整合,只有对这些多模态媒体进行融合分析,才能尽可能全面、正确地理解这种跨媒体综合体所蕴涵的内容信息。本文研究了经典的图像‑文本匹配问题,它是图像‑句子跨模态检索(即对给定的具有视觉描述的句子进行图像搜索,从图像查询中检索句子)的核心。由于不同模态的特征通常具有不一致的分布和表示,因此需要弥合模态差距,即需要找到方法来评估跨模态的项的语义相似性。
[0003] 一种简单的学习方法是:建立一个公共子空间,然后将所有数据投影到该空间。比如早期的典型相关分析(Canonical Correlation Analysis,CCA)方法,通过线性函数尽可能的将成对出现的图像和文本数据投影到公共子空间的同一位置。通过改进投影方式以及变换投影空间,CCA方法可以轻易扩展到多种媒体形式的联合分析。主题模型是另外一种常用的表示方法,比如经典的潜在狄里克雷分布(Latent Dirichlet Allocation,LDA)模型。LDA假设不同形式的媒体信息由相同的多个主题生成,于是目标的相似度可以通过指定主题下的生成概率来计算。还有基于图形的方法,通过最大化交叉模态成对项目相关性或项目分类准确性来学习线性投影以生成共同表示。深度神经网络的兴起也很快蔓延到跨媒体信息表达领域。如利用深度学习改进特征提取和度量方式,拉近同类目标距离时拉远不同类间距离,特别是在学习公共子空间时利用非线性相关等等。然而,对于一种模态中的一个项目,可能存在多个具有相同模态的语义上不同的项目,仅简单的通过公共子空间的来匹配表示是远远不够的,还需要更好的网络模型来匹配表示。

发明内容

[0004] 本发明提供一种两级网络的图像文本跨媒体检索方法,通过交叉模式检索研究的核心是学习到图像和文本较好的语义表示,其中不同形态的项目可以直接相互检索,以实现跨不同模态的灵活检索体验。
[0005] 为解决上述问题,本发明是通过以下技术方案实现的:
[0006] 一种两级网络的图像文本跨媒体检索方法,包括如下步骤:
[0007] 步骤1、构建跨媒体两级模型阶段:
[0008] 所构建的跨媒体两级模型包括全局生成对抗网络和局部跨媒体注意网络;
[0009] 步骤2、训练数据集的获取阶段:
[0010] 步骤2.1、从现有图像文本跨媒体的数据集中获取原始图像和原始文本,并将所获取原始图像和原始文本中相互对应的1个原始图像和1个原始文本形成图像文本对;
[0011] 步骤2.2、对每个图像文本对中的原始图像和原始文本分别附上不同的模态标签,由此得到训练数据集;
[0012] 步骤3、跨媒体两级模型进行训练阶段:
[0013] 步骤3.1、利用图像文本对跨媒体两级模型中的全局生成对抗网络进行训练;
[0014] 步骤3.1.1、先将图像文本对中的原始图像输入到全局卷积神经网络中进行图像的特征提取训练,再将所提取到的图像的特征送入到全局图像全连接网络中进行降维训练,以训练出该原始图像的图像全局表示;
[0015] 步骤3.1.2、先将图像文本对中的原始文本输入到字符型卷积神经网络中进行文本的特征提取训练,再将所提取到的文本的特征送入全局长期短期记忆网络学习其全局代表性,后将学习后的文本的特征送入到全局文本全连接网络中进行降维训练,以训练出该原始文本的文本全局表示;
[0016] 步骤3.1.3、利用每个图像文本对中的原始图像训练所得的图像全局表示和原始文本训练所得的文本全局表示,去训练全局生成对抗网络的全局特征相似度;
[0017] 步骤3.2、利用图像文本对跨媒体两级模型中的局部跨媒体注意网络进行训练;
[0018] 步骤3.2.1、先将图像文本对中的原始图像输入快速候选区域卷积神经网络中进行图像候选区域提取训练,再将所提取到的图像候选区域送入到局部卷积神经网络中进行图像候选区域的特征提取训练,后将所提取到的图像候选区域的特征送入到局部图像全连接网络中进行降维训练,以训练出该原始图像的图像局部表示;
[0019] 步骤3.2.2、先将图像文本对中的原始文本输入到词嵌入矩阵进行单词提取训练,再将所提取到的单词向量送入文本双向长期短期记忆网络总结出所提取单词向量的语义信息,以生成不同的文本片段,并对生成的文本片段进行注意机制训练来捕获其中有用的文本片段,后将有用的文本片段送入到局部文本全连接网络中进行降维训练,以训练出该原始文本的文本局部表示;
[0020] 步骤3.2.3、利用每个图像文本对中的原始图像训练所得的图像局部表示和原始文本训练所得的文本局部表示,去训练局部跨媒体注意网络的局部特征相似度;
[0021] 步骤3.3、利用步骤3.1训练所得全局生成对抗网络的全局特征相似度和步骤3.2训练所得训练局部跨媒体注意网络的局部特征相似度,去训练跨媒体两级模型的综合相似度;
[0022] 步骤3.4、利用步骤2所得到的训练数据集中的所有图像文本对对步骤1所构建的跨媒体两级模型进行重复步骤3.1‑3.3的训练过程,以确定跨媒体两级模型中的网络参数,由此得到训练好的跨媒体两级模型;
[0023] 步骤4、检索阶段:
[0024] 将待检索图像和待检索文本同时输入到步骤3所训练好的跨媒体两级模型中,通过训练好的跨媒体两级模型输出待检索图像和待检索文本之间的综合相似度,从而确定该待检索图像和待检索文本是否相似。
[0025] 上述步骤2.1所述的图像文本跨媒体的数据集为Flickr30K和MS‑COCO。
[0026] 上述步骤2.2中,对于每个图像文本对,将其原始图像的模态标签记做01,并将其原始文本的模态标签记做10。
[0027] 上述步骤3.1.3中,全局生成对抗网络的全局特征相似度等于图像全局表示与文本全局表示之间的点积。
[0028] 上述步骤3.2.3中,局部跨媒体注意网络的局部特征相似度等于图像局部表示与文本局部表示之间的点积。
[0029] 上述步骤3.4中,综合相似度等于全局特征相似度和局部特征相似度之和。
[0030] 与现有技术相比,本发明具有如下特点:
[0031] (1)全局和局部统筹兼顾,对全局特征采用基于生成对抗网络的思想,对局部特征采用注意力机制加权融合,与传统的跨媒体检索的CCA方法相比,融合了全局和局部不同的特征;两级网络的图像文本跨媒体检索方法具有很好的可解释性,结构并不复杂,结合两种方法在提升跨媒体检索的准确性的同时也让结果具有很好的可解释性。
[0032] (2)综合相似度采用相似度点积后累加进行计算,与传统的跨媒体检索的CCA方法和余弦相似度方法比较,混合的相似度考虑了多元的相似度信息,在实验结果上具有更高的召回率,在两种相似度融合的阶段采用相似度累加,与现有的跨媒体检索相似度融合策略相比,本方法通过实验学习得到更高的召回率,使结果更具说服力。

附图说明

[0033] 图1为一种两级网络的图像文本跨媒体检索方法的原理示意图。

具体实施方式

[0034] 为使本发明的目的、技术方案和优点更加清楚明白,下面以跨媒体检索为例,对本发明进一步详细说明。
[0035] 本发明提出一种两级网络的图像文本跨媒体检索方法,其包括如下步骤:
[0036] 步骤1、构建跨媒体两级模型阶段:
[0037] 所构建的跨媒体两级模型包括全局生成对抗网络和局部跨媒体注意网络。本发明构建了全局生成对抗网络和局部跨媒体注意网络来探索多层对齐,它分别包含两个用于全局和局部的子网。利用多级对齐用于相互提升,可以学习跨媒体相关学习的补充提示,可以学习跨媒体检索的不同表示。
[0038] 步骤2、训练数据集的获取阶段:
[0039] 步骤2.1、从现有图像文本跨媒体的数据集中获取原始图像和原始文本,并将所获取原始图像和原始文本中相互对应的1个原始图像和1个原始文本形成图像文本对。
[0040] 从图像文本跨媒体的数据集Flickr30K和MS‑COCO中获取原始文本和原始图像,对于Flickr30K数据集的31,784个图像文本对,我们使用1000个测试图像文本对用于测试,其余用于训练我们的模型。对于MS‑COCO数据集的123,287个图像文本对,我们使用1000个测试图像文本对用于测试,其余用于训练我们的模型。我们使用成对的原始图片与原始文本,一张原始图片对应一个原始文本,用于训练阶段。
[0041] 将跨媒体数据集的形式定义引入为 其中 且文本在每种媒体类型中总共有N个实例,也就是N个图像文本对。im和tk分别是图像和文本的第m和第k个实例。
[0042] 步骤2.2、对每个图像文本对中的原始图像和原始文本分别附上不同的模态标签,由此得到训练数据集。
[0043] 步骤(2)数据预处理阶段:
[0044] 我们给Flickr30K和MS‑COCO图像文本对中的每一个实例附上一个单热向量(one‑hot)编码的标签来表示它属于哪一种模态。本发明预先设定原始图像的标签记做“01”,来自文本的标签记做“10”。
[0045] 步骤3、跨媒体两级模型进行训练阶段:
[0046] 步骤3.1、利用图像文本对跨媒体两级模型中的全局生成对抗网络进行训练。
[0047] 对于全局表示,我们的目标是学习不同媒体类型的全局原始实例之间的成对跨媒体关联,如全局图像特征gi和全局文本特征gt。
[0048] 步骤3.1.1、先将图像文本对中的原始图像输入到全局卷积神经网络中进行图像的特征提取训练,再将所提取到的图像的特征送入到全局图像全连接网络中进行降维训练,以训练出该原始图像的图像全局表示。
[0049] 在本实施中,对于图像的全局表示,首先调整每个输入图像im为256×256。接着使用包含了16个卷积层和全连接层的卷积神经网络(VGG16)对图像进行处理,从VGG16的最后一个全连接层(fc7)中提取4,096维特征向量,以获得图像的全局特征向量。最后将所提取的图像的全局特征向量送入到全连接网络中,对其进行降维,即将图像的特征向量维度变换为1024维向量作为跨媒体语义对齐的公共子空间,以便计算图像全局表示和文本全局表示之间的跨媒体相似性。经过上述步骤后得到图像全局表示,表示为gi。
[0050] 步骤3.1.2、先将图像文本对中的原始文本输入到字符型卷积神经网络中进行文本的特征提取训练,再将所提取到的文本的特征送入全局长期短期记忆网络学习其全局代表性,后将学习后的文本的特征送入到全局文本全连接网络中进行降维训练,以训练出该原始文本的文本全局表示。
[0051] 在本实施例中,首先将每个输入文本tk被组成一个字符序列,其中每个字符由一个单热编码表示。接着使用字符型卷积神经网络(Character‑Convolutional Neural Networks,Char‑CNN)对文本进行处理,从最后一个激活层生成一个表示序列,以获得文本的全局特征向量。为了提高训练效果,本发明还需要将Char‑CNN输出的文本的全局特征向量输入到长期短期记忆网络(Long Short Term Memory,LSTM)来学习全局代表性,以便得到文本更好的语义表示。
[0052] LSTM是递归神经网络(Recurrent Neural Network,RNN)的一种特例,使用以下等式递归更新:
[0053]
[0054] ct=ct‑1⊙ft+tanh(Wuxt+Uuht‑1+bu)⊙it  (2)
[0055] ht=ot⊙tan h(ct)  (3)
[0056] 其中输入,遗忘,存储单元和输出的激活矢量分别表示为i,f,c和o。x是输入文本序列。tanh是激活函数,隐藏单位的输出为 ⊙表示逐元素乘法。σ是用于激活门的S形非线性。我们可以得到LSTM的输出结果 最后将所提取的文本的全局特征向量送入到全连接网络中,对其进行降维,即将文本特征向量维度变换为1024维向量作为跨媒体语义对齐的公共子空间,以便计算图像全局表示和文本全局表示之间的跨媒体相似性。经过上述步骤后,得到文本的全局表示,表示为gt。
[0057] 步骤3.1.3、利用每个图像文本对中的原始图像训练所得的图像全局表示和原始文本训练所得的文本全局表示,去训练全局生成对抗网络的全局特征相似度。
[0058] 在步骤3.2.1和步骤3.1.2所得到的公共子空间中,对全局表示的损失函数基于三元组损失(Triplet Loss),Triplet Loss的核心是锚示例、正示例、负示例共享模型,通过模型,将锚示例与正示例聚类,远离负示例。Triplet loss学到的是一个好的嵌入表示,相似的图像文本对在公共子空间里是相近的,表示为Losstriplet=max(d(a,p)‑d(a,n)+margin,0),其中a是锚点,p是正示例,n是负示例。Triplet Loss能使匹配的图像文本对的相似性与不匹配对的相似性之间的差异应该尽可能大。
[0059] 因此,基于Triplet Loss,本发明设计的全局目标函数定义如下:
[0060]
[0061] 该公式中的两个项目定义为:
[0062]
[0063]
[0064] 其中d(,)表示图像文本对特征向量之间的点积。它表明它们的相似性(这里越大越好)。 表示匹配的图像文本对,而 和 是不匹配的对。α表示边际参数。N是从训练集中采样的三元组元组的数量。因此,可以从匹配和不匹配的图像文本对中充分利用跨媒体全局对齐。
[0065] 根据全局目标函数,得到全局特征相似度为:
[0066] simglobal=d(gi,gt)  (7)
[0067] 其中d(,)表示全局图像特征向量和全局文本特征向量之间的点积。
[0068] 步骤3.2、利用图像文本对跨媒体两级模型中的局部跨媒体注意网络进行训练。
[0069] 步骤3.2.1、先将图像文本对中的原始图像输入快速候选区域卷积神经网络中进行图像候选区域提取训练,再将所提取到的图像候选区域送入到局部卷积神经网络中进行图像候选区域的特征提取训练,后将所提取到的图像候选区域的特征送入到局部图像全连接网络中进行降维训练,以训练出该原始图像的图像局部表示。
[0070] 在本实施例中,对于图像局部表示,首先利用快速候选区域卷积神经网络(Faster RCNN)来生成图像候选区域(Region of Interest,ROI),其包含视觉对象的较大概率,例如“人”或“飞机”。具体而言,每个图像im被馈送到用Faster RCNN这种卷积神经网络后得到几个图像候选区域。然后对所获得的ROI,使用VGG16从fc7层中提取每个图像边界框内区域的视觉特征。它们为一个图像内的n个不同区域形成图像局部的输出 其中i代表第i个图像。接着添加两层的全连接网络将图像局部的输出 的特征向量维度变换为1024维向量作为跨媒体语义对齐的公共子空间,命名为局部图像全连接网络,以便计算图像局部表示和文本局部表示之间的跨媒体相似性。
[0071] 经过上述步骤后,得到图像局部表示,表示为li。
[0072] 步骤3.2.2、先将图像文本对中的原始文本输入到词嵌入矩阵进行单词提取训练,再将所提取到的单词向量送入文本双向长期短期记忆网络总结出所提取单词向量的语义信息,以生成不同的文本片段,并对生成的文本片段进行注意机制训练来捕获其中有用的文本片段,后将有用的文本片段送入到局部文本全连接网络中进行降维训练,以训练出该原始文本的文本局部表示。
[0073] 在本实施例中,为了学习文本局部表示,首先对于某一个句子中的第i个单词,用一个单热向量表示它,显示词汇表中对单词的检索,并通过词嵌入矩阵We,将单词嵌入到300维向量中:
[0074] We·xi=Weωi,i∈[1,n]  (8)
[0075] 经过嵌入矩阵后,使用双向LSTM通过总结句子中两个方向的信息,双向LSTM包含前向LSTM,其从ω1到ωn读取句子T:
[0076]
[0077] 以及从ωn到ω1读取的后向LSTM:
[0078]
[0079] 最后一个词的特征ei是通过平均前向隐藏状态 和后退隐藏状态 来定义的,它总结了以ωi为中心的句子的信息。
[0080]
[0081] 具体而言,文本通过词嵌入矩阵的方式提取单词后的输出由双向LSTM网络处理。它们的输出维数是2048。这样可以从双向LSTM的隐藏单元获得一系列输出,表示为E={e1,...,em}为某一个句子中m个不同的文字片段,作为解释句子的上下文最终的特征。对局部文本采用双向LSTM结合注意力机制进行处理,得到了更好的语义表示。
[0082] 为了使模型专注于必要的细粒度补丁,还需应用注意机制来捕获有用的文本片段。每个集合中的元素代表输入信息中某个空间位置上的输入信息,输出 就是当前空间位置t下,某个上下文分别表示对应的注意力,第m个文字片段在经过softmax得到最后的得分。
[0083]
[0084] 其中Zt‑1是第(t‑1)个空间位置下双向LSTM的隐状态的输入。通过归一化指数函数(softmax)进行归一化,最后每一个输入的上下文表示上对应的权重(即得分)和为1:
[0085]
[0086] 解码器对文字片段E中不同的上下文信息表示注意的程度可以通过这个得分来反应。其中 表示文本片段的生成的注意权重。
[0087] 对文本局部表示使用注意力机制可以从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息,它包含了丰富的细粒度本地信息,并且可以强调文本序列中的所有关键词。
[0088] 具有较大注意力的文字片段更可能包含一些关键词,其描述相应的视觉对象。因此,通过双向LSTM和注意力机制处理后,我们可以获得某一个文本局部特征的输出为[0089] 假设有n个文本,那么可以从双向LSTM的隐藏单元获得一系列输出,表示为为n个句子中m个不同的文字片段。经过双向LSTM和注意力机制处理后,我们可以获得n个句子中的局部特征的输出为 作为文本局部的最终表示。
[0090] 接着在添加两层的全连接网络将文本局部的特征向量的输出 的维度变换为1024维向量,作为跨媒体语义对齐的公共子空间,命名为“局部文本全连接网络”以便计算图像局部表示和文本局部表示之间的跨媒体相似性。
[0091] 经过上述步骤后,得到文本的局部表示,表示为lt。
[0092] 步骤3.2.3、利用每个图像文本对中的原始图像训练所得的图像局部表示和原始文本训练所得的文本局部表示,去训练局部跨媒体注意网络的局部特征相似度。
[0093] 在步骤3.2.1和步骤3.2.2的公共子空间中,对局部表示的损失函数基于Triplet Loss,对于局部对齐,我们的目标是在一对图像和文本中找到文本的局部表示lt与多个图像局部表示li之间的最佳匹配。因此对于每个文本局部表示,我们从多个图像局部表示中选择K最近邻分类算法来实现这个过程。具体地,给定一个带有n个图像局部表示的一张图片,我们假定存在一个特定视觉特性比如“people”,提取出其特征向量后,我们可以通过K最近邻分类算法计算特征向量之间给定的距离,即L1或L2距离,就得到从n个图像局部表示中找到k个最近邻。使得能够更好的进行图像局部表示和文本局部表示的匹配,并给出以下局部目标函数:
[0094]
[0095] 在先前的工作中,Karpathy和Li FeiFei等人将区域‑单词相似性定义为li和ej的点积d(,),即:
[0096] sij=li·ej  (15)
[0097] 其中j代表第j个单词,i代表第i个图像候选区域。
[0098] 根据局部目标函数,得到局部特征的相似度为:
[0099]
[0100] 其中d(.)表示图像局部特征向量和文本局部特征向量之间的点积。K代表n个图像局部表示中找到k个最近邻。
[0101] 步骤3.3、利用步骤3.1训练所得全局生成对抗网络的全局特征相似度和步骤3.2训练所得训练局部跨媒体注意网络的局部特征相似度,能够得到跨媒体两级模型的综合相似度,其中综合相似度等于全局特征相似度和局部特征相似度之和。
[0102] 步骤3.4、利用步骤2所得到的训练数据集中的所有图像文本对对步骤1所构建的跨媒体两级模型进行重复步骤3.1‑3.3的训练过程,以确定跨媒体两级模型中的网络参数,由此得到训练好的跨媒体两级模型。
[0103] 本发明设计了图像im和文本tk之间的跨媒体综合相似性,它在公共子空间中计算得出,结合了两级对齐:
[0104]
[0105] 其中K代表n个图像局部表示中找到k个最近邻。d(,)表示点积计算公式。有了点积,我们就可以来检索相似性最大的图片或文本了,表明最相关。
[0106] 在本发明中,所有全连接网络可以为一层全连接网络、两层全连接网络或多层全连接网络。在本实施例中,全局选用两层全连接网络。对于两个全连接网络的公共子空间,引入一个简单的只有全连接层的识别器,使其无法区分输入的特征是属于哪一种模态的,从而进一步减少模态间的差异。在训练时,给每一个实例附上一个one‑hot编码的标签来表示它所述模态。本发明预先设定来自图像全连接网络的图像特征的标签记做01,来自文本全连接网络的文本特征的标签记做10,对抗损失为:
[0107]
[0108] 其中No表示N个图像文本对,Lcross(θD)表示每次迭代用于训练的所有实例No的模态分类的交叉熵损失函数。此外,mi是每个实例的正确的模态标签,表示为单热向量,而D(.;θD)是实例No中的每个项目(图像或文本)生成的模态概率。生成对抗网络鉴别器用于调整图像和文本的全连接网络的网络参数,通过最大化该对抗损失即可进一步促使两种模态之间的语义特征无法区分,并增强共同表征的一致性,趋向于同一子空间。
[0109] 为了检测模型的性能,本发明还可以对训练好的模型进行测试。模型测试阶段使用1000个测试图像文本对,并采用测试集的一种媒体的数据作为查询集合来检索另一种媒体的数据,有两种方法:
[0110] 1)输入一张未知图片,通过模型的相似度检索测试集中的N个文本,得到测试集中相似度最高的K个文本,最终计算后输出得到图像检索文本的召回率。
[0111] 2)输入一张未知文本,通过模型的相似度检索测试集中的N张图片,得到测试集中相似度最高的K张图片,最终计算后输出得到文本检索图像的召回率。
[0112] 召回率名为“Recall@K”是指检索出来的文档与文档库中所有的相关文档的比率。我们用Recall@K(K=1,5,10)表示在相似度最高的K个结果中检索到至少一个正确的的查询的百分比。Recall@K的得分越高,模型性能越好。
[0113] 步骤4、检索阶段:
[0114] 将待检索图像和待检索文本同时输入到步骤3所训练好的跨媒体两级模型中,通过训练好的跨媒体两级模型输出待检索图像和待检索文本之间的综合相似度,从而确定该待检索图像和待检索文本是否相似。
[0115] 对给定任何媒体类型的查询,跨媒体检索的目标是得到测量跨媒体sim(im,tk)的模型,并检索另一媒体类型的相关实例,最后可以计算出召回率。本发明从提出的视觉语言两级对齐模型中提取全局,局部表示,这可以为跨媒体相关学习提供丰富的表示。
[0116] 根据待检索图像和待检索文本之间的综合相似度确定两者是否相似采用阈值比较的方式。如设定一个综合相似度阈值,并将所得到的综合相似度与综合相似度阈值进行比较,当大于综合相似度阈值时,表示两者相似,否则两者不相似。
[0117] 需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。