一种层级融合的组合查询图像检索方法转让专利

申请号 : CN202111348833.3

文献号 : CN114048340B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨阳徐亚辉宾燚王国庆

申请人 : 电子科技大学

摘要 :

本发明公开了一种层级融合的组合查询图像检索方法创新性地使用图像场景图(Image Scene Graph),对参考图像、目标图像中的实体信息、实体属性信息和实体间关系信息进行全面的分析,使用图结构来表示图像中实体以及之间的语义关系,解决了低层视觉特征和高层语义之间的鸿沟,提升了图像的语义表征能力,很好的解决了图像检索准确率低的问题。此外,本发明创新性地设计了一个层级的视觉表示和融合方式,将视觉特征编码为:全局特征、局部实体特征以及场景图特征;之后设计了多模态特征层级融合方式;最后设计了一种集束匹配方式,在全局空间,局部实体空间和场景图空间,三个特征空间进行图像匹配,进一步提升了组合查询图像检索的准确率。

权利要求 :

1.一种层级融合的组合查询图像检索方法,其特征在于,包括以下步骤:(1)、构建基于场景图的层级融合学习模型

在基于场景图的层级融合学习模型中:

1.1)、层级视觉特征及文本特征提取

1.1.1)、使用目标检测器提取出参考图像的实体信息,使用属性分类器检测每个实体的属性信息,使用关系检测器检测实体间的关系信息;

将实体信息、实体属性信息和实体间关系信息作为图节点组织为有向图,该有向图为图像场景图,使用图卷积网络对图节点进行编码,得到图节点特征并组合起来,得到参考图像的场景图特征fs:

1 2 n

fs={fs,fs,...,fs}

i

其中,fs,i=1,2,...n为第i个图节点特征,为h维行向量,n为图节点的个数;

1.1.2)、使用卷积神经网络提取参考图像的全局特征fg,全局特征fg为h维行向量;

1.1.3)、使用目标检测器提取参考图像的局部实体特征fe:

1 2 k

fe={fe,fe,...,fe}

j

其中,fe,j=1,2,...k为第j个图节点特征,为h维行向量,k为局部实体的个数;

1.1.4)、使用循环神经网络对参考图像的文本描述进行编码,然后进行聚合得到文本特征ft,文本特征ft为h维行向量;

1.2)、层级视觉特征及文本特征融合

1.2.1)、对于全局的视觉特征fg,设计了一种基于门控机制和残差机制的特征融合方式,用于和文本特征ft进行融合,得到融合特征其中,Wg和Wr为需要学习的参数,fgate(fg,ft)和fres(fg,ft)分别是特征融合的门控单元和残差单元,公式定义如下:fgate(fg,ft)=σ(Wg2*ReLU(Wg1*[fg,ft]))⊙fgfres(fg,ft)=Wr2*ReLU(Wr1*[fg,ft])其中,Wg1,Wg2,Wr1和Wr2为需要学习的参数,σ代表sigmoid函数,⊙代表哈达玛积,[fg,ft]代表对全局特征fg、文本特征ft进行拼接,ReLU为线性整流函数;

1.2.2)、对于局部实体特征fe,首先与文本特征ft进行拼接,得到图像文本特征fet=[fe,ft],之后使用一注意力机制对图像文本特征fet进行调整,得到融合特征其中,T表示转置,We1,We2和We3是需要学习的参数;

1.2.3)、对于场景图特征fs,首先与文本特征ft进行拼接,得到图像文本特征fst=[fs,ft],之后使用另一注意力机制对图像文本特征fst进行调整,得到融合特征其中,Ws1,Ws2和Ws3是需要学习的参数;

(2)、构建基于场景图的目标图像编码模型与目标图像编码数据库在基于场景图的目标图像编码模型中:按照步骤1.1)的方法,得到目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e,完成目标图像编码;

将所有目标图像进行编码,得到目标图像编码数据库;

(3)、构建集束匹配模型

在集束匹配模型中:在全局空间、局部实体空间和场景图空间进行特征匹配,得到目标图像与参考图像的距离dof:(4)、训练基于场景图的层级融合学习模型

采用三元组度量函数作为损失函数,对基于场景图的层级融合学习模型进行训练,其中,损失函数 为:其中,m是基于经验设置的常量, 为正样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离, 为负样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离;

(5)、图像检索

将待检索的参考图像及其对应的文本描述送入基于场景图的层级融合学习模型中,得到融合特征 然后在集束匹配模型中,与目标图像编码数据库的目标图像编码即目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e进行特征匹配,选择最小距离的目标图像作为参考图像的目标图像。

说明书 :

一种层级融合的组合查询图像检索方法

技术领域

[0001] 本发明属于图像检索技术领域,更为具体地讲,涉及一种层级融合的组合查询图像检索方法。

背景技术

[0002] 传统的图片检索方法,输入参考图像之后检索系统返回数据库中和参考图像最相似的一些结果。但是传统图像检索中存在意图鸿沟问题,即用户很难找到一张准确反应其检索意图的参考图像。
[0003] 组合查询图像检索的目标是同时通过参考图像和文本描述,从大规模数据中检索出目标图像。而组合查询图像检索可以通过额外的文本描述修正参考图像,来反应用户真实的检索意图,检索方式更加灵活准确。
[0004] 现有的组合查询图像检索方法主要有两种。一种是将参考图像的全局特征和文本描述特征融合。通常是通过卷积神经网络对参考图像进行编码,得到代表参考图像的全局特征;之后将文本描述通过循环神经网络进行编码,得到文本描述的语义特征;最后通过多模态融合技术将参考图像的全局特征和文本描述的语义特征进行融合,然后利用融合后的特征进行图像检索。另一种是将参考图像的局部实体特征和文本描述的语义特征进行融合。这种方法首先通过图像目标检测器将参考图像中的局部实体区域框定出来,之后提取参考图像的局部实体特征,然后通过多模态融合技术将参考图像的局部实体特征和文本特征融合。
[0005] 现有的组合查询图像检索方法将参考图像的全局特征或局部实体特征与文本特征利用多模态融合技术进行融合,再利用融合后的特征进行图像检索。但是视觉图像是错综复杂的,包含大量的语义信息,是多个物体、环境和上下文信息的组合,这些信息由不同的实体、实体属性以及实体之间的关系组成。仅仅通过全局特征或者局部实体特征进行表示是不准确的,不能够较为全面地表示视觉图像的语义信息,缺乏对视觉图像场景的描述与概括能力,导致基于图像全局特征或局部实体特征的组合查询图像检索方法的准确率很低。
[0006] 目前的方法仅仅在单一视觉维度对图像进行编码,考虑到文本描述是复杂多样的,不仅仅和抽象的全局视觉特征以及具体的局部实体特征关联,更是与图像的语义特征相关,这也影响了组合查询图像检索的准确率。

发明内容

[0007] 本发明的目的在于克服现有技术的不足,提供一种层级融合的组合查询图像检索方法,以提高检索准确率。
[0008] 为实现上述发明目的,本发明层级融合的组合查询图像检索方法,其特征在于,包括以下步骤:
[0009] (1)、构建基于场景图的层级融合学习模型
[0010] 在基于场景图的层级融合学习模型中:
[0011] 1.1)、层级视觉特征及文本特征提取
[0012] 1.1.1)、使用目标检测器提取出参考图像的实体信息,使用属性分类器检测每个实体的属性信息,使用关系检测器检测实体间的关系信息;
[0013] 将实体信息、实体属性信息和实体间关系信息作为图节点组织为有向图,该有向图为图像场景图,使用图卷积网络对图节点进行编码,得到图节点特征并组合起来,得到参考图像的场景图特征fs:
[0014]
[0015] 其中, i=1,2,…n为第i个图节点特征,为h维行向量,n为图节点的个数;
[0016] 1.1.2)、使用卷积神经网络提取参考图像的全局特征fg,全局特征fg为h维行向量;
[0017] 1.1.3)、使用目标检测器提取参考图像的局部实体特征fe:
[0018]
[0019] 其中, j=1,2,…k为第j个图节点特征,为h维行向量,k为局部实体的个数;
[0020] 1.1.4)、使用循环神经网络对参考图像的文本描述进行编码,然后进行聚合得到文本特征ft,文本特征ft为h维行向量;
[0021] 1.2)、层级视觉特征及文本特征融合
[0022] 1.2.1)、对于全局的视觉特征fg,设计了一种基于门控机制和残差机制的特征融合方式,用于和文本特征ft进行融合,得到融合特征
[0023]
[0024] 其中,Wg和Wr为需要学习的参数,fgate(fg,ft)和fres(fg,ft)分别是特征融合的门控单元和残差单元,公式定义如下:
[0025] fgate(fg,ft)=σ(Wg2*ReLU(Wg1*[fg,ft]))⊙fg
[0026] fres(fg,ft)=Wr2*ReLU(Wr1*[fg,ft])
[0027] 其中,Wg1,Wg2,Wr1和Wr2为需要学习的参数,σ代表sigmoid函数,⊙代表哈达玛积,[fg,ft]代表对全局特征fg、文本特征ft进行拼接,ReLU为线性整流函数;
[0028] 1.2.2)、对于局部实体特征fe,首先与文本特征ft进行拼接,得到图像文本特征fet=[fe,ft],之后使用一注意力机制对图像文本特征fet进行调整,得到融合特征[0029]
[0030] 其中,T表示转置,We1,We2和We3是需要学习的参数;
[0031] 1.2.3)、对于场景图特征fs,首先与文本特征ft进行拼接,得到图像文本特征fst=[fs,ft],之后使用另一注意力机制对图像文本特征fst进行调整,得到融合特征[0032]
[0033] 其中,Ws1,Ws2和Ws3是需要学习的参数;
[0034] (2)、构建基于场景图的目标图像编码模型与目标图像编码数据库
[0035] 在基于场景图的目标图像编码模型中:按照步骤1.1)的方法,得到目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e,完成目标图像编码;
[0036] 将所有目标图像进行编码,得到目标图像编码数据库;
[0037] (3)、构建集束匹配模型
[0038] 在集束匹配模型中:在全局空间、局部实体空间和场景图空间进行特征匹配,得到目标图像与参考图像的距离dof:
[0039]
[0040] (4)、训练基于场景图的层级融合学习模型
[0041] 采用三元组度量函数作为损失函数,对基于场景图的层级融合学习模型进行训练,其中,损失函数 为:
[0042]
[0043] 其中,m是基于经验设置的常量, 为正样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离, 为负样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离;
[0044] (5)、图像检索
[0045] 将待检索的参考图像及其对应的文本描述送入基于场景图的层级融合学习模型中,得到融合特征 然后在集束匹配模型中,与目标图像编码数据库的目标图像编码即目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e进行特征匹配,选择最小距离的目标图像作为参考图像的目标图像。
[0046] 本发明的目的是这样实现的。
[0047] 本发明层级融合的组合查询图像检索方法创新性地使用图像场景图(Image Scene Graph),对参考图像、目标图像中的实体信息、实体属性信息和实体间关系信息进行全面的分析,使用图结构来表示图像中实体以及之间的语义关系,解决了低层视觉特征和高层语义之间的鸿沟,提升了图像的语义表征能力,很好的解决了图像检索准确率低的问题。此外,目前的方法仅仅在单一视觉维度对图像进行编码,考虑到文本描述是复杂多样的,不仅仅和抽象的全局视觉特征以及具体的局部实体特征关联,更是与图像的语义特征相关。因此本发明创新性地设计了一个层级的视觉表示和融合方式,将视觉特征从粗粒度到细粒度编码为:全局特征、局部实体特征以及场景图特征,层层递进,相辅相成;之后针对各个维度视觉特征的特点,设计了多模态特征层级融合方式;最后设计了一种集束匹配方式,在全局空间,局部实体空间和场景图空间,三个特征空间进行图像匹配,进一步提升了组合查询图像检索的准确率。

附图说明

[0048] 图1是本发明层级融合的组合查询图像检索方法一种具体实施方式流程图;
[0049] 图2是本发明层级融合的组合查询图像检索方法一种具体实施方式的原理示意图;
[0050] 图3是图像场景图一具体实施例图。

具体实施方式

[0051] 下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
[0052] 图1、2分别是本发明层级融合的组合查询图像检索方法一种具体实施方式流程图及原理示意图。
[0053] 在本实施例中,如图1、2所示,本发明层级融合的组合查询图像检索方法包括以下步骤:
[0054] 步骤S1:构建基于场景图的层级融合学习模型
[0055] 针对文本描述复杂多样的情况,需要综合考虑图像抽象的全局特征、局部实体特征以及高层的场景图特征,本发明设计了层级的视觉特征表示方式,具体为,在基于场景图的层级融合学习模型中进行以下步骤:
[0056] 步骤S1.1:层级视觉特征及文本特征提取
[0057] 为了更好的表征图像中丰富的语义信息,本发明首先提取参考图像中的实体信息、实体属性信息和实体间关系信息,之后将这些信息组织为有向图来理解具体图像,使用图卷积网络获取参考图像整体的场景图特征。具体为:
[0058] 步骤S1.1.1:使用目标检测器提取出参考图像的实体信息,使用属性分类器检测每个实体的属性信息,使用关系检测器检测实体间的关系信息;
[0059] 将实体信息、实体属性信息和实体间关系信息作为图节点组织为有向图,该有向图为图像场景图,如图3所示。使用图卷积网络对图节点进行编码,得到图节点特征并组合起来,得到参考图像的场景图特征fs:
[0060]
[0061] 其中, i=1,2,…n为第i个图节点特征,为h维行向量,n为图节点的个数。
[0062] 在本发明中,场景图特征fs作为图像高层的语义特征。
[0063] 步骤S1.1.2:使用卷积神经网络提取参考图像的全局特征fg,全局特征fg为h维行向量;
[0064] 步骤S1.1.3:使用目标检测器提取参考图像的局部实体特征fe:
[0065]
[0066] 其中, j=1,2,…k为第j个图节点特征,为h维行向量,k为局部实体的个数;
[0067] 全局特征fg、局部实体特征fe以及场景图特征fs构成多层图像编码。
[0068] 步骤S1.1.4:使用循环神经网络对参考图像的文本描述进行编码,然后进行聚合得到文本特征ft,文本特征ft为h维行向量。
[0069] 步骤S1.2:层级视觉特征及文本特征融合
[0070] 步骤S1.2.1:对于全局的视觉特征fg,设计了一种基于门控机制和残差机制的特征融合方式,用于和文本特征ft进行融合,得到融合特征
[0071]
[0072] 其中,Wg和Wr为需要学习的参数,fgate(fg,ft)和fres(fg,ft)分别是特征融合的门控单元和残差单元,公式定义如下:
[0073] fgate(fg,ft)=σ(Wg2*ReLU(Wg1*[fg,ft]))⊙fg
[0074] fres(fg,ft)=Wr2*ReLU(Wr1*[fg,ft])
[0075] 其中,Wg1,Wg2,Wr1和Wr2为需要学习的参数,σ代表sigmoid函数,⊙代表哈达玛积,[fg,ft]代表对全局特征fg、文本特征ft进行拼接,ReLU为线性整流函数。
[0076] 在本发明中,门控单元负责参考图像应该保留下来的特征,残差单元负责对参考图像进行修改。
[0077] 步骤S1.2.2:对于局部实体特征fe,首先与文本特征ft进行拼接,得到图像文本特征fer=[fe,ft],之后使用一注意力机制对图像文本特征fet进行调整,得到融合特征[0078]
[0079] 其中,T表示转置,We1,We2和We3是需要学习的参数;
[0080] 步骤S1.2.3:对于场景图特征fs,首先与文本特征ft进行拼接,得到图像文本特征fst=[fs,ft],之后使用另一注意力机制对图像文本特征fst进行调整,得到融合特征[0081]
[0082] 其中,Ws1,Ws2和Ws3是需要学习的参数;
[0083] 步骤S2:构建基于场景图的目标图像编码模型与目标图像编码数据库[0084] 在基于场景图的目标图像编码模型中:按照步骤S1.1的方法,得到目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e,完成目标图像编码;
[0085] 将所有目标图像进行编码,得到目标图像编码数据库;
[0086] 步骤S3:构建集束匹配模型f′e
[0087] 为了准确匹配,保证检索任务顺利进行,本发明设计了一种集束匹配模型。在集束匹配模型中:在全局空间、局部实体空间和场景图空间进行特征匹配,得到目标图像与参考图像的距离dof:
[0088]
[0089] 步骤S4:训练基于场景图的层级融合学习模型
[0090] 采用三元组度量函数作为损失函数,对基于场景图的层级融合学习模型进行训练,其中,损失函数 为:
[0091]
[0092] 其中,m是基于经验设置的常量, 为正样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离, 为负样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离;
[0093] 步骤S5:图像检索
[0094] 将待检索的参考图像及其对应的文本描述送入基于场景图的层级融合学习模型中,得到融合特征 然后在集束匹配模型中,与目标图像编码数据库的目标图像编码即目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e进行特征匹配,选择最小距离的目标图像作为参考图像的目标图像。
[0095] 对比测试实例
[0096] 在本实例,使用R@K指标评估本发明检索性能。Recall@K指模型返回的前K个结果中有正确标签的图像所占的比例,是最常用的图像检索评估方法。在本实例中,在行业内广泛使用的三个数据集上Fahion200k,Mit‑states和CSS数据集上对本发明进行测试。其中Fahion200k包含200K张图像数据,训练集包含172k的图像数据,测试集包含32k的图像数据;Mit‑states包含60k张图像数据,训练集包含43K的图像数据,剩余数据是测试集;CSS包含16K的训练集以及16K的测试集。三个数据集的测试结果如下表所示:
[0097]
[0098] 表1
[0099] 从表1可以看出,本发明在所有的数据集上均优于之前的方法。
[0100] 在Fashion200k数据集上,本发明在R@1上比之前最优的方法提升了35%。本发明在Mit‑states数据集上R@10精度达到46.71,在所有度量方式上均优于现有的方法,本发明检索准确率得到了提高。
[0101] 尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。