图像检索模型的训练方法和装置以及检索方法和装置转让专利
申请号 : CN202111636300.5
文献号 : CN114003758B
文献日 : 2022-03-08
发明人 : 经小川 , 杜婉茹 , 刘萱 , 王潇茵 , 孙鹏程 , 李瑞群
申请人 : 航天宏康智能科技(北京)有限公司
摘要 :
权利要求 :
1.一种图像检索模型的训练方法,其特征在于,所述训练方法包括:获取训练图像和用于描述所述训练图像的训练文本;
基于所述训练图像通过图像信息特征提取过程获得图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量;
基于所述训练文本通过文本信息特征提取过程获得文本分词特征向量和由所述文本分词特征向量生成的文本全局特征向量;
基于所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量,通过图像检索模型获得相似度;
以所述相似度最大作为目标,对图像检索模型进行训练,其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得所述相似度:其中, 表示所述相似度,γ1和γ2分别为所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,为 的2‑范数运算,d表示特征向量的维度,其中,当γ1为图像区域特征向量 ,γ2为文本分词特征向量 时,所述相似度通过下式获得:
其中, , , ,
其中, 表示基于所述文本分词特征向量 生成的更新的图像区域特征向量,表示注意力权重, 表示所述图像区域特征向量 与文本分词特征向量 的余弦相似度。
2.根据权利要求1所述的方法,其特征在于,所述图像信息特征提取过程包括:通过卷积网络组从所述训练图像中提取图像初始特征图;
通过区域候选网络对所述图像初始特征图进行图像区域划分;
将所述图像区域划分的结果和所述图像初始特征图作为输入,通过感兴趣区域池化网络提取图像关键区域特征图;
将所述图像关键区域特征图送入全连接层以获得所述图像区域特征向量;并且通过自注意力机制聚合所述图像区域特征向量以获得所述图像全局特征向量。
3.根据权利要求2所述的方法,其特征在于,所述图像区域特征向量表示为其中,V为所述图像区域特征向量,v1,v2,…vm为图像关键区域特征图的特征向量,m为所述图像关键区域特征图的个数,所述图像全局特征向量表示为
其中,为所述图像全局特征向量,αi为与特征向量 对应的权重。
4.根据权利要求1所述的方法,其特征在于,所述文本信息特征提取过程包括:通过分词将所述训练文本划分为n个单词,其中,n为正整数;
使用词嵌入方法将所述n个单词转化为词向量;
通过双向门控循环单元对所述词向量进行编码以获得所述文本分词特征向量;并且通过自注意力机制聚合所述文本分词特征向量以获得所述文本全局特征向量。
5.根据权利要求4所述的方法,其特征在于,所述词向量表示为其中,W为词向量矩阵,w1,w2,…wn为词向量,dword表示词向量的维度,所述通过双向门控循环单元对所述词向量进行编码以获得所述文本分词特征向量的步骤包括:通过双向门控循环单元对所述词向量进行编码以获得所述n个单词中每个单词的包含上下文关系的词特征向量,并由所述n个单词的所述词特征向量组成所述文本分词特征向量,所述文本分词特征向量表示为其中,T为所述文本分词特征向量,t1,t2,…tn为所述词特征向量,所述文本全局特征向量表示为
其中,为所述文本全局特征向量,βi为与所述词的特征向量对应的权重。
6.一种使用图像检索模型的检索方法,其特征在于,所述检索方法包括:获取待检索数据,所述待检索数据包括待检索图像和待检索文本中的至少一种;
基于所述待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和由所述待检索局域特征向量生成的待检索全局特征向量;
基于预先设置的图像数据库中的图像的图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量,以及待检索局域特征向量和所述待检索全局特征向量,通过图像检索模型获得相似度;并且
按照所述相似度由大到小的规则排序生成检索结果的候选队列,其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得所述相似度:其中, 表示所述相似度,γ1和γ2分别为所述图像区域特征向量、所述图像全局特征向量、所述待检索局域特征向量和所述待检索全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,为 的2‑范数运算,d表示特征向量的维度,其中,当所述待检索数据包括待检索文本,通过所述文本信息特征提取过程至少提取文本分词特征向量 ,且γ1为图像区域特征向量 ,作为所述待检索局域特征向量的γ2为所述文本分词特征向量 时,所述相似度通过下式获得:其中, , , ,
其中, 表示基于所述文本分词特征向量 生成的更新的图像区域特征向量,表示注意力权重, 表示所述图像区域特征向量 与文本分词特征向量 的余弦相似度。
7.根据权利要求6所述的方法,其特征在于,所述待检索数据是待检索图像,所述图像信息特征提取过程包括:
通过卷积网络组从所述待检索图像中提取图像初始特征图;
通过区域候选网络对所述图像初始特征图进行图像区域划分;
将所述图像区域划分的结果和所述图像初始特征图作为输入,通过感兴趣区域池化网络提取图像关键区域特征图;
将所述图像关键区域特征图送入全连接层以获得待检索图像区域特征向量作为所述待检索局域特征向量;并且
通过自注意力机制聚合所述图像区域特征向量以获得待检索图像全局特征向量作为所述待检索全局特征向量。
8.根据权利要求7所述的方法,其特征在于,所述待检索图像区域特征向量表示为其中,V为所述待检索图像区域特征向量,v1,v2,…vm为图像关键区域特征图的特征向量,m为所述图像关键区域特征图的个数,所述待检索图像全局特征向量表示为其中,为所述待检索图像全局特征向量,αi为与特征向量 对应的权重。
9.根据权利要求6所述的方法,其特征在于,所述待检索数据是待检索文本,所述文本信息特征提取过程包括:
通过分词将所述待检索文本划分为n个单词,其中,n为正整数;
使用词嵌入方法将所述n个单词转化为词向量;
通过双向门控循环单元对所述词向量进行编码以获得待检索文本分词特征向量作为所述待检索局域特征向量;并且
通过自注意力机制聚合所述文本分词特征向量以获得待检索文本全局特征向量作为所述待检索全局特征向量。
10.根据权利要求9所述的方法,其特征在于,所述词向量表示为其中,W为词向量矩阵,w1,w2,…wn为词向量,dword表示词向量的维度,所述通过双向门控循环单元对所述词向量进行编码以获得待检索文本分词特征向量的步骤包括:通过双向门控循环单元对所述词向量进行编码以获得所述n个单词中每个单词的包含上下文关系的词特征向量,并由所述n个单词的所述词特征向量组成所述待检索文本分词特征向量,所述待检索文本分词特征向量表示为其中,T为所述待检索文本分词特征向量,t1,t2,…tn为词的特征向量,所述待检索文本全局特征向量表示为其中,为所述文本全局特征向量,βi为与所述词的特征向量对应的权重。
11.根据权利要求6所述的方法,其特征在于,所述获得相似度的步骤还包括通过全连接网络层将作为向量的相似度转换为作为标量的最终相似度,并且按照最终相似度由大到小的规则排序生成检索结果的候选队列。
12.一种图像检索模型的训练装置,其特征在于,所述装置包括:数据获取单元,被配置为获取训练图像和用于描述所述训练图像的训练文本;
图像特征提取单元,被配置为基于所述训练图像通过图像信息特征提取过程获得图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量;
文本特征提取单元,被配置为基于所述训练文本通过文本信息特征提取过程获得文本分词特征向量和由所述文本分词特征向量生成的文本全局特征向量;
相似度计算单元,被配置为基于所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量,通过图像检索模型获得相似度;
训练单元,所述相似度最大作为目标,对图像检索模型进行训练,其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得所述相似度:其中, 表示所述相似度,γ1和γ2分别为所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,为 的2‑范数运算,d表示特征向量的维度,其中,当γ1为图像区域特征向量 ,γ2为文本分词特征向量 时,所述相似度通过下式获得:
其中, , , ,
其中, 表示基于所述文本分词特征向量 生成的更新的图像区域特征向量,表示注意力权重, 表示所述图像区域特征向量 与文本分词特征向量 的余弦相似度。
13.一种使用图像检索模型的检索装置,其特征在于,所述装置包括:输入单元,被配置为获取待检索数据,所述待检索数据包括待检索图像和待检索文本中的至少一种;
输入数据特征提取单元,被配置为基于所述待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和由所述待检索局域特征向量生成的待检索全局特征向量;
相似度计算单元,被配置为基于预先设置的图像数据库中的图像的图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量,以及所述待检索局域特征向量和所述待检索全局特征向量,通过图像检索模型获得相似度;并且排序单元,按照所述相似度由大到小的规则排序生成检索结果的候选队列,其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得所述相似度:其中, 表示所述相似度,γ1和γ2分别为所述图像区域特征向量、所述图像全局特征向量、所述待检索局域特征向量和所述待检索全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,为 的2‑范数运算,d表示特征向量的维度,其中,当所述待检索数据包括待检索文本,通过所述文本信息特征提取过程至少提取文本分词特征向量 ,且γ1为图像区域特征向量 ,作为所述待检索局域特征向量的γ2为所述文本分词特征向量 时,所述相似度通过下式获得:其中, , , ,
其中, 表示基于所述文本分词特征向量 生成的更新的图像区域特征向量,表示注意力权重, 表示所述图像区域特征向量 与文本分词特征向量 的余弦相似度。
14.一种电子设备,其特征在于,包括:至少一个处理器;
至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到11中的任一所述的方法。
15.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器如权利要求1到11中的任一所述的方法。
说明书 :
图像检索模型的训练方法和装置以及检索方法和装置
技术领域
背景技术
所需的或感兴趣的数据,成为多模态信息检索领域的研究热点。已经开发处基于文本的图
像检索和基于内容的图像检索。
标签,从而返回给用户相关标签所对应的图像。
法提取查询图像的特征向量,与图像库中存储的图像信息进行相似度计算,并按照相似度
大小进行排序,向用户输出对应的图像,完成检索。
索任务,即对单模态(图像)下的特征检索有效。若用户输入为文本,则图像的特征描述与文
本特征描述之间存在着语义鸿沟,导致检索无法顺利完成。
发明内容
信息特征提取过程获得图像区域特征向量和图像全局特征向量;基于训练文本通过文本信
息特征提取过程获得文本分词特征向量和文本全局特征向量;基于图像区域特征向量、图
像全局特征向量、文本分词特征向量和文本全局特征向量,通过图像检索模型获得相似度;
以相似度最大作为目标,对图像检索模型进行训练,其中,通过图像检索模型获得相似度的
步骤包括通过如下公式获得相似度:
检索模型,被构造为用于获取相似度向量的权重矩阵, 为
的2‑范数运算,d表示特征向量的维度。
区域划分;将图像区域划分的结果和图像初始特征图作为输入,通过感兴趣区域池化网络
提取图像关键区域特征图;将图像关键区域特征图送入全连接层以获得图像区域特征向
量;并且通过自注意力机制聚合图像区域特征向量以获得图像全局特征向量。
征图的特征向量,m为图像关键区域特征图的个数,图像全局特征向量可以表示为
,其中,为图像全局特征向量,αi为与特征向量 对应的权重。
过双向门控循环单元对词向量进行编码以获得文本分词特征向量;并且通过自注意力机制
聚合文本分词特征向量以获得文本全局特征向量。
词向量的维度。所述通过双向门控循环单元对词向量进行编码以获得文本分词特征向量的
步骤可以包括:通过双向门控循环单元对词向量进行编码以获得n个单词中每个单词的包
含上下文关系的词特征向量,并由n个单词的词特征向量组成文本分词特征向量。文本分词
特征向量可以表示为, ,其中,T为文本分词特征向量,t1,t2,…
tn为词的特征向量,文本全局特征向量表示为, ,其中,为文本全局特征向
量,βi为与词的特征向量对应的权重。
基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得
待检索局域特征向量和待检索全局特征向量;基于预先设置的图像数据库中的图像的图像
区域特征向量和图像全局特征向量,以及待检索局域特征向量和待检索全局特征向量,通
过图像检索模型获得相似度;并且按照相似度由大到小的规则排序生成检索结果的候选队
列,其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度:
图像检索模型,被构造为用于获取相似度向量的权重矩阵, 为
的2‑范数运算,d表示特征向量的维度。
图像初始特征图进行图像区域划分;将图像区域划分的结果和图像初始特征图作为输入,
通过感兴趣区域池化网络提取图像关键区域特征图;将图像关键区域特征图送入全连接层
以获得待检索图像区域特征向量作为待检索局域特征向量;并且通过自注意力机制聚合图
像区域特征向量以获得待检索图像全局特征向量作为待检索全局特征向量。
区域特征图的特征向量,m为图像关键区域特征图的个数,待检索图像全局特征向量可以表
示为 ,其中, 为待检索图像全局特征向量,αi为与特征向量 对应的权
重。
法将n个单词转化为词向量;通过双向门控循环单元对词向量进行编码以获得待检索文本
分词特征向量作为待检索局域特征向量;并且通过自注意力机制聚合文本分词特征向量以
获得待检索文本全局特征向量作为待检索全局特征向量。
词向量的维度。通过双向门控循环单元对词向量进行编码以获得待检索文本分词特征向量
的步骤可以包括:通过双向门控循环单元对词向量进行编码以获得n个单词中每个单词的
包含上下文关系的词特征向量,并由n个单词的词特征向量组成待检索文本分词特征向量。
待检索文本分词特征向量可以表示为 ,其中,T为待检索文本分
词特征向量,t1,t2,…tn为词的特征向量,待检索文本全局特征向量可以表示为
,其中,为文本全局特征向量,βi为与词的特征向量对应的权重。
规则排序生成检索结果的候选队列。
本;图像特征提取单元,被配置为基于训练图像通过图像信息特征提取过程获得图像区域
特征向量和图像全局特征向量;文本特征提取单元,被配置为基于训练文本通过文本信息
特征提取过程获得文本分词特征向量和文本全局特征向量;相似度计算单元,被配置为基
于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量,通过图
像检索模型获得相似度;训练单元,相似度最大作为目标,对图像检索模型进行训练,其中,
通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度:
检索模型,被构造为用于获取相似度向量的权重矩阵, 为
的2‑范数运算,d表示特征向量的维度。
本中的至少一种;输入数据特征提取单元,被配置为基于待检索数据通过图像信息特征提
取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和待检索全局特
征向量;相似度计算单元,被配置为基于预先设置的图像数据库中的图像的图像区域特征
向量和图像全局特征向量,以及待检索局域特征向量和待检索全局特征向量,通过图像检
索模型获得相似度;并且排序单元,按照相似度由大到小的规则排序生成检索结果的候选
队列,其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度:
图像检索模型,被构造为用于获取相似度向量的权重矩阵, 为
的2‑范数运算,d表示特征向量的维度。
至少一个处理器运行时,促使所述至少一个处理器执行如上描述的图像检索模型的训练方
法和使用图像检索模型的检索方法。
练方法和使用图像检索模型的检索方法。
全局特征向量、文本分词特征向量和文本全局特征向量,通过图像检索模型获得相似度;以
相似度最大作为目标,对图像检索模型进行训练,从而完成双模态(图像、文本)之间的语义
关联。因此,能够减少人工标注工作,并且能够忽略掉其他无关信息(例如光线、背景、占比
等因素)的影响,而更关注图像真正要表达的内容,因此检索结果相比于传统基于内容的检
索技术更具有针对性和准确度。
附图说明
具体实施方式
的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的
所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致
的装置和方法的例子。
情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;
(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情
况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
图像和文本信息。
法只能对单一模态进行检索的技术问题。
息特征提取过程。
息特征提取过程。
步骤可以包括通过如下公式获得的相似度:
检索模型,被构造为用于获取相似度向量的权重矩阵, 为
的2‑范数运算,d表示特征向量的维度。
目标来调整作为权重矩阵的weights,从而实现图像检索模型的训练,并因此实现双模态特
征对齐,完成双模态之间的语义关联。
区域特征向量vi和文本分词特征向量tj,在这种情况下,vi和tj的相似度计算公式为:
中,γ1和γ2可以分别为图像区域特征向量和文本全局特征向量。在又一实施例中,γ1和
γ2可以分别为图像全局特征向量和图像区域特征向量。
检测算法(faster R‑CNN)模型检测器进行整幅图像的无差别特征提取。在实施例中,完整
图像经过一组由conv+relu+pooling三种基础的运算组合而成的卷积网络组,来提取出图
像初始特征图(feature maps)。此处所得图像初始特征图为完整图像通过不同的卷积核计
算所得的初始特征信息。
络提取与图像内容有关的关键区域。例如,对图像初始特征图进行图像区域划分。在实施例
中,图像初始特征图通过RPN网络根据图像特征设置稠密的候选区域框,由分类分支进行判
断哪些是有目标的有效区域框,哪些是不含有目标的无效区域框。从而忽略冗余的图像信
息,仅挑选与图像内容有关的关键信息保留。另一方面,图像初始特征图也会参与到计算与
真实边界框的偏移量的过程中,来获得精确的有效区域的位置信息。最后综合图像区域划
分的结果(例如,与图像内容有关的关键区域信息以及与边界框的偏移量)来获取更精确的
区域信息。若将该过程定义关键区域的个数为m,每个区域的特征维度定义为dregion,则此处
输出特征矩阵维度为m×dregion。
以从包括熊猫的原始图片中提取多个用于表征图像关键区域的图像区域特征向量。例如,
关键区域可以是由图3中黑色的熊猫(black panda)、白色的头(white head)、黑色的眼睛
(black eye)等方框标注的区域。图像区域特征向量可以至少包括关键区域的位置信息(例
如,坐标和尺寸)和关键区域内的图像像素。在实施例中,关键区域内的图像像素可以是RGB
图像数据,也可以是经由预处理而获得的二进制图像数据。
Pooling网络层将收集图像区域划分的结果和图像初始特征图两项数据作为输入,来综合
提取出图像关键区域特征图。
维的图像区域特征向量 ,其中,V为图像区域特征向量,v1,
v2,…vm为图像关键区域特征图的特征向量,d表示特征向量的维度,m为图像关键区域特征
图的个数。
区域特征从而获取全局表示。图像全局特征向量的计算公式为 ,其中,为
图像全局特征向量,αi为与特征向量 对应的权重。
向量将不包括能够体现图像关键区域的信息特征,而仅包括各区域无差别的全局特征。根
据本公开的示例性实施例,在步骤S129中,通过对图像区域特征向量进行聚合得到图像全
局特征向量,从而更加关注图像内容中不同要素之间的关系,即更加关注与图像真正要表
达的内容相关的区域信息。
Embedding)将n个单词转化 维的词向量 ,其中,W
为词向量矩阵,w1,w2,…wn为词向量,dword表示词向量的维度。这里,词嵌入是指将人类自然
语言表示的词转化成计算机能够理解的向量或者矩阵形式的一种自然语言处理模型。词向
量是指词的向量化表示,即,将自然语言文本转化成计算机模型能够接受的词向量形式。以
上关于词嵌入的描述仅为便于理解,将不作为对本公开的限制。
量作为输入通过Bi‑GRU模型,通过学习句子内部的上下文关系,对词向量进行进一步编码,
得到词的特征向量。也就是说,词向量不包含该文本句子里的上下文关系,而词特征向量中
包含了上下文关系。
量t组成文本分词特征向量,文本分词特征向量可以表示为: ,
其中,T为文本分词特征向量,t1,t2,…tn为词的特征向量。
全局(例如,句子全局)的特征向量。文本全局特征向量可以表示为: ,其中,
为文本全局特征向量,βi为与词的特征向量对应的权重。关于文本全局特征向量的计算,
除了聚合词的特征向量之外,与上面参照步骤S129描述的图像全局特征向量的计算相同或
相似,在此省略冗余的描述。
种模态的局部特征需要结合另一模态的局部特征,也就是说,可以将图像区域特征向量更
新为基于文本分词特征向量生成的新的图像区域特征向量。同样地,可以将文本分词特征
向量更新为基于图像区域特征向量生成的新的文本分词特征向量。具体地,以文本模态参
与图像模态的特征生成为例:
向量之间的对齐。
域特征向量 和文本分词特征向量 的相似度能够体现捕获特定单词与其对应图像区域
之间的相关性,利用更细粒度的视觉语义对齐来提高相似度的预测。
局特征向量。在实施例中,如果待检索数据为待检索图像,则可以执行参照图1和图2所描述
的图像信息特征提取过程;如果待检索数据为待检索文本,则可以执行参照图1和图2所描
述的文本信息特征提取过程;如果待检索数据包括待检索图像和待检索文本两者,则可以
将待检索图像与待检索文本分离,并分别执行参照图1和图2所描述的图像信息特征提取过
程以及参照图1和图2所描述的文本信息特征提取过程。在此省略冗余的描述。
征向量,通过图像检索模型获得相似度。需要说明的是,对于预先设置的图像数据库中的图
像,可以预先执行参照图1和图2所描述的图像信息特征提取过程,从而获得图像数据库中
的图像的图像区域特征向量和图像全局特征向量。
一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
为 的2‑范数运算,d表示特征向量的维度。
换为作为标量的最终相似度,并且按照最终相似度由大到小的规则排序生成检索结果的候
选队列。
检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索
局域特征向量和待检索全局特征向量;基于预先设置的图像数据库中的图像的图像区域特
征向量和图像全局特征向量,以及待检索局域特征向量和所述待检索全局特征向量,通过
图像检索模型获得相似度;并且按照所述相似度由大到小的规则排序生成检索结果的候选
队列。在实施例中,通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度:
图像检索模型,被构造为用于获取相似度向量的权重矩阵, 为
的2‑范数运算,d表示特征向量的维度,其中,当待检索数据包括待检
索文本,通过文本信息特征提取过程至少提取文本分词特征向量 ,且γ1为图像区域特征
向量 ,作为待检索局域特征向量的γ2为所述文本分词特征向量 时,所述相似度通过下
式获得:
似度。
所述图像初始特征图进行图像区域划分;将所述图像区域划分的结果和所述图像初始特征
图作为输入,通过感兴趣区域池化网络提取图像关键区域特征图;将所述图像关键区域特
征图送入全连接层以获得待检索图像区域特征向量作为所述待检索局域特征向量;并且通
过自注意力机制聚合所述图像区域特征向量以获得待检索图像全局特征向量作为所述待
检索全局特征向量。
个单词转化为词向量;通过双向门控循环单元对所述词向量进行编码以获得待检索文本分
词特征向量作为所述待检索局域特征向量;并且通过自注意力机制聚合所述文本分词特征
向量以获得待检索文本全局特征向量作为所述待检索全局特征向量。
上下文关系的词特征向量,并由n个单词的词特征向量组成待检索文本分词特征向量。所述
待检索文本分词特征向量表示为
检索结果的候选队列。
中对图像特征进行全局无差别提取,而忽略图像内容中不同要素之间的关系特征。
大作为目标,对图像检索模型进行训练,从而完成双模态(图像、文本)之间的语义关联。也
就是说,在训练过程中,图像检索模型将结合图像和文本两种模态展开对应的局部特征学
习,关注不同模态下的区域要素之间的关系,以此来弥补传统技术只能完成单一模态检索
的缺陷。
注。因此,能够减少人工标注工作。本公开在进行特征提取工作时,更多的是关注图像内容
中具体要素之间的关联关系,对于图像整体的特征提取也是基于区域特征的进行聚合得到
的,因此,能够忽略掉其他无关信息(例如光线、背景、占比等因素)的影响,而更关注图像真
正要表达的内容,因此检索结果相比于传统基于内容的检索技术更具有针对性和准确度。
计算单元140和训练单元150。
被配置为用来执行参照图1和图2中的步骤S120描述的方法。
被配置为用来执行参照图1和图2中的步骤S130描述的方法。
置为用来执行参照图1和图2中的步骤S140描述的方法。
元240。
输入数据特征提取单元220被配置为用来执行参照图4中的步骤S220描述的方法。
索全局特征向量,通过图像检索模型获得相似度。相似度计算单元230被配置为用来执行参
照图4中的步骤S230描述的方法。
时,促使至少一个处理器702执行根据本公开的实施例的图像检索模型的训练方法和使用
图像检索模型的检索方法。
何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以
是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传
输)以接口互联的便携式电子设备。
拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
采用任何已知的传输协议。
系统可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合,或者可例如通
过I/O端口、网络连接等互相通信,使得处理器702能够读取存储在存储器中的文件。
接。
实施例的图像检索模型的训练方法和使用图像检索模型的检索方法。这里的计算机可读存
储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编
程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存
取存储器(SRAM)、闪存、非易失性存储器、CD‑ROM、CD‑R、CD+R、CD‑RW、CD+RW、DVD‑ROM、DVD‑
R、DVD+R、DVD‑RW、DVD+RW、DVD‑RAM、BD‑ROM、BD‑R、BD‑R LTH、BD‑RE、蓝光或光盘存储器、硬
盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字
(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装
置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、
数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提
供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介
质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中
运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布
在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通
过一个或多个处理器或计算机以分布式方式存储、访问和执行。
者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识
或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的
权利要求指出。