基于全局与局部上下文感知的零样本学习图像分类方法转让专利

申请号 : CN202011460544.8

文献号 : CN112418351B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王国威陶文源管乃洋

申请人 : 天津大学

摘要 :

本发明公开了一种基于全局与局部上下文感知的零样本学习图像分类方法,包括:使用深度神经网络对图像进行特征提取,得到多层特征图;对任意一层特征图,使用全局注意力进行计算,得到包含全局信息的特征图;对同一层特征图,使用局部注意力进行计算,得到代表局部信息的特征向量;将最后一层全局特征图通过全连接层得到全局特征向量;将多组局部特征向量进行逐元素加和,得到完整局部特征向量;将完整局部特征向量和全局特征向量进行拼接,同时投影到语义空间和隐特征空间,分别采用softmax损失和三元组损失进行参数优化;重复上述步骤,设置多个周期进行训练,得到一个表征能力强的零样本学习模型,通过训练后的零样本学习模型对图像进行分类。

权利要求 :

1.一种基于全局与局部上下文感知的零样本学习图像分类方法,其特征在于,所述方法包括:

1)使用深度神经网络对图像进行特征提取,得到多层特征图;

2)对任意一层特征图,使用全局注意力进行计算,得到包含全局信息的特征图;

3)对同一层特征图,使用局部注意力进行计算,得到代表局部信息的特征向量;

4)对于多层重复步骤2)与步骤3)的操作,得到多个全局特征图和局部特征向量;

5)将最后一层全局特征图通过全连接层得到全局特征向量;将多组局部特征向量进行逐元素加和,得到完整局部特征向量;

将完整局部特征向量和全局特征向量进行拼接,同时投影到语义空间和隐特征空间,分别采用softmax损失和三元组损失进行参数优化;

重复上述步骤,设置多个周期进行训练,得到一个表征能力强的零样本学习模型,通过训练后的零样本学习模型对图像进行分类;

所述对任意一层特征图,使用全局注意力进行计算,得到包含全局信息的特征图具体为:获取空间自注意力模块权重矩阵,利用所得到的权重矩阵对特征值 进行加权,得到加权值 采用残差链接的方式,在加权特征的基础上加上 得到将得到的 重定维到与原始特征图一样大小, 将 作为新的特征图输入到下一层神经网络,在多层特征图采取相同的操作,将全局上下文信息传递到最后一层;

所述对同一层特征图,使用局部注意力进行计算,得到代表局部信息的特征向量具体为:通过空间转换器计算并与原特征图进行矩阵乘法得到相对应的多个区域Rs,对每一个区域Rs,采用inception提取特征:对提取的特征采用全局最大池化和全局平均池化对IR进行处理;对多个区域得到的IR′,采用逐元素加法进行处理,得到最终代表局部区域的特征;分别学习视觉‑语义映射和视觉‑隐映射,并进行拼接。

2.根据权利要求1所述的一种基于全局与局部上下文感知的零样本学习图像分类方法,其特征在于,所述空间自注意力模块权重矩阵具体为:其中, 代表变量的维度信息,softmaxcol为对矩阵按照列计算softmax得分, 为重定维查询特征的转置,为重定维键特征,T为转置,L=H×W为特征图的长与宽的乘积。

3.根据权利要求2所述的一种基于全局与局部上下文感知的零样本学习图像分类方法,其特征在于,所述加权值 为:

其中,α为平衡因子;C为特征图的通道数,为重定维的特征图。

说明书 :

基于全局与局部上下文感知的零样本学习图像分类方法

技术领域

[0001] 本发明涉及图像分类领域,尤其涉及一种基于全局与局部上下文感知的零样本学习图像分类方法,通过对不同层次的特征图提取全局信息和局部信息,增强了对对象的理解,提升了特征的表达能力,提高了分类的准确率。

背景技术

[0002] 深度学习技术快速发展,且其相关应用已经在多个领域(计算机视觉,自然语言处理等)得到实践,这是由于深度学习可以利用海量数据进行模型训练,并以此获得了强大的识别能力。但是,训练样本不可能覆盖所有的类别。具体而言,对于已有数据来说,其本身也天然服从长尾分布,这代表着只有极少数常见的类别可以提供大量的样本,而大多数不常见的类别可以收集到的样本量极其有限。这种现象反映在深度学习中就意味着,深度学习模型对于常见的类别由于训练样本数量丰富的原因,能够达到理想的识别准确率,然而对于不常见类别,模型的识别能力相比于前者有天壤之别。尤其是对没有收集到训练样本的类别,识别能力为零。然而,模型要想能在现实中得到应用,不仅要从已经收集到的数据中获得较强的识别能力,还要面临没有任何训练样本的全新类别出现时,应具备的识别能力。世界上每天都会产生新的类别,如新物种,新型号的电子设备等,能够对未见类别具备识别能力,是深度学习系统发展至今面临的关键转折,而对于未见类别的识别任务可以通过零样本学习来解决。
[0003] 零样本学习是一种模仿人类大脑识别能力的深度学习技术,Lampert指出,人类大概可以识别30,000种基础类别,以及这些类别的细粒度子类。人类除了可以识别见到过的类别以及利用这些知识识别细粒度子类之外,还可以识别全新的类别或概念,如根据“外观与马类似,有黑白色条纹”的表述,人类可以在第一次见到斑马的时候,就将其准确识别。
[0004] 在零样本学习图像分类任务中,模型只能利用来自已知类别的图像,却可以识别来自未知类别的图像所属的类别,之所以能够完成识别未知类别的任务,是由于利用了一种高层的描述对象特征的语义指示,比如属性,并假设已知类别和未知类别共享所有属性,将未知类别和已知类别联系起来。通常来讲,零样本学习的步骤如下,在训练阶段,模型学习到一种视觉‑语义映射,在推理阶段,对于一张未知类别的图像,首先利用上一步中学习到的映射关系将该图像转换成语义向量的形式,然后与真实的未知类别属性向量进行比对,选择最接近的类别作为预测结果。
[0005] 根据在训练阶段是否生成了新的训练数据可以将现有的零样本学习算法分为两类,一类是基于生成模型的算法,另一类是基于相容性的算法。第一类算法根据未知类别的语义描述生成图像,并与已有的已知类别图像一起采用传统的深度学习模式进行训练。然而现有的这类方法存在诸多缺陷,如生成的未知类别图像不能很好的还原其应有的细节以及生成的未知类别特征不具有可解释性。这类方法都忽视了图像中富含信息的视觉区域的重要性。第二类方法直接使用了语义知识,通过将视觉空间和语义空间做对齐的方式来学习一种视觉‑语义映射关系。大多数基于相容性方法的模型都把重点放在了如何挖掘对象本身所具有的鉴别性的局部信息,以及如何更好的将两个不同的空间作对齐。然而忽视了全局信息对于零样本学习任务的正向作用。

发明内容

[0006] 本发明提供了一种基于全局与局部上下文感知的零样本学习图像分类方法,本发明同时考虑全局特征和局部特征,增强所学习到的映射表达能力,进一步提升零样本学习模型的性能,详见下文描述:
[0007] 一种基于全局与局部上下文感知的零样本学习图像分类方法,该方法包括以下步骤:
[0008] 使用深度神经网络对图像进行特征提取,得到多层特征图;
[0009] 对任意一层特征图,使用全局注意力进行计算,得到包含全局信息的特征图;对同一层特征图,使用局部注意力进行计算,得到代表局部信息的特征向量;
[0010] 将最后一层全局特征图通过全连接层得到全局特征向量;将多组局部特征向量进行逐元素加和,得到完整局部特征向量;
[0011] 将完整局部特征向量和全局特征向量进行拼接,同时投影到语义空间和隐特征空间,分别采用softmax损失和三元组损失进行参数优化;
[0012] 重复上述步骤,设置多个周期进行训练,得到一个表征能力强的零样本学习模型,通过训练后的零样本学习模型对图像进行分类。
[0013] 其中,所述对任意一层特征图,使用全局注意力进行计算,得到包含全局信息的特征图具体为:
[0014] 获取空间自注意力模块权重矩阵,利用所得到的权重矩阵对特征值 进行加权,得到加权值 采用残差链接的方式,在加权特征的基础上加上 得到
[0015] 将得到的 重定维到与原始特征图一样大小, 将 作为新的特征图输入到下一层神经网络,在多层特征图采取相同的操作,将全局上下文信息传递到最后一层。
[0016] 进一步地,所述空间自注意力模块权重矩阵具体为:
[0017]
[0018] 其中, 代表变量的维度信息,softmaxcol为, 为重定维的查询特征的转置,为重定维的键特征,T为转置,L=H×W为特征图的长与宽的乘积,为重定维的特征图。
[0019] 其中,所述加权值 为:
[0020]
[0021]
[0022] 其中,α为平衡因子;C为特征图的通道数,为重定维的特征图。
[0023] 进一步地,所述对同一层特征图,使用局部注意力进行计算,得到代表局部信息的特征向量具体为:
[0024] 通过空间转换器计算并与原特征图进行矩阵乘法得到相对应的多个区域Rs,对每一个区域Rs,采用inception提取特征:
[0025] 对提取的特征采用全局最大池化和全局平均池化对IR进行处理;对多个区域得到的IR′,采用逐元素加法进行处理,得到最终代表局部区域的特征;分别学习视觉‑语义映射和视觉‑隐映射,并进行拼接。
[0026] 本发明提供的技术方案的有益效果是:
[0027] 1、本方法通过直接对原始图像的样本进行训练,使模型更加适配零样本学习分类任务;
[0028] 2、本发明采用全局注意力模块对原始特征图进行全局上下文信息提取,生成包含有全局信息的特征图,模型所提取的全局特征具备较强的表达能力,增强了模型对于对象的全局理解;
[0029] 3、本发明采用局部注意力模块对原始特征图进行局部上下文信息提取,得到局部特征向量,并在多个特征图采用相同的步骤,最后将多个局部特征向量进行加和,得到完整的局部特征向量,增强了模型对于对象的局部理解;
[0030] 4、本发明采用特征拼接的方式获得完整的特征表达,既考虑了全局信息又考虑了局部信息,极大的提升了模型的表征能力,提升模型精度;
[0031] 5、本发明采用同时将图像特征投影到语义空间和隐空间的方案,并分别采用softmax loss和triplet loss优化更新参数,与传统方法相比,在训练阶段就约束所学习的特征点具有鉴别性,提升了模型学习能力,在以深度神经网络模型作为骨干网络的基础之上,本方法基于全局与局部上下文感知的注意力机制,同时提取对象的全局和局部上下文信息,极大了提高了网络模型提取特征的表征能力,进一步提升了在数据集上的识别准确率。

附图说明

[0032] 图1为一种基于全局与局部上下文感知的零样本学习图像分类方法流程图;
[0033] 图2为全局注意力模块示意图;
[0034] 图3为空间转换器示意图;
[0035] 图4为inception网络示意图。

具体实施方式

[0036] 为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
[0037] 实施例1
[0038] 一种基于全局与局部上下文感知的零样本学习图像分类方法,参见图1,该方法包括以下步骤:
[0039] 101:使用深度神经网络对图像进行特征提取,得到多层特征图;
[0040] 102:对任意一层特征图,使用全局注意力进行计算,得到包含全局信息的特征图;
[0041] 103:对同一层特征图,使用局部注意力进行计算,得到代表局部信息的特征向量;
[0042] 104:对于多层重复步骤102与103的操作,得到多个全局特征图和局部特征向量;
[0043] 105:将最后一层全局特征图通过全连接层得到全局特征向量;将多组局部特征向量进行逐元素加和,得到完整局部特征向量;
[0044] 106:将完整局部特征向量和全局特征向量进行拼接,并同时投影到语义(属性)空间和隐特征空间,并分别采用softmax损失和三元组损失进行参数优化;
[0045] 107:重复上述步骤,设置多个周期进行训练,最后得到一个表征能力强的零样本学习模型,通过训练后的零样本学习模型对图像进行分类。
[0046] 综上所述,本发明实施例使用深度神经网络对图像提取的特征图通过全局注意力进行计算,得到包含了全局信息的新的特征图,并且对每个特征图通过局部注意力计算,得到局部特征;经多组特征图计算,再最后进行特征融合,并将融合的特征同时投影到语义(属性)空间和隐特征空间;通过这种方式增强了所学习到的特征,提高了所学习到映射的表达能力,提升了模型的分类精度。
[0047] 实施例2
[0048] 下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
[0049] 首先介绍基本设置:
[0050] 训练集 中含有Ns个样本,其中 代表已知类别s的第i张图像, 是其对应的类标签。测试集 中含有Nu个样本,其中 代表未知
类别u的第j个样本, 是其对应的类标签。已知类别和未知类别的语义特征可以分别表示为:
[0051] 及 已知类别和未知类别是不相交的,s u T
Y ∪Y=Y。用φ(x)=θ(x) W代表视觉特征在语义空间的投影,其中θ(x)为深度神经网络所提取的视觉特征,W代表转换矩阵,T代表转置。σ(x)代表视觉特征在隐空间的投影。
[0052] 在零样本学习中,训练阶段只可以使用已知类别图像和语义特征(属性),模型需要通过学习视觉‑语义映射或者视觉‑隐特征映射,获得预测未知类别的能力。
[0053] 一、全局上下文信息提取
[0054] 卷积层是深度神经网络的重要组成部分,但是由于受限于其卷积核的大小,使得深度神经网络提取的特征不可避免的仅包含局部信息。然而,对于计算机视觉任务而言,如图像分类,图像分割和物体检测,提取到更多的全局特征是提升模型表征能力的关键。如果能在某些层引入全局信息,就可以缓解受限于卷积核大小的困境,提升深度神经网络的性能。所以能否从图像中提取到全局信息非常关键。
[0055] 全局自注意力模块,起初是用在自然语言处理任务,后续在计算机视觉任务中得到广泛应用。具体而言,全局自注意力可以通过如下操作得到:
[0056] 对于一个输入的特征图,X∈RC×H×W,首先采用一组卷积操作,卷积核大小为1*1,生C′×H×W成查询特征Q,键特征K,值特征 以及重定维特征 其中Q,K∈R ,C′代表缩减的特征图通道数, L=H×W,R代表变量的维度信息,C代表特征图的通道数,
H代表特征图的长,W代表特征图的宽。
[0057] 然后将Q和K重定维,得到 则此时空间自注意力模块权重矩阵可以表示为:
[0058]
[0059] 接下来利用所得到的权重矩阵对特征值 进行加权,得到:  (2)
[0060]
[0061] 其中,α为平衡因子。
[0062] 为了防止原信息的损失,采用残差链接的方式,在加权特征的基础上加上 得到:
[0063]
[0064] 最终,将得到的 重定维到与原始特征图一样的大小, 将 作为新的特征图输入到下一层神经网络,在多层特征图采取相同的操作,可以将全局上下文信息传递到最后一层。
[0065] 二、局部上下文信息提取
[0066] 局部注意力模块同样使用一层特征图X∈RC×H×W作为输入,输出一个局部特征向量k×1Z∈R ,其中k值与属性特征的维度大小一致。该模块由三个子模块组成,分别是空间转换器,inception和全局最大/平均池化。空间转换器可以表示为一个函数ST(·),其作用是帮助网络线性的学习空间不变性和平移不变性,并将其范围扩展到所有仿射变换或非放射变换。这意味着,空间转换器可以学习一种变换,这种变换可以将进行了仿射变换的目标进行矫正:
[0067]
[0068] 其中,(tx,ty)代表二维的空间坐标,(rh,rw)代表尺度变换因子,l对应第l层的特征图。通过空间转换器计算并与原特征图进行矩阵乘法就得到了相对应的多个区域:
[0069] Rs=STl(X)                                (5)
[0070] 对于提取到的每一个区域R,采用inception提取其特征:
[0071] IR=Inception(Rs)                               (6)
[0072] 然后对于提取的特征分别采用全局最大池化和全局平均池化对IR进行处理:
[0073] IRl=GAP(IR)+GMP(IR)                        (7)
[0074] 此时得到的特征编码了局部区域的重要信息。对于多个区域得到的IR′,采用逐元素加法对他们进行处理,得到最终代表局部区域的特征,
[0075]
[0076] 由于模型需要学习两种映射,即视觉‑语义映射和视觉‑隐映射,分别对应两个映射矩阵Wa和Wb,为了计算方便,将Z进行自拼接,使得其维度为2k。
[0077] 三、视觉‑语义映射和视觉‑隐映射
[0078] 将深度神经网络按照感受野大小的不同分为若干层特征图,对特征图使用全局注意力模块提取全局上下文信息,得到新的特征图代替原特征图作为网络下一层的输入,最后一层得到的特征向量包含了全局上下文信息。再通过全链接层将最后一层特征向量同时投影到语义空间和隐空间,分别产生了两种映射,即视觉‑语义映射和视觉‑隐映射。对于视觉‑语义映射采用softmax损失函数进行参数优化,对于视觉‑隐映射采用三元组损失函数进行优化。这样做的优势在于,既保留了属性的可解释性又兼顾了隐属性的鉴别性。
[0079] 对于视觉‑语义映射,令 为类别y的语义特征,则其相容性得分可以表示为:
[0080]
[0081] 其中,θx代表视觉特征,Wa代表需要学习的视觉‑语义映射矩阵。将相容性得分s看作softmax中的logits,则sotfmax loss可以表示为:
[0082]
[0083] 其中,
[0084]
[0085] 对于视觉‑隐映射,采用三元组损失最小化类内距离的同时最大化类间距离,得到具有鉴别性的隐特征:
[0086]
[0087] 其中,xi,xj,xk分别代表锚点,正类和负类样本,mrg代表间隔距离且设置为1.0。结合视觉‑语义映射,视觉‑隐映射和裁剪网络的损失函数,整体的损失函数可以表示为:
[0088] L=Latt+αLlat   (13)
[0089] 其中,α为平衡因子,并设置为1.0。
[0090] 四、零样本学习预测
[0091] 由于在训练阶段同时学习视觉‑语义映射和视觉隐特征映射,所以在测试阶段,相对应的,对于视觉‑语义映射这种情况,给定一张测试图像x,其在语义空间的投影为φ(x),目标是为它分配一个类标签:
[0092]
[0093] 对于视觉‑隐特征映射,测试图像x,其在语义空间的投影为σ(x),已见类隐特征原型的均值为:
[0094]
[0095] 对于一个未见类u,首先计算它与所有已见类在语义空间的关系:
[0096]
[0097] 假设未见类u在隐空间共享与语义空间一致的关系:
[0098]
[0099] 整个混合的预测可以表示为,
[0100]
[0101] 其中,s(·,·)为相容性函数。
[0102] 参数及英文缩写含义如下表:
[0103]
[0104]
[0105] 本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
[0106] 本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0107] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。