一种基于语义纠错下生成对抗网络的零样本学习方法转让专利
申请号 : CN202110701351.5
文献号 : CN113378959B
文献日 : 2022-03-15
发明人 : 潘杰 , 李赛男 , 邹筱瑜
申请人 : 中国矿业大学
摘要 :
权利要求 :
1.一种基于语义纠错下生成对抗网络的零样本学习方法,其特征在于,包括:步骤1:在语义纠错网络SR中,利用参照视觉空间去修正原始语义空间,将可见类的原始语义特征和对应类别的视觉特征送入纠错网络里,对视觉特征和原始语义特征做归一化处理,采用ResNet101提取好的视觉特征去计算视觉中心向量pc;
其中,Nc是类别c的实例数,是类别c的第i个视觉特征;
步骤2:建立语义纠错网络模型,该网络由两层全连接层构成,输入层由sigmoid激活函数激活,输出层由LeakyReLU激活函数激活;
步骤3:首先,获取待分析数据,导入数据集的视觉特征矩阵、原始语义特征矩阵、标签;
由于数据集里的视觉特征矩阵里的样本不同类别的特征存放的顺序是打乱的,每一类样本的个数也是未知的;
步骤4:先从标签列表中计算每一类样本的个数,再用标签的位置索引去提取视觉特征矩阵里每一类别样本的特征,再去计算相应每一类别的样本的特征均值,最后得到一个视觉中心向量矩阵P;
步骤5:利用余弦相似度函数δ来计算视觉中心向量对与语义特征之间的相似度;
步骤6:先计算视觉中心向量两两之间的余弦相似度δ(pi,pj),直接采用余弦矩阵函数计算视觉中心向量矩阵P的余弦相似度;
步骤7:再计算修正后语义特征两两之间的余弦相似度δ(R(si),R(sj)),采用余弦矩阵函数计算纠正后的语义特征矩阵的余弦相似度;
步骤8:由视觉中心向量矩阵的余弦相似度减去纠正后的语义特征矩阵的余弦相似度再求L2范数,从而得到一个修正后的语义特征与视觉特征之间的直接距离的结构损失;
步骤9:计算原始语义特征与修正后语义特征之差,对矩阵再求均值,再计算L2范数,从而得到一个衡量修正前后语义之间的信息损耗的语义损失;
步骤10:构造损失函数:将结构损失和语义损失加起来构成修正网络的总损失LR;
s
其中|c |是可见类别的数量,s是原始语义特征,R(s)是修正之后的语义特征,δ是余弦相似度函数, 是语义特征s的期望均值,公式中的第一项是表示修正后的语义特征与视觉特征之间的直接距离的结构损失,第二项是语义损失,衡量修正前后语义之间的信息损耗;
步骤11:利用梯度下降法对总损失LR进行优化,纠错网络训练结束之后,固定好纠错网络的参数;
步骤12:训练softmax分类器来学习分类器,即使用生成的特征允许在真实的可视类数据和生成的不可见类数据的组合训练;其中,使用标准的softmax分类器最小化负对数似然损失:
其中, 是全连接层的权重矩阵,它将图像特征映射成n个类别的非正规概率,n表示类别的数目,v是视觉特征,y是类别标签,Τ是类别总数目;P(y|v;θ)表示图像特征被预测为真实标签的概率;
其中, 是第i个类别的权重, 表示预测类别y的权重,P(y|x;θ)计算的是样本被预测为每一个类别的概率;最终的分类预测函数为:输出概率值最大的类别作为预测类别;在常规零样本学习ZSL中,测试仅仅用到不可见u u
类别,y∈y ,y表示测试类别标签,y 表示不可见类别的标签集合;在广义零样本学习GZSLu s s
中,测试时可见类和不可见类别都被使用,y y y ,y 表示可见类别的标签集合;softmax分类器是在可见类的真实视觉特征上预训练好的;
步骤13:训练生成对抗网络,采样若干原始语义特征s,修正之后的语义特征R(s),随机噪声z送入生成对抗网络的生成器G里去生成特征,固定生成器G,训练判别器D;
步骤14:训练好判别器D之后,再训练生成器G;采样一小批量的原始语义特征s,纠错后的语义特征R(s),随机噪声z,固定判别器D,训练生成器G;
其中,LWGAN表示生成对抗网络的损失,D(v,s)表示将视觉特征v和原始语义特征s送到判别器网络D所产生的结果, 表示将合成视觉特 征和原始语义特征s送进判别器网络D所产生的结果, 表示 的梯度, 表示 和原始语义特征s送进判别器网络D所产生的结果, 表示由生成器G合成的特征; 其中α∈U(0,1),U(0,1)表示区间(0,1);λ表示梯度惩罚系数,E表示期望均值;最终优化目标是:其中,β是一个超参数表示分类损失的权重,公式第一项是WGAN自身损失LWGAN,第二项中表示分类损失,其中 表示 被预测为真实标签的概率,表示合成视觉特征 的期望均值,这个条件概率是由一个参数化为θ的线性softmax分类器计算,改分类器由可见类的实际特征进行预训练;利用上述公式更新G;
步骤15:训练完成后,输出类别标签,计算分类准确率。
说明书 :
一种基于语义纠错下生成对抗网络的零样本学习方法
技术领域
背景技术
贵的人力和物力。此外,由于不断观察到新的数据类别,许多类别缺乏足够的训练数据。针
对上述问题,零样本学习(zero‑shot learning,ZSL)提供了一个实用的解决方案。目标识
别的经典模式将图像分类为只有在训练阶段才会看到的类别,而零样本学习 (zero‑shot
learning,ZSL)的目标是探索不可见的图像类别,与传统的监督学习不同,ZSL 考虑了一种
极端情况,即在训练期间测试数据完全不可用,即训练(可见)类和测试(不可见)类是完全
没有交集的。通过建立可见类和不可见类之间的关系,已经进行了许多尝试来解决ZSL问
题。现有的零样本学习方法可以大致分为三类:基于属性预测的方法,基于嵌入空间的方
法,基于样本生成的方法。
然后通过搜索获得最相似属性集的类来推断其类标签。DAP首先通过学习概率属性分类器
对图像的每个属性进行后验估计。然后,它计算类的后验值,并使用映射预测类标签。IAP则
相反,首先预测可见类的类的后验值,然后使用每个类的概率计算图像的属性后验。
Embedding, ALE)、语义自动编码器(semantic autoencoder,SAE)、深度视觉语义嵌入
(Deep Visual Semantic Embedding,DeVISE)、结构联合嵌入(Structured Joint
Embedding,SJE)则是使用双线性兼容函数将视觉信息和辅助信息关联起来。ALE最先利用
排序损失学习了图像和属性空间的双线性兼容函数,使用加权近似排序目标进行零样本学
习。DeVISE学习了图像和语义空间之间的线性映射,使用高效的排名损失公式,并在大规模
ImageNet 数据集上进行了评估。基于对排序损失的改进,SAE同样也学习了从图像嵌入空
间到类别嵌入空间的线性投影,但进一步限制了投影必须能够重构原始图像嵌入。SJE给出
了排名第一的全部权重,灵感来自于结构化支持向量机SVM。在SJE的双线性兼容模型的基
础上,潜在嵌入(Latent Embeddings,LatEm)将原模型扩展为分段线性模型,构造了分段性
线性兼容性,学习数据的不同视觉特征的多个线性映射W。交叉迁移(Cross Modal
Transfer,CMT)不需要学习多个映射,使用一个带有两个隐含层的神经网络学习从图像特
征空间到word2vec空间的非线性投影,需要学习的两个映射就是两层神经网络的权重。语
义相似度嵌入(Semantic Similarity Embedding,SSE)、语义嵌入凸组合(Convex
Combination of Semantic Embeddings,CONSE)和综合分类器(Synthesized
Classifiers, SYNC)都是混合模型,将图像和语义类嵌入作为可见类比例的混合。
((generative adversarial networks,GANs)和变分自编码器(Variational
autoencoder,VAE),也被提出用于各种任务(如图像风格迁移,跨模态检索,领域适应和迁
移学习)。
“领域漂移”问题的限制。这将导致传统的ZSL任务对不可见类的分类性能较差,更不用说更
具挑战性的广义ZSL(GZSL)任务。受生成对抗网络生成能力的启发,利用GANs 从语义特征
和噪声样本中生成合成的视觉特征,通过为看不见的类生成缺失的特征,将 ZSL转换为一
个传统的分类问题,并且可以使用一些经典的方法,如最近邻。
发明内容
及随机噪声去生成更高质量的特征。
一化处理,采用ResNet101提取好的视觉特征去计算视觉中心向量pc;
类样本的个数也是未知的;
个视觉中心向量矩阵P;
失;
与视觉特征之间的直接距离的结构损失,第二项是语义损失,衡量修正前后语义之间的信
息损耗;
似然损失:
征被预测为真实标签的概率;
可见类别,y∈y ,y表示测试类别标签,y 表示不可见类别的标签集合;在广义零样本学习
u s s
GZSL中,测试时可见类和不可见类别都被使用,y y y ,y 表示可见类别的标签集合;
softmax分类器是在可见类的真实视觉特征上预训练好的;
器网络D所产生的结果, 表示 的梯度, 表示 和原始语义特征s送进判别器网络D
所产生的结果, 表示由生成器G合成的特征; 其中α∈U(0,
1),U(0,1)表示区间(0,1);λ表示梯度惩罚系数,E表示期望均值;最终优化目标是:
的概率, 表示合成视觉特征 的期望均值,这个条件概率是由一个参数化为θ的线性
softmax分类器计算,改分类器由可见类的实际特征进行预训练;利用上述公式更新G;
预先训练一个语义纠错网络(SR),对语义空间进行带有语义损失和结构损失的修正。然后,
结合流行的生成模型WGAN,基于原始语义特征和修正后的语义特征以及随机噪声为不可见
类生成视觉特征,模型无缝地将一个WGAN与一个分类损失结合,能够生成有区别性的CNN特
征来训练softmax分类器。实验结果表明,该方法在四个基准数据集上的性能都得到了一定
的提升,且优于现有一些方法的研究水平。
附图说明
具体实施方式
出层为Sigmoid激活。
未知的。
个视觉中心向量矩阵P。
失。
特征与视觉特征之间的直接距离的结构损失,第二项是语义损失,衡量修正前后语义之间
的信息损耗。
的随机向量z。生成器G和判别器D都是由MLP组成。生成器G由一个包含 4096个隐藏单元的
三层隐藏层组成。它的输入层由LeakyReLU激活,它的输出层是由 ReLU激活。判别器D也是
由一个包含4096个隐藏单元的三层隐藏层组成,它的输入层由LeakyReLU激活,输出层是线
性函数。
Pascal andYahoo(aPY)。
当前梯度),通常取接近于1的值。
1)表示区间(0,1),λ是梯度惩罚系数,E表示 的期望均值。
标签,Τ是类别总数目;P(y|v;θ)表示图像特征被预测为真实标签的概率。
可见类别,y∈y y表示测试类别标签,y 表示不可见类别的标签集合。在广义零样本学习
u s s
GZSL中,测试时可见类和不可见类别都被使用,y y y ,y 表示可见类别的标签集合;
softmax分类器是在可见类的真实视觉特征上预训练好的。
征,固定生成器G的参数,训练判别器D。
生的结果, 表示 的梯度, 表示 和原始语义特征s送进判别器网络 D所产生的结
果。 表示由生成器合成的特征; 其中α∈U(0,1),U(0,1)表
示区间(0,1);λ表示梯度惩罚系数,一般取值为10;E表示期望均值;通过LD更新判别器D。
所产生的结果, 表示 的梯度, 表示 和原始语义特征s送进判别器网络D所产生的
结果, 表示由生成器G合成的特征; 其中α∈U(0,1),U(0,1)
表示区间(0,1);λ表示梯度惩罚系数,E表示期望均值;最终优化目标是:
视觉特征 的类别标签, 表示 被预测为真实标签的概率。这个条件概率是由一个
参数化为θ的线性softmax分类器计算,该分类器由可见类的实际特征进行预训练。利用上
述公式更新生成器G。
Attribute Pascal andYahoo(aPY)四个数据集上进行的。CUB和SUN均为细粒度数据集。
CUB包含了来自200种不同鸟类的11788张图片,标注了312个属性。属性Pascal和 Yahoo
(APY)包含15339张图片,32个类和64个属性。SUN包含了来自717个场景的 14340张图片,标
注了102个属性。最后,动物属性(AWA)是一个粗粒度数据集,包含 30475个图像,50个类和
85个属性。AWA2包含了来自50个种类的37322张动物图片。
行验证),50个类别进行测试。对于APY数据集,20个Pascal类别用于训练, 12个Yahoo类别
用于测试。对于SUN数据集,使用707个类进行训练,10个类进行测试。对于视觉特征v,四个
数据集都采用的是由ResNet 101提取的2048维特征。
Attribute Prediction,DAP),间接属性预测(IndirectAttribute Prediction,IAP),属性
标签嵌入(Attribute Label Embedding,ALE)、语义自动编码器(semantic autoencoder,
SAE)、深度视觉语义嵌入(Deep Visual Semantic Embedding,DeVISE)、结构联合嵌入
(Structured Joint Embedding,SJE),交叉迁移(Latent Embeddings,LatEm),浅层嵌入
(Cross Modal Transfer,CMT)语义相似度嵌入(Semantic Similarity Embedding,SSE)、
语义嵌入凸组合 (Convex Combination of Semantic Embeddings,CONSE)和综合分类器
(Synthesized Classifiers,SYNC)。首先在常规零样本学习设置下在五个数据集上分别进
行实验,将本发明所提出的方法与现有的一些先进ZSL方法的实验结果进行了比较。DAP首
先通过学习概率属性分类器对图像的每个属性进行后验估计。然后,它计算类的后验值,并
使用映射预测类标签。IAP则相反,首先预测可见类的类的后验值,然后使用每个类的概率
计算图像的属性后验。用多类分类器预测可见类的后验类。ALE利用排序损失学习了图像和
属性空间的双线性兼容函数,使用加权近似排序目标进行零样本学习。DeVISE 学习了图像
和语义空间之间的线性映射,使用高效的排名损失公式,并在大规模 ImageNet数据集上进
行了评估。SJE给出了排名第一的全部权重,灵感来自于结构化支持向量机SVM,由于必须计
算所有分类器的得分后才能进行预测,即找出最大违例类,这使得SJE的效率要低于DeVISE
和ALE。基于对排序损失的改进,ESZSL在排序公式中使用平方损失,并在非正则化风险最小
化公式中添加了一种隐式正则化,明确规范了目标w.r.t Frobenius范数,这种方法的优点
在于目标函数是凸的,有一个封闭的形式的解。SAE同样也学习了从图像嵌入空间到类别嵌
入空间的线性投影,但进一步限制了投影必须能够重构原始图像嵌入。在SJE的双线性兼容
模型的基础上,LatEm将原模型扩展为分段线性模型,构造了分段性线性兼容性,通过学习
数据的不同视觉特征的多个线性映射W,潜在的变量就在于选择那个矩阵去映射。CMT不需
要学习多个映射,使用一个带有两个隐含层的神经网络学习从图像特征空间到word2vec,
空间的非线性投影,需要学习的两个映射就是两层神经网络的权重。SSE使用可见类比例的
混合作为公共空间,认为属于同一类的图像应该有相似的混合模式。语义嵌入凸组合CONSE
首先学习一个训练图像属于一个训练类的概率将图像特征投影到Word2vec空间,然后通过
取最上面t个最可能看到的类的凸组合,使用语义嵌入的组合将未知图像分配给一个不可
见得类。
其beta设置为0.999,学习率手动设置。梯度惩罚系数λ在所有数据集使用λ=10。超参数β是
分类损失的权重系数,在实验里,分别设置β=0.001,0.01,0.1,1,10,也表明了随着β的增
加准确率会随之降低。实验表明,在四个数据集上,β取0.01时结果最好,因为β控制着分类
损失LCLS的大小,而分类损失又是总损失的一部分,β过小会使分类损失对特征生成的贡献
十分有限,过大的权重反而使训练过程不稳定。生成的特征相对越多,准确率就越高。合成
特征数k,实验证明,合成特征数量越多,准确率越高。在CUB 数据集上,合成特征数量k=
300时,结果最佳,之后增加合成特征数量,准确率也基本不再上升。在SUN数据集上,合成特
征数量k=100时就已将取得了较好的结果,之后再增加也基本不会提升了,说明生成的特
征质量已经很高了。对于噪声维度d,当d远远低于语义空间的维数时,即d=64,性能明显下
降。同样,高潜在维数也会导致精度的降低。因此,根据语义空间的维度来确定潜在维度是
非常重要的。潜在维数过低可能导致潜在表示所捕获的真实特征的内在信息不足,相反,潜
在维数过高可能导致高斯分布产生过多的噪声干扰。
65.6%到66.2%,结果比SJE的方法提升了0.6%。在AwA2数据集上,实验结果相比较其他方
法是最好的,准确率达到了66.7%,从61.9%到66.7%,相比较SJE的方法还提升了4.8%。
在CUB数据集上,实验结果达到了55.1%,虽然没有超过SYNC的 55.6%,但是也是高于大部
分其它方法的结果。对于SUN数据集,取得的结果59.3%,准确率从58.1%到59.3%,比ALE
上的结果还提升了1.2%。而在APY数据集上,取得的实验结果是39.9%,实验结果也是几种
方法里最好的,相比较ALE和DEVISE方法的39.7%和39.8,实验结果得到了0.1%的提升。虽
然单一来看,并不是在每一个数据集上的实验结果最佳的,在AwA1数据集、AWA2数据集和
SUN数据集以及APY数据集上结果最佳,都得到了小一定幅度的提升,虽然CUB数据集上结果
略低于SYNC上的结果,但是相比较其他方法,本文所提出的方法在四个数据集上获得的准
确率都很不错,综合来看,结果还是得到了不错的改善。这些结果表明,与传统方法相比,本
文所提出的模型是有效的。
上仍能保持一个较高的准确率,由此可见,生成模型可以为不可见类别生成高质量的特征,
以缓解由于缺乏看不见的特性而产生的限制,实现良好的性能。精度越高,可见类和不可见
类之间的平衡就越好,从而得到更高的谐波平均值。显示了现有生成方法在大多数数据集
上的优势,表明本发明方法的生成模型对可见类的偏差较小。这是因为可见类的原始语义
特征经过语义纠错之后,生成了更加具有区别性的视觉特征。尤其是u上,在所有数据集上
都有显著提高,说明为不可见类生成特征。本发明方法在可见类和不可见类的精度上表现
出了良好的平衡,表明可见类和不可见类之间的域偏移得到了缓解。此外,本发明方法的模
型在准确率u和准确率s结果之间表现出了更好的平衡,表明比现有的转换方法更少地偏向
不可见的类别。值得注意的是,大多数现有的ZSL 方法对于可见类的性能很好,但对于不可
见类的性能很差,这表明这些方法对可见类有很强的偏见。本发明方法的模型可以缓解可
见类和不可见类之间的差距,可见类和不可见类之间的准确率得到了提高,并且在精度上
取得了更好的平衡。
更易于区分。提出了一个联合生成模型SR‑WGAN用于零样本学习,将ZSL问题转化为传统的
监督任务。该模型结合了流行的生成模型WGAN,为不可见类生成基于类级语义嵌入的特征。
本发明所设计的语义纠错网络SR,在图片真实视觉特征的引导下,将语义空间修正为更合
理的语义空间。ZSL的主要障碍是难以保证视觉空间的分布与语义空间的对应。具体来说,
模糊的类属性和描述不仅使模型混乱,而且难以产生令人信服的视觉特征。利用纠错网络
SR将对视觉空间和语义空间之间的类结构进行纠错,这样原始特征空间中过于拥挤的语义
特征在经过修正后,变得更容易区分。模型无缝地将一个WGAN与一个分类损失结合,能够生
成有区别性的CNN特征来训练softmax分类器或任何多模态嵌入方法。该分类器根据所见类
的实际特征进行预训练。分类损失可以看作是一个正则化器,强制生成器构造根据有判别
性的特征。我们的实验结果表明,在零样本学习和广义零样本学习设置下,在四个具有挑战
性的数据集(CUB,APY,SUN, AWA)上的精确度都得到了提升。
视为本发明的保护范围。