一种基于语义纠错下生成对抗网络的零样本学习方法转让专利

申请号 : CN202110701351.5

文献号 : CN113378959B

文献日 : 2022-03-15

本发明公开了一种基于语义纠错下生成对抗网络的零样本学习方法，将语义纠错网络(SR)和WGAN结合起来，用修正后的语义特征和原始语义特征以及随机噪声去生成更高质量的特征，进而实现零样本学习分类问题。首先，预先训练一个语义纠错网络(SR)，对语义空间进行带有语义损失和结构损失的修正。然后，结合流行的生成模型WGAN，基于原始语义特征和修正后的语义特征以及随机噪声为不可见类生成视觉特征，模型无缝地将一个WGAN与一个分类损失结合，能够生成有区别性的CNN特征来训练softmax分类器。实验结果表明，该方法在四个基准数据集上的性能都得到了一定的提升，且优于现有一些方法的研究水平。

1.一种基于语义纠错下生成对抗网络的零样本学习方法，其特征在于，包括：步骤1：在语义纠错网络SR中，利用参照视觉空间去修正原始语义空间，将可见类的原始语义特征和对应类别的视觉特征送入纠错网络里，对视觉特征和原始语义特征做归一化处理，采用ResNet101提取好的视觉特征去计算视觉中心向量pc；

其中，Nc是类别c的实例数，是类别c的第i个视觉特征；

步骤2：建立语义纠错网络模型，该网络由两层全连接层构成，输入层由sigmoid激活函数激活，输出层由LeakyReLU激活函数激活；

步骤3：首先，获取待分析数据，导入数据集的视觉特征矩阵、原始语义特征矩阵、标签；

由于数据集里的视觉特征矩阵里的样本不同类别的特征存放的顺序是打乱的，每一类样本的个数也是未知的；

步骤4：先从标签列表中计算每一类样本的个数，再用标签的位置索引去提取视觉特征矩阵里每一类别样本的特征，再去计算相应每一类别的样本的特征均值，最后得到一个视觉中心向量矩阵P；

步骤5：利用余弦相似度函数δ来计算视觉中心向量对与语义特征之间的相似度；

步骤6：先计算视觉中心向量两两之间的余弦相似度δ(pi,pj)，直接采用余弦矩阵函数计算视觉中心向量矩阵P的余弦相似度；

步骤7：再计算修正后语义特征两两之间的余弦相似度δ(R(si),R(sj))，采用余弦矩阵函数计算纠正后的语义特征矩阵的余弦相似度；

步骤8：由视觉中心向量矩阵的余弦相似度减去纠正后的语义特征矩阵的余弦相似度再求L2范数，从而得到一个修正后的语义特征与视觉特征之间的直接距离的结构损失；

步骤9：计算原始语义特征与修正后语义特征之差，对矩阵再求均值，再计算L2范数，从而得到一个衡量修正前后语义之间的信息损耗的语义损失；

步骤10：构造损失函数：将结构损失和语义损失加起来构成修正网络的总损失LR；

其中|c |是可见类别的数量，s是原始语义特征，R(s)是修正之后的语义特征，δ是余弦相似度函数，是语义特征s的期望均值，公式中的第一项是表示修正后的语义特征与视觉特征之间的直接距离的结构损失，第二项是语义损失，衡量修正前后语义之间的信息损耗；

步骤11：利用梯度下降法对总损失LR进行优化，纠错网络训练结束之后，固定好纠错网络的参数；

步骤12：训练softmax分类器来学习分类器，即使用生成的特征允许在真实的可视类数据和生成的不可见类数据的组合训练；其中，使用标准的softmax分类器最小化负对数似然损失：

其中，是全连接层的权重矩阵，它将图像特征映射成n个类别的非正规概率，n表示类别的数目，v是视觉特征，y是类别标签，Τ是类别总数目；P(y|v；θ)表示图像特征被预测为真实标签的概率；

其中，是第i个类别的权重，表示预测类别y的权重，P(y|x；θ)计算的是样本被预测为每一个类别的概率；最终的分类预测函数为：输出概率值最大的类别作为预测类别；在常规零样本学习ZSL中，测试仅仅用到不可见u u

类别，y∈y ，y表示测试类别标签，y 表示不可见类别的标签集合；在广义零样本学习GZSLu s s

中，测试时可见类和不可见类别都被使用，y y y ，y 表示可见类别的标签集合；softmax分类器是在可见类的真实视觉特征上预训练好的；

步骤13：训练生成对抗网络，采样若干原始语义特征s，修正之后的语义特征R(s)，随机噪声z送入生成对抗网络的生成器G里去生成特征，固定生成器G，训练判别器D；

步骤14：训练好判别器D之后，再训练生成器G；采样一小批量的原始语义特征s，纠错后的语义特征R(s)，随机噪声z，固定判别器D，训练生成器G；

其中，LWGAN表示生成对抗网络的损失，D(v,s)表示将视觉特征v和原始语义特征s送到判别器网络D所产生的结果，表示将合成视觉特征和原始语义特征s送进判别器网络D所产生的结果，表示的梯度，表示和原始语义特征s送进判别器网络D所产生的结果，表示由生成器G合成的特征；其中α∈U(0,1)，U(0,1)表示区间(0,1)；λ表示梯度惩罚系数，E表示期望均值；最终优化目标是：其中，β是一个超参数表示分类损失的权重，公式第一项是WGAN自身损失LWGAN，第二项中表示分类损失，其中表示被预测为真实标签的概率，表示合成视觉特征的期望均值，这个条件概率是由一个参数化为θ的线性softmax分类器计算，改分类器由可见类的实际特征进行预训练；利用上述公式更新G；

步骤15：训练完成后，输出类别标签，计算分类准确率。

一种基于语义纠错下生成对抗网络的零样本学习方法

技术领域

[0001] 本发明属于深度学习领域，用于处理图像分类问题，特别涉及了一种零样本图像分类方法。

背景技术

[0002] 随着图像处理和计算机视觉的快速发展，深度学习以其强大的数据表示能力获得了极大的普及。然而，训练深层神经网络需要大量的注释数据，获取这些数据就需要耗费昂
贵的人力和物力。此外，由于不断观察到新的数据类别，许多类别缺乏足够的训练数据。针
对上述问题，零样本学习(zero‑shot learning,ZSL)提供了一个实用的解决方案。目标识
别的经典模式将图像分类为只有在训练阶段才会看到的类别，而零样本学习 (zero‑shot
learning,ZSL)的目标是探索不可见的图像类别，与传统的监督学习不同，ZSL 考虑了一种
极端情况，即在训练期间测试数据完全不可用，即训练(可见)类和测试(不可见)类是完全
没有交集的。通过建立可见类和不可见类之间的关系，已经进行了许多尝试来解决ZSL问
题。现有的零样本学习方法可以大致分为三类：基于属性预测的方法，基于嵌入空间的方
法，基于样本生成的方法。

[0003] 基于属性预测的方法有直接属性预测(DirectAttribute Prediction,DAP)以及间接属性预测(IndirectAttribute Prediction,IAP)等。第一阶段预测输入图像的属性，
然后通过搜索获得最相似属性集的类来推断其类标签。DAP首先通过学习概率属性分类器
对图像的每个属性进行后验估计。然后，它计算类的后验值，并使用映射预测类标签。IAP则
相反，首先预测可见类的类的后验值，然后使用每个类的概率计算图像的属性后验。

[0004] 基于嵌入空间的很多方法都是研究学习从图像特征空间到语义空间的映射，然后采用最近邻分类器将数据分配到相应的类。像属性标签嵌入(Attribute Label
Embedding， ALE)、语义自动编码器(semantic autoencoder，SAE)、深度视觉语义嵌入
(Deep Visual Semantic Embedding，DeVISE)、结构联合嵌入(Structured Joint
Embedding，SJE)则是使用双线性兼容函数将视觉信息和辅助信息关联起来。ALE最先利用
排序损失学习了图像和属性空间的双线性兼容函数，使用加权近似排序目标进行零样本学
习。DeVISE学习了图像和语义空间之间的线性映射，使用高效的排名损失公式，并在大规模
ImageNet 数据集上进行了评估。基于对排序损失的改进，SAE同样也学习了从图像嵌入空
间到类别嵌入空间的线性投影，但进一步限制了投影必须能够重构原始图像嵌入。SJE给出
了排名第一的全部权重，灵感来自于结构化支持向量机SVM。在SJE的双线性兼容模型的基
础上，潜在嵌入(Latent Embeddings，LatEm)将原模型扩展为分段线性模型，构造了分段性
线性兼容性，学习数据的不同视觉特征的多个线性映射W。交叉迁移(Cross Modal
Transfer，CMT)不需要学习多个映射，使用一个带有两个隐含层的神经网络学习从图像特
征空间到word2vec空间的非线性投影，需要学习的两个映射就是两层神经网络的权重。语
义相似度嵌入(Semantic Similarity Embedding，SSE)、语义嵌入凸组合(Convex
Combination of Semantic Embeddings，CONSE)和综合分类器(Synthesized
Classifiers， SYNC)都是混合模型，将图像和语义类嵌入作为可见类比例的混合。

[0005] 基于样本生成的方法能够生成与真实特征分布相似的特征，可以很好地替代缺失的不可见类的特征，有效地缓解了领域漂移问题。最近许多生成模型，如生成对抗网络
((generative adversarial networks,GANs)和变分自编码器(Variational
autoencoder,VAE)，也被提出用于各种任务(如图像风格迁移，跨模态检索，领域适应和迁
移学习)。

[0006] 语义嵌入(语义属性和词向量)作为视觉空间和类空间之间的桥梁，已被广泛使用。然而，相似类的人为定义的属性高度重叠，容易出现故障预测。而且，这些方法常常受到
“领域漂移”问题的限制。这将导致传统的ZSL任务对不可见类的分类性能较差，更不用说更
具挑战性的广义ZSL(GZSL)任务。受生成对抗网络生成能力的启发，利用GANs 从语义特征
和噪声样本中生成合成的视觉特征，通过为看不见的类生成缺失的特征，将 ZSL转换为一
个传统的分类问题，并且可以使用一些经典的方法，如最近邻。

发明内容

[0007] 发明目的：针对上述现有技术，提出一种基于语义纠错下生成对抗网络的零样本学习方法，将语义纠错网络(SR)和WGAN结合起来，用修正后的语义特征和原始语义特征以
及随机噪声去生成更高质量的特征。

[0008] 技术方案：一种基于语义纠错下生成对抗网络的零样本学习方法，包括：

[0009] 步骤1：在语义纠错网络SR中，利用参照视觉空间去修正原始语义空间，将可见类的原始语义特征和对应类别的视觉特征送入纠错网络里，对视觉特征和原始语义特征做归
一化处理，采用ResNet101提取好的视觉特征去计算视觉中心向量pc；

[0010]

[0011] 其中，Nc是类别c的实例数，是类别c的第i个视觉特征；

[0012] 步骤2：建立语义纠错网络模型，该网络由两层全连接层构成，输入层由sigmoid 激活函数激活，输出层由LeakyReLU激活函数激活；

[0013] 步骤3：首先，获取待分析数据，导入数据集的视觉特征矩阵、原始语义特征矩阵、标签；由于数据集里的视觉特征矩阵里的样本不同类别的特征存放的顺序是打乱的，每一
类样本的个数也是未知的；

[0014] 步骤4：先从标签列表中计算每一类样本的个数，再用标签的位置索引去提取视觉特征矩阵里每一类别样本的特征，再去计算相应每一类别的样本的特征均值，最后得到一
个视觉中心向量矩阵P；

[0015] 步骤5：利用余弦相似度函数δ来计算视觉中心向量对与语义特征之间的相似度；

[0016] 步骤6：先计算视觉中心向量两两之间的余弦相似度δ(pi,pj)，直接采用余弦矩阵函数计算视觉中心向量矩阵P的余弦相似度；

[0017] 步骤7：再计算修正后语义特征两两之间的余弦相似度δ(R(si),R(sj))，采用余弦矩阵函数计算纠正后的语义特征矩阵的余弦相似度；

[0018] 步骤8：由视觉中心向量矩阵的余弦相似度减去纠正后的语义特征矩阵的余弦相似度再求L2范数，从而得到一个修正后的语义特征与视觉特征之间的直接距离的结构损
失；

[0019] 步骤9：计算原始语义特征与修正后语义特征之差，对矩阵再求均值，再计算L2 范数，从而得到一个衡量修正前后语义之间的信息损耗的语义损失；

[0020] 步骤10：构造损失函数：将结构损失和语义损失加起来构成修正网络的总损失LR；

[0021]

[0022] 其中|cs|是可见类别的数量，s是原始语义特征，R(s)是修正之后的语义特征，δ是余弦相似度函数，是语义特征s的期望均值，公式中的第一项是表示修正后的语义特征
与视觉特征之间的直接距离的结构损失，第二项是语义损失，衡量修正前后语义之间的信
息损耗；

[0023] 步骤11：利用梯度下降法对总损失LR进行优化，纠错网络训练结束之后，固定好纠错网络的参数；

[0024] 步骤12：训练softmax分类器来学习分类器，即使用生成的特征允许在真实的可视类数据和生成的不可见类数据的组合训练；其中，使用标准的softmax分类器最小化负对数
似然损失：

[0025]

[0026] 其中，是全连接层的权重矩阵，它将图像特征映射成n个类别的非正规概率，n表示类别的数目，v是视觉特征，y是类别标签，Τ是类别总数目；P(y|v；θ)表示图像特
征被预测为真实标签的概率；

[0027]

[0028] 其中，是第i个类别的权重，表示预测类别y的权重，P(y|x；θ)计算的是样本被预测为每一个类别的概率；最终的分类预测函数为：

[0029]

[0030] 输出概率值最大的类别作为预测类别；在常规零样本学习ZSL中，测试仅仅用到不u u
可见类别，y∈y ，y表示测试类别标签，y 表示不可见类别的标签集合；在广义零样本学习
u s s
GZSL中，测试时可见类和不可见类别都被使用，y y y ，y 表示可见类别的标签集合；
softmax分类器是在可见类的真实视觉特征上预训练好的；

[0031] 步骤13：训练生成对抗网络，采样若干原始语义特征s，修正之后的语义特征R(s)，随机噪声z送入生成对抗网络的生成器G里去生成特征，固定生成器G，训练判别器D；

[0032] 步骤14：训练好判别器D之后，再训练生成器G；采样一小批量的原始语义特征s，纠错后的语义特征R(s)，随机噪声z，固定判别器D，训练生成器G；

[0033]

[0034] 其中，LWGAN表示生成对抗网络的损失，D(v,s)表示将视觉特征v和原始语义特征s 送到判别器网络D所产生的结果，表示将合成视觉特征和原始语义特征s送进判别
器网络D所产生的结果，表示的梯度，表示和原始语义特征s送进判别器网络D
所产生的结果，表示由生成器G合成的特征；其中α∈U(0,
1)，U(0,1)表示区间(0,1)；λ表示梯度惩罚系数，E表示期望均值；最终优化目标是：

[0035]

[0036] 其中，β是一个超参数表示分类损失的权重，公式第一项是WGAN自身损失LWGAN，第二项中表示分类损失，其中表示被预测为真实标签
的概率，表示合成视觉特征的期望均值，这个条件概率是由一个参数化为θ的线性
softmax分类器计算，改分类器由可见类的实际特征进行预训练；利用上述公式更新G；

[0037] 步骤15：训练完成后，输出类别标签，计算分类准确率。

[0038] 有益效果：本发明将语义纠错网络(SR)和WGAN结合起来，用修正后的语义特征和原始语义特征以及随机噪声去生成更高质量的特征，进而实现零样本学习分类问题。首先，
预先训练一个语义纠错网络(SR)，对语义空间进行带有语义损失和结构损失的修正。然后，
结合流行的生成模型WGAN，基于原始语义特征和修正后的语义特征以及随机噪声为不可见
类生成视觉特征，模型无缝地将一个WGAN与一个分类损失结合，能够生成有区别性的CNN特
征来训练softmax分类器。实验结果表明，该方法在四个基准数据集上的性能都得到了一定
的提升，且优于现有一些方法的研究水平。

附图说明

[0039] 图1是语义纠错网络结构图；

[0040] 图2是语义纠错生成对抗网络结构图；

[0041] 图3是本发明方法与三种现有方法的收敛曲线对比图。

具体实施方式

[0042] 下面结合附图对本发明做更进一步的解释。

[0043] 如图1所示，本发明设计了语义纠错网络(SR)，对视觉空间和语义空间之间的类结构进行纠错处理。SR由一个由激活的多层感知器(MLP)组成，输入层由Leaky ReLU激活，输
出层为Sigmoid激活。

[0044] 步骤如下：

[0045] 步骤1：首先，导入数据集的视觉特征矩阵、原始语义特征矩阵、标签，由于数据集里的视觉特征矩阵里的样本不同类别的特征存放的顺序是打乱的，每一类样本的个数也是
未知的。

[0046] 步骤2：设置学习率lr。

[0047] 步骤3：构建纠正网络的网络模型结构，该网络由两层全连接层构成，输入层由 Sigmoid激活函数激活，输出层由Leaky ReLU激活函数激活。

[0048] 步骤4：对视觉特征和原始语义特征做归一化处理，将原始语义特征送进修正网络里，采用ResNet101提取好的视觉特征去计算视觉中心向量pc。

[0049]

[0050] 其中，Nc是类别c的实例数，是类别c的第i个视觉特征。

[0051] 步骤5：先从标签列表中计算每一类样本的个数，再用标签的位置索引去提取视觉特征矩阵里每一类别样本的特征，再去计算相应每一类别的样本的特征均值，最后得到一
个视觉中心向量矩阵P。

[0052] 步骤6：利用余弦相似度函数δ来计算视觉中心向量对与语义特征之间的相似度。

[0053] 步骤7：先计算视觉中心向量两两之间的余弦相似度δ(pi,pj)，直接采用余弦矩阵函数计算视觉中心向量矩阵P的余弦相似度。

[0054] 步骤8：再计算修正后语义特征两两之间的余弦相似度δ(R(si),R(sj))，采用余弦矩阵函数计算纠正后的语义特征矩阵的余弦相似度。

[0055] 步骤9：由视觉中心向量矩阵的余弦相似度减去纠正后的语义特征矩阵的余弦相似度再求L2范数，从而得到一个修正后的语义特征与视觉特征之间的直接距离的结构损
失。

[0056] 步骤10：计算原始语义特征与修正后语义特征之差，对矩阵再求均值，再计算L2 范数，从而得到一个衡量修正前后语义之间的信息损耗的语义损失。

[0057] 步骤11：构建损失函数：将上述的结构损失和语义损失加起来就构成了修正网络的总损失LR。

[0058]s

[0059] 其中|c|是可见类别的数量。s是原始语义特征，R(s)是修正之后的语义特征，是原始语义特征s的期望均值，δ是余弦相似度函数，公式中的第一项是表示修正后的语义
特征与视觉特征之间的直接距离的结构损失，第二项是语义损失，衡量修正前后语义之间
的信息损耗。

[0060] 步骤12：利用梯度下降法对步骤11的损失进行更新优化，当损失几乎不再下降，趋于稳定时，即纠错网络训练结束之后，固定好纠错网络的参数。

[0061] 如图2所示，本发明设计的模型结合了生成对抗网络，有一个生成器G和一个判别器D，生成器有三种类型的输入，即原始语义特征s，修正语义特征R(s)和从正态分布中采样
的随机向量z。生成器G和判别器D都是由MLP组成。生成器G由一个包含 4096个隐藏单元的
三层隐藏层组成。它的输入层由LeakyReLU激活，它的输出层是由 ReLU激活。判别器D也是
由一个包含4096个隐藏单元的三层隐藏层组成，它的输入层由LeakyReLU激活，输出层是线
性函数。

[0062] (1)加载数据集，获取待分析数据，实验使用了四个数据集：Animals WithAttributes(AWA)，Caltech‑UCSD‑Birds 200‑2011(CUB)和SUNAttribute(SUN)，Attribute
Pascal andYahoo(aPY)。

[0063] (2)随机初始化生成器G和判别器D的权重W和偏置b，权重W的初始化范围在(0.0,0.02)，偏置b的初始化范围在(0.02,1.0)。

[0064] (3)定义样本，原始语义特征s，修正语义特征R(s)和从正态分布中采样的随机向量z，视觉特征v。

[0065] (4)定义合成特征，原始语义特征s，修正语义特征R(s)和从正态分布中采样的随机向量z作为生成器G的输入，生成器G的输出就是合成特征。

[0066] (5)为训练生成对抗网络设置优化器，采用Adam optimizer去优生成器G和判别器D，学习率lr，优化器中参数beta设置为0.999，beta为指数衰减率，控制权重分配 (动量与
当前梯度)，通常取接近于1的值。

[0067] (6)定义生成对抗网络的梯度惩罚项：

[0068]

[0069] 其中, 表示的梯度，表示和原始语义特征送s进判别器网络D所产生的结果；表示由生成器G合成的特征；其中α∈U(0,1)，U(0,
1)表示区间(0,1)，λ是梯度惩罚系数,E表示的期望均值。

[0070] (7)在可见类别上预先训练softmax分类器来学习分类器，即使用生成的特征允许在真实的可见类数据和生成的不可见类数据的组合训练。

[0071] (8)定义训练数据和测试数据，批次大小，迭代次数。设置相关参数：学习率 lr＝0.0005,beta1＝0.5,nepoch＝54,batchsize＝64。

[0072] (9)定义模型softmax分类器，对权重和偏置进行随机初始化。

[0073] (10)设置优化器，同样使用采用Adam optimizer，学习率lr，优化器中参数beta 为指数衰减率，控制权重分配(动量与当前梯度)，通常取接近于1的值，设置beta 为0.999。

[0074] (11)构建损失函数：分类器的损失使用标准的softmax分类器的最小化负对数似然损失：

[0075]

[0076] 其中，是全连接层的权重矩阵，它将图像特征映射成n个类别的非正规概率，dv表示视觉特征的维度，这里是2048维特征，n表示类别的数目；v是视觉特征， y是类别
标签，Τ是类别总数目；P(y|v；θ)表示图像特征被预测为真实标签的概率。

[0077]

[0078] 其中，n是类别数目，是第i个类别的权重，表示预测类别y的权重；P(y|x；θ) 计算的是样本被预测为每一个类别的概率。最终的分类预测函数为：

[0079]

[0080] 输出概率值最大的类别作为预测类别。在常规零样本学习ZSL中，测试仅仅用到不u u
可见类别，y∈y y表示测试类别标签，y 表示不可见类别的标签集合。在广义零样本学习
u s s
GZSL中，测试时可见类和不可见类别都被使用，y y y ,y 表示可见类别的标签集合；
softmax分类器是在可见类的真实视觉特征上预训练好的。

[0081] (12)通过Adam优化器对步骤(11)的损失进行更新优化，直到损失几乎不再下降或在一个很小的范围内波动时。

[0082] (13)训练好分类器之后，在训练生成对抗网络的时候固定分类器，固定分类器的参数：学习率lr＝0.0005,beta1＝0.5,nepoch＝54,batchsize＝64，分类器的权重矩阵θ。

[0083] (14)训练生成对抗网络，首先训练判别器D，训练次数为五次。采样一小批量的原始语义特征s，纠错后的语义特征R(s)，随机噪声z送入生成对抗网络的生成器G里去生成特
征，固定生成器G的参数,训练判别器D。

[0084]

[0085] 其中，LD表示判别器D损失，D(v,s)表示将视觉特征v和原始语义特征s送到判别器网络D所产生的结果，表示将合成视觉特征和原始语义特征s送进判别器网络D所产
生的结果，表示的梯度，表示和原始语义特征s送进判别器网络 D所产生的结
果。表示由生成器合成的特征；其中α∈U(0,1)，U(0,1)表
示区间(0,1)；λ表示梯度惩罚系数，一般取值为10；E表示期望均值；通过LD更新判别器D。

[0086] (15)训练好判别器D之后，再训练生成器G。采样一小批量的原始语义特征s，纠错后的语义特征R(s)，随机噪声z，固定判别器D，训练生成器G。

[0087]

[0088] LWGAN表示生成对抗网络的损失，D(v,s)表示将视觉特征v和原始语义特征s送到判别器网络D所产生的结果，表示将合成视觉特征和原始语义特征s送进判别器网络D
所产生的结果，表示的梯度，表示和原始语义特征s送进判别器网络D所产生的
结果，表示由生成器G合成的特征；其中α∈U(0,1)，U(0,1)
表示区间(0,1)；λ表示梯度惩罚系数，E表示期望均值；最终优化目标是：

[0089]

[0090] 其中，这里β是一个超参数表示分类损失的权重，公式第一项就是WGAN自身损失LWGAN，第二项中表示分类损失，其中 y 是合成
视觉特征的类别标签，表示被预测为真实标签的概率。这个条件概率是由一个
参数化为θ的线性softmax分类器计算，该分类器由可见类的实际特征进行预训练。利用上
述公式更新生成器G。

[0091] (16)网络训练完成之后，输出类别标签，得到分类准确率。

[0092] (17)实验准备：本发明方法采用四个标准数据集。本发明方法的实验是在AnimalsWith Attributes(AWA)，Caltech‑UCSD‑Birds 200‑2011(CUB)和SUN Attribute(SUN)，
Attribute Pascal andYahoo(aPY)四个数据集上进行的。CUB和SUN均为细粒度数据集。
CUB包含了来自200种不同鸟类的11788张图片，标注了312个属性。属性Pascal和 Yahoo
(APY)包含15339张图片，32个类和64个属性。SUN包含了来自717个场景的 14340张图片，标
注了102个属性。最后，动物属性(AWA)是一个粗粒度数据集，包含 30475个图像，50个类和
85个属性。AWA2包含了来自50个种类的37322张动物图片。

[0093] (18)数据集的划分：AWA数据集，采用了40个类别进行训练，10个类别进行测试，随机选择训练集中的13类进行验证。对于CUB数据集，使用150个类别进行训练(50 个类别进
行验证)，50个类别进行测试。对于APY数据集,20个Pascal类别用于训练， 12个Yahoo类别
用于测试。对于SUN数据集，使用707个类进行训练，10个类进行测试。对于视觉特征v，四个
数据集都采用的是由ResNet 101提取的2048维特征。

[0094] (19)对比方法：分别在常规零样本学习和广义零样本学习的设置下在数据集上进行了相应的实验，并与一些现有的典型方法的结果进行了对比。直接属性预测(Direct
Attribute Prediction,DAP)，间接属性预测(IndirectAttribute Prediction,IAP)，属性
标签嵌入(Attribute Label Embedding，ALE)、语义自动编码器(semantic autoencoder，
SAE)、深度视觉语义嵌入(Deep Visual Semantic Embedding，DeVISE)、结构联合嵌入
(Structured Joint Embedding，SJE),交叉迁移(Latent Embeddings，LatEm)，浅层嵌入
(Cross Modal Transfer，CMT)语义相似度嵌入(Semantic Similarity Embedding，SSE)、
语义嵌入凸组合 (Convex Combination of Semantic Embeddings，CONSE)和综合分类器
(Synthesized Classifiers，SYNC)。首先在常规零样本学习设置下在五个数据集上分别进
行实验，将本发明所提出的方法与现有的一些先进ZSL方法的实验结果进行了比较。DAP首
先通过学习概率属性分类器对图像的每个属性进行后验估计。然后，它计算类的后验值，并
使用映射预测类标签。IAP则相反，首先预测可见类的类的后验值，然后使用每个类的概率
计算图像的属性后验。用多类分类器预测可见类的后验类。ALE利用排序损失学习了图像和
属性空间的双线性兼容函数，使用加权近似排序目标进行零样本学习。DeVISE 学习了图像
和语义空间之间的线性映射，使用高效的排名损失公式，并在大规模 ImageNet数据集上进
行了评估。SJE给出了排名第一的全部权重，灵感来自于结构化支持向量机SVM，由于必须计
算所有分类器的得分后才能进行预测，即找出最大违例类，这使得SJE的效率要低于DeVISE
和ALE。基于对排序损失的改进，ESZSL在排序公式中使用平方损失，并在非正则化风险最小
化公式中添加了一种隐式正则化，明确规范了目标w.r.t Frobenius范数，这种方法的优点
在于目标函数是凸的，有一个封闭的形式的解。SAE同样也学习了从图像嵌入空间到类别嵌
入空间的线性投影，但进一步限制了投影必须能够重构原始图像嵌入。在SJE的双线性兼容
模型的基础上，LatEm将原模型扩展为分段线性模型，构造了分段性线性兼容性，通过学习
数据的不同视觉特征的多个线性映射W，潜在的变量就在于选择那个矩阵去映射。CMT不需
要学习多个映射，使用一个带有两个隐含层的神经网络学习从图像特征空间到word2vec,
空间的非线性投影，需要学习的两个映射就是两层神经网络的权重。SSE使用可见类比例的
混合作为公共空间，认为属于同一类的图像应该有相似的混合模式。语义嵌入凸组合CONSE
首先学习一个训练图像属于一个训练类的概率将图像特征投影到Word2vec空间，然后通过
取最上面t个最可能看到的类的凸组合，使用语义嵌入的组合将未知图像分配给一个不可
见得类。

[0095] (20)参数设置：所提方法在整个实验中：本发明方法是基于PyTorch实现，随机初始化其网络权重从头训练。整个训练使用mini‑batch，采用Adam optmizer进行参数更新，
其beta设置为0.999，学习率手动设置。梯度惩罚系数λ在所有数据集使用λ＝10。超参数β是
分类损失的权重系数，在实验里，分别设置β＝0.001,0.01,0.1,1,10，也表明了随着β的增
加准确率会随之降低。实验表明，在四个数据集上，β取0.01时结果最好，因为β控制着分类
损失LCLS的大小,而分类损失又是总损失的一部分，β过小会使分类损失对特征生成的贡献
十分有限，过大的权重反而使训练过程不稳定。生成的特征相对越多，准确率就越高。合成
特征数k，实验证明，合成特征数量越多，准确率越高。在CUB 数据集上，合成特征数量k＝
300时，结果最佳，之后增加合成特征数量，准确率也基本不再上升。在SUN数据集上，合成特
征数量k＝100时就已将取得了较好的结果，之后再增加也基本不会提升了，说明生成的特
征质量已经很高了。对于噪声维度d，当d远远低于语义空间的维数时，即d＝64，性能明显下
降。同样，高潜在维数也会导致精度的降低。因此，根据语义空间的维度来确定潜在维度是
非常重要的。潜在维数过低可能导致潜在表示所捕获的真实特征的内在信息不足，相反，潜
在维数过高可能导致高斯分布产生过多的噪声干扰。

[0096] 在常规零样本ZSL设置下，本发明所提出的方法，即‘Proposed’，在五个数据集上都取得了不错的效果。在AWA1数据集上的结果达到了66.2％，明显优于现有的一些方法，从
65.6％到66.2％，结果比SJE的方法提升了0.6％。在AwA2数据集上，实验结果相比较其他方
法是最好的，准确率达到了66.7％，从61.9％到66.7％，相比较SJE的方法还提升了4.8％。
在CUB数据集上，实验结果达到了55.1％，虽然没有超过SYNC的 55.6％，但是也是高于大部
分其它方法的结果。对于SUN数据集，取得的结果59.3％，准确率从58.1％到59.3％，比ALE
上的结果还提升了1.2％。而在APY数据集上，取得的实验结果是39.9％，实验结果也是几种
方法里最好的，相比较ALE和DEVISE方法的39.7％和39.8，实验结果得到了0.1％的提升。虽
然单一来看，并不是在每一个数据集上的实验结果最佳的，在AwA1数据集、AWA2数据集和
SUN数据集以及APY数据集上结果最佳，都得到了小一定幅度的提升，虽然CUB数据集上结果
略低于SYNC上的结果，但是相比较其他方法，本文所提出的方法在四个数据集上获得的准
确率都很不错，综合来看，结果还是得到了不错的改善。这些结果表明，与传统方法相比，本
文所提出的模型是有效的。

[0097] 表1：传统零样本学习设置下，本发明方法与现有其它方法在五种数据集上的top‑1准确率(％)

[0098]

[0099] 在广义零样本学习的设置下，由表2可知，本发明所提方法明显优于现有的一些其它方法，在四个数据集上都取得了很不错的结果。在提高不可见类准确率的同时，在可见类
上仍能保持一个较高的准确率，由此可见，生成模型可以为不可见类别生成高质量的特征，
以缓解由于缺乏看不见的特性而产生的限制，实现良好的性能。精度越高，可见类和不可见
类之间的平衡就越好，从而得到更高的谐波平均值。显示了现有生成方法在大多数数据集
上的优势，表明本发明方法的生成模型对可见类的偏差较小。这是因为可见类的原始语义
特征经过语义纠错之后，生成了更加具有区别性的视觉特征。尤其是u上，在所有数据集上
都有显著提高，说明为不可见类生成特征。本发明方法在可见类和不可见类的精度上表现
出了良好的平衡，表明可见类和不可见类之间的域偏移得到了缓解。此外，本发明方法的模
型在准确率u和准确率s结果之间表现出了更好的平衡，表明比现有的转换方法更少地偏向
不可见的类别。值得注意的是，大多数现有的ZSL 方法对于可见类的性能很好，但对于不可
见类的性能很差，这表明这些方法对可见类有很强的偏见。本发明方法的模型可以缓解可
见类和不可见类之间的差距，可见类和不可见类之间的准确率得到了提高，并且在精度上
取得了更好的平衡。

[0100] 表2：广义零样本学习设置下，本发明方法与现有其它方法在四种数据集上的top‑1准确率(％)

[0101]

[0102] 本发明提出了一种新的生成式零样本学习方法，该方法在语义修正网络(SR)产生的语义特征中综合去为不可见类产生视觉特征。语义修正网络是用来矫正语义特征，使其
更易于区分。提出了一个联合生成模型SR‑WGAN用于零样本学习，将ZSL问题转化为传统的
监督任务。该模型结合了流行的生成模型WGAN，为不可见类生成基于类级语义嵌入的特征。
本发明所设计的语义纠错网络SR，在图片真实视觉特征的引导下，将语义空间修正为更合
理的语义空间。ZSL的主要障碍是难以保证视觉空间的分布与语义空间的对应。具体来说，
模糊的类属性和描述不仅使模型混乱，而且难以产生令人信服的视觉特征。利用纠错网络
SR将对视觉空间和语义空间之间的类结构进行纠错，这样原始特征空间中过于拥挤的语义
特征在经过修正后，变得更容易区分。模型无缝地将一个WGAN与一个分类损失结合，能够生
成有区别性的CNN特征来训练softmax分类器或任何多模态嵌入方法。该分类器根据所见类
的实际特征进行预训练。分类损失可以看作是一个正则化器，强制生成器构造根据有判别
性的特征。我们的实验结果表明，在零样本学习和广义零样本学习设置下，在四个具有挑战
性的数据集(CUB,APY,SUN, AWA)上的精确度都得到了提升。

[0103] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应
视为本发明的保护范围。

一种基于语义纠错下生成对抗网络的零样本学习方法转让专利

申请号 : CN202110701351.5

文献号 : CN113378959B

文献日 : 2022-03-15

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 潘杰 , 李赛男 , 邹筱瑜

申请人 : 中国矿业大学

摘要 :

权利要求 :

说明书 :