一种基于迭代优化的局部感知图表示学习方法转让专利

申请号 : CN202210671735.1

文献号 : CN115392474B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王丹穆京京李源源崔振许海燕高阳特

申请人 : 南京理工大学北京空间飞行器总体设计部

摘要 :

本发明公开了一种基于迭代优化的局部感知图表示学习方法,在每次迭代过程中,通过将全局统计标签图和个体标签分布图进行融合,为每个图像样本动态地构建不同的标签图,实现标签节点之间相关性的自适应。对每个图像学习特定的节点特征表示,同时利用过去的预测结果作为指导,来预测图像的多标签。并且,在迭代优化的模型框架中,通过构建重复的网络模块,实现了多标签预测结果的从粗糙到精细的优化过程。本发明采用上述的一种基于迭代优化的局部感知图表示学习方法,可以实现更加鲁棒的多标签预测。

权利要求 :

1.一种基于迭代优化的局部感知图表示学习方法,其特征在于,步骤如下:S1、把待预测的图片集合和一个随机初始化的多标签集合输入到网络框架中;

S2、循环迭代地优化多标签预测结果;

在每个模块中,优化多标签预测结果的过程包括基于变分推理的显著性区域选择、局部依赖性的标签相关性矩阵构建、图的特征学习、基于历史信息指导的全局/局部分支的联合学习;

基于变分推理的显著性生成过程如下:

(1)对于输入的图像Mi,首先通过RPN检测到多个ROIs,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域;

(2)建模区域和多标签分类任务之间复杂的条件分布p(ti|Li,si),通过变分推理的方法来为区域学习自适应的权重因子,其中si为第i个图像真实的标签向量, 是第i个图像上检测出的Ki个区域特征, 是相关性向量,每个元素tij表示第j个区域与任务的相关性;

将ti进行降序处理,根据降序后的索引,选取出对应的N个固定数量的区域,将前N个最大的相关性权重与对应的区域特征进行相乘,生成显著性区域的特征Vi=[vi1,...,viN],公式如下:vij=tij×lij,j∈S,      (1)其中,S为选取出的N个区域的索引集合;

(3)在选取显著性区域的过程中,通过qφ(ti|Li,si)来近似后验分布p(ti|Li,si),使用KL散度来评估qφ(ti|Li,si)和p(ti|Li,si)之间的分布差异性;

vlb

重新推导变分下界(Variational Lower Bound,VLB)B (Li,si,φ),即:设置qφ(ti|Li,si)=qφ(ti|Li),p(ti|Li)~N(0,I),通过重参数化技巧使得ti符合高斯分布,即:(4)基于变分推理的结果,对每个图像自适应地选取出N个显著性区域,并获取对应的加权后的区域特征Vi=[vi1,...,viN];将每个显著性区域特征vij转化为标签总个数C维的向量,使得从维度上能够将显著性特征视为其粗糙的标签预测分数,N个显著性区域的特征基于局部依赖的标签相关性矩阵预测多标签分布特征的生成流程如下:(1)基于学习到的个体LCM和由训练数据获取的统计LCM构建LD_LCM,通过公式(4)计算获取:

C

其中,A和 分别表示统计的LCM和第i个图像的个体LCM,e表示元素点乘;

C

(2)对于统计LCMA ,首先通过统计训练集中各个标签共同出现在同一幅图像中的次数,然后基于此信息计算出标签出现的条件概率矩阵,即一个标签出现的情况下,另外一个标签出现的概率;对于个体 根据获取的显著性区域特征Vi,按照公式计算生成;

考虑到Vi中的每一列 表示对应显著性区域在各个标签上粗糙的预测分数,则的每个元素视为第i个图像中两个标签共现的概率;

图的特征学习中,通过构建局部标签相关性进行图的表示学习,即使用LD_LCM作为图的邻接矩阵,实现在全局分支和局部分支上的标签感知,流程如下:(1)对于图的表示学习,采用GCN方法来学习节点,其中,定义在第l层上的输入的特征(l)记为F ,对应的邻接矩阵为A,GCN能够被公式化为如下的非线性函数:(l)

其中,W 是第l层上用于空间投影的学习参数,r是归一化标量,数值大小为节点的个数,选择ReLU(·)为非线性激活函数;

(2)对于标签图和显著性区域图,均使用GCN来更新特征;具体来说,对于标签图,将每个标签作为一个节点,使用标签单词嵌入的结果作为初始化特征,构建出标签节点特征矩阵G,LD_LCM作为对应的边;对于显著性区域图,将每个标签在各区域上的分数作为一个节点的特征,仍然使用LD_LCM作为对应的边权重;因此,GCN在标签图和显著性区域图上的表示学习如公式(6)所示:其中,Ww和Wl分别为对应的在G和Vi上的参数矩阵集合;

基于历史多标签预测结果作为指导信息,来融合多标签模块的全局与局部分支,其过程为:首先,将多标签预测分数向量通过映射函数对两个分支的多标签预测特征进行通道加权,然后在通过全连接层获取两个分支的多标签预测分数,即全局分支的 和局部分支的然后将两个分数进行相加以获取最终的预测分数 即:定义算法的损失函数为:

vlb

ζ=ζML‑B (Li,si,φ).     (9)ζML为多标签任务中的常用的损失函数,如公式(10)所示:C

其中,yi∈R 为第i个图像的真实标签向量,(yi)j∈{0,1}表示第j个标签存在与否,σ(·)为sigmoid函数。

2.根据权利要求1所述的一种基于迭代优化的局部感知图表示学习方法,其特征在于:步骤S1中,多标签预测框架中包含了多个结构一致的多标签优化卷积网络模块,其中每个模块输入前一个模块预测的多标签结果以及待预测的图片,然后预测一个更加准确的结果。

3.根据权利要求1所述的一种基于迭代优化的局部感知图表示学习方法,其特征在于:步骤S2中,每个多标签优化模块包括全局分支和局部分支,在两个分支之后,还通过一个融合过程来综合两个分组的预测结果,具体如下;

a、全局分支的特征提取方法:全局分支上,使用预训练的模型来提取图像的高维特征;

并且在第一个多标签优化模块中,预训练模型的参数固定,而其他模块中,预训练模型参数也和其他网络组件一起训练;

b、局部分支的特征提取方法:

(1)使用RPN模块来检测出当前图像的若干个感兴趣区域ROIs,并提取该区域的特征;

对于输入的图像Mi,首先通过RPN检测到多个ROIs,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域;

(2)使用变分推理模块对各个区域学习自适应的多标签任务相关性权重;对各个区域根据权重大小进行降序排序,选择固定数量区域,并将选取的区域特征和学习到的权重进行相乘,进而通过局部标签相关性矩阵模块,生成显著性区域特征;

(3)根据显著性区域的特征,生成当前图像特有的个体标签分布特征,并将其与统计标签分布特征进行融合,构造出依赖局部感知的多标签分布特征;

(4)将构造出的标签分布特征通过图的表示学习获取判别性更高的节点特征;

c、在使用历史多标签预测结果的指导下,通过联合学习模块将全局分支与局部分支的结果进行融合,预测图像中存在的物体多标签。

4.根据权利要求1所述的一种基于迭代优化的局部感知图表示学习方法,其特征在于:多标签预测框架中的每个预测模块都进行了监督,并把多个模块预测结果的平均值作为整个框架最终的预测结果。

说明书 :

一种基于迭代优化的局部感知图表示学习方法

技术领域

[0001] 本发明涉及图表示学习技术领域,尤其是涉及一种基于迭代优化的局部感知图表示学习方法。

背景技术

[0002] 图是一种能够描述事物之间复杂关系的数据结构,由若干个节点以及节点之间的边构成。节点可以表示各种物体,边可以表示各种相关性。图的表示学习旨在利用图的结构信息和节点的特征,获取鲁棒性更强、判别性更高的图或者节点的特征表示。经过表示学习后,相关性强的节点其更新后的特征更加相似,相关性弱的节点其学习到的特征将更加不同,更具判别性的节点特征将可以更好地支持各种下游任务。
[0003] 随着网络数据量的急剧增加,图的表示学习广泛应用于各种任务中。面对网络中海量的图像数据,为实现对图像数据的有效管理划分,对图像进行多标签的分类就显得尤为重要。根据图像分类后的多标签,即可以实现图像的分类管理,如手机的智能相册等,又能便于图像的查询,依据标签信息从海量图像中快速检索到需要的图像,更能促进计算机视觉对图像的深层次理解,有利于未来无人驾驶、智能机器人等技术的进一步发展。在图像的多标签分类任务中,起初传统的人工标注费时费力,而后基于深度学习的方法实现了自动化地标签分类,如今为进一步提升图像的多标签分类性能,基于图的表示学习方法成为了当下的研究热点。通过将图像的各个标签看作节点,建模节点之间复杂的相关性,从而构建出标签图。基于构建出的标签图,对其进行图的表示学习,获取各个标签节点鲁棒且具有判别性的表征,并将其与图像特征相结合,实现最后的多标签分类。
[0004] 具体来说,图表示学习的目的是通过图的结构信息进行节点之间的信息交互,使得相关性强的节点之间其特征的相似度高,相关性弱的节点之间其特征相似度则低。因此,图的表示学习可以为各种下游任务(如:图分类、多标签分类等)提供鲁棒的节点嵌入表示。对于图的表示学习,可以大致分为基于传统的图表示学习方法和基于深度学习的图表示方法。传统的图表示学习方法主要包括基于流形正则的方法和基于重构的方法。基于流形正则的方法主要通过利用图的结构信息作为图数据在流形空间上的距离,如局部线性嵌入、ISOMAP等方法。基于重构的方法主要通过特征向量计算、矩阵分解等计算方式,实现对图数据的压缩以及复原,以最大限度地保留原始图数据中的有用信息,如主成分分析、谱聚类等方法。
[0005] 而基于深度学习的图表示方法主要包括了图卷积网络、图注意力网络以及图自编码器等众多的分支。图卷积网络可以看作是卷积神经网络在图数据上的扩展延伸。根据图卷积对数据处理方式的不同,可以将其分为谱域图卷积网络和空域图卷积网络:(1)谱域图卷积网络是通过将图信号作为拉普拉斯矩阵,并利用傅里叶变换获取其频域信号,图卷积操作就是通过在谱域中进行滤波操作实现的,如GCN、SGCN等;(2)空域图卷积网络可以看作是对卷积神经网络在图数据上的模仿,通过在空间域上定义图卷积操作,实现中心节点和周围一阶邻居节点信息的聚合,如GraphSAGE、DCNN等。图注意力网络启发于人类的视觉机制,将信息中重要的部分给予更大的权重,增强该部分的信号;同时对那些不重要的信息赋予更小的权重,抑制这部分信息的流通,减少对模型学习的干扰,如GAT、GaAN等。图自编码器通过对图数据进行编码、解码的操作,利用KL散度和重构误差实现参数的优化,最终将节点的隐变量作为节点的嵌入表示并用于支持各种下游任务,如VGAE、 ARGA以及ARVGA等。
[0006] 图像的多标签分类可以给图像中不同目标物体进行特定语义的标签标注,并根据标签信息实现对海量图像数据的有效划分管理与查询检索。因此,图像的多标签分类在图像搜索、医学影像等领域具有广泛的应用。对于图像的多标签分类任务,根据所采取的学习方式的不同,可以将其大致划分为基于传统的分类方法和基于深度学习的分类方法。基于传统的方法主要是将多标签分类划分为多个单标签分类问题,通过为每个类别单独训练一个二分类器来判断图像是否包含对应的类别,如BR算法、Rank‑SVM算法等。基于深度学习的分类方法主要涉及了提取全局图像的高维特征、预测图像的局部区域以及建模标签之间的相关性等分支。
[0007] 基于全局图像的方法主要使用复杂的网络提取图像深层次的特征,将其直接输入到标签分类器中,如VeryDeep、Resnet等网络。基于图像局部区域的方法采用了目标检测的技术,定位到图像中的若干个区域,根据各区域中包含的目标特征进行多标签的分类,如RNN‑Attention、Atten‑Reinforce等算法。基于探索标签相关性的方法通过挖掘出标签之间存在的内在关联性,使得图像在进行某个标签判别时可以考虑到与之相关性较大的其它标签,从而实现标签的辅助判别,例如ML‑GCN、KSSNet网络等。
[0008] 现有的标签图大部分只是基于统计信息构建的,且每个图像均采用相同的标签图,但是统计信息并不能很好地适用于每一个样本,尤其是对于图像之间存在巨大差距的数据集,统计信息不具有代表性。而且,现有的标签图学习主要基于统计信息构建标签节点之间固定的相关性,通过图卷积等方法学习标签节点的特征表示,使得相关性强的节点特征也相似,相关性弱的节点特征则不同,最后根据节点特征构建标签预测分类器。
[0009] 尽管基于图卷积的多标签分类,已经可以较好地建模多标签之间的相关性来促进预测图像的多标签,但是基于固定的预训练网络,骨干特征固定的特征表达限制了多标签预测性能的进一步提高。在本发明中,我们使用迭代优化的框架,使得多标签分类器在之前的预测结果基础上,通过更新骨干网络模型,学习更加鲁棒的多标签特征,进而起到纠正历史错误预测结果,促进预测更加精准的多标签预测。

发明内容

[0010] 本发明的目的是提供一种基于迭代优化的局部感知图表示学习方法,自适应性更佳,并且能迭代的纠正和优化预测结果,实现更加准确的多标签预测。
[0011] 为实现上述目的,本发明提出的一种基于迭代优化的局部感知图表示学习方法,步骤如下:
[0012] S1、把待预测的图片集合和一个随机初始化的多标签集合输入到网络框架中;
[0013] S2、进行循环迭代地优化多标签预测结果;
[0014] 在每个模块中,优化多标签预测结果的过程包括基于变分推理的显著性区域选择、局部依赖性的标签相关性矩阵构建、图的特征学习、基于历史信息指导的全局/局部分支的联合学习。
[0015] 优选的,步骤S1中,多标签预测框架中包含了多个结构一致的多标签优化卷积网络模块,其中每个模块输入前一个模块预测的多标签结果以及待预测的图片,然后预测一个更加准确的结果。(第一个网络模块加载一个随机初始化的多标签向量)。
[0016] 优选的,步骤S2中,每个多标签优化模块包括全局分支和局部分支,在两个分支之后,还通过一个融合过程来综合两个分组的预测结果,具体如下;
[0017] a、全局分支的特征提取方法:全局分支上,使用预训练的模型(可以使用多种先进的网络设计:ResNet,Transformer网络等)来提取图像的高维特征;并且在第一个多标签优化模块中,预训练模型的参数固定,而其他模块中,预训练模型参数也和其他网络组件一起训练;
[0018] b、局部分支的特征提取方法:
[0019] (1)使用RPN模块来检测出当前图像的若干个感兴趣区域ROIs,并提取该区域的特征;对于输入的图像Mi,首先通过RPN检测到多个ROIs,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域;
[0020] (2)使用变分推理模块对各个区域学习自适应的多标签任务相关性权重;对各个区域根据权重大小进行降序排序,选择固定数量区域,并将选取的区域特征和学习到的权重进行相乘,进而通过局部标签相关性矩阵模块,生成显著性区域特征;
[0021] (3)根据显著性区域的特征,生成当前图像特有的个体标签分布特征,并将其与统计标签分布特征进行融合,构造出依赖局部感知的多标签分布特征;
[0022] (4)将构造出的标签分布特征通过图的表示学习获取判别性更高的节点特征;
[0023] c、在使用历史多标签预测结果的指导下,通过联合学习模块将全局分支与局部分支的结果进行融合,预测图像中存在的物体多标签。
[0024] 优选的,基于变分推理的显著性生成过程如下:
[0025] (1)对于输入的图像Mi,首先通过RPN检测到多个ROIs,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域;
[0026] (2)建模区域和多标签分类任务之间复杂的条件分布p(ti|Li,si),通过变分推理的方法来为区域学习自适应的权重因子,其中si为第i个图像真实的标签向量,是第i个图像上检测出的Ki个区域特征, 是相关性向量,每个元素tij表示第j个区域与任务的相关性;
[0027] 将ti进行降序处理,根据降序后的索引,选取出对应的N个固定数量的区域,将前N个最大的相关性权重与对应的区域特征进行相乘,生成显著性区域的特征Vi=[vi1,...,viN],公式如下:
[0028] vij=tij×lij,j∈S ,          (1)
[0029] 其中,S为选取出的N个区域的索引集合;
[0030] (3)在选取显著性区域的过程中,通过qφ(ti|Li,si)来近似后验分布p(ti|Li,si),使用KL散度来评估qφ(ti|Li,si)和p(ti|Li,si)之间的分布差异性;
[0031] 重新推导变分下界(Variational Lower Bound,VLB)Bvlb(Li,si,φ),即:
[0032]
[0033] 设置qφ(ti|Li,si)=qφ(ti|Li),p(ti|Li)~N(0,I),通过重参数化技巧使得ti符合高斯分布,即:
[0034]
[0035] (4)基于变分推理的结果,对每个图像自适应地选取出N个显著性区域,并获取对应的加权后的区域特征Vi=[vi1,...,viN];将每个显著性区域特征vij转化为标签总个数C维的向量,使得从维度上可以将显著性特征视为其粗糙的标签预测分数,N个显著性区域的特征
[0036] 优选的,基于局部依赖的标签相关性矩阵预测多标签分布特征的生成流程如下:
[0037] (1)基于学习到的个体LCM和由训练数据获取的统计LCM构建 LD_LCM,LD_LCM通过公式(4)计算获取:
[0038]
[0039] 其中,AC和 分别表示统计的LCM和第i个图像的个体LCM,⊙表示元素点乘;
[0040] (2)对于统计LCMAC,首先通过统计训练集中各个标签共同出现在同一幅图像中的次数,然后基于此信息计算出标签出现的条件概率矩阵,即一个标签出现的情况下,另外一个标签出现的概率;对于个体 根据获取的显著性区域特征Vi,按照公式计算生成;
[0041] 考虑到Vi中的每一列 表示对应显著性区域在各个标签上粗糙的预测分数,则 的每个元素视为第i个图像中两个标签共现的概率。
[0042] 优选的,图的特征学习中,通过构建局部标签相关性进行图的表示学习,即使用LD_LCM作为图的邻接矩阵,实现在全局分支和局部分支上的标签感知,流程如下:
[0043] (1)对于图的表示学习,采用GCN方法来学习节点,其中,定义在第l 层上的输入的(l)特征记为F ,对应的邻接矩阵为A,GCN可以被公式化为如下的非线性函数:
[0044]
[0045] 其中,W(l)是第l层上用于空间投影的学习参数,r是归一化标量,数值大小为节点的个数,选择ReLU(·)为非线性激活函数;
[0046] (2)对于标签图和显著性区域图,均使用GCN来更新特征;具体来说,对于标签图,将每个标签作为一个节点,使用标签单词嵌入的结果作为初始化特征,构建出标签节点特征矩阵G,LD_LCM作为对应的边;对于显著性区域图,将每个标签在各区域上的分数作为一个节点的特征,仍然使用 LD_LCM作为对应的边权重;因此,GCN在标签图和显著性区域图上的表示学习如公式(6)所示:
[0047]
[0048] 其中,Ww和Wl分别为对应的在G和Vi上的参数矩阵集合。
[0049] 优选的,基于历史多标签预测结果作为指导信息,来融合多标签模块的全局与局部分支,其过程为:
[0050] 首先,将多标签预测分数向量通过映射函数对两个分支的多标签预测特征进行通道加权,然后在通过全连接层获取两个分支的多标签预测分数,即全局分支的 和局部分支的 然后将两个分数进行相加以获取最终的预测分数 即:
[0051]
[0052] 定义算法的损失函数为:
[0053] ζ=ζML‑Bvlb(Li,si,φ).           (8)
[0054] ζML为多标签任务中的常用的损失函数,如公式(10)所示:
[0055]
[0056] 其中,yi∈RC为第i个图像的真实标签向量,(yi)j∈{0,1}表示第j个标签存在与否,σ(·)为sigmoid函数。
[0057] 优选的,多标签预测框架中的每个预测模块都进行了监督,并把多个模块预测结果的平均值作为整个框架最终的预测结果。
[0058] 因此,本发明采用上述一种基于迭代优化的局部感知图表示学习方法,基于多标签迭代优化的方法,并且在每个多标签优化模块中,利用区域提取模块学习到当前图像所特有的标签分布图,并将其与全局统计标签图进行融合,实现自适应地修正统计信息,从而构建出基于局部感知的标签图。
[0059] 并且,通过将全局统计标签图和个体标签分布图进行融合,为每个图像样本动态地构建不同的标签图,实现节点之间相关性的自适应,为每个图像学习到不同的具有针对性的节点特征表示。
[0060] 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

[0061] 图1是基于局部感知的图表示学习算法整体框架图。

具体实施方式

[0062] 以下通过附图和实施例对本发明的技术方案作进一步说明。
[0063] 除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
[0064] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的主旨或基本特征的情况下,能够以其它的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0065] 此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其它实施方式。这些其它实施方式也涵盖在本发明的保护范围内。
[0066] 还应当理解,以上所述的具体实施例仅用于解释本发明,本发明的保护范围并不限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明/发明的保护范围之内。
[0067] 本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用词典中定义的术语应当被理解为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非本文有明确地这样定义。
[0068] 其中,各名词全称和简称的对应如下:
[0069] Local Branch(LB):局部分支
[0070] Variational Lower Bound(VLB):变分下界
[0071] Regions of Interests(ROIs):感兴趣区域
[0072] Variational Inference(Var_Inf):变分推理
[0073] Combination of Learning(Com_Lea):联合学习
[0074] Region Proposal Network(RPN):区域提取网络
[0075] Label Correlation Matrix(LCM):标签相关性矩阵
[0076] Graph Convolution Networks(GCN):图卷积网络
[0077] Local‑Aware Graph Representation Learning(LA_GRL):局部感知的图表示学习
[0078] Local‑Dependent Label Correlation Matrix(LD_LCM):依赖局部的标签相关性矩阵。
[0079] 对于相关领域普通技术人员已知的技术、方法和设备可能不作为详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0080] 本发明说明书中引用的现有技术文献所公开的内容整体均通过引用并入本发明中,并且因此是本发明公开内容的一部分。
[0081] 实施例一
[0082] 一种基于局部感知的图表示学习方法,步骤如下:
[0083] S1、把待预测的图片集合和一个随机初始化的多标签集合输入到网络框架中,然后进行循环迭代地优化多标签预测结果。
[0084] S2、迭代优化的多标签预测框架包含多个多标签预测模块,其中的网络前向过程包括基于变分推理的显著性区域选择、依赖局部的标签相关性矩阵构建、图的特征学习以及基于历史信息指导的全局/局部分支的联合学习。
[0085] 具体来说,步骤如下。
[0086] 一、模型框架
[0087] 如图1所示,整体体的算法框架包括多个结构一致的多标签优化卷积网络模块,在每个模块中包含:全局分支和局部分支,全局分支用于提取图像整体的深层次特征,局部分支用于建模区域之间的相关性。在全局分支上,使用Resnet模型来提取图像的高维特征;对于局部分支,首先使用区域提取网络(Region Proposal Network,RPN)模块来检测出当前图像的若干个ROIs,并提取区域的特征。然后,为建模区域之间复杂的分布,引入变分推理模块对各个区域学习自适应的权重。根据权重大小进行排序,选择固定数量的区域,并将选取的区域特征和对应的权重进行相乘,生成显著性区域特征。接着,为实现全局分支和局部分支对标签的感知性,引入局部标签相关性矩阵模块。
[0088] 根据显著性区域的特征,生成当前图像特有的个体标签分布特征,并将其与统计标签分布特征进行融合,构造出依赖局部感知的标签分布特征。再将构造出的标签分布特征通过图的表示学习获取判别性更高的节点特征。最后,引入联合学习模块,将全局分支与局部分支的结果进行融合,预测图像中存在的物体标签。
[0089] 二、基于变分推理的显著性区域选择
[0090] 假定对于一个输入的图像Mi,首先通过RPN检测到多个ROIs。考虑到各个区域对任务具有不同的重要性,同时为了便于算法的统一操作,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域。为了建模区域和多标签分类任务之间复杂的条件分布p(ti|Li,si),引入变分推理的方法来为区域学习自适应的权重因子,其中si为第i个图像真实的标签向量, 是第i个图像上检测出的Ki个区域特征, 是相关性向量,每个元素tij表示第j个区域与任务的相关性。将ti进行降序处理,根据降序后的索引,选取出对应的N个固定数量的区域。之后,将前N个最大的相关性权重与对应的区域特征进行相乘,生成显著性区域的特征 Vi=[vi1,...,viN]。公式如下:
[0091] vij=tij×lij,j∈S, (1)
[0092] 其中S为选取出的N个区域的索引集合。
[0093] 在选取显著性区域的过程中,主要依据的是ti的数值大小,但是ti真实的后验分布难以通过贝叶斯规则p(ti|Li,si)=p(ti)p(Li,si|ti)/p(Li,si)来求解。于是利用变分推理来求解此问题,通过引入qφ(ti|Li,si)来近似后验分布p(ti|Li,si),并使用KL 散度(Kullback‑Leibler Divergence)来评估qφ(ti|Li,si)和p(ti|Li,si)之间的分布差异性。最小化KL散度可以使得qφ(ti|Li,si)学习到一个好的近似。
[0094] 考虑到KL散度的数值是非负的,因此变分下界(Variational Lower Bound,VLB)vlb vlbB (Li,si,φ)可以被重新推导,最小化KL散度问题可以转化为最大化 B (Li,si,φ),即:
[0095]
[0096] 通过进一步放宽条件分布qφ(ti|Li,si)和p(ti|Li)的限制,并设置 qφ(ti|Li,si)=qφ(ti|Li),p(ti|Li)~N(0,I)。为了便于使用梯度下降法来优化变分推理的下界,引入了重参数化技巧(Reparameterization Trick),使得ti符合高斯分布,即:
[0097]
[0098] 基于变分推理的结果,可以对每个图像自适应地选取出N个显著性区域,并获取对应的加权后的区域特征Vi=[vi1,...,viN]。为了构建局部标签相关性矩阵,将每个显著性区域特征vij转化为C维的向量(C是标签的总个数),使得从维度上可以将显著性特征视为其粗糙的标签预测分数。最后,N个显著性区域的特征
[0099] 区域加权的方法采用的是变分推理的方式,但是也可以采用通过全连接层、基于attention等各种机制学习到区域权重。
[0100] 三、依赖局部的标签相关性矩阵构建
[0101] 为了实现模型对局部标签的感知性,基于学习到的个体LCM和由训练数据获取的C统计LCM构建LD_LCM。公式化地说,A 和 分别表示统计的LCM 和第i个图像的个体LCM,可通过公式(4)计算获取:
[0102]
[0103] 其中⊙表示元素点乘。
[0104] 对于统计LCMAC,首先通过统计训练集中各个标签共同出现在同一幅图像中的次数,然后基于此信息计算出标签出现的条件概率矩阵,即一个标签出现的情况下,另外一个标签出现的概率,该矩阵体现的仍然是一种共现的信息。对于个体 根据获取的显著性区域特征Vi,按照公式(5) 计算生成:
[0105]
[0106] 考虑到Vi中的每一列 表示对应显著性区域在各个标签上粗糙的预测分数,则 的每个元素也可以视为第i个图像中两个标签共现的概率。
[0107] 个体标签相关性矩阵的构建不一定来源于区域特征,也可以通过对当前全局图像直接学习获取;并且与统计标签相关性矩阵的融合方式,也可以采用矩阵相乘、元素相加等方式进行融合。
[0108] 四、图的特征学习
[0109] 为实现在全局分支和局部分支上的标签感知,需要对构建出的局部标签相关性进行图的表示学习,即使用LD_LCM作为图的邻接矩阵。对于图的表示学习,采用了广泛使用的GCN方法来学习节点更加鲁棒且更具有判别性的特征。对于图的表示学习采用的是GCN的方法,但是图的学习方法不止一种,比如GAT、GIN和GraphSAGE等均可以直接进行替换。
[0110] 对于GCN,定义在第l层上的输入的特征记为F(l),对应的邻接矩阵为A, GCN可以被公式化为如下的非线性函数:
[0111]
[0112] 其中W(l)是第l层上用于空间投影的学习参数,r是归一化标量,数值大小为节点的个数,选择ReLU(·)为非线性激活函数。从谱滤波的角度分析,无论邻接矩阵是否进行拉普拉斯归一化,模型都能达到相似的性能。因为归一化前后的邻接矩阵,其特征向量保持不变。
[0113] 对于标签图和显著性区域图,均使用GCN来更新特征。具体来说,对于标签图,将每个标签作为一个节点,使用标签单词嵌入的结果作为初始化特征,构建出标签节点特征矩阵G,LD_LCM作为对应的边。对于显著性区域图,将每个标签在各区域上的分数作为一个节点的特征,仍然使用LD_LCM 作为对应的边权重。因此,GCN在标签图和显著性区域图上的表示学习如公式(7)所示:
[0114]
[0115] 其中Ww和Wl分别为对应的在G和Vi上的参数矩阵集合。
[0116] 五、基于历史信息指导的全局和局部分支的联合学习
[0117] 为了对全局分支和局部分支进行联合学习,首先我们把之前的多标签预测分数向量通过映射函数对两个分支的多标签预测特征进行通道加权,使用注意力机制的方式,使用历史预测结果作为指导信息。然后在通过全连接层获取他们的预测分数,即全局分支的和局部分支的 然后将这两个分数与之前多标签的预测进行相加以获取当前多标签优化模块的预测分数 即:
[0118]
[0119] 此外,为了更有效地进行模型训练,定义算法的损失函数为:
[0120] ζ=ζML‑Bvlb(Li,si,φ).         (9)
[0121] ζML为多标签任务中的常用的损失函数,如公式(10)所示:
[0122]
[0123] 其中 为第i个图像的真实标签向量,(yi)j∈{0,1}表示第j个标签存在与否,σ(·)为sigmoid函数。
[0124] 六、迭代优化过程
[0125] 在每个多标签预测模块中,我们输入原始的待预测图片和之前一个模块的多标签预测结果。其中第一个模块输入了原始的多标签预测结果。并且在每个模块之后,我们都使用真实的多标签标注进行了监督。最终,我们把所有的多标签预测模块预测的分数取平均数,以获取最终的预测结果。
[0126] 综上所述,本发明采用上述一种基于迭代优化的局部感知图表示学习方法,具有多标签自适应能力,并且通过迭代优化多标签预测过程,可以实现更加鲁棒的多标签预测。
[0127] 最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。