基于多目标拉格朗日正则的细粒度图像识别方法转让专利

申请号 : CN201910644312.9

文献号 : CN110378356B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张勇东闵少波谢洪涛

申请人 : 北京中科研究院中国科学技术大学

摘要 :

本发明公开了一种基于多目标拉格朗日正则的细粒度图像识别方法,包括:通过神经网络提取输入图像的图像特征X,得到相应的双线性图像A;从双线性图像A中获取规则化特征Y,构建包含矩阵平方根,低秩以及稀疏约束项的目标函数;引入两个辅助的变量来弱化三个约束项之间的关联性,并将目标函数转化为一个增广拉格朗日形式,再通过交替地优化每一个矩阵约束项来得到一个全局近似最优解;利用该全局近似最优解进行图像的识别分类。该方法仅仅包含矩阵乘法,因此能够很好地被GPU兼容,达到更快的识别速度,且该方法能够有效地对双线性图像表达同时进行平方根,低秩,和稀疏的正则约束,极大的提高了识别准确率。

权利要求 :

1.一种基于多目标拉格朗日正则的细粒度图像识别方法,其特征在于,包括:通过神经网络提取输入图像的图像特征X,得到相应的双线性图像A;

从双线性图像A中获取规则化特征Y,构建包含矩阵平方根,低秩以及稀疏约束项的目标函数;

引入两个辅助的变量来弱化三个约束项之间的关联性,并将目标函数转化为一个增广拉格朗日形式,再通过交替地优化每一个矩阵约束项来得到一个全局近似最优解;

利用该全局近似最优解进行图像的识别分类;

其中,双线性图像A是一个对称半正定矩阵,其有唯一的平方根解,通过优化如下目标函数,得到双线性图像A的平方根解,并且保持低秩和稀疏的属性:其中,Y是从A中得到的规则化特征,||·||F为矩阵范数,||·||*为核范数,||·||1为l1范数,以上表达式中的三个约束项分别对应于平方根,低秩和稀疏正则约束,β1和β2是两个超参数,用来控制不同约束项之间的关系。

2.根据权利要求1所述的一种基于多目标拉格朗日正则的细粒度图像识别方法,其特征在于,

n×d

通过卷积神经网络对图像进行特征提取,提取到的图像特征定义为X∈R ,n=h×w,h,w,d分别为图像特征的高,宽以及图像特征的通道数;

基于图像特征,相应的双线性图像A为:T

A=XCX

其中, In×n为单位矩阵,1n×n为全1矩阵。

3.根据权利要求1所述的一种基于多目标拉格朗日正则的细粒度图像识别方法,其特征在于,引入两个辅助的变量来弱化三个约束项之间的关联性,并将目标函数转化为一个增广拉格朗日形式包括:

引入两个辅助变量J1和J2来弱化三个约束项之间的关联性,则目标函数变为:s.t.J1=Y,J2=Y将目标函数转化为一个增广拉格朗日形式:其中,L1和L2为朗格朗日乘子,μ1和μ2为两个超参常数,tr(·)为求矩阵迹操作。

4.根据权利要求3所述的一种基于多目标拉格朗日正则的细粒度图像识别方法,其特征在于,

采用梯度下降法,更新低秩约束项;

采用梯度下降法,或者基于特征内容的更新策略,更新稀疏约束项;

结合耦合高斯迭代优化,更新矩阵平方根约束项。

5.根据权利要求3所述的一种基于多目标拉格朗日正则的细粒度图像识别方法,其特征在于,通过交替地优化每一个矩阵约束项来得到一个近似的全局解的过程包括:首先,初始化 上标0表示迭代次数;再进行如下交替优化:

1)更新J1,固定住J2和Y,去除掉增广拉格朗日形式中的无关项,从而得到目标函数:其中,上标k表示迭代次数;

利用梯度下降法更新以上表达式,得到:是对称半正定矩阵,其奇异值和特征值相等,令 时,η1在最终的表达式中将被消除,得到:

其中,I为单位矩阵;

2)更新J2,固定住J1和Y,去除掉增广拉格朗日形式中的无关项,从而得到目标函数:采用梯度下降法更新以上表达式,并且令 η2在最终的表达式中将被消除,得到:

其中,sgn(·)为符号函数;

或者,基于特征内容的更新策略,更新J2;基于特征内容的更新策略的核心是一个协方差注意力机制,能够通过理解图像特征X的内容,生成一个协方差注意力图S;其中的协方差注意力图S与双线性图像A具有相同的尺寸,利用协方差注意力图S更新J2:

3)更新Y,固定住J1和J2,去除掉增广拉格朗日形式中的无关项,从而得到目标函数:梯度下降法得到:

结合耦合高斯迭代优化,更新Y;令 η3在最终的表达式中将被消除,则得到,得到:

k

其中, 和Z是两个中间变量;

4)更新乘子项:

μ1←ρμ1;μ2←ρμ2K

通过以上方式交替优化K次,得到近似的最优解全局近似最优解Y。

6.根据权利要求5所述的一种基于多目标拉格朗日正则的细粒度图像识别方法,其特征在于,生成协方差注意力图S的步骤包括:将图像特征X进行全局平均池化,得到1×d维的特征,该特征丢掉了空间信息,其中d为图像特征的通道数;通过两层全连接层进行通道间的信息凝练,输出同样维度的特征;之后,通过Sigmoid函数进行归一化,最后通过外积操作,得到与图像双线性图像A一样尺寸的协方差注意力图S。

7.根据权利要求1所述的一种基于多目标拉格朗日正则的细粒度图像识别方法,其特征在于,所述利用该全局近似最优解进行图像的识别分类包括:将全局近似最优解拉伸成一个一维向量,作为输入图像的最终描述特征,并通过训练好的分类器进行识别分类。

说明书 :

基于多目标拉格朗日正则的细粒度图像识别方法

技术领域

[0001] 本发明涉及计算机技术领域,尤其涉及一种基于多目标拉格朗日正则的细粒度图像识别方法。

背景技术

[0002] 双线性池化操作在细粒度图像识别中取得了广泛的运用。目前的方法证明了矩阵平方根正则能够有效地稳定双线性表达中的高阶语义信息。然而,矩阵平方根正则并不能
解决双线性特征中的信息冗余,泛化能力弱等问题,从而导致了目前技术的识别率低下的
问题。因此对于细粒度图像识别问题,我们需要一种能同时高效快速地稳定高阶信息,剔除
冗余信息,提高泛化能力的正则化技术,以提升识别准确率。

发明内容

[0003] 本发明的目的是提供一种多目标拉格朗日正则方法,能够提高识别准确率与识别速度。
[0004] 本发明的目的是通过以下技术方案实现的:
[0005] 一种基于多目标拉格朗日正则的细粒度图像识别方法,包括:
[0006] 通过神经网络提取输入图像的图像特征X,得到相应的双线性图像A;
[0007] 从双线性图像A中获取规则化特征Y,构建包含矩阵平方根,低秩以及稀疏约束项的目标函数;
[0008] 引入两个辅助的变量来弱化三个约束项之间的关联性,并将目标函数转化为一个增广拉格朗日形式,再通过交替地优化每一个矩阵约束项来得到一个全局近似最优解;
[0009] 利用该全局近似最优解进行图像的识别分类。
[0010] 由上述本发明提供的技术方案可以看出,该方法仅仅包含矩阵乘法,因此能够很好地被GPU兼容,达到更快的识别速度,且该方法能够有效地对双线性图像表达同时进行平
方根,低秩,和稀疏的正则约束,极大的提高了识别准确率,在实验中该方法在五个细粒度
图像识别数据集上都取得了目前最好的识别效果。

附图说明

[0011] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本
领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
附图。
[0012] 图1为本发明实施例提供的基于多目标拉格朗日正则的细粒度图像识别方法的流程图;
[0013] 图2为本发明实施例提供的协方差注意力机制的示意图。

具体实施方式

[0014] 下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本
发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本发明的保护范围。
[0015] 本发明实施例提供一种基于多目标拉格朗日正则的细粒度图像识别方法,其主要包括:通过神经网络提取图像特征X,得到相应的双线性图像A;从双线性图像A中获取规则
化特征Y,构建包含矩阵平方根,低秩以及稀疏约束项的目标函数;引入两个辅助的变量来
弱化三个约束项之间的关联性,并将目标函数转化为一个增广拉格朗日形式,再通过交替
地优化每一个矩阵约束项来得到一个全局近似最优解;最后根据该全局近似最优解进行图
像的识别分类。
[0016] 为了便于理解,下面针对上述方案做详细的介绍。
[0017] 一、对图像提取视觉特征。
[0018] 输入图像,该技术首先通过卷积神经网络对图像进行特征提取。所述卷积神经网络可以为任意已知的网络结构,包括VGG‑16,ResNet‑50或者ResNet‑101。将网络最后一个
h×w×d
卷积层的输出作为提取到的图像特征,并定义为X∈R ,其中h,w,d分别为图像特征的
n×d
高,宽以及图像特征的通道数。为了方便计算,将X重新定义成X∈R ,其中,n=h×w。
[0019] 二、构建目标函数。
[0020] 基于X,双线性图像一般表达形式为A=XTCX,其中 In×n为单位矩阵,并且1n×n为全1矩阵。由于A是一个对称半正定矩阵,因此其有唯一的平方根解。本
发明的目的是得到一个从A规则化后的特征表达Y,并且要同时保持一阶,低秩和稀疏的属
性,因此本发明的目的是优化以下原始目标表达式:
[0021]
[0022] 其中,Y是从A中得到的规则化特征,||·||F为矩阵范数,||·||*为核范数,||·||1为l1范数。以上表达式中的三个约束项分别对应于平方根,低秩和稀疏正则约束。其中β1
和β2是两个超参数,用来控制不同约束项之间的关系。
[0023] 由于上述公式的三个矩阵约束项非平滑,并且包含不同的凸性质,很难将它们三个同时进行优化。因此引入两个辅助变量J1和J2来弱化三个约束项之间的关联性,则目标函
数变为:
[0024]
[0025] s.t.J1=Y,J2=Y
[0026] 规则化特征是一种很宽泛的表达,只要对特征进行一定的约束,都可以称为规则化特征,传统方案中规则化的时候只包含平方根规则,本发明实施例中,额外的包含了低秩
和稀疏属性。
[0027] 相比于原始表达式,该目标函数中的三个矩阵约束项可以被分开处理。然而优化一个限制条件的表达式仍然很难,因此将目标函数转化为一个增广拉格朗日形式:
[0028]
[0029] 其中,L1和L2为朗格朗日乘子,μ1和μ2为两个超参常数,tr(·)为求矩阵迹操作。
[0030] 三、交替优化。
[0031] 本发明实施例中,通过交替地优化每一个矩阵约束条件项来得到一个近似的全局解。为三个约束项分别提出了特定的更新策略。1)对于矩阵低秩约束项来说,抛弃了传统的
奇异值分解方法,而采用更高效的梯度下降法,由于该任务中的待优化矩阵为半正定对称
矩阵,因此该梯度下降法只包含矩阵乘法,能够很好地被GPU所兼容。2)对于矩阵稀释约束
项来说,提出了两种合理的更新策略。第一种为传统的梯度下降法,通过对稀疏项求导来优
化更新参数。然而这种策略会伤害到一些重要的特征信息,因此提出了另一种基于特征内
容的更新策略,能够在保护特征信息的前提下,使变量更稀疏。该更新策略的核心是一个协
方差注意力机制模块,能够只针对双线性特征中冗余的信息进行处理,因此能同时达到冗
余剔除和稀疏优化的效果。3)对于矩阵平方根约束来说,借鉴了最新的耦合高斯迭代优化,
能够只通过矩阵乘法操作来迭代式的得到矩阵的近似平方根解。通过以上新提出的更新策
略,本发明的多目标朗格朗日优化算法,能够同时对双线性图像表达进行平方根,低秩和稀
疏的正则约束优化。如图1所示,整个正则过程只包含矩阵乘法,因此能够很好地被GPU兼
容。
[0032] 通过交替地优化每一个矩阵约束项来得到一个近似的全局解的过程主要包括:
[0033] 首先,初始化 上标0表示迭代次数;再交替优化:
[0034] 1)更新J1,固定住J2和Y,去除掉增广拉格朗日形式中的无关项,从而得到目标函数:
[0035]
[0036] 其中,上标k表示迭代次数;
[0037] 利用梯度下降法更新以上表达式,得到:
[0038]
[0039] 是对称半正定矩阵,其奇异值和特征值相等,令 时,有:
[0040]
[0041] 其中,I为单位矩阵。需要注意的是,通过使 η1在最终的表达式中可以被消除,后面的推导中也类似处理,即后文定义的η2、η3同样可以被消除。
[0042] 2)更新J2,固定住J1和Y,去除掉增广拉格朗日形式中的无关项,从而得到目标函数:
[0043]
[0044] 采用梯度下降法更新以上表达式,并且令 得到:
[0045]
[0046] 其中,sgn(·)为符号函数;
[0047] 优选的,由于符号函数会无差别的降低所有特征元素,因此会导致很多有价值的信息被损害。因此我们提出了一种或基于特征内容的更新策略,更新J2;基于特征内容的更
新策略的核心是一个协方差注意力机制,能够通过理解图像特征X的内容,生成一个协方差
注意力图S;该协方差注意力机制结构图如图2所示。首先将图像特征X进行全局平均池化,
得到1×d维的特征。该特征丢掉了空间信息。然后通过两层全连接层进行通道间的信息凝
练,输出同样维度的特征。接下来通过Sigmoid函数进行归一化,最后通过外积操作,得到与
图像双线性特征A一样尺寸的注意力图S。该特征S具有以下特征:a)S的数值都在[0,1];b)
稀疏;c)小的数值表示该特征元素不重要。
[0048] 综上,S能更好的更新J2,利用协方差注意力图S更新J2:
[0049]
[0050] 为了使S变得稀疏,一个额外的误差函数被定义为:
[0051]
[0052] 该式通过约束S的l1范数变小,达到稀疏化的目的。
[0053] 3)更新Y,固定住J1和J2,去除掉增广拉格朗日形式中的无关项,从而得到目标函数:
[0054]
[0055] 梯度下降法得到:
[0056]
[0057] 由于上式中最后一项的更新速度较慢,结合耦合高斯迭代优化,更新Y;令得到:
[0058]
[0059]
[0060]k
[0061] 其中, 和Z是两个中间变量。
[0062] 4)更新乘子项:
[0063]
[0064]
[0065] μ1←ρμ1;μ2←ρμ2
[0066] 通过以上方式交替优化K次,得到全局近似最优解YK。
[0067] 四、分类识别。
[0068] 将规则化后的特征YK拉伸成一个一维向量,作为输入图像的最终描述特征,并通过训练好的分类器进行识别分类。分类器(Classifier)可以采用广泛使用的Softmax分类
器。损失函数为常见的交叉熵损失
[0069] 本发明实施例上述方案,主要具有如下有益效果:
[0070] 1、不同于目前所使用的单目标矩阵正则算法,本发明实施例证明了多目标矩阵优化算法对于双线性表达的正则优化有着重要的价值。
[0071] 2、提出了一种多目标拉格朗日优化算法,能够同时对双线性特征表达进行矩阵平方根,低秩和稀疏的正则优化。
[0072] 3.相比于已有的正则优化技术,本发明实施例提出的多目标拉格朗日正则算法能够很好地被GPU加速平台所兼容。当将其封装成特定的网络层,能达到更高速的运行速度。
[0073] 4.相比于单目标正则化技术,本发明实施例提出的技术能够在细粒度图像分类应用上得到更好的识别效果,并且在五个广泛使用的细粒度图像分类数据集上取得了目前最
好的效果。
[0074] 为了说明本发明实施例上述方案的效果,还进行了相关实验。
[0075] 1、数据集
[0076] 1)Caltech‑UCSD birds(CUB‑200):该数据集包含了来自200个鸟类别的11788张图片。整个数据集被划分为5994张训练图片和5794张测试图片
[0077] 2)Standford Cars(Car‑196):该数据集包含来自196类车的16185张图片,其中8114图片用于训练,8041张图片用于测试。
[0078] 3)FGVC‑aircraft(Aircraft):该数据集包含来自100类飞机的10000张图片,其中6667张图片用于训练,3333张图片用于测试。
[0079] 4)Standford Dogs(Dogs):该数据集包含来自120种狗的20580张图片,其中12000张图片用于训练,8580张图片用于测试。
[0080] 5)MPII Human Pose Dataset(MPII):该数据集包含393个行为类别的15205张图片,其中8218张训练图片,6987张测试图片。
[0081] 本次实验中,经过90个epoch的训练,网络(图1所示)在五个广泛使用的细粒度基准数据集中都取得了当前最好的结果。在CUB,Cars,Aircraft,Dogs和MPII上分别取得了
89.4%,93.9%,92.0%,89.6%和33.8%的最高识别准确率。
[0082] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,
上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易
失性存储介质(可以是CD‑ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设
备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0083] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,
都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范
围为准。