一种多视图图像自动标注方法转让专利

申请号 : CN201810107964.4

文献号 : CN108197320B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 臧淼

申请人 : 北方工业大学

摘要 :

本发明公开了一种多视图图像自动标注方法,包括步骤有:(1)设置已标注图像的语义标签和多种视觉特征作为多种视图,输入到多视图稀疏模型中进行训练学习,得到各视图字典和各视图权值因子;(2)输入待标注图像的多种视觉特征;(3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数;(4)将所述标签视图字典和所述标签视图的稀疏重构系数相乘,得到待标注图像语义标签的分值;(5)将分值从高到低排列,选择前5个语义标签标注所述待标注图像。本发明改善了计算机的自动图像标注性能,提高自动标注的查准率和查全率。

权利要求 :

1.一种多视图图像自动标注方法,其特征在于,所述方法包括如下步骤:(1)设置已标注图像的语义标签和多种视觉特征作为多种视图,输入到多视图稀疏模型中进行训练学习,得到各视图字典和各视图权值因子;所述各视图字典包括多个视觉特征视图字典和一个标签视图字典;

(2)输入待标注图像的多种视觉特征;

(3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数;

(4)将所述标签视图字典和所述标签视图的稀疏重构系数相乘,得到待标注图像语义标签的分值;

(5)将分值从高到低排列,选择前5个语义标签标注所述待标注图像;

步骤(1)在进行训练学习前,对所述稀疏模型的目标函数进行修正,设置各视图使用不同的稀疏系数,增设加权的一致性正则项,得到修正后的目标函数,其表达式为:式中,v为已标注图像视图序号,v=1,2,…,V+1;V为视觉特征数目;X(v)为所有训练图像第v个视图的特征矩阵, N为训练图像数目,Pv为第v个视图的特征维度;

D(v)为第v个视图字典, Nd为字典原子数目;α(v)为第v个视图的稀疏系数矩阵, F为Frobenius范数;||α(v)||1,∞为控制稀疏系数各行之间稀疏性的(v) T正则项;||(D ) ||1,∞为控制字典结构各列之间稀疏性的正则项; 为一致矩阵;

为控制各视图稀疏系数矩阵和一致矩阵之间不一致性的正则项;ω(v)为第v个视图的权值因子,取值归一化在[0,1]范围内,且 其中σ是熵的限制值;λ1为稀疏系数正则项的调节系数;λ2为稀疏字典正则项的调节系数;λ3为一致正则项的调节系数。

2.如权利要求1所述的多视图图像自动标注方法,其特征在于,步骤(1)所述多种视觉特征包括手工设计特征和基于VGG的深度学习特征;

所述手工设计特征包括RGB、LAB、HSV、DenseHue、HarrisHue、DenseSIFT、HarrisSIFT、DenseSIFTV3H1、HarrisSIFTV3H1、DenseHueV3H1、HarrisHueV3H1、RGBV3H1、LABV3H1、HSVV3H1和GIST;

当多种视图输入到多视图稀疏模型中进行训练学习,语义标签作为一个视图参与训练学习。

3.如权利要求1所述的多视图图像自动标注方法,其特征在于,采用轮流优化方法求解所述修正后的目标函数,包括:固定第v个视图字典D(v)和第v个视图的权值因子ω(v)的值,简化所述修正后的目标函数为:利用上式更新所述稀疏系数矩阵α(v)的值;

当在一次迭代中所述稀疏系数矩阵α(v)的值更新后,计算一致矩阵 表达式为:固定第v个视图的稀疏系数矩阵α(v)和第v个视图的权值因子ω(v)的值,简化所述修正后的目标函数为:利用上式更新所述第v个视图字典D(v)的值;

固定第v个视图字典D(v)和稀疏系数矩阵α(v)的值,简化所述修正后的目标函数为:上式中,ξ是拉格朗日乘子,ξ>0;更新所述第v个视图的权值因子ω(v)的表达式为:

4.如权利要求3所述的多视图图像自动标注方法,其特征在于,步骤(3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数,具体包括:通过对下式求解,得到待标注图像各视觉特征视图的重构系数向量:式中,u为待标注图像视图序号,u=1,2,…,V; 为待标注图像的第u个视觉特征视图;D(u)为学习的第u个视图字典;ω(u)为第u个视图的权值因子; 为待标注图像第u个视图的稀疏系数向量; 为待标注图像视觉特征视图的稀疏系数 的均值向量;

通过加权平均所述待标注图像各视觉特征视图的重构系数向量 估计待标注图像的标签视图的稀疏系数向量,表达式为:式中, 为待标注图像的标签视图的稀疏系数向量。

说明书 :

一种多视图图像自动标注方法

技术领域

[0001] 本发明涉图像处理领域,尤其涉及一种多视图图像自动标注方法。

背景技术

[0002] 随着多媒体信息技术的迅猛发展,对海量图像数据库的有效管理与检索日益成为人们亟待解决的问题。目前,基于文本的图像检索方法仍然是许多图像搜素引擎检索相关图像的重要方法。因此,如果事先为图像分配反映其语义内容的关键词,将大大提高图像检索的准确性和效率。自动图像标注就是让计算机自动智能的完成这一任务。它利用已标注图像集或其他可获得的先验信息自动学习语义概念空间与视觉特征空间的映射关系,并利用这一关系来标注未知语义的图像。该任务难点在于图像的高层语义内容和底层视觉特征之间并不总是相关的,即存在语义鸿沟。现有的基于最近邻的图像标注方法取得了卓越的成绩,但由于测试过程需要与所有训练样本逐一比对带来较大运算量。多视图稀疏编码是图像自动标注中一个重要分支,但现有方法中各视图往往共享相同的稀疏系数,忽略了不同视图的差异性。如何有效利用各视图的相似性和差异性,提高图像自动标注性能还有待进一步研究。

发明内容

[0003] 针对上述现有技术存在的缺陷,本发明提供一种多视图图像自动标注方法,增强了计算机的自动图像标注性能。
[0004] 本发明提供的一种多视图图像自动标注方法,其改进之处在于,所述方法包括如下步骤:
[0005] (1)设置已标注图像的语义标签和多种视觉特征作为多种视图,输入到多视图稀疏模型中进行训练学习,得到各视图字典和各视图权值因子;所述各视图字典包括多个视觉特征视图字典和一个标签视图字典;
[0006] (2)输入待标注图像的多种视觉特征;
[0007] (3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数;
[0008] (4)将所述标签视图字典和所述标签视图的稀疏重构系数相乘,得到待标注图像语义标签的分值;
[0009] (5)将分值从高到低排列,选择前5个语义标签标注所述待标注图像。
[0010] 优选的,步骤(1)在进行训练学习前,对所述稀疏模型的目标函数进行修正,设置各视图使用不同的稀疏系数,增设加权的一致性正则项,使各视图稀疏系数同时具有差异性和相似性,得到修正后的目标函数,其表达式为:
[0011]
[0012]
[0013] 式中,v为视图序号,v=1,2,…,V+1;V为视觉特征数目;X(v)为所有训练图像第v个视图的特征矩阵, 其中X(V+1)是标签视图矩阵,N为训练图像数目,Pv为第v个视图的特征维度;D(v)为第v个视图字典, Nd为字典原子数目;α(v)为第v个视图的稀疏系数矩阵, F为Frobenius范数; 为控制稀疏系数各行之间稀疏性的正则项;||(D(v))T||1,∞为控制字典结构各列之间稀疏性的正则项; 为一致矩阵;
为控制各视图稀疏系数矩阵和一致矩阵之间不一致性的正则项,使各视图的稀疏系数矩阵与一致矩阵具有某种程度的相似性;ω(v)为第v个视图的权值因子,取值归一化在[0,1]范围内,且根据最大熵原理,满足约束条件 其中σ是熵的限制
值,使得ω(v)的分布不仅仅集中在某些特定视图上;λ1为稀疏系数正则项的调节系数;λ2为稀疏字典正则项的调节系数;λ3为一致正则项的调节系数。
[0014] 较优选的,步骤(1)所述多种视觉特征包括手工设计特征和基于VGG的深度学习特征;
[0015] 所述手工设计特征包括RGB、LAB、HSV、DenseHue、HarrisHue、DenseSIFT、HarrisSIFT、DenseSIFTV3H1、HarrisSIFTV3H1、DenseHueV3H1、HarrisHueV3H1、RGBV3H1、LABV3H1、HSVV3H1和GIST;
[0016] 当多种视图输入到多视图稀疏模型中进行训练学习,语义标签作为一个视图参与训练学习。
[0017] 较优选的,采用轮流优化方法求解所述修正后的目标函数,包括:
[0018] 固定第v个视图字典D(v)和第v个视图的权值因子ω(v)的值,简化所述修正后的目标函数为:
[0019]
[0020] 利用上式更新所述稀疏系数矩阵α(v)的值;
[0021] 当在一次迭代中所述稀疏系数矩阵α(v)的值更新后,计算一致矩阵 表达式为:
[0022]
[0023] 固定第v个视图的稀疏系数矩阵α(v)和第v个视图的权值因子ω(v)的值,简化所述修正后的目标函数为:
[0024]
[0025] 利用上式更新所述第v个视图字典D(v)的值;
[0026] 固定第v个视图字典D(v)和稀疏系数矩阵α(v)的值,简化所述修正后的目标函数为:
[0027]
[0028] 上式中,ξ是拉格朗日乘子,ξ>0;更新所述第v个视图的权值因子ω(v)的表达式为:
[0029]
[0030] 较优选的,步骤(3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数,具体包括:
[0031] 通过对下式求解,得到待标注图像各视觉特征视图的重构系数向量αt(v):
[0032]
[0033] 式中, 为待标注图像的视觉特征视图,v=1,2,…,V; 为待标注图像视觉特征视图的稀疏系数 的均值向量;
[0034] 通过加权平均所述待标注图像各视觉特征视图的重构系数向量 估计待标注图像的标签视图的稀疏系数向量,表达式为:
[0035]
[0036] 式中, 为待标注图像的标签视图的稀疏系数向量。
[0037] 本发明的技术方案中:
[0038] 1)提出了基于加权一致正则的多视图结构稀疏表示模型。考虑到同一幅图像的不同特征视图应同时具有相似性和差异性的特点,该模型允许各视图使用不同的稀疏系数,同时,利用一致正则项强化各视图稀疏系数与一致矩阵之间的相似性约束。因此,该模型可以同时利用各视图相似性和差异性的先验来进行编码和标注,有利于得到更优化的字典和稀疏系数。此外,考虑到不同视图对标注性能的贡献不同,该模型在一致正则项中对各视图引入不同的权值因子,并共同参与到字典和稀疏系数的学习过程中,自适应地为各视图分配不同的权值,从而达到优化选择多视图的目的,有利于提高标注性能。
[0039] 2)提出了基于多视图加权的标签预测机制。利用学习的视觉特征视图权值因子和重构测试图像得到的视觉特征视图的稀疏系数,通过加权重构计算测试图像标签视图的稀疏系数,避免了传统方法中各视图共享稀疏系数而忽略了各视图之间差异性的问题,为预测更准确的标签视图奠定了基础。
[0040] 3)基于ILSVRC2012数据集上预训练的卷积神经网络提取深度学习特征,并将其看作另一个视图与手工设计特征及标签信息一起纳入多视图学习框架中,集成更多的互补信息,改善标注性能。

附图说明

[0041] 图1为本发明实施例的流程图;
[0042] 图2为本发明实施例的在ESP Game数据集和IAPR TC-12数据集的性能分析示意图。

具体实施方式

[0043] 为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
[0044] 本实施例提出的一种多视图图像自动标注方法,其流程图如图1所示,具体包括如下步骤:
[0045] (1)设置已标注图像的语义标签和多种视觉特征作为多种视图,输入到多视图稀疏模型中进行训练学习,得到各视图字典和各视图权值因子。其中,各视图字典包括多个视觉特征视图字典和一个标签视图字典,多种视觉特征包括手工设计特征和基于VGG的深度学习特征;所述手工设计特征包括RGB、LAB、HSV、DenseHue、HarrisHue、DenseSIFT、HarrisSIFT、DenseSIFTV3H1、HarrisSIFTV3H1、DenseHueV3H1、HarrisHueV3H1、RGBV3H1、LABV3H1、HSVV3H1和GIST。当多种视图输入到多视图稀疏模型中进行训练学习,语义标签也作为一个视图参与训练学习。
[0046] 值得注意的是,本实施例对所述稀疏模型的目标函数进行修正,设置各视图使用不同的稀疏系数,增设加权的一致性正则项,使各视图稀疏系数同时具有差异性和相似性,得到修正后的目标函数,其表达式为:
[0047]
[0048]
[0049] 式中,v为视图序号,v=1,2,…,V+1;V为视觉特征数目;X(v)为所有训练图像第v个视图的特征矩阵, 其中X(V+1)是标签视图矩阵,N为训练图像数目,Pv为第v个视图的特征维度;D(v)为第v个视图字典, Nd为字典原子数目;α(v)为第v个视图的稀疏系数矩阵, F为Frobenius范数; 为控制稀疏系数各行之间稀疏性的正则项; 为控制字典结构各列之间稀疏性的正则项; 为一致矩阵;
为控制各视图稀疏系数矩阵和一致矩阵之间不一致性的正则项,使各视图的稀疏系数矩阵与一致矩阵具有某种程度的相似性;ω(v)为第v个视图的权值因子,取值归一化在[0,1]范(v)
围内,且根据最大熵原理,满足约束条件 其中σ是熵的限制值,使得ω
的分布不仅仅集中在某些特定视图上;λ1为稀疏系数正则项的调节系数;λ2为稀疏字典正则项的调节系数;λ3为一致正则项的调节系数。
[0050] 采用轮流优化方法求解所述修正后的目标函数,包括:
[0051] 固定第v个视图字典D(v)和第v个视图的权值因子ω(v)的值,简化所述修正后的目标函数为:
[0052]
[0053] 利用上式更新所述稀疏系数矩阵α(v)的值;
[0054] 当在一次迭代中所述稀疏系数矩阵α(v)的值更新后,计算一致矩阵 表达式为:
[0055]
[0056] 固定第v个视图的稀疏系数矩阵α(v)和第v个视图的权值因子ω(v)的值,简化所述修正后的目标函数为:
[0057]
[0058] 利用上式更新所述第v个视图字典D(v)的值;
[0059] 固定第v个视图字典D(v)和稀疏系数矩阵α(v)的值,简化所述修正后的目标函数为:
[0060]
[0061] 上式中,ξ是拉格朗日乘子,ξ>0;更新所述第v个视图的权值因子ω(v)的表达式为:
[0062]
[0063] (2)输入待标注图像的多种视觉特征。
[0064] (3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数,具体包括:
[0065] 通过对下式求解,得到待标注图像各视觉特征视图的重构系数向量αt(v):
[0066]
[0067] 式中, 为待标注图像的视觉特征视图,v=1,2,…,V; 为待标注图像视觉特征视图的稀疏系数 的均值向量;
[0068] 通过加权平均所述待标注图像各视觉特征视图的重构系数向量 估计待标注图像的标签视图的稀疏系数向量,表达式为:
[0069]
[0070] 式中, 为待标注图像的标签视图的稀疏系数向量。
[0071] (4)将所述标签视图字典和所述标签视图的稀疏重构系数相乘,得到待标注图像语义标签的分值,计算表达式为:
[0072]
[0073] 上式中, 为待标注图像的标签视图的稀疏系数;D(V+1)为学习的标签视图字典。 为待标注图像标签视图,其元素值可以看作每个标签的分值。
[0074] (5)将分值从高到低排列,选择前5个语义标签标注所述待标注图像。
[0075] 本实施例从上述步骤可以看出,引入的一致正则项可以同时利用各视图相似性和差异性的先验,学习的不同视图的权值因子能进一步利用不同视图对标注贡献不同的先验,有利于提高自动标注的查准率和查全率。
[0076] 本实施例采用ESP Game数据集和IAPR TC-12数据集进行数据验证,本实施例中有四个参数,稀疏系数正则项调节系数λ1、稀疏字典正则项调节系数λ2、一致正则项的调节系数λ3和拉格朗日乘子ξ。参数ξ按照经验在ESP Game数据集和IAPR TC-12数据集上设置为0.001。参数λ1、λ2和λ3在训练图像集上使用5折交叉验证在{1×10e|e=-5,-4,-3,-2,-1,0,范围内调节。最后λ1、λ2在ESP Game数据集上均设置为0.01,在IAPR TC-12数据集上分别设置为0.01和0.1。λ3在ESP Game和IAPR TC-12数据集上分别设置为0.1和0.01。由于初始化使用随机项,所有实验独立重复5次,并给出了平均结果。其中,一张室内餐桌的绘画图像,人工标注为chair,flower,red,room,table,采用本实施例的方法,其自动标注为chair,flower,painting,red,table;本实施例对一张网球比赛场景图像中,人工标注为court,man,player,tennis,采用本实施例的方法,其自动标注为court,man,player,tennis,net。
可见,自动标注词与人工标注基本一致,而且,部分与人工标注不一致的标注词也能反映图像内容,说明了本标注方法能够弥补人工标注中主观标注不足的问题。对应的,本实施例给出了通过现有技术的方法和采用本发明的方法在ESP Game数据集和IAPR TC-12数据集的性能,如图2所示,MSC表示多标签稀疏编码方法,MvMnSR表示多视图混合范数稀疏表示方法,mHDSC表示多视图Hessian判别稀疏编码方法,MvJSC表示多视图联合稀疏编码方法,KMvJSC表示核空间的多视图联合稀疏编码方法,RmSSR表示正则的多视图结构稀疏表示方法,即为本发明给出的方法。mSSR表示无正则项的多视图结构稀疏表示方法。图2中分别给出了仅使用手工设计特征、仅使用VGG的深度学习的特征以及同时使用以上特征的实验结果,分别表示为RmSSR_T、RmSSR_VGG和RmSSR_T+VGG。括号中的数据为各视图使用等权值的结果。通过对比,可以看出,在仅使用手工设计特征时RmSSR_T的大部分指标高于其他方法,其中,使用学习的视图权值得到的实验结果均高于或等同于使用等权值的情况,验证了该方法自动标注性能的优越性。此外,将手工设计特征与深度学习特征相结合后,各项指标值进一步提高,也表明手工设计特征和深度学习特征具有互补性信息,将两者集成使用能够进一步改善自动标注性能。
[0077] 本发明通过引入一个加权的一致正则项到多视图结构稀疏框架中进行图像自动标注,以得到更优化的稀疏表示和字典。可以看出,一致正则项约束可以同时利用各视图的相似性和差异性先验来进行编码和标注,而学习不同视图的权值因子能进一步利用不同视图对标注贡献不同的先验,有利于提高标注性能。本发明使用基于预训练的卷积神经网络提取的深度学习特征,与手工设计特征一起共同进行多视图学习,充分利用不同视图的互补信息进行判别。改善了标注性能。
[0078] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。