基于多语义码本图像特征表示方法转让专利

申请号 : CN201510744318.5

文献号 : CN105389588B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 熊红凯王博韬

申请人 : 上海交通大学

摘要 :

本发明涉及一种基于多语义码本图像特征表示方法,所述方法对于输入训练集合中的图像,做如下处理:第一步:在输入图像上密集计算图像局部特征,并将所有的局部特征按照给定的语义标注分成若干类别;第二步:根据第一步的多个语义类别的局部特征建立联合学习的优化问题,求解得到一个全局码本和多个语义码本;第三步:利用各个语义类别的局部特征,对每个语义类别训练相应的语义分类器;第四步:利用全局码本和语义码本、语义分类器对图像进行基于上下文的特征量化和语义聚合,最终表示成图像特征向量,即图像表示。实验证明本方法能够更精细地表示图像的视觉特征,在场景识别上相比传统方法具有更高的准确度。

权利要求 :

1.一种基于多语义码本图像特征表示方法,其特征在于:所述方法对于输入训练集合中的图像,做如下处理:第一步:在输入图像上密集计算图像局部特征,并将所有的局部特征按照给定的语义标注分成若干类别;

第二步:根据第一步的多个语义类别的局部特征建立多个语义码本联合学习优化问题的目标方程,求解得到一个全局码本和多个语义码本;

(1)在图像中多个位置多个尺度密集计算大量局部特征,记为 其中xi是第i个图像局部特征向量,维度为D,N是全部局部特征的数量;每个局部特征都由注释提供一个语义类别标签,属于第s类语义的局部特征集合记为 Ns是第s类语义的特征数量,S是语义类别数目;

(2)全局码本记为B={b1,…,bK},其中bi是第i个码字,是一个D维向量,全局码本的码字总数为K;每个语义码本都是全局码本的一个子集,第s个语义码本码字的下标集合记为优化的目标方程为其中第一项为聚类误差项,它描述了每一个语义类别下的局部特征到离它最近的码字的平均距离,准确的码字设置应使得码字尽量接近特征分布的中心;λ是稀疏系数,λ越大则语义码本的码子越稀疏,其中 是特征x在被π索引的码本B下的聚类误差具体定义为第二项为语义码本的稀疏项,其中 是某个局部特征,j是语义码字的标号,它是每个语义码本码字数量的均值;根据信号表示的特点,码字越稀疏表示的开销越低,其中|πs|是表示集合π中的元素数量;

第三步:利用各个语义类别的局部特征,对每个语义类别训练相应的语义分类器;

第四步:利用全局码本和语义码本、语义分类器对图像进行基于上下文的特征量化和语义聚合,最终表示成图像特征向量,即图像表示。

2.根据权利要求1所述的方法,其特征是,所述多个语义码本联合学习优化问题的目标方程,由两项构成:第一项为聚类误差,刻画了局部图像特征向量和对应的码字的平均距离,该项越小表示码字越符合样本分布;第二项为各语义码本的码字数量,该项越小则语义码字在全局码本中的表示更稀疏。

3.根据权利要求1所述的方法,其特征是,所述联合学习优化问题,通过交替求解两个子问题得到最优解,其中:第一个子问题是一个连续优化问题:给定各语义码本的码字分配,最优化全局码本,使得聚类误差最小;

第二个子问题是一个离散优化问题:给定全局码本,最优化各语义码本的码字分配,使得各语义类别的目标方程值最小。

4.根据权利要求3所述的方法,其特征是,所述第一个子问题,即连续优化问题,其解法为:通过交替优化全局码字和特征向量的码字标签得到最优的全局码字;给定特征向量的码字标签,最优的全局码字具有解析解,即分配到该码字的全体特征向量的均值;给定全局码本,某特征向量的最优码字标签为其语义码本的最近邻。

5.根据权利要求3所述的方法,其特征是,所述第二个子问题,即离散优化问题,其解法为:给定全局码本,对每个语义类别,其目标方程由两项构成:聚类误差和码字数量,变量为全局码字的子集,是一个离散优化问题,可以证明这两项均具有亚模特性,因此通过最小化亚模函数的优化方法可以得到最优的语义码字分配。

6.根据权利要求1所述的方法,其特征是,所述的对每个语义类别训练相应的语义分类器,具体为:对于某一类语义类别,将该类别的局部特征作为正样本,其它类别的局部特征作为负样本,利用线性支持向量机训练得到语义分类器。

7.根据权利要求6所述的方法,其特征是,所述基于上下文的特征量化和语义聚合,最终表示成图像特征向量,具体为:对于每个局部图像特征,计算其全局码字标签和在各语义环境下的语义码字标签,该特征为全局码字直方图和各语义码字直方图投票,其中为全局码字直方图投票时权重为1,而为语义码字直方图投票时权重为语义响应值;最终,将全局码字直方图和语义码字直方图级联最终构成基于语义上下文的图像表示。

8.根据权利要求1-7任一项所述的方法,其特征是,所述第二步,具体为:基于多种语义类别的局部特征建立多任务码本学习优化问题的目标方程,将目标问题分解为两个子问题进行迭代求解:第一个子问题固定语义码字分配,优化全局码字,通过凸优化方法求解;

第二个子问题固定全局码本,优化语义码字分配,通过亚模优化方法求解得到最优的语义码本;

两个子问题交替求解,直到收敛,即全局码字的变动足够小,最终得到最优的全局码本和语义码本。

9.根据权利要求1-7任一项所述的方法,其特征是,所述第四步,具体为:

(1)根据得到的全局码本和语义码本对局部特征进行量化,其中局部特征的全局码字标签为其在全局码本中的最近邻,其语义码字标签为其在语义码本中的最近邻;

(2)利用得到的语义分类器计算各局部特征的语义响应,及局部特征和分类器系数的点积;

利用(1)得到的量化结果和(2)得到的语义响应进行局部特征的语义上下文聚合,得到最终的图像特征向量,即图像表示。

说明书 :

基于多语义码本图像特征表示方法

技术领域

[0001] 本发明涉及一种信号处理的计算机视觉技术领域的方法,具体是一种基于多语义码本图像特征表示方法。

背景技术

[0002] 传统的基于词袋模型(Bag-of-Words Model)的图像分类算法的基本框架主要包含四个部分:(1)特征提取;(2)特征量化;(3)特征聚合;(4)图像分类。第一步特征提取在图像的各个位置和尺度密集的计算大量局部特征。常用的局部图像特征包括SIFT,HOG,LBP等。第二步特征量化根据给定的码本,将各个特征量化为一个离散值,一般是码本中离该特征向量距离最近的码字序号。码本的获得可以通过样本聚类得到,常用的方法有k-means和spectral clustering等。第三步特征聚合将图像中局部特征对应的码字标签按照某种法则聚合成一个固定长度的图像特征向量,常用的方法有空间金字塔匹配(spatial pyramid matching,SPM)。第四步图像分类将图像特征向量送到分类器中计算判别值,常用的分类器有支持矢量机(SVM),AdaBoost和卷积神经网络(CNN)。
[0003] 该框架中存在的不足之处主要有两点:(1)在步骤二中所使用的码本,大量方法是通过对图像局部特征以非监督的方式聚类得到。这样得到的码本反映了图像局部区域的低层像素分布特性,如颜色、纹理、形状等,缺乏语义层面解释。而近年来计算机视觉领域的研究表明,中层的语义特征,如Object Bank和Classemes等,比低层图像特征具有更好的表示能力和区分性。其原因在于这些中层特征表示的不仅是图像的像素分布特性,而具有更高层的语义信息,如物体存在的概率,视觉属性的强弱等等。这些语义信息往往与图像分类的主观标准高度相关,因此具有更强的区分性。(2)在步骤三中,常用的空间金字塔匹配方法将图像在多个尺度分割成不同大小、不同数量的区块,然后在各区块中统计码字的分布特征。这种空间聚合方法相比全局聚合在一定程度上保留了局部特征的空间信息。然而通过人为划分区块的方式得到的对应关系却过于粗糙,不符合图像中各元素的真实空间分布关系。解决方法之一是将硬性的空间聚合改为语义聚合,对不同语义类型的区域中的局部特征单独聚合,能够得到更细粒度地图像表示。

发明内容

[0004] 本发明针对现有技术的不足,提供了一种针对图像局部特征的基于多语义码本图像特征表示方法。
[0005] 本发明是通过以下技术方案实现的:利用图像中提取的局部特征及其语义标签,依据多任务学习的理论框架,联合训练多个语义码本。利用语义码本对图像局部特征进行全局量化和基于上下文的语义量化,最终结合语义响应加权聚合得到一种新颖的图像表示,可以用于分类识别、分类、理解等任务。
[0006] 本发明所述的基于多任务语义码本的图像表示方法,所述方法对于输入训练集合中的图像,做如下处理:
[0007] 第一步:在输入图像上密集计算图像局部特征,并将所有的局部特征按照给定的语义标注分成若干类别;
[0008] 第二步:根据第一步的多个语义类别的局部特征建立多个语义码本联合学习优化问题的目标方程,求解得到一个全局码本和多个语义码本;
[0009] 第三步:利用各个语义类别的局部特征,对每个语义类别训练相应的语义分类器;
[0010] 第四步:利用全局码本和语义码本、语义分类器对图像进行基于上下文的特征量化和语义聚合,最终表示成图像特征向量,即图像表示。
[0011] 进一步的,所述多个语义码本联合学习优化问题的目标方程,由两项构成:第一项为聚类误差,刻画了局部图像特征向量和对应的码字的平均距离,该项越小表示码字越符合样本分布;第二项为各语义码本的码字数量,该项越小则语义码字在全局码本中的表示更稀疏。
[0012] 优选地,所述联合学习优化问题,通过交替求解两个子问题得到最优解,其中:
[0013] 第一个子问题是一个连续优化问题:给定各语义码本的码字分配,最优化全局码本,使得聚类误差最小;
[0014] 第二个子问题是一个离散优化问题:给定全局码本,最优化各语义码本的码字分配,使得各语义类别的目标方程值最小。
[0015] 更优选地,所述第一个子问题,即连续优化问题,其解法为:通过交替优化全局码字和特征向量的码字标签得到最优的全局码字;给定特征向量的码字标签,最优的全局码字具有解析解,即分配到该码字的全体特征向量的均值;给定全局码本,某特征向量的最优码字标签为其语义码本的最近邻。
[0016] 更优选地,所述第二个子问题,即离散优化问题,其解法为:给定全局码本,对每个语义类别,其目标方程由两项构成:聚类误差和码字数量,变量为全局码字的子集,是一个离散优化问题,可以证明这两项均具有亚模特性,因此通过最小化亚模函数的优化方法可以得到最优的语义码字分配。
[0017] 优选地,所述基于上下文的特征量化和语义聚合,最终表示成图像特征向量,具体为:对于每个局部图像特征,计算其全局码字标签和在各语义环境下的语义码字标签,该特征为全局码字直方图和各语义码字直方图投票,其中为全局码字直方图投票时权重为1,而为语义码字直方图投票时权重为语义响应值;最终,将全局码字直方图和语义码字直方图级联最终构成基于语义上下文的图像表示。
[0018] 进一步的,所述第二步,具体为:基于多种语义类别的局部特征建立多任务码本学习优化问题的目标方程,将目标问题分解为两个子问题进行迭代求解:
[0019] 第一个子问题固定语义码字分配,优化全局码字,通过凸优化方法求解;
[0020] 第二个子问题固定全局码本,优化语义码字分配,通过亚模优化方法求解得到最优的语义码本;
[0021] 两个子问题交替求解,直到收敛,即全局码字的变动足够小,最终得到最优的全局码本和语义码本。
[0022] 进一步的,所述第三步,具体为:对于每一个语义类别,训练该类别的语义分类器,把该类别的局部特征作为正样本,其它类别的局部特征作为负样本,利用线性支持矢量机训练得到分类器。
[0023] 进一步的,所述第四步,具体为:
[0024] (1)根据得到的全局码本和语义码本对局部特征进行量化,其中局部特征的全局码字标签为其在全局码本中的最近邻,其语义码字标签为其在语义码本中的最近邻;
[0025] (2)利用得到的语义分类器计算各局部特征的语义响应,及局部特征和分类器系数的点积;
[0026] 利用(1)得到的量化结果和(2)得到的语义响应进行局部特征的语义上下文聚合,得到最终的图像特征向量,即图像表示。
[0027] 进一步的,所述图像特征向量,可以进行图像分类、场景理解、对象识别等多种实际应用。
[0028] 与现有技术相比,本发明具有以下有益效果:
[0029] 相比传统的全局码本量化方法,本发明提出的语义码本能够更细致的捕捉不同语义类型的图像区域的视觉特性,具有更强的区分性。与单任务码本学习相比,本发明利用多任务学习的思想,联合训练一组紧致的语义码本,大大降低了不同语义码本间的冗余性和存储要求。
[0030] 与传统的空间聚合方法相比,本发明通过图像的语义解析和语义码本,更精细的表示出了图像的元素结构和语义信息,作为一类中层图像特征,比基于像素本身的低层的图像特征具有更强的区分能力。在多种实际应用中,如图像分类、场景理解、对象识别中相比传统方法能够得到更好的效果。

附图说明

[0031] 通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0032] 图1是本发明一实施例的方法流程图。

具体实施方式

[0033] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0034] 本发明的基于多任务语义码本的图像表示方法,利用多任务学习的技术理论共同训练多个语义码本对图像的局部特征进行编码和量化,并设计了一种基于语义上下文的图像描述子对整幅图像进行视觉特征的表示。基于从图像中不同语义类型区域中提取的局部图像特征,训练得到一组致密的语义码本,每个语义码本刻画了该类型区域的颜色、纹理、形状等视觉特性。此外,各语义码本的码字均是一个全局码本的子集,从而能够得到致密地、高效地表示。基于语义码本和全局码本的量化结果,提出一种基于语义上下文的图像中层特征描述子,将各码字的出现频率在不同语义上下文环境下加权统计,最终得到一个既包含全局信息也包含语义信息的图像特征向量。
[0035] 基于多语义码本图像特征表示方法,具体过程为:
[0036] (1)在图像中多个位置多个尺度密集计算大量局部特征,并从注释获得各特征的语义类别标签。
[0037] (2)基于多种语义类别的局部特征建立多任务码本学习优化问题的目标方程。
[0038] 将目标问题分解为两个子问题,进行迭代求解:
[0039] 第一个子问题固定语义码字分配,优化全局码字,通过凸优化方法求解。
[0040] 第二个子问题固定全局码字,优化语义码字分配,通过亚模优化方法求解。
[0041] 两个子问题交替求解,直到收敛,即全局码本的码字变化足够小,最终得到最优的全局码本和语义码本。
[0042] (3)对于每一个语义类别,训练该类别的语义分类器,具体为:把该类别的局部特征作为正样本,其它类别的局部特征作为负样本,利用线性支持矢量机训练得到分类器。
[0043] (4)根据第六步全局码本和语义码本对局部特征进行量化,其中局部特征的全局码字标签为其在全局码本中的最近邻,其语义码字标签为其在语义码本中的最近邻。
[0044] (5)利用得到的语义分类器计算各局部特征的语义响应,及局部特征和分类器系数的点积。
[0045] (6)利用得到的量化结果和得到的语义响应进行局部特征的语义上下文聚合,得到最终的图像特征向量,即图像表示。
[0046] 进一步的,对上述技术细节详细说明如下:
[0047] (1)在图像中多个位置多个尺度密集计算大量局部特征,如SIFT,HOG,LBP等,记为其中xi是第i个图像局部特征向量,维度为D,N是全部局部特征的数量。每个局部特征都由注释提供一个语义类别标签,如“天空”,“树木”等。属于第s类语义的局部特征集合记为 Ns是第s类语义的特征数量,S是语义类别数目。
[0048] (2)全局码本记为B={b1,…,bK},其中bi是第i个码字,是一个D维向量。全局码本的码字总数为K。每个语义码本都是全局码本的一个子集,第s个语义码本码字的下标集合记为 优化的目标方程为
[0049]
[0050] 其中第一项为聚类误差项,它描述了每一个语义类别下的局部特征到离它最近的码字的平均距离,准确的码字设置应使得码字尽量接近特征分布的中心。λ是稀疏系数,λ越大则语义码本的码子越稀疏。其中 是特征x在被π索引的码本B下的聚类误差具体定义为
[0051]
[0052] 第二项为语义码本的稀疏项,其中x是某个局部特征,j是语义码字的标号,它是每个语义码本码字数量的均值。根据信号表示的特点,码字越稀疏表示的开销越低。其中|π|是表示集合π中的元素数量。
[0053] (3)由于目标方程的优化变量包含了连续变量B和离散变量 一般数学方法无法直接优化该问题,因此,本发明将原问题分解为两个子问题,通过交替求解两个子问题最终求得原目标函数的最优解。其中第一个子问题为:
[0054] 固定语义码本的码字分配 不变,优化全局码本的码字,即
[0055]
[0056] 其中 是第s个语义类别的第i个局部特征。
[0057] 第二个子问题为:固定全局码本B不变,优化语义码本的码字分配,即[0058]
[0059] (4)第一个子问题是一个凸优化问题,可以用期望最大(EM)方法求解最优的全局码本B。
[0060] (5)第二个子问题是一个离散优化问题,由于此处全局码本B固定,聚类误差仅是语义码字的函数,不同语义间聚类误差的耦合被解开,因此可以依次对每个语义类别求解最优的码字组合,这是一个离散优化问题。可以证明聚类误差函数满足亚模特性,集合元素数量也是一个亚模函数,因此可以通过亚模优化算法求得最优的码字子集。
[0061] (6)两个子问题交替求解,每次把一个子问题的最优解带入另一个子问题作为条件,然后求解相关变量,如此往复。直到全局码本码字的变化足够小,即可视为算法已收敛,即
[0062]
[0063] 足够小为止。其中k是码字的标号,t是迭代次数,K是码字总数。典型门限值可设为0.01。
[0064] (7)对于每一个语义类别,训练该类别的语义分类器对于语义类别s,将该类别的局部特征X+=XS作为正样本,其它类别的局部特征X-=Uj≠sXj作为负样本,利用线性支持向量机训练得到第s类的语义分类器(ws,ds),其中 是分类器系数,是一个D维向量,ds是偏移项。
[0065] (8)根据全局码本和语义码本对局部特征进行量化。其中特征Xi的全局码字标签为 即全局码本中离它最近的码字序号。其中bj代表第j个码字。它在s语义环境下的码字标签为 即第s类语义码本中离它最近的码
字序号。
[0066] (9)利用语义分类器计算各局部特征的语义响应。对于某局部特征 其中D是局部特征的维度,它在第s类语义下的响应值为 其中(ws,ds)是第s类语义分类器的参数。
[0067] (10)根据局部特征的码字标签和语义概率计算基于语义上下文的图像表示。每个局部特征为其量化后的码字投票,其中为全局码字 的投票权重为1,为语义码字 的投票权重为 最终统计所有全局码字和语义码字投票权重,归一化后级联形成最终的基于语义上下文的图像描述子,维度为 得到一个既包含全局信息也包含语义信息的图像特征向量。
[0068] 实施效果
[0069] 根据上述步骤,实验采用MSRC-v2公开数据集进行测试。
[0070] 该测试数据集包含591张图像,分为20个场景类别,图像内容包含23类语义元素。在场景分类的测试中,本发明与四篇论文的方法进行比较,分别为:
[0071] (a)L.Li,et al.“, Object Bank:A High-Level Image Representation for Scene Classification and Semantic Feature Sparsification”,NIPS,2010.[0072] (b)J.Wang,et al.,“Locality-constrained Linear Coding for image classification”,CVPR,2010.
[0073] (c)S.Lazebnik et al.,“Beyond Bags of Features:Spatial Pyramid Matching for Recognizing Natural Scene Categories”,CVPR,2006.
[0074] (d)J.Yang et al.,“Linear Spatial Pyramid Matching Using Sparse Coding for Image Classification”,CVPR,2009.
[0075] 实验关键参数设置为:
[0076] (1)图像局部特征采用CSIFT描述子,每8像素均匀采样。
[0077] (2)每类场景中60%的图像用于训练,40%的图像用于测试。
[0078] (3)分类器采用线性支持向量机。
[0079] 实验结果为:
[0080] 20类场景的平均分类准确度四种对比方法分别为:(1)0.70;(2)0.73;(3)0.62;0.75,而本发明的准确度为0.90,显著高于传统方法。
[0081] 实验证明本方法能够更精细地表示图像的视觉特征,在场景识别上相比传统方法具有更高的准确度。
[0082] 以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。