一种基于改进的推土距离的混合高斯模型匹配方法转让专利

申请号 : CN201610589709.9

文献号 : CN106250918B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李培华王旗龙郝华

申请人 : 大连理工大学

摘要 :

本发明提出了一种适用于图像分类和图像检索的算法系统。该算法主要包括图像建模和图像匹配两个模块。在图像建模中,为了提高特征的描述能力,该算法首次利用深层卷积神经网络提取图像的深度特征,并在此基础上利用混合高斯模型建模表示图像。在图像匹配中,针对推土距离算法的效率以及对噪声敏感两个问题,提出了一种准确高效的改进的推土距离算法,在算法设计过程中加入了高斯噪声并引入了稀疏约束。同时,在设计改进的推土距离算法中,针对现有测地距离度量算法设计的缺陷,本发明在考虑了高斯分布的黎曼几何结构后设计了三种测地距离,用以更准确地度量高斯分布之间的距离。

权利要求 :

1.一种基于改进的推土距离的混合高斯模型匹配方法,其特征在于以下步骤:步骤1:提取图像的深层卷积神经网络特征;将图像与已训练好的卷积神经网络CNN进行卷积运算,将网络的最后一层卷积层输出作为图像的卷积神经网络特征;

步骤2:混合高斯模型建模图像;利用GMM描述图像的深层卷积神经网络特征在特征空间的分布,每幅图像由1个含有多个单高斯分布的GMM模型表示;

所述的利用深层卷积神经网络特征建模混合高斯模型,具体过程如下:

首先,利用已经训练好的19层的VGG-VD网络提取图像的深层卷积神经网络特征,对于一幅图像的特征,用含有n个单高斯的混合高斯模型G表示;

其中,N(X|μi,∑i)表示权重为ωi的第i个单高斯,μi,∑i分别表示第i个单高斯的均值向量和协方差矩阵;

步骤3:利用改进的推土距离算法计算图像之间的距离,通过步骤2,图像之间的距离转化为了GMM模型之间的距离,利用改进的推土距离算法计算GMM之间的距离;在改进的推土距离算法计算过程中,利用一种改进的高斯嵌入距离度量两个高斯分布之间的距离;

步骤4:计算相似性矩阵;通过第3步,计算所有图像之间的距离,构成距离矩阵;

步骤5:图像匹配并返回结果;对于图像分类问题,将第4步得到的相似性矩阵送入核化的支持向量机Kernel SVM中进行分类;对于图像检索问题,利用步骤4计算得到的距离矩阵,返回与被检索图像距离最小的N幅图片,所述利用改进的推土距离算法计算图像之间的距离,具体过程如下:

对于图像I1和I2,它们的GMM分别为 和 表示高斯分

布 和 之间的测地距离;EMD算法的表达式为:

其中,d12是一个n1n2维的向量,向量中的元素为两个混合高斯模型中高斯分布 与之间的测地距离 A12是一个元素为0或1的(n1+n2)×(n1n2)的系数矩阵;

是由混合高斯模型中各个高斯分布的权重组成的向量;

上述推土距离算法利用单纯形算法求解;

由于 在推土距离算法在保证收敛到最优解f12时,f12中的非0元

素个数少于(n1+n2)/(n1n2),所以f12天然地具有稀疏的特性;同时,在考虑噪声影响的情况下,推土距离算法的约束条件调整为A12f12=W+ν12,其中ν12是0均值的高斯噪声;令D12f12=C,其中D12是对角元素为d12的对角阵,所以有 改进的推土距离算法写为:其中,A,W与EMD算法中的表示一致,分别是系数矩阵和权重向量;D是一个对角元素为高斯分布 之间的测地距离 的对角矩阵,λ>0是一个常数的正则项,控制算法的稀疏性;||·||2和||·||1分别表示二范数和一范数;由于两个高斯分布之间的距离可能为0,为了能够计算矩阵D的逆,在D的每一个对角元素上加了一个很小的值;

其次,在改进的推土距离算法中度量高斯分布之间的测地距离时,由于高斯分布不仅具有概率统计的特性,同时也是一个黎曼流形,采用下述方法用于度量两个高斯分布之间的距离;

高斯分布的空间是一个黎曼流形,并且可以嵌入到对称正定SPD矩阵中;令N(0,I)表示一个均值为0,协方差矩阵为单位阵的k维高斯分布;如果随机向量x服从N(0,I),那么它的仿射变换Qx+μ服从N(μ,∑),其中,∑可以分解为∑=QTQ,|Q|>0,|·|表示矩阵的行列式;

于是,高斯分布可以通过仿射变换(μ,Q)表示;令τ1表示从仿射群 Q∈Rk×k,|Q|>0}到一般线性群S={S|S∈R(k+1)×(k+1),|S|>0};τ2表示从一般线性群S到对称正定SPD矩阵 P=PT,|P|>0}的映射,即:其中,CQ=|Q|-1(k+1);通过公式(4)中的两个映射,一个k维的高斯分布N(μ,∑)就可以嵌入到SPD矩阵空间中,并且由一个(k+1)×(k+1)的SPD矩阵唯一地表示,即:由于在嵌入过程中,均值向量μ与协方差矩阵∑的量级相差较大,所以改进的高斯嵌入距离在嵌入过程中引入了均衡参数γ:由于SPD矩阵空间是一个李群且形成了一个黎曼流形,Log-欧式算法常用来度量此空间内的距离,在这样的度量框架下 具有线性空间结构, 的李代数Sn是一个线性空间,矩阵的指数映射exp: 是一一对应平滑的等距映射,这使得在Sn上的操作等于在 上的操作;两个SPD矩阵P1,P2的测地距离为:d(P1,P2)=||log(P1)-log(P2)||F          (7)其中,log表示矩阵的对数运算,||·||F表示矩阵的F-范数;由此计算得到度量高斯分布间的测地距离方法。

说明书 :

一种基于改进的推土距离的混合高斯模型匹配方法

技术领域

[0001] 本发明涉及计算机视觉、概率统计、黎曼几何技术领域,具体利用深层卷积神经网络特征建模混合高斯模型,并针对混合高斯模型之间相似性的度量,提出一种高效且鲁棒的度量算法。

背景技术

[0002] 在图像处理过程中,图像的特征表示作为图像处理的第一步,有着非常重要的作用。图像的特征表示主要通过一系列算法将图像表示为一个或多个数学意义上的矩阵。现阶段的图像特征表示方法主要分为两类:基于手工设计的特征和基于深层卷积神经网络的特征。前者计算简单高效,包括Scale-invariant feature transform(SIFT)、Histogram of Oriented Gradient(HOG)、Local Binary Pattern(LBP)等,后者虽然计算时间较长,但是有很强的描述能力,常用的卷积神经网络包括Krizhevsky等人在文献[Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C],NIPS 2012:1097-1105]中提出的AlexNet,以及之后研究者在此基础上提出的GoogleNet、VGGNet等。本方法利用Simonyan等人在文献[Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[C],ICLR 2015]中提出的19层的VGGNet提取图像的深度特征,以表示图像。
[0003] 混合高斯模型(Gaussian Mixture Model-GMM)具有很强的数据建模能力,可以很好地建模高维特征空间中特征描述子的分布,因此混合高斯模型GMM常被用于描述图像,本方法通过GMM建模描述图像,并首次利用深层卷积神经网络特征建模GMM。成功建模之后的图像可以通过一个GMM表示,于是图像之间的相似性可以看作是GMM之间的相似性。但是,GMM之间相似性的度量一直以来都是研究的重点和难点。在已有的GMM相似性匹配算法中,推土距离(The Earth Mover’s Distance-EMD)算法是一个很好的选择,它将GMM之间的匹配问题巧妙地转化为了运输问题。但是,传统的EMD算法仍然存在计算效率和噪声敏感的问题,本方法针对这些不足提出了一种改进的推土距离算法(The Improved-Earth Mover’s Distance-I-EMD)。I-EMD算法在EMD算法的基础上引入了稀疏约束,并加入了高斯噪声以增加算法对噪声的鲁棒性。另一方面,在EMD相关算法中,一个非常重要的计算过程是度量两个GMM中任意高斯分布之间的测地距离。现有的距离度量算法往往只考虑了高斯分布的概率特性,例如常用的马氏距离、巴氏距离、KL散度等度量算法。然而,实际上高斯分布不仅是一个概率分布,同时还构成了一个黎曼流形空间,所以在度量高斯分布之间的距离时也应该考虑到其黎曼几何结构。

发明内容

[0004] 本发明要解决的技术问题是:将基于深层卷积神经网络的特征用于建模混合高斯模型以描述图像,同时准确高效地度量两个混合高斯模型之间的距离。
[0005] 本发明采用的技术方案是:
[0006] 一种基于改进的推土距离的混合高斯模型匹配方法,包括以下步骤:
[0007] 步骤1:提取图像的深层卷积神经网络特征。将图像与已训练好的卷积神经网络(CNN,Convolutional Neural Network)进行卷积运算,将网络的最后一层卷积层输出作为图像的卷积神经网络特征。
[0008] 步骤2:混合高斯模型建模图像。利用GMM描述图像的深层卷积神经网络特征在特征空间的分布,每幅图像由1个含有多个单高斯分布的GMM模型表示。具体过程如下:
[0009] 首先,利用已经训练好的19层的VGGNet提取图像的深层卷积神经网络特征,对于一幅图像的特征,用含有n个单高斯的混合高斯模型G表示;
[0010]
[0011] 其中,N(X|μi,∑i)表示权重为ωi的第i个单高斯,μi,∑i分别表示第i个单高斯的均值向量和协方差矩阵。
[0012] 步骤3:利用改进的推土距离算法计算图像之间的距离。通过第2步,图像之间的距离转化为了GMM模型之间的距离,利用本发明提出的I-EMD算法计算GMM之间的距离。在I-EMD算法计算过程中,利用本发明提出的三种不同测地距离度量两个高斯分布之间的距离。
[0013] 步骤4:计算相似性矩阵。通过第3步,计算所图像之间的距离,构成距离矩阵(相似性矩阵)。
[0014] 步骤5:图像匹配并返回结果。对于图像分类问题,将第4步得到的相似性矩阵送入核化的支持向量机(Kernel SVM)中进行分类。对于图像检索问题,利用第4步计算得到的距离矩阵,返回与被检索图像距离最小的N幅图片。
[0015] 本发明提出了一种基于改进的推土距离的混合高斯模型匹配方法,在算法设计过程中加入了高斯噪声并引入了稀疏约束。该方法提供了三种距离度量方式,用来度量高斯分布之间的距离(相似性)。本方法提出的改进的推土距离系统,计算准确高效,且在图像分类、图像检索等多媒体领域具有广泛的应用前景。

附图说明

[0016] 附图1是系统流程框图。
[0017] 附图2是本发明系统在图像分类的示意图。其中:(a)输入图像;(b)将输入图像送入19层的VGGNet,并将其最后一层卷积层输出作为图像的深层卷积神经网络特征;(c)利用GMM模型表示图像;(d)通过本发明提出的I-EMD计算GMM之间的距离,其中高斯分布之间的距离通过本发明提出的三种测地距离计算得到;(e)根据I-EMD算法的度量结果得到相似性矩阵;(f)将相似性矩阵送入核化的支持向量机中进行分类。
[0018] 附图3是推土距离算法示意图。其中: 表示第p个GMM中第i个单高斯的权重,表示第p个GMM中第i个单高斯和第q个GMM中第j个单高斯之间的测地距离。

具体实施方式

[0019] 本发明提出了一种基于深层卷积神经网络的改进的推土距离算法系统。技术核心在于使用了深层卷积神经网络提取图像特征并通过GMM建模图像,通过I-EMD算法实现GMM之间的匹配,其中利用了高斯分布的黎曼几何结构设计度量高斯分布之间的距离。本发明的具体实施包括以下步骤(系统流程图以及在图像分类上的示意图分别如附图1,附图2所示):
[0020] 步骤1:提取图像的深层卷积神经网络特征。对图像做尺度变换,得到3个不同尺度下的图像,将3个尺度的图像与提前训练好的19层的VGGNet进行卷积运算,取最后一层卷积层(第16层)512维的输出作为输入图像的深层卷积神经网络特征,记为X。
[0021] 步骤2:利用GMM建模图像特征描述子所在特征空间的概率分布。对于一幅图像的特征X,用含有n个单高斯的混合高斯模型G表示。
[0022]
[0023] 其中,N(X|μi,∑i)表示权重为ωi的第i个单高斯,μi,∑i分别表示第i个单高斯的均值向量和协方差矩阵。
[0024] 步骤3:利用改进的推土距离(I-EMD)算法计算任意两幅图像之间的距离。本步骤分为两部分:首先简单介绍推土距离(EMD)算法,并在此基础上提出I-EMD(见3.1);然后从黎曼流形结构的角度提出三种测地距离用以度量高斯分布间的距离(见3.2)。
[0025] 3.1改进的推土距离算法
[0026] EMD算法(如附图3所示)是一种交叉运输的度量方法,特别适用于度量两个GMM之间的距离,对于图像I1和I2,它们的GMM分别为 和 表示高斯分布 和 之间的测地距离。EMD算法计算将“土”从源GMMG1运到目的GMMG2的最小代价,其算法表达式为:
[0027]
[0028] 其中,d12是一个n1n2维的向量,向量中的元素为两个混合高斯模型中高斯分布与 之间的测地距离 A12是一个元素为0或1的(n1+n2)×(n1n2)的系数矩阵。是由混合高斯模型中各个高斯分布的权重组成的向量。
上述推土距离算法可以利用单纯形算法求解。
[0029] 本发明在EMD算法的基础上设计提出了I-EMD算法,此算法不仅具有稀疏性,而且对噪声鲁棒,可以准确高效地度量两个GMM之间的距离。下面将详细介绍改I-EMD算法。
[0030] 由于 在推土距离算法在保证收敛到最优解f12时,f12中的非0元素个数少于(n1+n2)/(n1n2),所以f12天然地具有稀疏的特性。同时,在考虑噪声影响的情况下,推土距离算法的约束条件调整为A12f12=W+ν12,其中ν12是0均值的高斯噪声。令D12f12=C,其中D12是对角元素为d12的对角阵,所以有 因此I-EMD算法可以写为:
[0031]
[0032] 其中,A,W与EMD算法中的表示一致,分别是系数矩阵和权重向量。D是一个对角元素为高斯分布 之间的测地距离 的对角矩阵,λ>0是一个常数的正则项,可以控制算法的稀疏性。||·||2和||·||1分别表示二范数和一范数。由于两个高斯分布之间的距离可能为0,为了能够计算矩阵D的逆,本方法中在D的每一个对角元素上加了一个很小的值(例如,1e-12)。
[0033] 3.2高斯分布间的测地距离
[0034] I-EMD可以看作是一个经典的稀疏表达的问题,距离矩阵D的逆与系数矩阵A的乘积可以看作是稀疏表示中的字典。众所周知,字典对稀疏表达的影响非常大,所以两个高斯分布之间的测地距离对I-EMD算法非常重要。而且,由于高斯分布不仅具有概率统计的特性,同时也是一个黎曼流形,所以高斯分布之间的距离度量应该考虑到这两个方面。本发明从黎曼流形的角度,设计提出了三种测地距离用于度量两个高斯分布之间的距离。
[0035] 方法1:嵌入高斯距离
[0036] 高斯分布的空间是一个黎曼流形,并且可以嵌入到对称正定(SPD)矩阵中。令N(0,I)表示一个均值为0,协方差矩阵为单位阵的k维高斯分布。如果随机向量x服从N(0,I),那么它的仿射变换Qx+μ服从N(μ,Ε),其中,Ε可以分解为Ε=QTQ,|Q|>0,|·|表示矩阵的行列式。于是,高斯分布可以通过仿射变换(μ,Q)表示。令τ1表示从仿射群到一般线性群Lk+1={S|S∈R(k+1)×(k+1),|S|>0};τ2表示从一般线性群Lk+1到对称正定(SPD)矩阵
的映射,即:
[0037]
[0038] 其中,CQ=|Q|-1/(k+1)。通过公式(4)中的两个映射,一个k维的高斯分布N(μ,Ε)就可以嵌入到SPD矩阵空间中,并且由一个(k+1)×(k+1)的SPD矩阵唯一地表示,即:
[0039]
[0040] 由于SPD矩阵空间是一个李群而且形成了一个黎曼流形,通常在这种情况下,常用Log-欧式距离度量空间中的距离。于是,两个SPD矩阵P1和P2之间的距离为:d(P1,P2)=||log(P1)-log(P2)||F,其中,||·||F表示矩阵的Frobenius范数。
[0041] 方法2:基于李群的测地距离
[0042] 一个n维高斯分布由它的均值向量μ∈Rn和协方差矩阵 决定,Rn在向量加法运算下是一个李群, 在对数乘法运算 下也是一个李群。则,乘积群的运算Θ: 也是一个李群且它的李代数为Rn×Sn。对于两个高斯分布间的距离度量,李群Rn中两个均值向量的度量用对应的协方差矩阵进行适当的加权,同时Rn空间中的距离和 空间中的距离之间也有一定的均衡关系,在此基础上我们提出了第二种度量高斯分布之间的测地距离的方法:
[0043]
[0044] 其中,θ∈[0,1]是一个常数的均衡参数, 用来度量两个高斯分布的均值向量之间的差异, 用来度量两个高斯分布的协方差矩阵之间的Log-欧式距离,它是在黎曼流形空间中进行度量的。因为 均为距离度量,所以基于李群的测地距离dθ满足距离度量的性质。
[0045] 方法3:改进的高斯嵌入距离:
[0046] 对于方法1中的嵌入过程:
[0047]
[0048] 由于在嵌入过程中,均值向量μ与协方差矩阵Ε的量级相差较大,所以改进的高斯嵌入距离在嵌入过程中引入了均衡参数γ:
[0049]
[0050] 由于SPD矩阵空间是一个李群且形成了一个黎曼流形,Log-欧式算法常用来度量此空间内的距离,在这样的度量框架下 具有线性空间结构, 的李代数Sn是一个线性空间,矩阵的指数映射exp: 是一一对应平滑的等距映射,这使得在Sn上的操作等于在 上的操作。两个SPD矩阵P1,P2的测地距离为:
[0051] d(P1,P2)=||log(P1)-log(P2)||F  (9)
[0052] 其中,log表示矩阵的对数运算,||·||F表示矩阵的F-范数。由此可以计算得到第三种度量高斯分布间的测地距离方法。
[0053] 4)利用改进的推土距离算法计算所有N幅图片之间的距离,可以得到N×N的相似性矩阵。
[0054] 5)对于图像分类问题,将第4步计算的到的相似性矩阵送入到核化的支持向量机中进行分类;对于图像检索问题,在检索图片中返回与被检索图片距离最小的n幅图片。
[0055] 为了验证本发明提出的系统的性能,分别在图像分类和图像检索两个领域做了测试。所有测试均在一台CPU(i7,3.4GHz),内存32G的电脑上进行,测试程序使用Matlab编写。
[0056] 图像分类的测试分别在KTH-TIPS-2b、FMD、UIUCMaterial三个库上进行,分类的实验结果如表1所示。
[0057] 表1
[0058]数据库 KTH-TIPS-2b FMD UIUCMaterial
测地距离1 78.0 80.8 82.0
测地距离2 78.3 81.2 82.8
测地距离3 78.6 81.7 84.0
[0059] 图像检索的测试在常用的Holidays图像检索库上进行,检索的实验结果如表2所示。
[0060] 表2
[0061]方法 测地距离1 测地距离2 测地距离3
Holidays 84.5 85.4 84.9