一种基于子空间学习的不完整跨模态检索方法转让专利

申请号 : CN201611243419.5

文献号 : CN106844518B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王亮吴书尹奇跃

申请人 : 天津中科智能识别产业技术研究院有限公司

摘要 :

本发明公开一种基于子空间学习的不完整跨模态检索方法,该方法通过收集多模态数据并提取特征;构造不完整观测的多模态数据集合;基于回归方式学习不完整观测多模态数据集共享子空间表达;对不同模态数据集进行特征学习以选择出具有较强判别能力的特征;挖掘不完整观测模态间和模态内相似性关系,建立优化目标函数;优化目标函数得到多模态数据共享子空间表达及基于回归方式的投影矩阵;根据投影矩阵进行跨模态检索。本发明解决了模态间特征异质的问题,同时可充分利用具有完整模态和不完整模态的数据,增强了跨模态检索性能。

权利要求 :

1.一种基于子空间学习的不完整跨模态检索方法,其特征在于,包括步骤:

步骤S1,收集多模态数据并分别提取各模态的特征;

步骤S2,利用提取的各模态的特征构造不完整观测多模态数据集;

步骤S3,基于回归方式学习不完整观测多模态数据集共享子空间表达,并分别学习各模态数据线性投影矩阵;

首先为每一模态学习一个线性投影矩阵,并使得具有完整模态表达的数据点的不同模态特征具有相同的子空间表达;然后将具有不完整模态表达的数据点投影到所述子空间,得到所有数据点的子空间表达;

步骤S4,通过各模态数据线性投影矩阵增加结构约束,学习不同模态数据集的特征,选出判别能力符合判别要求的特征;

步骤S5,挖掘不完整观测多模态集中的各模态间和模态内相似性关系,结合子空间学习和特征学习建立优化目标函数;

s.t.F∈{0,1}n×k;FIk=In

其中,α和β为预设的正整数,用于决定最终的优化目标函数中不同项的权值大小,为第一个模态的特征表达, 为第一个模态的具有完整模态特征的数据在当前模态下的特征表达, 为第一个模态的仅有当前模态特征的数据的特征表达,Fc和分别是第一个模态的具有完整模态特征的数据的子空间表达和第一个模态的仅有当前模态特征的数据的子空间表达,第一个模态的子空间表达 c表示具有完整模态数据点对应的数据,n和k别表示多模态数据库样本总数目以及类别数目, 和 分别表示第二模态的特征表达及第二个模态的子空间表达,不完整观测多模态数据集的共享子空间表达 U1和U2分别为第一模态与第二模态这两个模态的线性投影矩阵,Ui,Uj分别为第i、j个模态的线性投影矩阵; 分别是第i、j个模态的特征表达,Ik和In分别为k维和n维的由1组成的列向量,Lij为i、j模态计算得到的拉普拉斯矩阵,Tr为矩阵的迹操作,(Ui)T表示矩阵Ui的转置操作,||U1||21、||U2||21分别为矩阵U1,U2的l21范数;

步骤S6,优化所述目标函数得到多模态数据集共享子空间表达以及各模态的线性投影矩阵;

步骤S7,根据所述各模态的线性投影矩阵进行跨模态检索;

所述不完整观测多模态数据集中有部分数据包含完整的多模态特征表达,其它部分数据包含部分多模态特征。

2.根据权利要求1所述方法,其特征在于,步骤S3中,通过对同一数据点不同模态特征表达学习得到可反映多模态数据的类别信息的相同的子空间表达,从而得不完整观测多模态数据集共享子空间表达。

3.根据权利要求1所述方法,其特征在于,步骤S4中,所述通过对各个模态的线性投影矩阵增加结构约束,学习不同模态数据集的特征,选出不同模态判别能力符合判别要求的特征的同时,还去除冗余和具有预定强度噪声的特征。

4.根据权利要求1所述方法,其特征在于,步骤S6中,采用交替优化方式优化所述目标函数直至模型收敛,得到不完整多模态数据共享子空间表达和各个模态对应的线性投影矩阵。

5.根据权利要求1所述方法,其特征在于,步骤S7中,根据所述各模态的线性投影矩阵进行跨模态检索的步骤为:根据所述各模态的线性投影矩阵对新的多模态数据点进行投影得到新的多模态数据点子空间表达,进而进行跨模态检索。

说明书 :

一种基于子空间学习的不完整跨模态检索方法

技术领域

[0001] 本发明涉及跨模态检索技术领域,尤其是一种基于子空间学习的不完整跨模态检索方法。

背景技术

[0002] 随着多媒体技术的迅猛发展,用户每天都分享着海量的多媒体信息,如图像、文本和视频。往往同一语义的数据由以上多种媒体特征进行描述,如一个网页可以由文本,图片和超级链接进行表征。以上多媒体数据的爆炸式增长,极大地促进了跨模态检索的应用需求,如用文本检索图片或者用图片检索文本等。因此,跨模态检索具有极其重要的研究和应用价值。
[0003] 传统跨模态检索方法一般假设每一个数据点都具有完整的多模态表达,如由网页组成的数据集合,每一个网页都有完整的文本模态表达和图像模态表达。然而,在更为一般的场景中,一些数据点可能仅有部分的多模态表达,而只有部分数据点包含完整的多模态表达,这样的数据集合称之为不完整观测多模态数据。在上述场景中,传统跨模态检索方法一般仅使用具有完整多模态表达的数据点进行建模,不能有效使用那些包含部分模态特征的数据点。因此,传统跨模态检索方法不能有效处理不完整跨模态检索问题。

发明内容

[0004] 本发明的目的在于解决上述技术问题而提出一种基于子空间学习的不完整跨模态检索方法,以解决现有跨模态检索方法不能有效满足不完整跨模态检索的需求的问题。
[0005] 本发明是这样实现的,一种基于子空间学习的不完整跨模态检索方法,包括步骤:
[0006] 步骤S1,收集多模态数据并分别提取各模态的特征;
[0007] 步骤S2,利用提取的各模态的特征构造不完整观测多模态数据集;
[0008] 步骤S3,基于回归方式学习不完整观测多模态数据集共享子空间表达,并分别学习各模态数据线性投影矩阵;
[0009] 步骤S4,通过各模态数据线性投影矩阵增加结构约束,学习不同模态数据集的特征,选出判别能力符合判别要求的特征;
[0010] 步骤S5,挖掘不完整观测多模态集中的各模态间和模态内相似性关系,结合子空间学习和特征学习建立优化目标函数;
[0011] 步骤S6,优化所述目标函数得到多模态数据集共享子空间表达以及各模态的线性投影矩阵;
[0012] 步骤S7,根据所述各模态的线性投影矩阵进行跨模态检索。
[0013] 本发明在利用提取的各模态的特征构造不完整观测多模态数据集后,首先为每一模态学习一个线性投影矩阵,并使得具有完整模态表达的数据点的不同模态特征具有相同的子空间表达;然后针对具有不完整模态表达的数据点,同样将其投影到以上子空间,以得到所有数据点的子空间表达;最后引入特征学习,选择不同模态符合判别要求的具有较高判别力的特征进行子空间的学习;在此基础上,还加入模态间和模态内相似性关系,以进一步提升跨模态检索的性能。
[0014] 本发明通过线性投影矩阵将不同模态数据投影到同一子空间,解决了模态间特征异质的问题,同时可充分利用具有完整模态和不完整模态的数据。鉴于不同模态的特征冗余性较大且可能含有较强噪声,特征选择被嵌入到模型中以选择出具有较强判别能力的特征。最后,本发明同时将模态间和模态内的相似性关系考虑在内,可以进一步增强跨模态检索性能。

附图说明

[0015] 图1是以图像和文本两模态为例的基于子空间学习的不完整跨模态检索方法示意图。

具体实施方式

[0016] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
[0017] 参见图1所示,一种基于子空间学习的不完整跨模态检索方法,包括以下步骤:
[0018] 步骤S1,收集多模态数据并分别提取各个不同模态的特征;
[0019] 所述多模态数据包括有图片数据以及图片数据相对应的文本数据,如图像标注词;
[0020] 所述不同模态特征,针对图片数据一般是视觉描述算子,比如S IFT或者GIST特征;针对文本数据一般是文档的词频向量。
[0021] 步骤S2,利用步骤S1提取的各个模态的特征,构造不完整观测多模态数据集;
[0022] 所述构造不完整观测多模态数据集,即仅部分数据点包含完整的多模态特征表达,另外一部分数据点包含部分的多模态特征表达。
[0023] 例如,针对由图像数据模态和对应的文本数据模态组成的多模态数据集合,则是部分样本包含文本模态与图片模态这两个模态的特征表达,其余的样本仅仅包含文本模态特征表达或者图片模态特征表达,其中包含文本模态与图片模态这两个模态的特征表达的样本与包含文本模态特征表达或者图片模态特征表达的比例可随机确定,具体比例不限。
[0024] 步骤S3,基于回归方式学习不完整观测多模态数据集共享子空间表达F,并分别学习各个不同模态的线性投影矩阵U1和U2。
[0025] 在该步骤S3中,基本的优化目标函数为:
[0026]
[0027] s.t.F∈{0,1}n×k;FIk=In
[0028] 其中, 为数据库第一个模态的特征表达(如图像或者文本), 为具有完整模态特征的数据在当前模态下的特征表达, 仅有当前模态特征的数据的特征表达,Fc和 分别对应具有完整模态特征的数据的子空间表达和仅有当前模态特征的数据的子空间表达,且满足 优化目标中c表示具有完整模态数据点对应的数据,如Fc表示此部分点的子空间表达, 表示此部分点在第一个模态下的特征表达。约束条件中,n和k别表示数据库样本总数目以及类别数目。 和 具有相似的解释。最终的不完整观测多模态数据集的共享子空间表达为 U1和U2分别为两个模态的线性投影矩阵。
[0029] 该优化目标函数的约束条件中Ik和In,分别为k维和n维的由1组成的列向量,且k和n分别为多模态数据类别数目和样本总数目。
[0030] 以上约束条件使得学习得到的共享子空间符合数据语义类别结构,即每一个数据点属于且仅属于所有类别中的一类。
[0031] 步骤S4,给上述线性投影矩阵U1和U2增加设计的结构约束,以对不同模态数据集进行特征学习,进而选择出符合判别要求的具有较强判别能力的特征。
[0032] 步骤S4中,该线性投影矩阵的结构约束为L21范数约束,其定义为:
[0033]
[0034] 其中,U1(i,:)表示第一个模态对应投影矩阵的第i行,通过最小化上述目标,可自动选择出符合判别要求的具有较高判别能力的特征,并同时去除冗余和具有符合预设噪声强度的较强噪声的特征。
[0035] 步骤S5,在选出具有较高判别能力的特征后,挖掘不完整观测模态间和模态内相似性关系,结合子空间学习和特征学习建立优化目标函数。
[0036] 步骤S5中,模态间和模态内的相似性关系Wpq和Wp分别定义为:
[0037]
[0038]
[0039] 其中Wpq(ij)表示模态间相似性关系矩阵的第i行第j列对应的元素值,为由高斯核计算出的相似度, 表示两模态特征表达对应同一数据点,其中 表示p模态下第i个数据点对应的特征, 表示q模态下第j个数据点对应的特征。
[0040] 基于以上两种相似度矩阵,则总体相似度矩阵构造为:
[0041]
[0042] 进而得到拉普拉斯矩阵L=D-W,其中D为对角矩阵,且其每个对角线元素对应W矩阵所对应行的所有元素之和。具体的L可以表示为
[0043]
[0044] 其中L值中的元素与W具有相一致的对应关系。
[0045] 结合子空间学习与特征学习,最终的优化目标函数为:
[0046]
[0047] s.t.F∈{0,1}n×k;FIk=In
[0048] 其中α和β为预设的正整数,用于决定最终的优化目标函数中不同项的权值大小。
[0049] 步骤S6,采用交替优化方式优化目标函数得到多模态数据共享子空间表达F以及各个模态的线性投影矩阵U。
[0050] 在该步骤S6中,采用交替优化方式求解F和U,直至算法收敛。
[0051] 固定U,则目标函数改写为
[0052]
[0053] s.t.F∈{0,1}n×k;FIk=In
[0054] 首先将约束条件进行松弛为FTF=I;F≥0,之后将子空间表达F进行拆分,则上述优化目标变为:
[0055]
[0056]
[0057] 采用拉格朗日乘子法进行求解Fc:
[0058]
[0059] 其中 为拉格朗日乘子法求解上述优化目标的拉格朗日乘子,其计算方式为对于任意一个矩阵,假设用符号表示为Z,则
[0060] 采用梯度方法求解 和
[0061]
[0062] 固定F,则目标函数改写为:
[0063]
[0064] 则U可以依据梯度进行求解,满足:
[0065]
[0066] 其中Q为对角矩阵,且满足其第m个元素为1/(2||Ui(m,:)||2),其中Ui(m,:)对应第Ui第m行,上式中i和j值分别可取1和2。
[0067] 步骤S7,根据所得投影矩阵进行跨模态检索任务。
[0068] 在该步骤中,利用投影矩阵对多模态数据点进行投影得到各自对应的子空间表达,之后便可在此子空间中以欧氏距离进行距离度量进行跨模态检索。
[0069] 为了验证本发明的实施效果,接下来以PASCAL VOC 2007数据库为例进行说明。该数据库分别包含5,011和4,952幅训练和测试图像,共计20个类别,这些图像用GIST特征进行描述,同时文本模态由图像的标注词组成。
[0070] 在该PASCAL VOC 2007数据库上可以进行由图像检索标注词和由标注词检索图像的跨模态检索任务。
[0071] 具体步骤如下:
[0072] 步骤S1,提取PASCAL VOC 2007图像的GIST特征和由标注词组成的文本特征,并以此两个模态组成多模态数据集。
[0073] 步骤S2,在上述多模态数据集中,随机选择部分数据点使其包含完整的多模态特征表达,其余数据点则随机挑选出一部分仅包含文本特征,另外一部分仅包含图片特征,以此构造不完整观测多模态训练数据集合。
[0074] 步骤S3,基于回归方式学习不完整观测多模态数据集共享子空间表达F,并分别学习不同模态的线性投影矩阵U1和U2。
[0075] 步骤S4,设计上述线性投影矩阵U1和U2的结构约束,实现对不同模态数据集的特征选择,即||U1||21+||U2||21。
[0076] 步骤S5,挖掘不完整观测模态间和模态内相似性关系W,并结合子空间学习和特征学习建立优化目标函数。
[0077] 步骤S6,令α和β取值为0.01和0.01,并采用交替优化方式求解上述优化目标得到多模态数据共享子空间表达以及各个模态的线性投影矩阵。
[0078] 步骤S7,利用投影矩阵对测试集不同模态数据进行投影,在相同子空间下基于欧氏距离完成跨模态检索任务。
[0079] 表1和表2是本发明以平均准确率(MAP)为观测指标在不同模态缺失情况下分别以图片和文本作为检索词(query)的性能比较。
[0080] 表1图片(Image)检索文本(Text)在不同模态不完整度情况下各个检索方法的性能比较。表中的数字表示map(mean averay precision)值。各个检索方法包括现有的PLS、BLM、CCA、CDFE、BMLDA、GMMFA方法以及本发明的方法MY。
[0081]Image 0% 10% 30% 50% 70% 90%
PLS 27.57 27.66 27.4 26.79 27.82 24.45
BLM 30.63 30.63 30.05 29.52 28.72 23.99
CCA 26.67 26.39 25.27 23.52 23.20 15.99
CDFE 29.98 29.67 28.09 27.85 26.92 21.78
GMLDA 31.08 30.59 28.63 30.40 28.61 22.84
GMMFA 30.57 30.20 28.12 30.14 27.70 22.27
My 37.49 36.70 35.86 33.17 29.92 23.61
[0082] 表1
[0083] 表2文本(Text)检索图片(Image)在不同模态不完整度情况下各个方法的性能比较。表中的数字表示map(mean averay precision)值。各个检索方法包括现有的PLS、BLM、CCA、CDFE、BMLDA、GMMFA方法以及本发明的方法MY。
[0084]Text 0% 10% 30% 50% 70% 90%
PLS 19.97 20.13 19.82 19.74 19.94 17.91
BLM 23.07 23.04 22.47 22.02 21.31 18.30
CCA 22.23 22.08 21.55 19.60 19.52 13.67
CDFE 22.46 22.59 20.58 21.56 20.77 15.41
GMLDA 24.63 24.23 22.56 23.69 21.80 17.07
GMMFA 24.34 23.95 22.07 23.34 21.39 17.13
My 29.66 28.07 27.48 26.38 22.70 16.24
[0085] 表2
[0086] 以上所述的具体实施例,对本发明的目的、技术方案和效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。