会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 训练数据 / 一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法

一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法

阅读:144发布:2021-02-23

IPRDB可以提供一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法专利检索,专利查询,专利分析的服务。并且本发明提出了一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法。本方法提出根据训练数据的特征生成一些虚拟的数据点以扩充训练数据,同时在学习两对投影矩阵的过程中采用l2,1范数进行特征选择。具体来说,首先对每一类图像和文本求其类中心,然后在其周围随机生成新的数据点,构成新的训练数据;然后,使用新的数据来学习两对投影矩阵,与此同时,采用l2,1范数约束,进行特征选择;最后对检索结果用mAP值进行评估。这种方法不仅生成一些随机数据点来提高训练数据的多样性,同时可以在学习两对投影矩阵的时候选择一些更加具有区分性和丰富信息的特征。在三个不同数据集上的实验结果也表明此方法的优越性。,下面是一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法专利的具体信息内容。

1.一种基于特征选择和虚拟数据生成的半监督跨媒体检索技术,包括以下步骤:步骤1:给定数据集 n代表数据对的总数,xi代表图片特征,ti代表文本特征,那么,图片和文本特征矩阵可以分别表示成:XG=[x1,x2,...,xn-1,xn]和TG=[t1,t2,t3,...,tn-1,tn];

步骤2:生成伪随机虚拟数据点,对原有数据集进行扩充,具体方法为:计算XG和TG每一类的类中心,即对于每一类数据,计算该类数据每一维度的均值,得到的各维度均值构成的新向量作为该类的类中心;然后,以每一维度的均值作为中心,在其上下随机生成n'个数值,将所有维度上的随机值组合在一起生成n'个伪随机虚拟数据 将所述伪随机虚拟数据点加入原有数据集得到扩充后的数据集Gall={G,G'},扩充后的图片和文本特征矩阵分别表示成:X=[x1,...xn,x1',x'2...x'n]和T=[t1,...,tn,t1',t'2,...,t'n];

步骤3:构建目标函数:

定义目标函数:

其中,U,V代表本方法要学习的一对投影矩阵,C(U,V)是相关性分析项,使得多模态的数据可以在潜在的语义空间内保持成对的近邻关系;L(U,V)是从图像或文本模态特征空间到语义空间的线性回归项,用于保持具有相同语义的不同模态数据的近邻关系;N(U,V)是正则项,用于特征的选择;

根据公式(1),分别得到图像检文本I2T和文本检图像T2I检索任务的目标函数,如下:(1)I2T的目标函数为:

其中,U1,V1是I2T任务中要学习得到的投影矩阵,分别对应于公式(1)中的U,V,β是平衡系数且0≤β≤1,Y是语义矩阵;

(2)T2I的目标函数为:

其中,U2,V2是T2I任务中要学习得到的投影矩阵,分别对应于公式(1)中的U,V;

步骤4:通过迭代求解方法,得到最优的投影矩阵:

由于公式(2)和(3)是非凸的,故采用控制变量的方法求解,即分别对U和V求偏导,并令其等于零,可得投影矩阵U和V的值;然后经过不断的迭代,直至收敛,求得投影矩阵U和V的最优值。

2.如权利要求1所述的基于特征选择和虚拟数据生成的半监督跨媒体检索技术,其特征在于:步骤3中,N(U,V)=λ1||U||2,1+λ2||V||2,1,其中λ1,λ2用来平衡两个正则项,且都为正数,此约束项用于在学习投影矩阵的时候选择更加具有区分性和丰富信息的特征。

说明书全文

一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法

技术领域

[0001] 本发明涉及跨媒体检索方法,更具体地说,涉及一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法。

背景技术

[0002] 随着多媒体技术的发展,越来越多的数据可以表示成不同的模态,而且不同模态的数据可能有着同样的语义信息。因此,如何探索这些具有相同语义但表现为不同模态数据之间的关系变得尤为重要。其中,在最近的多年中,跨媒体检索技术越来越引起研究者的关注。跨媒体检索就是指用一种模态的数据作为查询数据来检索具有相同语义信息的其他模态的数据。以图片和文本的检索为例,可以使用图片去检索具有相应语义信息的文本,简称:I2T;或者使用文本去检索具有相应语义信息的图片,简称:T2I。本发明以图片和文本间的检索为例进行分析和实验,但是此方法可以扩展到其他不同模态之间的检索。
[0003] 在跨媒体检索技术中,最主要的问题是:不同模态的数据会有不同的特征表示,这些不同的特征是在不同的维度空间里,这样异构数据之间的相似性是没法直接比较的。因此,跨媒体检索领域主要关注的问题就是如何跨越这种语义鸿沟。一种流行的解决方法就是子空间学习法。子空间学习法旨在学习一个潜在的语义空间,在这个潜在的语义空间中异构数据的相似性可以被直接测量。传统的子空间学习法是学习一对投影矩阵,通过这一对投影矩阵就可以将不同模态的数据映射到一个潜在的语义空间内,这样异构数据的相似性就可以被测量了。一种流行的方法是:典型相关分析(Canonical Correlation Analysis,CCA),CCA学习了一对投影矩阵,在将不同模态的特征映射到语义空间时最大化异构数据之间的相关性。基于CCA,语义相关匹配(Semantic Correlation Match,SCM)使用逻辑回归来获得语义空间。另一种流行的方法是:偏最小二乘(Partial Least Squares,PLS),PLS旨在通过最大化异构数据之间的相关性来学习两个潜在的语义空间。除此之外,归一化多视角分析(generalized multi-view analysis,GMA)以及基于GMA的GMLDA和GMMFA通过使用标签信息获取多角度的特征,并且取得了更好的效果。
[0004] 然而,通常的跨媒体检索任务存在方向性,即图像检索文本(I2T)和文本检索图像(T2I),以上方法仅仅学习一对投影矩阵,并没有强调查询数据的重要性。具体来说,在I2T任务中,图片对于学习投影矩阵更具决定性;同理,T2I任务中,则更加强调文本的重要性。因此,学习一对投影矩阵的方法很难达到最优的效果。为了强调不同任务中查询数据的重要性,基于模态的跨媒体检索(Modality-dependent Cross-media Retrieval,MDCR)方法提出学习两对投影矩阵,即对I2T和T2I任务分别学习一对投影矩阵,这样就可以充分考虑查询数据的重要性,因此检索的精度也得到了很大的提升。
[0005] 但是,以上方法都只是有监督的方法,仅仅使用有标记的数据进行训练而忽略了未标记的数据,同时更没法扩充固有的数据集。其次,当前方法仅仅从如何测量异构数据之间的相似性的角度出发,旨在学习更有效的投影矩阵,从来在语义空间内可以得到更准确的比较,但是,他们都忽略了在学习投影矩阵时对信息含量更丰富、更具区分性特征的选择。因此,我们基于MDCR发明了一种可以随机生成虚拟数据点的半监督方法,同时采用l2,1范数进行特征选择。

发明内容

[0006] 本发明提供了一种基于特征选择和伪随机数据生成的半监督跨媒体检索技术。传统的跨媒体检索方法,要么是仅仅使用有标记数据进行训练的有监督方法,要么是选出一部分未标记数据加入训练的半监督方法。本发明提出,在有标记的数据基础上生成一些与之相关的伪随机虚拟数据点,这样不仅仅可以考虑未标记的数据,还可以增添一些相关的虚拟数据点以提高训练的精度。同时,与传统的检索方法不同的是:我们的方法对于不同的任务学习不同的投影矩阵,在学习投影矩阵时采用l2,1范数进行特征选择。总体来说,我们的方法同时考虑了训练数据的多样性以及有效特征的选择。
[0007] 本发明的具体技术方案如下:
[0008] 一种基于特征选择和虚拟数据生成的半监督跨媒体检索技术,包括以下步骤:
[0009] 步骤1:给定数据集 n代表数据对的总数,xi代表图片特征,ti代表文本特征,那么,图片和文本特征矩阵可以分别表示成:XG=[x1,x2,...,xn-1,xn]和TG=[t1,t2,t3,...,tn-1,tn];
[0010] 步骤2:生成伪随机虚拟数据点,对原有数据集进行扩充,具体方法为:计算XG和TG每一类的类中心,即对于每一类数据,计算该类数据每一维度的均值,得到的各维度均值构成的新向量作为该类的类中心;然后,以每一维度的均值作为中心,在其上下随机生成n'个数值,将所有维度上的随机值组合在一起生成n'个伪随机虚拟数据 ,将所述伪随机虚拟数据点加入原有数据集得到扩充后的数据集Gall={G,G'},扩充后的图片和文本特征矩阵分别表示成:X=[x1,...xn,x1',x'2...x'n]和T=[t1,...,tn,t1',t'2,...,t'n];
[0011] 步骤3:构建目标函数:
[0012] 定义目标函数:
[0013] 其中,U,V代表本方法要学习的一对投影矩阵,C(U,V)是相关性分析项,使得多模态的数据可以在潜在的语义空间内保持成对的近邻关系;L(U,V)是从图像或文本模态特征空间到语义空间的线性回归项,用于保持具有相同语义的不同模态数据的近邻关系;N(U,V)是正则项,用于特征的选择;
[0014] 根据公式(1),分别得到图像检文本I2T和文本检图像T2I检索任务的目标函数,如下:
[0015] (1)I2T的目标函数为:
[0016]
[0017] 其中,U1,V1是I2T任务中要学习得到的投影矩阵,分别对应于公式(1)中的U,V,β是平衡系数且0≤β≤1,Y是语义矩阵;
[0018] (2)T2I的目标函数为:
[0019]
[0020] 其中,U2,V2是T2I任务中要学习得到的投影矩阵,分别对应于公式(1)中的U,V;
[0021] 步骤4:通过迭代求解方法,得到最优的投影矩阵:
[0022] 由于公式(2)和(3)是非凸的,故采用控制变量的方法求解,即分别对U和V求偏导,并令其等于零,可得投影矩阵U和V的值;然后经过不断的迭代,直至收敛,求得投影矩阵U和V的最优值。
[0023] 特别地,步骤3中,N(U,V)=λ1||U||2,1+λ2||V||2,1,其中λ1,λ2用来平衡两个正则项,且都为正数,此约束项用于在学习投影矩阵的时候选择更加具有区分性和丰富信息的特征。

附图说明

[0024] 图1为本发明方法流程图。

具体实施方式

[0025] 1.数据集处理:
[0026] Wikipedia,总共包含10个类,2866个图片-文本对。我们选择2173个图片-文本对作为初始训练数据,剩余部分为测试数据。其图片特征为4096维的CNN特征,文本特征为100维LDA特征。
[0027] Pascal Sentence,总共20个类,每类50个图片-文本对。我们选择每类中30个图像-文本对作为初始训练数据,其余为测试数据。其图片特征为4096维的CNN特征,文本特征为100维LDA特征。
[0028] INRIA-Websearch,总共353类,71478个图像-文本对。我们随机选择其中的70%作为初始训练数据,其余为测试数据。其图片特征为4096维的CNN特征,文本特征为1000维LDA特征。
[0029] 2.本发明具体实施步骤:
[0030] 步骤1:给定数据集 n代表数据对的总数,xi代表图片特征,ti代表文本特征,那么,图片和文本特征矩阵可以分别表示成:XG=[x1,x2,...,xn-1,xn]和TG=[t1,t2,t3,...,tn-1,tn]。
[0031] 步骤2:生成伪随机虚拟数据点,对原有数据集进行扩充,具体方法为:计算XG和TG每一类的类中心,即对于每一类数据,计算该类数据每一维度的均值,得到的各维度均值构成的新向量作为该类的类中心;然后,以每一维度的均值作为中心,在其上下随机生成n'个数值,将所有维度上的随机值组合在一起生成n'个伪随机虚拟数据 将所述伪随机虚拟数据点加入原有数据集得到扩充后的数据集Gall={G,G'},扩充后的图片和文本特征矩阵分别表示成:X=[x1,...xn,x1',x'2...x'n]和T=[t1,...,tn,t′1,t′2,...,t′n]。
[0032] 步骤3:构建目标函数:
[0033] 定义目标函数:
[0034] 其中,U,V代表本方法要学习的一对投影矩阵,C(U,V)是相关性分析项,使得多模态的数据可以在潜在的语义空间内保持成对的近邻关系;L(U,V)是从图像或文本模态特征空间到语义空间的线性回归项,用于保持具有相同语义的不同模态数据的近邻关系;N(U,V)是正则项,用于特征的选择;
[0035] 根据公式(1),分别得到图像检文本I2T和文本检图像T2I检索任务的目标函数,如下:
[0036] (1)I2T的目标函数为:
[0037]
[0038] 其中,U1,V1是I2T任务中要学习得到的投影矩阵,β是平衡系数且0≤β≤1,Y是语义矩阵,且:N(U1,V1)=λ1||U1||2,1+λ2||V1||2,1,其中λ1,λ2用来平衡两个正则项,且都为正数;
[0039] (2)T2I的目标函数为:
[0040]
[0041] 其中,U2,V2是T2I任务中要学习得到的投影矩阵N(U2,V2)=λ1||U2||2,1+λ2||V2||2,1;
[0042] 步骤4:通过迭代求解方法,得到最优的投影矩阵:
[0043] 由于公式(2)和(3)是非凸的,故采用控制变量的方法求解,即分别对U和V求偏导,并令其等于零,可得投影矩阵U和V的值;然后经过不断的迭代,直至收敛,求得投影矩阵U和V的最优值。
[0044] 特别地,对于l2,1范数可利用迹来求导,例如:定义矩阵U,则:||U||2,1=Tr(UTRU),iR是一个对角矩阵, u代表U的每一行,ε是一个极小的实数。
[0045] 3.评估标准(mAP)
[0046] 我们采用平均精度均值(mean average precision,mAP)评估标准,来评价最后的检索效果。首先我们定义每一次查询的average precision:
[0047]
[0048] 其中,N代表测试数据中样本的总数,当第i次检索的结果排序中有与对应的类标签相同时rel(i)=1,否则rel(i)=0。P(i)代表第i次检索排序结果的精度。那么,所有查询的AP值的平均就是mAP。
[0049] 4.算法实现
[0050] (1)I2T:
[0051] 输入:图片特征矩阵XG和文本特征矩阵TG,样本标记矩阵Y,参数λ1,λ2,β[0052] 生成虚拟数据:对于每一类数据,首先计算每一维度的均值,以此为这一类的类中心,
[0053] 然后,以每一维度的均值作为中心,在其上下随机生成n'个数值,所有维度上的随机值组合在一起就可以构成n'个虚拟的数据,最后,把生成的虚拟数据加入输入的图片和文本特征矩阵,得到新的训练图片特征矩阵X和文本特征矩阵T。
[0054] 初始化:初始化投影矩阵U1,V1为单位矩阵。
[0055] 求解最优解:根据求得的U1=(XXT+λ1R11)-1[βXY+(1-β)XTTV1]和
[0056] V1=[(1-β)TTT+λ2R12]-1(1-β)TXTU1,通过不断地迭代,直至结果收敛得到最优的U1,V1。
[0057] 此过程伪代码如下所示:
[0058]
[0059]
[0060] (2)T2I:
[0061] 与I2T任务类似,最后得到最优的投影矩阵U2,V2
[0062] 5.结果比较
[0063] 我们分别在三个数据集上进行实验,并对比了当前比较流行的其他7种方法(PLS,CCA,SM,SCM,GMMFA,GMLDA,MDCR),下表显示本发明方法在不同数据集上都表现出更好的检索效果。
[0064]
[0065]
[0066]
[0067]
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用