基于多图加权融合的数据检索方法与系统转让专利

申请号 : CN202210214926.5

文献号 : CN114281950B

文献日 : 2022-05-06

本发明属于信息检索技术领域，提供了一种基于多图加权融合的数据检索方法与系统。为了解决检索不精确的问题，该检索方法包括基于目标函数得到映射矩阵，再根据映射矩阵对测试数据进行投影，对应生成测试数据哈希码矩阵；计算测试数据哈希码矩阵和基于目标函数得到的训练数据哈希码矩阵之间的汉明距离，并对其进行排序，得到测试数据的检索结果；其中，目标函数由六项构成，前两项是利用协同矩阵分解得到不同模态数据的潜在因子矩阵；第三项是学习模态内和模态间的相似图矩阵；第四项是通过模态间统一的共识图矩阵和潜在因子矩阵而生成统一的哈希码矩阵；第五项是学习哈希函数；第六项是正则化项。具有训练和检索速度快及检索性能高特点。

1.一种基于多图加权融合的数据检索方法，其特征在于，包括：基于目标函数得到映射矩阵，再根据映射矩阵对测试数据进行投影，对应生成测试数据哈希码矩阵；

计算测试数据哈希码矩阵和基于目标函数得到的训练数据哈希码矩阵之间的汉明距离，并对其进行排序，得到测试数据的检索结果；

其中，目标函数由六项构成，前两项是利用协同矩阵分解得到不同模态数据的潜在因子矩阵；第三项是学习模态内和模态间的相似图矩阵；第四项是通过模态间统一的共识图矩阵和潜在因子矩阵而生成统一的哈希码矩阵；第五项是学习哈希函数；第六项是正则化项；

目标函数的表达式为：

在公式中，为图像模态的基矩阵，为文本模态的基矩阵，为多模态数据统一的潜在语义矩阵；为不同模态间的平衡参数；为F范数；

为图像数据；为图像数据的维度，为训练集样本对的数量；为文本数据；

为文本数据的维度；为不同模态的相似图矩阵；为模态间的统一的共识图矩阵；为不同模态的权重系数；为不同模态的训练数据，m=1表示图像模态，m=2表示文本模态；为正则项的权重参数；为各个模态相似图与模态间统一共识图重构误差项的权重参数；和分别表示图像模态和文本模态的映射矩阵；表示哈希码相似性约束项的权重参数；表示哈希码的编码位数；表示哈希函数学习项的权重参数；

表示正则约束项的权重参数；表示正则约束项，防止过度拟合，；表示常系数矩阵；表示矩阵的转置；表示单位矩阵。

2.如权利要求1所述的基于多图加权融合的数据检索方法，其特征在于，在所述目标函数中，协同矩阵分解的目标为：

通过分解数据的不同模态来学习哈希码矩阵，保持各个模态的特有语义信息和多模态数据的共享语义信息。

3.如权利要求1所述的基于多图加权融合的数据检索方法，其特征在于，在所述目标函数中，通过子空间自表示学习和反距离加权融合方法学习模态内和模态间的相似图矩阵。

4.如权利要求3所述的基于多图加权融合的数据检索方法，其特征在于，通过子空间自表示学习的方法分别学习各个模态的相似图，使得相似数据生成尽可能相同的哈希编码。

5.如权利要求3所述的基于多图加权融合的数据检索方法，其特征在于，通过反距离加权融合策略将各个模态的相似图加权融合成模态间统一的共识图，以保持各个模态内的相似结构信息并减小多模态数据之间的异构鸿沟。

6.如权利要求1所述的基于多图加权融合的数据检索方法，其特征在于，在所述目标函数中，所述哈希函数为线性映射。

7.如权利要求1所述的基于多图加权融合的数据检索方法，其特征在于，在所述目标函数中，所述哈希函数学习的目标为：使得原始数据经过映射矩阵投影后与学习到的哈希码矩阵之间的量化损失最小，并对映射矩阵施加F范数约束学习的判别性。

8.一种基于多图加权融合的数据检索系统，其特征在于，包括：哈希码矩阵生成模块，其用于基于目标函数得到映射矩阵，再根据映射矩阵对测试数据进行投影，对应生成测试数据哈希码矩阵；

检索结果获取模块，其用于计算测试数据哈希码矩阵和基于目标函数得到的训练数据哈希码矩阵之间的汉明距离，并对其进行排序，得到测试数据的检索结果；

目标函数的表达式为：

在公式中，为图像模态的基矩阵，为文本模态的基矩阵，为多模态数据统一的潜在语义矩阵；为不同模态间的平衡参数；为F范数；

为图像数据；为图像数据的维度，为训练集样本对的数量；为文本数据；

表示正则约束项的权重参数；表示正则约束项，防止过度拟合，；表示常系数矩阵；表示矩阵的转置；表示单位矩阵。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1‑7中任一项所述的基于多图加权融合的数据检索方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1‑7中任一项所述的基于多图加权融合的数据检索方法中的步骤。

基于多图加权融合的数据检索方法与系统

技术领域

[0001] 本发明属于信息检索技术领域，尤其涉及一种基于多图加权融合的数据检索方法与系统。

背景技术

[0002] 本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

[0003] 随着网络技术的迅速发展以及社交媒体中不同模态数据的指数级增长，目前不再仅限于单一模态数据间的相似性检索，而更多地是多模态数据间相互检索。多模态检索的
任务是给定一个模态的查询对象，找到另一模态中的语义相似的集合，如文本检索图像、图
像检索文本等。然而，在实际应用中，不同模态的数据往往具有不一致的底层特征结构，即
多模态数据间的异构性问题。与此同时，对于大规模数据库，传统的多媒体检索技术由于存
储空间和计算成本等限制，往往不能实现精确检索。

发明内容

[0004] 为了解决上述背景技术中存在的技术问题，本发明提供一种基于多图加权融合的数据检索方法与系统，其能够同时保持模态内的相似结构信息和模态间语义关联信息，具
有训练和检索速度快、检索性能高的特点。

[0005] 为了实现上述目的，本发明采用如下技术方案：

[0006] 本发明的第一个方面提供一种基于多图加权融合的数据检索方法，其包括：

[0007] 基于目标函数得到映射矩阵，再根据映射矩阵对测试数据进行投影，对应生成测试数据哈希码矩阵；

[0008] 计算测试数据哈希码矩阵和基于目标函数得到的训练数据哈希码矩阵之间的汉明距离，并对其进行排序，得到测试数据的检索结果；

[0009] 其中，目标函数由六项构成，前两项是利用协同矩阵分解得到不同模态数据的潜在因子矩阵；第三项是学习模态内和模态间的相似图矩阵；第四项是通过模态间统一的共
识图矩阵和潜在因子矩阵而生成统一的哈希码矩阵；第五项是学习哈希函数；第六项是正
则化项；

[0010] 目标函数的表达式为：

[0011]

[0012] 在公式中，为图像模态的基矩阵，为文本模态的基矩阵，为多模态数据统一的潜在语义矩阵；为不同模态间的平衡参数；为F范数；
为图像数据；为图像数据的维度，为训练集样本对的数量；为文
本数据；为文本数据的维度；为不同模态的相似图矩阵；为模态间的统一
的共识图矩阵；为不同模态的权重系数；为不同模态的训练数据，m=1表
示图像模态，m=2表示文本模态；为正则项的权重参数；为各个模态相似图与模态间统一
共识图重构误差项的权重参数；和分别表示图像模态和文本模态的映射矩阵；表示
哈希码相似性约束项的权重参数；表示哈希码的编码位数；表示哈希函数学习项的权
重参数；表示正则约束项的权重参数；表示正则约束项，防止过度拟合，
；表示常系数矩阵；表示矩阵的转置；表示单位矩阵。

[0013] 作为一种实施方式，在所述目标函数中，协同矩阵分解的目标为：

[0014] 通过分解数据的不同模态来学习哈希码矩阵，保持各个模态的特有语义信息和多模态数据的共享语义信息。

[0015] 作为一种实施方式，在所述目标函数中，通过子空间自表示学习和反距离加权融合方法学习模态内和模态间的相似图矩阵。

[0016] 作为一种实施方式，通过子空间自表示学习的方法分别学习各个模态的相似图，使得相似数据生成尽可能相同的哈希编码。

[0017] 作为一种实施方式，通过反距离加权融合策略将各个模态的相似图加权融合成模态间统一的共识图，以保持各个模态内的相似结构信息并减小多模态数据之间的异构鸿
沟。

[0018] 作为一种实施方式，在所述目标函数中，所述哈希函数为线性映射。

[0019] 作为一种实施方式，在所述目标函数中，所述哈希函数学习的目标为：

[0020] 使得原始数据经过映射矩阵投影后与学习到的哈希码矩阵之间的量化损失最小，并对映射矩阵施加F范数约束学习的判别性。

[0021] 本发明的第二个方面提供一种基于多图加权融合的数据检索系统，其包括：

[0022] 哈希码矩阵生成模块，其用于基于目标函数得到映射矩阵，再根据映射矩阵对测试数据进行投影，对应生成测试数据哈希码矩阵；

[0023] 检索结果获取模块，其用于计算测试数据哈希码矩阵和基于目标函数得到的训练数据哈希码矩阵之间的汉明距离，并对其进行排序，得到测试数据的检索结果；

[0024] 其中，目标函数由六项构成，前两项是利用协同矩阵分解得到不同模态数据的潜在因子矩阵；第三项是学习模态内和模态间的相似图矩阵；第四项是通过模态间统一的共
识图矩阵和潜在因子矩阵而生成统一的哈希码矩阵；第五项是学习哈希函数；第六项是正
则化项；

[0025] 目标函数的表达式为：

[0026]

[0027] 在公式中，为图像模态的基矩阵，为文本模态的基矩阵，为多模态数据统一的潜在语义矩阵；为不同模态间的平衡参数；为F范数；
为图像数据；为图像数据的维度，为训练集样本对的数量；为文
本数据；为文本数据的维度；为不同模态的相似图矩阵；为模态间的统一
的共识图矩阵；为不同模态的权重系数；为不同模态的训练数据，m=1表
示图像模态，m=2表示文本模态；为正则项的权重参数；为各个模态相似图与模态间统一
共识图重构误差项的权重参数；和分别表示图像模态和文本模态的映射矩阵；表示
哈希码相似性约束项的权重参数；表示哈希码的编码位数；表示哈希函数学习项的权
重参数；表示正则约束项的权重参数；表示正则约束项，防止过度拟合，
；表示常系数矩阵；表示矩阵的转置；表示单位矩阵。

[0028] 本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于多图加权融合的数据检索方法中的步骤。

[0029] 本发明的第四个方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于多
图加权融合的数据检索方法中的步骤。

[0030] 与现有技术相比，本发明的有益效果是：

[0031] 本发明基于目标函数得到映射矩阵，进而根据映射矩阵对测试数据进行投影，对应生成测试数据哈希码矩阵，最后通过计算测试数据哈希码矩阵和已知训练数据哈希码矩
阵之间的汉明距离，并对其进行排序，得到测试数据的检索结果；本发明得到映射矩阵的目
标函数利用协同矩阵分解方法保持不同模态数据间的潜在语义关联信息，同时利用子空间
自表示的方法学习各模态的相似图，保持模态内数据的相似结构信息，进而将学习到的不
同模态的相似图加权融合成模态间统一的共识图矩阵，缩小了模态间数据的异构鸿沟问
题，提高了训练和检索速度快以及检索性能，此方法应用于广泛的无监督数据集，提高了大
规模跨模态数据的互检索性能。

[0032] 本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

[0033] 构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

[0034] 图1是本发明实施例的基于多图加权融合的数据检索方法流程图；

[0035] 图2是本发明实施例的基于多图加权融合的数据检索系统结构示意图。

具体实施方式

[0036] 下面结合附图与实施例对本发明作进一步说明。

[0037] 应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常
理解的相同含义。

[0038] 需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式
也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包
括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

[0039] 实施例一

[0040] 如图1所示，本实施例提供了一种基于多图加权融合的数据检索方法，其具体包括如下步骤：

[0041] S101：基于目标函数得到映射矩阵，再根据映射矩阵对测试数据进行投影，对应生成测试数据哈希码矩阵。

[0042] 其中，目标函数由六项构成，前两项是利用协同矩阵分解得到不同模态数据的潜在因子矩阵；第三项是学习模态内和模态间的相似图矩阵；第四项是通过模态间统一的共
识图矩阵和潜在因子矩阵而生成统一的哈希码矩阵；第五项是学习哈希函数；第六项是正
则化项。

[0043] 在具体实施中，在所述目标函数中，协同矩阵分解的目标为：通过分解数据的不同模态来学习哈希码矩阵，保持各个模态的特有语义信息和多模态数据的共享语义信息。

[0044] 以原始数据集中模态包括图像数据和文本数据这两种模态数据为例：

[0045] 对原始数据集的训练样本数据进行中心化处理，得到相应的去中心化训练样本数据，包括中心化的图像训练数据，简称为图像数据，记为；

[0046] 且，其中表示图像数据训练样本，为图像数据的维度，为训练集样本对的数量；中心化的文本训练数据，简称为文本数据，记为：
；

[0047] 且，其中表示文本数据训练样本，为文本数据的维度。n为训练样本的数量。

[0048] 下面分别对图像训练数据和文本训练数据进行协同矩阵分解，协同矩阵分解的目标函数如下：

[0049]

[0050] 其中，为图像模态的基矩阵，为文本模态的基矩阵，为多模态数据统一的潜在语义矩阵。表示哈希码的编码位数；为不同模态间的平衡参数。
为F范数。

[0051] 具体地，在所述目标函数中，通过子空间自表示学习和反距离加权融合方法学习模态内和模态间的相似图矩阵。

[0052] 其中，通过子空间自表示学习的方法分别学习各个模态的相似图，使得相似数据生成尽可能相同的哈希编码。

[0053] 子空间自表示学习模型被广泛应用于数据的相似性学习，自表示特性认为模态中的每个数据样本都可以由同一模态中其他样本的线性组合表示。

[0054] 其中，通过反距离加权融合策略将各个模态的相似图加权融合成模态间统一的共识图，以保持各个模态内的相似结构信息并减小多模态数据之间的异构鸿沟。重构误差如
下：

[0055]

[0056] 其中，为不同模态的相似图矩阵，为模态间的统一的共识图矩阵，为不同模态的权重系数。为不同模态的训练数据，m=1表示图像模态，m=
2表示文本模态。为正则项的权重参数。为各个模态相似图与模态间统一共识图重构误
差项的权重参数。

[0057] 在具体实施过程中，在所述目标函数中，所述哈希函数为线性映射。

[0058] 在所述目标函数中，所述哈希函数学习的目标为：

[0059] 使得原始数据经过映射矩阵投影后与学习到的哈希码矩阵之间的量化损失最小，并对映射矩阵施加F范数约束学习的判别性。

[0060] 具体地，利用构建的线性映射矩阵并对该映射矩阵进行学习，学习不同模态的线性映射矩阵，利用线性映射作为哈希函数。

[0061] 哈希函数学习的目标函数定义如下：

[0062]

[0063] 其中，和表示图像模态和文本模态的映射矩阵。表示常系数矩阵；表示单位矩阵。

[0064] 在步骤S101中，在测试数据的哈希码矩阵的过程中，将待检索的图像数据右乘以后取符号函数变为1和‑1或者将待检索的文本数据右乘以后取符号函数，生成测
试数据的哈希码矩阵。

[0065] 在步骤S101中，最终的目标函数为：

[0066]

[0067] 其中，表示哈希码相似性约束项的权重参数；表示哈希函数学习项的权重参数；表示正则约束项的权重参数；表示正则约束项，防止过度拟合，其
中，；表示矩阵的转置。

[0068] S102：计算测试数据哈希码矩阵和基于目标函数得到的训练数据哈希码矩阵之间的汉明距离，并对其进行排序，得到测试数据的检索结果。

[0069] 本实施例通过利用协同矩阵分解方法保持不同模态数据间的潜在语义关联信息，同时学习不同模态的相似图和模态间的共识图保持多模态数据的一致性和互补性，结合约
束项，建立目标函数；在查询阶段，通过目标函数得到的映射矩阵，生成测试数据集的哈希
码，实现跨模态检索。

[0070] 为了验证本实施例的该方法在跨模态检索上的优越性，选择3个公开的数据集上进行实验，其中包括Wiki数据集，PASCAL‑VOC数据集和UCI Handwritten Digit数据集；跨
模态检索评价采用MAP。

[0071] 其中，MAP：是对多个查询语句的AveP求均值(the mean of average precision scores)。

[0072] AveP：是把准确率P看做是召回率R的函数，即：P=f(R)，也就是随着召回率R从0到1，准确率P的变化情况。那么就可以对函数P=f(R)在R上进行积分，可以求P的期望均值。

[0073] 表1在Wiki数据集上的实验结果

[0074]

[0075] 表2在PASCAL‑VOC数据集上的实验结果

[0076]

[0077] 表3在UCI Handwritten Digit数据集上的实验结果

[0078]

[0079] 通过表1、表2和表3说明：

[0080] 本实施例方法与现有的8种跨模态检索方法进行比较，即CVH、CCA、IMH、RCH、FSH、RFDH、CRE和JIMFH这8种跨模态检索方法。

[0081] 所有方法在如表1、表2和表3这三个数据集上进行了对比实验，图像检索文本和文本检索图像两个任务上哈希码从16比特变化到128比特，本实例方法的MAP值优于其他对比
实验方法，证明了其利用多图加权融合策略约束生成哈希码的效果好于其他的方法。

[0082] 实施例二

[0083] 如图2所示，本实施例提供了一种基于多图加权融合的数据检索系统，其具体包括如下模块：

[0084] （1）哈希码矩阵生成模块，其用于基于目标函数得到映射矩阵，再根据映射矩阵对测试数据进行投影，对应生成测试数据哈希码矩阵；

[0085] 其中，目标函数由六项构成，前两项是利用协同矩阵分解得到不同模态数据的潜在因子矩阵；第三项是学习模态内和模态间的相似图矩阵；第四项是通过模态间统一的共
识图矩阵和潜在因子矩阵而生成统一的哈希码矩阵；第五项是学习哈希函数；第六项是正
则化项。

[0086] 目标函数的表达式为：

[0087]

[0088] 在公式中，为图像模态的基矩阵，为文本模态的基矩阵，为多模态数据统一的潜在语义矩阵；为不同模态间的平衡参数；为F范数；
为图像数据；为图像数据的维度，为训练集样本对的数量；为文
本数据；为文本数据的维度；为不同模态的相似图矩阵；为模态间的统一
的共识图矩阵；为不同模态的权重系数；为不同模态的训练数据，m=1表
示图像模态，m=2表示文本模态；为正则项的权重参数；为各个模态相似图与模态间统一
共识图重构误差项的权重参数；和分别表示图像模态和文本模态的映射矩阵；表示
哈希码相似性约束项的权重参数；表示哈希码的编码位数；表示哈希函数学习项的权
重参数；表示正则约束项的权重参数；表示正则约束项，防止过度拟合，
；表示常系数矩阵；表示矩阵的转置；表示单位矩阵。

[0089] 具体地，在所述目标函数中，协同矩阵分解的目标为：

[0090] 通过分解数据的不同模态来学习哈希码矩阵，保持各个模态的特有语义信息和多模态数据的共享语义信息。

[0091] 在所述目标函数中，通过子空间自表示学习和反距离加权融合方法学习模态内和模态间的相似图矩阵。

[0092] （2）检索结果获取模块，其用于计算测试数据哈希码矩阵和基于目标函数得到的训练数据哈希码矩阵之间的汉明距离，并对其进行排序，得到测试数据的检索结果。

[0093] 此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

[0094] 实施例三

[0095] 本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于多图加权融合的数据检索方法中的步骤。

[0096] 实施例四

[0097] 本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于多图加权融
合的数据检索方法中的步骤。

[0098] 此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

[0099] 本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/
或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到
通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个
机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流
程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0100] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修
改、等同替换、改进等，均应包含在本发明的保护范围之内。

基于多图加权融合的数据检索方法与系统转让专利

申请号 : CN202210214926.5

文献号 : CN114281950B

文献日 : 2022-05-06

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘兴波 , 李佳敏 , 聂秀山 , 王少华 , 尹义龙

申请人 : 山东建筑大学

摘要 :

权利要求 :

说明书 :