一种跨模态检索方法、装置、设备及介质转让专利
申请号 : CN202110187051.X
文献号 : CN112528048B
文献日 : 2021-05-14
发明人 : 蔡冠羽 , 蒋忻洋 , 张均 , 彭湃 , 孙星 , 郭晓威 , 黄飞跃
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种跨模态检索方法,其特征在于,所述方法包括:获取待检索的查询文本;
根据所述查询文本在多媒体数据库中进行检索,得到候选多媒体集合,所述多媒体数据库中的多媒体数据中共包含M个对象,M为整数;所述候选多媒体集合中包含与所述查询文本相匹配的N个候选多媒体数据,N为正整数;
检测并统计所述M个对象在所述N个候选多媒体数据中的分布信息;
对所述分布信息进行策略分析处理,得到所述M个对象的采样概率;
根据采样概率从所述M个对象中选取目标对象,并根据所述目标对象生成所述查询文本的缺失内容,并获取针对所述缺失内容的确认反馈;
根据所述确认反馈对所述候选多媒体集合进行优化,得到检索结果。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标对象生成所述查询文本的缺失内容,包括:
生成所述目标对象的描述内容,所述描述内容包括描述文本、描述音频或描述图像;
将所述描述内容确定为所述查询文本的缺失内容。
3.如权利要求2所述的方法,其特征在于,所述获取针对所述缺失内容的确认反馈,包括:
输出交互提示,所述交互提示中包含所述缺失内容,所述交互提示用于询问所述缺失内容的正确性;
接收针对所述缺失内容的确认反馈,所述确认反馈用于确认或否认所述缺失内容的正确性。
4.如权利要求3所述的方法,其特征在于,所述根据所述确认反馈对所述候选多媒体集合进行优化,得到检索结果,包括:若所述确认反馈用于确认所述缺失内容的正确性,则从所述候选多媒体集合中选取第一多媒体数据,所述第一多媒体数据是指包含所述目标对象的候选多媒体数据;
调高所述第一多媒体数据与所述查询文本之间的匹配度;
若调高后的所述第一多媒体数据与所述查询文本之间的匹配度大于匹配阈值,则将所述第一多媒体数据作为所述检索结果。
5.如权利要求3所述的方法,其特征在于,所述根据所述确认反馈对所述候选多媒体集合进行优化,得到检索结果,包括:若所述确认反馈用于否认所述缺失内容的正确性,则从所述候选多媒体集合中选取第二多媒体数据,所述第二多媒体数据是指包含所述目标对象的候选多媒体数据;
调低所述第二多媒体数据与所述查询文本之间的匹配度;
若调低后的所述第二多媒体数据与所述查询文本之间的匹配度小于匹配阈值,则将所述第二多媒体数据移除所述候选多媒体集合;
将移除后的所述候选多媒体集合作为所述检索结果。
6.如权利要求3所述的方法,其特征在于,所述根据所述确认反馈对所述候选多媒体集合进行优化,得到检索结果,包括:根据所述确认反馈对所述候选多媒体集合中的各个候选多媒体数据与所述查询文本之间的匹配度进行调整;
按照调整后的匹配度由高至低的顺序对所述候选多媒体集合中的N个候选多媒体数据进行排序;
选取排序靠前的数量阈值个候选多媒体数据作为所述检索结果。
7.如权利要求1所述的方法,其特征在于,所述根据所述查询文本在多媒体数据库中进行检索,得到候选多媒体集合,包括:提取所述查询文本的文本特征,以及获取所述多媒体数据库中的各个多媒体数据的数据特征;
分别将所述文本特征与各个所述数据特征进行匹配,获得所述文本特征与各个所述数据特征之间的匹配度;
按照匹配度由高至低的顺序从所述多媒体数据库中选取N个多媒体数据构成所述候选多媒体集合。
8.如权利要求1所述的方法,其特征在于,所述方法通过调用跨模态检索模型来执行,所述跨模态检索模型包括文本特征网络、多媒体特征网络、目标检测网络和策略网络;
所述文本特征网络和所述多媒体特征网络用于根据所述查询文本在所述多媒体数据库中进行检索,得到所述候选多媒体集合;
所述目标检测网络用于获得所述N个候选多媒体数据中的对象信息;
所述策略网络用于根据所述N个候选多媒体数据中的对象信息生成所述查询文本的缺失内容,并获取针对所述缺失内容的确认反馈;以及根据所述确认反馈对所述候选多媒体集合进行优化,得到检索结果。
9.如权利要求8所述的方法,其特征在于,所述跨模态检索模型的训练过程包括:获取样本数据,所述样本数据包含多组样本对,每组样本对包含一个样本文本和一个样本多媒体数据;
选择任一组样本对,并调用所述文本特征网络提取所述任一组样本对中的样本文本的文本特征,以及调用所述多媒体特征网络提取所述多媒体数据库中的各个多媒体数据的数据特征;所述多媒体数据库中的多媒体数据中共包含M个对象,M为整数;
分别将所述样本文本的文本特征与各个所述数据特征进行匹配,获得所述样本文本的文本特征与各个所述数据特征之间的匹配度;
按照匹配度由高至低的顺序从所述多媒体数据库中选取第三多媒体数据;
根据所述任一组样本对中的样本多媒体数据与所述第三多媒体数据之间的差异,联合训练所述文本特征网络和所述多媒体特征网络。
10.如权利要求9所述的方法,其特征在于,所述跨模态检索模型的训练过程还包括:调用所述目标检测网络检测并统计所述M个对象在所述第三多媒体数据中的分布信息;
调用所述策略网络对所述分布信息进行策略分析处理,得到所述M个对象的采样概率,并根据采样概率从所述M个对象中选取待确认对象,并确认所述待确认对象是否位于所述任一组样本对中的样本多媒体数据中;
根据确认结果调整所述任一组样本对中的样本文本和所述第三多媒体数据之间的匹配度,并更新所述目标检测网络和所述策略网络的参数;
重新选择另一组样本对对所述跨模态检索模型进行迭代训练,直至所述跨模态检索模型趋于稳定为止。
11.一种跨模态检索装置,其特征在于,包括:获取单元,用于获取待检索的查询文本;
处理单元,用于根据所述查询文本在多媒体数据库中进行检索,得到候选多媒体集合,所述多媒体数据库中的多媒体数据中共包含M个对象,M为整数;所述候选多媒体集合中包含与所述查询文本相匹配的N个候选多媒体数据,N为正整数;
所述处理单元,还用于检测并统计所述M个对象在所述N个候选多媒体数据中的分布信息;对所述分布信息进行策略分析处理,得到所述M个对象的采样概率;根据采样概率从所述M个对象中选取目标对象,并根据所述目标对象生成所述查询文本的缺失内容,并获取针对所述缺失内容的确认反馈;
所述处理单元,还用于根据所述确认反馈对所述候选多媒体集合进行优化,得到检索结果。
12.一种跨模态检索设备,其特征在于,包括:处理器,适于实现一条或多条指令;
计算机可读存储介质,所述计算机可读存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1‑10任一项所述的跨模态检索方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1‑10任一项所述的跨模态检索方法。
说明书 :
一种跨模态检索方法、装置、设备及介质
技术领域
背景技术
的检索内容的模态为文本,检索结果的模态为图像。
本输出检索到的图像。这种方法完全取决于检索性能的优劣性,通常情况下得到的检索结
果不够准确。交互式检索方法一般是根据查询文本检索到图像后,输出检索图像的同时要
求用户对该检索图像进行打分,根据用户的打分来改进检索性能。这种方法属于后置依赖,
即完全依赖于用户对前一次检索结果的反馈来改进下一次检索结果,如果用户拒绝反馈或
者提供不准确反馈,会影响检索性能的改进,造成检索结果的准确性较低。实践发现,目前
的跨模态检索方法均是完全依赖查询文本进行检索,且普遍存在准确性较低的问题,如果
存在查询文本不完整的情况,还会极大的给检索结果带来负面影响,进一步降低检索性能
和检索准确性。
发明内容
索结果。
体数据库中的多媒体数据中共包含M个对象,M为整数;
多媒体数据中;
态检索设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指
令,使得该跨模态检索设备执行上述的跨模态检索方法。
象信息自动产生查询文本的候补的缺失内容;并基于针对缺失内容的确认反馈来对候选多
媒体集合进行优化,得到检索结果。由于本申请实施例基于候选多媒体数据自动产生查询
文本可能的缺失内容,这使得跨模态检索过程中充分考虑了查询文本输入不完整的情况,
有效提升了跨模态检索过程的智能性;另外,可通过模拟方式或与用户对话方式来获取针
对缺失内容的确认反馈,这既简化了收集反馈的流程,同时一定程度的降低了对用户反馈
信息的依赖度,能够更有效地提升检索性能,从而提高检索结果的准确性。
附图说明
申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
具体实施方式
本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本申请保护的范围。
一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信
息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链以密码学方式保证数据不
可篡改和不可伪造。
论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解
智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能
也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人
工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人
工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理
技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语
音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学
习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式
教学习等技术。机器学习可以被看成一项任务,这个任务的目标就是让机器(广义上的计算
机)通过学习来获得类似人类的智能。例如人类会下围棋,计算机程序(AlphaGo或AlphaGo
Zero)被设计成掌握了围棋知识、会下围棋的程序。其中,多种方法可用来实现机器学习的
任务,比如,神经网络、线性回归、决策树、支持向量机、贝叶斯分类器、强化学习、概率图模
型、聚类等多种方法。
益。即强化学习解决的问题是:针对一个具体问题得到一个最优的策略(policy),使得在该
策略下获得的奖励(reward)最大。采用强化学习方法进行训练时,主要包括四个部分,分别
为:状态、动作、策略(即是一个函数,指示智能体(如本申请的跨模态检索智能体)在某一个
状态做出一个动作)以及奖励(即通过来自环境的奖励判断自己行为的好坏,从而通过更大
可能的选择收益高的行为使自己趋于目标状态),通过这四个部分使得强化学习可以用于
描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现
特定目标的问题。
图像、视频等。应当理解的是:同一数据的存在形式(即模态)不同,但不同存在形式的同一
数据均描述了同一事物(包括生命物体或非生命物体)或事件。举例来说,假设待检索的数
据的模态为文本,检索得到的检索结果的模态为图像,这一跨模态检索的过程可参见图1;
如图1所示,当打开并使用计算机设备中运行的搜索应用(如各种搜索引擎、任一应用程序
中部署的搜索类小程序等等)时,显示检索框1011;假设在检索框1011中输入的待检索的文
本为:“滑滑板的男孩”,那么通过搜索引擎检索得到的检索结果可以为:一张图像,该图像
中显示有一个正在滑滑板的男孩,该图像可参见图1所示的图像1012。基于此,“滑滑板”在
图1中分别以文本和图像进行显示,但其实质均描述了同一事物‑滑滑板;同理,“滑滑板的
男孩”在图1中分别以文本和图像进行显示,但其实质均描述了同一事件‑一个男孩在滑滑
板。需要说明的是,图1中对文本‑图像的跨模态检索过程进行了介绍,本申请实施例还支持
其他模态之间的跨模态检索,如文本‑视频的跨模态检索、文本‑音频的跨模态检索等等,这
些跨模态检索过程可参考图1所示示例类似分析,在此不赘述。除特别说明外,本申请后续
实施例中均以文本‑图像的跨模态检索为例进行说明。
检索结果输出,而是基于这N个候选多媒体数据中的对象信息自动产生查询文本的候补的
缺失内容;并基于针对缺失内容的确认反馈来对候选多媒体集合进行优化,得到检索结果。
由于本申请实施例基于候选多媒体数据自动产生查询文本可能的缺失内容,这使得跨模态
检索过程中充分考虑了查询文本输入不完整的情况,有效提升了跨模态检索过程的智能
性;另外,可通过模拟方式或与用户对话方式来获取针对缺失内容的确认反馈,这既简化了
收集反馈的流程,同时一定程度的降低了对用户反馈信息的依赖度,能够更有效地提升检
索性能,从而提高检索结果的准确性。
机、平板电脑、台式电脑、膝上计算机等。本申请的跨模态检索方法可以在终端设备101中执
行,具体地:终端设备101提供检索界面,检索界面中包含检索框1011,用户可在该检索框
1011中输入查询文本;终端设备101根据用户输入的查询文本在本地执行跨模态检索,得到
检索结果,该检索结果可以是多媒体数据(如检索图像1012),然后由终端设备101将检索结
果输出。
检索方法可以在服务器设备102中执行,具体地:终端设备101提供检索界面,检索界面中包
含检索框1011,用户可在该检索框1011中输入查询文本;终端设备101将用户输入的查询文
本发送至服务器设备102,由服务器设备102根据该查询文本执行跨模态检索,得到检索结
果,该检索结果可以是多媒体数据(如检索图像1012);然后服务器设备102将检索结果返回
给终端设备101,由终端设备101向用户输出该检索结果,至此完成跨模态检索。
输入的查询文本发布至区块链网络中,并且将根据该查询文本所执行的跨模态检索流程及
检索结果均记录在区块链上,这样既可以保证跨模态检索过程的防篡改及案例性,同时也
可以使得每次跨模态检索过程能够被有效追溯,并且以区块的形式存储多媒体数据,可实
现多媒体数据的分布式存储。
S204:
查询文本为“喝奶茶的man”,该查询文本中包含中文字符“喝”、“奶”、“茶”、“的”,以及英文
字符“m”“a”“n”。在一种实现方式中,查询文本可以是某个界面中被选中的文本,例如,用户
正在阅读某个网页中的文章,选择该文章中的文本并点击搜索控件,则被选择的文本即为
查询文本;再如:用户在社交应用程序的会话界面中选择会话消息中的某个文本并点击搜
索控件,则会话消息中被选择的文本即为查询文本。
等等),该检索界面中包含检索框,用户在检索框中输入的文本即为查询文本,如图1所示的
查询文本1011。在又一种实现方式中,查询文本可以是在专属的跨模态检索智能体(agent,
即一种专门用于跨模态检索的系统)中输入的文本。可以理解的是,计算机设备可以在检测
到存在检索需求时,获取待检索的查询文本,该检索需求例如可以是点击搜索控件发出的
需求,或者是在检索框或跨模态检索智能体中进行输入时发出的需求。
为图像;又如,想要检索模态为视频的检索结果,则多媒体数据库可以为视频数据库,多媒
体数据库所存储的多媒体数据为视频;等等。当然,多媒体数据库中还可以存储多种模态的
多媒体数据,此实现方式下,支持根据同一查询文本检索出多种模态的检索结果,本申请实
施例对多媒体数据库中存储的多媒体数据的种类和数量不作限定。
多媒体集合。候选多媒体集合中包含N个候选多媒体数据,该N个候选多媒体数据是多媒体
数据库中与查询文本相匹配的N个多媒体数据;这表示该N个候选多媒体数据中包含查询文
本所指示的对象。例如:查询文本为“滑滑板的男孩”,对该查询文本进行特征提取,得到查
询文本的文本特征包括:词组“滑滑板”、词组“男孩”等;与该查询文本相匹配的某候选图像
中的对象可包含“滑板”、“男孩”,或者同时包含“滑板”和“男孩”。当然,候选多媒体数据中
的对象除包含“滑滑板”和“男孩”外,还可以包含其他对象如“帽子”等。
特征与各个多媒体数据的数据特征进行匹配,获得文本特征与各个数据特征之间的匹配
度,进而得到查询文本与各个多媒体数据之间的匹配度;再按照匹配度由高至低的顺序从
多媒体数据库中选取前N个多媒体数据作为候选多媒体数据,从而构成候选多媒体集合。
媒体数据。查询文本与候选多媒体数据之间的匹配度可以指示:该候选多媒体数据为查询
文本对应的检索结果的可能性;查询文本与某一多媒体数据之间的匹配度越高,表示该多
媒体数据越可能是查询文本所对应的检索结果,即是用户想要检索的多媒体数据。例如,候
选多媒体数据1与查询文本之间的匹配度为80%,候选多媒体数据2与查询文本之间的匹配
度为50%,则可以确定候选多媒体数据1相比于候选多媒体数据2更大可能是查询文本对应
的检索结果。
表示多媒体数据库中的多媒体数据总共包含1601种类型的事物。以多媒体数据库为图像数
据库为例,假设图像数据库中包含三张图像,这三张图像可如图3所示;其中,图像1中包含
对象1、对象2以及对象3,图像2中包含对象1、对象2,图像3中包含对象1、对象3及对象4;那
么确定图像数据库所包含的三张图像共包含4个对象,即图像数据库包含4种类型的对象。
象1存在于图像1、图像2及图像3;对象2的分布信息可以包括:对象2存在于图像1、图像2;对
象3的分布信息可以包括:对象3存在于图像1和图像3;对象4的分布信息可以包括:对象4存
在于图像3。其中,某一对象在N个候选多媒体数据中的分布信息可以用向量来表示。例如:N
=3,分别为候选多媒体数据1、候选多媒体数据2、候选多媒体数据3,且对象1存在于候选多
媒体数据1,对象1有50%的可能性存在于候选多媒体数据2中,对象1未存在于候选多媒体数
据3中,则对象1的分布信息可表示为向量(1, 0.5 , 0);该向量包括3维,每一维表示某一
候选多媒体数据中是否存在对象1,每一维的数值表示对象1存在于该维对应的候选多媒体
数据中的概率。同理,对于一个候选多媒体数据而言,M个对象在该候选多媒体数据中的分
布信息同样可以用向量来表示。例如:M=3,分别为对象1、对象2及对象3,候选多媒体数据1
中包含对象1,不包含对象2,50%的可能性包含对象3,则三个对象在候选多媒体数据1中的
分布信息可以表示为向量(1,0,0.5);该向量包括3维,每一维代表一个对象,每一维的数值
表示候选多媒体数据1中存在该维对应的对象的概率。
概率越高,表示该对象更大可能是用户想要查询的内容。例如,对象1的采样概率为80%、对
象2的采样概率为40%,则可以确定的是,对象1相比于对象2更有可能是查询文本所包含的
事物(即用户想要查询的内容)。
采样是指从采样概率大于概率阈值的所有对象中随机选取目标对象。例如:M等于5,待选取
的目标对象的数量为2,概率阈值为40%;现5个对象以及各对象的采样概率为:对象1(其采
样概率为20%)、对象2(其采样概率为60%)、对象3(其采样概率为50%)、对象4(其采样概率为
55%)、对象3(其采样概率为45%);那么采样概率大于概率阈值的对象包括:对象2、对象3、对
象4及对象5,进而采用随机采样方式从这四个对象中随机选择2个目标对象的可能结果包
括:对象2和对象3、对象2和对象4、对象2和对象5、……等等。在另一种实现方式中,可以采
用贪婪采样的方式从M个对象中选取目标对象;所谓贪婪采样是指按照采样概率由高至低
的顺序从M个对象中选取目标对象。例如,M等于4,待选取的目标对象的数量为3,且对象1的
采样概率为80%、对象2的采样概率为40%,对象3的采样概率为60%、对象4的采样概率为70%,
则按照采样概率由高至低的顺序从4个对象中选取的目标对象包括:对象1、对象4、对象3。
描述内容;该描述内容可包括但不限于:描述文本、描述音频或描述图像。例如,目标对象为
事物“滑滑板”,那么该目标对象的描述内容(即缺失内容)可包括:汉字形式的“滑滑板”,或
者,包含“滑滑板”的图像,或者,一段包含“滑滑板”的语音音频,等等。
合进行优化的内容。为了明确各个缺失内容到底是不是用户想要查询的内容,本申请实施
例还支持将缺失内容发送给用户去进行确认反馈,例如:通过文字、语音或图片等方式输出
交互提示,让用户确认想要查询的图像中是否包含缺失内容;并获取用户针对缺失内容的
确认反馈,以便于根据确认反馈执行步骤S204,以实现对候选多媒体集进行优化,这使得优
化后的候选多媒体集中的多媒体数据中均包含用户想要查询的内容,进而得到更为准确的
检索结果。
此,本申请实施例支持与用户进行多轮交互,每一轮交互输出的交互提示中可以包含一个
或多个缺失内容。或者,支持与用户进行一轮交互,在一轮交互中输出的交互提示中包含所
有的缺失内容。
可参见图4,图4示出了本申请一个示例性实施例提供的一种交互场景的示意图;如图4所
示,假设缺失内容的数量为4,且各个缺失内容对应的目标对象的采样概率分别为:目标对
象1的采样概率为80%、目标对象2的采样概率为75%、目标对象3的采样概率为50%、目标对象
4的采样概率为77%;则可按照缺失内容对应的目标对象的采样概率由高至低的顺序依次输
出缺失内容,给用户确认。由于目标对象1的采样概率80%>目标对象4的采样概率77%>目标
对象2的采样概率75%>目标对象3的采样概率50%,则交互流程可包括:
1;并接收用户针对缺失内容1输入的确认反馈1;根据确认反馈1对候选多媒体集合进行优
化,得到第一次优化后的候选多媒体集合。③在第二轮交互中,输出目标对象4的缺失内容
4;并接收用户针对缺失内容4输入的确认反馈2;根据确认反馈2对第一次优化后的候选多
媒体集合进行优化,得到第二次优化后的候选多媒体集合。④在第三轮交互中,输出目标对
象2的缺失内容2;并接收用户针对缺失内容2输入的确认反馈3;根据确认反馈3对第二次优
化后的候选多媒体集合进行优化,得到第三次优化后的候选多媒体集合。⑤在第四轮交互
中,输出目标对象3的缺失内容3;并接收用户针对缺失内容3输入的确认反馈4;根据确认反
馈4对第三次优化后的候选多媒体集合进行优化,得到第四次优化后的候选多媒体集合;至
此基于第四次优化后的候选多媒体集合,得到检索结果。
出了本申请一个示例性实施例提供的另一种交互场景的示意图;如图5所示,假设缺失内容
的数量为4,且各个缺失内容对应的目标对象的采样概率分别为:目标对象1的采样概率为
80%、目标对象2的采样概率为75%、目标对象3的采样概率为50%、目标对象4的采样概率为
77%;则输出的交互提示中包含目标对象1的缺失内容1、目标对象2的缺失内容2、目标对象3
的缺失内容3、目标对象4的缺失内容4;并基于用户针对缺失内容1、缺失内容2、缺失内容3
及缺失内容4的确认反馈对候选多媒体集合进行优化,基于优化后的候选多媒体集合,得到
检索结果。
否认部分或全部缺失内容,如该确认反馈只用于确认缺失内容1的正确性,此时默认否认缺
失内容2、缺失内容3及缺失内容4的正确性。又如,当确认反馈的数量为多个时,每一个确认
反馈用于确认或否认所有缺失内容中的一个缺失内容;等等。本申请实施例对这种实现方
式下确认反馈的数量和内容不做限定。
三轮交互中输出一个缺失内容。具体实现方式的相关描述可参见上述相关描述,在此不作
赘述。(2)图4所示的缺失内容均以描述文本的形式进行展现,但实际上缺失内容还可以描
述图像等形式进行展示,本申请实施例以描述文本进行展示,并不会对本申请实施例产生
限定,在此说明。(3)交互提示中包含缺失内容,并不意味着交互提示中只包含缺失内容,应
当理解的是,交互提示是能够表达完整语义的一段文本或其他描述内容。例如,缺失内容为
“帽子”,则交互提示可以显示为“XXX戴有帽子吗”,其中,字符“帽子”在交互提示中可以以
区别于其他字符的形式进行显示,如字体颜色的亮度高于其他字体等,以提醒用户待确认
的缺失内容为“帽子”。
优化;重复上述交互过程,不断对候选多媒体集合进行优化,得到检索结果。其中,检索结果
可以包括:检索得到与查询文本相匹配的多媒体数据,或者,未检索到与查询文本相匹配的
多媒体数据。
优化的候选多媒体集合)中的各个候选多媒体数据与查询文本之间的匹配度进行调整,并
按照调整后的匹配度由高至低的顺序对候选多媒体集合中的N个候选多媒体数据进行排
序,得到本次交互优化后的候选多媒体集合;重复上述操作,得到最后一次交互时优化的候
选多媒体集合;并从最后一次交互时优化的候选多媒体集合中,选取排序靠前的数量阈值
个候选多媒体数据作为检索结果。
的内容,则从候选多媒体集合中选取第一多媒体数据;第一多媒体数据的数量可以为多个,
第一多媒体数据是指包含该缺失内容对应的目标对象的候选多媒体数据;并调高第一多媒
体数据与查询文本之间的匹配度;调整匹配度之后的候选多媒体集合中,第一多媒体数据
的排名上升,即第一多媒体数据的位置相比于调整前往上(或往前)调整。若某一轮交互接
收到的确认反馈指示用户否认某一缺失内容的正确性,即用户确认该缺失内容不是想要检
索的内容,则从候选多媒体集合中选取第二多媒体数据;第二多媒体数据的数量可以为多
个,第二多媒体数据是指包含该缺失内容对应的目标对象的候选多媒体数据;并调低第二
多媒体数据与查询文本之间的匹配度;调整匹配度之后的候选多媒体集合中,第二多媒体
数据的排名下降,即第二多媒体数据的位置相比于调整前往下(或往后)调整。需要说明的
是,本申请实施例对匹配度的调整幅度不作限定。
入的待检索的查询文本为“滑滑板的男孩”,根据该查询文本在图像数据库中检索,得到第
一候选图像集合,在第一候选图像集合中包含三张候选图像,分别为候选图像1、候选图像2
及候选图像3,三张候选图像与查询文本的匹配度分别为50%、45%及40%;执行上述步骤,得
到缺失内容“帽子”和“书包”。那么执行多轮交互,并根据每轮交互的确认反馈对候选多媒
体集合进行优化的过程可包括:
确认反馈。若针对交互提示“男孩头上是否有帽子”的确认反馈指示用户确认缺失内容“帽
子”的正确性,则在第一候选图像集合中调高包含“帽子”的候选图像与查询文本之间的匹
配度;如图6所示,候选图像1和候选图像3中包含缺失内容“帽子”,则调高候选图像1与查询
文本之间的匹配度,以及调高候选图像3与查询图像之间的匹配度,得到优化后的第二候选
图像集合。若针对交互提示“男孩头上是否有帽子”的确认反馈指示用户否认缺失内容“帽
子”的正确性,则在第一候选图像集合中调低包含“帽子”的候选图像与查询文本之间的匹
配度,得到优化后的第二候选图像集合。
提示“是否有书包”的确认反馈指示用户确认缺失内容“书包”的正确性,则在第二候选图像
集合中调高包含“书包”的候选图像与查询文本之间的匹配度,即调高候选图像3与查询文
本之间的匹配度,得到优化后的第三候选图像集合。若针对交互提示“是否有书包”的确认
反馈指示用户否认缺失内容“书包”的正确性,则在第二候选图像集合中调低包含“书包”的
候选图像与查询文本之间的匹配度,即调低候选图像3与查询文本之间的匹配度,得到优化
后的第三候选图像集合。
若数量阈值为1,则将候选图像3作为检索结果;若数量阈值为2,则将候选图像3和候选图像
1均作为检索结果;并输出检索结果。
行优化,使得最终优化得到的候选多媒体集合中每一个候选多媒体数据中均包含,用户确
认的每一个内容,进而基于最终优化得到的候选多媒体集合可得到正确性较高的检索结
果,提高检索结果的准确度。
索出检索结果。其中,结束条件可包括:根据该确认反馈调高后的第一多媒体数据与查询文
本之间的匹配度大于匹配度阈值;或者,根据该确认反馈调低后的第二多媒体数据与查询
文本之间的匹配度小于或等于匹配度阈值;或者,接收到结束指令,如用户请求中断检索或
检测到剩余交互次数为0;等等。
接将第一多媒体数据作为检索结果,换句话说,在调高第一多媒体数据与查询文本之间的
匹配度之后,若该匹配度大于匹配度阈值,表示该第一多媒体数据已经满足用户的检索需
求,则可以将该第一多媒体数据作为检索结果输出。当然,若在确认反馈指示确认缺失内容
的正确性,且调高后的第一多媒体数据与查询文本之间的匹配度小于或等于匹配阈值,表
示第一多媒体数据未满足用户的检索需求,此时可以继续输出交互提示(即输出下一个缺
失内容)给用户确认,或者,直接输出用于指示不存在检索结果的提示信息,通过该提示信
息提醒用户未检索到查询文本相应的多媒体数据。
可以在候选多媒体集合中移除第二多媒体数据,并将移除第二多媒体数据之后的候选多媒
体集合中所剩余的多媒体数据作为检索结果。当然,确认反馈指示否认缺失内容的正确性,
且根据该确认反馈调低后的第二多媒体数据与查询文本之间的匹配度大于或等于匹配度
阈值,此时可以继续输出交互提示(即输出下一个缺失内容)给用户确认,或者,直接输出用
于指示不存在检索结果的提示信息,通过该提示信息提醒用户未检索到查询文本相应的多
媒体数据。
媒体集合确定检索结果的方式,可以参见上述多种实现方式,在此不作赘述。
信息自动产生查询文本的候补的缺失内容;并基于针对缺失内容的确认反馈来对候选多媒
体集合进行优化,得到检索结果。由于本申请实施例基于候选多媒体数据自动产生查询文
本可能的缺失内容,这使得跨模态检索过程中充分考虑了查询文本输入不完整的情况,有
效提升了跨模态检索过程的智能性;另外,可通过与用户对话方式来获取针对缺失内容的
确认反馈,这既简化了收集反馈的流程,同时一定程度的降低了对用户反馈信息的依赖度,
能够更有效地提升检索性能,从而提高检索结果的准确性。
图可参见图7,如图7所示,跨模态检索模型包括文本特征网络701、多媒体特征网络702、目
标检测网络703和策略网络704;其中,文本特征网络701用于将文本转化为文本特征,即提
取文本的文本特征;文本特征网络701可以包括但不限于:GRU模型、LSTM模型、以及BERT模
型等等。多媒体特征网络702用于将多媒体数据转换为数据特征,需要说明的是,本申请实
施例以多媒体特征网络702为图像特征网络,图像特征网络用于将图像转换为图像特征为
例进行介绍,并不对本申请实施例产生限定,在此说明;其中,图像特征网络可包括但不限
于:Faster RCNN模型、Mask RCNN模型、R‑CNN模型以及Fast R‑CNN模型,等等。目标检测网
络703用于在多媒体数据中检测对象,目标检测网络703可以为多媒体特征网络702。策略网
络π是一个全连接网络,包含多层感知器MLP,用于输出M维的向量,M维对应M个对象,每一维
的数值代表该维对应的对象的采样概率。
Xt ,其中,X表示查询文本的文本特征序列(包括一个或多个文本特征),Xt 表示第t次转化
得到的文本特征序列。以及多媒体特征网络702对多媒体数据库中的多媒体数据提取数据
l l
特征Xn ,其中,X表示某一多媒体数据的数据特征序列(包括一个或多个数据特征,如图像
l
特征),Xn表示多媒体数据中n个多媒体数据的数据特征,多媒体数据库中所有的多媒体数
T l
据中共包含M个对象。将查询文本的文本特征Xt 和多媒体数据的数据特征Xn进行匹配,得
T l
到查询文本的文本特征Xt和多媒体数据的数据特征Xn 之间的匹配度,再按照匹配度由高
至低的顺序从多媒体数据库中选取N个多媒体数据构成候选多媒体集合。基于此,跨模态检
索模型中的文本特征网络和多媒体特征网络用于根据查询文本在多媒体数据库中进行检
T
索,得到候选多媒体集合。其中,强化学习所包含的“奖励”为此处的查询文本的文本特征Xt
l
和多媒体数据的数据特征Xn之间的匹配度,本申请实施例以r来代表奖励,即本申请实施例
T l
中奖励r为查询文本的文本特征Xt和多媒体数据的数据特征Xn之间的匹配度。
702发送的数据特征Xn 和M个对象,并统计M个对象的分布信息P(a),其中,a是指M个对象中
的某一对象。基于此,目标检测网络用于获得N个候选多媒体数据中的对象信息。并且,目标
T
检测网络703还将文本特征Xt和分布信息P(a)发送给策略网络π。其中,强化学习所包含的
T
“策略”为此处的策略网络π,强化学习所包含的“状态”为此处的文本特征Xt 和分布信息P
T
(a),在本申请实施例中,状态s包含文本特征Xt和分布信息P(a)。
所包含的“动作”为经过策略网络π采样得到的缺失内容At。
用户否认的缺失内容At可以发送至目标检测网络703,以便于目标检测网络703根据缺失内
Q Q
容At调低包含缺失内容At的候选多媒体数据与查询文本之间的匹配度。
调整等,最终得到检索结果。基于步骤s24‑s26可知,策略网络用于根据N个候选多媒体数据
中的对象信息生成查询文本的缺失内容,并获取针对缺失内容的确认反馈;以及根据确认
反馈对候选多媒体集合进行优化,得到检索结果。
数据库进行分析,自动产生候补的缺失内容;通过基于多媒体数据库产生的缺失内容向用
户确认,相比于让用户自己反馈信息而言,可以引导用户反馈对检索更有利的信息,进而迅
速检索到满意的检索结果,提升检索性能,提高检索结果的准确性。
的跨模态检索方法主要涉及构建跨模态检索模型以及调用构建好的跨模态检索模型来执
行跨模态检索方法,该方法可包括步骤S801‑S809:
样本对中的样本文本和样本图像均描述的是同一事物和事件。参见图9,图9示出了本申请
实施例提供的一种样本数据的示意图,如图9所示,样本数据所包含的任一组样本对均包含
一个样本文本和一个样本图像,例如:样本文本1为“滑滑板的男孩”,对应的样本图像1所描
述的画面为“一个正在滑滑板的男孩”,又如:样本文本2为“一个孩子,带有一个书包”,对应
的样本图像2所描述的画面为“一个背着书包的男孩”。基于此,虽然任一样本文本和该任一
样本文本对应的样本图像的模态并不相同,但均表达了同一事件或事物。
征时,可提取到“男孩”、“滑板”等文本特征。以及调用图像特征网络提取图像数据库中的各
个图像的数据特征(即图像特征);其中,图像特征网络提取图像的数据特征的方式可包括:
对该图像进行分区,即按照某种规则(如从上至下、从左至右等)将该图像划分为多个板块,
对各个板块进行图像特征的提取。如图10所示,调用图像特征网络对图像1进行图像特征提
取时,可将图像1划分为4个板块,即获取到图像1的4个数据特征。
与各个图像之间的匹配度。
中,从图像序列中选取第三多媒体数据的方式可包括:将图像序列中靠前的预设数量(如
100)的图像作为第三多媒体数据。举例来说,图像数据库中包含图像1、图像2、图像3、图像
4,且图像1与样本文本之间的匹配度为30%、图像2与样本文本之间的匹配度为60%、图像3与
样本文本之间的匹配度为72%、图像4与样本文本之间的匹配度为80%,则按照匹配度由高至
低的顺序,得到图像序列为:图像4‑>图像3‑>图像2‑>图像1;假设预设数量为2,则从图像序
列中选取的第三多媒体数据包括:图像4、图像3。
像特征网络(即多媒体特征网络)。
包括图像1和图像2,经目标检测网络检测发现:图像1中100%的可能性包含对象1、图像1中
100%的可能性包含对象2、图像1中50%的可能性包含对象3,图像2中100%的可能性包含对象
1、图像2中不包含对象2,图像2中80%的可能性包含对象3;那么对象1的分布信息P(对象1)=
(1,1),对象2的分布信息P(对象2)=(1,0),对象3的分布信息P(对象1)=(0.5,0.8)。
特征表示为一个256维的向量。
对象中选取待确认对象,那么步骤②可以省略,在此说明。
象位于该任一组样本对中的样本多媒体数据中,此时确定待确认对象既存在于该任一组样
本对中的样本多媒体数据中,也存在于第三多媒体数据中;2、待确认对象不位于该任一组
样本对中的样本多媒体数据中,此时确定待确认对象不存在于该任一组样本对中的样本多
媒体数据中,只存在于第三多媒体数据中。
认待确认对象既存在于该任一组样本对中的样本多媒体数据中,也存在于第三多媒体数据
中,表示检索得到与样本文本相匹配的多媒体数据,则对样本文本‑第三多媒体数据的奖励
包括:调高任一组样本对中的样本文本和第三多媒体数据之间的匹配度;反之,若确认结果
确认待确认对象未存在于该任一组样本对中的样本多媒体数据中,只存在于第三多媒体数
据中,表示未检索得到与样本文本相匹配的多媒体数据,则对样本文本‑第三多媒体数据的
奖励包括:调低任一组样本对中的样本文本和第三多媒体数据之间的匹配度。
中,无需收集对象数据,就可以收集到大量的(s,a,r)三元组(这些三元组用于后续设计损
失函数),进而减小用户的工作量,提高训练效率。
索模型作为训练好的跨模态检索模型;若此时跨模态检索模型未趋于稳定,则采用优化器
反向传播,以更新各个网络模型(如文本特征网络、多媒体特征网络、目标检测网络及策略
网络)的参数,并执行步骤S805。其中,常见的优化器可以包括但不限于:Adam、Momentum
SGD、Nesterov、AdaGrad、RMSProp、SGD等等。
很小的变化)来确定的。本申请实施例提出的跨模态检索模型的损失函数,是在PPO
(Proximal Policy Optimizataion)算法的损失函数基础之上提出的,并且,本申请实施例
还提出统计样本文本的文本特征和某一对象同时出现于多媒体数据中的概率,并将该概率
作为策略网络需要拟合的概率分布。基于上述原理设计跨模态检索模型的损失函数。
T
Xt和M个对象的分布信息P(a)组成。
现方式进行介绍:
有对象,第三多媒体数据的数量可以不为1。其中,可以采用分词处理方法来解析样本文本,
常见的分词处理方法可包括但不限于:基于词典的分词方法,是按照一定的策略将待关联
的字符串和一个已建立好的“充分大的”词典库中的词进行关联,若找到某个词,则说明关
联成功,识别了该词。基于统计的分词方法,是对文本所包含的各个字进行标注训练,不仅
考虑词语出现的频率,还考虑上下文。基于理解的分词方法,是通过让计算机模拟人对文本
的理解,达到识别文本中的词的效果。本申请实施例对具体采用哪一种或多种分词方法不
作限定。通过对样本文本进行分词处理,可将较长的文本(或字段)分为较短的字段(即词或
词语),方便后续统计。举例来说,假设样本文本为“滑滑板的男孩”,采用上述任一分词方法
对该样本文本进行分词处理,可得到该样本文本对应的字符“滑板”、“男孩”。当然,当样本
文本为英文时,可解析得到英文样本文本的所有单词(如“boy”、“man”等),在这里不作赘
述。
多媒体数据2,其中,第三多媒体数据1中包含对象1、对象2‑“男孩”,第三多媒体数据2中包
含对象1和对象3;那么可以确定字符“男孩”和对象2‑“男孩”同时出现在第三多媒体数据1
中,则字符“男孩”和对象2‑“男孩”同时出现的频率为1/2。在实际应用场景中,第三多媒体
数据的数量,以及样本文本所包含的字符的数量往往是丰富的,为了便于计算,这里可以采
用如下公式,来进行统计:
符w所表达的对象(如物体);o∈ik表示对象o出现于图像ik中;l(w∈ik||o∈ik)为指示函
数,可简写为l(e),即e= w∈ik||o∈ik,当e为真时,指示函数的值为1,当e为假时,指示函数
的值为0,e为真是指:字符w出现于图像ik的文字描述中、且对象o出现于图像ik中,其他情况
均表示e为假。
的标签信息进行模拟,即通过任一组样本对所包含的样本多媒体数据进行模拟,而不需要
像检索场景下与用户进行交互,这种不需要利用人工标注的交互数据来进行训练,减少了
数据收集成本,也扩展了这类模型训练方法的使用范围。
到检索结果。
据对跨模态检索模型进行训练,可得到性能较好、较为稳定的跨模态检索模型;并且采用模
拟方式或与用户对话方式来获取针对缺失内容的确认反馈,这既简化了收集反馈的流程,
同时一定程度的降低了对用户反馈信息的依赖度,能够更有效地提升检索性能,从而提高
检索结果的准确性。
该跨模态检索装置可以是终端中的剧本类的目标应用;该跨模态检索装置可以用于执行图
2及图8所示的方法实施例中的部分或全部步骤。请参见图11,该跨模态检索装置包括如下
单元:
索结果。
体数据库中的多媒体数据中共包含M个对象,M为整数;
多媒体数据中;
能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效
果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个
单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该跨模态检
索装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可
以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括中央处理单元
(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机
的通用计算设备上运行能够执行如图2及图8所示的相应方法所涉及的各步骤的计算机程
序(包括程序代码),来构造如图11中所示的跨模态检索装置,以及来实现本申请实施例的
跨模态检索方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读
记录介质装载于上述计算设备中,并在其中运行。
多媒体数据中的对象信息自动产生查询文本的候补的缺失内容;并基于针对缺失内容的确
认反馈来对候选多媒体集合进行优化,得到检索结果。由于本申请实施例基于候选多媒体
数据自动产生查询文本可能的缺失内容,这使得跨模态检索过程中充分考虑了查询文本输
入不完整的情况,有效提升了跨模态检索过程的智能性;另外,可通过模拟方式或与用户对
话方式来获取针对缺失内容的确认反馈,这既简化了收集反馈的流程,同时一定程度的降
低了对用户反馈信息的依赖度,能够更有效地提升检索性能,从而提高检索结果的准确性。
1203。其中,处理器1201、通信接口1202以及计算机可读存储介质1203可通过总线或者其它
方式连接。其中,通信接口1202用于接收和发送数据。计算机可读存储介质1203可以存储在
跨模态检索设备的存储器中,计算机可读存储介质1203用于存储计算机程序,计算机程序
包括程序指令,处理器1201用于执行计算机可读存储介质1203存储的程序指令。处理器
1201(或称CPU(Central Processing Unit,中央处理器))是跨模态检索设备的计算核心以
及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现
相应方法流程或相应功能。
存储介质既可以包括跨模态检索设备中的内置存储介质,当然也可以包括跨模态检索设备
所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了文档编辑
设备的处理系统。并且,在该存储空间中还存放了适于被处理器1201加载并执行的一条或
多条的指令,这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此
处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non‑
volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处
理器的计算机可读存储介质。
质中存放的一条或多条指令,以实现上述跨模态检索方法实施例中的相应步骤;具体实现
中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行如下步骤:
下步骤:
索结果。
体数据库中的多媒体数据中共包含M个对象,M为整数;
多媒体数据中;
媒体数据中的对象信息自动产生查询文本的候补的缺失内容;并基于针对缺失内容的确认
反馈来对候选多媒体集合进行优化,得到检索结果。由于本申请实施例基于候选多媒体数
据自动产生查询文本可能的缺失内容,这使得跨模态检索过程中充分考虑了查询文本输入
不完整的情况,有效提升了跨模态检索过程的智能性;另外,可通过模拟方式或与用户对话
方式来获取针对缺失内容的确认反馈,这既简化了收集反馈的流程,同时一定程度的降低
了对用户反馈信息的依赖度,能够更有效地提升检索性能,从而提高检索结果的准确性。
理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机
设备执行上述跨模态检索方法。
竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人
员可以对每个特定的应用,使用不同方法来实现所描述的功能,但是这种实现不应认为超
出本申请的范围。
包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产
生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网
络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中,或者通过计算机
可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过
有线(例如,同轴电缆、光纤、数字用户线(DSL))或无线(例如,红外、无线、微波等)方式向另
一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能
够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存
储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导
体介质(例如,固态硬盘(Solid State Disk,SSD))等。
盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。