一种文件检索方法、电子设备及存储介质转让专利

申请号 : CN202210274264.0

文献号 : CN114356852B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 邓硙

申请人 : 展讯通信(天津)有限公司

摘要 :

本申请实施例提供一种文件检索方法、电子设备及存储介质,其中上述文件检索方法,应用于电子设备,包括:获取目标特征,所述目标特征包括用户输入的关键信息的图像特征、文本特征、音频特征中的至少一种;获取每个待检索文件的待检索特征,所述待检索特征包括所述待检索文件的图像特征、文本特征、音频特征中的至少一种;将所述待检索特征与所述目标特征融合,得到中间特征;根据每个待检索文件的中间特征确定所述待检索特征与所述目标特征之间的关联程度。本申请实施例提供的文件检索方法,可以最大化利用待检索文件的多种信息进行检索,进而提高检索的准确性,增加用户体验。

权利要求 :

1.一种文件检索方法,其特征在于,应用于电子设备,包括:获取目标特征,所述目标特征包括用户输入的关键信息的图像特征、文本特征、音频特征中的至少一种;

获取每个待检索文件的待检索特征,所述待检索特征包括所述待检索文件的图像特征、文本特征、音频特征中的至少一种特征;

将所述每个待检索文件的待检索特征分别与所述目标特征融合,对应得到多个中间特征,多个中间特征分别为每个待检索文件的中间特征;

根据每个待检索文件的中间特征确定所述待检索特征与所述目标特征之间的关联程度。

2.根据权利要求1所述的方法,其特征在于,所述根据每个待检索文件的中间特征确定所述待检索特征与所述目标特征之间的关联程度,包括:将每个待检索文件的中间特征输入分类器,得到每个待检索文件的评分,所述评分用于表示所述待检索特征与所述目标特征之间的关联程度。

3.根据权利要求1或2所述的方法,其特征在于,所述将所述待检索特征与所述目标特征融合,得到中间特征,包括:在所述待检索特征与所述目标特征之间进行点积,得到所述中间特征。

4.根据权利要求3所述的方法,其特征在于,当所述待检索特征包括所述待检索文件的图像特征、所述待检索文件的文本特征、所述待检索文件的音频特征中的至少两种类型的特征,且所述目标特征为所述关键信息的图像特征、文本特征、音频特征中的一种,所述在所述待检索特征与所述目标特征之间进行点积,得到所述中间特征,包括:将所述待检索特征中的所有特征融合,得到第一融合特征;

在所述第一融合特征与所述目标特征之间进行点积,得到所述中间特征。

5.根据权利要求4所述的方法,其特征在于,当所述待检索特征包括所述待检索文件的图像特征、所述待检索文件的文本特征、所述待检索文件的音频特征中的两种类型的特征,且所述待检索特征内两种类型特征的维度不相同,所述将所述待检索特征中的所有特征融合,得到第一融合特征,包括:将所述待检索特征中的所有特征映射至同一维度,得到第一特征;

对所述第一特征进行降维,得到第二特征,所述第二特征的维度与第一权重特征的维度相同,其中,所述第一权重特征为所述待检索特征内与所述目标特征的类型相同的特征;

在所述第二特征与所述第一权重特征之间进行点积,得到所述第一融合特征。

6.根据权利要求4所述的方法,其特征在于,当所述待检索特征包括所述待检索文件的图像特征、文本特征、音频特征三种类型的特征,所述第一融合特征包括第一中间融合特征和第二中间融合特征,所述将所述待检索特征中的所有特征融合,得到第一融合特征,包括:确定所述待检索特征内的第一权重特征,所述第一权重特征为所述待检索特征内与所述目标特征的类型相同的特征;

确定所述待检索特征内的非权重特征,所述非权重特征为所述待检索特征与所述第一权重特征类型不同的特征,所述非权重特征包括第一非权重特征和第二非权重特征,所述第一非权重特征与所述第二非权重特征的类型不同;

将所述第一非权重特征与所述第一权重特征融合,得到所述第一中间融合特征;

将所述第二非权重特征与所述第一权重特征融合,得到所述第二中间融合特征。

7.根据权利要求6所述的方法,其特征在于,当所述第一非权重特征与所述第一权重特征的维度不相同,所述将所述第一非权重特征与所述第一权重特征融合,得到所述第一中间融合特征,包括:将所述第一非权重特征与所述第一权重特征映射至同一维度,得到第三特征;

对所述第三特征进行降维,得到第四特征,所述第四特征的维度与第一权重特征的维度相同;

在所述第四特征与所述第一权重特征之间进行点积,得到所述第一中间融合特征。

8.根据权利要求6所述的方法,其特征在于,当所述第二非权重特征与所述第一权重特征的维度不相同,所述将所述第二非权重特征与所述第一权重特征融合,得到所述第二中间融合特征,包括:将所述第二非权重特征与所述第一权重特征映射至同一维度,得到第五特征;

对所述第五特征进行降维,得到第六特征,所述第六特征的维度与第一权重特征的维度相同;

在所述第六特征与所述第一权重特征之间进行点积,得到所述第二中间融合特征。

9.根据权利要求6至8任一所述的方法,其特征在于,所述在所述第一融合特征与所述目标特征之间进行点积,得到所述中间特征,包括:在所述第一中间融合特征、所述第二中间融合特征、所述目标特征之间进行点积,得到所述中间特征。

10.根据权利要求3所述的方法,其特征在于,当所述待检索特征包括所述待检索文件的图像特征、所述待检索文件的文本特征、所述待检索文件的音频特征中的至少两种,且所述目标特征包括所述关键信息的图像特征、文本特征、音频特征中的至少两种类型的特征,所述在所述待检索特征与所述目标特征之间进行点积,得到所述中间特征,包括:将所述待检索特征中的所有特征融合,得到第一融合特征;

将所述目标特征中的所有特征融合,得到第二融合特征;

在所述第一融合特征与所述第二融合特征之间进行点积,得到所述中间特征。

11.一种电子设备,其特征在于,包括:

第一获取模块,用于获取目标特征,所述目标特征包括用户输入的关键信息的图像特征、文本特征、音频特征中的至少一个;

第二获取模块,用于获取每个待检索文件的待检索特征,所述待检索特征包括所述待检索文件的图像特征、文本特征、音频特征中的至少一个;

融合模块,用于将所述每个待检索文件的待检索特征分别与所述目标特征融合,对应得到多个中间特征,多个中间特征分别为待检索文件的中间特征;

确定模块,用于根据每个待检索文件的中间特征确定所述待检索特征与所述目标特征之间的关联程度。

12.一种芯片系统,其特征在于,包括:

通信接口,用于输入和/或输出信息;

处理器,用于调用计算机程序,使得安装有所述芯片系统的设备执行如权利要求1至10任一项所述的方法。

13.一种电子设备,其特征在于,包括:

至少一个处理器;以及

与所述处理器通信连接的至少一个存储器,其中:

所述存储器存储有可被所述处理器执行的计算机程序,所述处理器运行所述计算机程序,实现如权利要求1至10任一项所述的方法。

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机运行时实现如权利要求1至10任一项所述的方法。

说明书 :

一种文件检索方法、电子设备及存储介质

技术领域

[0001] 本申请涉及计算机技术领域,尤其涉及一种文件检索方法、电子设备及存储介质。

背景技术

[0002] 用户可以通过输入关键字对文件进行检索,之后电子设备匹配出符合关键字信息的多个文件,按照文件与关键字信息之间的关联程度,依次排序反馈给用户。
[0003] 然而,目前电子设备匹配关键字信息时,仅考虑待检索文件的文件名与关键字信息匹配,忽略了文件的其他信息,例如文件的图像特征、音频特征等,进而导致匹配精度较低,用户体验差。

发明内容

[0004] 本申请实施例提供了一种文件检索方法、电子设备及存储介质,可以最大化利用文件包含的信息,以用于与用户输入的关键字信息进行匹配,可以提高电子设备检索文件的精度,增加用户体验。
[0005] 第一方面,本申请实施例提供一种文件检索方法,应用于电子设备,包括:
[0006] 获取目标特征,所述目标特征包括用户输入的关键信息的图像特征、文本特征、音频特征中的至少一种;
[0007] 获取每个待检索文件的待检索特征,所述待检索特征包括所述待检索文件的图像特征、文本特征、音频特征中的至少一种特征;
[0008] 将所述待检索特征与所述目标特征融合,得到中间特征;
[0009] 根据每个待检索文件的中间特征确定所述待检索特征与所述目标特征之间的关联程度。
[0010] 本申请实施例提供的文件检索方法,在电子设备根据用户输入的关键信息(例如关键字或关键词)检索文件时,可以对待检索的文件进行处理,整合待检索文件所涵盖的图像信息、文本信息和音频信息,电子设备可以最大化利用待检索文件的多种信息进行检索,进而提高检索的准确性,增加用户体验。
[0011] 在一种可能的实现方式中,所述根据每个待检索文件的中间特征确定所述待检索特征与所述目标特征之间的关联程度,包括:
[0012] 将每个待检索文件的中间特征输入分类器,得到每个待检索文件的评分,所述评分用于表示所述待检索特征与所述目标特征之间的关联程度。
[0013] 在一种可能的实现方式中,所述将所述待检索特征与所述目标特征融合,得到中间特征,包括:
[0014] 在所述待检索特征与所述目标特征之间进行点积,得到所述中间特征。
[0015] 在一种可能的实现方式中,当所述待检索特征包括所述待检索文件的图像特征、所述待检索文件的文本特征、所述待检索文件的音频特征中的至少两种类型的特征,且所述目标特征为所述关键信息的图像特征、文本特征、音频特征中的一种,
[0016] 所述在所述待检索特征与所述目标特征之间进行点积,得到所述中间特征,包括:
[0017] 将所述待检索特征中的所有特征融合,得到第一融合特征;
[0018] 在所述第一融合特征与所述目标特征之间进行点积,得到所述中间特征。
[0019] 在一种可能的实现方式中,当所述待检索特征包括所述待检索文件的图像特征、所述待检索文件的文本特征、所述待检索文件的音频特征中的两种类型的特征,且所述待检索特征内两种类型特征的维度不相同,
[0020] 所述将所述待检索特征中的所有特征融合,得到第一融合特征,包括:
[0021] 将所述待检索特征中的所有特征映射至同一维度,得到第一特征;
[0022] 对所述第一特征进行降维,得到第二特征,所述第二特征的维度与第一权重特征的维度相同,其中,所述第一权重特征为所述待检索特征内与所述目标特征的类型相同的特征;
[0023] 在所述第二特征与所述第一权重特征之间进行点积,得到所述第一融合特征。
[0024] 在一种可能的实现方式中,当所述待检索特征包括所述待检索文件的图像特征、文本特征、音频特征三种类型的特征,所述第一融合特征包括第一中间融合特征和第二中间融合特征,
[0025] 所述将所述待检索特征中的所有特征融合,得到第一融合特征,包括:
[0026] 确定所述待检索特征内的第一权重特征,所述第一权重特征为所述待检索特征内与所述目标特征的类型相同的特征;
[0027] 确定所述待检索特征内的非权重特征,所述非权重特征为所述待检索特征与所述第一权重特征类型不同的特征,所述非权重特征包括第一非权重特征和第二非权重特征,所述第一非权重特征与所述第二非权重特征的类型不同;
[0028] 将所述第一非权重特征与所述第一权重特征融合,得到所述第一中间融合特征;
[0029] 将所述第二非权重特征与所述第一权重特征融合,得到所述第二中间融合特征。
[0030] 在一种可能的实现方式中,当所述第一非权重特征与所述第一权重特征的维度不相同,
[0031] 所述将所述第一非权重特征与所述第一权重特征融合,得到所述第一中间融合特征,包括:
[0032] 将所述第一非权重特征与所述第一权重特征映射至同一维度,得到第三特征;
[0033] 对所述第三特征进行降维,得到第四特征,所述第四特征的维度与第一权重特征的维度相同;
[0034] 在所述第四特征与所述第一权重特征之间进行点积,得到所述第一中间融合特征。
[0035] 在一种可能的实现方式中,当所述第二非权重特征与所述第一权重特征的维度不相同,
[0036] 所述将所述第二非权重特征与所述第一权重特征融合,得到所述第二中间融合特征,包括:
[0037] 将所述第二非权重特征与所述第一权重特征映射至同一维度,得到第五特征;
[0038] 对所述第五特征进行降维,得到第六特征,所述第六特征的维度与第一权重特征的维度相同;
[0039] 在所述第六特征与所述第一权重特征之间进行点积,得到所述第二中间融合特征。
[0040] 在一种可能的实现方式中,所述在所述第一融合特征与所述目标特征之间进行点积,得到所述中间特征,包括:
[0041] 在所述第一中间融合特征、所述第二中间融合特征、所述目标特征之间进行点积,得到所述中间特征。
[0042] 在一种可能的实现方式中,当所述待检索特征包括所述待检索文件的图像特征、所述待检索文件的文本特征、所述待检索文件的音频特征中的至少两种,且所述目标特征包括所述关键信息的图像特征、文本特征、音频特征中的至少两种类型的特征,[0043] 所述在所述待检索特征与所述目标特征之间进行点积,得到所述中间特征,包括:
[0044] 将所述待检索特征中的所有特征融合,得到第一融合特征;
[0045] 将所述目标特征中的所有特征融合,得到第二融合特征;
[0046] 在所述第一融合特征与所述第二融合特征之间进行点积,得到所述中间特征。
[0047] 第二方面,本申请实施例提供一种电子设备,包括:
[0048] 第一获取模块,用于获取目标特征,所述目标特征包括用户输入的关键信息的图像特征、文本特征、音频特征中的至少一个;
[0049] 第二获取模块,用于获取每个待检索文件的待检索特征,所述待检索特征包括所述待检索文件的图像特征、文本特征、音频特征中的至少一个;
[0050] 融合模块,用于将所述待检索特征与所述目标特征融合,得到中间特征;
[0051] 确定模块,用于根据每个待检索文件的中间特征确定所述待检索特征与所述目标特征之间的关联程度。
[0052] 在一种可能的实现方式中,所述确定模块,具体用于:
[0053] 将每个待检索文件的中间特征输入分类器,得到每个待检索文件的评分,所述评分用于表示所述待检索特征与所述目标特征之间的关联程度。
[0054] 在一种可能的实现方式中,所述融合模块,包括:
[0055] 融合子模块,用于在所述待检索特征与所述目标特征之间进行点积,得到所述中间特征。
[0056] 在一种可能的实现方式中,所述融合子模块,包括:
[0057] 第一融合单元,用于当所述待检索特征包括所述待检索文件的图像特征、所述待检索文件的文本特征、所述待检索文件的音频特征中的至少两种类型的特征,且所述目标特征为所述关键信息的图像特征、文本特征、音频特征中的一种,将所述待检索特征中的所有特征融合,得到第一融合特征;
[0058] 第二融合单元,用于在所述第一融合特征与所述目标特征之间进行点积,得到所述中间特征。
[0059] 在一种可能的实现方式中,所述第一融合单元,包括:
[0060] 第一映射子单元,用于当所述待检索特征包括所述待检索文件的图像特征、所述待检索文件的文本特征、所述待检索文件的音频特征中的两种类型的特征,且所述待检索特征内两种类型特征的维度不相同,将所述待检索特征中的所有特征映射至同一维度,得到第一特征;
[0061] 第一降维子单元,用于对所述第一特征进行降维,得到第二特征,所述第二特征的维度与第一权重特征的维度相同,其中,所述第一权重特征为所述待检索特征内与所述目标特征的类型相同的特征;
[0062] 第一点积子单元,用于在所述第二特征与所述第一权重特征之间进行点积,得到所述第一融合特征。
[0063] 在一种可能的实现方式中,所述第一融合单元,包括:
[0064] 第一确定子单元,用于当所述待检索特征包括所述待检索文件的图像特征、文本特征、音频特征三种类型的特征,所述第一融合特征包括第一中间融合特征和第二中间融合特征,确定所述待检索特征内的第一权重特征,所述第一权重特征为所述待检索特征内与所述目标特征的类型相同的特征;
[0065] 第二确定子单元,用于确定所述待检索特征内的非权重特征,所述非权重特征为所述待检索特征与所述第一权重特征类型不同的特征,所述非权重特征包括第一非权重特征和第二非权重特征,所述第一非权重特征与所述第二非权重特征的类型不同;
[0066] 第一融合子单元,用于将所述第一非权重特征与所述第一权重特征融合,得到所述第一中间融合特征;
[0067] 第二融合子单元,用于将所述第二非权重特征与所述第一权重特征融合,得到所述第二中间融合特征。
[0068] 在一种可能的实现方式中,所述第一融合子单元,具体用于:
[0069] 当所述第一非权重特征与所述第一权重特征的维度不相同,将所述第一非权重特征与所述第一权重特征映射至同一维度,得到第三特征;
[0070] 对所述第三特征进行降维,得到第四特征,所述第四特征的维度与第一权重特征的维度相同;
[0071] 在所述第四特征与所述第一权重特征之间进行点积,得到所述第一中间融合特征。
[0072] 在一种可能的实现方式中,所述第二融合子单元,具体用于:
[0073] 当所述第二非权重特征与所述第一权重特征的维度不相同,将所述第二非权重特征与所述第一权重特征映射至同一维度,得到第五特征;
[0074] 对所述第五特征进行降维,得到第六特征,所述第六特征的维度与第一权重特征的维度相同;
[0075] 在所述第六特征与所述第一权重特征之间进行点积,得到所述第二中间融合特征。
[0076] 在一种可能的实现方式中,第二融合单元,具体用于:
[0077] 在所述第一中间融合特征、所述第二中间融合特征、所述目标特征之间进行点积,得到所述中间特征。
[0078] 在一种可能的实现方式中,所述融合子模块,包括:
[0079] 第三融合单元,用于当所述待检索特征包括所述待检索文件的图像特征、所述待检索文件的文本特征、所述待检索文件的音频特征中的至少两种,且所述目标特征包括所述关键信息的图像特征、文本特征、音频特征中的至少两种类型的特征,将所述待检索特征中的所有特征融合,得到第一融合特征;
[0080] 第四融合单元,用于将所述目标特征中的所有特征融合,得到第二融合特征;
[0081] 第五融合单元,用于在所述第一融合特征与所述第二融合特征之间进行点积,得到所述中间特征。
[0082] 第三方面,本申请实施例提供一种芯片系统,包括:通信接口,用于输入和/或输出信息;处理器,用于调用计算机程序,使得安装有所述芯片系统的设备执行本申请实施例第一方面提供的方法。
[0083] 第四方面,本申请实施例提供一种电子设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的计算机程序,所述处理器运行所述计算机程序,实现本申请实施例第一方面提供的方法。
[0084] 第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机运行时实现本申请实施例第一方面提供的方法。
[0085] 应当理解的是,本申请实施例的第二 五方面与本申请实施例的第一方面的技术~方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。

附图说明

[0086] 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0087] 图1是本申请提供的一种应用场景示意图;
[0088] 图2是本申请实施例提供的文件检索方法流程示意图;
[0089] 图3是本申请实施例提供的一种电子设备获取待检索特征的技术架构图;
[0090] 图4是本申请实施例提供的一种图像处理模块的技术架构图;
[0091] 图5是本申请实施例提供的一种文本处理模块的技术架构图;
[0092] 图6是本申请另一个实施例提供的文件检索方法流程示意图;
[0093] 图7是本申请另一个实施例提供的融合方式示意图;
[0094] 图8是本申请另一个实施例提供的融合方式示意图;
[0095] 图9是本申请另一个实施例提供的文件检索方法流程示意图;
[0096] 图10是本申请另一个实施例提供的文件检索方法流程示意图;
[0097] 图11是本申请另一个实施例提供的文件检索方法流程示意图;
[0098] 图12是本申请另一个实施例提供的获取中间特征的流程示意图;
[0099] 图13是本申请另一个实施例提供的文件检索方法流程示意图;
[0100] 图14是本说明书一个实施例提供的电子设备的结构示意图;
[0101] 图15是本说明书另一个实施例提供的电子设备100的结构示意图。

具体实施方式

[0102] 为了更好的理解本说明书的技术方案,下面结合附图对本申请实施例进行详细描述。
[0103] 以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0104] 其中,需要说明,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
[0105] 本申请实施例提供的文件检索方法、电子设备及存储介质可以适用的一个典型应用场景为在相册界面检索媒体文件。如图1所示,以电子设备100为手机为例进行说明,手机上安装有多种应用(Application, App),比如相册App,用户打开相册App后,电子设备100显示界面I1,界面I1可以按照时间顺序显示电子设备100上存储的图片、视频等媒体文件,用户可以点击“搜索”控件进入界面I2,之后用户可以输入关键字进行搜索,电子设备100可以根据关键字与存储的文件进行匹配,按照文件与关键字之间关联程度的高低,依次序展示给用户,例如在界面I2中的搜索输入栏中,可以输入关键字“KTV”,电子设备100经过匹配后,可以按照文件与“KTV”之间的关联程度,依次序显示多个与“KTV”关联的文件。
[0106] 需要说明,本申请实施例提供的方法和设备,还可以适用于其他多种需要检索文件的应用场景,例如用户在手机上的文件管理类App上搜索文本、视频、图片等文件,又例如用户可以在个人计算机(Personal Computer, PC)上搜索文本、视频、图片等文件。
[0107] 可以理解,电子设备100还可以响应其他设备发送的关键字以及搜索请求,检索电子设备100内存储的文件,例如电子设备100可以作为服务器,可以响应用户的设备发送的检索请求,向用户的设备返回相应的文件。
[0108] 应理解,电子设备100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0109] 示例性的,电子设备100可以是云存储服务器,用户可以在云存储服务器上注册账户,该账户可以存储用户上传的图像、视频、文本等类型的文件,用户可以通过手机、PC等设备登陆该账户查看用户上传的文件,以及向电子设备100发送关键字和检索请求,电子设备100可以按照文件与关键字之间的关联程度,向用户的设备返回与关键字相关联的文件以及关联程度。
[0110] 为便于理解本申请实施例提供的技术方案,下面以图1所示的应用场景为例,对本申请实施例提供的技术方案进行说明,据此可适应性地获得其他应用场景下的实施方案。
[0111] 首先对本申请实施例涉及的部分概念进行介绍。
[0112] 文件类型:文件类型可以包括视频类型、图片类型、文本类型等,其中视频类型文件可以包括图像、文本、音频等信息。图片类型文件可以包括图像和文本信息。文本类型文件可以包括文本信息,例如txt格式的文本文件。
[0113] 可以理解,待检索文件的文本信息中可能包括图像信息,例如文本文档中插入图片的文件,进而检索文件可能同时包括图像信息和文本信息。在一些情况下,图像中可能包括文字等文本信息,进而视频类型文件和图片类型文件可以通过图像文本识别的方式获取文本信息。
[0114] 张量:张量可以用于表示待检索文件的图像信息、文本信息和音频信息。示例性的,标量是维度为0的张量。矢量或者向量是维度为1的张量。矩阵是维度为2的张量。张量的维度可以是更高的数值。
[0115] 可以理解,张量的维度还可以称为轴。两个张量的点积可以是:
[0116] 张量A的最后一个轴中的所有元素与张量B中倒数第二个轴中的所有元素点乘的结果。
[0117] 应理解,点乘为元素对应相乘后相加,例如张量A中最后一个轴中的所有元素为[x1,x2,x3],张量B中倒数第二个轴中的所有元素为[y1,y2,y3],那么点乘的结果为x1y1+x2y2+x3y3。
[0118] 可以理解,当张量A中最后一个轴中所有元素的数量与张量B中倒数第二个轴中所有元素的数量不相等,张量A无法与张量B点积。
[0119] 图像特征:图像特征可以表示图片或视频每帧图像中的物体的特征,比如人物、风景、宠物、建筑等具体内容,以上内容可以通过图片或每帧图像的像素点提取得到,图像特征可以由张量表征。
[0120] 文本特征:文本特征可以表示文件中的文本文字信息,可以通过对文本进行分词提取得到,文本特征可以由张量表征。
[0121] 音频特征:音频特征可以表示文件中的音频信息,例如可以将文件中的音频转换为文字信息,音频特征可以由张量表征。
[0122] 应理解,图像特征、文本特征、音频特征三者的维度或分量个数可以相同或不同。
[0123] 下面结合图1所示的应用场景,简单阐述已有相关技术,以便于理解本申请实施例提供的技术方案所做出的改进。用户使用电子设备100进行检索时,可以通过键入关键字的方式匹配待检索文件100,即电子设备100根据用户输入的关键字与待检索文件的文件名或待检索文件内的文本信息进行匹配,完成检索。然而,这种检索方式,忽略文件所包含的图像、音频等信息,使得电子设备100返回的搜索结果可能为空,或返回的文件与关键字之间的关联程度不高。例如,假设电子设备100存储有四个媒体文件,界面I1上可以显示该四个媒体文件,其中,第一个文件是描述风景的图片,第二文件是描述在KTV唱歌的视频文件,第三个文件是描述家庭聚会场景的图片,第四个文件是描述婚礼的视频文件。可以理解,第二个文件和第四个文件为视频文件,包括图像信息、文本信息和音频信息,其中文本信息可以包括图像中的文字信息。当用户输入关键字“KTV”进行搜索时,由于待检索文件中的文本信息均与KTV无关,进而电子设备100返回的搜索结果为空,与用户所期望的检索结果偏差较大,用户使用体验较差。
[0124] 鉴于此,本申请实施例提供一种文件检索方法、电子设备及存储介质,在电子设备100根据用户输入的关键信息(例如关键字或关键词)检索文件时,可以对待检索的文件进行处理,整合待检索文件所涵盖的图像信息、文本信息和音频信息,电子设备100使用整合后的信息与关键信息匹配,可以提高检索精度,增加用户体验。
[0125] 需要说明,本申请实施例所涉及的电子设备100可以是存储有视频、图片、文本等类型文件,以及可以对文件的信息进行提取、匹配处理的设备,例如电子设备100可以是手机(Mobile Phone)、平板电脑(Pad)、个人电脑、服务器、可穿戴设备、虚拟现实(Virtual Reality, VR)终端设备、增强现实(Augmented Reality, AR)终端设备、工业控制(Industrial Control)中的终端、车载终端设备、无人驾驶中的终端、辅助驾驶中的终端、远程医疗(Remote Medical)中的终端、智能电网(Smart Grid)中的终端、运输安全(Transportation Safety)中的终端、智慧城市(Smart City)中的终端、智慧家庭(Smart Home)中的终端等等。本申请实施例对电子设备100的具体形态不做限定。
[0126] 下面对本申请实施例提供的技术方案进行初步介绍。
[0127] 参见图1,电子设备100存储有待检索文件,电子设备100可以预先对待检索文件进行处理,获取待检索文件的待检索特征,即可以从图像、文字、音频三个信息来源,分别提取待检索文件的图像特征、文本特征和音频特征。当用户输入关键信息之后,电子设备100可以获取关于关键信息的目标特征,可以将图像特征、文本特征、音频特征、目标特征进行融合,使得维度不一致的图像特征、文本特征、音频特征和目标特征,融合为中间特征,之后对每个待检索文件的中间特征进行评估,得到每个待检索文件与关键信息之间的关联程度,电子设备100可以根据关联程度的高低,对待检索文件进行排序,之后按次序展示待检索文件。
[0128] 需要说明,目标特征可以是关键信息的文本特征、图像特征、音频特征中的至少一种。例如,关键信息可以是用户在电子设备100上直接输入关键字或关键词,进而目标特征可以是文本特征。又例如,电子设备100可以收集音频信息,关键信息可以是用户发出的语音指令或输入的音频信息,进而目标特征可以是音频特征。又例如,关键信息可以是用户输入的图片,进而目标特征可以是图像特征。在一些情况下,图片上可能存在文字信息,进而目标特征可以包括文本特征和图像特征。再例如,关键信息还可以是用户输入的视频,进而目标特征可以包括图像特征和语音特征,或者目标特征可以包括图像特征、文本特征和语音特征。
[0129] 在本申请实施例中,电子设备100可以采用多种方式获取文件的图像特征、文本特征和音频特征,下面阐述几种获取图像特征、文本特征和音频特征的实施方式。
[0130] 可以理解,不同类型的文件可能包括的信息不同。例如,视频类型的文件可以包括图像信息、文本信息和音频信息,或者仅包括图像信息和文本信息,或者仅包括图像信息和音频信息。文本类型的文件可以仅包括文本信息。图片类型的文件可以包括图像信息和文本信息,或者仅包括图像信息。
[0131] 在实际中,对于视频类型的文件,可以认为是连续帧的图像集合。视频类型的文件的图像信息可以是视频中各帧图像的信息。帧是视频中最小单位的单幅影像画面,在视频软件的时间轴上,帧表现为一格或一个标记。在本申请实施例中,视频类型的文件的图像信息可以是视频中所有帧的图像信息,也可以是从视频中抽取部分帧的图像信息,具体的抽取方式可以为预先设置的,例如,可以为每20帧抽取一帧图像,即抽取文件的第0帧、第20帧、第40帧……对应的图像。图像信息还可以是但不限于视频的封面图片、场景关键帧或基于音频的关键帧等。
[0132] 在一些视频类型的文件中,可能会包含有背景音乐,或者人物之间的对话等音频信息。为了便于从音频信息中提取音频特征,需要将视频中的音频提取出来,单独存放。一般可以通过音频转换器等音频编辑处理软件对视频进行音频提取处理,将音频从视频中提取出来。音频以数字格式存储在计算机系统的文件中。模拟音频转换成数字形式的过程被称为音频编码,并通过使用小的软件程序音频编解码器完成。然后,编码的音频数据以音频文件夹的格式被存储在一个类的容器中。本申请实施例中,音频信息可以包括在与文件绑定的音频文件中。音频文件包含波形数据,可以以未压缩和压缩形式。最常见地,音频数据是使用有损压缩,以节省存储空间存储在一个压缩的形式。
[0133] 在一些视频类型的文件中,文本信息可以保存在与文件绑定的文本信息文件中。视频的文本信息可以包括但不限于视频名称、视频标题、字幕等。
[0134] 在一种可能的实现方式中,视频类型的文件的文本信息还可以包括每帧图像上的文本信息。电子设备100可以通过图像文本识别的方式提取每帧图像上的文本信息。
[0135] 可以理解,图片类型的文件的文本信息可以是文件名称或者图片经过图像文本识别后提取的文本信息。
[0136] 电子设备100获取文件的图像特征的方式有多种,下面结合不同类型的文件进行示例性说明。
[0137] 对于视频类型的文件,电子设备100获取图像特征的方式,可以包括:
[0138] 方式一,流程包括:
[0139] 电子设备100从每帧图像的图像信息中提取第一图像特征;
[0140] 电子设备100将所有帧图像的第一图像特征融合,得到图像特征。
[0141] 应理解,电子设备100从图像信息中提取第一图像特征可以是从图像的像素点提取特征。例如,电子设备100可以对每帧图像的进行目标检测、目标分割确定图像上目标物体,进而提取第一图像特征。
[0142] 可选地,电子设备100可以利用图像特征提取模型提取第一图像特征。图像特征提取模型可以是图像提取模型可以是卷积神经网络(Convolutional Neural Networks, CNN)、Region‑CNN、Mask‑RCNN、Fast‑RCNN、GoogLeNet等模型。
[0143] 应理解,此处所涉及的融合可以是将所有的第一图像特征拼接,进而形成维度或元素数量更高的张量,其中拼接的顺序可以是帧的时序。融合还可以是选取维度最大或最小的第一图像特征作为图像特征,或者选取包含元素个数最大或最小的第一图像特征作为图像特征。融合还可以是按照聚类的方法将所有帧图像的第一图像特征融合。本申请实施例不对第一图像特征融合的具体方式做限定。
[0144] 可选地,电子设备100可以利用图像特征融合模型将所有的第一图像特征融合,得到图像特征。图像特征融合模型可以是循环神经网络模型、局部聚合向量(VLAD)模型、NetVLAD模型等。
[0145] 需要说明,在方式一中,需要文件所有帧图像的图像信息,需要较大的时间和计算开销,因此可以采用方式二获取图像特征。
[0146] 方式二,流程包括:
[0147] 电子设备100确定文件的目标帧;
[0148] 电子设备100确定每个目标帧上的目标物体;
[0149] 电子设备100对目标物体进行追踪,得到目标物体的运动轨迹;
[0150] 电子设备100根据目标物体的运动轨迹,提取目标帧上的第一图像特征;
[0151] 电子设备100将所有目标帧上的第一图像特征融合,得到图像特征。
[0152] 可选地,目标帧可以是文件中的场景关键帧或者为基于音频的关键帧,也可以是按照设定的帧数从文件中均匀抽取的帧图像。例如,若设定的目标帧数为30,则无论视频的长短,可以从中均匀抽取30帧作为目标帧。例如,可以通过FFmpeg(Fast Forward Mpeg)对文件进行均匀抽帧。
[0153] 方式三,方式三与方式二的不同之处在于:
[0154] 电子设备100通过带有记忆导向的网络模型对所有目标帧上的第一图像特征进行融合,得到图像特征。
[0155] 可选地,带有记忆导向的网络模型可以是长短期记忆网络(Long Short‑Term Memory, LSTM)、双向长短时记忆网络BiLSTM等。
[0156] 示例性的,电子设备100通过带有记忆导向的网络模型对所有目标帧上的第一图像特征进行融合,得到图像特征,可以包括:
[0157] 电子设备100可以先通过交错模型提取目标帧,之后通过LSTM保持视觉记忆,对比提取的目标帧的前后帧,然后进行融合得到图像特征。
[0158] 可以理解,对于图片类型的文件,电子设备100可以采用方式一中提取第一图像特征的方法,得到关于图片类型的文件的第二图像特征,之后将第二图像特征作为文件的图像特征。例如,电子设备100可以通过目标识别、目标分割的方式第二图像特征。
[0159] 示例性的,对于视频类型或图片类型的文件,电子设备100可以采用图像文本识别的方法,获取文件的文本特征。
[0160] 对于文本类型的文件,电子设备100可以采用文本分词的方式,获取文本特征。具体流程如下:
[0161] 电子设备100获取文件的文本数据;
[0162] 电子设备100将文本数据进行分词处理,得到多个分词;
[0163] 电子设备100将每个分词的词特征融合,得到文本特征。
[0164] 可以理解,每个分词包括至少一个字符。
[0165] 应理解,电子设备100将每个词的词特征融合可以是直接将每个词特征拼接,或者选取相同维度的词特征等,本申请实施例对此不做具体限定。
[0166] 可选地,电子设备100可以将文件输入文本处理模型,得到每个分词的词特征。
[0167] 可选地,电子设备100可以将每个分词的词特征输入词特征融合模型,得到文本特征。
[0168] 示例性的,文本处理模型可以是LSTM网络模型、基于变压器的双向编码器表征(Bidirectional Encoder Representations from Transformers, BERT)模型等。
[0169] 可以理解,电子设备100可以将文件中的音频信号转换为音频特征。具体流程如下:
[0170] 电子设备100将文件输入音频特征提取模型,得到每个单位时长的第一音频特征;
[0171] 电子设备100将所有的第一音频特征输入音频特征融合模型,得到音频特征。
[0172] 示例性的,音频特征提取模型可以是基于连接时序分类器(Connectionist Temporal Classifier, CTC)算法的模型,音频特征融合模型可以是循环神经网络(Recurrent Neural Network, RNN)模型。
[0173] 需要说明,特征中的图像特征、文本特征、音频特征可能维度相同或不同。
[0174] 可以理解,结合上述获取文件的图像特征、文本特征、音频特征的具体实施方式,可适应性获得电子设备100获取待检索文件的待检索特征的实施方案,以及适应性获得电子设备100获取关键信息的目标特征的实施方案。
[0175] 下面结合图1所示的应用场景,以及上述获取待检索特征的实施方式,对本申请实施例提供的文件检索方法的流程进行具体阐述。
[0176] 图2是本申请实施例提供的一种文件检索方法流程示意图。如图2所示,上述文件检索方法可以应用于上述电子设备100,流程包括:
[0177] 步骤201,电子设备100获取每个待检索文件的待检索特征,待检索特征包括图像特征、文本特征、音频特征中的至少一种。
[0178] 可选地,电子设备100可以预先存储有待检索文件。
[0179] 可选地,电子设备100可以读取待检索文件。可以理解,电子设备100可以将待检索文件存储至独立的存储设备,例如电子设备100可以将待检索文件存储至云存储器、云服务器或者存储介质内,电子设备100可以通过有线或无线的方式读取存储设备内的待检索文件。
[0180] 在一种可能的实现方式中,电子设备100可以在用户实施检索的操作指令之前,获取每个待检索文件的待检索特征。
[0181] 可选地,电子设备100可以存储每个待检索文件的待检索特征。
[0182] 可选地,电子设备100可以将每个待检索文件的待检索特征存储于电子设备100内,或者存储于与电子设备100彼此独立,且电子设备100可以访问的存储设备内。
[0183] 下面结合上述获取图像特征、文本特征、音频特征的实施方案,具体阐述电子设备100获取待检索特征的实施方案。
[0184] 图3是电子设备100获取待检索特征的技术架构图。参见图3,该技术架构包括:图像处理模块301、文本处理模块302以及音频处理模块303。
[0185] 图像处理模块301用于处理视频类型或图片类型的待检索文件,可以生成图像特征。
[0186] 文本处理模块302用于处理视频类型、图片类型、文本类型的待检索文件,可以生成文本特征。
[0187] 音频处理模块303用于处理视频类型,或者包含音频信息的待检索文件,可以生成音频特征。
[0188] 再次参见图3,电子设备100可以将待检索文件分别输入图像处理模块301、文本处理模块302和音频处理模块303,进而得到待检索特征,待检索特征可以包括图像特征、文本特征、音频特征中的至少一种。
[0189] 可以理解,电子设备100可以采用方式一,或方式二,或方式三获取待检索文件的图像特征。
[0190] 在一种可能的实现方式中,如图4所示,图像处理模块301可以包括:目标帧识别模型401、第一图像特征提取模型402、第二图像特征提取模型403和图像特征融合模型404。
[0191] 目标帧识别模型401可以用于识别目标帧。目标帧识别模型可以是基于机器学习或者深度学习的网络模型。
[0192] 第一图像特征提取模型402可以用于视频类型文件的第一图像特征的提取。例如,第一图像特征提取模型402可以实现目标识别与分割和目标追踪,第一图像特征提取模型402可以包括目标识别与分割模型和质心算法等。
[0193] 第二图像特征提取模型403可以用于图片类型文件的第一图像特征的提取。例如,第二图像特征提取模型403可以是CNN、Region‑CNN、Mask‑RCNN、Fast‑RCNN、GoogLeNet等模型。
[0194] 图像特征融合模型404可以将所有的第一图像特征融合,生成图像特征。图像特征融合模型404可以是循环神经网络模型、局部聚合向量(VLAD)模型、NetVLAD模型等。
[0195] 参见图4,图像处理模块301处理待检索文件的流程,包括:
[0196] 步骤A,电子设备100可以将待检索文件输入图像处理模块301;
[0197] 步骤B,图像处理模块301判断待检索文件的类型是否为视频类型;
[0198] 步骤C,若待检索文件是视频类型,将待检索文件输入至目标帧识别模型401;
[0199] 步骤D,目标帧识别模型401识别待检索文件的目标帧,将目标帧输入至第一图像特征提取模型402;
[0200] 步骤E,第一图像特征提取模型402输出多个第一图像特征,将多个第一图像特征输入至图像特征融合模型404,进而图像特征融合模型404输出待检索文件的图像特征;
[0201] 步骤F,若待检索文件不是视频类型,判断待检索文件是否为图片类型;
[0202] 步骤G,若待检索文件是图片类型,将待检索文件输入至第二图像特征提取模型403;
[0203] 步骤H,第二图像特征提取模型403输出第一图像特征,将第一图像特征输入至图像特征融合模型404,进而图像特征融合模型404输出待检索文件的图像特征;
[0204] 步骤I,若待检索文件不是图片类型,则流程结束。
[0205] 在一种可能的实现方式中,如图5所示,文本处理模块302可以包括:第一文本处理模型501、第二文本处理模型502和词特征融合模型503。
[0206] 第一文本处理模型501可以用于文本类型的待检索文件的分词以及词特征的提取。
[0207] 第二文本处理模型502可以用于视频和图片类型的待检索文件的词特征的提取。
[0208] 可以理解,第一文本处理模型501可以是LSTM网络模型、BERT模型等。第二文本处理模型502可以是采用图像文本识别技术的模型,例如采用图像描述(Image Captioning)技术的模型。
[0209] 需要说明,对于视频类型的待检索文件,可以针对每帧图像进行图像文本识别,然后将所有帧图像的文本特征融合。
[0210] 词特征融合模型503可以将每个分词的词特征输入词特征融合模型,得到文本特征。
[0211] 参见图5,文本处理模块302处理待检索文件的流程,包括:
[0212] 步骤1,电子设备100可以将待检索文件输入文本处理模块302;
[0213] 步骤2,文本处理模块302判断待检索文件的类型是否为文本类型;
[0214] 步骤3,若待检索文件是文本类型,将待检索文件输入至第一文本处理模型501;
[0215] 步骤4,第一文本处理模型501输出多个词特征,将多个词特征输入至词特征融合模型503,进而词特征融合模型503输出待检索文件的文本特征;
[0216] 步骤5,若待检索文件不是文本类型,将待检索文件输入至第二文本处理模型502;
[0217] 步骤6,第二文本处理模型502输出多个词特征,将多个词特征输入至词特征融合模型503,进而词特征融合模型503输出待检索文件的文本特征。
[0218] 可选地,音频处理模块303可以包括音频特征提取模型和音频特征融合模型。音频特征提取模型可以是基于CTC算法的模型,音频特征融合模型可以是RNN模型。
[0219] 在一种可能的实现方式中,电子设备100可以通过识别待检索文件的扩展名的方式确定待检索文件的文件类型。例如,视频类型文件的扩展名包括3GP、MP4、WMV、AVI、RM、RMVB等,文本类型文件的扩展名包括ASCII、MIME、TXT等,图片类型文件的扩展名包括JPEG、TIFF、RAW、BMP、GIF、PNG等。
[0220] 在另一种可能的实施方式中,电子设备100可以通过带检索文件的文件头确定待检索文件的文件类型。
[0221] 在一种可能的实现方式中,电子设备100可以将每个待检索文件的待检索特征存储于存储介质中,之后电子设备100可以通过读取存储介质的方式,获取每个待检索文件的待检索特征。
[0222] 步骤202,电子设备100获取目标特征,目标特征包括用户输入的关键信息的图像特征、文本特征、音频特征中的至少一种。
[0223] 可以理解,电子设备100可以根据上述获取文件的图像特征、文本特征、音频特征,或者上述图3 图5所示的实施例,适应性获得电子设备100获取目标特征的实施方案。~
[0224] 可选地,电子设备100可以响应于用户实施检索的操作指令,获取目标特征。
[0225] 示例性的,用户实施检索的操作指令可以是如图1中用户点击界面I1中的搜索控件。用户实施检索的操作指令还可以是中用户通过语音输入进行检索的语音指令。
[0226] 可以理解,用户在实施检索操作指令时,可以输入关键信息。
[0227] 示例性的,关键信息可以是用户直接键入的关键字或关键词,电子设备100可以对关键字或关键词进行处理,得到关键信息的文本特征,电子设备100可以将关键信息的文本特征作为目标特征。
[0228] 示例性的,关键信息还可以是用户输入的音频信息,电子设备100可以将用户输入的音频进行处理,得到关键信息的音频特征,电子设备100可以将关键信息的音频特征作为目标特征。
[0229] 在一些情况下,用户需要检索的文件不便于直接键入,例如特殊的符号、公式、电路图等,由此用户输入的关键信息还可以是图片。
[0230] 示例性的,电子设备100可以将用户输入的图片进行处理,得到关键信息的图像特征,电子设备100可以将关键信息的图像特征作为目标特征。
[0231] 在一种可能的实现方式中,电子设备100对用户输入的图片进行处理,获得的目标特征可以是文本特征。例如,电子设备100可以对用户输入图片进行图像文本识别,获得该图片的文本特征,进而将该文本特征作为目标特征。该实施方式,可以适用于用户输入的图片包含文本信息的情况,比如用户输入的图片为拍摄的笔记、书籍或者仪器仪表的参数等。
[0232] 在另一种可能实现的方式中,目标特征可以包括图像特征和文本特征,电子设备100可以提取用户输入的图片的图像特征和文本特征,作为目标特征。该实施方式,可以增加目标特征与用户检索意图之间的相关性,进而提高最终检索结果的准确性。
[0233] 在一些情况下,步骤202可以在步骤201之前执行。比如,电子设备100可以在获取目标特征之后,获取待检索文件的待检索特征。该实施方式可以适用于轻量化的检索场景,比如待检索文件的数量较少的情况,该实施方式还可以适用于待检索文件为未检索过的文件的场景。
[0234] 在另一些情况下,步骤201和步骤202同时执行。比如,电子设备100可以响应于用户实施检索的操作指令,获取待检索特征以及目标特征。
[0235] 本申请实施例不对电子设备100执行步骤201和步骤202的顺序进行限定。
[0236] 步骤203,电子设备100将待检索特征与目标特征融合,得到中间特征。
[0237] 应理解,待检索特征与目标特征融合的方式可以是将待检索特征与目标特征拼接,或者是按照一定的计算规则进行融合计算等,或者可以将待检索特征和目标特征输入网络模型,得到中间特征。
[0238] 示例性的,在将待检索特征和目标特征输入网络模型中,网络模型可以是CNN、RCNN、Mask‑RCNN等。
[0239] 可选地,电子设备100可以根据待检索特征或目标特征类型的不同而选择不同的网络模型。例如,对于利用图像识别技术得到文本特征,电子设备100可以将待检索特征和目标特征输入Mask‑RCNN,得到中间特征。
[0240] 可以理解,本申请实施例提供的检索方法,用于在待检索文件包括多种信息的情况下,最大化利用待检索文件的多种信息进行检索,进而提高检索的准确性,由此在本申请实施例中,待检索特征可以包括至少两个以上信息来源的特征,例如待检索特征可以包括待检索文件的图像特征、文本特征、音频特征中的至少两个。
[0241] 示例性的,在待检索特征包括待检索文件的图像特征和文本特征的情况下,步骤203,可以包括:
[0242] 步骤203‑1,电子设备100将待检索文件的图像特征、待检索文件的文本特征、目标特征融合,得到中间特征。
[0243] 需要说明,上述待检索文件的图像特征、待检索文件的文本特征、目标特征融合没有顺序要求,可以是三者同时融合;还可以是待检索文件的图像特征与待检索文件的文本特征融合,之后再与目标特征融合;还可以是待检索文件的图像特征与目标特征融合,之后再与待检索文件的文本特征融合。
[0244] 可以理解,在待检索特征包括待检索文件的图像特征、文本特征和音频特征的情况下,电子设备100可以将待检索文件的图像特征、待检索文件的文本特征、待检索文件的音频特征、目标特征融合,进而得到中间特征。
[0245] 上述待检索文件的图像特征、待检索文件的文本特征、待检索文件的音频特征、目标特征之间的融合,同样没有顺序要求。
[0246] 在一些情况下,目标特征可能同时包括关键信息的图像特征、文本特征、音频特征中的至少两个,以目标特征包括关键信息的图像特征和文本特征,为例,且待检索特征包括待检索文件的图像特征和文本特征为例,说明步骤203的具体实施方式,步骤203,可以包括:
[0247] 步骤203‑2,电子设备100将待检索文件的图像特征、待检索文件的文本特征、关键信息的图像特征、关键信息的文本特征融合,得到中间特征。
[0248] 根据以上示例性说明,可适应性得到,在目标特征包括关键信息的图像特征、文本特征和音频特征,且待检索特征包括待检索文件的图像特征、文本特征和音频特征的情况下,电子设备100将待检索特征与目标特征融合的实施步骤,在此不再赘述。
[0249] 步骤204,电子设备100根据每个待检索文件的中间特征确定待检索特征与目标特征之间的关联程度。
[0250] 可以理解,中间特征为待检索特征与目标特征融合后的特征,可以用张量表征,电子设备100可以从张量中的元素的数量、元素的维度、元素中分量的大小、元素的分布方式等,确定待检索特征与目标特征之间的差异程度,进而电子设备100可以根据估算中间特征的方式,确定检索特征与目标特征之间的关联程度。关联程度越高,即待检索特征与目标特征之间的相似度越高,进而待检索文件是用户所期望的文件的概率越大。
[0251] 示例性的,步骤204,可以包括:
[0252] 步骤204‑1,电子设备100将每个待检索文件的中间特征输入分类器,得到每个待检索文件的评分。
[0253] 可以理解,电子设备100可以通过分类器来估算或评估中间特征,进而确定待检索特征与目标特征之间的差异程度。由此,评分可以用于表示待检索特征与目标特征之间的关联程度。
[0254] 应理解,本申请实施例对分类器的具体网络模型不做限定,例如分类器可以是支持向量机(Support Vector Machine, SVM)、神经网络(Neural‑Network, NN)模型、k最邻近(K‑Nearest Neighbor, KNN)分类模型、贝叶斯分类模型等。
[0255] 需要说明,不同的分类器适用的应用场景不同,例如,在待检索文件数量较小,或者待检索文件的数据量较小的情况下,电子设备100可以使用SVM作为分类器。在待检索文件数量较大,或者待检索文件的数据量较大的情况下,电子设备100可以使用能够处理大数据量的分类器。
[0256] 可选地,步骤204,可以包括:
[0257] 步骤204‑2,当待检索文件数量大于第一阈值,或者待检索文件的数据量大于第二阈值,电子设备100将每个待检索文件的中间特征输入多层感知机(Multilayer Perceptron, MLP)分类器,得到每个待检索文件的评分。
[0258] 可以理解,MLP是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出上,可以适用于数据量较大的应用场景。
[0259] 在一种可能的实现方式中,电子设备100可以将每个待检索文件的中间特征和词表输入分类器,进而得到每个待检索文件的评分。词表内的真值或标签可以是对应该中间特征所属的类别,每个真值或标签可以对应一个分数,当分类器确定该中间特征的所属的真值或标签,分类器可以输出该真值或标签对应的分数。
[0260] 可以理解,词表可以是经过训练之后得到的,例如可以采用线上训练和/或离线训练的方式得到。
[0261] 应理解,第一阈值可以是20、30、40或更大的数值,本申请实施例不对第一阈值的具体数值做限定。第二阈值可以是50MB、100MB、200MB或者更大的数值,本申请实施例不对第二阈值的具体数值做限定。
[0262] 本申请实施例提供的上述文件检索方法,可以整合待检索文件所包含的多个信息,例如图像信息、文本信息、音频信息,将整合后多个信息与用户输入关键信息融合得到中间特征,进而提高检索精度。
[0263] 步骤205,电子设备100按照关联程度的高低确定待检索文件的次序,以及依次序展示待检索文件。
[0264] 可选地,电子设备100可以按照每个待检索文件的评分的高低确定待检索文件的次序。
[0265] 可以理解,电子设备100可以将与用户输入的关键信息关联程度最高的待检索文件优先展示给用户,提高待检索文件是用户所期望的文件的概率,增加用户体验。
[0266] 需要说明,在上述步骤203中,电子设备100将待检索特征与目标特征融合,目的是确定待检索特征与目标特征之间的差异,或者确定待检索特征与目标特征之间的相似程度,由此为提高表征相似程度的准确性,需要最大化待检索特征与目标特征之间的差异,进而本申请实施例采用待检索特征与目标特征点积的方式进行融合。以图2所示的实施例进行示例说明,如图6所示,步骤203,可以包括:
[0267] 步骤601,电子设备100在待检索特征与目标特征之间进行点积,得到中间特征。
[0268] 可以理解,步骤203‑1和步骤203‑2中的融合可以是点积。
[0269] 示例性的,参见图7,在步骤203‑1中,电子设备100将待检索文件的图像特征、待检索文件的文本特征、目标特征融合,得到中间特征,可以是:
[0270] 电子设备100在待检索文件的图像特征、待检索文件的文本特征、目标特征之间进行点积运算,得到中间特征。
[0271] 应理解,待检索文件的图像特征、待检索文件的文本特征、目标特征之间进行点积运算,可以包括:
[0272] 步骤701,电子设备100在待检索文件的图像特征与待检索文件的文本特征之间进行点积运算,得到待检索文件的图像文本融合特征;
[0273] 步骤702,电子设备100在图像文本融合特征与目标特征之间进行点积运算。
[0274] 应理解,点积运算没有顺序要求,即先在待检索文件的图像特征与目标特征进行点积运算,得到图像目标融合特征,再在图像目标融合特征与待检索文件的图像特征之间进行点积运算,得到的中间特征,该中间特征与上述步骤702得到的中间特征相同。
[0275] 在一些情况下,待检索特征可以包括待检索文件的图像特征、文本特征和音频特征,步骤601可以包括:
[0276] 电子设备100在待检索文件的图像特征、待检索文件的文本特征、待检索文件的音频特征、目标特征之间进行点积运算,得到中间特征。
[0277] 应理解,在待检索文件的图像特征、待检索文件的文本特征、待检索文件的音频特征、目标特征之间进行点积运算,可以包括:
[0278] 步骤703,电子设备100在待检索文件的图像特征、待检索文件的文本特征之间进行点积运算,得到图像文本融合特征;
[0279] 步骤704,电子设备100在待检索文件的音频特征与目标特征之间进行点积运算,得到音频目标融合特征。
[0280] 步骤705,电子设备100在图像文本融合特征与音频目标融合特征之间进行点积运算,得到中间特征。
[0281] 需要说明,步骤703可以在步骤704之前或之后,步骤703还可以与步骤704同时进行,本申请实施例对此不做具体限定。
[0282] 可以理解,步骤703 步骤704,仅是示例性说明,本申请实施例还可以采用步骤701~步骤702的方式实现在待检索文件的图像特征、待检索文件的文本特征、待检索文件的音~
频特征、目标特征之间进行点积运算,例如:
[0283] 电子设备100可以在得到图像文本融合特征之后,在图像文本融合特征与待检索文件的音频特征之间进行点积运算,得到图像文本音频融合特征,之后电子设备100可以在图像文本音频融合特征与目标特征之间进行点积运算,得到中间特征。
[0284] 示例性的,参见图8,在步骤203‑2中,电子设备100将待检索文件的图像特征、待检索文件的文本特征、关键信息的图像特征、关键信息的文本特征融合,得到中间特征,可以是:
[0285] 电子设备100在待检索文件的图像特征、待检索文件的文本特征、关键信息的图像特征、关键信息的文本特征之间进行点积运算,得到中间特征。
[0286] 应理解,待检索文件的图像特征、待检索文件的文本特征、关键信息的图像特征、关键信息的文本特征之间进行点积运算,可以包括:
[0287] 示例一,电子设备100先在待检索文件的图像特征与待检索文件的文本特征之间进行点积运算,得到图像文本融合特征,之后电子设备100在图像文本融合特征与关键信息的图像特征之间进行点积运算,得到图像文本‑图像融合特征,再之后电子设备100在图像文本‑图像融合特征与关键信息的文本特征之间进行点积运算,得到中间特征。
[0288] 示例二,电子设备100可以执行如下流程:
[0289] 步骤801,电子设备100在待检索文件的图像特征与待检索文件的文本特征之间进行点积运算,得到待检索文件的图像文本融合特征;
[0290] 步骤802,电子设备100在关键信息的图像特征与关键信息的文本特征之间进行点积运算,得到关键信息的图像文本融合特征;
[0291] 步骤803,电子设备100在待检索文件的图像文本融合特征与关键信息的图像文本融合特征之间进行点积运算,得到中间特征。
[0292] 需要说明,步骤801可以在步骤802之前或之后,步骤801还可以与步骤802同时进行。
[0293] 本申请实施例提供的上述文件检索方法,通过点积的方式,可以最大化地匹配出相似度最高的待检索文件。
[0294] 应理解,在上述图6 图8所示的实施例中,可以先将待检索文件的多个特征进行融~合,然后将融合后的特征与目标特征融合,下面列举几个具体的实施例。
[0295] 需要说明,在待检索特征和/或目标特征包括多种特征的情况下,为进一步提高文件检索的精确度,可以在步骤601中将多种融合方式进行组合,例如步骤601中的待检索特征中的几种特征之间的融合可以是拼接、点积、输入网络模型中的一种或几种的组合,以图9所示的实施例进行示例性说明。
[0296] 图9是本申请另一个实施例提供的检索文件方法流程示意图。如图9所示,当待检索特征包括待检索文件的图像特征、待检索文件的文本特征、待检索文件的音频特征中的至少两种类型的特征,且目标特征为关键信息的图像特征、文本特征、音频特征中的一种,图6所示的步骤601,可以包括:
[0297] 步骤901,电子设备100将待检索特征中的所有特征融合,得到第一融合特征。
[0298] 步骤902,电子设备100在第一融合特征与目标特征之间进行点积,得到中间特征。
[0299] 本申请实施例提供的上述文件检索文法,考虑到待检索文件的图像特征、文本特征、音频特征之间的关联性,在待检索文件的多个特征之间进行融合,提高待检索特征的表达能力,可以提高待检索特征表征待检索文件的准确性。
[0300] 应理解,在步骤901中,融合可以是采用点积、拼接或者输入网络模型等方式将待检索特征合并为第一融合特征。
[0301] 可以理解,考虑到不同特征的维度限制,直接将多个特征融合,在使用点积实现融合时,可能出现特征的维度不匹配的情况,进而无法进行融合。若使用其他方式进行融合,也可能存在无法有效融合的情况。此外,直接将多个特征融合,时间和计算开销较大,效率低下。
[0302] 在一种可能的实现方式中,如果待检索特征包含两种以上类型的特征,且该几种类型的特征之间维度不同,在步骤901中,电子设备100可以将待检索特征内的所有特征映射至同一维度,之后电子设备100对第一特征进行降维,使得第一融合特征的维度与目标特征的维度相同。
[0303] 本申请实施例提供的上述文件检索方法,第一融合特征的维度与目标特征的维度相同,在步骤902中,可以降低第一融合特征与目标特征之间点积运算的难度,提高特征融合的有效性,还可以减少时间开销。
[0304] 应理解,待检索特征包括待检索文件的图像特征、文本特征、音频特征中的至少两种类型的特征,可以是以下情形:
[0305] 情形一,待检索特征包括待检索文件的图像特征和文本特征;
[0306] 情形二,待检索特征包括待检索文件的图像特征和音频特征;
[0307] 情形三,待检索特征包括待检索文件的文本特征和音频特征;
[0308] 情形四,待检索特征包括待检索文件的图像特征、文本特征和音频特征。
[0309] 可以理解,在步骤901中的电子设备100将待检索特征中的所有特征融合,对于情形一,可以是电子设备100将待检索文件的图像特征和文本特征融合。对于情形二,可以是电子设备100将待检索文件的图像特征和音频特征融合。对于情形三中,可以是电子设备100将文本特征和音频特征融合。
[0310] 对于情形四,电子设备100将待检索文件的图像特征、文本特征和音频特征融合,包括以下几种方式:
[0311] 方式A,电子设备100将待检索文件的图像特征和文本特征融合,得到图像文本融合特征,之后将图像文本融合特征与音频特征融合,得到第一融合特征;
[0312] 方式B,电子设备100将待检索文件的图像特征和音频特征融合,得到图像音频融合特征,之后将图像音频融合特征与文本特征融合,得到第一融合特征;
[0313] 方式C,电子设备100将待检索文件的文本特征与音频特征融合,得到文本音频融合特征,之后将文本音频融合特征与图像特征融合,得到第一融合特征。
[0314] 下面以情形一为例,具体阐述图9所示的实施例,据此可适应性获得情形二和情形三下的实施方案。
[0315] 图10是本申请另一个实施例提供的文件检索方法流程示意图。如图10所示,当待检索特征包括待检索文件的图像特征、文本特征,且待检索文件的图像特征与待检索文件的文本特征之间维度不相同,图9所示的步骤901,可以包括:
[0316] 步骤1001,电子设备100将待检索特征中的所有特征映射至同一维度,得到第一特征。
[0317] 步骤1001,可以包括:
[0318] 步骤1001‑1,电子设备100将待检索文件的图像特征进行卷积;
[0319] 步骤1001‑2,电子设备100将卷积之后的待检索文件的图像特征进行归一化,得到第一归一化特征;
[0320] 步骤1001‑3,电子设备100将待检索文件的文本特征进行卷积;
[0321] 步骤1001‑4,电子设备100将卷积之后的待检索文件的文本特征进行归一化,得到第二归一化特征;
[0322] 步骤1001‑5,电子设备100将第一归一化特征和第二归一化特征进行拼接,得到第一特征。
[0323] 可以理解,电子设备100对特征实现卷积的方式可以将特征输入卷积模型实现。电子设备100实现归一化的方式可以将特征输入softmax模型中。本申请实施例不对电子设备100实现卷积或归一化的具体方式做限定。
[0324] 步骤1002,电子设备100对第一特征进行降维,得到第二特征。
[0325] 可选地,第二特征的维度与第一权重特征的维度相同。第一权重特征为待检索特征内与目标特征的类型相同的特征。
[0326] 需要说明,第一权重特征与目标特征的类型相同的特征可以包括:
[0327] 1、与目标特征的特征类型相同,例如,若目标特征为本文特征,那么第一权重特征可以是待检索特征内的文本特征;
[0328] 2、或者第一权重特征与目标特征的维度相同,例如当电子设备100利用LSTM模型获取待检索文件的文本特征和音频特征的情况下,待检索文件的文本特征与音频特征的维度相同。
[0329] 可选地,步骤1002,可以包括:
[0330] 步骤1002‑1,电子设备100将第一特征输入池化层和全连接层,得到第二特征。
[0331] 需要说明,电子设备100还可以采用其他网络模型实现第一特征的降维度,本申请实施例对此不做具体限定。
[0332] 步骤1003,电子设备100在第二特征与第一权重特征之间进行点积,得到第一融合特征。
[0333] 可以理解,若目标特征为关键信息的文本特征,那么第一权重特征为待检索文件的文本特征。若目标特征为关键信息的图像特征,那么第一权重特征为待检索文件的图像特征。若目标特征为关键信息的音频特征,那么第一权重特征为待检索文件的音频特征。
[0334] 应理解,第二特征与第一权重特征之间进行点积,相当于对待检索文件图像特征与文本特征之间相同的信息增加权重,可以最大化图像特征中与文本相关信息与无关信息之间的差异,提高待检索特征对重要信息的表达能力。
[0335] 下面针对情形四,以目标特征为关键信息的文本特征为例,结合图11具体阐述图9所示的实施例。
[0336] 如图11所示,当待检索特征包括待检索文件的图像特征、文本特征、音频特征三种类型的特征,第一融合特征包括第一中间融合特征和第二中间融合特征,图9中的步骤901,可以包括:
[0337] 步骤1101,电子设备100确定待检索特征内的第一权重特征。
[0338] 可选地,第一权重特征为待检索特征内与目标特征的类型相同的特征。例如,当目标特征为文本特征,第一权重特征为待检索文件的文本特征。
[0339] 步骤1102,电子设备100确定待检索特征内的非权重特征。
[0340] 可以理解,非权重特征为待检索特征与第一权重特征类型不同的特征。非权重特征包括第一非权重特征和第二非权重特征,第一非权重特征与第二非权重特征的类型不同。例如当第一权重特征为待检索文件的文本特征,那么非权重特征包括待检索文件的图像特征和待检索文件的音频特征。
[0341] 可以理解,第一非权重特征可以是待检索文件的图像特征,第二非权重特征可以是待检索文件的音频特征。或者,第一非权重特征可以是待检索文件的音频特征,第二非权重特征可以是待检索文件的图像特征。
[0342] 步骤1103,电子设备100将第一非权重特征与第一权重特征融合,得到第一中间融合特征。
[0343] 需要说明,电子设备100可以采用图10所示的实施例得到第一中间融合特征,当第一非权重特征与第一权重特征的维度不相同,步骤1103,可以包括:
[0344] 步骤1103‑1,电子设备100将第一非权重特征与第一权重特征映射至同一维度,得到第三特征。
[0345] 步骤1103‑2,电子设备100对第三特征进行降维,得到第四特征,第四特征的维度与第一权重特征的维度相同。
[0346] 步骤1103‑3,电子设备100在第四特征与第一权重特征之间进行点积,得到第一中间融合特征。
[0347] 步骤1104,电子设备100将第二非权重特征与第一权重特征融合,得到第二中间融合特征。
[0348] 需要说明,电子设备100可以采用图10所示的实施例得到第一中间融合特征,当第二非权重特征与第一权重特征的维度不相同,步骤1104,可以包括:
[0349] 步骤1104‑1,电子设备100将第二非权重特征与第一权重特征映射至同一维度,得到第五特征。
[0350] 步骤1104‑2,电子设备100对第五特征进行降维,得到第六特征,第六特征的维度与第一权重特征的维度相同。
[0351] 步骤1104‑3,电子设备100在第六特征与第一权重特征之间进行点积,得到第二中间融合特征。
[0352] 可以理解,在图11所示的实施例中,第一融合特征包括第一中间融合特征和第二中间融合特征,进而图9中的步骤902,可以包括:
[0353] 步骤902‑1,电子设备100在第一中间融合特征、第二中间融合特征、目标特征之间进行点积,得到中间特征。
[0354] 为更加清楚地说明本申请实施例提供的技术方案,下面以第一非权重特征为待检索文件的图像特征,第二非权重特征为待检索文件的音频特征,第一权重特征为待检索文件的文本特征,目标特征为关键信息的文本特征为例,进行说明。
[0355] 参见图12所示,电子设备100可以包括:CNN模型1201,softmax模型1202,池化层1203,全连接层1204。流程包括:
[0356] 步骤1201,电子设备100将待检索文件的图像特征、文本特征、音频特征分别依次输入CNN模型1201、softmax模型1202和拼接模型,之后分别得到第三特征和第五特征;
[0357] 步骤1202,电子设备100分别将第三特征和第五特征依次输入池化层1203和全连接层1204,之后分别得到第四特征和第六特征;
[0358] 步骤1203,电子设备100在第四特征与待检索文件的文本特征之间进行点积,得到第一中间融合特征;
[0359] 步骤1204,电子设备100在第六特征与待检索文件的文本特征之间进行点积,得到第二中间融合特征;
[0360] 步骤1205,电子设备100在第一中间融合特征、第二中间融合特征、目标特征之间进行点积,得到中间特征。
[0361] 可以理解,当第一非权重特征与第一权重特征的维度相同的情况下,可以不需要采用上述对第三特征进行降维度的方式获取第一中间融合特征,电子设备100可以直接在第一非权重特征与第一权重特征之间进行点积的方式,得到第一中间融合特征。
[0362] 应理解,当第二非权重特征与第一权重特征的维度相同的情况下,电子设备100可以直接在第二非权重特征与第一权重特征之间进行点积的方式,得到第二中间融合特征。
[0363] 需要说明,当目标特征包括关键信息的图像特征、文本特征、音频特征中的至少两种类型特征的情况下,可以采用图13所示的实施方案。如图13所示,当待检索特征包括待检索文件的图像特征、待检索文件的文本特征、待检索文件的音频特征中的至少两种类型的特征,且目标特征为关键信息的图像特征、文本特征、音频特征中的至少两种类型的特征,图6所示的步骤601,可以包括:
[0364] 步骤1301,电子设备100将待检索特征中的所有特征融合,得到第一融合特征。
[0365] 步骤1302,电子设备100将目标特征中的所有特征融合,得到第二融合特征;
[0366] 步骤1303,电子设备100在第一融合特征与第二融合特征之间进行点积,得到中间特征。
[0367] 本申请实施例提供的上述文件检索方法,在目标特征包括多种类型的信息的情况下,将目标特征中的所有类型的特征融合,可以提高目标特征表达用户检索意图的能力,进而当目标特征与待检索特征融合后,可以更好地筛选出用户意图检索的目标,提高检索精度。
[0368] 需要说明,在步骤1301和步骤1302中,电子设备100得到第一融合特征或得到第二融合特征的原理与图2 图12所示的实施方案类似,在图2 图12所示的实施例的基础上,可~ ~以适应性地获得图13所示实施方案中得到第一融合特征或第二融合特征的实施方案,在此不再赘述。
[0369] 上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0370] 图14是本说明书一个实施例提供的电子设备100的结构示意图,如图14所示,电子设备100可以包括:第一获取模块1401,第二获取模块1402,融合模块1403,确定模块1404。
[0371] 第一获取模块1401,用于获取目标特征,目标特征包括用户输入的关键信息的图像特征、文本特征、音频特征中的至少一个。
[0372] 第二获取模块1402,用于获取每个待检索文件的待检索特征,待检索特征包括待检索文件的图像特征、文本特征、音频特征中的至少一个。
[0373] 融合模块1403,用于将待检索特征与目标特征融合,得到中间特征。
[0374] 确定模块1404,用于根据每个待检索文件的中间特征确定待检索特征与目标特征之间的关联程度。
[0375] 可选地,确定模块,具体用于:
[0376] 将每个待检索文件的中间特征输入分类器,得到每个待检索文件的评分,评分用于表示待检索特征与目标特征之间的关联程度。
[0377] 可选地,融合模块,包括:
[0378] 融合子模块,用于在待检索特征与目标特征之间进行点积,得到中间特征。
[0379] 可选地,融合子模块,包括:
[0380] 第一融合单元,用于当待检索特征包括待检索文件的图像特征、待检索文件的文本特征、待检索文件的音频特征中的至少两种类型的特征,且目标特征为关键信息的图像特征、文本特征、音频特征中的一种,将待检索特征中的所有特征融合,得到第一融合特征;
[0381] 第二融合单元,用于在第一融合特征与目标特征之间进行点积,得到中间特征。
[0382] 可选地,第一融合单元,包括:
[0383] 第一映射子单元,用于当待检索特征包括待检索文件的图像特征、待检索文件的文本特征、待检索文件的音频特征中的两种类型的特征,且待检索特征内两种类型特征的维度不相同,将待检索特征中的所有特征映射至同一维度,得到第一特征;
[0384] 第一降维子单元,用于对第一特征进行降维,得到第二特征,第二特征的维度与第一权重特征的维度相同,其中,第一权重特征为待检索特征内与目标特征的类型相同的特征;
[0385] 第一点积子单元,用于在第二特征与第一权重特征之间进行点积,得到第一融合特征。
[0386] 可选地,第一融合单元,包括:
[0387] 第一确定子单元,用于当待检索特征包括待检索文件的图像特征、文本特征、音频特征三种类型的特征,第一融合特征包括第一中间融合特征和第二中间融合特征,确定待检索特征内的第一权重特征,第一权重特征为待检索特征内与目标特征的类型相同的特征;
[0388] 第二确定子单元,用于确定待检索特征内的非权重特征,非权重特征为待检索特征与第一权重特征类型不同的特征,非权重特征包括第一非权重特征和第二非权重特征,第一非权重特征与第二非权重特征的类型不同;
[0389] 第一融合子单元,用于将第一非权重特征与第一权重特征融合,得到第一中间融合特征;
[0390] 第二融合子单元,用于将第二非权重特征与第一权重特征融合,得到第二中间融合特征。
[0391] 可选地,第一融合子单元,具体用于:
[0392] 当第一非权重特征与第一权重特征的维度不相同,将第一非权重特征与第一权重特征映射至同一维度,得到第三特征;
[0393] 对第三特征进行降维,得到第四特征,第四特征的维度与第一权重特征的维度相同;
[0394] 在第四特征与第一权重特征之间进行点积,得到第一中间融合特征。
[0395] 可选地,第二融合子单元,具体用于:
[0396] 当第二非权重特征与第一权重特征的维度不相同,将第二非权重特征与第一权重特征映射至同一维度,得到第五特征;
[0397] 对第五特征进行降维,得到第六特征,第六特征的维度与第一权重特征的维度相同;
[0398] 在第六特征与第一权重特征之间进行点积,得到第二中间融合特征。
[0399] 可选地,第二融合单元,具体用于:
[0400] 在第一中间融合特征、第二中间融合特征、目标特征之间进行点积,得到中间特征。
[0401] 可选地,融合子模块,包括:
[0402] 第三融合单元,用于当待检索特征包括待检索文件的图像特征、待检索文件的文本特征、待检索文件的音频特征中的至少两种,且目标特征包括关键信息的图像特征、文本特征、音频特征中的至少两种类型的特征,将待检索特征中的所有特征融合,得到第一融合特征;
[0403] 第四融合单元,用于将目标特征中的所有特征融合,得到第二融合特征;
[0404] 第五融合单元,用于在第一融合特征与第二融合特征之间进行点积,得到中间特征。
[0405] 图14所示实施例提供的电子设备100可用于执行本说明书图2至图13所示方法实施例中电子设备100实施的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
[0406] 本申请实施例提供的文件检索方法可以通过以下装置来执行:芯片或者芯片模组。关于上述实施例中描述的各个设备、产品包含的各个模块/单元,其可以是软件模块/单元,也可以是硬件模块/单元,或者也可以部分是软件模块/单元,部分是硬件模块/单元。例如,对于应用于或集成于芯片的各个设备、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器。不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片模组内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于终端的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端内同一组件(例如,芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于终端内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。
[0407] 本申请实施例还提供一种芯片系统,包括:通信接口,用于输入和/或输出信息;处理器,用于调用计算机程序,使得安装有所述芯片系统的设备执行如本说明书图2至图13所示实施例提供的文件检索方法。
[0408] 图15是本说明书另一个实施例提供的电子设备100的结构示意图。如图15所示,上述电子设备100可以包括至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的计算机程序,上述处理器调用上述计算机程序能够执行本说明书图2至图13所示实施例提供的随机接入方法。
[0409] 其中,上述电子设备100可以为智能手机、平板电脑等智能电子设备,本实施例对上述电子设备100的形式不作限定。
[0410] 示例性的,图15以智能手机作为例示出了电子设备100的结构示意图,如图13所示,电子设备100可以包括处理器110,内部存储器121,天线1,天线2,移动通信模块150,无线通信模块160,以及用户标识模块(subscriber identification module,SIM)卡接口195等。
[0411] 可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
[0412] 处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processing unit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural‑network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
[0413] 控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
[0414] 处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。
[0415] 处理器110通过运行存储在内部存储器121中的程序,从而执行各种功能应用以及数据处理,例如实现本申请图2 图13所示实施例提供的方法。~
[0416] 在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter‑integrated circuit,I2C)接口,集成电路内置音频(inter‑integrated circuit sound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general‑purpose input/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
[0417] 电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
[0418] 天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
[0419] 移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
[0420] 调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
[0421] 无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi‑Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
[0422] 在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code division multiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time‑division code division multiple access,TD‑SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC ,FM,和/或IR技术等。
[0423] NPU为神经网络(neural‑network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,音频识别,文本理解等。
[0424] 内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序等。存储数据区可存储电子设备100使用过程中所创建的数据等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。
[0425] SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
[0426] 本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储计算机程序,计算机程序被计算机执行本说明书图2 图13所示实施例提供的随机接入方法。~
[0427] 上述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read only memory, ROM)、可擦式可编程只读存储器(Erasable programmable read only memory, EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0428] 可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。
[0429] 以上仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。