图像搜索方法、装置、终端设备及存储介质转让专利
申请号 : CN201911025939.2
文献号 : CN110781327B
文献日 : 2021-07-02
发明人 : 刘一帆 , 刘云峰
申请人 : 深圳追一科技有限公司
摘要 :
权利要求 :
1.一种图像搜索方法,其特征在于,所述方法包括:获取在人机交互界面输入的语音信息;
提取所述语音信息中的多个语音特征数据,所述多个语音特征数据包括所述语音信息的音高、音强、音长、音色、音调、音素、发音速度、总的时长中的至少两项,所述音高、音强、音长、音色、音调、音素、发音速度、总的时长分别对应用户定义的不同的搜索规则;
搜索与所述多个语音特征数据分别对应的图像,所述搜索与所述多个语音特征数据分别对应的图像的步骤包括:分别搜索与所述语音信息的音高、音强、音长、音色、音调、音素、发音速度、总的时长中的至少两项对应的图像;
获取与所述语音信息匹配的场景模式;
判断所述场景模式是否为预设的场景模式,不同的预设的场景模式中,所述语音信息的多个语音特征数据的优先级不同;
若是,获取与所述场景模式关联的所述多个语音特征数据对应的优先级;
按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序,得到目标序列图像,所述目标序列图像中对应的优先级越高的图像的排列顺序越靠前;
输出所述目标序列图像。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述场景模式关联的所述多个语音特征数据对应的优先级的步骤之前还包括:判断是否接收到所述语音信息的更新指令;
若是,所述获取与所述场景模式关联的所述多个语音特征数据对应的优先级的步骤包括:
获取与更新后的所述语音信息的多个语音特征数据匹配的优先级。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:若不是,获取所述多个语音特征数据各自对应的权值;
基于所述权值获取当前与所述多个语音特征数据对应的优先级,所述权值越大对应的优先级越高。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取与所述语音信息的音高、音强、音长、音色、音调、音素、发音速度、总的时长中的至少两项对应的图像的数量;
判断所述数量是否达到预设阈值;
若达到,结束与达到所述预设阈值的子线程对应的搜索进程。
5.一种图像搜索装置,其特征在于,所述装置包括:获取模块,用于获取在人机交互界面输入的语音信息;
数据提取模块,用于提取所述语音信息中的多个语音特征数据,所述多个语音特征数据包括所述语音信息的音高、音强、音长、音色、音调、音素、发音速度、总的时长中的至少两项,所述音高、音强、音长、音色、音调、音素、发音速度、总的时长分别对应用户定义的不同的搜索规则;
搜索模块,用于搜索与所述多个语音特征数据分别对应的图像,所述搜索与所述多个语音特征数据分别对应的图像的步骤包括:分别搜索与所述语音信息的音高、音强、音长、音色、音调、音素、发音速度、总的时长中的至少两项对应的图像;
优先级获取模块,用于获取与所述语音信息匹配的场景模式;判断所述场景模式是否为预设的场景模式,不同的预设的场景模式中,所述语音信息的多个语音特征数据的优先级不同;若是,获取与所述场景模式关联的所述多个语音特征数据对应的优先级;
处理模块,用于按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序,得到目标序列图像,所述目标序列图像中对应的优先级越高的图像的排列顺序越靠前;
结果展示模块,用于输出所述目标序列图像。
6.一种终端设备,其特征在于,包括:存储器;
一个或多个处理器,与所述存储器耦接;
一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1‑4任一项所述的方法。
7.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1‑4任一项所述的方法。
说明书 :
图像搜索方法、装置、终端设备及存储介质
技术领域
背景技术
进行图像检索,这是近20年来研究的热点。随着搜索引擎技术的不断发展,语音搜索已逐步
应用于各种终端设备中。作为一种方式,可以通过对用户输入的搜索语音进行语音识别,以
将搜索语音转换成文字,并分析出其中的关键字,然后根据关键字搜索相匹配的搜索结果
或者根据关键字在问答系统的数据库中查询对应的问答结果,并将搜索结果以图片、动画
或视频等形式展现给用户。然而,在利用语音进行图像搜索时,通常会出现因语音内容识别
度不高导致搜索变慢且搜索结果不准确。
发明内容
对应用户不同的搜索需求;搜索与所述多个语音特征数据分别对应的图像;获取与所述多
个语音特征数据对应的优先级;按照所述优先级将所述与所述多个语音特征数据分别对应
的图像进行排序,得到目标序列图像,所述目标序列图像中对应的优先级越高的图像的排
列顺序越靠前;输出所述目标序列图像。
模式关联的所述多个语音特征数据对应的优先级。
景模式关联的所述多个语音特征数据对应的优先级,包括:获取与更新后的所述语音信息
的多个语音特征数据匹配的优先级。
取当前与所述多个语音特征数据对应的优先级,所述权值越大对应的优先级越高。
是否达到预设阈值;若达到,结束与所述子线程对应的搜索进程。
音特征数据,所述多个语音特征数据对应用户不同的搜索需求;搜索模块,用于搜索与所述
多个语音特征数据分别对应的图像;优先级获取模块,用于获取与所述多个语音特征数据
对应的优先级;处理模块,用于按照所述优先级将所述与所述多个语音特征数据分别对应
的图像进行排序,得到目标序列图像,所述目标序列图像中对应的优先级越高的图像的排
列顺序越靠前;结果展示模块,用于输出所述目标序列图像。
语音特征数据对应的优先级。
的更新指令。
特征数据对应的优先级,所述权值越大对应的优先级越高。
结束与所述子线程对应的搜索进程。
置为由一个或多个处理器执行,一个或多个程序配置用于执行如上述第一方面所述的方
法。
特征数据对应用户不同的搜索需求,然后搜索与多个语音特征数据分别对应的图像,再获
取与多个语音特征数据对应的优先级,然后按照优先级将与多个语音特征数据分别对应的
图像进行排序,得到目标序列图像,目标序列图像中对应的优先级越高的图像的排列顺序
越靠前,最后输出目标序列图像。通过上述方式实现了对获取的语音信息进行提取后,得到
对应于用户不同的搜索需求的多个语音特征数据的情况下,按照与多个语音特征数据对应
的优先级,将搜索得到的与多个语音特征数据分别对应的图像进行排序,以得到与用户搜
索需求对应的目标序列图像,提升了图像搜索的准确率。
附图说明
本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附
图。
具体实施方式
本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本申请保护的范围。
关键一环以及AI(Artificial Intelligence,人工智能)应用最成熟的技术之一,在营销客
服、智能家居、智能车载、智能穿戴、智能搜索等领域都有着迅猛发展。例如,智能图像搜索。
字在问答系统的数据库中查询对应的问答结果,并将搜索结果以图片、动画或视频等形式
展现给用户。然而,在利用语音进行图像搜索时,通常会出现因语音内容识别度不高导致搜
索变慢且搜索结果不准确。
数据所对应的优先级将得到的图像进行排序,得到目标序列图像,最后输出目标序列图像,
可以实现输出与用户的语音信息对应的语音特征数据匹配的图像,满足用户的个性化搜索
需求,提升图像搜索的准确率。因此提出了本申请实施例中的图像搜索方法、装置、终端设
备及存储介质。
终端设备101以及服务器102,服务器102与终端设备101通信连接。其中,服务器102可以是
传统服务器,也可以是云端服务器,在此不作具体限定。
数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符等。
终端设备101设置有摄像头,摄像头可设置于终端设备101配有显示屏的一面,可选的,终端
设备101的摄像头也可设置于终端设备101背离显示屏的一面。需要说明的是,通过摄像头
可采集用户的图像数据,图像数据中包括用户的姿态信息,以辅助用于准确识别用户的搜
索意图。
端应用程序,用户可以基于客户端应用程序在服务器102注册一个用户帐号,并基于该用户
帐号与服务器102进行通信,例如用户在客户端应用程序登录用户帐号,并基于该用户帐号
通过客户端应用程序进行输入,可以输入文字信息、语音数据或图像数据等等,客户端应用
程序接收到用户输入的信息后,可以将该信息发送至服务器102,使得服务器102可以接收
该信息并进行处理及存储,服务器102还可以接收该信息并根据该信息返回一个对应的输
出信息至终端设备101。
交互系统100可以只包括终端设备101。
以是智能手机、平板电脑、穿戴式智能终端等电子设备。
地可以包括以下步骤:
俄语、韩国话、日本话等)、以及语音信息所表征的用户行为的具体内容(例如,用于搜索图
像的语音信息)等。不同用户的语音信息可以不同。
体的应用场景中,可以通过终端设备中安装的语音助手、语音SDK(Software Development
Kit,软件开发工具包)或是语音识别引擎应用程序等采集用户输入的语音信息。可选的,该
种方式下的语音信息可以是当前通过终端设备的人机交互界面与终端设备进行交互的用
户的语音信息,或者可以是用户在通过终端设备进行通话过程中获取到的用户的语音信
息。
中,预先存储的语音信息可以是用户通过终端设备的语音录制功能预先录入的语音信息
(例如,预先录入的一句话、一段话或音频等),或者可以是用户历史搜索记录中缓存的语音
信息,或者是用户从网络上下载的语音信息(例如,从抖音APP上下载保存的某段用户感兴
趣的语音信息),或者也可以是用户通过语音处理软件将自己的语音信息与用户感兴趣的
某位艺人、网络用户的语音进行合成后的语音信息等,对于语音信息的格式、内容以及来源
不作限定。
预先定义,以便于终端设备可以通过识别语音信息中是否包括预先定义的图像搜索关键
字,进而将对应的语音信息加入待搜索图像队列。
信息并将这些语音信息作为在人机交互界面输入的语音信息;而若该语音信息不是用于图
像搜索,那么将舍弃这些语音信息,或者提示用户重新输入语音信息。可选的,可以通过判
断语音信息中是否包括预先定义的图像搜索关键字来判断语音信息是否用于图像搜索。可
以理解的是,若包括,那么可以判定语音信息是用于图像搜索;而若不包括,那么可以判定
语音信息不是用于图像搜索。
耗问题,可以在监测到搜索类应用程序的搜索指令被触发时,开始获取用户在人机交互界
面输入的语音信息。
音强、音长、音色,这也是构成语音的四要素。音高指声波频率,即每秒钟振动次数的多少;
音强指声波振幅的大小;音长指声波振动持续时间的长短,也称为"时长";音色指声音的特
色和本质,也称作"音质"。人的发音器官及其活动情况是语音的生理基础。人的发音器官分
3部分:(1)呼吸器官,包括肺、气管和支气管。肺是呼吸器官的中心,是产生语音动力的基
础。(2)喉头和声带,它们是发音的振颤体。(3)口腔、咽腔、鼻腔,它们都是发音的共鸣器。
可以对用户的语音信息中的语音特征数据进行提取,进而基于语音特征数据搜索符合用户
搜索意图的图像。其中,本申请实施例中的语音信息可以包括多个语音特征数据,多个语音
特征数据对应用户不同的搜索需求。可选的,多个语音特征数据可以至少包括语音信息的
音高、音强(等同于音量)、音长、音色、音调(即语音声音频率的高低)、音素(根据语音的自
然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音
素)、发音速度(表征用户发音的快慢)、总的时长(表征用户的说话时长)中的一项。可选的,
实际实现时可以包括更多或更少的语音特征数据,在此不一一例举,且不作为限定。
绪低落时语音信息的音强低、发音速度慢、说话时长较短等。可选的,若同一用户采用不同
的语言或语种进行说话时,所对应的语音信息的多个语音特征数据也可以不同。例如,用户
用英文表达“这周末如果不下雨,我们去爬山”,与用户用中文表达“这周末如果不下雨,我
们去爬山”时,由于语言特性,以及发音速度的调整,与用户的语音信息对应的多个语音特
征数据可以不同。
息的多个语音特征数据。通过提取语音信息中的多个语音特征数据,可以实现基于语音特
征数据搜索符合用户的搜索意图的图像数据,满足了用户的个性化搜索需求,从而提升个
性化用户体验。
索标识,继而开启多线程并行搜索与多个语音特征数据分别对应的图像。
设定。例如,假设与用户的搜索意图对应的图像搜索结果为“餐巾纸”,那么如果只是将搜索
结果进行简单排列展示给用户,会给用户带来选择困扰;另外,若将搜索结果按照销量、价
格高低、搜索热度等惯有的排列方式将搜索结果展示给用户,会显得过于机械化,且有一定
的商业广告效应(例如,有些排列靠前的搜索结果的销量可能是利用特定手段刷出来的),
不能真正贴合于用户的搜索意图,展示与用户的搜索意图相关度高的图像搜索结果。
纸”、“纸张厚度较厚的餐巾纸”、“外形包装美观、设计感强的餐巾纸”、“价格相对较高的餐
巾纸”、“体积小、便携带的餐巾纸”、“材质最好的餐巾纸”、“婴幼儿适用的餐巾纸”进行对
应,那么在搜索与多个语音特征数据分别对应的图像时,可以分别搜索出满足各类餐巾纸
的定义规则的图像,从而帮助用户根据搜索结果选择符合用户搜索意图的餐巾纸。
况下也可以将不同的语音特征数据和与用户的搜索意图对应的相同的图像搜索结果进行
对应,具体对应关系以及对应规则的设定方式可以不作限定。
如,多个语音特征数据的优先级可以为“音高>音强>音长>音色>音调>音素>发音速度>总的
时长”、或者可以为“音强>音色>音调>音高>音长>发音速度>音素>总的时长”等。其中,具体
的排列顺序可以根据需要进行设定。
第三,其中,第一场景和第二场景为不同的场景。
种方式,由于用户在说话过程中的语音信息可以是变化的,例如因情绪的变化,所说出来的
语音信息的多个语音特征数据之间的优先级会有变化;或者说是用户采用了不同的语言或
语种进行表达时,语音信息的多个语音特征数据之间的优先级可能会存在变化。因而,在这
种情况下,多个语音特征数据之间的优先级可以实时调整,那么可以获取与用户当前的语
音信息实时匹配的多个语音特征数据对应的优先级。可选的,与用户当前的语音信息实时
匹配的多个语音特征数据对应的优先级的获取方式将在后续实施例中进行详细描述。
先级将与多个语音特征数据分别对应的图像进行排序,从而可以得到目标序列图像。其中,
目标序列图像可以理解为符合用户搜索意图,且与用户的当前语音信息中的搜索关键字对
应的,满足用户个性化搜索需求的图像搜索结果。可选的,目标序列图像中对应的优先级越
高的图像的排列顺序越靠前。
图像搜索结果为“搜索热度高的餐巾纸”,预先定义其中的音强对应的图像搜索结果为“品
牌知名度高的餐巾纸”,预先定义其中的音长对应的图像搜索结果为“纸张厚度较厚的餐巾
纸”,预先定义其中的音色对应的图像搜索结果为“外形包装美观、设计感强的餐巾纸”,预
先定义其中的音调对应的图像搜索结果为“价格相对较高的餐巾纸”,预先定义其中的音素
对应的图像搜索结果为“体积小、便携带的餐巾纸”。在这种情况下,若获取到这些语音特征
数据对应的优先级为“音调>音色>音强>音高>音素>音长”,那么可以按照这些语音特征数
据对应的优先级将对应的图像搜索结果的排列顺序调整为“价格相对较高的餐巾纸”、“外
形包装美观、设计感强的餐巾纸”、“品牌知名度高的餐巾纸”、“搜索热度高的餐巾纸”、“体
积小、便携带的餐巾纸”、“纸张厚度较厚的餐巾纸”。
音特征,搜索出与用户的搜索意图更加匹配的结果,提升个性化用户体验。
索与多个语音特征数据分别对应的图像,再获取与多个语音特征数据对应的优先级,然后
按照优先级将与多个语音特征数据分别对应的图像进行排序,得到目标序列图像,目标序
列图像中对应的优先级越高的图像的排列顺序越靠前,最后输出目标序列图像。通过上述
方式实现了对获取的语音信息进行提取后,得到对应于用户不同的搜索需求的多个语音特
征数据的情况下,按照与多个语音特征数据对应的优先级将搜索得到的与多个语音特征数
据分别对应的图像进行排序,以得到与用户搜索需求对应的目标序列图像,提升了图像搜
索的准确率。
字。
“配速、操场、篮球、点位、力度”等,商务交谈场景“咖啡、笔记本、case、PPT、方案”等,旅游场
景可以包括关键字(词)“爬山、玩、拍照、缆车、车票、天气”等。那么,可以理解的是,作为一
种实施方式,可以根据语音信息中的关键字识别出与语音信息匹配的场景模式。
的例举描述,可以将与用户的语音信息匹配的场景确定为旅游场景,那么可以进一步确定
与语音信息匹配的场景模式为“旅游模式”。
式。例如,假设用户说了句“小王,我们什么时候可以开始吃饭呀”,从该句语音信息中可以
提取出关键字(词)“吃饭”,因为“吃饭”可以是多种场景,如果仅凭关键词“吃饭”不能准确
的判断出用户当前所处的场景模式,那么作为一种方式,可以结合用户的整体语音信息确
定出较为准确的场景模式。例如,在该种情况下,可以根据语音信息“小王,我们什么时候可
以开始吃饭呀”将当前的场景模式确定为聚会场景或者是居家场景等。可选的,对于不能根
据语音信息较为准确的确定用户当前所处的场景模式的情况下,可以确定多个相关的场景
作为当前与语音信息匹配的场景模式。
模式与预设的场景模式进行比较来判断所述场景模式是否为预设的场景模式。
根据用户所在环境的气氛所定义的场景模式,例如,团建模式、军事化作息模式等。不同的
预设场景模式中,语音信息的多个语音特征数据的优先级不同。不同用户在同一场景模式
中,各自对应的语音信息的语音特征数据的优先级也可以不同。
的优先级为“音调>音色>音强>音高>音素>音长”,那么可以将“音调>音色>音强>音高>音素
>音长”作为与语音信息匹配的场景模式关联的多个语音特征数据对应的优先级。
于用户的每一次说话,其说话时的语音信息的多个语音特征数据的优先级可能会存在变
化,那么为了实现更准确的搜索,本实施例可以在获取与场景模式关联的多个语音特征数
据对应的优先级的步骤之前,判断是否接收到语音信息的更新指令,即是否接收到变化的
语音信息。可选的,若接收到变化的语音信息,那么将获取与更新后的语音信息的多个语音
特征数据匹配的优先级,即获取与用户当前的语音信息实时匹配的优先级。其中,关于优先
级的具体匹配方式以及变化规则可以参考前述实施例中的描述,在此不再赘述。
买的嘞,很贵的咯”,从用户的语音信息中的语境,可以分析出该句语音信息中的重要关键
字(词)可以为“最大的、专卖店、贵”,而假设用户在说该句语音信息时,说道“很贵”两个字
时音调很高,那么可以将关键词“很贵”与语音特征数据音调进行对应,类似的,可以将关键
词“专卖店”与语音特征数据音色对应,将关键词“最大的”与语音特征数据音强对应,那么
根据用户的说话情绪以及语境,将获取得到语音特征数据“音调、音色、音强”各自对应的权
值可以分别确定为“60、25、15(假设各个语音特征数据的权值的总和为100)”。需要说明的
是,关于多个语音特征数据各自对应的权值的具体确定方式可以结合用户的说话情绪进行
确定,也可以结合用户的说话语境进行确定,或者是同时结合用户的说话情绪以及说话语
境进行确定,也可以是其他的确定方式,在此不作限定。
越高。
语音特征数据对应的优先级可以获取与用户的语音信息实时匹配的语音特征数据的优先
级,进而得到与用户的语音特征更加匹配的图像搜索结果。
联的多个语音特征数据对应的优先级,或者是按照多个语音特征数据各自对应的权值获取
当前与多个语音特征数据对应的优先级,按照与多个语音特征数据对应的优先级将搜索得
到的与多个语音特征数据分别对应的图像进行排序,以得到与用户搜索需求对应的目标序
列图像,使得到的图像搜索结果更加符合用户的语音特征,提升了图像搜索的准确率。
息的音色、音调、音素、发音速度和/或总的时长对应的图像。
素、发音速度和/或总的时长对应的图像。通过展开与语音信息的各个语音特征搜索与用户
的搜索意图对应的图像的方式,可以减少整体搜索时长,加快搜索效率。
可能会降低搜索结果的可信度。那么为了避免上述问题,作为一种方式,可以获取与语音信
息的音色、音调、音素、发音速度和/或总的时长对应的图像的数量,进而通过监测数量决定
是否进行后续的搜索。
录以及统计分析得到的多个用户的搜索习惯进行设定。可选的,假设设定的与“音色”对应
的预设阈值为“100”,与“音调”对应的预设阈值为“50”,与“音强”对应的预设阈值为“20”。
通过将所述数量与预设阈值进行比较可以判断出所述数量是否达到预设阈值。不同的语音
特征数据搜索得到的图像数量的预设阈值可以不同。
音素、发音速度和/或总的时长对应的图像,再获取与语音信息的音色、音调、音素、发音速
度和/或总的时长对应的图像的数量,继而判断图像数量是否达到预设阈值,若达到,则结
束与子线程对应的搜索进程,然后按照与多个语音特征数据对应的优先级将搜索得到的与
多个语音特征数据分别对应的图像进行排序,以得到与用户搜索需求对应的目标序列图
像,加快了搜索速度。
平板电脑、穿戴式智能终端等电子设备,所述装置400包括:
结束与所述子线程对应的搜索进程。
所述多个语音特征数据对应的优先级。若所述场景模式不是预设的场景模式,获取所述多
个语音特征数据各自对应的权值;基于所述权值获取当前与所述多个语音特征数据对应的
优先级,所述权值越大对应的优先级越高。
信息的更新指令。
顺序越靠前。
索与多个语音特征数据分别对应的图像,再获取与多个语音特征数据对应的优先级,然后
按照优先级将与多个语音特征数据分别对应的图像进行排序,得到目标序列图像,目标序
列图像中对应的优先级越高的图像的排列顺序越靠前,最后输出目标序列图像。通过上述
方式实现了在获取了语音信息的对应于用户不同的搜索需求的多个语音特征数据的情况
下,按照与多个语音特征数据对应的优先级将搜索得到的与多个语音特征数据分别对应的
图像进行排序,以得到与用户搜索需求对应的目标序列图像,提升了图像搜索的准确率。
作过程,可以参阅前述方法实施例中的对应过程,在此不再赘述。
它的形式。
可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
终端设备101可以包括一个或多个如下部件:处理器1012、存储器1014以及一个或多个应用
程序,其中一个或多个应用程序可以被存储在存储器1014中并被配置为由一个或多个处理
器1012执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
集或指令集,以及调用存储在存储器1014内的数据,执行终端设备101的各种功能和处理数
据。可选地,处理器1012可以采用数字信号处理(Digital Signal Processing,DSP)、现场
可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable
Logic Array,PLA)中的至少一种硬件形式来实现。处理器1012可集成中央处理器(Central
Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中
的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责
显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也
可以不集成到处理器1012中,单独通过一块通信芯片进行实现。
储器1014可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的
指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用
于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备101在使用中所创
建的数据(比如电话本、音视频数据、聊天记录数据)等。
法实施例中所描述的方法。
算机可读介质(non‑transitory computer‑readable storage medium)。计算机可读存储
介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可
以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。
程序代码510可以例如以适当形式进行压缩。
特征数据对应用户不同的搜索需求,然后搜索与多个语音特征数据分别对应的图像,再获
取与多个语音特征数据对应的优先级,然后按照优先级将与多个语音特征数据分别对应的
图像进行排序,得到目标序列图像,目标序列图像中对应的优先级越高的图像的排列顺序
越靠前,最后输出目标序列图像。通过上述方式实现了在获取了语音信息的对应于用户不
同的搜索需求的多个语音特征数据的情况下,按照与多个语音特征数据对应的优先级将搜
索得到的与多个语音特征数据分别对应的图像进行排序,以得到与用户搜索需求对应的目
标序列图像,提升了图像搜索的准确率。
对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而
这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和
范围。