应用程序的启动方法、装置、计算机设备及存储介质转让专利

申请号 : CN201910305309.4

文献号 : CN110111794A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈志辉

申请人 : 深圳壹账通智能科技有限公司

摘要 :

本发明公开了一种应用程序的启动方法、装置、计算机设备及存储介质,该方法包括:当接收到打开请求时,通过采集请求语音,并对请求语音进行去噪处理,得到待识别语音,对待识别语音进行声纹识别,得到请求声纹,并判断请求声纹与合法声纹之间是否匹配,若是,则对待识别语音进行语音识别,得到请求文字,若请求文字与预设启动文本相匹配,则向服务器发送启动请求以启动目标应用程序,实现了通过声纹校验与语音内容校验相结合的方式,当声纹校验和语音内容校验均校验通过时,才启动属于隐私应用的目标应用程序,从而提高了启动隐私应用的安全性,提高对目标应用程序的合法用户的隐私信息的安全性。

权利要求 :

1.一种应用程序的启动方法,其特征在于,所述应用程序的启动方法包括:若接收到请求方发起的针对目标应用程序的打开请求,则获取所述目标应用程序的应用属性,若所述应用属性为隐私应用,则采集用于打开所述目标应用程序的所述请求方的请求语音;

采用预设的语音去噪方法对所述请求语音进行去噪处理,得到待识别语音;

采用预设的声纹识别模型对所述待识别语音进行声纹识别,得到所述请求语音对应的请求声纹;

判断所述请求声纹与预存的用于启动所述目标应用程序的合法声纹之间是否匹配;

当所述请求声纹与所述合法声纹匹配时,采用预设的语音识别工具对所述待识别语音进行语音识别,得到所述请求语音对应的请求文字;

若所述请求文字与所述目标应用程序对应的预设启动文本相匹配,则启动所述目标应用程序。

2.如权利要求1所述的应用程序的启动方法,其特征在于,所述预设启动文本包括所述目标应用程序的名称和目标关键字,其中,所述目标关键字为用于启动所述目标应用程序的关键字,所述若所述请求文字与所述目标应用程序对应的预设启动文本相匹配,则启动所述目标应用程序包括:查询所述请求文字中是否包括所述目标应用程序的名称;

当在所述请求文字中包括所述目标应用程序的名称时,查询所述请求文字中是否包括所述目标关键字;

当在所述请求文字中查询到所述目标关键字存在时,确定所述请求文字与所述预设启动文本相匹配,并启动所述目标应用程序。

3.如权利要求1所述的应用程序的启动方法,其特征在于,所述采用预设的语音去噪方法对所述请求语音进行去噪处理,得到待识别语音包括:采用预设的预加重工具对所述请求语音进行预加重处理,得到预加重后的请求语音;

采用预设的分频方法对所述预加重后的请求语音进行分频处理,得到分频后的请求语音;

采用预设的加窗脚本工具对所述分频后的请求语音进行加窗处理,得到加窗后的请求语音;

采用预设的静默音分离脚本工具对所述加窗后的请求语音进行静默音分离处理,得到所述待识别语音。

4.如权利要求1所述的应用程序的启动方法,其特征在于,所述采用预设的声纹识别模型对所述待识别语音进行声纹识别,得到所述请求语音对应的请求声纹包括:对所述待识别语音进行快速傅里叶变换处理,得到所述请求语音对应的能量频谱;

采用预设的滤波工具对所述能量频谱进行滤波处理,得到所述请求语音对应的平滑频谱;

采用预设的倒频分析工具对所述平滑频谱进行倒频分析,得到所述请求语音对应的请求声纹。

5.如权利要求1至4任一项所述的应用程序的启动方法,其特征在于,所述判断所述请求声纹与预存的用于启动所述目标应用程序的合法声纹之间是否匹配包括:采用余弦相似度算法,计算所述请求声纹与所述合法声纹之间的声纹相似度值;

若所述声纹相似度值大于或等于预设的相似度阈值,则确定所述请求声纹与所述合法声纹匹配;

若所述声纹相似度值小于预设的相似度阈值,则确定所述请求声纹与所述合法声纹不匹配。

6.如权利要求5中所述的应用程序的启动方法,其特征在于,所述采用余弦相似度算法,计算所述请求声纹与所述合法声纹之间的声纹相似度值包括:将所述请求声纹与所述合法声纹输入至如下公式中,得到声纹相似度值:其中,w为所述声纹相似度值,xk为所述请求声纹的第k个分量,yk为所述合法声纹的第k个分量,n为所述请求声纹的数量。

7.一种应用程序的启动装置,其特征在于,所述应用程序的启动装置包括:打开请求接收模块,用于若接收到请求方发起的针对目标应用程序的打开请求,则获取所述目标应用程序的应用属性,若所述应用属性为隐私应用,则采集用于打开所述目标应用程序的所述请求方的请求语音;

语音去噪模块,用于采用预设的语音去噪方法对所述请求语音进行去噪处理,得到待识别语音;

声纹识别模块,用于采用预设的声纹识别模型对所述待识别语音进行声纹识别,得到所述请求语音对应的请求声纹;

声纹匹配模块,用于判断所述请求声纹与预存的用于启动所述目标应用程序的合法声纹之间是否匹配;

语音识别模块,用于当所述请求声纹与所述合法声纹匹配时,采用预设的语音识别工具对所述待识别语音进行语音识别,得到所述请求语音对应的请求文字;

应用程序启动模块,用于若所述请求文字与所述目标应用程序对应的预设启动文本相匹配,则启动所述目标应用程序。

8.如权利要求7所述的应用程序的启动装置,其特征在于,预设启动文本包括目标应用程序的名称和目标关键字,其中,目标关键字为用于启动目标应用程序的关键字,应用程序启动模块包括:名称查询子模块,用于查询所述请求文字中是否包括所述目标应用程序的名称;

关键字查询子模块,用于当在所述请求文字中包括所述目标应用程序的名称时,查询所述请求文字中是否包括所述目标关键字;

文本相匹配确定子模块,用于当在所述请求文字中查询到所述目标关键字存在时,确定所述请求文字与所述预设启动文本相匹配,并启动所述目标应用程序。

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至

5中任一项所述的应用程序的启动方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的应用程序的启动方法。

说明书 :

应用程序的启动方法、装置、计算机设备及存储介质

技术领域

[0001] 本发明涉及语音识别领域,尤其涉及一种应用程序的启动方法、装置、计算机设备及存储介质。

背景技术

[0002] 目前,随着用户对个人隐私越来越重视,用户越来越不希望自己的智能设备中的一些包含个人隐私的应用程序被其他用户启动,通常会通过隐藏的方式将这类应用程序进行隐藏。
[0003] 但是,在传统方法中,通常按照启动应用程序的正常流程,其他用户也可以很容易的在智能设备中找到并打开这类隐藏的应用程序造成用户个人隐私被泄露,导致启动应用程序的安全性低下。
[0004] 因此,寻找一种安全的应用程序的启动方法成为本领域技术人员亟需解决的问题。

发明内容

[0005] 本发明实施例提供一种应用程序的启动方法、装置、计算机设备及存储介质,以解决目前启动应用程序的安全性低,无法有效保护用户隐私的问题。
[0006] 一种应用程序的启动方法,包括:
[0007] 若接收到请求方发起的针对目标应用程序的打开请求,则获取所述目标应用程序的应用属性,若所述应用属性为隐私应用,则采集用于打开所述目标应用程序的所述请求方的请求语音;
[0008] 采用预设的语音去噪方法对所述请求语音进行去噪处理,得到待识别语音;
[0009] 采用预设的声纹识别模型对所述待识别语音进行声纹识别,得到所述请求语音对应的请求声纹;
[0010] 判断所述请求声纹与预存的用于启动所述目标应用程序的合法声纹之间是否匹配;
[0011] 当所述请求声纹与所述合法声纹匹配时,采用预设的语音识别工具对所述待识别语音进行语音识别,得到所述请求语音对应的请求文字;
[0012] 若所述请求文字与所述目标应用程序对应的预设启动文本相匹配,则启动所述目标应用程序。
[0013] 一种应用程序的启动装置,包括:
[0014] 打开请求接收模块,用于若接收到请求方发起的针对目标应用程序的打开请求,则获取所述目标应用程序的应用属性,若所述应用属性为隐私应用,则采集用于打开所述目标应用程序的所述请求方的请求语音;
[0015] 语音去噪模块,用于采用预设的语音去噪方法对所述请求语音进行去噪处理,得到待识别语音;
[0016] 声纹识别模块,用于采用预设的声纹识别模型对所述待识别语音进行声纹识别,得到所述请求语音对应的请求声纹;
[0017] 声纹匹配模块,用于判断所述请求声纹与预存的用于启动所述目标应用程序的合法声纹之间是否匹配;
[0018] 语音识别模块,用于当所述请求声纹与所述合法声纹匹配时,采用预设的语音识别工具对所述待识别语音进行语音识别,得到所述请求语音对应的请求文字;
[0019] 应用程序启动模块,用于若所述请求文字与所述目标应用程序对应的预设启动文本相匹配,则启动所述目标应用程序。
[0020] 一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述应用程序的启动方法的步骤。
[0021] 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述应用程序的启动方法的步骤。
[0022] 上述应用程序的启动方法、装置、计算机设备及存储介质中,当客户端接收到请求方发起的对属于隐私应用的目标应用程序的打开请求时,通过采集请求方的请求语音,并对请求语音进行去噪处理,得到待识别语音,对待识别语音进行声纹识别,得到请求声纹,并判断请求声纹与合法声纹之间是否匹配,当请求声纹与合法声纹匹配时,才对待识别语音进行语音识别,得到请求文字,从而避免了其他非法用户启动目标应用程序,有效保护目标应用程序的合法用户的隐私信息,若请求文字与预设启动文本相匹配,则向目标应用程序的服务器发送启动请求以启动目标应用程序,实现了通过声纹校验与语音内容校验相结合的方式,当声纹校验和语音内容校验均校验通过时,才启动属于隐私应用的目标应用程序,从而提高了启动这类隐私应用的安全性,提高对目标应用程序的合法用户的隐私信息的安全性。

附图说明

[0023] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0024] 图1是本发明一实施例中应用程序的启动方法的一应用环境示意图;
[0025] 图2是本发明一实施例中应用程序的启动方法的一流程图;
[0026] 图3是本发明一实施例中应用程序的启动方法中步骤S60的一流程图;
[0027] 图4是本发明一实施例中应用程序的启动方法中步骤S20的一流程图;
[0028] 图5是本发明一实施例中应用程序的启动方法中步骤S30的一流程图;
[0029] 图6是本发明一实施例中应用程序的启动方法中步骤S40的一流程图;
[0030] 图7是本发明一实施例中应用程序的启动装置的一示意图;
[0031] 图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

[0032] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0033] 本申请提供的应用程序的启动方法,可应用如图1的应用环境中,该应用环境包括服务端和客户端,其中,客户端通过有线网络或无线网络与服务端进行通信。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务端或者是多个服务端组成的服务端集群来实现。客户端用于接收请求语音,并进行声纹和语音内容识别,服务端用于接收并响应客户端发送的启动请求,并对该启动请求进行合法性校验。
[0034] 在一实施例中,如图2所示,提供一种应用程序的启动方法,以该方法应用在图1中的客户端,为例进行说明,包括如下步骤:
[0035] S10、若接收到请求方发起的针对目标应用程序的打开请求,则获取目标应用程序的应用属性,若应用属性为隐私应用,则采集用于打开目标应用程序的请求方的请求语音。
[0036] 在本实施例中,请求方为请求打开目标应用程序的自然人,比如请求方为可以为“张三”。目标应用程序为已成功安装在客户端中的应用程序。
[0037] 打开请求为用于打开目标应用程序的请求,该打开请求可以为对目标应用程序的点击操作或者对触发采集请求语音的采集系统的悬浮按钮。
[0038] 具体地,若客户端接收到请求方发起的针对目标应用程序的打开请求,则获取该目标应用程序的应用属性,该应用属性用于标识该目标应用程序是否属于隐私应用。可以理解的是,客户端的用户可以预先设置目标应用程序的应用属性,例如通过将目标应用程序进行隐藏,则该目标应用程序的应用属性被设置为隐私应用。
[0039] 若目标应用程序的应用属性为隐私应用,则采集用于打开该目标应用程序的请求方的请求语音;若该应用属性不是隐私应用,则不采集用于打开该目标应用程序的请求方的请求语音,同时向该目标应用程序的服务端发送针对该目标应用程序的启动请求,以使得该服务端对该启动请求进行合法性校验。
[0040] 优选地,该请求语音为用于请求打开该目标应用程序的语音。
[0041] 例如,请求方在华为麦芒5智能手机的桌面上点击一个悬浮的按钮,此时华为麦芒5智能手机接收到针对目标应用程序为“微信”的打开请求,则获取该“微信”的应用属性,若该应用属性为隐私应用,则采集用于打开该“微信”的请求方的请求语音,比如请求语音可以为“李四打开微信”,若该应用属性不是隐私应用,则不采集用于打开该“微信”的请求方的请求语音,同时向“微信”的服务端发送针对“微信”的启动请求,以使得该服务端对该启动请求进行合法性校验。
[0042] 需要说明的是,客户端可以为智能手机或平板电脑,客户端、目标应用程序、应用属性和请求语音的具体内容,可以根据实际应用进行设定,此处不做限制。
[0043] S20、采用预设的语音去噪方法对请求语音进行去噪处理,得到待识别语音。
[0044] 在本实施例中,预设的语音去噪方法可以为滤波方法或分频方法等去噪方法。
[0045] 具体地,通常客户端接收到的请求方的请求语音存在噪音或噪点等,比如请求语音存在杂音,所以需要采用预设的语音去噪方法对请求语音进行去噪处理,从而得到平滑纯净的待识别语音,比如采用预加重滤波器对请求语音进行预加重处理,从而得到滤波后的平滑的待识别语音。
[0046] 需要说明的是,预设的语音去噪方法的具体内容,可以根据实际应用进行设定,此处不做限制。
[0047] S30、采用预设的声纹识别模型对待识别语音进行声纹识别,得到请求语音对应的请求声纹。
[0048] 在本实施例中,请求声纹为请求方的声音的声纹,其中,该请求声纹唯一标识该请求方的声音,声纹是指用电声学仪器显示的携带言语信息的声波频谱。
[0049] 具体地,采用预设的声纹识别模型对待识别语音进行声纹识别,得到请求语音对应的请求声纹,比如采用PLDA模型对待识别语音进行声纹识别,得到请求语音对应的请求声纹,其中,PLDA的英文全称为Probabilistic Linear Discriminant Analysis,是指一种信道补偿算法。
[0050] 需要说明的是,预设的声纹识别模型的具体内容,可以根据实际应用进行设定,此处不做限制。
[0051] S40、判断请求声纹与预存的用于启动目标应用程序的合法声纹之间是否匹配。
[0052] 在本实施例中,合法声纹为唯一标识用于启动该目标应用程序的声音的声纹,其中,每个人的声纹均不相同,也即每个人的声音均不相同,因此可以理解为只有合法用户的声音才能启动该目标应用程序,合法用户通常可以设置为拥有该客户端的用户。可以理解的是,合法声纹预先存在存储于声纹数据库中,处于随时可以调用的状态。
[0053] 具体地,首先在声纹数据库中获取用于启动该目标应用程序的合法声纹的存储路径,然后根据该存储路径提取该合法声纹,最后判断步骤S30中识别出的该请求方的请求声纹与提取到的合法声纹之间是否匹配,也即判断步骤S30中识别出的请求方的请求声纹与提取到的合法声纹之间是否一致。
[0054] 例如,假设该声纹数据库为MySQL数据库,用于启动该目标应用程序的合法声纹的存储路径为“C:\Program Files\MySQL\MySQL Server 5.0\data\”,则首先在该MySQL数据库中获取“C:\Program Files\MySQL\MySQL Server5.0\data\”,然后根据该“C:\Program Files\MySQL\MySQL Server 5.0\data\”提取该合法声纹,最后判断步骤S30中识别出的该请求方的请求声纹与提取到的合法声纹之间是否匹配。
[0055] 需要说明的是,该声纹数据库可以为SQL数据库或oracle数据库等,该声纹数据库的具体内容,可以根据实际应用进行设定,此处不做限制。
[0056] S50、当请求声纹与合法声纹匹配时,采用预设的语音识别工具对待识别语音进行语音识别,得到请求语音对应的请求文字。
[0057] 具体地,当步骤S30中识别出的请求方的请求声纹与步骤S40中获取到的合法声纹匹配时,也即当步骤S30中识别出的请求方的请求声纹与步骤S40中获取到的合法声纹一致时,采用预设的语音识别工具对待识别语音进行语音识别,得到请求语音对应的请求文字,比如采用讯飞识别工具对待识别语音进行语音识别,得到请求语音对应的请求文字。其中,讯飞识别工具为一款科大讯飞股份有限公司研发的用于语音识别的工具。
[0058] 需要说明的是,预设的语音识别工具的具体内容,可以根据实际应用进行设定,此处不做限制。
[0059] 进一步地,当步骤S30中识别出的请求方的请求声纹与步骤S40中获取到的合法声纹不匹配时,也即,当步骤S30中识别出的请求方的请求声纹与步骤S40中获取到的合法声纹不一致时,客户端不向该目标应用程序的服务器发送针对该目标应用程序的启动请求,同时客户端输出该请求方为非法用户的错误提示信息,其中,启动请求为客户端向该目标应用程序的服务器发送的用于启动该目标应用程序的请求,非法用户是指不属于合法用户的自然人,错误提示信息可以为“你好,非本人操作,请重新输入”等。
[0060] 需要说明的是,错误提示信息的具体内容,可以根据实际应用进行设定,此处不做限制。
[0061] S60、若请求文字与目标应用程序对应的预设启动文本相匹配,则启动目标应用程序。
[0062] 在本实施例中,预设启动文本为预先设置好的用于启动该目标应用程序对应的文本,比如预设启动文本为“张三打开微信”。
[0063] 具体地,若步骤S50中得到的请求文字与该目标应用程序对应的预设启动文本相匹配,也即,若步骤S50中得到的请求文字与该目标应用程序对应的预设启动文本相一致,则客户端启动该目标应用程序。
[0064] 进一步地,若步骤S50中得到的请求文字与该目标应用程序对应的预设启动文本不匹配,也即,若步骤S50中得到的请求文字与该目标应用程序对应的预设启动文本相不一致,则客户端输出关于内容错误提示信息,内容错误提示信息可以为“你输入的内容有误,请重新输入”等。
[0065] 需要说明的是,该内容错误提示信息的具体内容,可以根据实际应用进行设定,此处不做限制。
[0066] 在图2对应的实施例中,通过上述步骤S10至步骤S60,当客户端接收到请求方发起的对属于隐私应用的目标应用程序的打开请求时,通过采集请求方的请求语音,并对请求语音进行去噪处理,得到待识别语音,对待识别语音进行声纹识别,得到请求声纹,并判断请求声纹与合法声纹之间是否匹配,当请求声纹与合法声纹匹配时,才对待识别语音进行语音识别,得到请求文字,从而避免了其他非法用户启动目标应用程序,有效保护目标应用程序的合法用户的隐私信息,若请求文字与预设启动文本相匹配,则向目标应用程序的服务器发送启动请求以启动目标应用程序,实现了通过声纹校验与语音内容校验相结合的方式,当声纹校验和语音内容校验均校验通过时,才启动属于隐私应用的目标应用程序,从而提高了启动这类隐私应用的安全性,提高对目标应用程序的合法用户的隐私信息的安全性。
[0067] 在一具体实施例中,预设启动文本包括目标应用程序的名称和目标关键字,其中,目标关键字为用于启动目标应用程序的关键字。
[0068] 进一步地,如图3所示,步骤S60,即若请求文字与目标应用程序对应的预设启动文本相匹配,启动目标应用程序,具体包括如下步骤:
[0069] S601、在请求文字中查询目标应用程序的名称是否存在。
[0070] 具体地,在步骤S60识别得到的请求文字中查询该目标应用程序的名称是否存在,比如,假设步骤S60识别得到的请求文字为“李明请马上打开微信”,该目标应用程序的名称为“微信”,则在“李明请马上打开微信”中查询“微信”是否存在。
[0071] S602、当在请求文字中查询到目标应用程序的名称存在时,在请求文字中查询目标关键字是否存在。
[0072] 具体地,当步骤S50识别得到的请求文字中查询该目标应用程序的名称存在时,在步骤S50识别得到的请求文字中查询目标关键字是否存在,其中,目标关键字为用于启动该目标应用程序而专门设置的关键字,比如“姓名+动作”,“姓名+动作”可以为“张三启动”等。当步骤S50识别得到的请求文字中查询该目标应用程序的名称不存在时,确定该请求文字与该目标应用程序对应的预设启动文本不相匹配。
[0073] 需要说明的是,目标关键字的具体内容,可以根据实际应用进行设定,此处不做限制。
[0074] S603、当在请求文字中查询到目标关键字存在时,确定请求文字与预设启动文本相匹配,并启动目标应用程序。
[0075] 具体地,当在步骤S50识别得到的请求文字中查询到该目标关键字存在时,确定该请求文字与该目标应用程序对应的预设启动文本相匹配,并启动目标应用程序,当在步骤S50识别得到的请求文字中查询到该目标关键字不存在时,确定请求文字与该目标应用程序对应的预设启动文本不相匹配,不启动目标应用程序。
[0076] 进一步地,在预设的时间段内,用户有可能忘记自身已隐藏的目标应用程序的名称,客户端还可以在请求文字中查询桌面关键字是否存在,桌面关键字为用于打开隐藏桌面而专门设置的关键字,比如桌面关键字可以为“请打开隐藏桌面”。当在请求文字中查询到桌面关键字存在时,打开该目标应用程序所在的隐藏桌面,并展示该隐藏桌面,以便以用户可以清楚直观地看到自身已隐藏的目标应用程序,然后用户可以采用手动点击该目标应用程序,当客户端接收到该用户对该目标应用程序的点击操作时,便启动该目标应用程序,当在请求文字中查询到桌面关键字存在时,不打开该目标应用程序所在的隐藏桌面,并输出隐藏桌面打开失败的提示信息。
[0077] 需要说明的是,当请求文字与该目标应用程序对应的预设启动文本相匹配时,可以启动该目标应用程序,同时也可以打开该目标应用程序所在的隐藏桌面,预设的时间段和隐藏桌面打开失败的提示信息的具体内容,可以根据实际应用进行设定,此处不做限制。
[0078] 在图3对应的实施例中,通过上述步骤S601至步骤S603,首先在请求文字中查询目标应用程序的名称是否存在,若在请求文字中查询目标应用程序的名称存在,则才进行在请求文字中查询目标关键字是否存在的操作,若在请求文字中查询目标应用程序的名称不存在,则直接可以确定该请求文字与预设启动文本不相匹配,从而省去执行该在请求文字中查询目标关键字是否存在的步骤,提高了确定出匹配结果的效率,只有当在请求文字中查询目标应用程序的名称和目标关键字都同时存在时,才确定该请求文字与预设启动文本相匹配,从而保证了匹配结果的准确性。
[0079] 在一具体实施例中,如图4所示,步骤S20,即采用预设的语音去噪方法对请求语音进行去噪处理,得到待识别语音,具体包括如下步骤:
[0080] S201、采用预设的预加重工具对请求语音进行预加重处理,得到预加重后的请求语音。
[0081] 在本实施例中,预加重处理为一种在发送端对输入信号高频分量进行补偿的信号处理方式。
[0082] 具体地,因为客户端接收到的请求语音信号的平均功率受声门激励和口鼻辐射等方面影响,导致请求语音的高频分量不足,为了增强该请求语音的高频信号,需要采用预设的预加重工具对请求语音进行预加重处理,得到高分辨率的预加重后的请求语音,比如采用FIB预加重滤波器对请求语音进行预加重处理,得到高分辨率的预加重后的请求语音,其中,FIB预加重滤波器为MATLAB中的滤波器,MATLAB的英文全称为matrix laboratory,是指美国MathWorks公司出品的商业数学软件,MathWorks为世界领先的技术计算和基于模型的设计的软件开发商和供应商。
[0083] 需要说明的是,预设的预加重工具的具体内容,可以根据实际应用进行设定,此处不做限制。
[0084] S202、采用预设的分频方法对预加重后的请求语音进行分频处理,得到分频后的请求语音。
[0085] 具体地,通常情况下,请求语音由于受到外部周期信号激励的震荡而导致不平稳,比如请求语音存在混叠信号,为了消除该请求语音的不平稳性质,所以需要采用预设的分频方法对预加重后的请求语音进行分频处理,从而得到短时平稳的分频后的请求语音,比如采用盲源分离方法对预加重后的请求语音进行分频处理,得到短时平稳的分频后的请求语音,其中盲源分离方法,指在信号的理论模型和源信号无法精确获知的情况下,如何从混迭信号中分离出各源信号的方法。
[0086] 需要说明的是,预设的分频方法的具体内容,可以根据实际应用进行设定,此处不做限制。
[0087] S203、采用预设的加窗脚本工具对分频后的请求语音进行加窗处理,得到加窗后的请求语音。
[0088] 具体地,通常情况下,经过分频后的请求语音为每个短段的语音,导致该请求语音不连续,为了保证该请求语音的连续性,需要采用预设的加窗脚本工具对分频后的请求语音进行加窗处理,得到连续的加窗后的请求语音,比如采用Hamming Window加窗脚本工具对分频后的请求语音进行加窗处理,得到连续稳健的请求语音,其中,Hamming Window,中文名称为海明窗,是指MATLAB中的一种加窗工具,本步骤S203中的MATLAB的内容与步骤S201中的MATLAB的内容一致,此处不再阐述。
[0089] S204、采用预设的静默音分离脚本工具对加窗后的请求语音进行静默音分离处理,得到待识别语音。
[0090] 具体地,通常请求语音可以分为激活期和静默期两种状态,在静默期中不传送任何语音信号,为了从请求语音中剔除多余的静默期的信号,需要采用预设的静默音分离脚本工具对加窗后的请求语音进行静默音分离处理,得到只存在激活期的待识别语音,比如采用FFMPEG探测音频静音脚本工具对加窗后的请求语音进行静默音分离处理,得到只存在激活期的待识别语音。
[0091] 需要说明的是,预设的静默音分离脚本工具的具体内容,可以根据实际应用进行设定,此处不做限制。
[0092] 在图4对应的实施例中,通过上述步骤S201至步骤S204,对请求语音进行预处理,也即对请求语音进行预加重处理、分频处理、加窗处理和静默音分离处理,从而保证了请求语音中的高频信号得以补偿,消除请求语音的不平稳性,去除请求语音中多余的静默期的信号,因此保证得到的待识别语音可以清晰分辨和连续的语音,提高了待识别语音的鲁棒性。
[0093] 在一具体实施例中,如图5所示,步骤S30,即采用预设的声纹识别模型对待识别语音进行声纹识别,得到请求语音对应的请求声纹,具体包括如下步骤:
[0094] S301、对待识别语音进行快速傅里叶变换处理,得到请求语音对应的能量频谱。
[0095] 在本实施例中,快速傅里叶变换处理为利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称。
[0096] 具体地,因为通常情况下语音信号在时域上的变换很难看出信号的特性,所以客户端需要对步骤S20中去噪处理得到的待识别语音进行快速傅里叶变换处理,得到该请求语音对应的能量频谱,从而可以观察该请求语音不同的能量分布。
[0097] S302、采用预设的滤波工具对能量频谱进行滤波处理,得到请求语音对应的平滑频谱。
[0098] 具体地,因为步骤S301处理得到的能量频谱中存在干扰的高频信号,该干扰的高频信号会影响能量频谱的观察,所以需要采用预设的滤波工具对能量频谱进行滤波处理,得到该请求语音对应的平滑频谱,提高了能量频谱的平滑性,比如采用三角带通滤波器对能量频谱进行滤波处理,得到该请求语音对应的平滑频谱,其中,三角带通滤波器为MATLAB中的一种滤波器,本步骤S302中的MATLAB的内容与步骤S201中的MATLAB的内容一致,此处不再阐述。
[0099] 需要说明的是,预设的滤波工具的具体内容,可以根据实际应用进行设定,此处不做限制。
[0100] S303、采用预设的倒频分析工具对平滑频谱进行倒频分析,得到请求语音对应的请求声纹。
[0101] 具体地,通过观察该能量频谱可以知道频谱中的峰值为共振峰,该共振峰携带了该请求方的请求声音的辨识属性,也即该能量频谱的峰值为该请求方的请求声纹,为了提取出该请求声纹,需要采用预设的倒频分析工具对平滑频谱进行倒频分析,从而得到该请求语音对应的请求声纹,比如,采用MATLAB中的倒频分析模块对平滑频谱进行倒频分析,得到请求语音对应的请求声纹,其中,本步骤S303中的MATLAB的内容与步骤S201中的MATLAB的内容一致,此处不再阐述。
[0102] 需要说明的是,预设的倒频分析工具的具体内容,可以根据实际应用进行设定,此处不做限制。
[0103] 在图5对应的实施例中,通过上述步骤S301至步骤S303,将时域中的请求语音转换为清楚直观的频域上的能量频谱,然后采用预设的滤波工具去除能量频谱中干扰的高频信号,保证了能量频谱是平滑的,从而可以更加直观地能量频谱的不同能量分布,最后因为预设的倒频分析工具有快速准确地提取声纹的作用,从而采用预设的倒频分析工具对平滑频谱进行倒频分析,能够快速准确地得到请求语音对应的请求声纹,因此提高了提取请求声纹的效率和准确率。
[0104] 在一具体实施例中,如图6所示,步骤S40,即判断请求声纹与预存的用于启动目标应用程序的合法声纹之间是否匹配,具体包括如下步骤:
[0105] S401、采用余弦相似度算法,计算请求声纹与合法声纹之间的声纹相似度值。
[0106] 具体地,采用余弦相似度算法,计算步骤S30中识别出的请求声纹与该合法声纹之间的声纹相似度值,比如该声纹相似度值可以为0.8。
[0107] 进一步地,将请求声纹与合法声纹输入至如下公式中,得到声纹相似度值:
[0108]
[0109] 其中,w为声纹相似度值,xk为请求声纹的第k个分量,yk为合法声纹的第k个分量,n为请求声纹的数量。
[0110] 将步骤S30中识别出的请求声纹与该合法声纹输入至上述公式中,从而自动快速地计算出声纹相似度值,提高了计算声纹相似度值的效率。
[0111] S402、若声纹相似度值大于或等于预设的相似度阈值,则确定请求声纹与合法声纹匹配。
[0112] 具体地,若步骤S401中计算得到的声纹相似度值大于或等于预设的相似度阈值,则客户端确定该请求声纹与该合法声纹相匹配,比如继续以步骤S401中进行说明,假设预设的相似度阈值为0.6,显然0.8大于0.6,则客户端确定该请求声纹与该合法声纹相匹配。
[0113] 需要说明的是,预设的相似度阈值的具体内容,可以根据实际应用进行设定,此处不做限制。
[0114] S403、若声纹相似度值小于预设的相似度阈值,则确定请求声纹与合法声纹不匹配。
[0115] 具体地,若步骤S401中计算得到的声纹相似度值小于预设的相似度阈值,则客户端确定该请求声纹与该合法声纹不相匹配,比如继续以步骤S401中进行说明,假设预设的相似度阈值为0.85,显然0.8小于0.85,则客户端确定该请求声纹与该合法声纹不相匹配。
[0116] 在图6对应的实施例中,通过上述步骤S401至步骤S403,因为余弦相似度算法具有准确地计算出相似度值的功能,所以采用余弦相似度算法,计算请求声纹与合法声纹之间的声纹相似度值,保证了计算声纹相似度值的准确性,然后根据声纹相似度值与预设的相似度阈值进行相比较,自动快速地确定出请求声纹与合法声纹是否相匹配,实现了匹配结果的自动分析,提高了确定匹配结果的效率。
[0117] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0118] 在一实施例中,提供一种应用程序的启动装置,该应用程序的启动装置与上述实施例中应用程序的启动方法一一对应。如图7所示,该应用程序的启动装置包括打开请求接收模块701、语音去噪模块702、声纹识别模块703、声纹匹配模块704、语音识别模块705和应用程序启动模块706。各功能模块详细说明如下:
[0119] 打开请求接收模块701,用于若接收到请求方发起的针对目标应用程序的打开请求,则获取目标应用程序的应用属性,若应用属性为隐私应用,则采集用于打开目标应用程序的请求方的请求语音;
[0120] 语音去噪模块702,用于采用预设的语音去噪方法对请求语音进行去噪处理,得到待识别语音;
[0121] 声纹识别模块703,用于采用预设的声纹识别模型对待识别语音进行声纹识别,得到请求语音对应的请求声纹;
[0122] 声纹匹配模块704,用于判断请求声纹与预存的用于启动目标应用程序的合法声纹之间是否匹配;
[0123] 语音识别模块705,用于当请求声纹与合法声纹匹配时,采用预设的语音识别工具对待识别语音进行语音识别,得到请求语音对应的请求文字;
[0124] 应用程序启动模块706,用于若请求文字与目标应用程序对应的预设启动文本相匹配,则启动目标应用程序。
[0125] 进一步地,该应用程序启动模块706包括:
[0126] 名称查询子模块7061,用于在请求文字中查询目标应用程序的名称是否存在;
[0127] 关键字查询子模块7062,用于当在请求文字中查询到目标应用程序的名称存在时,在请求文字中查询目标关键字是否存在;
[0128] 文本相匹配确定子模块7063,用于当在请求文字中查询到目标关键字存在时,确定请求文字与预设启动文本相匹配,并启动目标应用程序。
[0129] 进一步地,该语音去噪模块702包括:
[0130] 语音预加重子模块7021,用于采用预设的预加重工具对请求语音进行预加重处理,得到预加重后的请求语音;
[0131] 语音分频子模块7022,用于采用预设的分频方法对预加重后的请求语音进行分频处理,得到分频后的请求语音;
[0132] 语音加窗子模块7023,用于采用预设的加窗脚本工具对分频后的请求语音进行加窗处理,得到加窗后的请求语音;
[0133] 语音分离子模块7024,用于采用预设的静默音分离脚本工具对加窗后的请求语音进行静默音分离处理,得到待识别语音。
[0134] 进一步地,该声纹识别模块703包括:
[0135] 语音变换子模块7031,用于对待识别语音进行快速傅里叶变换处理,得到请求语音对应的能量频谱;
[0136] 语音滤波子模块7032,用于采用预设的滤波工具对能量频谱进行滤波处理,得到请求语音对应的平滑频谱;
[0137] 语音倒频子模块7033,用于采用预设的倒频分析工具对平滑频谱进行倒频分析,得到请求语音对应的请求声纹。
[0138] 进一步地,该声纹匹配模块704包括:
[0139] 相似度计算子模块7041,用于采用余弦相似度算法,计算请求声纹与合法声纹之间的声纹相似度值;
[0140] 声纹匹配确定子模块7042,用于若声纹相似度值大于或等于预设的相似度阈值,则确定请求声纹与合法声纹匹配;
[0141] 声纹不匹配确定子模块7043,用于若声纹相似度值小于预设的相似度阈值,则确定请求声纹与合法声纹不匹配。
[0142] 进一步地,该相似度计算子模块7041包括:
[0143] 输入子模块70411,用于将请求声纹与合法声纹输入至如下公式中,得到声纹相似度值:
[0144]
[0145] 其中,w为声纹相似度值,xk为请求声纹的第k个分量,yk为合法声纹的第k个分量,n为请求声纹的数量。
[0146] 关于应用程序的启动装置的具体限定可以参见上文中对于应用程序的启动方法的限定,在此不再赘述。上述应用程序的启动装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0147] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务端通过网络连接通信。该计算机程序被处理器执行时以实现一种应用程序的启动方法。
[0148] 在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例应用程序的启动方法的步骤,例如图2所示的步骤S10至步骤S80。或者,处理器执行计算机程序时实现上述实施例中应用程序的启动装置的各模块/单元的功能,例如图7所示模块701至模块708的功能。为避免重复,这里不再赘述。
[0149] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中应用程序的启动方法,或者,该计算机程序被处理器执行时实现上述装置实施例中应用程序的启动装置中各模块/单元的功能。为避免重复,这里不再赘述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0150] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0151] 以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。