会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 移动终端的语音控制方法及装置

移动终端的语音控制方法及装置

申请号 CN202311869929.3 申请日 2023-12-31 公开(公告)号 CN117894297A 公开(公告)日 2024-04-16
申请人 陈才立; 发明人 陈才立;
摘要 本 发明 涉及一种移动终端的语音控制方法及装置。其中,移动终端的语音控制方法,可以在本地设备中运行语音处理,并实现 语音识别 和关键词的匹配,相较于传统语音识别需要用到利用识别模型进行声音向量分析以及采用语音模型选择最可能的文字,本 申请 利用拼音进行控制,无需考虑文字的准确性即可满足语音控制的准确性需求。
权利要求

1.一种移动终端的语音控制方法,其特征在于,包括:
捕捉音频信号
对所述音频信号进行预处理,得到预处理音频信号;
将所述预处理音频信号转换为特征向量,使用预训练的语音识别模型对所述特征向量进行分析,得到文本数据;
将所述文本数据转换为拼音数据;
根据预设关键词库,得到关键词的拼音字符;
根据所述拼音字符和所述拼音数据,检测所述拼音数据中是否存在所述拼音字符的首部分;所述首部分为所述拼音字符的前n个字母;
在所述检测的结果为是的情况下,于所述拼音数据的首部分的后m个字母中确定是否存在所述拼音字符的尾部分;所述尾部分为所述拼音字符的后i个字母;
在确定存在所述拼音字符的尾部分的情况下,将所述拼音数据与所述关键词匹配,并根据匹配到的关键词控制移动终端。
2.根据权利要求1所述的移动终端的语音控制方法,其特征在于,将所述文本数据转换为拼音数据的步骤,包括:
利用汉字拼音映射表,将文本数据中的汉字转换为拼音,以得到所述拼音数据。
3.根据权利要求2所述的移动终端的语音控制方法,其特征在于,在捕捉音频信号的步骤之前,包括:
接收到唤醒语音,和/或触发特殊按键。
4.根据权利要求1所述的移动终端的语音控制方法,其特征在于,还包括:在所述检测的结果为否的情况下,丢弃所述音频信号。
5.根据权利要求4所述的移动终端的语音控制方法,其特征在于,还包括:
在确定不存在所述拼音字符的尾部分的情况下,丢弃所述音频信号。
6.根据权利要求1‑5任一项所述的移动终端的语音控制方法,其特征在于,预训练的语音识别模型为循环神经网络模型。
7.一种移动终端的语音控制,其特征在于,包括:
信号采集模,用于捕捉音频信号;
预处理模块,用于对所述音频信号进行预处理,得到预处理音频信号;
第一转换模块,用于将所述预处理音频信号转换为特征向量,使用预训练的语音识别模型对所述特征向量进行分析,得到文本数据;
第二转换模块,用于将所述文本数据转换为拼音数据;
拼音字符获取模块,用于根据预设关键词库,得到关键词的拼音字符;
第一检测模块,用于根据所述拼音字符和所述拼音数据,检测所述拼音数据中是否存在所述拼音字符的首部分;所述首部分为所述拼音字符的前n个字母;
第二检测模块,用于在所述检测的结果为是的情况下,于所述拼音数据的首部分的后m个字母中确定是否存在所述拼音字符的尾部分;所述尾部分为所述拼音字符的后i个字母;
执行模块,用于在确定存在所述拼音字符的尾部分的情况下,将所述拼音数据与所述关键词匹配,并根据匹配到的关键词控制移动终端。

说明书全文

移动终端的语音控制方法及装置

技术领域

[0001] 本发明涉及数据传输领域,具体而言,涉及一种移动终端的语音控制方法及装置。

背景技术

[0002] 中文语音识别是一种将中文口语转换为文本的技术,通常涉及声学模型和语言模型。随着手机等各种移动设备的广泛使用,移动设备的使用环境和场景得到了更大程度的扩展。一般而言,对于移动终端如手机来说,语音识别的过程可以在本地上进行,也可以在服务器上进行。目前,在一些使用环境和场景中,由于网络信号弱等原因,只能选择在本地进行语音识别。而在本地设备上进行语音识别由于资源和计算能的限制,其存在准确性低的问题。

发明内容

[0003] 基于此,有必要提供一种移动终端的语音控制方法及装置。
[0004] 为了实现上述目的,本申请实施例提供了一种移动终端的语音控制方法,该方法包括:
[0005] 捕捉音频信号
[0006] 对音频信号进行预处理,得到预处理音频信号;
[0007] 将预处理音频信号转换为特征向量,使用预训练的语音识别模型对特征向量进行分析,得到文本数据;
[0008] 将文本数据转换为拼音数据;
[0009] 根据预设关键词库,得到关键词的拼音字符;
[0010] 根据拼音字符和拼音数据,检测拼音数据中是否存在拼音字符的首部分;首部分为拼音字符的前n个字母;
[0011] 在检测的结果为是的情况下,于拼音数据的首部分的后m个字母中确定是否存在拼音字符的尾部分;尾部分为所述拼音字符的后i个字母;
[0012] 在确定存在拼音字符的尾部分的情况下,将拼音数据与关键词匹配,并根据匹配到的关键词控制移动终端。
[0013] 另一方面,本申请实施例提供了一种移动终端的语音控制装置,包括:
[0014] 信号采集模,用于捕捉音频信号;
[0015] 预处理模块,用于对所述音频信号进行预处理,得到预处理音频信号;
[0016] 第一转换模块,用于将所述预处理音频信号转换为特征向量,使用预训练的语音识别模型对所述特征向量进行分析,得到文本数据;
[0017] 第二转换模块,用于将所述文本数据转换为拼音数据;
[0018] 拼音字符获取模块,用于根据预设关键词库,得到关键词的拼音字符;
[0019] 第一检测模块,用于根据所述拼音字符和所述拼音数据,检测所述拼音数据中是否存在所述拼音字符的首部分;所述首部分为所述拼音字符的前n个字母;
[0020] 第二检测模块,用于在所述检测的结果为是的情况下,于所述拼音数据的首部分的后m个字母中确定是否存在所述拼音字符的尾部分;所述尾部分为所述拼音字符的后i个字母;
[0021] 执行模块,用于在确定存在所述拼音字符的尾部分的情况下,将所述拼音数据与所述关键词匹配,并根据匹配到的关键词控制移动终端。
[0022] 上述技术方案中的一个技术方案具有如下优点和有益效果:
[0023] 上述移动终端的语音控制方法,可以在本地设备中运行语音处理,并实现语音识别和关键词的匹配,相较于传统语音识别需要用到利用识别模型进行声音向量分析以及采用语音模型选择最可能的文字,本申请利用拼音进行控制,无需考虑文字的准确性即可满足语音控制的准确性需求。附图说明
[0024] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0025] 为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0026] 图1为一实施例中移动终端的语音控制方法的示意性流程图
[0027] 图2为一实施例中移动终端的语音控制装置的结构图。

具体实施方式

[0028] 为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使本申请的公开内容更加透彻全面。
[0029] 除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
[0030] 在一个实施例中,如图1所示,提供了一种移动终端的语音控制方法,该方法包括:
[0031] S110,捕捉音频信号;
[0032] 具体的,可以使用移动终端的麦克或其他音频采集设备捕捉周围的音频信号。移动终端可以为手机等设备。在捕捉音频信号的步骤之前,包括:接收到唤醒语音,和/或触发特殊按键。
[0033] S120,对音频信号进行预处理,得到预处理音频信号;
[0034] 具体的,对采集到的音频信号进行一系列处理,例如去噪、降噪,以提高后续处理的准确性。预处理的过程在此不做具体描述,可以参照本领域内的具体手段。
[0035] S130,将预处理音频信号转换为特征向量,使用预训练的语音识别模型对特征向量进行分析,得到文本数据;
[0036] 具体的,将预处理过的音频信号转换为特征向量。常用的特征提取方法包括梅尔频率倒谱系数(MFCC)、滤波器能量(Filter Bank Energies)等。将得到的特征向量整理成模型所需的格式。这包括将特征向量切分成固定长度的,形成一个输入序列。使用预先训练好的语音识别模型对特征向量进行分析,如循环神经网络(RNN)、长短时记忆网络(LSTM)等。对模型的输出进行解码,得到对应的文本数据。文本数据为汉字。
[0037] S140,将文本数据转换为拼音数据;
[0038] 具体的,利用汉字拼音映射表,将文本数据中的汉字转换为拼音,以得到所述拼音数据。
[0039] S150,根据预设关键词库,得到关键词的拼音字符;
[0040] 具体的,预先准备一个包含关键词的库,这些关键词可能与应用场景相关,例如特定的命令、领域术语等。预设关键词库可以包括“关机”、“静音”、“重启”、“关闭”、“电话”等。关键词的拼音字符可以分别为guanji、jingyin和chongqi。
[0041] S160,根据拼音字符和拼音数据,检测拼音数据中是否存在拼音字符的首部分;首部分为拼音字符的前n个字母;
[0042] 具体的,首部分并不要求一定是需要多少个字母符合,如拼音数据为guaneji,则首部分为拼音字符的前4个字母。
[0043] S170,在检测的结果为是的情况下,于拼音数据的首部分的后m个字母中确定是否存在拼音字符的尾部分;尾部分为所述拼音字符的后i个字母;
[0044] 同样的,尾部分并不要求一定是需要多少个字母符合,如拼音数据为guanenji,则尾部分为拼音字符的后2个字母。
[0045] 具体的,在拼音数据中出现首部分的字母,往后算m个字母。在这m个字母中确定是否存在拼音字符的尾部分。m、i、n均为正整数。在其中一个实施例中,在检测的结果为否的情况下,丢弃音频信号。
[0046] S180,在确定存在拼音字符的尾部分的情况下,将拼音数据与关键词匹配,并根据匹配到的关键词控制移动终端。
[0047] 具体的,若出现尾部分的话,则将拼音数据与关键词匹配,也即存在关键词的,如拼音数据guanajisa,匹配关键词关机。在其中一个实施例中,在确定不存在拼音字符的尾部分的情况下,丢弃音频信号。
[0048] 上述移动终端的语音控制方法,可以在本地设备中运行语音处理,并实现语音识别和关键词的匹配,相较于传统语音识别需要用到利用识别模型进行声音向量分析以及采用语音模型选择最可能的文字,本申请利用拼音进行控制,无需考虑文字的准确性即可满足语音控制的准确性需求。
[0049] 在一个实施例中,如图2所示,提供了一种移动终端的语音控制装置,包括:
[0050] 信号采集模块,用于捕捉音频信号;
[0051] 预处理模块,用于对所述音频信号进行预处理,得到预处理音频信号;
[0052] 第一转换模块,用于将所述预处理音频信号转换为特征向量,使用预训练的语音识别模型对所述特征向量进行分析,得到文本数据;
[0053] 第二转换模块,用于将所述文本数据转换为拼音数据;
[0054] 拼音字符获取模块,用于根据预设关键词库,得到关键词的拼音字符;
[0055] 第一检测模块,用于根据所述拼音字符和所述拼音数据,检测所述拼音数据中是否存在所述拼音字符的首部分;所述首部分为所述拼音字符的前n个字母;
[0056] 第二检测模块,用于在所述检测的结果为是的情况下,于所述拼音数据的首部分的后m个字母中确定是否存在所述拼音字符的尾部分;所述尾部分为所述拼音字符的后i个字母;
[0057] 执行模块,用于在确定存在所述拼音字符的尾部分的情况下,将所述拼音数据与所述关键词匹配,并根据匹配到的关键词控制移动终端。
[0058] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0059] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0060] 以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。