语音识别装置、电子设备和语音识别方法转让专利
申请号 : CN202010567523.X
文献号 : CN111755002B
文献日 : 2021-08-10
发明人 : 田超 , 贾磊 , 张策
申请人 : 北京百度网讯科技有限公司
摘要 :
权利要求 :
1.一种语音识别装置,包括:
音频内存,用于获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号;
第一内核,所述第一内核具有核内内存,所述核内内存用于存储唤醒模型的第一级唤醒模型;
第一核外内存,用于存储所述唤醒模型的第二级唤醒模型;
所述第一内核,用于在低功耗状态下,根据所述原始语音信号和所述参考语音信号确定是否触发第一级唤醒状态,并在所述第一级唤醒状态下,运行所述第一级唤醒模型,以在所述第一级唤醒模型根据所述原始语音信号识别出唤醒时,加载并运行所述第一核外内存中存储的所述第二级唤醒模型,采用所述第二级唤醒模型对所述第一级唤醒模型识别出的原始语音信号再次进行识别,以在所述第二级唤醒模型根据所述原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核;
所述第一内核,还用于通过所述音频内存获取到的原始语音信号和参考语音信号,确定语音识别装置是否处于低功耗状态下,并在确定播放参考语音信号时退出所述低功耗状态,并触发所述第一级唤醒状态;
第二内核,用于在所述第二级唤醒状态下,运行语音识别模型,以对所述原始语音信号进行语音识别;其中,所述第一内核处于开启状态并未触发所述第二级唤醒状态时,所述第二内核处于关闭状态,在启用所述第二内核成功后,所述第一内核和所述第二内核均处于开启状态。
2.根据权利要求1所述的语音识别装置,其中,所述语音识别装置还包括:第二核外内存,用于存储所述语音识别模型;
所述第一内核,还用于在所述第二级唤醒模型排除误唤醒时,启用所述第二核外内存。
3.根据权利要求2所述的语音识别装置,其中,所述语音识别模型为深度学习神经网络结构,所述第二内核,具体用于:采用所述深度学习神经网络对所述原始语音信号进行特征提取,得到语音特征,将所述语音特征提供至云端服务器,以基于所述语音特征进行语音识别。
4.根据权利要求3所述的语音识别装置,其中,所述第二内核,还用于:对所述语音特征进行压缩处理。
5.根据权利要求1所述的语音识别装置,所述第一核外内存,还用于存储回声消除程序;
所述第一内核,还用于在所述第一级唤醒状态下和所述第二级唤醒状态下,运行所述第一核外内存存储的所述回声消除程序,以对所述原始语音信号进行回声消除。
6.根据权利要求1所述的语音识别装置,所述第一内核,还用于在所述第一级唤醒状态下和所述第二级唤醒状态下,运行所述核内内存存储的解混响程序,以对所述原始语音信号进行去混响处理。
7.根据权利要求1‑6任一项所述的语音识别装置,其中,所述语音识别装置还包括音频单元;
所述音频单元,用于每当从所述音频内存中读取到设定时长的原始语音信号和对应的所述参考语音信号时,触发语音中断,并将读取到的所述原始语音信号和所述参考语音信号提供至所述第一内核。
8.根据权利要求1‑6任一项所述的语音识别装置,其中,所述第一内核具体用于:在所述低功耗状态下,根据所述原始语音信号和所述参考语音信号,识别环境的声音强度;确定所述声音强度大于阈值且持续第一时长时,触发第一级唤醒状态;
在所述第一级唤醒状态和/或所述第二级唤醒状态下,根据所述原始语音信号和所述参考语音信号,识别环境的声音强度;确定所述声音强度小于或等于所述阈值,且持续第二时长时,恢复所述低功耗状态。
9.一种电子设备,包括如权利要求1‑8任一项所述的语音识别装置、麦克风和扬声器。
10.一种语音识别方法,应用于语音识别装置,所述语音识别装置包括音频内存、第一内核、第二内核和第一核外内存,所述第一内核具有核内内存;其中,所述语音识别方法包括:
所述音频内存获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号;
在低功耗状态下,所述第一内核根据所述原始语音信号和所述参考语音信号确定是否触发第一级唤醒状态,在所述第一级唤醒状态下,运行所述核内内存存储的第一级唤醒模型,以在所述第一级唤醒模型根据所述原始语音信号识别出唤醒时,加载并运行所述第一核外内存中存储的第二级唤醒模型,采用所述第二级唤醒模型对所述第一级唤醒模型识别出的原始语音信号再次进行识别,以在所述第二级唤醒模型根据所述原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核;其中,所述第一内核通过所述音频内存获取到的原始语音信号和参考语音信号,确定语音识别装置是否处于低功耗状态下,并在确定播放参考语音信号时退出所述低功耗状态,并触发所述第一级唤醒状态;
在所述第二级唤醒状态下,所述第二内核运行语音识别模型,以对所述原始语音信号进行语音识别;其中,所述第一内核处于开启状态并未触发所述第二级唤醒状态时,所述第二内核处于关闭状态,在启用所述第二内核成功后,所述第一内核和所述第二内核均处于开启状态。
11.根据权利要求10所述的语音识别方法,其中,所述语音识别装置还包括第二核外内存;在所述第二级唤醒模型排除误唤醒时,所述第一内核确定识别出唤醒,则触发第二级唤醒状态,并启用第二内核,以使所述第二内核加载并运行所述第二核外内存中存储的所述语音识别模型。
12.根据权利要求11所述的语音识别方法,其中,所述语音识别模型为深度学习神经网络结构;所述第二内核加载并运行所述第二核外内存中存储的所述语音识别模型,包括:所述第二内核加载并运行所述第二核外内存中存储的所述深度学习神经网络,以对所述原始语音信号进行特征提取,得到语音特征;其中,所述语音特征用于云端服务器进行语音识别。
13.根据权利要求12所述的语音识别方法,其中,所述对所述原始语音信号进行特征提取,得到语音特征之后,还包括:对所述语音特征进行压缩处理。
14.根据权利要求10所述的语音识别方法,其中,所述方法,还包括:在所述第一级唤醒状态下和所述第二级唤醒状态下,所述第一内核运行所述第一核外内存存储的回声消除程序,以对所述原始语音信号进行回声消除。
15.根据权利要求10所述的语音识别方法,其中,所述方法,还包括:在所述第一级唤醒状态下和所述第二级唤醒状态下,所述第一内核运行所述核内内存存储的解混响程序,以对所述原始语音信号进行去混响处理。
16.根据权利要求10‑15任一项所述的语音识别方法,其中,所述语音识别装置还包括音频单元;
每当从所述音频内存中读取到设定时长的原始语音信号和对应的所述参考语音信号时,所述音频单元触发语音中断,并将读取到的所述原始语音信号和所述参考语音信号提供至所述第一内核。
17.根据权利要求10‑15任一项所述的语音识别方法,其中,所述在低功耗状态下,所述第一内核根据所述原始语音信号和所述参考语音信号确定是否触发第一级唤醒状态,包括:
在所述低功耗状态下,所述第一内核根据所述原始语音信号和所述参考语音信号,识别环境的声音强度;
若确定所述声音强度大于阈值且持续第一时长,则所述第一内核触发第一级唤醒状态;
所述方法还包括:
在所述第一级唤醒状态和/或所述第二级唤醒状态下,所述第一内核根据所述原始语音信号和所述参考语音信号,识别环境的声音强度;
若确定所述声音强度小于或等于所述阈值,且持续第二时长,则所述第一内核恢复所述低功耗状态。
说明书 :
语音识别装置、电子设备和语音识别方法
技术领域
背景技术
日常生活,例如语音输入法,智能语音助手,车载语音交互系统等等。
但是,在整个语音信号的处理过程中,现有的语音芯片的各模块均处于开启状态,从而出现
功耗较大的技术问题。
发明内容
型根据所述原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核;
唤醒状态,并启动第二内核;
据原始语音信号和参考语音信号确定是否触发第一级唤醒状态,并在第一级唤醒状态下,
运行唤醒模型,以在唤醒模型根据原始语音信号识别出唤醒时,触发第二级唤醒状态,并启
用第二内核,第二内核在第二级唤醒状态下,运行语音识别模型,以对原始语音信号进行语
音识别。由此,该语音识别装置在获取到用户输入的原始语音信号后,通过逐级启用不同的
部件以对原始语音信号进行语音识别,实现了在保持高性能语音识别的同时,达到了降低
能耗的目的。
附图说明
具体实施方式
到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同
样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
设备的语音芯片是模型波束端到端语音识别方案非常好的载体,整体方案包括模型波束端
到端识别(单次识别,多次交互识别),模型波束唤醒和定位,回声消除(Automatic
Exposure Control,简称AEC),语音去混响(Weighted Prediction Error,简称WPE),低功
耗策略等。
降低功耗的目的。
可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统的硬件
设备。
子设备的扬声器正在播放的语音信号。
时,电子设备的麦克风可以对语音信息进行语音拾取,以获取到用户输入的原始语音信号,
进而,语音识别装置100可以获取并存储麦克风采集的原始语音信号,以及扬声器播放的参
考语音信号。
语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核。
是否处于低功耗状态下。
情况下,可以确定语音识别装置100未处于低功耗状态。
子设备的扬声器并未播放参考语音信号,这种情况下,可以确定语音识别装置100处于低功
耗状态。在低功耗状态下,语音识别装置100的音频内存110继续获取并存储麦克风采集的
原始语音信号,以及扬声器播放的参考语音信号,第一内核120继续根据获取到的原始语音
信号和参考语音信号,确定电子设备的周围环境是否处于安静状态。当第一内核120确定电
子设备的周围环境是持续有声音的,则退出低功耗状态,并触发第一级唤醒状态。
语音信号触发第一级唤醒状态后,可以保持第一级唤醒状态持续处于开启状态,以对持续
获取到的原始语音信号进行识别。
音信号识别出唤醒。
语音信号为唤醒。第一内核120可以将音频内存110后续获取到的原始语音信号继续输入唤
醒模型,以使得唤醒模型对原始语音信号进行识别。
定识别出唤醒时,触发第二级唤醒状态,并启用第二内核130。
醒状态下对原始语音信号进行语音识别,以确定原始语音信号对应的语音信息。
语音识别,以得到原始语音信号对应的语音信息。
系,因此,将原始语音信号输入语音识别模型后,能够准确识别出原始语音信号对应的语音
信息。
启状态。由此,通过逐级启用语音识别装置100的不同部件,实现了在保持高性能语音识别
的同时,达到了降低能耗的目的。
号,第一内核120在第一级唤醒状态下,运行唤醒模型,以在唤醒模型根据原始语音信号识
别出唤醒时,触发第二级唤醒状态,并启用第二内核130,第二内核130在第二级唤醒状态
下,运行语音识别模型,以对原始语音信号进行语音识别。由此,实现了对语音信息的传递
过程。
考语音信号确定是否触发第一级唤醒状态,并在第一级唤醒状态下,运行唤醒模型,以在唤
醒模型根据原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核,第二内核
在第二级唤醒状态下,运行语音识别模型,以对原始语音信号进行语音识别。由此,该语音
识别装置在获取到用户输入的原始语音信号后,通过逐级启用不同的部件以对原始语音信
号进行语音识别,实现了在保持高性能语音识别的同时,达到了降低能耗的目的。
运行唤醒模型,以使得唤醒模型根据原始语音信号识别唤醒时,可能存在误唤醒的情况。在
实际使用过程中,用户与电子设备进行交互的场景可能比较复杂,特别是远场景唤醒时,为
了避免存在误唤醒的情况,可以将唤醒模型分为第一级唤醒模型和第二级唤醒模型,以对
识别出的唤醒词进行确认,从而避免误唤醒的情况。
用第一核外内存140,加载并运行第一核外内存140中所存储的第二级唤醒模型,以确定是
否为误唤醒。
别出唤醒词后,可以启用第一核外内存140,加载并运行第一核外内存140中所存储的第二
级唤醒模型,采用第二级唤醒模型对第一级唤醒模型识别出的原始语音信号再次进行识
别,以避免误唤醒的情况。
号进行语音识别。
音信号进行识别。
第一内核120和第二内核130的核内结构可以包括动态随机存取存储器、微处理器、指令缓
存、数据缓存。由此,可以提高语音芯片的计算效率,从而可以在低功耗处理以及常规模式
下更加节省功耗。
第一核外内存存储第二级唤醒模型,在根据唤醒模型识别原始语音信号是否为唤醒时,通
过双核交互,不仅提高了唤醒模型确定原始语音信号是否为唤醒时的计算效率,减少计算
时间,还实现了更低功耗。
语音信号的语音质量,第一内核120可以在第一级唤醒状态下和第二级唤醒状态下,运行第
一核外内存140存储的回声消除程序,以对原始语音信号进行回声消除。
音模型,利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的
回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的。
语音信号中存在混响。
此,通过对原始语音信号进行去混响处理,能够提高原始语音信号的清晰度,还有利于提高
语音识别模型的识别性能。
第二级唤醒状态,并启用第二核外内存,以使第二内核130运行第二核外内存中存储的语音
识别模型,对原始语音信号进行语音识别。
的语音识别模型,以运行语音识别模型对原始语音信号进行语音识别。
征,将语音特征提供至云端服务器,以基于语音特征进行语音识别。
可以对接收到的数据进行分析、存储和计算等处理,并将分析、存储或计算结果推送给电子
设备。
绪等等。由此,提高了语音识别模型对原始语音信号进行语音识别的效率。
提供至云端服务器的时间,也减少了对语音特征进行语音识别时的计算量。
供至第一内核120。
音信号和参考语音信号进行处理。
从而避免丢帧的情况。
信号(Time Division Multiplexing,简称TDM)等形式的信号,这种情况下,音频单元160可
以将PDM或TDM等形式的信号转换为16bit的脉冲编码调制信号(Pulse Code Modulation,
简称PCM),从而使得第一内核120对PCM形式的原始语音信号和参考语音信号进行分析处
理。
值且持续第一时长时,触发第一级唤醒状态。
境的声音强度越大,同理,参考语音信号的幅度越小,说明环境的声音强度越小。
可以为通过程序预先设定的时长,例如,第一时长可以为1分钟、50秒等等。
在一种可能的情况下,第一内核120,还可以在第一级唤醒状态,根据原始语音信号和参考
语音信号,识别环境的声音强度,确定环境的声音强度小于或等于阈值,且持续第二时长
时,恢复低功耗状态。其中,第二时长,也可以为通过程序预先设定的时长,例如,第二时长
也可以为1分钟、50秒等等。
度小于或等于阈值,且持续第二时长时,恢复低功耗状态。
环境的声音强度,确定环境的声音强度小于或等于阈值,且持续第二时长时,恢复低功耗状
态。
设备的麦克风可以对语音信息进行语音拾取,以获取到用户输入的原始语音信号,进而,语
音识别装置可以获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信
号。
设备的扬声器并未播放参考语音信号,这种情况下,可以确定语音识别装置100处于低功耗
状态。在低功耗状态下,语音识别装置100的音频内存110继续获取并存储麦克风采集的原
始语音信号,以及扬声器播放的参考语音信号,第一内核120继续根据获取到的原始语音信
号和参考语音信号,确定电子设备的周围环境是否处于安静状态。当第一内核120确定电子
设备的周围环境是持续有声音的,则退出低功耗状态,并触发第一级唤醒状态。
后,可以启用第一核外内存140,加载并运行第一核外内存140中所存储的第二级唤醒模型,
采用第二级唤醒模型对第一级唤醒模型识别出的原始语音信号再次进行识别,以避免误唤
醒的情况。
识别。
性能语音识别的同时,达到了降低能耗的目的。
子设备的扬声器正在播放的语音信号。
时,电子设备的麦克风可以对语音信息进行语音拾取,以获取到用户输入的原始语音信号,
进而,语音识别装置可以获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考
语音信号。
耗状态下。
况下,可以确定语音识别装置未处于低功耗状态。
设备的扬声器并未播放参考语音信号,这种情况下,可以确定语音识别装置处于低功耗状
态。在低功耗状态下,语音识别装置的音频内存继续获取并存储麦克风采集的原始语音信
号,以及扬声器播放的参考语音信号,第一内核继续根据获取到的原始语音信号和参考语
音信号,确定电子设备的周围环境是否处于安静状态。当第一内核确定电子设备的周围环
境是持续有声音的,则退出低功耗状态,并触发第一级唤醒状态。
二内核。
为唤醒。第一内核可以将音频内存后续获取到的原始语音信号继续输入唤醒模型,以使得
唤醒模型对原始语音信号进行识别。
出唤醒时,触发第二级唤醒状态,并启用第二内核。
以得到原始语音信号对应的语音信息。
系,因此,将原始语音信号输入语音识别模型后,能够准确识别出原始语音信号对应的语音
信息。
考语音信号确定是否触发第一级唤醒状态,并在第一级唤醒状态下,第一内核运行唤醒模
型,以在唤醒模型根据原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内
核,第二内核在第二级唤醒状态下,运行语音识别模型,以对原始语音信号进行语音识别。
由此,在获取到用户输入的原始语音信号后,通过逐级启用不同的部件以对原始语音信号
进行语音识别,实现了在保持高性能语音识别的同时,达到了降低能耗的目的。
唤醒模型,以使得唤醒模型根据原始语音信号识别唤醒时,可能存在误唤醒的情况。在实际
使用过程中,用户与电子设备进行交互的场景可能比较复杂,特别是远场景唤醒时,为了避
免存在误唤醒的情况,可以将唤醒模型分为第一级唤醒模型和第二级唤醒模型,以对识别
出的唤醒词进行确认,从而避免误唤醒的情况。下面结合图8进行详细介绍,图8为本申请实
施例八提供的语音识别方法的流程示意图。
的第二级唤醒模型,以确定是否为误唤醒。
别模型。
中,语音特征用于云端服务器进行语音识别。
也减少了对语音特征进行语音识别时的计算量。
信号进行识别。
信号的语音质量,第一内核可以在第一级唤醒状态下和第二级唤醒状态下,运行第一核外
内存存储的回声消除程序,以对原始语音信号进行回声消除。
音模型,利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的
回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的。
信号中存在混响。
音信号进行去混响处理,能够提高原始语音信号的清晰度,还有利于提高语音识别模型的
识别性能。
第一核外内存存储第二级唤醒模型,在根据唤醒模型识别原始语音信号是否为唤醒时,通
过双核交互,不仅提高了唤醒模型确定原始语音信号是否为唤醒时的计算效率,减少计算
时间,还实现了更低功耗。
断,并将读取到的原始语音信号和参考语音信号提供至第一内核。
环境的声音强度,以确定是否触发第一级唤醒状态。下面结合图9进行详细介绍,图9为本申
请实施例九提供的语音识别方法的流程示意图。
强度越大,同理,参考语音信号的幅度越小,说明环境的声音强度越小。
态。
以为通过程序预先设定的时长,例如,第一时长可以为1分钟、50秒等等。
时长时,恢复低功耗状态。其中,第二时长,也可以为通过程序预先设定的时长,例如,第二
时长也可以为1分钟、50秒等等。
或等于阈值,且持续第二时长时,恢复低功耗状态。
的声音强度,确定环境的声音强度小于或等于阈值,且持续第二时长时,恢复低功耗状态。
机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、
蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和
关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请
的实现。
被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指
令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接
口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理
器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各
个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系
统)。图10中以一个处理器1001为例。
件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理。
据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至
少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器
1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至
电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组
合。
例。
者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明
装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶
显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可
以是触摸屏。
实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在
包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用
或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数
据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出
装置。
计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指
令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光
盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(LAN)、广域网(WAN)和互联网。
算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或
云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在
的管理难度大,业务扩展性弱的缺陷。
只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。