唤醒语音确定方法、装置、设备及介质转让专利

申请号 : CN202010992171.2

文献号 : CN111933112B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 靳源冯大航陈孝良

申请人 : 北京声智科技有限公司

摘要 :

本公开提供了一种唤醒语音确定方法、装置、设备及介质,属于音频处理技术领域。本公开实施例提供的技术方案,通过一次分类,初步确定待处理语音是否为唤醒语音后,在确定是的情况下,进行二次分类验证,通过两次分类,能够避免误唤醒,提高唤醒准确率。且在二次验证时基于一次分类的分类结果进行特征提取,以插值的方式来得到目标长度,这样并未限定特征提取的语音特征的长度,能够有效避免语音特征中包括静音段或唤醒词不全的情况,进而提高了唤醒准确率和成功率。

权利要求 :

1.一种唤醒语音确定方法,其特征在于,所述方法包括:对待处理语音进行特征提取,得到所述待处理语音的第一语音特征;

对所述第一语音特征进行分类,得到分类结果;

响应于所述分类结果指示所述待处理语音为唤醒语音,基于所述分类结果,获取第二语音特征;

对所述第二语音特征进行插值处理,得到第三语音特征,所述第三语音特征的长度为目标长度;

对所述第三语音特征进行分类,确定所述待处理语音是否为唤醒语音。

2.根据权利要求1所述的方法,其特征在于,所述对所述第一语音特征进行分类,得到分类结果,包括:对所述第一语音特征进行识别,得到每个第一语音特征对应的音素;

基于所述第一语音特征的识别结果,对所述第一语音特征进行分类,得到所述分类结果。

3.根据权利要求1所述的方法,其特征在于,分类结果包括所述待处理语音为唤醒语音的置信度和所述第一语音特征中唤醒词的目标路径;

所述响应于所述分类结果指示所述待处理语音为唤醒语音,基于所述分类结果,获取第二语音特征,包括下述任一项:响应于所述置信度大于置信度阈值,基于所述分类结果中所述目标路径,确定第一长度;基于所述第一长度,对所述第一语音特征进行截取,得到所述第二语音特征;

响应于所述置信度大于置信度阈值,基于所述分类结果中所述目标路径,确定第一长度;基于所述第一长度,从所述待处理语音中截取所述第一长度的语音;对所述截取得到的语音进行特征提取,得到所述第二语音特征。

4.根据权利要求1所述的方法,其特征在于,所述对所述第一语音特征进行分类,得到分类结果,包括:将所述第一语音特征输入语音处理模型中,由所述语音处理模型执行分类步骤输出所述分类结果;

所述对所述第三语音特征进行分类,确定所述待处理语音是否为唤醒语音,包括:将所述第三语音特征输入所述语音处理模型中,由所述语音处理模型执行对第三语音特征的分类步骤,确定所述待处理语音是否为唤醒语音。

5.根据权利要求4所述的方法,其特征在于,所述语音处理模型包括第一语音处理模块和第二语音处理模块;所述第一语音处理模块用于执行所述分类步骤,输出所述分类结果;

所述第二语音处理模块用于执行对第三语音特征的分类步骤,确定所述待处理语音是否为唤醒语音。

6.根据权利要求5所述的方法,其特征在于,所述语音处理模型的训练过程包括:获取样本语音以及样本语音对应的目标分类结果,所述目标分类结果用于指示所述样本语音是否为唤醒语音;

对所述样本语音进行特征提取,得到第一语音特征;

基于所述第一语音特征和所述目标分类结果,分别对所述语音处理模型中所述第一语音处理模块和所述第二语音处理模块进行训练,得到训练好的第一语音处理模块和第二语音处理模块。

7.根据权利要求6所述的方法,其特征在于,所述第一语音处理模块的训练过程包括:将所述第一语音特征输入语音识别模型中,由所述语音识别模型对所述第一语音特征进行识别,得到所述第一语音特征对应的目标识别结果;

将所述第一语音特征输入语音处理模型的第一语音处理模块中,由所述第一语音处理模块对第一语音特征进行识别,基于识别得到的音素进行分类,得到第一预测分类结果;

根据所述第一预测分类结果、所述目标分类结果、识别得到的音素以及目标识别结果,对所述第一语音处理模块的模型参数进行更新。

8.根据权利要求6所述的方法,其特征在于,所述第二语音处理模块的训练过程包括:对所述第一语音特征进行语音活性检测,根据检测结果,从所述第一语音特征中截取得到目标语音特征片段;

根据所述目标语音特征片段对应的目标分类结果,对所述目标语音特征片段进行处理,得到目标长度的语音特征;

将所述目标长度的语音特征输入所述语音处理模型的第二语音处理模块中,由所述第二语音处理模块对所述目标长度的语音特征进行分类,得到第二预测分类结果;

基于所述第二预测分类结果与所述目标分类结果,对所述第二语音处理模块的模型参数进行更新。

9.根据权利要求8所述的方法,其特征在于,所述根据所述目标语音特征片段对应的目标分类结果,对所述目标语音特征片段进行处理,包括:统计第一目标语音特征片段的长度,所述第一目标语音特征片段的目标分类结果指示所述第一目标语音特征片段对应的样本语音为唤醒语音;

根据统计结果,确定目标长度;

对所述第一目标语音特征片段进行插值处理,得到目标长度的第二语音特征;

对第二目标语音特征片段进行裁剪或拼接,得到目标长度的语音特征,所述第二目标语音特征片段的目标分类结果指示第二目标语音特征片段对应的样本语音不是唤醒语音。

10.根据权利要求1所述的方法,其特征在于,所述对所述第三语音特征进行分类,确定所述待处理语音是否为唤醒语音之后,所述方法还包括:响应于所述待处理语音为唤醒语音,唤醒目标设备。

11.根据权利要求1所述的方法,其特征在于,所述对所述第一语音特征进行分类,得到分类结果之后,所述方法还包括:响应于所述分类结果指示所述待处理语音不是唤醒语音,忽略所述待处理语音。

12.一种唤醒语音确定装置,其特征在于,所述装置包括:特征提取模块,用于对待处理语音进行特征提取,得到所述待处理语音的第一语音特征;

分类模块,用于对所述第一语音特征进行分类,得到分类结果;

所述特征提取模块,还用于响应于所述分类结果指示所述待处理语音为唤醒语音,基于所述分类结果,获取第二语音特征;

插值模块,用于对所述第二语音特征进行插值处理,得到第三语音特征,所述第三语音特征的长度为目标长度;

所述分类模块,还用于对所述第三语音特征进行分类,确定所述待处理语音是否为唤醒语音。

13.根据权利要求12所述的装置,其特征在于,所述分类模块用于:对所述第一语音特征进行识别,得到每个第一语音特征对应的音素;

基于所述第一语音特征的识别结果,对所述第一语音特征进行分类,得到所述分类结果。

14.根据权利要求12所述的装置,其特征在于,所述分类结果包括所述待处理语音为唤醒语音的置信度和所述第一语音特征中唤醒词的目标路径;

所述特征提取模块用于执行下述任一项:

响应于所述置信度大于置信度阈值,基于所述分类结果中所述目标路径,确定第一长度;基于所述第一长度,对所述第一语音特征进行截取,得到所述第二语音特征;

响应于所述置信度大于置信度阈值,基于所述分类结果中所述目标路径,确定第一长度;基于所述第一长度,从所述待处理语音中截取所述第一长度的语音;对所述截取得到的语音进行特征提取,得到所述第二语音特征。

15.根据权利要求12所述的装置,其特征在于,所述分类模块用于将所述第一语音特征输入语音处理模型中,由所述语音处理模型执行分类步骤输出所述分类结果;

所述分类模块用于将所述第三语音特征输入所述语音处理模型中,由所述语音处理模型执行对第三语音特征的分类步骤,确定所述待处理语音是否为唤醒语音。

16.根据权利要求15所述的装置,其特征在于,所述语音处理模型包括第一语音处理模块和第二语音处理模块;所述第一语音处理模块用于执行所述分类步骤,输出所述分类结果;所述第二语音处理模块用于执行对第三语音特征的分类步骤,确定所述待处理语音是否为唤醒语音。

17.根据权利要求16所述的装置,其特征在于,所述语音处理模型的训练过程包括:获取样本语音以及样本语音对应的目标分类结果,所述目标分类结果用于指示所述样本语音是否为唤醒语音;

对所述样本语音进行特征提取,得到第一语音特征;

基于所述第一语音特征和所述目标分类结果,分别对所述语音处理模型中所述第一语音处理模块和所述第二语音处理模块进行训练,得到训练好的第一语音处理模块和第二语音处理模块。

18.根据权利要求17所述的装置,其特征在于,所述第一语音处理模块的训练过程包括:将所述第一语音特征输入语音识别模型中,由所述语音识别模型对所述第一语音特征进行识别,得到所述第一语音特征对应的目标识别结果;

将所述第一语音特征输入语音处理模型的第一语音处理模块中,由所述第一语音处理模块对第一语音特征进行识别,基于识别得到的音素进行分类,得到第一预测分类结果;

根据所述第一预测分类结果、所述目标分类结果、识别得到的音素以及目标识别结果,对所述第一语音处理模块的模型参数进行更新。

19.根据权利要求17所述的装置,其特征在于,所述第二语音处理模块的训练过程包括:对所述第一语音特征进行语音活性检测,根据检测结果,从所述第一语音特征中截取得到目标语音特征片段;

根据所述目标语音特征片段对应的目标分类结果,对所述目标语音特征片段进行处理,得到目标长度的语音特征;

将所述目标长度的语音特征输入所述语音处理模型的第二语音处理模块中,由所述第二语音处理模块对所述目标长度的语音特征进行分类,得到第二预测分类结果;

基于所述第二预测分类结果与所述目标分类结果,对所述第二语音处理模块的模型参数进行更新。

20.根据权利要求19所述的装置,其特征在于,所述根据所述目标语音特征片段对应的目标分类结果,对所述目标语音特征片段进行处理,包括:统计第一目标语音特征片段的长度,所述第一目标语音特征片段的目标分类结果指示所述第一目标语音特征片段对应的样本语音为唤醒语音;

根据统计结果,确定目标长度;

对所述第一目标语音特征片段进行插值处理,得到目标长度的第二语音特征;

对第二目标语音特征片段进行裁剪或拼接,得到目标长度的语音特征,所述第二目标语音特征片段的目标分类结果指示第二目标语音特征片段对应的样本语音不是唤醒语音。

21.根据权利要求12所述的装置,其特征在于,所述装置还包括:唤醒模块,用于响应于所述待处理语音为唤醒语音,唤醒目标设备。

22.根据权利要求12所述的装置,其特征在于,所述装置还包括:忽略模块,用于响应于所述分类结果指示所述待处理语音不是唤醒语音,忽略所述待处理语音。

23.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求11任一项所述的唤醒语音确定方法所执行的操作。

24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的唤醒语音确定方法所执行的操作。

说明书 :

唤醒语音确定方法、装置、设备及介质

技术领域

[0001] 本公开涉及音频处理技术领域,特别涉及一种唤醒语音确定方法、装置、设备及介质。

背景技术

[0002] 近年来,随着音频处理技术的不断发展,智能音箱、车载语音交互系统等智能语音交互系统不断普及,为了减少用户操作,提供了一种语音唤醒功能,通过对采集到的语音进行识别,确定是否为唤醒语音,进而能够实现对设备的语音唤醒。
[0003] 相关技术中,唤醒语音确定方法通常是:对待处理语音进行特征提取,得到固定长度的语音特征,将其输入卷积神经网络(Convolutional Neural Networks, CNN)网络中进行分类。
[0004] 用户朗读的唤醒词一般长度并不固定,上述方法限定了输入CNN网络的语音特征的长度,固定长度的语音特征输入网络判别可能会导致送入部分静音段(也即是并非用户语音的部分),或者部分唤醒词的部分被截掉,从而导致唤醒语音确定不准确,从而唤醒成功率低,也容易出现误唤醒的情况,准确率低。

发明内容

[0005] 本公开实施例提供了一种唤醒语音确定方法、装置、设备及介质,提高了唤醒成功率和准确率。所述技术方案如下。
[0006] 一方面,提供了一种唤醒语音确定方法,所述方法包括:
[0007] 对待处理语音进行特征提取,得到所述待处理语音的第一语音特征;
[0008] 对所述第一语音特征进行分类,得到分类结果;
[0009] 响应于所述分类结果指示所述待处理语音为唤醒语音,基于所述分类结果,获取第二语音特征;
[0010] 对所述第二语音特征进行插值处理,得到第三语音特征,所述第三语音特征的长度为目标长度;
[0011] 对所述第三语音特征进行分类,确定所述待处理语音是否为唤醒语音。
[0012] 在一种可能实现方式中,所述对所述第一语音特征进行分类,得到分类结果,包括:
[0013] 对所述第一语音特征进行识别,得到每个第一语音特征对应的音素;
[0014] 基于所述第一语音特征的识别结果,对所述第一语音特征进行分类,得到所述分类结果。
[0015] 在一种可能实现方式中,分类结果包括所述待处理语音为唤醒语音的置信度和所述第一语音特征中唤醒词的目标路径;
[0016] 所述响应于所述分类结果指示所述待处理语音为唤醒语音,基于所述分类结果,获取第二语音特征,包括下述任一项:
[0017] 响应于所述置信度大于置信度阈值,基于所述分类结果中所述目标路径,确定第一长度;基于所述第一长度,对所述第一语音特征进行截取,得到所述第二语音特征;
[0018] 响应于所述置信度大于置信度阈值,基于所述分类结果中所述目标路径,确定第一长度;基于所述第一长度,从所述待处理语音中截取所述第一长度的语音;对所述截取得到的语音进行特征提取,得到所述第二语音特征。
[0019] 在一种可能实现方式中,所述对所述第一语音特征进行分类,得到分类结果,包括:
[0020] 将所述第一语音特征输入语音处理模型中,由所述语音处理模型执行分类步骤输出所述分类结果;
[0021] 所述对所述第三语音特征进行分类,确定所述待处理语音是否为唤醒语音,包括:
[0022] 将所述第三语音特征输入所述语音处理模型中,由所述语音处理模型执行对第三语音特征的分类步骤,确定所述待处理语音是否为唤醒语音。
[0023] 在一种可能实现方式中,所述语音处理模型包括第一语音处理模块和第二语音处理模块;所述第一语音处理模块用于执行所述分类步骤,输出所述分类结果;所述第二语音处理模块用于执行对第三语音特征的分类步骤,确定所述待处理语音是否为唤醒语音。
[0024] 在一种可能实现方式中,所述语音处理模型的训练过程包括:
[0025] 获取样本语音以及样本语音对应的目标分类结果,所述目标分类结果用于指示所述样本语音是否为唤醒语音;
[0026] 对所述样本语音进行特征提取,得到第一语音特征;
[0027] 基于所述第一语音特征和所述目标分类结果,分别对所述语音处理模型中所述第一语音处理模块和所述第二语音处理模块进行训练,得到训练好的第一语音处理模块和第二语音处理模块。
[0028] 在一种可能实现方式中,所述第一语音处理模块的训练过程包括:
[0029] 将所述第一语音特征输入语音识别模型中,由所述语音识别模型对所述第一语音特征进行识别,得到所述第一语音特征对应的目标识别结果;
[0030] 将所述第一语音特征输入语音处理模型的第一语音处理模块中,由所述第一语音处理模块对第一语音特征进行识别,基于识别得到的音素进行分类,得到第一预测分类结果;
[0031] 根据所述第一预测分类结果、所述目标分类结果、识别得到的音素以及目标识别结果,对所述第一语音处理模块的模型参数进行更新。
[0032] 在一种可能实现方式中,所述第二语音处理模块的训练过程包括:
[0033] 对所述第一语音特征进行语音活性检测,根据检测结果,从所述第一语音特征中截取得到目标语音特征片段;
[0034] 根据所述目标语音特征片段对应的目标分类结果,对所述目标语音特征片段进行处理,得到目标长度的语音特征;
[0035] 将所述目标长度的语音特征输入所述语音处理模型的第二语音处理模块中,由所述第二语音处理模块对所述目标长度的语音特征进行分类,得到第二预测分类结果;
[0036] 基于所述第二预测分类结果与所述目标分类结果,对所述第二语音处理模块的模型参数进行更新。
[0037] 在一种可能实现方式中,所述根据所述目标语音特征片段对应的目标分类结果,对所述目标语音特征片段进行处理,包括:
[0038] 统计第一目标语音特征片段的长度,所述第一目标语音特征片段的目标分类结果指示所述第一目标语音特征片段对应的样本语音为唤醒语音;
[0039] 根据统计结果,确定目标长度;
[0040] 对所述第一目标语音特征片段进行插值处理,得到目标长度的第二语音特征;
[0041] 对第二目标语音特征片段进行裁剪或拼接,得到目标长度的语音特征,所述第二目标语音特征片段的目标分类结果指示第二目标语音特征片段对应的样本语音不是唤醒语音。
[0042] 在一种可能实现方式中,所述语音处理模型的训练过程包括:
[0043] 获取样本语音以及样本语音对应的目标分类结果,所述目标分类结果用于指示所述样本语音是否为唤醒语音;
[0044] 对所述样本语音进行特征提取,将提取到的第一语音特征输入语音处理模型的第一语音处理模块中,由所述第一语音处理模块对第一语音特征进行分类,得到第一预测分类结果;
[0045] 基于所述第一预测分类结果,获取第二语音特征,将所述第二语音特征输入所述语音处理模型的第二语音处理模块中,由所述第二语音处理模块对所述第二语音特征进行分类,得到第二预测分类结果;
[0046] 基于所述第一预测分类结果、所述第二预测分类结果与所述目标分类结果,对所述第一语音处理模块和所述第二语音处理模块的模型参数进行更新,直至符合目标条件时停止,得到所述语音处理模型。
[0047] 在一种可能实现方式中,所述基于所述第一预测分类结果、所述第二预测分类结果与所述目标分类结果,对所述第一语音处理模块和所述第二语音处理模块的模型参数进行更新,包括下述任一项:
[0048] 基于所述第一预测分类结果和所述目标分类结果,获取第一损失值,基于所述第一损失值对所述第一语音处理模块的模型参数进行更新;基于所述第二预测分类结果和所述目标分类结果,获取第二损失值,基于所述第二损失值对所述第一语音处理模块的模型参数进行更新;
[0049] 基于所述第一预测分类结果和所述目标分类结果,获取第一损失值;基于所述第二预测分类结果和所述目标分类结果,获取第二损失值;基于所述第一损失值和所述第二损失值,获取目标损失值,基于所述目标损失值对所述第一语音处理模块和所述第二语音处理模块的模型参数进行更新。
[0050] 在一种可能实现方式中,所述对所述第三语音特征进行分类,确定所述待处理语音是否为唤醒语音之后,所述方法还包括:
[0051] 响应于所述待处理语音为唤醒语音,唤醒目标设备。
[0052] 在一种可能实现方式中,所述对所述第一语音特征进行分类,得到分类结果之后,所述方法还包括:
[0053] 响应于所述分类结果指示所述待处理语音不是唤醒语音,忽略所述待处理语音。
[0054] 一方面,提供了一种唤醒语音确定装置,所述装置包括:
[0055] 特征提取模块,用于对待处理语音进行特征提取,得到所述待处理语音的第一语音特征;
[0056] 分类模块,用于对所述第一语音特征进行分类,得到分类结果;
[0057] 所述特征提取模块,还用于响应于所述分类结果指示所述待处理语音为唤醒语音,基于所述分类结果,获取第二语音特征;
[0058] 插值模块,用于对所述第二语音特征进行插值处理,得到第三语音特征,所述第三语音特征的长度为目标长度;
[0059] 所述分类模块,还用于对所述第三语音特征进行分类,确定所述待处理语音是否为唤醒语音。
[0060] 在一种可能实现方式中,所述分类模块用于:
[0061] 对所述第一语音特征进行识别,得到每个第一语音特征对应的音素;
[0062] 基于所述第一语音特征的识别结果,对所述第一语音特征进行分类,得到所述分类结果。
[0063] 在一种可能实现方式中,分类结果包括所述待处理语音为唤醒语音的置信度和所述第一语音特征中唤醒词的目标路径;
[0064] 所述特征提取模块用于执行下述任一项:
[0065] 响应于所述置信度大于置信度阈值,基于所述分类结果中所述目标路径,确定第一长度;基于所述第一长度,对所述第一语音特征进行截取,得到所述第二语音特征;
[0066] 响应于所述置信度大于置信度阈值,基于所述分类结果中所述目标路径,确定第一长度;基于所述第一长度,从所述待处理语音中截取所述第一长度的语音;对所述截取得到的语音进行特征提取,得到所述第二语音特征。
[0067] 在一种可能实现方式中,所述分类模块用于将所述第一语音特征输入语音处理模型中,由所述语音处理模型执行分类步骤输出所述分类结果。
[0068] 在一种可能实现方式中,所述分类模块用于将所述第三语音特征输入所述语音处理模型中,由所述语音处理模型执行对第三语音特征的分类步骤,确定所述待处理语音是否为唤醒语音。
[0069] 在一种可能实现方式中,所述语音处理模型包括第一语音处理模块和第二语音处理模块;所述第一语音处理模块用于执行所述分类步骤,输出所述分类结果;所述第二语音处理模块用于执行对第三语音特征的分类步骤,确定所述待处理语音是否为唤醒语音。
[0070] 在一种可能实现方式中,所述语音处理模型的训练过程包括:
[0071] 获取样本语音以及样本语音对应的目标分类结果,所述目标分类结果用于指示所述样本语音是否为唤醒语音;
[0072] 对所述样本语音进行特征提取,得到第一语音特征;
[0073] 基于所述第一语音特征和所述目标分类结果,分别对所述语音处理模型中所述第一语音处理模块和所述第二语音处理模块进行训练,得到训练好的第一语音处理模块和第二语音处理模块。
[0074] 在一种可能实现方式中,所述第一语音处理模块的训练过程包括:
[0075] 将所述第一语音特征输入语音识别模型中,由所述语音识别模型对所述第一语音特征进行识别,得到所述第一语音特征对应的目标识别结果;
[0076] 将所述第一语音特征输入语音处理模型的第一语音处理模块中,由所述第一语音处理模块对第一语音特征进行识别,基于识别得到的音素进行分类,得到第一预测分类结果;
[0077] 根据所述第一预测分类结果、所述目标分类结果、识别得到的音素以及目标识别结果,对所述第一语音处理模块的模型参数进行更新。
[0078] 在一种可能实现方式中,所述第二语音处理模块的训练过程包括:
[0079] 对所述第一语音特征进行语音活性检测,根据检测结果,从所述第一语音特征中截取得到目标语音特征片段;
[0080] 根据所述目标语音特征片段对应的目标分类结果,对所述目标语音特征片段进行处理,得到目标长度的语音特征;
[0081] 将所述目标长度的语音特征输入所述语音处理模型的第二语音处理模块中,由所述第二语音处理模块对所述目标长度的语音特征进行分类,得到第二预测分类结果;
[0082] 基于所述第二预测分类结果与所述目标分类结果,对所述第二语音处理模块的模型参数进行更新。
[0083] 在一种可能实现方式中,所述根据所述目标语音特征片段对应的目标分类结果,对所述目标语音特征片段进行处理,包括:
[0084] 统计第一目标语音特征片段的长度,所述第一目标语音特征片段的目标分类结果指示所述第一目标语音特征片段对应的样本语音为唤醒语音;
[0085] 根据统计结果,确定目标长度;
[0086] 对所述第一目标语音特征片段进行插值处理,得到目标长度的第二语音特征;
[0087] 对第二目标语音特征片段进行裁剪或拼接,得到目标长度的语音特征,所述第二目标语音特征片段的目标分类结果指示第二目标语音特征片段对应的样本语音不是唤醒语音。
[0088] 在一种可能实现方式中,所述语音处理模型的训练过程包括:
[0089] 获取样本语音以及样本语音对应的目标分类结果,所述目标分类结果用于指示所述样本语音是否为唤醒语音;
[0090] 对所述样本语音进行特征提取,将提取到的第一语音特征输入语音处理模型的第一语音处理模块中,由所述第一语音处理模块对第一语音特征进行分类,得到第一预测分类结果;
[0091] 基于所述第一预测分类结果,获取第二语音特征,将所述第二语音特征输入所述语音处理模型的第二语音处理模块中,由所述第二语音处理模块对所述第二语音特征进行分类,得到第二预测分类结果;
[0092] 基于所述第一预测分类结果、所述第二预测分类结果与所述目标分类结果,对所述第一语音处理模块和所述第二语音处理模块的模型参数进行更新,直至符合目标条件时停止,得到所述语音处理模型。
[0093] 在一种可能实现方式中,所述基于所述第一预测分类结果、所述第二预测分类结果与所述目标分类结果,对所述第一语音处理模块和所述第二语音处理模块的模型参数进行更新,包括下述任一项:
[0094] 基于所述第一预测分类结果和所述目标分类结果,获取第一损失值,基于所述第一损失值对所述第一语音处理模块的模型参数进行更新;基于所述第二预测分类结果和所述目标分类结果,获取第二损失值,基于所述第二损失值对所述第一语音处理模块的模型参数进行更新;
[0095] 基于所述第一预测分类结果和所述目标分类结果,获取第一损失值;基于所述第二预测分类结果和所述目标分类结果,获取第二损失值;基于所述第一损失值和所述第二损失值,获取目标损失值,基于所述目标损失值对所述第一语音处理模块和所述第二语音处理模块的模型参数进行更新。
[0096] 在一种可能实现方式中,所述装置还包括:
[0097] 唤醒模块,用于响应于所述待处理语音为唤醒语音,唤醒目标设备。
[0098] 在一种可能实现方式中,所述装置还包括:
[0099] 忽略模块,用于响应于所述分类结果指示所述待处理语音不是唤醒语音,忽略所述待处理语音。
[0100] 一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述指令由所述一个或多个处理器加载并执行以实现上述唤醒语音确定方法所执行的操作。
[0101] 一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述唤醒语音确定方法所执行的操作。
[0102] 本公开实施例提供的技术方案带来的有益效果至少可以包括:
[0103] 本公开实施例提供的技术方案,通过一次分类,初步确定待处理语音是否为唤醒语音后,在确定是的情况下,进行二次分类验证,通过两次分类,能够避免误唤醒,提高唤醒准确率。且在二次验证时基于一次分类的分类结果进行特征提取,以插值的方式来得到目标长度,这样并未限定特征提取的语音特征的长度,能够有效避免语音特征中包括静音段或唤醒词不全的情况,进而提高了唤醒准确率和成功率。

附图说明

[0104] 为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0105] 图1是本公开实施例提供的一种唤醒语音确定方法流程图;
[0106] 图2是本公开实施例提供的一种唤醒语音确定方法流程图;
[0107] 图3是本公开实施例提供的一种唤醒语音确定装置结构示意图;
[0108] 图4是本公开实施例提供的一种终端的结构示意图;
[0109] 图5是本公开实施例提供的一种服务器的结构示意图。

具体实施方式

[0110] 为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
[0111] 图1是本公开实施例提供的一种唤醒语音确定方法流程图,该方法应用于计算机设备,参见图1,该方法包括以下步骤。
[0112] 101、对待处理语音进行特征提取,得到该待处理语音的第一语音特征。
[0113] 102、对该第一语音特征进行分类,得到分类结果。
[0114] 103、响应于该分类结果指示该待处理语音为唤醒语音,基于该分类结果,获取第二语音特征。
[0115] 104、对该第二语音特征进行插值处理,得到第三语音特征,该第三语音特征的长度为目标长度。
[0116] 105、对该第三语音特征进行分类,确定该待处理语音是否为唤醒语音。
[0117] 本公开实施例提供的技术方案,通过一次分类,初步确定待处理语音是否为唤醒语音后,在确定是的情况下,进行二次分类验证,通过两次分类,能够避免误唤醒,提高唤醒准确率。且在二次验证时基于一次分类的分类结果进行特征提取,以插值的方式来得到目标长度,这样并未限定特征提取的语音特征的长度,能够有效避免语音特征中包括静音段或唤醒词不全的情况,进而提高了唤醒准确率和成功率。
[0118] 在一种可能实现方式中,该对该第一语音特征进行分类,得到分类结果,包括:
[0119] 对该第一语音特征进行识别,得到每个第一语音特征对应的音素;
[0120] 基于该第一语音特征的识别结果,对该第一语音特征进行分类,得到该分类结果。
[0121] 在一种可能实现方式中,分类结果包括该待处理语音为唤醒语音的置信度和该第一语音特征中唤醒词的目标路径;
[0122] 该响应于该分类结果指示该待处理语音为唤醒语音,基于该分类结果,获取第二语音特征,包括下述任一项:
[0123] 响应于该置信度大于置信度阈值,基于该分类结果中该目标路径,确定第一长度;基于该第一长度,对该第一语音特征进行截取,得到该第二语音特征;
[0124] 响应于该置信度大于置信度阈值,基于该分类结果中该目标路径,确定第一长度;基于该第一长度,从该待处理语音中截取该第一长度的语音;对该截取得到的语音进行特征提取,得到该第二语音特征。
[0125] 在一种可能实现方式中,该对该第一语音特征进行分类,得到分类结果,包括:
[0126] 将该第一语音特征输入语音处理模型中,由该语音处理模型执行分类步骤输出该分类结果;
[0127] 该对该第三语音特征进行分类,确定该待处理语音是否为唤醒语音,包括:
[0128] 将该第三语音特征输入该语音处理模型中,由该语音处理模型执行对第三语音特征的分类步骤,确定该待处理语音是否为唤醒语音。
[0129] 在一种可能实现方式中,该语音处理模型包括第一语音处理模块和第二语音处理模块;该第一语音处理模块用于执行该分类步骤,输出该分类结果;该第二语音处理模块用于执行对第三语音特征的分类步骤,确定该待处理语音是否为唤醒语音。
[0130] 在一种可能实现方式中,该语音处理模型的训练过程包括:
[0131] 获取样本语音以及样本语音对应的目标分类结果,该目标分类结果用于指示该样本语音是否为唤醒语音;
[0132] 对该样本语音进行特征提取,得到第一语音特征;
[0133] 基于该第一语音特征和该目标分类结果,分别对该语音处理模型中该第一语音处理模块和该第二语音处理模块进行训练,得到训练好的第一语音处理模块和第二语音处理模块。
[0134] 在一种可能实现方式中,该第一语音处理模块的训练过程包括:
[0135] 将该第一语音特征输入语音识别模型中,由该语音识别模型对该第一语音特征进行识别,得到该第一语音特征对应的目标识别结果;
[0136] 将该第一语音特征输入语音处理模型的第一语音处理模块中,由该第一语音处理模块对第一语音特征进行识别,基于识别得到的音素进行分类,得到第一预测分类结果;
[0137] 根据该第一预测分类结果、该目标分类结果、识别得到的音素以及目标识别结果,对该第一语音处理模块的模型参数进行更新。
[0138] 在一种可能实现方式中,该第二语音处理模块的训练过程包括:
[0139] 对该第一语音特征进行语音活性检测,根据检测结果,从该第一语音特征中截取得到目标语音特征片段;
[0140] 根据该目标语音特征片段对应的目标分类结果,对该目标语音特征片段进行处理,得到目标长度的语音特征;
[0141] 将该目标长度的语音特征输入该语音处理模型的第二语音处理模块中,由该第二语音处理模块对该目标长度的语音特征进行分类,得到第二预测分类结果;
[0142] 基于该第二预测分类结果与该目标分类结果,对该第二语音处理模块的模型参数进行更新。
[0143] 在一种可能实现方式中,该根据该目标语音特征片段对应的目标分类结果,对该目标语音特征片段进行处理,包括:
[0144] 统计第一目标语音特征片段的长度,该第一目标语音特征片段的目标分类结果指示该第一目标语音特征片段对应的样本语音为唤醒语音;
[0145] 根据统计结果,确定目标长度;
[0146] 对该第一目标语音特征片段进行插值处理,得到目标长度的第二语音特征;
[0147] 对第二目标语音特征片段进行裁剪或拼接,得到目标长度的语音特征,该第二目标语音特征片段的目标分类结果指示第二目标语音特征片段对应的样本语音不是唤醒语音。
[0148] 在一种可能实现方式中,该语音处理模型的训练过程包括:
[0149] 获取样本语音以及样本语音对应的目标分类结果,该目标分类结果用于指示该样本语音是否为唤醒语音;
[0150] 对该样本语音进行特征提取,将提取到的第一语音特征输入语音处理模型的第一语音处理模块中,由该第一语音处理模块对第一语音特征进行分类,得到第一预测分类结果;
[0151] 基于该第一预测分类结果,获取第二语音特征,将该第二语音特征输入该语音处理模型的第二语音处理模块中,由该第二语音处理模块对该第二语音特征进行分类,得到第二预测分类结果;
[0152] 基于该第一预测分类结果、该第二预测分类结果与该目标分类结果,对该第一语音处理模块和该第二语音处理模块的模型参数进行更新,直至符合目标条件时停止,得到该语音处理模型。
[0153] 在一种可能实现方式中,该基于该第一预测分类结果、该第二预测分类结果与该目标分类结果,对该第一语音处理模块和该第二语音处理模块的模型参数进行更新,包括下述任一项:
[0154] 基于该第一预测分类结果和该目标分类结果,获取第一损失值,基于该第一损失值对该第一语音处理模块的模型参数进行更新;基于该第二预测分类结果和该目标分类结果,获取第二损失值,基于该第二损失值对该第一语音处理模块的模型参数进行更新;
[0155] 基于该第一预测分类结果和该目标分类结果,获取第一损失值;基于该第二预测分类结果和该目标分类结果,获取第二损失值;基于该第一损失值和该第二损失值,获取目标损失值,基于该目标损失值对该第一语音处理模块和该第二语音处理模块的模型参数进行更新。
[0156] 在一种可能实现方式中,该对该第三语音特征进行分类,确定该待处理语音是否为唤醒语音之后,该方法还包括:
[0157] 响应于该待处理语音为唤醒语音,唤醒目标设备。
[0158] 在一种可能实现方式中,该对该第一语音特征进行分类,得到分类结果之后,该方法还包括:
[0159] 响应于该分类结果指示该待处理语音不是唤醒语音,忽略该待处理语音。
[0160] 图2是本公开实施例提供的一种唤醒语音确定方法的流程图,参见图2,该方法可以包括以下步骤。
[0161] 201、计算机设备获取待处理语音。
[0162] 本公开实施例中,该计算机设备具有语音采集功能和语音唤醒功能,通过采集语音,确定语音是否为唤醒语音,进而确定是否唤醒设备。其中,唤醒语音是指用于唤醒设备的语音。例如,唤醒语音可以包含唤醒词,能够唤醒设备。
[0163] 可选地,该计算机设备可以采集到语音后,自行确定是否为唤醒语音。也可以采集到语音后,由其他计算机设备确定是否为唤醒语音。可选地,该计算机设备也可以不具有语音采集功能。该计算机设备可以接收待处理语音,确定是否为唤醒语音。具体对应下述获取过程中的几种方式。
[0164] 该计算机设备可以为终端或者服务器。计算机设备获取该待处理语音的方式可以有多种,该获取过程可以包括下述方式一至方式三中的任一种。
[0165] 方式一、计算机设备采集待处理语音。
[0166] 计算机设备可以具有语音采集功能,计算机设备可以直接采集声音,得到该待处理语音。
[0167] 方式二、计算机设备接收语音采集设备采集的该待处理语音。
[0168] 计算机设备可以通过网络或数据线与语音采集设备连接,获取由该语音采集设备采集的该待处理语音,为该语音采集设备提供后台服务。该语音采集设备可以是任意种类的具有语音采集功能的设备,例如智能音箱、智能手机等,本公开实施例对此不进行限定。
[0169] 方式三、计算机设备可以从数据库中提取该待处理语音。
[0170] 在该方式三中,可以通过数据库来存储该待处理语音,在计算机设备需要对该待处理语音进行处理时,再从该数据库中提取。
[0171] 该计算机设备可以获取得到待处理语音后,能够对其进行特征提取和分类步骤,确定是否为唤醒语音。具体参见下述步骤202至207。
[0172] 202、计算机设备对该待处理语音进行特征提取,得到该待处理语音的第一语音特征。
[0173] 计算机设备获取到待处理语音后,能够对其进行特征提取,以第一语音特征作为后续处理的数据依据。该第一语音特征能够更突出语音的特点,从而能够进行更好的处理。
[0174] 具体的,考虑到语音信号的短时平稳性,计算机设备可以对待处理语音进行分帧处理,对分帧后的语音片段进行特征提取,得到语音特征。其中,该语音特征可以为FBank(FilterBank,滤波器组)特征,也可以为MFCC(Mel Frequency Cepstral Coefficent,梅尔倒谱系数)特征,本公开实施例对此不作限定。
[0175] 在一种可能实现方式中,对语音进行处理时,将其转换到频域进行计算,能够有效减少计算难度和计算速度,进而更有效地表征语音特征,提高唤醒准确率。因而,计算机设备可以对分帧后的语音片段进行傅里叶变换,得到待处理语音的频谱,对频谱进行特征提取,得到第一语音特征。
[0176] 例如,计算机设备可以在傅里叶变换后,通过梅尔滤波器对频谱进行滤波,得到语音特征,再对语音特征进行离散余弦变换,得到第一语音特征,该第一语音特征为MFCC特征。可选地,计算机设备也可以在梅尔滤波器滤波得到的语音特征后,获取该语音特征的对数,得到该第一语音特征,该第一语音特征为FBank特征。
[0177] 203、计算机设备对该第一语音特征进行分类,得到分类结果,响应于分类结果指示该待处理语音为唤醒语音,执行步骤204至206,响应于分类结果指示待处理语音不是唤醒语音,执行步骤207。
[0178] 计算机设备得到第一语音特征后,能够对其进行分类,确定待处理语音是否为唤醒语音。
[0179] 在一种可能实现方式中,在对第一语音特征分类时,计算机设备可以先将语音特征转换为文字,从而确定待处理语音中是否包括唤醒词。具体的,计算机设备可以对该第一语音特征进行识别,得到每个第一语音特征对应的音素,基于该第一语音特征的识别结果,对该第一语音特征进行分类,得到该分类结果。
[0180] 通过识别过程,计算机设备确定每个语音特征对应的音素,当然,该识别结果可以每个语音特征对应的音素以及概率,该概率可以为后验概率。
[0181] 每个语音特征均对应于一个音素,因而,该第一语音特征对应于音素序列。通过上述分类过程,计算机设备可以对音素序列进行分类,确定音素序列对应的唤醒词序列以及该唤醒词序列对应的分数。其中,该分类过程可以理解为搜索过程,从音素序列中搜索得到最优的唤醒词序列,该分数可以基于该唤醒词序列中每个唤醒词分类时的概率确定。例如,该分数可以为该唤醒词序列中每个唤醒词分类时的概率的对数之和。
[0182] 计算机设备还可以得到垃圾词序列以及垃圾词序列的分数。计算机设备可以获取唤醒词序列与垃圾词序列的分数之间的差值或似然比,将该差值或似然比作为该唤醒词序列的置信度。
[0183] 可选地,在该分类过程(或搜索过程)中,计算机设备可能会得到多个候选的唤醒词序列,每个候选的唤醒词序列对应有分数。计算机设备可以将置信度最大的唤醒词序列作为最优的唤醒词序列。对于该唤醒词序列,可以通过唤醒词的路径来表征,该最优的唤醒词序列即为目标路径。
[0184] 例如,计算机设备可以将第一语音特征输入一级声学模型中,得到每一帧的对应类音素的后验概率。
[0185] 可选地,计算机设备基于该第一语音特征的识别结果进行分类时可以考虑与唤醒词进行匹配,得到匹配度。该匹配度即可反映待处理语音中是否包括唤醒词,其是否为唤醒语音。当然,该分类过程还可以通过其他方式实现,本申请实施例对此不作限定。
[0186] 例如,计算机设备可以将后验概率最大的音素作为第一语音特征对应的音素,进而进行唤醒词匹配步骤。该匹配度可以采用概率形式,该概率也即是待处理语音为唤醒语音的置信度,用于指示该待处理语音是否为唤醒语音。
[0187] 在一种可能实现方式中,该分类过程通过语音处理模型实现,计算机设备可以将该第一语音特征输入语音处理模型中,由该语音处理模型执行分类步骤203输出该分类结果。
[0188] 基于分类结果的不同,后续对待处理语音的处理可以包括不同的情况。如果在一次分类时确定待处理语音是唤醒语音,可以执行步骤204至步骤206再次进行二次分类验证,以避免误唤醒的情况。如果在一次分类时确定待处理语音并不是唤醒语音,则可以无需再次校验,具体参见步骤207。
[0189] 204、计算机设备基于该分类结果,获取第二语音特征。
[0190] 计算机设备经过一次分类确定待处理语音为唤醒语音后,可以参考第一次分类的分类结果,进行后续处理,这样后续处理有分类结果作为前提,能够对待处理语音进行更准确的处理,得到更准确的语音特征,进而提高唤醒成功率和准确率。
[0191] 在一种可能实现方式中,该分类结果包括该待处理语音为唤醒语音的置信度和该第一语音特征中唤醒词的目标路径。该目标路径用于指示唤醒词的位置。该步骤204在该置信度大于置信度阈值时执行。在基于分类结果获取第二语音特征时,能够在原始的待处理语音中提取,也可以在上一次特征提取得到的第一语音特征的基础上获取。也即是,该步骤204可以通过下述两种方式中任一种方式实现。
[0192] 在方式A中,电子设备能够响应于该置信度大于置信度阈值,基于该分类结果中该目标路径,确定第一长度,基于该第一长度,对该第一语音特征进行截取,得到该第二语音特征。
[0193] 在方式B中,电子设备能够响应于该置信度大于置信度阈值,基于该分类结果中该目标路径,确定第一长度。该第一长度用于指示该待识别语音中唤醒词的长度。计算机设备基于该第一长度,从该待处理语音中截取该第一长度的语音,对该截取得到的语音进行特征提取,得到该第二语音特征。
[0194] 通过上述两种方式,基于第一语音特征的分类结果,能够了解到该待处理语音中唤醒词的位置、长度,基于此,对第一语音特征或待处理语音进行处理,得到第二语音特征,该第二语音特征能够更准确地表征唤醒词,且不会掺杂冗余信息,也即是第二语音特征中噪声或静音段减少,且完整保留了唤醒词对应的特征,得到的第二语音特征不会有唤醒词缺失的情况,更加准确有效。
[0195] 其中,该置信度和目标路径可以基于目标算法实现,例如,该目标算法可以为viterbi算法。上述步骤204中,计算机设备利用viterbi算法计算最优路径以及唤醒置信度,如果唤醒置信度大于设定阈值则判断唤醒,同时根据最优路径可以得到相应的唤醒词长度(第一长度)。利用唤醒词长度可以截取出唤醒词对应特征重新进行分类进行校验。例如,再次分类可以采用二级模型实现。
[0196] 该步骤204中具体的特征提取步骤与步骤202同理,在此不多做赘述。
[0197] 205、计算机设备对该第二语音特征进行插值处理,得到第三语音特征,该第三语音特征的长度为目标长度。
[0198] 插值是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。在图像领域中,插值用来填充图像变换时像素之间的空隙。在本实施例中,插值用来补充语音特征,得到目标长度的第三语音特征。
[0199] 可选地,计算机设备可以计算第二语音特征中相邻的两个语音特征的均值,将该均值插入该相邻的两个语音特征之间。当然,该过程也可以不采用均值插值方法,而是采用中值插值、临近插值、双线性插值等插值方法,本申请实施例对此不作限定。
[0200] 206、计算机设备对该第三语音特征进行分类,确定该待处理语音是否为唤醒语音。
[0201] 该步骤206与上述步骤203同理,在此不多作赘述。同理的,在一种可能实现方式中,计算机设备可以将该第三语音特征输入该语音处理模型中,由该语音处理模型执行对第三语音特征的分类步骤,确定该待处理语音是否为唤醒语音。
[0202] 下面对语音处理模型进行介绍。
[0203] 在一种可能实现方式中,该语音处理模型包括第一语音处理模块和第二语音处理模块;该第一语音处理模块用于执行该分类步骤,输出该分类结果;该第二语音处理模块用于执行对第三语音特征的分类步骤,确定该待处理语音是否为唤醒语音。
[0204] 通过两个语音处理模块执行两次分类步骤,对语音进行二次分类验证,能够有效避免误唤醒,提高唤醒成功率和准确率。
[0205] 对于语音处理模型的训练过程,两个语音处理模块可以单独训练,也可以联合训练。下面提供两种训练方式,本申请实施例对具体采用哪种方式不作限定。
[0206] 在训练方式一中,计算机设备可以通过下述步骤一至步骤三实现。
[0207] 步骤一、计算机设备获取样本语音以及样本语音对应的目标分类结果,该目标分类结果用于指示该样本语音是否为唤醒语音。
[0208] 步骤二、计算机设备对该样本语音进行特征提取,得到第一语音特征。
[0209] 步骤三、计算机设备基于该第一语音特征和该目标分类结果,分别对该语音处理模型中该第一语音处理模块和该第二语音处理模块进行训练,得到训练好的第一语音处理模块和第二语音处理模块。
[0210] 在该步骤三中,对于第一语音处理模块的训练过程,计算机设备可以将该第一语音特征输入语音识别模型中,由该语音识别模型对该第一语音特征进行识别,得到该第一语音特征对应的目标识别结果,将该第一语音特征输入语音处理模型的第一语音处理模块中,由该第一语音处理模块对第一语音特征进行识别,基于识别得到的音素进行分类,得到第一预测分类结果,根据该第一预测分类结果、该目标分类结果、识别得到的音素以及目标识别结果,对该第一语音处理模块的模型参数进行更新。
[0211] 该语音识别模型用于确定第一语音特征对应的音素。该语音识别模型可以为已训练好的模型。例如,计算机设备将第一语音特征送入一个已训练好的自动语音识别(Automatic Speech Recognition,ASR)模型进行强制对齐得到对应标签,该对应标签用于指示第一语音特征对应的音素。
[0212] 对于第二语音处理模块的训练过程,计算机设备可以对该第一语音特征进行语音活性检测,根据检测结果,从该第一语音特征中截取得到目标语音特征片段,根据该目标语音特征片段对应的目标分类结果,对该目标语音特征片段进行处理,得到目标长度的语音特征,将该目标长度的语音特征输入该语音处理模型的第二语音处理模块中,由该第二语音处理模块对该目标长度的语音特征进行分类,得到第二预测分类结果,基于该第二预测分类结果与该目标分类结果,对该第二语音处理模块的模型参数进行更新。
[0213] 其中,计算机设备在根据该目标语音特征片段对应的目标分类结果,对该目标语音特征片段进行处理时,能够先确定出唤醒词一般的长度,再对目标语音特征片段进行处理。唤醒语音和非唤醒语音的处理方式也不同。
[0214] 具体地,计算机设备统计第一目标语音特征片段的长度,该第一目标语音特征片段的目标分类结果指示该第一目标语音特征片段对应的样本语音为唤醒语音,根据统计结果,确定目标长度,对该第一目标语音特征片段进行插值处理,得到目标长度的第二语音特征。计算机设备可以对第二目标语音特征片段进行裁剪或拼接,得到目标长度的语音特征,该第二目标语音特征片段的目标分类结果指示第二目标语音特征片段对应的样本语音不是唤醒语音。
[0215] 在训练方式二中,计算机设备可以通过下述步骤A至步骤D实现。
[0216] 步骤A、获取样本语音以及样本语音对应的目标分类结果,该目标分类结果用于指示该样本语音是否为唤醒语音。该目标分类结果是真实的、正确的分类结果。以此作为标签,能够指导模型输出正确的结果。
[0217] 步骤B、对该样本语音进行特征提取,将提取到的第一语音特征输入语音处理模型的第一语音处理模块中,由该第一语音处理模块对第一语音特征进行分类,得到第一预测分类结果。
[0218] 步骤C、基于该第一预测分类结果,获取第二语音特征,将该第二语音特征输入该语音处理模型的第二语音处理模块中,由该第二语音处理模块对该第二语音特征进行分类,得到第二预测分类结果。
[0219] 在该步骤C中,计算机设备可以通过第一预测分类结果,确定目标长度,这样目标长度基于大量样本语音的分类结果确定,更加准确。具体的,计算机设备统计第一样本语音的唤醒词的长度,该第一样本语音的第一预测分类结果指示该第一样本语音为唤醒语音,根据统计结果,确定目标长度,对该第一语音特征或该第一样本语音进行特征提取得到的语音特征进行插值处理,得到目标长度的第二语音特征。可选地,该目标长度可以为唤醒语音中唤醒词的平均长度。当然,也可以不采用平均的方式,而是其他方式,对此不作限定。
[0220] 步骤D、基于该第一预测分类结果、该第二预测分类结果与该目标分类结果,对该第一语音处理模块和该第二语音处理模块的模型参数进行更新,直至符合目标条件时停止,得到该语音处理模型。
[0221] 训练方式不同时该更新步骤则可以不同。下面提供两种可能的模型参数更新方式(方式X和方式Y),本申请实施例对此不作限定。
[0222] 方式X、基于该第一预测分类结果和该目标分类结果,获取第一损失值,基于该第一损失值对该第一语音处理模块的模型参数进行更新;基于该第二预测分类结果和该目标分类结果,获取第二损失值,基于该第二损失值对该第一语音处理模块的模型参数进行更新。
[0223] 在该方式X中,两个语音处理模块分别基于输出结果和真实结果(也即是目标分类结果)进行损失值的计算,来调整模型参数。
[0224] 方式Y、基于该第一预测分类结果和该目标分类结果,获取第一损失值;基于该第二预测分类结果和该目标分类结果,获取第二损失值;基于该第一损失值和该第二损失值,获取目标损失值,基于该目标损失值对该第一语音处理模块和该第二语音处理模块的模型参数进行更新。
[0225] 在该方式Y中,两个语音处理模块联合起来训练,目标损失值综合考虑到了每个模块的性能,且通过联合训练,能够整体上提高语音处理模型的性能。
[0226] 可选地,该语音处理模型可以采用深度神经网络(Deep Neural Networks, DNN)网络结构,当然也可以采用其他结构,本实施例对此不作限定。
[0227] 上述对唤醒语音进行了插值处理,得到了二次分类的样本语音特征,为了使得模型准确性更好,计算机设备也可以对非唤醒语音进行处理,得到样本进行训练。具体的,计算机设备可以采用下述方式M和方式N中任一种来实现。
[0228] 方式M、对该第二样本语音的第一语音特征或该第二样本语音进行特征提取得到的语音特征进行裁剪,得到目标长度的语音特征,该第二样本语音的第一预测分类结果指示该第二样本语音不是唤醒语音。
[0229] 方式N、对该第二样本语音的第一语音特征或该第二样本语音进行特征提取得到的语音特征进行拼接,得到目标长度的语音特征,该第二样本语音的第一预测分类结果指示该第二样本语音不是唤醒语音。
[0230] 具体采用哪种可以根据语音特征的长度与目标长度的大小关系确定,本实施例对此不作限定。
[0231] 在模型参数调整时,能够根据预测值和真值,确定损失值,基于损失值调整,利用反向传播原理迭代更新网络参数。该损失值可以通过损失值函数确定。例如,该损失(Loss)函数可以为交叉熵函数。
[0232] 相应的,对于目标条件,该目标条件可以为损失值收敛,也可以为迭代次数达到目标次数,本申请实施例对此不作限定。
[0233] 在一种可能实现方式中,如果通过两次验证,均确定该待处理语音为唤醒语音,则可以唤醒目标设备。也即是,电子设备可以响应于该待处理语音为唤醒语音,唤醒目标设备。如果该计算机设备即为待唤醒的设备,该计算机设备唤醒。例如,计算机设备可以亮屏。如果计算机设备仅提供语音处理功能,则计算机设备发送唤醒指令给目标设备,以唤醒目标设备。
[0234] 207、计算机设备忽略该待处理语音。
[0235] 如果步骤203中,计算机设备确定待处理语音不是唤醒语音,则无需再次分类验证,从而能够减少耗时,提高处理效率。可选地,该步骤207在置信度大于置信度阈值时执行。
[0236] 本公开实施例提供的技术方案,通过一次分类,初步确定待处理语音是否为唤醒语音后,在确定是的情况下,进行二次分类验证,通过两次分类,能够避免误唤醒,提高唤醒准确率。且在二次验证时基于一次分类的分类结果进行特征提取,以插值的方式来得到目标长度,这样并未限定特征提取的语音特征的长度,能够有效避免语音特征中包括静音段或唤醒词不全的情况,进而提高了唤醒准确率和成功率。
[0237] 图3是本公开实施例提供的一种唤醒语音确定装置结构示意图,参见图3,该装置包括:
[0238] 特征提取模块301,用于对待处理语音进行特征提取,得到该待处理语音的第一语音特征;
[0239] 分类模块302,用于对该第一语音特征进行分类,得到分类结果;
[0240] 该特征提取模块301,还用于响应于该分类结果指示该待处理语音为唤醒语音,基于该分类结果,获取第二语音特征;
[0241] 插值模块303,用于对该第二语音特征进行插值处理,得到第三语音特征,该第三语音特征的长度为目标长度;
[0242] 该分类模块302,还用于对该第三语音特征进行分类,确定该待处理语音是否为唤醒语音。
[0243] 在一种可能实现方式中,该分类模块302用于:
[0244] 对该第一语音特征进行识别,得到每个第一语音特征对应的音素;
[0245] 基于该第一语音特征的识别结果,对该第一语音特征进行分类,得到该分类结果。
[0246] 在一种可能实现方式中,分类结果包括该待处理语音为唤醒语音的置信度和该第一语音特征中唤醒词的目标路径;
[0247] 该特征提取模块301用于执行下述任一项:
[0248] 响应于该置信度大于置信度阈值,基于该分类结果中该目标路径,确定第一长度;基于该第一长度,对该第一语音特征进行截取,得到该第二语音特征;
[0249] 响应于该置信度大于置信度阈值,基于该分类结果中该目标路径,确定第一长度;基于该第一长度,从该待处理语音中截取该第一长度的语音;对该截取得到的语音进行特征提取,得到该第二语音特征。
[0250] 在一种可能实现方式中,该分类模块302用于将该第一语音特征输入语音处理模型中,由该语音处理模型执行分类步骤输出该分类结果。
[0251] 在一种可能实现方式中,该分类模块302用于将该第三语音特征输入该语音处理模型中,由该语音处理模型执行对第三语音特征的分类步骤,确定该待处理语音是否为唤醒语音。
[0252] 在一种可能实现方式中,该语音处理模型包括第一语音处理模块和第二语音处理模块;该第一语音处理模块用于执行该分类步骤,输出该分类结果;该第二语音处理模块用于执行对第三语音特征的分类步骤,确定该待处理语音是否为唤醒语音。
[0253] 在一种可能实现方式中,该语音处理模型的训练过程包括:
[0254] 获取样本语音以及样本语音对应的目标分类结果,该目标分类结果用于指示该样本语音是否为唤醒语音;
[0255] 对该样本语音进行特征提取,得到第一语音特征;
[0256] 基于该第一语音特征和该目标分类结果,分别对该语音处理模型中该第一语音处理模块和该第二语音处理模块进行训练,得到训练好的第一语音处理模块和第二语音处理模块。
[0257] 在一种可能实现方式中,该第一语音处理模块的训练过程包括:
[0258] 将该第一语音特征输入语音识别模型中,由该语音识别模型对该第一语音特征进行识别,得到该第一语音特征对应的目标识别结果;
[0259] 将该第一语音特征输入语音处理模型的第一语音处理模块中,由该第一语音处理模块对第一语音特征进行识别,基于识别得到的音素进行分类,得到第一预测分类结果;
[0260] 根据该第一预测分类结果、该目标分类结果、识别得到的音素以及目标识别结果,对该第一语音处理模块的模型参数进行更新。
[0261] 在一种可能实现方式中,该第二语音处理模块的训练过程包括:
[0262] 对该第一语音特征进行语音活性检测,根据检测结果,从该第一语音特征中截取得到目标语音特征片段;
[0263] 根据该目标语音特征片段对应的目标分类结果,对该目标语音特征片段进行处理,得到目标长度的语音特征;
[0264] 将该目标长度的语音特征输入该语音处理模型的第二语音处理模块中,由该第二语音处理模块对该目标长度的语音特征进行分类,得到第二预测分类结果;
[0265] 基于该第二预测分类结果与该目标分类结果,对该第二语音处理模块的模型参数进行更新。
[0266] 在一种可能实现方式中,该根据该目标语音特征片段对应的目标分类结果,对该目标语音特征片段进行处理,包括:
[0267] 统计第一目标语音特征片段的长度,该第一目标语音特征片段的目标分类结果指示该第一目标语音特征片段对应的样本语音为唤醒语音;
[0268] 根据统计结果,确定目标长度;
[0269] 对该第一目标语音特征片段进行插值处理,得到目标长度的第二语音特征;
[0270] 对第二目标语音特征片段进行裁剪或拼接,得到目标长度的语音特征,该第二目标语音特征片段的目标分类结果指示第二目标语音特征片段对应的样本语音不是唤醒语音。
[0271] 在一种可能实现方式中,该语音处理模型的训练过程包括:
[0272] 获取样本语音以及样本语音对应的目标分类结果,该目标分类结果用于指示该样本语音是否为唤醒语音;
[0273] 对该样本语音进行特征提取,将提取到的第一语音特征输入语音处理模型的第一语音处理模块中,由该第一语音处理模块对第一语音特征进行分类,得到第一预测分类结果;
[0274] 基于该第一预测分类结果,获取第二语音特征,将该第二语音特征输入该语音处理模型的第二语音处理模块中,由该第二语音处理模块对该第二语音特征进行分类,得到第二预测分类结果;
[0275] 基于该第一预测分类结果、该第二预测分类结果与该目标分类结果,对该第一语音处理模块和该第二语音处理模块的模型参数进行更新,直至符合目标条件时停止,得到该语音处理模型。
[0276] 在一种可能实现方式中,该基于该第一预测分类结果、该第二预测分类结果与该目标分类结果,对该第一语音处理模块和该第二语音处理模块的模型参数进行更新,包括下述任一项:
[0277] 基于该第一预测分类结果和该目标分类结果,获取第一损失值,基于该第一损失值对该第一语音处理模块的模型参数进行更新;基于该第二预测分类结果和该目标分类结果,获取第二损失值,基于该第二损失值对该第一语音处理模块的模型参数进行更新;
[0278] 基于该第一预测分类结果和该目标分类结果,获取第一损失值;基于该第二预测分类结果和该目标分类结果,获取第二损失值;基于该第一损失值和该第二损失值,获取目标损失值,基于该目标损失值对该第一语音处理模块和该第二语音处理模块的模型参数进行更新。
[0279] 在一种可能实现方式中,该装置还包括:
[0280] 拼接模块,用于对该第二样本语音的第一语音特征或该第二样本语音进行特征提取得到的语音特征进行拼接,得到目标长度的语音特征,该第二样本语音的第一预测分类结果指示该第二样本语音不是唤醒语音。
[0281] 在一种可能实现方式中,该装置还包括:
[0282] 唤醒模块,用于响应于该待处理语音为唤醒语音,唤醒目标设备。
[0283] 在一种可能实现方式中,该装置还包括:
[0284] 忽略模块,用于响应于该分类结果指示该待处理语音不是唤醒语音,忽略该待处理语音。
[0285] 本公开实施例提供的装置,通过一次分类,初步确定待处理语音是否为唤醒语音后,在确定是的情况下,进行二次分类验证,通过两次分类,能够避免误唤醒,提高唤醒准确率。且在二次验证时基于一次分类的分类结果进行特征提取,以插值的方式来得到目标长度,这样并未限定特征提取的语音特征的长度,能够有效避免语音特征中包括静音段或唤醒词不全的情况,进而提高了唤醒准确率和成功率。
[0286] 需要说明的是:上述实施例提供的唤醒语音确定装置在确定唤醒语音时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的唤醒语音确定装置与唤醒语音确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0287] 图4是本公开实施例提供的一种终端的结构示意图。该终端可以是:智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。该终端还可以是安装在中控上的语音智能终端嵌入式设备。
[0288] 通常,终端400包括有:一个或多个处理器401和一个或多个存储器402。
[0289] 处理器401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器401可以在集成有GPU(Graphics Processing Unit,图像处理器), GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
[0290] 存储器402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器401所执行以实现本公开中方法实施例提供的唤醒语音确定方法。
[0291] 在一些实施例中,终端400还可选包括有:外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地,外围设备包括:射频电路
404、显示屏405、摄像头组件406、音频电路407、定位组件408和电源409中的至少一种。
[0292] 外围设备接口403可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中,处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上;在一些其他实施例中,处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0293] 射频电路404用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路404包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路404还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
[0294] 显示屏405用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时,显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时,显示屏405还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏405可以为一个,设置终端400的前面板;在另一些实施例中,显示屏405可以为至少两个,分别设置在终端400的不同表面或呈折叠设计;在再一些实施例中,显示屏405可以是柔性显示屏,设置在终端400的弯曲表面上或折叠面上。甚至,显示屏405还可以设置成非矩形的不规则图形,也即异形屏。显示屏405可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
[0295] 摄像头组件406用于采集图像或视频。可选地,摄像头组件406包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0296] 音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器401进行处理,或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路
404的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路407还可以包括耳机插孔。
[0297] 定位组件408用于定位终端400的当前地理位置,以实现导航或LBS(Location Based  Service,基于位置的服务)。定位组件408可以是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
[0298] 电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
[0299] 在一些实施例中,终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于:加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。
[0300] 加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号,控制显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。
[0301] 陀螺仪传感器412可以检测终端400的机体方向及转动角度,陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0302] 压力传感器413可以设置在终端400的侧边框和/或显示屏405的下层。当压力传感器413设置在终端400的侧边框时,可以检测用户对终端400的握持信号,由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在显示屏405的下层时,由处理器401根据用户对显示屏405的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0303] 指纹传感器414用于采集用户的指纹,由处理器401根据指纹传感器414采集到的指纹识别用户的身份,或者,由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器401授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时,指纹传感器414可以与物理按键或厂商Logo集成在一起。
[0304] 光学传感器415用于采集环境光强度。在一个实施例中,处理器401可以根据光学传感器415采集的环境光强度,控制显示屏405的显示亮度。具体地,当环境光强度较高时,调高显示屏405的显示亮度;当环境光强度较低时,调低显示屏405的显示亮度。在另一个实施例中,处理器401还可以根据光学传感器415采集的环境光强度,动态调整摄像头组件406的拍摄参数。
[0305] 接近传感器416,也称距离传感器,通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中,当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时,由处理器401控制显示屏405从亮屏状态切换为息屏状态;当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时,由处理器401控制显示屏405从息屏状态切换为亮屏状态。
[0306] 本领域技术人员可以理解,图4中示出的结构并不构成对终端400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0307] 图5是本公开实施例提供的一种服务器的结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processing units,CPU)501和一个或多个的存储器502,其中,该一个或多个存储器502中存储有至少一条指令,该至少一条指令由该一个或多个处理器501加载并执行以实现上述各个方法实施例提供的唤醒语音确定方法。当然,该服务器500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器500还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0308] 在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由处理器执行以完成上述实施例中的唤醒语音确定方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘 (Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
[0309] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0310] 上述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。