一种面向智能机器人的音频处理方法和装置转让专利

申请号 : CN201610028052.9

文献号 : CN105719670B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郭家

申请人 : 北京光年无限科技有限公司

摘要 :

本发明公开了一种面向智能机器人的音频处理方法和装置,该音频处理方法包括音频信息采集步骤,采集用户输入的音频信息;音频信息处理步骤,对音频信息进行预处理,得到录音时间数据,录音时间数据包括平均单字时间t3和最大单字时间t4;自然语言理解步骤,解析音频信息中的文字,得到自然语言理解结果;录音时间判断步骤,对平均单字时间t3、最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断。本发明可以优化机器人答案输出时机,提高应答准确性。

权利要求 :

1.一种面向智能机器人的音频处理方法,包括:音频信息采集步骤,采集用户输入的音频信息;

音频信息处理步骤,对所述音频信息进行预处理,得到录音时间数据,所述录音时间数据包括平均单字时间t3和最大单字时间t4;

自然语言理解步骤,解析所述音频信息中的文字,得到自然语言理解结果;

录音时间判断步骤,对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断,当判断结果符合结束录音条件时,生成结束录音指示。

2.根据权利要求1所述的音频处理方法,其特征在于,所述录音时间判断步骤,包括:比对零音量持续时间t5与预设音频结束时间t0,当t5>t0时,结束录音;

比对零音量持续时间t5与所述平均单字时间t3,当t5>t3且所述自然语言理解结果指示录音结束时,结束录音;

比对零音量持续时间t5与所述最大单字时间t4,当t5>t4时结束录音,以及,调整t0值使其值逐渐降低以趋近于所述最大单字时间t4。

3.根据权利要求2所述的音频处理方法,其特征在于,得到所述最大单字时间t4,包括:在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2;

根据连续n次录音中所有单次录音的单字时间t2,获取所述最大单字时间t4。

4.根据权利要求2所述的音频处理方法,其特征在于,得到所述平均单字时间t3,包括:在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2;

根据连续n次录音中所有单次录音的单字时间t2,获取所述平均单字时间t3。

5.根据权利要求3或4所述的音频处理方法,其特征在于,所述单字时间t2通过下式计算得到:t2=t1/a或t2=(t1/a+t1/(a-1))/2其中,a为有音量持续时间t1内识别出来的文字个数。

6.一种面向智能机器人的音频处理装置,包括:音频信息采集模块,采集用户输入的音频信息;

音频信息处理模块,对所述音频信息进行预处理,得到录音时间数据,所述录音时间数据包括平均单字时间t3和最大单字时间t4;

自然语言理解模块,解析所述音频信息中的文字,得到自然语言理解结果;

录音时间判断模块,对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断,当判断结果符合结束录音条件时,生成结束录音指示。

7.根据权利要求6所述的音频处理装置,其特征在于,所述录音时间判断模块,用于:比对零音量持续时间t5与预设音频结束时间t0,当t5>t0时,结束录音;

比对零音量持续时间t5与所述平均单字时间t3,当t5>t3且所述自然语言理解结果指示录音结束时,结束录音;

比对零音量持续时间t5与所述最大单字时间t4,当t5>t4时结束录音,以及,调整t0值使其值逐渐降低以趋近于所述最大单字时间t4。

8.根据权利要求7所述的音频处理装置,其特征在于,所述音频信息处理模块包括:第一单字时间计算单元,在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2;

最大单字时间计算单元,根据连续n次录音中所有单次录音的单字时间t2,获取所述最大单字时间t4。

9.根据权利要求7所述的音频处理装置,其特征在于,所述音频信息处理模块包括:第二单字时间计算单元,在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2;

平均单字时间计算单元,根据连续n次录音中所有单次录音的单字时间t2,获取所述平均单字时间t3。

10.一种面向智能机器人的音频处理装置,包括:音频信息采集电路,采集用户输入的音频信息;

处理器,对所述音频信息进行预处理,得到录音时间数据,所述录音时间数据包括平均单字时间t3和最大单字时间t4,解析所述音频信息中的文字,得到自然语言理解结果,对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断,当判断结果符合结束录音条件时,生成结束录音指示,其中,所述处理器对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断,包括:比对零音量持续时间t5与预设音频结束时间t0,当t5>t0时,结束录音;

比对零音量持续时间t5与所述平均单字时间t3,当t5>t3且所述自然语言理解结果指示录音结束时,结束录音;

比对零音量持续时间t5与所述最大单字时间t4,当t5>t4时结束录音,以及,调整t0值使其值逐渐降低以趋近于所述最大单字时间t4。

说明书 :

一种面向智能机器人的音频处理方法和装置

技术领域

[0001] 本发明涉及语音识别及处理技术领域,具体地说,涉及一种面向智能机器人的音频处理方法和装置。

背景技术

[0002] 智能机器人是一个多种高新技术的集合体,它融合了机械、电子、传感器、计算机硬件、软件、人工智能等许多学科的知识,涉及到当今许多前沿领域的技术。
[0003] 在智能机器人在与用户交互过程中,通常先预设一个固定时间,在录音时,检测用户不说话的时间是否达到了这个预设的固定时间。如果达到了该预设的固定时间,则停止录音。
[0004] 但是,以上通过预设固定时间停止录音的方式,会出现录音结束时机不准确的问题,进而影响智能机器人答案输出时机,降低应答时间准确性及用户体验。

发明内容

[0005] 为解决以上问题,本发明提供了一种面向智能机器人的音频处理方法和装置,用以优化机器人答案输出时机,提高应答准确性。
[0006] 根据本发明的一个方面,提供了一种面向智能机器人的音频处理方法,包括:
[0007] 音频信息采集步骤,采集用户输入的音频信息;
[0008] 音频信息处理步骤,对所述音频信息进行预处理,得到录音时间数据,所述录音时间数据包括平均单字时间t3和最大单字时间t4;
[0009] 自然语言理解步骤,解析所述音频信息中的文字,得到自然语言理解结果;
[0010] 录音时间判断步骤,对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断,当判断结果符合结束录音条件时,生成结束录音指示。
[0011] 根据本发明的一个实施例,录音时间判断步骤包括:
[0012] 比对零音量持续时间t5与预设音频结束时间t0,当t5>t0时,结束录音;
[0013] 比对零音量持续时间t5与所述平均单字时间t3,当t5>t3且所述自然语言理解结果指示录音结束时,结束录音;
[0014] 比对零音量持续时间t5与所述最大单字时间t4,当t5>t4时结束录音,以及,调整t0值趋近于所述最大单字时间t4。
[0015] 根据本发明的一个实施例,得到所述最大单字时间t4,包括:
[0016] 在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2;
[0017] 根据连续n次录音中所有单次录音的单字时间t2,获取所述最大单字时间t4。
[0018] 根据本发明的一个实施例,得到所述平均单字时间t3,包括:
[0019] 在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2;
[0020] 根据连续n次录音中所有单次录音的单字时间t2,获取所述平均单字时间t3。
[0021] 根据本发明的一个实施例,所述单字时间t2通过下式计算得到:
[0022] t2=t1/a或t2=(t1/a+t1/(a-1))/2
[0023] 其中,a为有音量持续时间t1内识别出来的文字个数。
[0024] 根据本发明的另一个方面,还提供了一种面向智能机器人的音频处理装置,包括:
[0025] 音频信息采集模块,采集用户输入的音频信息;
[0026] 音频信息处理模块,对所述音频信息进行预处理,得到录音时间数据,所述录音时间数据包括平均单字时间t3和最大单字时间t4;
[0027] 自然语言理解模块,解析所述音频信息中的文字,得到自然语言理解结果。
[0028] 录音时间判断模块,对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断,当判断结果符合结束录音条件时,生成结束录音指示。
[0029] 根据本发明的一个实施例,所述录音时间判断模块用于:
[0030] 比对零音量持续时间t5与预设音频结束时间t0,当t5>t0时,结束录音;
[0031] 比对零音量持续时间t5与所述平均单字时间t3,当t5>t3且所述自然语言理解结果指示录音结束时,结束录音;
[0032] 比对零音量持续时间t5与所述最大单字时间t4,当t5>t4时结束录音,以及,调整t0值趋近于所述最大单字时间t4。
[0033] 根据本发明的一个实施例,所述音频信息处理模块包括:
[0034] 第一单字时间计算单元,在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2;
[0035] 最大单字时间计算单元,根据连续n次录音中所有单次录音的单字时间t2,获取所述最大单字时间t4。
[0036] 根据本发明的一个实施例,所述音频信息处理模块包括:
[0037] 第二单字时间计算单元,在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2;
[0038] 平均单字时间计算单元,根据连续n次录音中所有单次录音的单字时间t2,获取所述平均单字时间t3。
[0039] 根据本发明的又一个方面.还提供了一种面向智能机器人的音频处理装置,包括:
[0040] 音频信息采集电路,采集用户输入的音频信息;
[0041] 处理器,对所述音频信息进行预处理,得到录音时间数据,所述录音时间数据包括平均单字时间t3和最大单字时间t4,
[0042] 解析所述音频信息中的文字,得到自然语言理解结果,
[0043] 对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断,当判断结果符合结束录音条件时,生成结束录音指示,[0044] 其中,所述处理器对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断,包括:
[0045] 比对零音量持续时间t5与预设音频结束时间t0,当t5>t0时,结束录音;
[0046] 比对零音量持续时间t5与所述平均单字时间t3,当t5>t3且所述自然语言理解结果指示录音结束时,结束录音;
[0047] 比对零音量持续时间t5与所述最大单字时间t4,当t5>t4时结束录音,以及,调整t0值趋近于所述最大单字时间t4。
[0048] 本发明的有益效果:
[0049] 本发明提供的一种面向智能机器人的音频处理方法和装置,通过判断多个表征语速的参量,通过对参量的判断,对录音停止时机进行精确控制,并根据不同用户说话语速及词句间隔针对个体用户进行语速学习,从而优化机器人答案输出时机,提高应答准确性。
[0050] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

[0051] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图做简单的介绍:
[0052] 图1是根据本发明的一个实施例的方法流程图;
[0053] 图2是根据本发明的一个实施例的平均单字时间t3确定步骤流程图;
[0054] 图3是根据本发明的一个实施例的最大单字时间t4确定步骤流程图;
[0055] 图4是根据本发明的一个实施例的一种面向智能机器人的音频处理装置结构示意图;
[0056] 图5是根据本发明的一个实施例的音频信息处理模块中确定最大单字时间的结构示意图;
[0057] 图6是根据本发明的一个实施例的音频信息处理模块中确定平均单字时间的结构示意图;以及
[0058] 图7是根据本发明的一个实施例的一种面向智能机器人的音频处理装置中音频信息处理模块结构示意图。

具体实施方式

[0059] 以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
[0060] 如图1所示为根据本发明的一个实施例的一种面向智能机器人的音频处理方法流程图,以下参考图1来对本发明进行详细说明。
[0061] 首先,步骤S110,音频信息采集步骤,即采集用户输入的音频信息。具体的,在该步骤中,在用户说话时,智能机器人开始采集接收用户的语音信息。
[0062] 接下来是步骤S120,音频信息处理步骤,即对接收的音频信息进行预处理,得到录音时间数据。该录音时间数据包括平均单字时间t3和最大单字时间t4。
[0063] 平均单字时间t3表示的是用户说话时停留在单字上的时间。在确定用户说话的平均单字时间t3时,是通过用户连续n次录音信息的平均值计算得到的。
[0064] 具体的,包括如图2所示的以下几个步骤:
[0065] 首先是步骤S210,在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2。此处需要注意的是,在前面的n次录音过程中,是通过预先设定的用户说话结束时间(end of speech,EOS)来将各个录音过程区分开的。
[0066] EOS时间指的是用户录音时,从用户说完最后一个字到程序停止录音的时间。该EOS时间可预设为某一固定值t0,如3秒。通过设置EOS时间可以对前面连续n次的录音过程进行区分。
[0067] 在设定好EOS时间t0后,则可以对区分后的单次录音过程进行处理。在单次录音中,基于音量随时间变化的具体数值计算从开始有音量到最后一次出现音量的时间音量持续时间t1(即有音量持续时间),并统计在该段时间t1内通过连续语音识别出来的文字个数。
[0068] 此处的音量指的是对用户说话进行降噪处理后的音量,排除降噪算法对降噪后遗留噪音的音量,即假设降噪效果是完美降噪,认为降噪后如果用户没有说话,音量等于零。具体的,记录单次录音过程中音量随时间变化的具体数值,如第1毫秒30分贝,第2毫秒70分贝等。通过检测音量随时间变化的具体数值可以计算出在该次录音中从开始有音量到最后一次出现音量的时间t1。同时,在单次录音过程中进行连续语音识别,并统计在该单次录音过程中连续语音识别出来的文字个数。
[0069] 在有音量持续时间t1和识别出来的文字个数确定后,计算单次录音中的单字时间t2。
[0070] 具体的,单次录音中的单字时间t2可以通过下式计算得到:
[0071] t2=t1/a    (1)
[0072] 其中,t2为单次录音中的单字时间,t1为单次录音中的有音量持续时间,a为单次录音过程中有音量持续时间t1内连续语音识别出来的文字个数。
[0073] 或者,也可以通过下式计算出单次录音中的单字时间t2:
[0074] t2=(t1/a+t1/(a-1))/2    (2)
[0075] 通过式(2)计算单次录音过程中单字时间的平均值,可以得到更接近用户说话的单字时间。
[0076] 接着是步骤S220,根据连续n次录音中所有单次录音的单字时间t2,获取平均单字时间t3。
[0077] 根据连续n次录音中的所有单次录音的单字时间,计算用户说话平均单字时间t3。具体的,连续n次录音后,计算n次中所有单字时间t2的平均值t3。此处的n可以优选一个预设值,比如10。
[0078] 需注意的是,在单次录音过程中,当检测到音量为零的持续时间t5达到预定值t0时,则视为用户不再说话,该次录音结束。并且,在录音过程中出现音量为零时,则以该音量为零值时刻为基准从零开始记时为t5。当在录音过程中再次出现音量为零时,则以该再次音量为零值时刻为基准重新从零开始记时,即t5重新从零开始计时。这样,就可以保证各输出文字之间为零的持续时间及说话结束后音量为零的持续时间的准确性。
[0079] 最大单字时间t4指的是用户在连续n次录音过程中,说话时单字时间的最大值。在确定用户说话的最大单字时间t4时,是通过统计用户连续n次录音信息的所有单字时间得到的。
[0080] 具体的,包括如图3所示的以下几个步骤:
[0081] 首先是步骤S310,在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2。
[0082] 此处需要注意的是,在前面的n次录音过程中,是通过预先设定的用户说话结束时间(end of speech,EOS)来将各个录音过程区分开的,该EOS时间可预设为某一固定值t0,通过设置EOS时间可以对前面连续n次的录音过程进行区分。
[0083] 在设定好EOS时间t0后,则可以对区分后的单次录音过程进行处理。在单次录音中,基于音量随时间变化的具体数值计算从开始有音量到最后一次出现音量的时间音量持续时间t1(即有音量持续时间),并统计在该段时间t1内通过连续语音识别出来的文字个数。
[0084] 此处的音量指的是对用户说话进行降噪处理后的音量,排除降噪算法对降噪后遗留噪音的音量,即假设降噪效果是完美降噪,认为降噪后如果用户没有说话,音量等于零。具体的,记录单次录音过程中音量随时间变化的具体数值,如第1毫秒30分贝,第2毫秒70分贝等。通过检测音量随时间变化的具体数值可以计算出在该次录音中从开始有音量到最后一次出现音量的时间t1。同时,在单次录音过程中进行连续语音识别,并统计在该单次录音过程中连续语音识别出来的文字个数。
[0085] 接着计算单次录音中的单字时间t2。具体的,单次录音中的单字时间可以通过式(1)或式(2)计算得到。
[0086] 最后,在步骤S320中,根据连续n次录音中所有单次录音的单字时间t2,获取用户说话最大单字时间t4。
[0087] 具体的,根据连续n次录音中的所有单次录音的单字时间t2,选择最大的单字时间,即为最大单字时间t4。此处的n可以优选一个预设值。
[0088] 接下来是自然语言理解步骤130,解析音频信息中的文字,得到自然语言理解结果。
[0089] 最后是步骤S140,录音时间判断步骤,对平均单字时间t3、最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断。
[0090] 具体的,在第n+1次录音中,比对零音量持续时间t5与预设音频结束时间t0,如零音量持续时间t5大于预设音频结束时间t0,则结束录音;如零音量持续时间t5大于平均单字时间t3,且所述自然语言理解结果指示录音结束时然语言理解NLU认为录音结束,则结束录音;如零音量持续时间t5大于平均单字时间t3,而自然语言理解NLU不认为录音结束,比对零音量持续时间t5与最大单字时间t4,当t5>t4时结束录音,以及,调整t0值趋近于t4。
[0091] 具体的,在该步骤中,在第n+1次录音中,结束录音的情况分为三种。其中的一种为如检测到零音量持续时间t5大于预设音频结束时间t0,则结束录音。该预设音频结束时间t0是在录音过程开始前设定的。
[0092] 预设音频结束时间t0会设定的大于用户语速及词句间隔。此时,为提高应答输出时机,在第n+1次及以后的持续检测过程中,预设音频结束时间t0其值逐渐降低以趋近最大单字时间t4。
[0093] 第二种情况是,如检测到零音量持续时间t5大于平均单字时间t3,且自然语言理解结果指示录音结束时然语言理解NLU认为录音结束时,则结束录音。具体的,当用户在第n+1次使用语音识别时,如果计算得到的第n+1次录音信息中的零音量持续时间t5大于平均单字时间t3,则基于录音信息的自然语言理解结果判断是否结束录音。
[0094] 如果自然语言理解结果认为用户已经说完话,即发现用户说话的语气词和标点“?”等,则结束录音。
[0095] 否则,如果自然语言理解结果认为用户尚未说完话,如切词发现最后一个词汇不完整,则进入第三种情况,比对零音量持续时间t5与最大单字时间t4,当t5>t4时结束录音,以及,调整t0值趋近于所述t4。
[0096] 需注意的是,针对不同的用户,预设音频结束时间t0与用户说话单字时间值的大小关系不定,其值可能大于用户说话单字时间,也可能小于用户说话单字时间。在前连续n次录音过程中,由于没有最大单字时间t4和平均单字时间t3作参考,在检测到零音量持续时间t5大于预设音频结束时间t0,则结束录音。
[0097] 本实施例提供的一种面向智能机器人的音频处理方法和装置,通过判断多个表征语速的参量,通过对参量的判断,对录音停止时机进行精确控制,并根据不同用户说话语速及词句间隔针对个体用户进行语速学习,从而优化机器人答案输出时机,提高应答准确性。
[0098] 根据本发明的另一个方面,还提供了一种面向智能机器人的音频处理装置。如图4所示,该音频处理装置包括音频信息采集模块、音频信息处理模块和录音时间判断模块。
[0099] 其中,音频信息采集模块,用于采集接收用户输入的音频信息;
[0100] 音频信息处理模块,对音频信息进行预处理,得到录音时间数据,录音时间数据包括平均单字时间t3和最大单字时间t4;
[0101] 自然语言理解模块,解析所述音频信息中的文字,得到自然语言理解结果;
[0102] 录音时间判断模块,对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断。
[0103] 录音时间判断模块对平均单字时间t3、最大单字时间t4和零音量持续时间t5进行判断,生成结束录音指示时包括以下几种情况。比对零音量持续时间t5与预设音频结束时间t0,当t5>t0时,结束录音;比对零音量持续时间t5与所述平均单字时间t3,当t5>t3且所述自然语言理解结果指示录音结束时,结束录音;比对零音量持续时间t5与所述最大单字时间t4,当t5>t4时结束录音,以及,调整t0值趋近于所述t4。
[0104] 在本发明的一个实施例中,音频信息处理模块包括第一单字时间计算单元和最大单字时间计算单元,如图5所示。
[0105] 其中,第一单字时间计算单元在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2;最大单字时间计算单元,根据连续n次录音中所有单次录音的单字时间t2,获取最大单字时间t4。
[0106] 在本发明的一个实施例中,音频信息处理模块包括第二单字时间计算单元和平均单字时间计算单元。
[0107] 其中,第二单字时间计算单元在单次录音中,根据有音量持续时间t1和语音识别得到的文字个数,计算单次录音中的单字时间t2;平均单字时间计算单元根据连续n次录音中所有单次录音的单字时间t2,获取所述平均单字时间t3,如图6所示。
[0108] 由以上分析及图5和图6可知,音频信息处理模块中的第一单字时间计算单元和第二单字时间计算单元完成的功能完全相同,因此,在进行设计时,可以将第一单字时间计算单元和第二单字时间计算单元合并为一个单字时间计算单元,然后在单字时间计算单元后分别设置最大单字时间计算单元和平均单字时间计算模块,如图7所示。
[0109] 根据本发明的又一个方面,还提供了一种面向智能机器人的音频处理装置,该音频处理装置包括音频信息采集电路和处理器。
[0110] 其中,音频信息采集电路用于采集用户输入的录音信息;
[0111] 处理器,对音频信息进行预处理,得到录音时间数据,录音时间数据包括平均单字时间t3和最大单字时间t4,对所述平均单字时间t3、所述最大单字时间t4、零音量持续时间t5和自然语言理解结果进行判断。
[0112] 具体的,处理器对平均单字时间t3、最大单字时间t4和零音量持续时间t5进行判断,生成录音结束指示的情况包括以下几种:
[0113] (1)比对零音量持续时间t5与预设音频结束时间t0,当t5>t0时,结束录音;
[0114] (2)比对零音量持续时间t5与所述平均单字时间t3,当t5>t3且所述自然语言理解结果指示录音结束时,结束录音;
[0115] (3)比对零音量持续时间t5与所述最大单字时间t4,当t5>t4时结束录音,以及,调整t0值趋近于所述t4。
[0116] 综上所述,本发明提供的一种面向智能机器人的音频处理方法和装置,,通过判断多个表征语速的参量,通过对参量的判断,对录音停止时机进行精确控制,并根据不同用户说话语速及词句间隔针对个体用户进行语速学习,从而优化机器人答案输出时机,提高应答准确性。
[0117] 虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。