语音辨识装置及语音辨识方法转让专利

申请号 : CN201510060494.7

文献号 : CN105989835B

文献日 : 2019-08-13

相似专利: 请登录后查看

本发明提供一种语音辨识装置及语音辨识方法。本发明依据低通取样信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量比例值至少其一判断对应目标语音帧的原始语音取样信号是否为辅音信号。本发明可提高辅音信号的辨识准确度。

1.一种语音辨识装置，其特征在于，包括：

一滤波单元，对一语音信号进行低通滤波、一第一辅音频段以及一第二辅音频段的带通滤波，以分别产生一低通滤波信号、一第一带通滤波信号以及一第二带通滤波信号；以及一处理单元，耦接该滤波单元，将该语音信号、该低通滤波信号、该第一带通滤波信号以及该第二带通滤波信号分为多个语音帧，其中各该语音帧包括N个取样信号，N为正整数，计算目标语音帧中取样信号的能量，以获得一原始语音取样信号能量、一低通取样信号能量、一第一辅音频段信号能量以及一第二辅音频段信号能量，依据该第二辅音频段信号能量、该原始语音取样信号能量与该低通取样信号能量的比值计算得到一第二辅音频段信号能量比例值，依据该低通取样信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量比例值至少其一判断对应该目标语音帧的原始语音取样信号是否为辅音信号，其中该处理单元计算该原始语音取样信号能量减去该低通取样信号能量的一能量差值，并计算该第二辅音频段信号能量与该能量差值的比值，以得到该第二辅音频段信号能量比例值。

2.根据权利要求1所述的语音辨识装置，其特征在于，该处理单元还依据该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值判断对应该目标语音帧的原始语音取样信号是否为噪声。

3.根据权利要求2所述的语音辨识装置，其特征在于，该处理单元还判断该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值是否分别落于对应的预设比值范围，若该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值分别落于对应的预设比值范围，则该目标语音帧的原始语音取样信号为噪声信号。

4.根据权利要求1所述的语音辨识装置，其特征在于，该处理单元还依据该低通取样信号能量与该原始语音取样信号能量的比值是否小于一第一预设比值，以及该低通取样信号能量与该原始语音取样信号能量的比值是否位于一预设能量比值范围内且该第二辅音频段信号能量比例值是否大于一第二预设比值，来判断对应该目标语音帧的原始语音取样信号是否为辅音信号。

5.根据权利要求4所述的语音辨识装置，其特征在于，若该低通取样信号能量与该原始语音取样信号能量的比值小于该第一预设比值，或该低通取样信号能量与该原始语音取样信号能量的比值位于该预设能量比值范围内且该第二辅音频段信号能量比例值大于该第二预设比值，该处理单元还计算多个之前被判断为噪声信号的原始语音取样信号的能量加权平均值，以得到一噪声信号能量加权平均值，并依据该目标语音帧所对应的原始语音取样信号能量是否大于该噪声信号能量加权平均值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

6.根据权利要求5所述的语音辨识装置，其特征在于，对应各该被判断为噪声信号的原始语音取样信号的语音帧的加权值随对应各该被判断为噪声信号的原始语音取样信号的语音帧与该目标语音帧的间隔长短不同而改变。

7.根据权利要求5所述的语音辨识装置，其特征在于，该处理单元还计算该目标语音帧与在该目标语音帧之前的多个语音帧对应的低通取样信号能量与原始语音取样信号能量的比值的平均值，以得到一低通取样信号能量比例平均值，并依据该低通取样信号能量比例平均值是否小于一预设平均值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

8.根据权利要求7所述的语音辨识装置，其特征在于，该处理单元还计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的该第一辅音频段信号能量与该第二辅音频段信号能量的和的加权平均值，以得到一辅音频段能量总和加权平均值，并依据该目标语音帧所对应的该原始语音取样信号能量减去该低通取样信号能量所得的差值是否大于该辅音频段能量总和加权平均值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

9.根据权利要求8所述的语音辨识装置，其特征在于，对应各该被判断为噪声信号的原始语音取样信号的语音帧所对应的该第一辅音频段信号能量与该第二辅音频段信号能量的和的加权值随对应各该被判断为噪声信号的原始语音取样信号与该目标语音帧之间的间隔长短不同而改变。

10.根据权利要求8所述的语音辨识装置，其特征在于，该处理单元还依据该原始语音取样信号能量是否大于或等于一下限值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

11.根据权利要求10所述的语音辨识装置，其特征在于，该处理单元还计算该原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算该目标语音帧与该目标语音帧之前的多个语音帧的原始语音取样信号的平均过零率，以得到一第一平均过零率、一第二平均过零率以及一第三平均过零率，并依据该第一平均过零率、该第二平均过零率以及该第三平均过零率是否分别大于或等于其对应的预设平均过零率来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号，该第一过零率、该第二过零率以及该第三过零率分别为在该目标语音帧中该原始语音取样信号通过一第一预设值、一第二预设值以及一第三预设值的次数，该第二预设值小于该第一预设值且大于该第三预设值。

12.根据权利要求11所述的语音辨识装置，其特征在于，该处理单元还依据该第二过零率是否大于或等于一预设过零率来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

13.一种语音辨识方法，其特征在于，包括：

对一语音信号进行低通滤波、一第一辅音频段以及一第二辅音频段的带通滤波，以分别产生一低通滤波信号、一第一带通滤波信号以及一第二带通滤波信号；

将该语音信号、该低通滤波信号、该第一带通滤波信号与该第二带通滤波信号分为多个语音帧，其中各该语音帧包括N个取样信号，N为正整数；

计算目标语音帧中取样信号的能量，以获得一原始语音取样信号能量、一低通取样信号能量、一第一辅音频段信号能量以及一第二辅音频段信号能量；

计算该原始语音取样信号能量减去该低通取样信号能量的一能量差值；

计算该第二辅音频段信号能量与该能量差值的比值，以得到一第二辅音频段信号能量比例值；以及

依据该低通取样信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量比例值至少其一判断对应该目标语音帧的原始语音取样信号是否为辅音信号。

14.根据权利要求13所述的语音辨识方法，其特征在于，还包括：

依据该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值判断对应该目标语音帧的原始语音取样信号是否为噪声。

15.根据权利要求14所述的语音辨识方法，其特征在于，还包括：

判断该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值是否分别落于对应的预设比值范围；以及若该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值分别落于对应的预设比值范围，则该目标语音帧的原始语音取样信号为噪声信号。

16.根据权利要求13所述的语音辨识方法，其特征在于，还包括：

依据该低通取样信号能量与该原始语音取样信号能量的比值是否小于一第一预设比值以及该低通取样信号能量与该原始语音取样信号能量的比值是否位于一预设能量比值范围内且该第二辅音频段信号能量比例值是否大于一第二预设比值，来判断对应该目标语音帧的原始语音取样信号是否为辅音信号。

17.根据权利要求16所述的语音辨识方法，其特征在于，若该低通取样信号能量与该原始语音取样信号能量的比值小于该第一预设比值，或该低通取样信号能量与该原始语音取样信号能量的比值位于该预设能量比值范围内且该第二辅音频段信号能量比例值大于该第二预设比值，该语音辨识方法还包括：计算多个之前被判断为噪声信号的原始语音取样信号的能量加权平均值，以得到一噪声信号能量加权平均值；以及依据该目标语音帧所对应的原始语音取样信号能量是否大于该噪声信号能量加权平均值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

18.根据权利要求17所述的语音辨识方法，其特征在于，对应各该被判断为噪声信号的原始语音取样信号的语音帧的加权值随对应各该被判断为噪声信号的原始语音取样信号的语音帧与该目标语音帧之间的间隔长短不同而改变。

19.根据权利要求17所述的语音辨识方法，其特征在于，还包括：

计算该目标语音帧与在该目标语音帧之前的多个语音帧对应的低通取样信号能量与原始语音取样信号能量的比值的平均值，以得到一低通取样信号能量比例平均值；以及依据该低通取样信号能量比例平均值是否小于一预设平均值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

20.根据权利要求19所述的语音辨识方法，其特征在于，还包括：

计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的该第一辅音频段信号能量与该第二辅音频段信号能量的和的加权平均值，以得到一辅音频段能量总和加权平均值；以及依据该目标语音帧所对应的该原始语音取样信号能量减去该低通取样信号能量所得的差值是否大于该辅音频段能量总和加权平均值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

21.根据权利要求20所述的语音辨识方法，其特征在于，对应各该被判断为噪声信号的原始语音取样信号的语音帧所对应的该第一辅音频段信号能量与该第二辅音频段信号能量的和的加权值随对应各该被判断为噪声信号的原始语音取样信号与该目标语音帧之间的间隔长短不同而改变。

22.根据权利要求20所述的语音辨识方法，其特征在于，还包括：

依据该原始语音取样信号能量是否大于一下限值等于来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

23.根据权利要求22所述的语音辨识方法，其特征在于，还包括：

计算该原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算该目标语音帧与该目标语音帧之前的多个语音帧的原始语音取样信号的平均过零率，以得到一第一平均过零率、一第二平均过零率以及一第三平均过零率，该第一过零率、该第二过零率以及该第三过零率分别为在该目标语音帧中该原始语音取样信号通过一第一预设值、一第二预设值以及一第三预设值的次数，该第二预设值小于该第一预设值且大于该第三预设值；

以及

依据该第一平均过零率、该第二平均过零率以及该第三平均过零率是否分别大于或等于其对应的预设平均过零率来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

24.根据权利要求23所述的语音辨识方法，其特征在于，还包括：

依据该第二过零率是否大于或等于一预设过零率来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

语音辨识装置及语音辨识方法

技术领域

[0001] 本发明是有关于一种辨识装置，且特别是有关于一种语音辨识装置及语音辨识方法。

背景技术

[0002] 一般对于听障人士来说，其往往无法清楚地接收较高频的语音信号，例如辅音信号，但对于低频的语音信号却可以清楚地听到。现有的辅音信号判断方式为在频域中进行信号处理，判断方式主要有两种，非即时辅音信号判断和即时辅音判断。非即时辅音信号判断，主要通过能量和过零率来判断。即时的辅音信号判断，主要是依据高频信号与总能量的比例是否大于一固定的值以及低频信号和总能量的比例是否小于固定的值来决定语音信号是否为辅音信号。现有的辅音信号判断方式虽可区别辅音信号与噪声，然其准确度仍无法满足实际的需求。

发明内容

[0003] 本发明提供一种语音辨识装置及语音辨识方法，可提高辅音信号的辨识准确度。

[0004] 本发明的语音辨识装置包括滤波单元以及处理单元。滤波单元对语音信号进行低通滤波、第一辅音频段以及第二辅音频段的带通滤波，以分别产生低通滤波信号、第一带通滤波信号以及第二带通滤波信号。处理单元耦接滤波单元，将语音信号、低通滤波信号、第一带通滤波信号以及第二带通滤波信号分为多个语音帧，其中各个语音帧包括N个取样信号，N为正整数，计算目标语音帧中取样信号的能量，以获得原始语音取样信号能量、低通取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量，依据第二辅音频段信号能量、原始语音取样信号能量与低通取样信号能量的比值计算得到第二辅音频段信号能量比例值，依据低通取样信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量比例值至少其一判断对应目标语音帧的原始语音取样信号是否为辅音信号。

[0005] 在本发明的一实施例中，上述处理单元还依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应目标语音帧的原始语音取样信号是否为噪声。

[0006] 在本发明的一实施例中，上述处理单元还判断第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值是否分别落于对应的预设比值范围，若第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值分别落于对应的预设比值范围，则目标语音帧的原始语音取样信号为噪声信号。

[0007] 在本发明的一实施例中，上述处理单元还计算原始语音取样信号能量减去低通取样信号能量的一能量差值，并计算第二辅音频段信号能量与能量差值的比值，以得到第二辅音频段信号能量比例值。

[0008] 在本发明的一实施例中，上述处理单元还依据低通取样信号能量与原始语音取样信号能量的比值是否小于第一预设比值，以及低通取样信号能量与原始语音取样信号能量的比值是否位于预设能量比值范围内且第二辅音频段信号能量比例值是否大于第二预设比值，来判断对应目标语音帧的原始语音取样信号是否为辅音信号。

[0009] 在本发明的一实施例中，其中若低通取样信号能量与原始语音取样信号能量的比值小于第一预设比值，或低通取样信号能量与原始语音取样信号能量的比值位于预设能量比值范围内且第二辅音频段信号能量比例值大于第二预设比值，处理单元还计算多个之前被判断为噪声信号的原始语音取样信号的能量加权平均值，以得到噪声信号能量加权平均值，并依据目标语音帧所对应的原始语音取样信号能量是否大于噪声信号能量加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0010] 在本发明的一实施例中，上述对应各个被判断为噪声信号的原始语音取样信号的语音帧的加权值随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧的间隔长短不同而改变。

[0011] 在本发明的一实施例中，上述处理单元还计算目标语音帧与在目标语音帧之前的多个语音帧对应的低通取样信号能量与原始语音取样信号能量的比值的平均值，以得到低通取样信号能量比例平均值，并依据低通取样信号能量比例平均值是否小于预设平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0012] 在本发明的一实施例中，上述处理单元还计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与第二辅音频段信号能量的和的加权平均值，以得到辅音频段能量总和加权平均值，并依据目标语音帧所对应的原始语音取样信号能量减去低通取样信号能量所得的差值是否大于辅音频段能量总和加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0013] 在本发明的一实施例中，上述对应各个被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与第二辅音频段信号能量的和的加权值随对应各个被判断为噪声信号的原始语音取样信号与目标语音帧之间的间隔长短不同而改变。

[0014] 在本发明的一实施例中，上述处理单元还依据原始语音取样信号能量是否大于或等于下限值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0015] 在本发明的一实施例中，上述处理单元还计算原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算目标语音帧与目标语音帧之前的多个语音帧的原始语音取样信号的平均过零率，以得到第一平均过零率、第二平均过零率以及第三平均过零率，并依据第一平均过零率、第二平均过零率以及第三平均过零率是否分别大于或等于其对应的预设平均过零率来判断目标语音帧所对应的原始语音取样信号是否为辅音信号，第一过零率、第二过零率以及第三过零率分别为在目标语音帧中原始语音取样信号通过第一预设值、第二预设值以及第三预设值的次数，第二预设值小于第一预设值且大于第三预设值。

[0016] 在本发明的一实施例中，上述处理单元还依据第二过零率是否大于或等于预设过零率来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0017] 本发明的语音辨识方法包括下列步骤：对语音信号进行低通滤波、第一辅音频段以及第二辅音频段的带通滤波，以分别产生低通滤波信号、第一带通滤波信号以及第二带通滤波信号；将语音信号、低通滤波信号、第一带通滤波信号与第二带通滤波信号分为多个语音帧，其中各个语音帧包括N个取样信号，N为正整数；计算目标语音帧中取样信号的能量，以获得原始语音取样信号能量、低通取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量；依据第二辅音频段信号能量、原始语音取样信号能量与低通取样信号能量的比值计算得到第二辅音频段信号能量比例值；依据低通取样信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量比例值至少其一判断对应目标语音帧的原始语音取样信号是否为辅音信号。

[0018] 在本发明的一实施例中，上述语音辨识方法还包括，依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应目标语音帧的原始语音取样信号是否为噪声。

[0019] 在本发明的一实施例中，上述语音辨识方法还包括下列步骤：判断第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值是否分别落于对应的预设比值范围；若第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值分别落于对应的预设比值范围，则目标语音帧的原始语音取样信号为噪声信号。

[0020] 在本发明的一实施例中，上述语音辨识方法，还包括下列步骤：计算原始语音取样信号能量减去低通取样信号能量的能量差值；计算第二辅音频段信号能量与能量差值的比值，以得到第二辅音频段信号能量比例值。

[0021] 在本发明的一实施例中，上述语音辨识方法还包括，依据低通取样信号能量与原始语音取样信号能量的比值是否小于第一预设比值以及低通取样信号能量与原始语音取样信号能量的比值是否位于预设能量比值范围内且第二辅音频段信号能量比例值是否大于第二预设比值，来判断对应目标语音帧的原始语音取样信号是否为辅音信号。

[0022] 在本发明的一实施例中，其中若低通取样信号能量与原始语音取样信号能量的比值小于第一预设比值，或低通取样信号能量与原始语音取样信号能量的比值位于预设能量比值范围内且第二辅音频段信号能量比例值大于第二预设比值，语音辨识方法还包括下列步骤：计算多个之前被判断为噪声信号的原始语音取样信号的能量加权平均值，以得到噪声信号能量加权平均值；依据目标语音帧所对应的原始语音取样信号能量是否大于噪声信号能量加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0023] 在本发明的一实施例中，上述对应各个被判断为噪声信号的原始语音取样信号的语音帧的加权值随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。

[0024] 在本发明的一实施例中，上述语音辨识方法还包括下列步骤：计算目标语音帧与在目标语音帧之前的多个语音帧对应的低通取样信号能量与原始语音取样信号能量的比值的平均值，以得到低通取样信号能量比例平均值；依据低通取样信号能量比例平均值是否小于预设平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0025] 在本发明的一实施例中，上述语音辨识方法还包括下列步骤：计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与第二辅音频段信号能量的和的加权平均值，以得到辅音频段能量总和加权平均值；依据目标语音帧所对应的原始语音取样信号能量减去低通取样信号能量所得的差值是否大于辅音频段能量总和加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0026] 在本发明的一实施例中，上述对应各个被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与第二辅音频段信号能量的和的加权值随对应各个被判断为噪声信号的原始语音取样信号与目标语音帧之间的间隔长短不同而改变。

[0027] 在本发明的一实施例中，上述语音辨识方法还包括，依据原始语音取样信号能量是否大于下限值等于来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0028] 在本发明的一实施例中，上述语音辨识方法还包括下列步骤。计算原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算目标语音帧与在目标语音帧之前的多个语音帧的原始语音取样信号的平均过零率，以得到第一平均过零率、第二平均过零率以及第三平均过零率，第一过零率、第二过零率以及第三过零率分别为在目标语音帧中原始语音取样信号通过第一预设值、第二预设值以及第三预设值的次数，第二预设值小于第一预设值且大于第三预设值。依据第一平均过零率、第二平均过零率以及第三平均过零率是否分别大于或等于其对应的预设平均过零率来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0029] 在本发明的一实施例中，上述语音辨识方法还包括，依据第二过零率是否大于或等于预设过零率来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0030] 基于上述，本发明的实施例依据低通取样信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量比例值至少其一判断对应目标语音帧的原始语音取样信号是否为辅音信号，以减低将原始语音取样信号误判为辅音信号的情形发生，进而提高辅音信号的辨识准确度。

[0031] 为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

[0032] 图1示出为本发明一实施例的语音辨识装置的示意图；

[0033] 图2A～2C示出本发明一实施例的语音辨识方法的流程示意图。

[0034] 附图标记说明：

[0035] 102：滤波单元；

[0036] 104：处理单元；

[0037] S1：语音信号；

[0038] S2：第一带通滤波信号；

[0039] S3：第二带通滤波信号；

[0040] S4：低通滤波信号；

[0041] S202～S238：步骤。

具体实施方式

[0042] 图1示出为本发明一实施例的语音辨识装置的示意图，请参照图1。语音辨识装置包括滤波单元102以及处理单元104，滤波单元102耦接处理单元104。滤波单元102可对语音信号S1进行低通滤波、第一辅音频段以及第二辅音频段的带通滤波，以分别产生低通滤波信号S4、第一带通滤波信号S2 以及第二带通滤波信号S3，滤波单元102可例如包括低通滤波器与带通滤波器，而处理单元104可例如以中央处理单元来实施。在本实施例中，低通滤波的切断频率为0～2kHz，而第一辅音频段以及第二辅音频段分别为 2kHz～4kHz以及4kHz～10kHz，但不以此为限。

[0043] 处理单元104可对语音信号S1、低通滤波信号S4、第一带通滤波信号 S2以及第二带通滤波信号S3进行取样，并将语音信号S1、低通滤波信号S4、第一带通滤波信号S2以及第二带通滤波信号S3分割为多个语音帧，其中各个语音帧可包括N个语音信号S1的取样信号、N个低通滤波信号S4的取样信号、N个第一带通滤波信号S2的取样信号以及N个第二带通滤波信号S3 的取样信号。处理单元104还可计算各个语音帧中取样信号的能量，以获得原始语音取样信号能量、低通取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量，其中原始语音取样信号能量、低通取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量分别对应语音帧中语音信号 S1的取样信号、低通滤波信号S4的取样信号、第一带通滤波信号S2的取样信号以及第二带通滤波信号S3的取样信号的能量。在获得原始语音取样信号能量、低通取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量后，处理单元104便可依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应各个语音帧的原始语音取样信号是否为噪声。

[0044] 详细来说，处理单元104可判断第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值是否分别落于其对应的预设比值范围，若第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值分别落于其对应的预设比值范围，则目标语音帧的原始语音取样信号为噪声信号。

[0045] 举例来说，处理单元104判断对应一目标语音帧(例如第m个语音帧，m 为正整数)的原始语音取样信号是否为噪声的方式，可以下列式子来判断：

[0046]

[0047]

[0048]

[0049] 其中EB1m为第一辅音频段信号能量、EB2m为第二辅音频段信号能量，而 Em为原始语音取样信号能量，当式(1)、(2)、(3)皆满足时，处理单元104判断第m个语音帧的原始语音取样信号为噪声信号。

[0050] 在判断出目标语音帧的原始语音取样信号为噪声信号后，处理单元104 还计算在目标语音帧之前被判断为噪声信号的原始语音取样信号的多个语音帧的能量加权平均值，以得到噪声信号能量加权平均值，并依据目标语音帧所对应的原始语音取样信号能量是否大于噪声信号能量加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

[0051] 举例来说，噪声信号能量加权平均值可为计算在目标语音帧之前被判断为噪声信号的原始语音取样信号的3个语音帧的能量加权平均值而得到，假设在第m个语音帧之前，最近被判断为噪声的三个语音帧分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧，则对应第m个语音帧的噪声信号能量加权平均值AKm可如下式子所示：

[0052]

[0053] 其中Em-10、Em-12、Em-20分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧的原始语音取样信号能量，而a0、a1、a2分别为第m-10个语音帧、第m-12个语音帧以及第m-20个对应的加权值。其中加权值a0、a1、a2可为固定值或者是变动值。举例来说，对应各个被判断为噪声信号的原始语音取样信号的语音帧的加权值可随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。如在本实施例中，加权值a0、a1、a2可随语音帧与第m个语音帧之间的间隔长短不同而改变。当噪声信号能量加权平均值AKm满足下列式子时，可判断对应第m个语音帧的原始语音取样信号为辅音信号：

[0054] Em>AKm (5)

[0055] 另外，处理单元可计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与第二辅音频段信号能量的和的加权平均值，以得到辅音频段能量总和加权平均值，并依据目标语音帧所对应的原始语音取样信号能量减去低通取样信号能量所得的差值是否大于辅音频段能量总和加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。举例来说，辅音频段能量总和加权平均值可为计算在目标语音帧之前被判断为噪声信号的原始语音取样信号的3个语音帧的第一辅音频段信号能量与第二辅音频段信号能量的和的加权平均值而得到，假设在第m个语音帧之前，最近被判断为噪声的三个语音帧分别为第m-10个语音帧、第m-12 个语音帧以及第m-20个语音帧，则对应第m个语音帧的辅音频段能量总和加权平均值ASm可如下式子所示：

[0056]

[0057] 其中EB1m-10、EB1m-12、EB1m-20分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧的第一辅音频段信号能量、EB2m-10、EB2m-12、EB2m-20分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧的第二辅音频段信号能量，而c0、c1、c2分别为第m-10个语音帧、第m-12个语音帧以及第m-20个对应的加权值。其中加权值c0、c1、c2可为固定值或者是变动值。举例来说，对应各个被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与第二辅音频段信号能量的和的加权值随对应各个被判断为噪声信号的原始语音取样信号与目标语音帧之间的间隔长短不同而改变。如在本实施例中，加权值c0、c1、c2可随语音帧与第m个语音帧之间的间隔长短不同而改变。当第一辅音能量比例加权平均值ASm满足下列式子时，可判断对应第m个语音帧的原始语音取样信号为辅音信号：

[0058] Em-ELm>ASm (7)

[0059] 其中ELm为对应第m个语音帧的低通取样信号能量。

[0060] 此外，处理单元104还可计算目标语音帧与目标语音帧之前多个语音帧对应的低通取样信号能量与原始语音取样信号能量的比值的平均值，以得到低通取样信号能量比例平均值，例如，对第m个语音帧而言，低通取样信号能量比例平均值AUm下列式子表示：

[0061]

[0062] 其中ELm、ELm-1为对应第m个语音帧、第m-1个语音帧的低通取样信号能量，Em、Em-1分别为第m个语音帧、第m-1个语音帧的原始语音取样信号能量。处理单元104可依据低通取样信号能量比例平均值是否小于预设平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。例如，对第m个语音帧而言，上述判断方式可以下列式子表示：

[0063] AUm<0.6 (9)

[0064] 在本实施例中，预设平均值为0.6，但并不以此为限，预设平均值也可依实际情形调整为其他值。此外，进行低通取样信号能量比例平均值AUm的计算的语音帧个数也不以本实施例此为限。

[0065] 又，处理单元104也可依据第二辅音频段信号能量、原始语音取样信号能量与低通取样信号能量的比值计算得到第二辅音频段信号能量比例值，依据低通取样信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量比例值至少其一判断对应目标语音帧的原始语音取样信号是否为辅音信号。例如，处理单元104可计算原始语音取样信号能量减去低通取样信号能量的能量差值，并计算第二辅音频段信号能量与能量差值的比值，以得到第二辅音频段信号能量比例值。计算出第二辅音频段信号能量比例值后，处理单元104可依据低通取样信号能量与原始语音取样信号能量的比值是否小于第一预设比值，以及低通取样信号能量与原始语音取样信号能量的比值是否位于预设能量比值范围内且第二辅音频段信号能量比例值是否大于第二预设比值，来判断对应目标语音帧的原始语音取样信号是否为辅音信号。

[0066] 举例来说，对第m个语音帧而言，上述判断方式可以下列式子表示：

[0067]

[0068]

[0069]

[0070] 在本实施例中，第一预设比值为0.5、第二预设比值为1.3、预设能量比值范围为0.5～0.6，但不以此为限，在部分实施例中第一预设比值、第二预设比值以及预设能量比值范围也可依实际情形调整为其他值。

[0071] 另外，处理单元104还可依据原始语音取样信号能量是否大于或等于下限值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。例如，对第m个语音帧而言，上述判断方式可以下列式子表示：

[0072] Em≥50 (13)

[0073] 在本实施例中，下限值为50，但不以此为限，在部分实施例中下限值也可依实际情形进行调整。

[0074] 由于辅音信号可能会有能量大小不同的情形出现，在能量比较小的部分会可能会被视为噪声，为避免此情形，除了上述依据能量来判断原始语音取样信号是否为辅音信号外，处理单元104也可依据过零率来判断原始语音取样信号是否为辅音信号。处理单元104可计算原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算目标语音帧与目标语音帧之前多个语音帧的原始语音取样信号的平均过零率，以得到第一平均过零率、第二平均过零率以及第三平均过零率，并依据第一平均过零率、第二平均过零率以及第三平均过零率是否分别大于或等于其对应的预设平均过零率来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。其中第一过零率、第二过零率以及第三过零率分别为在目标语音帧中原始语音取样信号通过第一预设值、第二预设值以及第三预设值的次数，其中第二预设值小于第一预设值且大于第三预设值。

[0075] 对第m个语音帧而言，原始过零率可如下式所示：

[0076]

[0077] 其中N为正整数，其代表在第m个语音帧内之取样信号的个数，mL为幅度门槛值，而为在第m个语音帧内的原始语音取样信号。处理单元104 可依据是否大于或等于一预设过零率来判断原始语音取样信号是否为辅音信号，例如可依据下式来判断：

[0078]

[0079] 其中预设过零率并不以22为限，在部分实施例中其值也可依实际情形进行调整。此外，处理单元104可另外依据原始语音取样信号包含能量条件的过零率来判断原始语音取样信号是否为辅音信号，过零率可如下式所示：

[0080]

[0081]

[0082] 其中可以下式表示：

[0083]

[0084]

[0085] 在本实施例中，αx的值为0.5，但不以此为限，在部分实施例中其值也可依实际情形进行调整。如此通过调整计算过零率的基准，可更精确地判断原始语音取样信号是否为辅音信号。处理单元104还可依据多个语音帧的平均过零率来判断原始语音取样信号是否为辅音信号，举例来说，对第m个语音帧而言，可依据其与最近两个语音帧(也即第m-1、m-2个语音帧)的过零率的平均值来判断原始语音取样信号是否为辅音信号，其判断式可如下所示：

[0086]

[0087]

[0088]

[0089] 如上实施例所述，处理单元104可依据能量或过零率至少其一来判断原始语音取样信号是否为辅音信号，也即处理单元104可综合上述式子的条件至少其一来判断对应目标语音帧的原始语音取样信号是否为辅音信号。举例来说，处理单元104可判断式(5)、(7)、(9)、(10)、(13)、(15)、(20)、(21)、 (22)是否同时满足，若同时满足才判断对应目标语音帧的原始语音取样信号为辅音信号。又例如，处理单元104也可判断式(5)、(7)、(9)、(11)、(12)、(13)、 (15)、(20)、(21)、(22)是否同时满足，若同时满足才判断对应目标语音帧的原始语音取样信号为辅音信号。

[0090] 图2A～2C示出本发明一实施例的语音辨识方法的流程示意图，请参照图 2A～2C。由上述实施例可知，语音辨识装置的语音辨识方法可包括下列步骤。首先，对语音信号进行低通滤波、第一辅音频段以及第二辅音频段的带通滤波，以分别产生低通滤波信号、第一带通滤波信号以及第二带通滤波信号(步骤S202)。接着，将语音信号、低通滤波信号、第一带通滤波信号与第二带通滤波信号分为多个语音帧(步骤S204)，其中各语音帧包括N个取样信号，N 为正整数。然后，计算目标语音帧中取样信号的能量，以获得一原始语音取样信号能量、低通取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量(步骤S206)。
之后，依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应目标语音帧的原始语音取样信号是否为噪声(步骤S208)。例如，可判断第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值是否分别落于对应的预设比值范围，若第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值分别落于对应的预设比值范围，则目标语音帧的原始语音取样信号为噪声信号。

[0091] 之后，再依据第二辅音频段信号能量、原始语音取样信号能量与低通取样信号能量的比值计算得到第二辅音频段信号能量比例值，并依据低通取样信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量比例值至少其一判断对应目标语音帧的原始语音取样信号是否为辅音信号。如图 2A～2C所示，可先计算原始语音取样信号能量减去低通取样信号能量的能量差值(步骤S210)，然后再计算第二辅音频段信号能量与能量差值的比值，以得到第二辅音频段信号能量比例值(步骤S212)。之后再判断低通取样信号能量与原始语音取样信号能量的比值是否小于第一预设比值，以及低通取样信号能量与原始语音取样信号能量的比值是否位于预设能量比值范围内且第二辅音频段信号能量比例值是否大于第二预设比值(步骤S214)。若低通取样信号能量与原始语音取样信号能量的比值未小于第一预设比值，或低通取样信号能量与原始语音取样信号能量的比值未位于预设能量比值范围内，或第二辅音频段信号能量比例值未大于第二预设比值，则判断目标语音帧所对应的原始语音取样信号非辅音信号(步骤S216)。

[0092] 相反地，若低通取样信号能量与原始语音取样信号能量的比值小于第一预设比值，或低通取样信号能量与原始语音取样信号能量的比值位于预设能量比值范围内且第二辅音频段信号能量比例值大于第二预设比值，则计算多个之前被判断为噪声信号的原始语音取样信号的语音帧的能量加权平均值，以得到噪声信号能量加权平均值(步骤S218)。然后判断目标语音帧所对应的原始语音取样信号能量是否大于噪声信号能量加权平均值(步骤S220)，其中对应各个被判断为噪声信号的原始语音取样信号的语音帧的加权值可随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。若目标语音帧所对应的原始语音取样信号能量未大于噪声信号能量加权平均值，则判断目标语音帧所对应的原始语音取样信号非辅音信号(步骤S216)。

[0093] 相反地，若目标语音帧所对应的原始语音取样信号能量大于噪声信号能量加权平均值，则计算目标语音帧与目标语音帧之前多个语音帧对应的低通取样信号能量与原始语音取样信号能量的比值的平均值，以得到低通取样信号能量比例平均值(步骤S222)。然后再判断低通取样信号能量比例平均值是否小于预设平均值(步骤S224)。若低通取样信号能量比例平均值未小于预设平均值，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤S216)。相反地，若低通取样信号能量比例平均值小于预设平均值，则接着计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与第二辅音频段信号能量的和的加权平均值，以得到辅音频段能量总和加权平均值(步骤S226)，其中对应各个被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与第二辅音频段信号能量的和的加权值随对应各个被判断为噪声信号的原始语音取样信号与目标语音帧之间的间隔长短不同而改变。然后再判断目标语音帧所对应的原始语音取样信号能量减去低通取样信号能量所得的差值是否大于辅音频段能量总和加权平均值(步骤S228)，若目标语音帧所对应的原始语音取样信号能量减去低通取样信号能量所得的差值未大于辅音频段能量总和加权平均值，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤S216)。

[0094] 相反地，若目标语音帧所对应的原始语音取样信号能量减去低通取样信号能量所得的差值大于辅音频段能量总和加权平均值，则判断原始语音取样信号能量是否大于或等于下限值(步骤S230)。若原始语音取样信号能量未大于或等于下限值，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤 S216)。相反地，若原始语音取样信号能量大于或等于下限值，则接着计算原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算目标语音帧与目标语音帧之前多个语音帧的原始语音取样信号的平均过零率，以得到一第一平均过零率、一第二平均过零率以及一第三平均过零率(步骤S232)。其中第一过零率、第二过零率以及第三过零率分别为在目标语音帧中原始语音取样信号通过第一预设值、第二预设值以及第三预设值的次数，其中第二预设值小于第一预设值且大于第三预设值。然后再判断第一平均过零率、第二平均过零率以及第三平均过零率是否分别大于或等于其对应的预设平均过零率(步骤S234)。若第一平均过零率、第二平均过零率以及第三平均过零率未皆大于或等于其对应的预设平均过零率，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤S216)。

[0095] 相反地，若第一平均过零率、第二平均过零率以及第三平均过零率大于或等于其对应的预设平均过零率，则接着判断第二过零率是否大于或等于预设过零率(步骤S236)。若第二过零率未大于或等于预设过零率，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤S216)。相反地，若第二过零率大于或等于预设过零率，则目标语音帧所对应的原始语音取样信号为辅音信号(步骤S238)。

[0096] 综上所述，本发明可综合上述式子的条件至少其一来判断对应目标语音帧的原始语音取样信号是否为辅音信号，以提高辅音信号的辨识准确度。例如可依据低通取样信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量比例值至少其一判断对应目标语音帧的原始语音取样信号是否为辅音信号，以减低将原始语音取样信号误判为辅音信号的情形发生，进而提高辅音信号的辨识准确度。

[0097] 最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

语音辨识装置及语音辨识方法转让专利

申请号 : CN201510060494.7

文献号 : CN105989835B

文献日 : 2019-08-13

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 杜博仁 , 张嘉仁 , 曾凯盟

申请人 : 宏碁股份有限公司

摘要 :

权利要求 :

说明书 :