用于话音活动检测的方法和设备转让专利

申请号 : CN201080029467.9

文献号 : CN102741918B

文献日 : 2014-11-19

本发明提供一种话音活动检测设备(1)，其包括：信号条件分析单元(3)，其分析输入信号的至少一个信号参数，以检测所述输入信号的信号条件SC；至少两个话音活动检测单元(4-i)，其包括不同的话音检测特性，其中每一话音活动检测单元(4-i)单独执行对所述输入信号的话音活动检测，以提供话音活动检测决策VADD；以及决策组合单元(5)，其根据所述所检测到的信号条件SC而组合由所述话音活动检测单元(4-i)提供的所述话音活动检测决策VADD，以提供组合的话音活动检测决策cVADD。

1.一种话音活动检测设备(1)，其特征在于包括：

(a)信号条件分析单元(3)，用以分析输入信号的至少一个信号参数，以检测所述输入信号的信号条件(SC)；

(b)至少两个包括不同的话音活动检测特性的话音活动检测单元(4-i)；

其中至少两个话音检测单元中的每一话音活动检测单元(4-i)单独执行对所述输入信号的话音活动检测，以提供分别与所述每一个话音活动检测单元单独对应多个话音活动检测决策(VADDi)；

(c)决策组合单元(5)，用于根据所述所检测到的信号条件(SC)而组合由所述话音活动检测单元(4-i)提供的所述多个话音活动检测决策(VADDi)，以提供组合的话音活动检测决策(cVADD)。

2.根据权利要求1所述的话音活动检测设备，其特征在于：

所述话音活动检测设备(1)还包括信号入口(2)，所述信号入口(2)用于接收包括信号帧的输入信号，其中所述话音活动检测单元(4-i)包括基于信噪比(SNR)的话音活动检测单元(4-i)，其中每一基于信噪比(SNR)的话音活动检测单元(4-i)将输入信号帧分成若干个子频带，针对每一子频带计算信噪比(SNR)，并求出所计算出的所有子频带信噪比(SNR)的总和，以提供分段信噪比(SSNR)，所述分段信噪比(SSNR)与阈值进行比较以提供相应的话音活动检测单元(4-i)的中间话音活动检测决策，其中所述中间话音活动检测决策或所述中间话音活动检测决策经处理的版本形成所述话音活动检测决策(VADDi)。

3.根据权利要求2所述的话音活动检测设备，其特征在于：

通过将非线性函数应用于所述所计算出的信噪比(SNR)来修改针对对应的子频带而计算的每一信噪比(SNR)，以提供经修改的信噪比(mSNR)，其中借助于加法单元来求出所述经修改的信噪比(mSNR)的总和，以获得所述分段信噪比(SSNR)。

4.根据权利要求3所述的话音活动检测设备，其特征在于：

其中每一话音活动检测单元(4-i)的所述中间话音活动检测决策经过具有对应的拖尾时间的拖尾处理，以提供所述话音活动检测单元(4-i)的所述话音活动检测决策(VADDi)。

5.根据权利要求4所述的话音活动检测设备，其特征在于：

每一话音活动检测单元(4-i)的所述话音检测特性可通过以下步骤调谐；

调整所述话音活动检测单元(4-i)所使用的子频带的数目；和/或通过

改变所述话音活动检测单元(4-i)所使用的所述非线性函数；和/或通过调整所述话音活动检测单元(4-i)所使用的所述拖尾处理的拖尾时间。

6.根据权利要求1到5中任一权利要求所述的话音活动检测设备，其特征在于：其中所述信号条件分析单元(3)按照所述输入信号的所述信号参数而分析所述输入信号的长期信噪比(lSNR)、背景噪声波动和/或能量度量，以检测所述输入信号的所述信号条件(SC)。

7.根据权利要求1到5中任一权利要求所述的话音活动检测设备，其特征在于：其中由所述话音活动检测单元(4-i)提供的所述话音活动检测决策(VADDi)由根据所述决策组合单元(5)的预定组合逻辑而组合的决策标志形成，以提供由所述话音活动检测设备(1)输出的所述组合的话音活动检测决策(cVADD)，其中所述决策组合单元(5)基于由所述信号条件分析单元(3)分析的所述至少一个信号参数或所述信号条件而产生所述组合逻辑。

8.根据权利要求7所述的话音活动检测设备，其特征在于：

其中由所述信号条件分析单元(3)分析的所述信号参数为长期信噪比(lSNR)，所述长期信噪比(lSNR)被分类为三个不同的信噪比区域，包括高信噪比区域、中等信噪比区域以及低信噪比区域，其中所述决策组合单元(5)基于由所述话音活动检测单元(4-i)所提供的所述决策标志来提供所述组合的话音活动检测决策(cVADD)；所述决策标示是由所述话音活动检测单元(4-i)根据所述长期信噪比(lSNR)所落在的所述信噪比区域而提供的。

9.根据权利要求1到5中任一权利要求所述的话音活动检测设备，其特征在于：其中所述决策组合单元(5)的所述组合的话音活动检测决策(cVADD)经过具有预定拖尾时间的拖尾处理。

10.根据权利要求1到5中任一权利要求所述的话音活动检测设备，其特征在于：所述决策组合单元(5)将包括所述话音活动检测单元(4-i)的所述话音活动检测决策(VADD)的话音活动检测决策向量与自适应或预定的加权矩阵相乘，以计算所述组合的话音活动检测决策(cVADD)。

11.根据权利要求2所述的话音活动检测设备，其特征在于：

其中包括所述话音活动检测单元(4-i)的所述分段信噪比(SSNR)的分段信噪比(SSNR)向量与自适应加权矩阵相乘，以计算组合的分段信噪比(cSSNR)值，且其中包括所述话音活动检测单元(4-i)的所述阈值的阈值向量与所述自适应加权矩阵相乘，以计算组合的决策阈值(cthr)，所述组合的决策阈值(cthr)与所述所计算出的组合的分段信噪比(cSSNR)值进行比较，以提供所述组合的话音活动检测决策(cVADD)。

12.根据权利要求1到5中任一权利要求所述的话音活动检测设备，其特征在于：其中由所述话音活动检测设备(1)提供的所述组合的话音活动检测决策(cVADD)应用于编码器。

13.一种用于对音频信号进行编码的编码器，其特征在于，所述编码器包括根据权利要求1到12中任一权利要求所述的话音活动检测设备(1)。

14.一种语音通信装置，其特征在于，包括根据权利要求13所述的语音编码器。

15.一种用于执行对信号的话音活动检测的方法，其特征在于，包括以下步骤：(a)分析(S1)输入信号的至少一个信号参数，以检测所述输入信号的信号条件(SC)；

(b)用至少两个不同的话音检测特性来单独执行(S2)话音活动检测(VAD)，以提供分别与所述至少两个不同的话音检测特性中每一个话音活动检测特性单独对应的多个话音活动检测决策(VADDi)；以及(c)根据所述所检测到的信号条件(SC)而组合(S3)所述多个话音活动检测决策(VADDi)，以提供组合的话音活动检测决策(cVADD)。

用于话音活动检测的方法和设备

技术领域

背景技术

[0001] 本发明涉及一种用于话音活动检测，且特别用于检测适用于例如编码器等音频信号处理单元处理的音频信号中有无人类语音的方法和设备。

[0002] 话音活动检测（VAD）总地来说是一种用来检测信号中的话音活动的技术。话音活动检测也被称为语音活动检测，或者简称为语音检测。话音活动检测可用于检测有无人类语音的语音应用中。话音活动检测可（例如）用于语音编码或语音识别中。由于话音活动检测与多种基于语音的应用相关，所以已开发了提供具有多样化特征并在例如时延、灵敏度、精确度以及计算复杂性等要求之间折衷的各种VAD算法。一些话音活动检测（VAD）算法还提供对数据的分析，例如所接收到的输入信号是有声的、无声的还是持续的。对包含输入信号帧的输入音频信号执行话音活动检测。可由话音活动检测单元来执行话音活动检测，所述话音活动检测单元用指示是否存在语音的对应标志来标记输入信号帧。

[0003] 常规的话音活动检测（VAD）设备的性能取决于所接收到的输入信号的具体条件以及相应的所接收信号的信号类型或信号类别。信号类型可包括语音信号、音乐信号以及具有背景噪声的语音信号。此外，信号的信号条件可变化，举例来说，所接收到的音频信号可具有较高的信噪比SNR或较低的信噪比SNR。在接收输入音频信号时，常规的话音活动检测设备可适合于所接收的输入信号，且可给出精确的（VAD）决策。然而，根据信号类别和信号条件，常规的话音活动检测器也可能产生不良结果，即在检测所施加的输入信号的话音活动时，所述检测器可能具有较低的话音检测精确度。而且，所施加的输入信号的信号条件和信号类型可随着时间而改变，且因此，常规话音活动检测设备对于信号类型或信号条件改变或变化来说是不稳固的。

[0004] 因此，本发明的目的是提供一种与用常规的话音活动检测方法或设备相比产生整体较好的检测性能的用于执行话音活动检测的方法和设备。

发明内容

[0005] 根据本发明的第一方面，提供一种话音活动检测设备，其包括

[0006] 信号条件分析单元，其分析输入信号的至少一个信号参数，以检测所述输入信号的信号条件，

[0007] 至少两个话音活动检测单元，其包括不同的话音检测特性，

[0008] 其中至少两个话音检测单元中的每一话音活动检测单元单独执行对所述输入信号的话音活动检测或话音活动检测处理，以提供分别与所述每一个话音活动检测单元单独对应多个话音活动检测决策；以及

[0009] 决策组合单元，其根据所检测到的信号条件而组合由所述话音活动检测单元提供的所述多个话音活动检测决策，以提供组合话音活动检测决策。

[0010] 每一话音活动检测单元具有特定的检测特性。所述检测特性在概念上与接收器工作特性（ROC）具有密切关系。在信号检测理论中，接收器工作特性（ROC）（或简单来说，ROC曲线）是二进制分类器系统在其辨别阈值改变时的灵敏度或真正率（true positive rate）与假正率（false positive rate）的图表。对于话音检测系统，真正率是主动检测率，且假正率是非主动误检率。可将话音活动检测系统的检测特性视为特殊的ROC曲线，所述曲线的变化辨别阈值由变化的信号条件替代。可将信号条件定义为多条件（例如，输入信号电平、输入信号SNR、输入信号的背景噪声类型、输入信号的话音活动因子等）的某一组合。因此，不同输入信号的话音检测特性（即，检测与误检（也称为假告警））是不同的。一般来说，如果两个话音活动检测单元的对于输入信号的至少一个实例的决策是不同的，那么其将具有不同的话音活动检测特性。因此对于某一信号条件，所述两个VAD的性能将不同。

[0011] 举例来说，如果以不同方式调谐话音活动检测算法，那么可针对不同的话音活动检测算法获得不同的特性，或者可通过改变（即使轻微地）所述算法所使用的参数（例如，阈值、用于分析的频带的数目等）来从同一算法获得不同的特性。

[0012] 在本发明的第一方面的一可实施方案中，话音活动检测设备包括用于接收包括信号帧的输入信号的信号入口。

[0013] 在本发明的第一方面的一可实施方案中，话音活动检测单元由基于信噪比的话音活动检测单元形成。

[0014] 使用基于信噪比的话音活动检测单元增加了根据本发明的话音活动检测设备的精确度和性能。

[0015] 在本发明的第一方面的一可实施方案中，每一基于SNR的话音活动检测单元将输入信号帧分成若干个子频带。

[0016] 在本发明的第一方面的一可实施方案中，每一基于SNR的话音活动检测器单元在逐帧基础上处理输入信号。

[0017] 通过计算输入帧的每一子带的信噪比SNR，进一步增加了根据本发明的话音活动检测设备的精确度。

[0018] 在本发明的第一方面的另一可实施方案中，每一基于信噪比SNR的话音活动检测单元将输入信号帧分成若干个子频带，并为每一子频带计算信噪比SNR，其中求出所有子频带的所计算出的信噪比SNR的总和，以提供分段信噪比SSNR。

[0019] 在本发明的第一方面的另一可实施方案中，将由话音活动检测单元计算出的分段信噪比SSNR与阈值进行比较，以提供各个的话音活动检测单元的中间话音活动检测决策，其中所述中间话音活动检测决策或其经处理的版本形成话音活动检测决策。

[0020] 因此，话音活动检测设备的每一话音活动检测单元基于分段信噪比SNR与对应的阈值之间的比较而做出中间话音活动检测决策。

[0021] 在一可实施方案中，话音活动检测单元的阈值是自适应的，且可借助于对应的控制信号而调整，所述对应的控制信号借助于配置接口而施加到话音活动检测设备。由于话音活动检测设备内的每一话音活动检测单元包括可经由所述接口而调整的对应的自适应阈值，因此，可实现对每一所述不同的话音活动检测单元的性能的精细或准确的调谐。这又再次增加了根据本发明的话音活动检测设备的精确度。

[0022] 在本发明的第一方面的另一可实施方案中，通过非线性函数来修改对应子频带而计算出的每一信噪比SNR，以提供对应的经修改的信噪比mSNR，其中由相应的话音活动检测单元求出经修改的信噪比mSNR的总和，以获得经分段的信噪比SSNR。

[0023] 所述非线性函数的提出允许以不同方式修改信噪比SNR，以用于为不同的话音活动检测单元提供不同的话音活动检测特性，从而可实现对不同的话音活动检测单元的精确调谐，并根据所接收的输入音频信号的具体可能的信号条件和/或信号类型而调整其相应的话音检测特性。

[0024] 在本发明的第一方面的一可实施方案中，每一话音活动检测单元的中间话音活动检测决策经过具有对应的拖尾时间的拖尾处理过程，以提供所述话音活动检测单元的最终话音活动决策。

[0025] 所述拖尾时间形成等待时间周期，以使话音活动检测决策变得平滑，并减少话音活动检测单元作出的与在所接收的音频信号内的话语突峰的尾部进行削波相关联的潜在误分类。因此，此具体实施方案的优点在于，减少了对话语突峰的削波，并改进了信号的语音质量和清晰度。

[0026] 在本发明的第一方面的一可实施方案中，话音活动检测设备内的每一话音活动检测单元的话音检测特性是可调谐的（例如，借助于配置接口）。

[0027] 在本发明的第一方面的一可实施方案中，可通过调整或改变相应的话音活动检测单元所使用的子频带的数目来调谐每一话音活动检测单元的话音检测特性。

[0028] 在本发明的第一方面的另一可实施方案中，可通过调整或改变相应的话音活动检测单元所使用的非线性函数来调谐每一话音活动检测单元的话音检测特性。

[0029] 在本发明的第一方面的另一可实施方案中，可通过调整或改变相应的话音活动检测单元所使用的拖尾处理的拖尾时间来调谐每一话音活动检测单元的话音检测特性。

[0030] 在本发明的第一方面的另一可实施方案中，所述设备包括以不同的方式（例如，通过不同数目的子频带或频率分析）实施的不同的话音活动检测单元，且所述话音活动检测单元可使用不同的方法来计算子带信噪比、将不同的修改应用于所计算出的子带信噪比，且可使用不同的方法或方式来估算背景噪声的子带能量，且可进一步使用不同的阈值或应用不同的拖尾机制。因此，对于所接收的输入音频信号的不同信号条件，不同的话音活动检测单元具有不同的性能。对于一个信号条件，一个话音活动检测单元可优于另一话音活动检测单元，但对于另一信号条件，可能会较差。除了对于给定的信号条件之外，一个话音活动检测单元与另一话音活动检测单元相比，可对输入音频信号的一个分段执行较好，但可能对输入音频信号的另一分段执行较差。通过提供各自单独地执行对输入信号的不同的话音活动检测的不同的话音活动检测单元来提供话音活动检测决策，通过适当组合多个话音活动检测单元的优点来改进了整体性能。

[0031] 在本发明的第一方面的一可实施方案中，信号条件分析单元按照输入信号的信号参数而分析输入信号的长期信噪比，以检测所接收的输入信号的信号条件。

[0032] 在本发明的第一方面的另一可实施方案中，信号条件分析单元按照输入信号的信号参数而分析所接收的输入信号的背景噪声波动，以检测所接收的输入信号的信号条件。

[0033] 在本发明的第一方面的又一可实施方案中，信号条件分析单元按照所接收的输入信号的信号参数而分析输入信号的长期信噪比和背景噪声波动，以检测所接收的输入信号的信号条件。长期信噪比有可能为所接收的输入信号的若干个有源信号帧（例如，5到10个有源信号帧）的信噪比，或者为所接收的输入信号的有源信号帧的信噪比的移动平均值。可通过SNRmov=a*SNRmov+(1-a)*SNR0来计算移动平均值，其中SNRmov为移动平均值，SNR0为最近的有源信号帧的SNR，a为在长期估算中可为0.9的遗忘因子。

[0034] 在本发明的第一方面的另一可实施方案中，信号条件分析单元按照所接收的输入信号的信号参数而分析指示当前信号是处于主动周期还是非主动周期的信号状态。

[0035] 在本发明的第一方面的另一实施方案中，信号条件分析单元按照所述输入信号的信号参数而分析输入信号的能量度量。信号条件分析单元可进一步适于分别在能量度量大于预定的或自适应阈值的情况下，确定输入信号处于主动周期期间或主动周期中，且/或在能量度量小于预定的或自适应阈值的情况下，确定输入信号处于非主动周期期间或非主动周期中。

[0036] 在本发明的第一方面的另一可实施方案中，信号条件分析单元可使用其它信号参数或信号参数的组合，以及例如所接收的输入信号的信号谱的音调、谱倾斜或谱包络。

[0037] 在本发明的第一方面的一可实施方案中，所述话音活动检测单元所提供的话音活动检测决策是由决策标志形成。

[0038] 在本发明的第一方面的一可实施方案中，根据决策组合单元的组合逻辑而组合由话音活动检测单元产生的决策标志，以提供可由根据本发明的话音活动检测设备输出的组合的话音活动检测决策。

[0039] 在本发明的第一方面的一可实施方案中，由所述信号条件分析单元分析的所述信号参数为长期信噪比，所述长期信噪比被分类为三个不同的信噪比区域，包括高SNR区域、中等SNR区域以及低SNR区域，其中所述决策组合单元基于由所述话音活动检测单元根据长期信噪比所落在的SNR区域而提供的决策标志来提供所述组合的话音活动检测决策。

[0040] 在本发明的第一方面的一可实施方案中，所述话音活动检测设备包括具有第一话音活动检测特性的第一话音活动检测单元和具有第二话音活动检测特性的第二话音活动检测单元，其中第一话音活动检测特性不同于第二话音活动检测特性，其中第一话音活动检测单元执行输入信号的或基于输入信号的第一话音活动检测，以提供第一话音活动检测，其中第二话音活动检测单元执行输入信号的或基于输入信号的第二话音活动检测，以提供第二话音活动检测，其中由所述信号条件分析单元分析的所述信号参数为长期信噪比，所述长期信噪比被分类为三个不同的信噪比区域，包括高SNR区域、中等SNR区域以及低SNR区域，其中所述决策组合单元根据长期信噪比所落在的SNR区域来提供所述组合的话音活动检测决策，且其中决策组合单元适于在信号参数处于低SNR区域中的情况下，选择第一话音活动检测决策作为组合的话音活动检测决策，其中决策组合单元适于在信号参数处于高SNR区域中的情况下，选择第二话音活动检测决策作为组合的话音活动检测决策，且其中决策组合单元适于在信号参数处于中等SNR区域中的情况下，应用逻辑“与＂或逻辑“或＂来组合第一话音活动检测决策和第二话音活动检测决策，以获得组合的话音活动检测决策。

[0041] 在本发明的第一方面的一可实施方案中，由决策组合单元提供的组合的话音活动检测决策经过具有预定拖尾时间的拖尾处理。

[0042] 这允许使话音活动检测决策变得平滑，并减少由话音活动检测单元作出的（例如）与对话语突峰的削波相关联的其它可能误分类。

[0043] 在本发明的第一方面的一可实施方案中，将由所述话音活动检测设备提供的所述组合的话音活动决策应用于编码器。此编码器可由语音编码器形成。

[0044] 在本发明的第一方面的另一可实施方案中，包括由话音活动检测单元提供的话音活动检测决策的话音活动检测决策向量通过决策组合单元与一自适应加权矩阵相乘，以计算所述组合的话音活动检测决策。

[0045] 在本发明的第一方面的又一可实施方案中，所述决策组合单元所使用的加权矩阵为具有预定矩阵值的预定加权矩阵。

[0046] 在本发明的第一方面的一可实施方案中，包括话音活动检测单元的分段信噪比SSNR的分段信噪比SSNR向量与自适应加权矩阵相乘，以计算组合的分段信噪比cSSNR的值。

[0047] 在本发明的第一方面的又一可实施方案中，包括话音活动检测单元阈值的阈值向量与自适应加权矩阵相乘，以计算组合的决策阈值。

[0048] 在本发明的第一方面的又一可实施方案中，将所计算出的组合的分段信噪比mSSNR的值与组合的决策阈值相互进行比较，以提供组合的话音活动检测决策。

[0049] 在使用例如话音活动决策向量、加权矩阵以及分段信噪比向量和阈值向量等向量时，可加速用于提供组合的话音活动检测决策的计算过程并减少所需要的计算时间，且还可提供对话音活动检测设备的更精确的调谐。

[0050] 根据本发明的第二方面，提供一种话音活动检测设备，所述话音活动检测设备包括：信号条件分析单元，其分析输入信号的至少一个信号参数，以检测所述输入信号的信号条件；至少两个话音活动检测单元，其包括不同的活动话音检测处理特性；以及决策组合单元，其适于提供组合的话音活动检测决策（cVADD），其中包括话音活动检测单元的分段信噪比（SSNR）的分段信噪比（SSNR）向量与自适应加权矩阵相乘，以计算组合的分段信噪比（cSSNR）的值，且其中包括话音活动检测单元阈值的阈值向量与自适应加权矩阵相乘，以计算组合的决策阈值（cthr），所述组合的决策阈值（cthr）与所述所计算出的组合的分段信噪比（cSSNR）的值进行比较，以提供组合的话音活动检测决策（cVADD）。

[0051] 根据本发明的第三方面，提供一种用于对音频信号进行编码的编码器，其中所述编码器包括话音活动检测设备，所述话音活动检测设备具有

[0052] 信号条件分析单元，其分析输入信号的至少一个信号参数，以检测所述输入信号的信号条件，

[0053] 至少两个话音活动检测单元，其包括不同的话音检测特性，

[0054] 其中至少两个话音检测单元中的每一话音活动检测单元单独执行对所述输入信号的话音活动检测，以提供分别与所述每一个话音活动检测单元单独对应多个话音活动检测决策，以及

[0055] 决策组合单元，其根据所检测到的信号条件而组合由所述话音活动检测单元提供的所述多个话音活动检测决策，以提供组合的话音活动检测决策。

[0056] 根据本发明的第四方面，提供一种语音通信装置，其包括语音编码器，所述语音编码器用于对音频信号进行编码，所述语音编码器具有话音活动检测设备，所述话音活动检测设备包括：

[0057] 信号条件分析单元，其分析输入信号的至少一个信号参数，以检测所述输入信号的信号条件，

[0058] 至少两个话音活动检测单元，其包括不同的话音检测特性，

[0059] 其中至少两个话音检测单元中的每一话音活动检测单元单独执行对所述输入信号的话音活动检测，以提供分别与所述每一个话音活动检测单元单独对应多个话音活动检测决策，以及

[0060] 决策组合单元，其根据所检测到的信号条件而组合由所述话音活动检测单元提供的所述多个话音活动决策，以提供组合的话音活动检测决策。

[0061] 所述语音通信装置可形成例如音频会议系统、语音识别系统、语音编码系统或免提移动电话等语音通信系统的一部分。根据本发明的第四方面的语音通信装置可用于蜂窝式无线电系统中，例如GSM或LTE或CDMA系统中，其中不连续传输DTX模式可由根据本发明的第一方面的话音活动检测VAD设备控制。在不连续传输DTX模式中，有可能在话音活动检测设备检测到不存在人类语音的时间周期期间切断电路，以节约资源，并增强系统容量（例如，通过减少便携式装置中的代码信道干扰和功耗）。

[0062] 在以上实施方案中，所述话音活动检测接收包含多个信号帧的一个数字音频信号，其中，所述每个信号帧包括多个数字音频样本。在这些实施方案形式中，话音活动检测设备在数字域中执行信号处理。在数字域中的处理的益处在于，可由硬接线数字电路来执行信号处理，或者通过软件应用程序来执行对所接收的数字音频输入信号的处理。可通过由例如微型计算机等处理单元执行的话音活动检测程序来执行对所接收的输入音频信号的信号帧的处理。可借助于提供更多灵活性的对应接口来所述的此微型计算机进行编程。

[0063] 根据本发明的第五方面，提供一种用于执行话音活动检测的方法，所述方法包括以下步骤：

[0064] 分析输入信号的至少一个信号参数，以检测输入信号的信号条件；

[0065] 用至少两个不同的话音检测特性来单独执行话音活动检测，以提供分别与所述至少两个不同的话音检测特性中每一个话音活动检测特性单独对应的多个不同的话音活动检测决策，以及

[0066] 根据所检测到的信号条件而组合话音活动检测决策，以提供组合的话音活动检测决策。

[0067] 根据第五方面的用于执行话音活动检测的方法能够抵御外部影响。

[0068] 在本发明的第五方面的一可实施方案中，通过执行可由微型计算机执行的对应的话音活动检测程序来执行所述方法。在另一可实施方案中，由硬接线电路来执行用于执行话音活动检测的方法。用硬接线电路执行所述方法的优点在于处理速度极高。用于借助于软件程序来执行稳固的话音活动检测的方法的实施方案的益处在于，所述方法更灵活，且更易于根据不同的信号条件和信号类型而调整。

[0069] 在本发明的前述方面的另一可实施方案形式中，话音活动检测单元可由不基于SNR的话音活动检测单元形成。此类不基于SNR的话音活动检测单元可为（但不限于）基于熵的话音活动检测单元、基于谱包络的话音活动检测单元、基于较高统计的话音活动检测单元、混合话音活动检测单元等。与基于SNR的话音活动检测单元形成对比，举例来说，基于熵的话音活动检测单元将输入帧谱分成若干子带，计算每一子带的能量、计算分布在每一子带中的输入帧能量的概率，并基于所获得的概率来计算输入帧的熵。随后通过将所获得的熵与阈值进行比较来获得话音活动决策。

[0070] 下文参看附图描述本发明的不同方面的可实施方案和实施例。

附图说明

[0071] 图1为根据本发明的第一方面的话音活动检测设备的框图；

[0072] 图2为连接到根据本发明的第二方面的话音活动检测设备的编码器的框图；

[0073] 图3为根据本发明的第四方面的话音活动检测方法的一可实施方案的流程图。

具体实施方式

[0074] 图1展示话音活动检测设备1的框图，以说明本发明的第一方面。话音活动检测设备1包括用于接收输入信号的至少一个信号入口2。此输入信号为（例如）由信号帧组成的音频信号。所述音频信号可为由多个信号帧序列形成的数字信号，每一所述信号帧包括音频信号的至少一个数据样本。可由连接到信号源（例如，如用户设备装置或移动电话等语音通信装置的麦克风）的模数转换器来提供所述应用到所述语音活动检测设备中的数字信号。

[0075] 在所示的实施方案中，话音活动检测设备1包括信号条件分析单元3，所述信号条件分析单元3分析所述输入信号的至少一个信号参数，以检测相应的输入信号的信号条件。如图1中所示的话音活动检测设备1包括若干个话音活动检测单元4-1、4-2、...、4-N，其中N为≥2的整数，所述话音活动检测单元连接到话音活动检测设备1的信号入口2。每一第i个（i为整数）话音活动检测单元4-i单独执行对所施加的输入信号的话音活动检测，以提供对应的话音活动检测决策VADD。在一可实施方案中，话音活动检测设备1包括至少两个话音活动检测单元4-1、4-2。话音活动检测设备1进一步包括决策组合单元5，所述决策组合单元5根据检测到的信号条件SC而组合由话音活动检测单元4-i提供的话音活动检测决策VADD，以提供组合的话音活动检测决策cVADD。如图1中所示，话音活动检测设备1在信号出口6处输出此组合的话音活动检测决策cVADD。

[0076] 在如图1中所示的话音活动检测设备1的一可实施方案中，话音活动检测单元4-i是由多个基于信噪比（SNR）的话音活动检测单元形成的。在一可实施方案中，所有话音活动检测单元4-i均由基于信噪比（SNR）的话音活动检测单元形成。在另一可实施方案中，话音活动检测单元4-i的至少一部分是由基于信噪比（SNR）的话音活动检测单元形成的。在一可实施方案中，每一基于信噪比（SNR）的话音活动检测单元4-i将所接收的输入信号的输入信号帧分成若干个子频带。子频带的数目可变化。基于信噪比（SNR）的话音活动检测单元4-i进一步为每一子频带计算信噪比SNR，并求出所有子频带的所计算出的信噪比SNR的总和，以提供分段信噪比SSNR，可将所述分段信噪比SSNR与阈值进行比较，以将由相应的话音活动检测单元4-i提供的中间话音活动检测决策输出提供给决策组合单元5。在一可实施方案中，与所计算出的分段信噪比SSNR进行比较的阈值可为自适应阈值，其可借助于话音活动检测设备1的配置接口而改变或调整。在一可实施方案中，如图1中所示的话音活动检测设备1的每一话音活动检测单元4-i的话音检测特性是可调谐的。在一可实施方案中，可调整话音活动检测单元4-i所使用的子频带的数目。举例来说，话音活动检测单元4-i可通过使用（例如）滤波器组来将输入信号帧分成九个子带。另外，话音活动检测单元4-i可通过快速傅里叶变换FFT而将输入帧变换到频域中，并通过对FFT功率密度频段进行分区而将输入帧分成（例如）十九个子频带。

[0077] 在如图1中所示的话音活动检测设备1的一可实施方案中，可通过非线性函数来修改为对应的子频带而计算出的每一信噪比SNR，以提供经修改的信噪比mSNR。这些经修改的信噪比mSNR加总后即可获得分段信噪比SSNR。非线性函数的运用允许调谐相应的话音活动检测单元4-i的话音检测特性。在一可实施方案中，可通过改变相应的话音活动检测单元4-i所使用的非线性函数来调谐每一话音活动检测单元的话音检测特性。

[0078] 在如图1中所示的话音活动检测设备1的又一实施方案中，每一话音活动检测单元4-i的中间话音活动检测决策可经过具有对应的拖尾时间的对应的拖尾处理，以提供话音活动检测单元4-i的最终话音活动检测决策，所述最终话音活动检测决策可由话音活动检测单元4-i提供给随后的决策组合单元5。在一可实施方案中，在话音活动检测单元4-i内执行所述拖尾处理。在另一可实施方案中，在决策组合单元5内对每一所接收的话音活动检测决策VADD执行拖尾处理。在又一可实施方案中，由设置在相应的话音活动检测单元4-i与决策组合单元5之间的单独的拖尾处理单元来执行中间话音活动检测决策的拖尾处理。

[0079] 在话音活动检测设备1的一可实施方案中，可通过调整相应的话音活动检测单元4-i所使用的拖尾处理的拖尾时间来调谐每一话音活动检测单元4-i的话音活动检测特性。其它实施方案是有可能的。举例来说，如图1中所示的话音活动检测设备1的不同话音活动检测单元4-i可具有不同数目的子带或频率分析，且可使用不同的方法来计算子带信噪比、将不同的修改应用于所计算出的子带信噪比以及使用不同的方法或方式来估算背景噪声的子带能量。此外，话音活动检测单元4-i可使用不同的阈值且应用不同的拖尾机制。

[0080] 在如图1中所示的话音活动检测设备1的一可实施方案中，信号条件分析单元3按照输入信号的信号参数而分析长期信噪比lSNR。长期信噪比lSNR是由话音活动检测设备1接收的信号帧群组或序列的信噪比。此信号帧群组可包括预定数目的信号帧，例如5到10个信号帧，或者所接收的输入信号的有源信号帧的信噪比的移动平均值。可通过SNRmov=a*SNRmov+(1-a)*SNR0来计算所述移动平均值，其中SNRmov为移动平均值，SNR0为最近的有源信号帧的SNR，a为在长期估算中可为0.9的遗忘因子。

[0081] 在又一可实施方案中，信号条件分析单元3进一步分析输入信号的背景噪声波动，以检测所接收的输入信号的信号条件和/或信号类型。其它实施方案是有可能的。举例来说，信号条件分析单元3可使用其它信号参数，例如所接收的输入信号的谱倾斜或谱包络。

[0082] 在如图1中所示的话音活动检测设备1的一可实施方案中，由话音活动检测单元4-i提供的话音活动检测决策VADD是由决策标志形成的。在本发明的第一方面的一可实施方案中，所产生的决策标志是由决策组合单元5根据组合逻辑而组合的，以提供可由话音活动检测设备1在信号出口6处输出的组合的话音活动检测决策cVADD。

[0083] 在一可实施方案中，组合逻辑可为组合由话音活动检测单元4-i输出的标志的布尔逻辑（Boolean logic）。在一可能实施例中，话音活动检测设备1包括两个话音活动检测单元4-1、4-2，其中决策组合单元5的组合逻辑可包括逻辑“与＂（logic AND）组合和逻辑“或”（logic OR）组合，其中根据由信号条件分析单元3检测到的信号条件SC来选择组合逻辑。因此，话音活动检测设备1的决策组合单元5组合话音活动检测单元4-i的输出，以根据信号条件分析单元3的输出控制信号SC得出组合的话音活动检测决策cVADD。在一可实施方案中，由决策组合单元5提供的组合逻辑或组合策略包含选择一个话音活动检测单元4-i的输出，将其作为最终组合话音活动检测决策cVADD。另一可能的组合策略是选取一个以上话音活动检测单元4-i的输出的逻辑“或＂，将其作为组合的话音活动决策输出cVADD，或者选取一个以上话音活动检测单元4-i的输出的逻辑“与＂组合，将其作为组合的话音活动检测输出cVADD。一般来说，基于预定的逻辑来组合话音活动检测单元4-i的决策可依赖于条件分析单元3的输出信号。组合策略逻辑可针对每一信号条件以每一话音活动检测单元4-i的优势和劣势为基础，且还可以系统内的话音活动检测设备1的所要性能等级或相应位置为基础。

[0084] 举例来说，逻辑组合通过使用不同话音活动决策单元4-i的逻辑“与＂来使话音活动检测设备1更积极或更严格，从而有利于语音或话音的非检测，这是因为话音活动检测设备1的所有话音活动检测单元4-i必须检测到当前信号帧包括语音。在另一方面，逻辑组合“或＂使话音活动检测不太积极或较宽松，这是因为这足以使一个话音活动检测单元4-i检测当前信号帧中的语音。其它实施例和实施方案也是有可能的。举例来说，两个以上话音活动检测单元4-i可使用多数决定规则（majority rule），其中（例如）可针对特定的信号条件使用对所有话音活动检测单元4-i的投票的调查。在一可实施方案中，决策组合单元5包括若干个组合逻辑，所述组合逻辑可借助于话音活动检测设备1的配置接口而编程。

[0085] 在如图1中所示的话音活动检测设备1的另一可实施方案中，由决策组合单元5输出的组合的话音活动检测决策cVADD还经历具有预定拖尾时间的拖尾处理。这允许使话音活动检测决策变得平滑以及（例如通过在话语突峰的尾部进行削波）减少相关的潜在误鉴定。

[0086] 在根据本发明的第一方面的话音活动检测设备1的另一可实施方案中，包括话音活动检测单元4-i的所有话音活动检测决策的话音活动检测决策向量可通过所述决策组合单元5的乘法单元与自适应或预定的加权矩阵W相乘，以计算组合的话音活动检测决策cVADD。

[0087] 在本发明的第一方面的另一可实施方案中，包括话音活动检测单元4-i的分段信噪比SSNR的分段信噪比SSNR向量与固定的或自适应加权矩阵W相乘，以计算组合的分段信噪比值cSSNR。另外，在一可实施方案中，包括话音活动检测单元4-i的阈值的阈值向量也与所述自适应加权矩阵W相乘，以计算组合的决策阈值。可将此组合的决策阈值与所计算出的组合信噪比cSSNR进行比较，以提供由决策组合单元5输出的组合的话音活动检测决策cVADD。

[0088] 图2展示连接到话音检测设备1的编码器7的框图，以说明本发明的第二方面。如图2中所示的编码器7可形成语音编码器，所述语音编码器用于对提供到话音活动检测设备1的输入信号进行编码。如图2中所示，编码器7可受由话音活动检测设备1产生的组合的话音活动检测决策cVADD控制。所述组合的话音活动检测决策cVADD可包括用于一个或若干个信号帧的标签。所述标签可由描述或指示当前信号帧或当前信号帧群组中是否存在话音活动的标志形成。在一可能实施例中，话音活动检测设备1可在逐帧基础上操作。
在所示的示范性实施方案中，话音活动检测设备1的输出信号控制编码器7。在另一可实施方案中，话音活动检测设备1可控制其它语音处理单元，例如语音识别装置；或者其可控制音频会话中的语音过程。此外，在一可实施方案中，话音活动检测设备1可抑制经由因特网协议应用的话音中的数据包的不必要编码或传输，从而节约了计算和网络带宽。例如如图2中所示的编码器7等信号处理装置可形成例如移动电话等语音通信装置的一部分。语音通信装置可提供于语音通信系统内，例如音频会议系统、回声信号消除系统、语音降噪系统、语音识别系统、语音编码系统或蜂窝式电话系统的移动电话。在一可实施方案中，话音活动检测决策VADD可控制实体（例如，蜂窝式无线电系统（例如，GSM或LTE或CDMA系统）中的实体）的不连续传输DTX模式。话音活动检测设备1的所提供的组合的话音活动检测决策cVADD可通过减少共信道干扰来增强例如蜂窝式无线电系统等系统的系统容量。此外，可显著减少此蜂窝式无线电系统内的便携式数字装置的功耗。话音活动检测设备1的另一可能应用是（例如，在电话营销应用中）控制拨号器。

[0089] 图3展示用于说明根据本发明的另一方面的用于执行稳固的话音活动检测的方法的一示范性实施方案的流程图。在所示的实施方案中，所述方法包括三个步骤。

[0090] 在第一步骤S1中，分析输入信号的至少一个信号参数和/或信号类型，以检测所述输入信号的信号条件。在一可实施方案中，可由例如如图1中所示的信号条件分析单元3执行对信号参数的分析。

[0091] 在另一步骤S2中，在至少两个不同的话音检测特性方面来单独进行话音活动检测，以提供单独的话音活动检测决策VADD。

[0092] 在另一步骤S3中，根据所检测到的信号条件SC来组合话音活动检测决策VADD，以提供可用以控制语音处理系统内的语音处理实体的组合的话音活动检测决策cVADD。

[0093] 可通过在例如微型计算机等数据处理单元中执行对应的应用程序来执行如图3的流程图中所示的用于执行稳固的话音活动检测的方法。在另一可实施方案中，可借助于硬接线电路来执行如图3的流程图中所示的用于执行稳固的话音活动检测的方法。在一可实施方案中，可实时地执行对输入信号的处理。

[0094] 在本发明的第一方面的另一具体实施方案中，话音活动检测设备1包括两个话音活动检测单元4-1、4-2，其中可将施加到信号出口2处的话音活动检测单元4-1、4-2的输入音频信号分段成各自具有（例如）20ms持续时间的相等的信号帧。在此具体实施方案中，第一话音活动检测单元4-1可通过使用（例如）滤波器组而将所接收的输入帧分成九个子频带。可计算子带能量，并将其表示为EA(i)，其中i表示第i个子带，且通过以下公式来计算每一子带的信噪比SNR：

[0095]

[0096] 其中snrA(i)表示输入帧的第i个子带的信噪比SNR，EAn(i)为背景噪声估算值的第i个子带的能量，且A为第一活动检测单元4-1的指数。可由可容纳在第一话音活动检测单元4-1中的背景噪声估算单元来估算背景噪声估算值的子带能量。在一可实施方案中，将非线性函数应用于每一估算出的子带信噪比SNR，从而产生九个经修改的子带信噪比msnrA(i)。在一可实施方案中，可通过以下公式来进行所述修改：

[0097]

[0098] 其中MAX[]和MIN[]分别表示查找方括号中的元素中的最大值和最小值。在一可实施方案中，求出经修改的子带信噪比SNR的总和，以获得第一话音活动检测单元4-1的分段信噪比SSNRA。可将分段信噪比SSNRA与第一话音活动检测单元4-1的阈值thrA进行比较。如果所计算出的分段信噪比SSNRA超过阈值thrA，那么可将由话音活动检测单元4-1提供的中间话音活动决策标志设定为1（意味着（例如）检测到有源语音），否则便将所述中间话音活动决策标志设定为0（意味着（例如）非有源，即，未检测到语音，或者为背景噪声）。阈值thrA可为（例如）由第一话音活动检测单元4-1估算的估算出的长期信噪比lSNR的线性函数。在一可实施方案中，所产生的中间话音活动决策可经历拖尾处理，以获得第一话音活动检测单元4-1的最终话音活动决策。

[0099] 在另一可实施方案中，第二话音活动检测单元4-2可通过快速傅里叶变换FFT而将所接收的输入信号帧变换到频域中，并可通过对FFT功率密度频段进行分区而将输入帧分成（例如）十九个子频带。可计算子带能量，并将其表示为EB(i)，其中可通过以下公式来计算每一子带的信噪比snr：

[0100]

[0101] 其中B为第二话音活动检测单元4-2的指数，且EB(i)为可由第二话音活动检测单元4-2独立于第一话音活动检测单元4-1而估算的背景噪声估算值的第i个子带的能量。在此实例中，每一子带snrB(i)的信噪比snr的下限将为0.1，且上限将为2。每一信噪比信号snrB(i)可应用于与第一话音活动检测单元4-1所使用的非线性函数不同的非线性函数，从而产生十九个经修改的子带信噪比msnrB(i)。在一可实施方案中，可通过以下公式来进行此修改：

[0102]

[0103] 在一可实施方案中，求出经修改的子带信噪比的总和，以获得第二话音活动检测单元4-2的分段信噪比SSNRB。可将第二话音活动检测单元4-2的所产生的分段信噪比SSNRB与第二话音活动检测单元4-2的阈值thrB进行比较。在一可实施方案中，如果SSNRB超过对应的阈值thrB，那么将第二话音活动检测单元4-2的中间话音活动检测决策设定为1，否则便将其设定为0。阈值thrB可为（例如）由第二话音活动检测单元4-2估算的所估算长期信噪比lSNR的线性函数。中间话音活动检测决策可进一步经历不同于第一话音活动检测单元4-1所使用的拖尾处理的对应的拖尾处理，以获得第二话音活动检测单元4-2的最终话音活动检测决策。在一可实施方案中，所述两个话音活动检测单元4-1、4-2按照最终话音活动检测决策而提供对应的标志VAD FLGA、VAD FLGB。可由决策组合单元5根据预定的组合策略或组合逻辑来组合由话音活动检测单元4-1、4-2输出的所述两个话音活动检测决策标志。根据由信号条件分析单元3提供的输出控制信号SC来选择组合逻辑。在一可实施方案中，可由当前输入信号的所估算的长期信噪比lSNR来形成信号条件SC。可由独立的估算程序来独立地估算此长期信噪比lSNR。为了提高实施方案的效率，可由话音活动检测单元4-i中的一者来估算长期信噪比lSNR。

[0104] 在一可能具体实施方案中，使用第一话音活动检测单元4-1的长期信噪比估算值，并将其分类成三个不同的信噪比区域，即，高SNR区域、中等SNR区域以及低SNR区域。如果长期信噪比lSNR落在高信噪比区域中，那么选取由第一话音活动检测单元4-1提供的标志（即，VAG FLGA），将其作为最终组合话音活动检测输出cVADD。如果长期信噪比lSNR落在低SNR区域中，那么选择第二话音活动检测单元4-2的标志VAD FLGB，将其作为最终组合话音活动检测决策cVADD。此外，如果长期信噪比lSNR落在中等SNR区域中，那么将话音活动检测单元4-1与话音活动检测单元4-2的两个信号标志（即，VAD FLGA与VAD FLGB）之间的逻辑“与＂组合用作话音活动检测设备1的最终组合话音活动检测决策cVADD。

[0105] 在话音活动检测设备1的另一可实施方案中，针对两个中间话音活动检测输出而执行话音活动检测单元4-1、4-2的两个话音活动检测输出的组合（即，在不通过对应的拖尾机制的情况下）。在一可实施方案中，中间组合话音活动检测标志随后经历拖尾处理，以获得话音活动检测设备1的最终信号出口。所使用的拖尾处理可与由话音活动检测单元4-1、4-2中的一者所使用的拖尾机制中的任一者相关，或者其可为独立的拖尾机制。

[0106] 在话音活动检测设备1的又一可实施方案中，通过矩阵数据处理来实施由决策组合单元5执行的组合处理。在此实施方案中，所述两个话音活动检测单元4-1、4-2的话音活动检测输出可形成1x2矩阵F=[VAD FLGA,VAD FLGB]，其中此矩阵F乘以2x1加权矩阵W，以获得组合的话音活动检测指示符I。加权矩阵W内的矩阵元素可由实际长期信噪比类别决定，其中根据长期信噪比lSNR是落在高SNR区域、中等SNR区域还是低SNR区域中，TW=[1,0]或[0.5,0.5]或[0,1]。组合的话音活动检测标志随后可为约[I+0.5]。在此实施方案中，可使用话音活动检测单元4-i的中间结果（即，没有拖尾）或最终结果（即，有拖尾）两者。

[0107] 在话音活动检测设备1的又一可实施方案中，第一话音活动检测单元4-1的分段信噪比SSNRA和第二话音活动检测单元4-2的分段信噪比SSNRB可形成1x2矩阵P=[SSNRA,SSNRB]。此外，第一话音活动检测单元4-1的决策阈值thrA和第二话音活动检测单元4-2的决策阈值thrB可形成另一1x2矩阵T=[thrA,thrB]。在此实施例中的所述两个矩阵分别乘以2x2加权矩阵W，以分别获得组合的参数cSSNR和组合的决策阈值thrM。在此实施方案中，通过将组合的分段信噪比SSNRM与组合的决策阈值thrM进行比较来获得中间话音活动决策。随后通过使中间话音活动检测决策经历拖尾处理来获得组合的话音活动检测决策cVADD。加权矩阵W内的矩阵元素可由实际长期信噪比类别决定，其中举例来说，当长期信噪比lSNR落在高信噪比区域、中等信噪比区域或低信噪比区域中时，WT=[1,0]或[0.5,0.5*(thrA/thrB)]或[0,1]。在一可实施方案中，可将由信号条件分析单元3提供的信号条件SC量化为有限的步骤。在如图1中所示的话音活动检测设备1的一可实施方案中，话音活动检测设备1包括多个话音活动检测单元4-i，所述多个话音活动检测单元4-i可由软件或硬件实施，其每一者能够针对每一输入信号帧而输出话音活动决策。可由信号条件分析单元3估算当前输入信号的信号条件SC的集合。可根据所估算出的信号条件，以多种可选方式中的一种方式来组合由话音活动检测单元4-i产生的话音活动检测决策VADD，以确定最终话音活动检测决策。

[0108] 在另一可实施方案中，话音活动检测单元4-i并不输出话音活动检测标志，而是基于可作出哪种话音活动检测决策VADD而至少产生一对决策参数和阈值。

[0109] 在另一可实施方案中，信号条件的集合可包含输入信号的长期信噪比或输入信号的背景噪声波动中的至少一者。

[0110] 在一可实施方案中，可由集成电路形成如图1中所示的话音活动检测设备1。在话音活动检测设备1的另一可实施方案中，所述设备可包括通过金属线（wire）而彼此连接的若干个离散元件或组件。在话音活动检测设备1的一可实施方案中，所述话音活动检测设备1集成于例如图2中所示的编码器7等音频信号处理设备中。在一可实施方案中，提供所述话音活动检测设备1以用于处理施加到输入2的电信号。在话音活动检测设备1的另一可实施方案中，借助于信号变换单元来处理首先变换成电输入信号的光信号。在一可实施方案中，所述话音活动检测设备1包括自适应决策组合单元5，所述自适应决策组合单元5（举例来说）根据信号长期信噪比而自适应，即，所述决策组合单元5所使用的函数和加权因子根据测量出的长期信噪比lSNR而调整。借助于如图1中所示的根据第一方面的话音活动检测设备1，可显著改进整体话音活动检测性能，即，信号处理效率和精确度以及检测质量。

用于话音活动检测的方法和设备转让专利

申请号 : CN201080029467.9

文献号 : CN102741918B

文献日 : 2014-11-19

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 阿里斯·塔勒布 , 王喆 , 许剑峰 , 苗磊

申请人 : 华为技术有限公司

摘要 :

权利要求 :

说明书 :