用于信号传输控制的方法和系统转让专利

申请号 : CN201210080977.X

文献号 : CN103325386B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 格伦·N·迪金森双志伟大卫·古纳万孙学京

申请人 : 杜比实验室特许公司

摘要 :

描述了用于信号传输控制的方法和系统。接收或访问具有块或帧的时间序列的音频信号。特征被确定为合起来表征相对于当前时间最近已经处理的顺序音频块/帧。特征确定超过特异度标准,并且相对于最近处理的音频块/帧被延迟。在音频信号中检测语音活动指示。VAD基于一个判决并且涉及当前块/帧特征,该判决超过预设灵敏度阈值,并且在相对于块/帧时长的短时间段上计算而得。VAD和最近特征确定与状态相关信息进行组合,所述信息基于从多个特征中收集、在最近特征确定时间段之前的时间确定的先前特征确定的历史。基于所述组合输出有关开始或终止所述音频信号的判决,或相关的增益。

权利要求 :

1.一种用于信号传输控制的方法,包括:

接收或访问音频信号,所述音频信号包括多个时间上顺序的块或帧;

确定两个或更多特征,所述特征合起来表征先前在相对于当前时间点最近的时间段内已经处理的所述顺序音频块或帧中的两个或更多个,其中所述特征确定超过特异度标准,并且相对于最近处理的音频块或帧被延迟;

检测所述音频信号中语音活动的指示,其中所述语音活动检测基于一个判决,所述判决超过预设的灵敏度阈值并且在一个时间段上计算而得,所述时间段相对于每个所述音频信号块或帧的时长而言是短的,其中所述判决涉及当前音频信号块或帧的一个或更多个特征;

组合高灵敏度短期语音活动检测、最近高特异度音频块或帧特征确定和涉及状态的信息,所述信息基于一个或更多个先前计算的特征确定的历史,所述特征确定是从在所述最近高特异度音频块或帧特征确定时间段之前的时间确定的多个特征中收集的;以及基于所述组合输出有关所述音频信号的开始或终止的判决,或与之相关的增益,其中所述状态信息包括与所述音频信号相关联的烦扰水平,所述烦扰水平指示当前块或帧处存在烦扰状态的可能性,其中如果所述当前块或帧是当前语音段的最后一块或帧并且紧接在前的块或帧的语音比小于烦扰阈值,则以第一速率增加所述烦扰水平,所述语音比表示在所述当前块或帧的时候处做出的关于下一块或帧含有语音的可能性的预测,并且如果满足以下条件,则以快于所述第一速率的第二速率减小所述烦扰水平:所述当前块或帧在所述当前语音段之内,

所述当前块或帧的语音比大于语音比阈值,

并且所述当前语音段的从其起始到所述当前块或帧的部分长于时间段阈值。

2.如权利要求1所述的方法,其中所述组合步骤还包括组合与一个特征有关的一个或更多个信号或确定,该特征包括所述音频信号的当前或先前处理的特征。

3.如权利要求1所述的方法,其中所述状态涉及烦扰特征或音频信号中的语音内容与音频信号的总音频内容的比值中的一个或更多个。

4.如权利要求1所述的方法,其中所述组合步骤还包括组合涉及远端装置或音频环境的信息,所述远端装置或音频环境与正执行所述方法的装置通信耦合。

5.如权利要求1所述的方法,还包括:

分析所确定的表征最近处理的音频块或帧的特征;

基于所确定的特征的分析,推断所述最近处理的音频块或帧包含至少一个非期望的时间信号分段;以及基于非期望信号分段推断来测量烦扰特征。

6.如权利要求5所述的方法,其中所测量的烦扰特征是变化的。

7.如权利要求6所述的方法,其中所测量的烦扰特征是单调变化的。

8.如权利要求5、6或7所述的方法,其中所述高特异度先前音频块或帧特征确定包括期望语音内容相对于非期望时间信号分段的比值或主导程度中的一个或更多个。

9.如权利要求5、6、或7所述的方法,还包括计算涉及期望语音内容相对于所述非期望时间信号分段的比值或主导程度的移动统计数据。

10.如权利要求5所述的方法,还包括:

确定一个或更多个特征,所述特征识别两个或更多个先前处理的顺序音频块或帧的聚集上的烦扰特征;

其中所述烦扰测量进一步基于所述烦扰特征识别。

11.如权利要求1所述的方法,还包括:

控制增益应用;以及

基于所述增益应用控制,平滑期望时间音频信号分段开始或终止。

12.如权利要求11所述的方法,其中:

所述平滑期望时间音频信号分段开始包括渐强;以及

所述平滑期望时间音频信号分段终止包括渐弱。

13.如权利要求3或7所述的方法,还包括基于所测量的烦扰特征来控制增益水平。

14.一种用于信号传输控制的设备,包括:

输入单元,被配置成接收或访问音频信号,所述音频信号包括多个时间上顺序的块或帧;

特征生成器,被配置成确定两个或更多特征,所述特征合起来表征先前在相对于当前时间点最近的时间段内已经处理的所述顺序音频块或帧中的两个或更多个,其中所述特征确定超过特异度标准,并且相对于最近处理的音频块或帧被延迟;

检测器,被配置成检测所述音频信号中语音活动的指示,其中所述语音活动检测基于一个判决,所述判决超过预设的灵敏度阈值并且在一个时间段上计算而得,所述时间段相对于每个所述音频信号块或帧的时长而言是短的,其中所述判决涉及当前音频信号块或帧的一个或更多个特征;

组合单元,被配置成组合高灵敏度短期语音活动检测、最近高特异度音频块或帧特征确定和涉及状态的信息,所述信息基于一个或更多个先前计算的特征确定的历史,所述特征确定是从在所述最近高特异度音频块或帧特征确定时间段之前的时间确定的多个特征中收集的;以及判决生成器,被配置成基于所述组合输出有关所述音频信号的开始或终止的判决,或与之相关的增益,其中,所述状态信息包括与所述音频信号相关联的烦扰水平,所述烦扰水平指示当前块或帧处存在烦扰状态的可能性,其中,如果所述当前块或帧是当前语音段的最后一块或帧并且紧接在前的块或帧的语音比小于烦扰阈值,则以第一速率增加所述烦扰水平,所述语音比表示在所述当前块或帧的时候处做出的关于下一块或帧含有语音的可能性的预测,并且如果满足以下条件,则以快于所述第一速率的第二速率减小所述烦扰水平:所述当前块或帧在所述当前语音段之内,

所述当前块或帧的语音比大于语音比阈值,

并且所述当前语音段的从其起始到所述当前块或帧的部分长于时间段阈值。

15.如权利要求14所述的设备,其中所述组合单元进一步被配置成组合与一个特征有关的一个或更多个信号或确定,该特征包括所述音频信号的当前或先前处理的特征。

16.如权利要求14所述的设备,其中所述状态涉及烦扰特征或音频信号中的语音内容与音频信号的总音频内容的比值中的一个或更多个。

17.如权利要求14所述的设备,其中所述组合单元进一步被配置成组合涉及远端装置或音频环境的信息,所述远端装置或音频环境与所述设备通信耦合。

18.如权利要求14所述的设备,还包括烦扰估计器,其被配置成:分析所确定的表征最近处理的音频块或帧的特征;

基于所确定的特征的分析,推断所述最近处理的音频块或帧包含至少一个非期望的时间信号分段;以及基于非期望信号分段推断来测量烦扰特征。

19.如权利要求18所述的设备,其中所测量的烦扰特征是变化的。

20.如权利要求19所述的设备,其中所测量的烦扰特征是单调变化的。

21.如权利要求18、19或20所述的设备,其中所述高特异度先前音频块或帧特征确定包括期望语音内容相对于非期望时间信号分段的比值或主导程度中的一个或更多个。

22.如权利要求18、19或20所述的设备,还包括第一计算单元,被配置成计算涉及期望语音内容相对于所述非期望时间信号分段的比值或主导程度的移动统计数据。

23.如权利要求18所述的设备,还包括第二计算单元,被配置成确定一个或更多个特征,所述特征识别两个或更多个先前处理的顺序音频块或帧的聚集上的烦扰特征;

其中所述烦扰测量进一步基于所述烦扰特征识别。

24.如权利要求14所述的设备,还包括第一控制器,被配置成:控制增益应用;以及

基于所述增益应用控制,平滑期望时间音频信号分段开始或终止。

25.如权利要求24所述的设备,其中

所述平滑期望时间音频信号分段开始包括渐强;以及

所述平滑期望时间音频信号分段终止包括渐弱。

26.如权利要求16或20所述的设备,还包括第二控制器,被配置成基于所测量的烦扰特征来控制增益水平。

说明书 :

用于信号传输控制的方法和系统

技术领域

[0001] 本发明一般涉及音频信号处理。更具体地,本发明的实施例涉及信号传输控制。

背景技术

[0002] 语音活动检测(VAD)是用于确定在含有语音与噪声的混合的信号中存在语音的二值或概率指示的技术。通常,语音活动检测的性能基于分类或检测的准确性。研究工作的动机是使用语音活动检测算法改善声音识别的性能或者对在受益于断续传输手段的系统中传输信号的判决进行控制。语音活动检测还用于控制信号处理功能,信号处理功能如噪声估计、自适应回波和特定算法调节,如噪声抑制系统中对增益系数的滤波。
[0003] 语音活动检测的输出可以直接用于随后的控制或者元数据,并且/或者可以用于控制对实时音频信号起作用的音频处理算法的性质。
[0004] 语音活动检测的一种感兴趣的特别应用是在传输控制领域。对于在无语音活动期间端点可以使传输停止或者可以发送数据速率降低了的信号的通信系统,语音活动检测器的设计和性能对于系统的感知质量是关键的。这样的检测器必须最终进行二值判决并且会遇到下述基本问题:为了实现低时延,在可以在短时间帧上观察到的许多特征中,存在有基本交叠的声音和噪声的特征。由此,这样的检测器必须经常面对在误报泛滥与由于不正确的判决而可能丢失期望的声音之间的权衡。低时延、灵敏度和特异度的相抵触的要求不具有完全最优的解决方案,或者至少产生可操作的前景,其中,系统的效率或最优性取决于应用以及预期的输入信号。

发明内容

[0005] 接收或访问具有块或帧的时间序列的音频信号。两个或更多特征被确定为合起来表征先前在相对于当前时间点最近的时间段内已经处理的顺序音频块或帧中的两个或更多个。特征确定超过特异度标准,并且相对于最近处理的音频块或帧被延迟。在音频信号中检测语音活动的指示。语音活动检测(VAD)基于一个判决,该判决超过预设的灵敏度阈值并且在一个时间段上计算而得,该时间段相对于每个所述音频信号块或帧的时长而言是短的。VAD判决涉及当前音频信号块或帧的一个或更多个特征。高灵敏度短期VAD和最近高特异度音频块或帧特征确定与状态相关信息相组合。状态相关信息基于一个或更多个先前计算的特征确定的历史。先前计算的特征确定的历史收集自最近高特异度音频块或帧特征确定时间段之前的时间上确定的多个特征。基于组合输出有关音频信号的开始或终止的判决,或与之相关的增益。
[0006] 根据一个实施例的方法包括:接收或访问音频信号,音频信号包括多个时间上顺序的块或帧;确定两个或更多特征,特征合起来表征先前在相对于当前时间点最近的时间段内已经处理的顺序音频块或帧中的两个或更多个,其中特征确定超过特异度标准,并且相对于最近处理的音频块或帧被延迟;检测音频信号中语音活动的指示,其中语音活动检测(VAD)基于一个判决,判决超过预设的灵敏度阈值并且在一个时间段上计算而得,时间段相对于每个音频信号块或帧的时长而言是短的,其中判决涉及当前音频信号块或帧的一个或更多个特征;组合高灵敏度短期VAD、最近高特异度音频块或帧特征确定和涉及状态的信息,信息基于一个或更多个先前计算的特征确定的历史,特征确定是从在最近高特异度音频块或帧特征确定时间段之前的时间确定的多个特征中收集的;以及基于组合输出有关音频信号的开始或终止的判决,或与之相关的增益,其中状态信息包括与音频信号相关联的烦扰水平,烦扰水平指示当前帧处存在烦扰状态的可能性,其中如果当前帧是当前语音段的最后一帧并且紧接在前的帧的语音比小于烦扰阈值,则以第一速率增加烦扰水平,语音比表示在当前帧的时候处做出的关于下一帧含有语音的可能性的预测,并且如果满足以下条件,则以快于第一速率的第二速率减小烦扰水平:当前帧在当前语音段之内,当前帧的语音比大于语音比阈值,并且当前语音段的从其起始到当前帧的部分长于时间段阈值。
[0007] 根据一个实施例的设备包括:输入单元,被配置成接收或访问音频信号,音频信号包括多个时间上顺序的块或帧;特征生成器,被配置成确定两个或更多特征,特征合起来表征先前在相对于当前时间点最近的时间段内已经处理的顺序音频块或帧中的两个或更多个,其中特征确定超过特异度标准,并且相对于最近处理的音频块或帧被延迟;检测器,被配置成检测音频信号中语音活动的指示,其中语音活动检测(VAD)基于一个判决,判决超过预设的灵敏度阈值并且在一个时间段上计算而得,时间段相对于每个音频信号块或帧的时长而言是短的,其中判决涉及当前音频信号块或帧的一个或更多个特征;组合单元,被配置成组合高灵敏度短期VAD、最近高特异度音频块或帧特征确定和涉及状态的信息,信息基于一个或更多个先前计算的特征确定的历史,特征确定是从在最近高特异度音频块或帧特征确定时间段之前的时间确定的多个特征中收集的;以及判决生成器,被配置成基于组合输出有关音频信号的开始或终止的判决,或与之相关的增益,其中,状态信息包括与音频信号相关联的烦扰水平,烦扰水平指示当前帧处存在烦扰状态的可能性,其中,如果当前帧是当前语音段的最后一帧并且紧接在前的帧的语音比小于烦扰阈值,则以第一速率增加烦扰水平,语音比表示在当前帧的时候处做出的关于下一帧含有语音的可能性的预测,并且如果满足以下条件,则以快于第一速率的第二速率减小烦扰水平:当前帧在当前语音段之内,当前帧的语音比大于语音比阈值,并且当前语音段的从其起始到当前帧的部分长于时间段阈值。
[0008] 以下将参照附图详细描述本发明的另外的特征和优点以及本发明的各种实施例的结构和操作。注意的是本发明并不限于此处所描述的具体实施例。这些实施例仅为了说明而被呈现在此。基于此处所含有的教示,其他的实施例对本领域技术人员会是显然的。

附图说明

[0009] 在附图的各图中,以示例性和非限制性的方式对本发明进行阐释,在附图中,类似的附图标记指代类似的元件,其中:
[0010] 图1是图示根据本发明一个实施例的示例设备的框图;
[0011] 图2是图示根据本发明一个实施例的示例方法的流程图;
[0012] 图3是图示根据本发明一个实施例的示例设备的框图;
[0013] 图4是针对控制或组合逻辑的一个具体实施例的示意信号图;
[0014] 图5A和图5B描述了一个流程图,该流程图图示了根据本发明一个实施例的用于产生内部烦扰水平(NuisanceLevel)和控制传输标志的逻辑;
[0015] 图6是图示在处理包含与打字(烦扰(nuisance))交织的期望话音分段的音频分段发生的内部信号的曲线图;
[0016] 图7是图示根据本发明一个实施例的示例设备的框图;
[0017] 图8是示出根据本发明实施例的用于执行信号传输控制的示例设备的框图;
[0018] 图9是示出根据本发明实施例的执行信号传输控制的示例方法的流程图;而[0019] 图10是示出用于实施本发明实施例的示例性系统的框图。

具体实施方式

[0020] 下面参考附图描述本发明实施例。应注意,为清楚起见,在附图和描述中省略了关于本领域技术人员已知但是与本发明无关的组件和过程的陈述和描述。
[0021] 本领域的技术人员可以理解,本发明的各方面可以被实施为系统、装置(例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意其它媒体播放器)、方法或计算机程序产品。因此,本发明的各方面可以采取以下形式:完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件部分与硬件部分的实施例,本文可以一般地称之为“电路”、“模块”或“系统”。此外,本发明的各方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上体现有计算机可读程序代码。
[0022] 可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于)电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。
[0023] 计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。
[0024] 计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。
[0025] 体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。
[0026] 用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言,诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
[0027] 以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。
[0028] 也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。
[0029] 也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上,导致在计算机、其它可编程处理设备或其它装置上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图的方框中规定的功能/动作的过程。
[0030] 图1是图示根据本发明一个实施例的示例设备100的框图。
[0031] 如图1所示,设备100包含输入单元101、特征生成器102、检测器103、组合单元104和判决生成器105。
[0032] 输入单元101被配置成接收或访问音频信号,该音频信号包括多个时间上顺序的块或帧。
[0033] 特征生成器102被配置成确定两个或更多特征,这些特征合起来表征先前在相对于当前时间点最近的时间段内已经处理的顺序音频块或帧中的两个或更多个,其中所述特征确定超过特异度标准,并且相对于最近处理的音频块或帧被延迟。
[0034] 检测器103被配置成检测所述音频信号中语音活动的指示,其中所述语音活动检测(VAD)基于一个判决,所述判决超过预设的灵敏度阈值并且在一个时间段上计算而得,所述时间段相对于每个所述音频信号块或帧的时长而言是短的,其中所述判决涉及当前音频信号块或帧的一个或更多个特征。
[0035] 组合单元104被配置成组合高灵敏度短期VAD、最近高特异度音频块或帧特征确定和涉及状态的信息,该信息基于一个或更多个先前计算的特征确定的历史,所述特征确定是从在最近高特异度音频块或帧特征确定时间段之前的时间确定的多个特征中收集的。
[0036] 判决生成器105被配置成基于所述组合输出有关所述音频信号的开始或终止的判决,或与之相关的增益。
[0037] 在一个进一步的实施例中,组合单元104可以进一步被配置成组合与一个特征有关的一个或更多个信号或确定,该特征包括音频信号的当前或先前处理的特征。
[0038] 在一个进一步的实施例中,状态可以涉及烦扰特征或音频信号中的语音内容与音频信号的总音频内容的比值中的一个或更多个。
[0039] 在一个进一步的实施例中,组合单元104可以进一步被配置成组合涉及远端装置或音频环境的信息,该远端装置或音频环境与正执行处理方法的装置通信耦合。
[0040] 在一个进一步的实施例中,设备100可以进一步包括烦扰估计器(图中未图解)。烦扰估计器分析所确定的表征最近处理的音频块或帧的特征。基于所确定的特征的分析,烦扰估计器推断所述最近处理的音频块或帧包含至少一个非期望的时间信号分段。接着,烦扰估计器基于非期望信号分段推断来测量烦扰特征。
[0041] 在一个进一步的实施例中,所测量的烦扰特征可以是变化的。
[0042] 在一个进一步的实施例中,所测量的烦扰特征可以是单调变化的。
[0043] 在一个进一步的实施例中,高特异度先前音频块或帧特征确定可以包括期望语音内容相对于非期望时间信号分段的比值或主导程度(prevalence)中的一个或更多个。
[0044] 在一个进一步的实施例中,设备100可以进一步包括第一计算单元(图中未图解),被配置成计算涉及期望语音内容相对于非期望时间信号分段的比值或主导程度的移动统计数据。
[0045] 在一个进一步的实施例中,设备100可以进一步包括第二计算单元(图中未图解),被配置成确定一个或更多个特征,所述特征识别两个或更多个先前处理的顺序音频块或帧的聚集上的烦扰特征,其中烦扰测量进一步基于该烦扰特征识别。
[0046] 在一个进一步的实施例中,设备100可以进一步包括第一控制器(图中未图解),被配置成控制增益应用,以及基于增益应用控制来平滑期望时间音频信号分段开始或终止。
[0047] 在一个进一步的实施例中,所平滑的期望时间音频信号分段开始可以包括渐强,而所平滑的期望时间音频信号分段终止可以包括渐弱。
[0048] 在一个进一步的实施例中,设备100可以进一步包括第二控制器(图中未图解),被配置成基于所测量的烦扰特征来控制增益水平。
[0049] 图2是图示根据本发明一个实施例的示例方法200的流程图。
[0050] 如图2所示,所述方法200从步骤201开始。在步骤203,接收或访问音频信号,该音频信号包括多个时间上顺序的块或帧。
[0051] 在步骤205,确定两个或更多个特征。这些特征合起来表征先前在相对于当前时间点最近的时间段内已经处理的顺序音频块或帧中的两个或更多个,其中所述特征确定超过特异度标准,并且相对于最近处理的音频块或帧被延迟。
[0052] 在步骤207,检测音频信号中语音活动的指示,其中语音活动检测(VAD)基于一个判决,该判决超过预设的灵敏度阈值并且在一个时间段上计算而得,该时间段相对于每个音频信号块或帧的时长而言是短的,其中该判决涉及当前音频信号块或帧的一个或更多个特征。
[0053] 在步骤209,获得高灵敏度短期VAD、最近高特异度音频块或帧特征确定和涉及状态的信息的组合,该信息基于一个或更多个先前计算的特征确定的历史,所述特征确定是从在最近高特异度音频块或帧特征确定时间段之前的时间确定的多个特征中收集的。
[0054] 在步骤211,基于组合输出有关音频信号的开始或终止的判决,或与之相关的增益。
[0055] 该方法在步骤213结束。
[0056] 在方法200的一个进一步的实施例中,步骤209可以进一步包括组合与一个特征有关的一个或更多个信号或确定,该特征包括音频信号的当前或先前处理的特征。
[0057] 在方法200的一个进一步的实施例中,状态可以涉及烦扰特征或音频信号中的语音内容与音频信号的总音频内容的比值中的一个或更多个。
[0058] 在方法200的一个进一步的实施例中,步骤209可以进一步包括组合涉及远端装置或音频环境的信息,该远端装置或音频环境与正执行处理方法的装置通信耦合。
[0059] 在方法200的一个进一步的实施例中,方法200可以进一步包括分析所确定的表征最近处理的音频块或帧的特征;基于所确定的特征的分析,推断所述最近处理的音频块或帧包含至少一个非期望的时间信号分段;以及基于非期望信号分段推断来测量烦扰特征。
[0060] 在方法200的一个进一步的实施例中,所测量的烦扰特征可以是变化的。
[0061] 在方法200的一个进一步的实施例中,所测量的烦扰特征可以是单调变化的。
[0062] 在方法200的一个进一步的实施例中,高特异度先前音频块或帧特征确定可以包括期望语音内容相对于非期望时间信号分段的比值或主导程度中的一个或更多个。
[0063] 在方法200的一个进一步的实施例中,方法200可以进一步包括计算涉及期望语音内容相对于非期望时间信号分段的比值或主导程度的移动统计数据。
[0064] 在方法200的一个进一步的实施例中,方法200可以进一步包括确定一个或更多个特征,所述特征识别两个或更多个所述先前处理的顺序音频块或帧的聚集上的烦扰特征;其中所述烦扰测量进一步基于所述烦扰特征识别。
[0065] 在方法200的一个进一步的实施例中,方法200可以进一步包括控制增益应用;以及基于所述增益应用控制,平滑所述期望时间音频信号分段开始或终止。
[0066] 在方法200的一个进一步的实施例中,所平滑的期望时间音频信号分段开始可以包括渐强;所平滑的期望时间音频信号分段终止可以包括渐弱。
[0067] 在方法200的一个进一步的实施例中,方法200可以进一步包括基于所测量的烦扰特征来控制增益水平。
[0068] 图3是图示根据本发明一个实施例的示例设备300的框图。图3是呈现规则和逻辑的层次结构的算法的示意性概略图。上方的路径根据在音频输入的短期分段(块或帧)上计算的一组特征来生成语音或发声起始(onset)能量的指示。下方的路径使用这样的特征和根据更大区间(若干块或帧,或在线平均)上的这些特征附加产生的统计数据的聚集。使用这些特征的规则被用来以某个时延指示语音的存在,并且这被用于传输的继续,和与烦扰状态(传输开始,但没有后续特定语音活动)关联的事件的指示。最终的模块使用这组输入来确定传输控制和应用于每个块的瞬时增益。
[0069] 如图3所示,变换和频带模块301使用基于频率的变换和一组感知分离的频带来表示信号谱功率。对于语音,初始块长度或变换子带的采样例如在8到160ms的范围内,在一个具体实施例中使用20ms的值。
[0070] 模块302、303、305和306被用于特征提取。
[0071] 发声起始判决块307涉及主要提取自当前块的特征的组合。这种短期特征的使用是为了实现发声起始的低时延。可以考虑到,在某些应用中,能够承受发声起始判决的轻微延迟(一个或两个块),以改进发声起始检测的判决特异度。在一个优选实施例中,不存在通过这种方式引入的延迟。
[0072] 噪声模型304实际聚集输入信号的长期特征,然而并不直接使用此长期特征。而是把各频带中的瞬时谱与噪声模型相比较以产生能量测量。
[0073] 在某些实施例中,可以得到一组频带中的当前输入谱和噪声模型,并且产生0和1之间的定标参数,其表示一组频带大于所识别的本底噪声的程度。下面是用作特征的例子:
[0074]
[0075] 其中N是频带的数目,Yn表示当前输入频带功率,Wn表示当前噪声模型。参数α是噪声的过减系数,其一个示例性范围是1到100,而在一个实施例中,可以使用数值4。参数Sn是对于每个频带可以不同的灵敏度参数,其设置用于这个特征的活动阈值,在该阈值之下则输入不会表现在这个特征中。在某些实施例中,可以使用期望语音水平之下30dB左右的Sn值,具有-Inf dB到-15dB的范围。在某些实施例中,以不同噪声过减比和灵敏度参数计算这个T特征的多个版本。对于某些实施例,这个示例性公式(1)被提供为适合的特征,本领域普通技术人员能够想到自适应能量阈值的许多其它变型。
[0076] 在这个特征中,如所说明的那样,使用了长期噪声估计器。在某些实施例中,噪声估计由设备所导致的关于语音活动、发声起始或传输的估计来控制。在这样的情况下,当没有检测到信号活动并因此不建议进行传输时,合理地执行噪声更新。
[0077] 在其它实施例中,上述方案会在系统中产生循环(circularity),因此优选使用识别噪声分段和更新噪声模型的替代手段。某些适用的算法是最小跟随(minimum followers)类的算法(Martin,R.(1994),Spectral Subtraction Based on Minimum Statistics.EUSIPCO 1994)。进一步建议的算法被称作最小控制递归平均(Minima Controlled Recursive Averaging)(I.Cohen,"Noise Spectrum estimation in adverse environments:improved minima controlled recursive averaging",IEEE Trans.Speech Audio Process.11(5),466-475,2003)。
[0078] 模块308负责从与单个块关联的短特征中收集数据以及对数据进行滤波或聚集,以产生一组特征和统计数据,这些特征和统计数据接着被再次用作附加训练或调节的规则的特征。在一个示例中,可以堆积数据,均值和方差。也可以使用在线统计(针对均值和方差的无限脉冲响应)。
[0079] 使用所聚集的特征和统计数据,模块309被用来产生关于在音频输入的较大区域上是否存在语音的延迟判决。示例性的帧尺寸或统计数据的时间常数大约为240ms,在范围100到2000ms中的值是适用的。这个输出被用来基于初始发声起始之后是否存在语音来控制音频帧的延续或完成。这个功能模块比发声起始规则更加特异和灵敏,因为其在所聚集的特征和统计数据中具有时延和附加信息。
[0080] 在一个实施例中,通过使用代表性的训练数据集和机器学习过程产生特征的适当组合,来获得发声起始检测规则。在一个实施例中,所使用的机器学习过程是自适应提升(Freund,Y.and R.E.Schapire(1995).A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting),而在其它实施例中,考虑使用支持向量机(SCHOLKOPF,B.and A.J.SMOLA(2001).Learning with Kernels:Support Vector Machines,Regularization,Optimization,and Beyond.Cambridge,MA,MIT Press)。发声起始检测被调节为具有灵敏度、特异度或误报率的适当平衡,其中尤其关注发声起始或前缘剪切(Front Edge Clipping,FEC)的范围。
[0081] 模块310确定关于发送的总体判决,以及另外地,在每个块处输出要应用于传出音频的增益。提供增益来实现两个功能中的一个或多个:
[0082] ●实现自然的语音段落划分,其中信号在所识别的语音分段的前后回到静音。这涉及渐强程度(通常大约为20-100ms)和渐弱程度(通常为大约100-2000ms)。在一个实施例中,10ms(或单个块)的渐强和300ms的渐弱能够是有效的。
[0083] ●为降低在烦扰状态下发生的所发送帧的影响,由于最近累积的统计数据,语音帧发声起始检测可能与无语音非固定噪声事件或其它干扰相关联。
[0084] 图4是针对控制或组合逻辑310的一个具体实施例的示意信号图。图4中图示了针对会议端点处一个语音输入样本的发声起始描述和增益轨迹。针对一个实施例图示了发声起始检测和语音检测模块的输出,以及所导致的传输控制(二值)和增益控制(连续)。
[0085] 在图4中,图示了来自发声起始和语音检测功能模块的输入,以及所导致的输出传输判决(二值)和所应用的块增益(连续)。还图示了表示“烦扰”的存在或状态的内部状态变量。初始讲话突发(talk burst)包含确定的话音活动,并且用正常的段落划分来处理。用相似发声起始和短渐强来处理第二个突发,然而缺乏任何语音指示被推断为异常传输,并且被用来增加烦扰状态测量。若干附加短传输进一步增加烦扰状态,并且作为响应,这些发送的帧中信号的增益被降低。也可以增加使传输开始的发声起始检测的阈值。最终的帧具有低增益,直到出现语音指示,这时烦扰状态被快速降低。
[0086] 应当注意,除了特征自身之外,由高于阈值的发声起始事件促成的任何讲话突发或传输的相关长度能够被用作指示特征。短的不规则和脉冲式传输突发通常与非固定噪声或非期望干扰关联。
[0087] 如图3所示,控制逻辑310也可以额外使用自远端导出的活动、信号或特征。在一个实施例中,尤其关注传入信号中显著信号或远端活动的存在。在这样的情况下,本地端点处的活动更可能表示烦扰,尤其是在不存在自然会话或语音交互所预计具有的模式或相关关系的情况下。例如,在来自远端的活动结束之后或附近应出现语音发声起始。在远端具有显著和持续语音活动的情况下出现的短突发可指示烦扰状态。
[0088] 图5A和图5B描述了一个流程图,该流程图图示了根据本发明一个实施例的用于产生内部烦扰水平(NuisanceLevel)和控制传输标志的逻辑。
[0089] 如图5A和图5B所示,在步骤501,确定是否检测到发声起始。如果"是",处理到达步骤509。如果"否",处理到达步骤503。
[0090] 在步骤503,确定是否检测到延续。如果"是",处理到达步骤505。如果"否",处理到达步骤511。
[0091] 在步骤505,确定是否变量CountDown(倒计数器)>0。如果"是",处理到达步骤507。如果"否",处理结束。
[0092] 在步骤507,根据某个准则确定变量VoiceRatio(语音比)是否良好。如果"是",处理到达步骤509。如果"否",处理结束。
[0093] 在步骤509,设置CountDown=MaxCount(最大计数值)。接着处理到达步骤543。
[0094] 在步骤511,确定是否变量CountDown(倒计数器)>0。如果"是",处理到达步骤513。如果"否",处理到达步骤543。
[0095] 在步骤513,递减变量CountDown。接着处理到达步骤515。
[0096] 在步骤515,确定变量VoiceRatio是否指示烦扰。如果"是",处理到达步骤517。如果"否",处理到达步骤519。
[0097] 在步骤517,对变量CountDown进行额外的递减。接着处理到达步骤519。
[0098] 在步骤519,根据某个准则确定变量NuisanceLevel(烦扰水平)是否高。如果"是",处理到达步骤521。如果"否",处理到达步骤523。
[0099] 在步骤521,对变量CountDown进行额外的递减。接着处理到达步骤523。
[0100] 在步骤523,确定是否处于分段的结束处(CountDown<=0)。如果"是",处理到达步骤531。如果"否",处理到达步骤525。
[0101] 在步骤525,用在线计算的语音比更新变量VoiceRatio。接着处理到达步骤527。
[0102] 在步骤527,根据某个准则确定变量VoiceRatio是否高。如果"是",处理到达步骤529。如果"否",处理到达步骤543。
[0103] 在步骤529,以比增加更快的速率衰减变量NuisanceLevel。接着处理到达步骤543。
[0104] 在步骤531,用针对当前分段计算的语音比更新变量VoiceRatio。接着处理到达步骤533。
[0105] 在步骤533,根据某个准则确定变量VoiceRatio是否低。如果"是",处理到达步骤537。如果"否",处理到达步骤535。
[0106] 在步骤535,根据某个准则确定当前分段是否短。如果"是",处理到达步骤537。如果"否",处理到达步骤539。
[0107] 在步骤537,递增变量NuisanceLevel。接着处理到达步骤539。
[0108] 在步骤539,确定变量VoiceRatio是否高。如果"是",处理到达步骤541。如果"否",处理到达步骤543。
[0109] 在步骤541,以比增加更快的速率衰减变量NuisanceLevel。接着处理到达步骤543。
[0110] 在步骤543,以比步骤529和步骤541更慢的速率衰减变量NuisanceLevel。
[0111] 在图5A和图5B图示的实施例中,每个语音块有20ms长,该流程图表示针对每个块执行的判决和逻辑。在这个示例性实施例中,发声起始检测模块以低时延输出期望语音活动的可能性的置信度或测量,因而具有某种不确定性。为发声起始事件设置某个阈值,而为延续事件设置更低的阈值。在测试数据集上,发声起始阈值的合理值对应于大约5%误报率,延续阈值对应于大约10%误报率。在某些实施例中,这2个阈值可以相同,通常范围为1%到20%。
[0112] 在这个实施例中,存在附加变量,用于累积任何讲话突发或话音分段的长度,以及额外跟踪任何突发中被延迟的分类器标记为语音的块的数目。该流程图主要示出了关于作为本公开的一个部分的烦扰水平的累积和使用的逻辑。
[0113] 在一个实施例中,下列值和准则被用于阈值和状态更新:
[0114] ●MaxCount,10(20ms的块,200ms持续(hold over))
[0115] ●VoiceRatio良好,语音>20%,允许延续所需
[0116] ●VoiceRatio提示烦扰,语音<20%,应用附加递减
[0117] ●NuisanceLevel高,烦扰>0.6,应用附加递减
[0118] ●VoiceRatio高,语音>60%,对NuisanceLevel应用快速衰减
[0119] ●分段结束时VoiceRatio低,语音<20%,在分段结束处递增烦扰水平[0120] ●分段短,短于1s,递增NuisanceLevel
[0121] ●分段结束时VoiceRatio高,语音>60%,衰减烦扰水平
[0122] 附加调节参数涉及NuisanceLevel的累加和衰减。在一个实施例中,NuisanceLevel范围为0到1。短讲话突发或具有低检测话音活动的讲话突发的事件引起烦扰水平被递增0.2。在讲话突发期间,如果检测到高水平语音(>60%)话音,则NuisanceLevel被设置成以1s时间常数衰减。在具有高水平语音(>60%)的讲话突发的结束处,烦扰水平被减半。在所有情况下,NuisanceLevel被设置成以10s时间常数衰减。这些值只是示例性的,本领域普通技术人员应当明白,这样的数值的一定量的变化或调节可适用于不同应用。
[0123] 通过这种方式,每当存在“烦扰事件”,例如出现短(<1s)讲话突发或出现主要不是语音的讲话突发时,增加NuisanceLevel。随着NuisanceLevel增加,系统以通过讲话突发倒计数的附加递减来结束讲话分段的方式变得更加主动。
[0124] 图5A和图5B中的流程图只是一个实施例,应当理解可以有许多具有相似效果的变型。特定于本发明的这个逻辑的各方面是根据讲话分段长度以及每个讲话分段各处和结束处语音活动比的观察而进行的对VoiceRatio和NuisanceLevel的累积。
[0125] 在进一步的实施例中,可以训练一组长期分类器以产生反映其它信号的存在的输出,这些其它信号可以以烦扰状态为特征。例如,长期分类器中应用的规则可以被设计为指示输入信号中打字活动的直接存在。长期分类器的较长时间帧和延迟允许在该点有更大的特异度,以实现某个烦扰信号和期望语音输入之间的区别。
[0126] 这种附加烦扰信号类别的分类器能够被用来在出现干扰的特定事件的情况下递增NuisanceLevel,在包含这样的干扰的讲话突发的结束处递增NuisanceLevel,或者可选地,以随时间增加的速率递增NuisanceLevel,该速率在干扰检测或检测的干扰的比值超过某个阈值的情况下被固定和应用。
[0127] 根据上述本发明的实施例,所属技术领域的技术人员应当理解,附加分类器和有关系统级段的信息能够被用来判决烦扰事件和适当递增烦扰水平。虽然不是必要的,然而NuisanceLevel的范围为0到1是方便的,其中0表示与不存在最近烦扰事件关联的低烦扰概率,1表示与存在最近烦扰事件关联的高烦扰概率。
[0128] 在一般的实施例中,NuisanceLevel被用来对发送的输出信号应用额外衰减。在一个实施例中,下列表达式被用来计算增益Gain
[0129]
[0130] 其中在一个实施例中,使用NuisanceGain(烦扰增益)=-20的数值,在烦扰期间增益的适合范围为0-100dB。随着NuisanceLevel增加,这个表达式应用一个增益(或有效衰减),其表示信号中与NuisanceLevel有线性关系的dB降低。
[0131] 在某些实施例中,应用附加段落划分(phrasing)增益以在讲话分段的结束处产生到讲话突发之间需要的背景水平或静音的软过渡。在示例性实施例中,在检测到发声起始或适当延续时,讲话突发的CountDown被设置成10,并且随着讲话突发的延续而被递减(当NuisanceLevel高或VoiceRatio低时应用更快的递减)。这个CountDown被直接用于索引包含一组增益的表。随着CountDown降低通过某个点,这个表产生输出信号的渐弱效果。在一个实施例中,CountMax等于10个20ms的块,或200ms的持续,下列渐弱表被用来在讲话突发外部渐弱到零
[0132] [0 0.0302 0.1170 0.2500 0.4132 0.5868 0.7500 0.8830 0.9698 1 1][0133] 这表示没有增益降低的大约60ms持续,接着是渐弱到零的升余弦。所属技术领域的技术人员应当理解,存在大量适合的可能渐弱长度和曲线,这里只是一个有用的示例。也应当明白渐弱到零以对应传输终止的益处,并且这个示例中的总体发送判决Transmit能够被简单表示为
[0134] Transmit(发送)=真,如果CountDown>0;否则,假。
[0135] 先前的部分包含了以20ms块长度对传入音频执行的建议实施例的充分定义。图4给出了用于这种系统的操作的示意信号设置,其中图示了多数有关信号和根据NuisanceLevel、发送判决和应用的增益的逻辑的输出。
[0136] 图6是图示在处理包含与打字(烦扰)交织的期望话音分段的音频分段发生的内部信号的曲线图。
[0137] 图7是图示根据本发明一个实施例的示例设备700的框图。在图7中,设备700是一个发送控制系统,其中增加了一组以识别具体烦扰类型为目标的特定分类器。
[0138] 在图7中,模块701到709与模块301到309分别具有相同功能,这里不再详细说明。
[0139] 在前面的实施例中,主要根据发声起始检测的活动和来自延迟的特定语音活动检测的某些累积统计数据来导出烦扰的检测。在某些实施例中,可以训练和引入附加分类器来识别特定的烦扰状态类型。这样的分类器能够使用把针对发声起始和语音检测分类器已经提供的特征用于单独的规则,该规则被加以训练以对于特定烦扰状态具有中等灵敏度和高特异度。训练的模块可以有效识别的烦扰音频的某些示例可以包含
[0140] ●呼吸
[0141] ●蜂窝电话铃音
[0142] ●程控交换机提示音或类似的等候音乐
[0143] ●音乐
[0144] ●蜂窝电话射频干扰
[0145] 除了前面详细描述的指示信息之外,也使用这种分类器来改进烦扰的估计概率。例如,持续超过1s的移动电话射频干扰的检测能够快速地使烦扰参数饱和。对于与其它状态和烦扰数值的相互作用,每个烦扰类型可以具有不同的效果和逻辑。通常,特定分类器的关于烦扰存在的指示会在100ms到5s内把烦扰水平提高到最大值,并且/或者在没有检测到任何正常语音活动的情况下相同烦扰重复出现2-3次。
[0146] 在这种分类器的设计中,目标是实现具有30%到70%的建议的对烦扰的中等灵敏度,因此保证高特异度以避免误报。可以预计,对于不包含特定烦扰类型的典型语音和会议活动,误报率会使得误报的出现不会比典型活动的每分钟一次左右更频繁(10s到20m的误报时间范围对于某些设计是合理的)。
[0147] 在图7中,附加分类器711和712被用作判决逻辑710的输入。
[0148] 在所有前面的实施例中,功能模块306或706被图示为馈送到分类器的“其它特征”。在某些实施例中,所使用的具体特征是输入音频信号的归一化谱。在一组频带上计算信号能量,这些频带可以是感知分离的,以及被归一化,使得从这个特征中移除对信号水平的依赖。在某些实施例中,使用一组大约6个频带,其中4到16的数目是合理的。这个特征被用于提供在任何时间点在信号中居主导的频谱频带的指示。例如,通常从分类器学习到,当表示例如200Hz之下的频率的最低频带在谱中居主导时,语音的可能性较低,因为否则的话这种高噪声水平会错误触发信号检测。
[0149] 用于某些实施例,尤其是用于发声起始检测的另一个特征是信号的绝对能量。在某些实施例中,适合的特征是简单均方根RMS测量,或最高语音信噪比的预计频率范围(通常大约500Hz到4kHz)上的加权RMS测量。根据输入信号中期望语音水平的测量(leveling)或先验知识的存在,绝对水平能够作为有效的特征,并且在任何模型训练中适当地使用。
[0150] 图8是示出根据本发明实施例的用于执行信号传输控制的示例设备800的框图。
[0151] 如图8所示,设备800包括语音活动检测器801、分类器802以及传输控制器803。
[0152] 语音活动检测器801被配置成基于从音频信号的每个当前帧中提取的短期特征来对音频信号的当前帧执行语音活动检测。提取短期特征的功能可以被包含在语音活动检测器801中或者被包含在设备800的另外的组件中。
[0153] 各种短期特征可以用于语音活动检测。短期特征的示例包括但不限于谐度(harmonicity)、频谱通量、噪声模式以及能量特征。发声起始判决可以涉及将从当前帧中提取的特征进行组合。这种对短期特征的使用是要为发声起始判断实现短的等待时间。然而,在一些应用中,在发声起始判决中出现稍许的时间延迟(一帧或两帧)可以是可容忍的,以改善发声起始判决的判决特异度,从而因此可以从多于一个的帧中提取短期特征。
[0154] 在能量特征的情况中,噪声模式可以用于聚集成输入信号的长期特征,而将频带中的瞬时频谱与噪声模式比较从而产生能量测量。
[0155] 在一个示例中,可以导出当前输入的频谱和一组频带中的噪声模式并产生定标的参数,该参数在0和1之间并且表示一组频带大于被识别的本底噪声的程度。在这种情况下,可以使用公式(1)描述的特征T。
[0156] 在一些实施例中,噪声估计可以受控于分别来自分类器802和传输控制器803的传输判断(以下将详细描述)。在这种情况下,当确定没有被执行的传输时,可以对噪声进行更新。
[0157] 在一些其他实施例中,可以使用识别噪声段和更新噪声模式的可替换手段。一些示例算法包括在Martin,R.“, Spectral Subtraction Based on Minimum Statistics,”EUSIPCO 1994中描述的极小跟随器(Minimum Followers)、在I.Cohen,"Noise Spectrum estimation in adverse environments:improved minima controlled recursive averaging,"IEEE Trans.Speech Audio Process.11(5),466–475,2003中描述的极小控制的递归平均(Minima Controlled Recursive Averaging)。
[0158] 通过语音活动检测器801执行的语音活动检测的结果包括发声起始判决,如发声起始-开始(onset-start)事件、发声起始-延续(onset-continuation)事件和无发声(non-voice)起始事件。如果能从帧中检测到语音发声起始并且从该帧的一个或更多个在前帧中不能检测到语音发生起始,则该帧中发生了发声起始事件。如果帧的紧接在前帧中发生了发声起始-开始事件并且能以比从在前帧中检测到发声起始-开始事件的能量阈值更低的能量阈值从该帧中检测到语音发声起始,则该帧中发生了发声起始-延续事件。如果不能从帧中检测到语音发声起始,则该帧中发生了无发声起始事件。
[0159] 在一个实施例中,语音活动检测器801使用的发声起始检测规则可以通过使用一组代表性训练数据以及机器学习过程产生合适的特征组合来获得。在一个示例中,所利用的机器学习过程是自适应提升类型的。在另一种示例中,可以使用支持向量机。发声起始检测可以被调整成使灵敏度、特异度或误报率达到合适的平衡,而注意力特别集中于发声起始或者前沿裁剪(FEC)的范围。
[0160] 传输控制器803被配置成:对于每个当前帧,如果从当前帧中检测到发声起始-开始事件,则传输控制器803将该当前帧识别为当前语音段的起始帧。其中,当前语音段初始被赋予不小于保持长度的自适应长度L。语音段是与在不包括有声音活动的两个时期之间的声音活动对应的帧序列。如果在当前帧中发生了发声起始-开始事件,则可以预料的是:当前帧可以是包含声音活动的可能语音段的起始帧,而尽管接下来的帧尚未被处理,接下来的帧可以是该声音的一部分并且可以被包括在该语音段中。然而,在对当前帧进行处理时,语音段的最终长度是未知的。因此,可以为语音段定义自适应长度并且根据在对接下来的帧进行处理时所获得的信息(以下将详细描述)来调整(增大或减小)该长度。
[0161] 分类器802被配置成:如果当前帧在当前语音段之内,则分类器802基于从多个帧中提取的长期特征来对该当前帧执行语音/非语音分类,以导出所述当前帧中被分类为语音的帧的数目的测量。提取长期特征的功能可以被包含在分类器802中或者被包含在设备800的另外的组件中。在另外的实施例中,长期特征可以包括被语音活动检测器801使用的短期特征。以这种方式,可以聚集从多于一个的帧中提取的短期特征以形成长期特征。此外,长期特征还可以包括关于短期特征的统计信息。该统计信息的示例包括但不限于短期特征的平均值或方差。如果当前帧被分类为语音,则所导出的测量为1,否则,所导出的测量为0。
[0162] 因为分类器802基于从包含多于一个的帧的更大的区域中提取的长期特征来对该当前帧分类,所以由分类器802做出的判决是关于语音在音频输入的更大的区域(包括当前帧)中存在语音的延迟判决。这种判决当然可以被认为是关于当前帧的判决。更大区域的示例尺寸或者统计信息的时间常数可以是240ms数量级的,取值范围为100ms至2000ms。
[0163] 由分类器802做出的判决可以被传输控制器803使用,以基于初始发声起始之后出现语音或没有语音来控制当前语音段的延续(增大自适应长度)或完成(减小自适应长度)。具体地,传输控制器803还被配置成:如果当前帧在当前语音段之内,则传输控制器803将当前帧的语音比计算为测量的移动平均值。移动平均算法的示例包括但不限于简单移动平均、累积移动平均、加权移动平均以及指数移动平均。在指数移动平均的情况中,帧n的语音比VRn可以被计算为VRn=αVRn-1+(1-α)Mn,其中,VRn-1是帧n-1的语音比,Mn是帧n的测量,而α是0至1之间的常数。语音比表示在当前帧的时候处做出的关于下一帧含有语音的预测。
[0164] 如果从所述当前帧n中检测到发声起始-延续事件并且紧接在该当前帧n之前的帧n-1的语音比VRn-1大于阈值VoiceNuisance(例如0.2),则这意味着帧n可能会包含语音,而因此传输控制器803增大自适应长度。如果语音比低于阈值VoiceNuisance,则帧n可能会处于烦扰状态。术语“烦扰”指的是对下一帧中的通常会被预料为语音的信号活动可能具有不合需要的性质(例如短脉冲群、键盘活动、背景声音、不稳定的噪声等)的概率的估计。这种不合需要的信号通常不展示出更高的语音比。更高的语音比指示声音的更高的可能性,而因此,当前语音段可能比在当前帧之前所估计的要长。据此,适应性长度可以增加例如一个或更多个帧。可以基于在对烦扰的灵敏度与对语音的灵敏度之间的权衡来确定阈值VoiceNuisance。
[0165] 如果从所述当前帧n中检测到无发声起始事件并且紧接在该当前帧n之前的帧n-1的语音比VRn-1小于阈值VoiceNuisance,则这意味着帧n可能会处于烦扰状态,而因此传输控制器803减小当前语音段的自适应长度。在这种情况下,当前帧被包含在所减小的自适应长度中,也就是说,所减小的语音段不短于从起始帧至当前帧的部分。
[0166] 传输控制器803被配置成:针对多个帧中的每个帧,如果该帧被包括或不被包括在多个语音段中的一个语音段中,则传输控制器803确定传输该帧或者不传输该帧。
[0167] 可以理解的是,语音段的起始帧是基于短期特征所检测的发声起始事件来确定的,而语音段的延续和完成是基于长期特征所估计的语音比来确定的。因此,可以实现短的等待时间和少的误报的有益效果。
[0168] 图9是示出根据本发明实施例的执行信号传输控制的示例方法900的流程图。
[0169] 如图9所示,方法900从步骤901开始。在步骤903处,基于从音频信号的当前帧中提取的短期特征来对该当前帧执行语音活动检测。
[0170] 在步骤905中,确定是否从当前帧中检测到发声起始-开始事件。如果从当前帧中检测到发声起始-开始事件,则在步骤907处将当前帧识别为当前语音段的起始帧,当前语音段初始被赋予不小于保持长度的自适应长度。方法900前进到步骤909。如果从当前帧中没有检测到发声起始-开始事件,则方法900前进到步骤909。
[0171] 在步骤909处,确定当前帧是否在当前语音段之内。如果当前帧不在当前语音段之内,则方法900前进到步骤923。如果当前帧在当前语音段之内,则在步骤911处,基于从多个帧中提取的长期特征来对当前帧执行语音/非语音分类,以导出当前帧中被分类为语音的帧的数目的测量。在另外的实施例中,长期特征可以包括在步骤903处使用的短期特征。以这种方式,可以聚集从多于一个的帧中提取的短期特征以形成长期特征。此外,长期特征还可以包括关于短期特征的统计信息。
[0172] 在步骤913处,将当前帧的语音比计算为测量的移动平均值。
[0173] 在步骤915处,确定是否从当前帧n中检测到发声起始-延续事件并且紧接在当前帧n之前的帧n-1的语音比VRn-1大于阈值VoiceNuisance(例如0.2)。如果从当前帧n中检测到发声起始-延续事件并且紧接在当前帧n之前的帧n-1的语音比VRn-1大于阈值VoiceNuisance(例如0.2),则在步骤917处增大自适应长度。方法900然后前进到步骤923。否则,在步骤919处确定是否从当前帧n中检测到无发声起始事件并且紧接在前的帧n-1的语音比VRn-1小于阈值VoiceNuisance。如果从当前帧n中检测到无发声起始事件并且紧接在前的帧n-1的语音比VRn-1小于阈值VoiceNuisance,则在步骤921处减小当前语音段的自适应长度,方法900然后前进到步骤923。否则,方法900前进到步骤923。
[0174] 在步骤923处,如果帧被包括或不被包括在多个语音段中的一个语音段中,则确定传输该帧或者不传输该帧。
[0175] 在步骤925处,确定是否存在有要被处理的另外的帧。如果存在,则方法900返回到步骤903来处理该另外的帧,而如果不存在,则方法900在步骤927处结束。
[0176] 在设备800的进一步的实施例中,音频信号关联有烦扰水平NuisanceLevel,烦扰水平NuisanceLevel指示当前帧处存在烦扰状态的可能性。传输控制器803还被配置成:如果从当前帧n中检测到无发声起始事件,当前帧n是当前语音段的最后一帧并且紧接在前的帧n-1的语音比VRn-1小于阈值VoiceNuisance,则传输控制器803以第一速率NuisanceInc(例如加0.2)增加烦扰水平NuisanceLevel。传输控制器803还被配置成:在当前帧在当前语音段之内的情况下,如果当前帧n的语音比VRn大于阈值VoiceGood(例如0.4)并且当前语音段的从起始帧到当前帧的部分长于阈值VoiceGoodWaitN,则传输控制器803以快于第一速率的第二速率NuisanceAlphaGood(例如乘以0.5)减小烦扰水平NuisanceLevel。如果当前帧n的语音比VRn大于阈值VoiceGood,这意味着下一帧更加可能会包含语音。以这样的考虑,优选的是阈值VoiceGood大于阈值VoiceNuisance。如果当前语音段的从起始帧到当前帧的部分长于阈值VoiceGoodWaitN,这意味着更高的语音比已经保持了一段时间。满足这两个条件意味着当前帧更加可能会包含语音活动,由此应该快速减小烦扰水平。
[0177] 在示例中,方便的是NuisanceLevel的范围是从0至1,0表示与最近烦扰事件的不存在关联的低烦扰概率,而1表示与最近烦扰事件的存在关联的高烦扰概率。
[0178] 传输控制器803还被配置成:如果确定传输当前帧,则传输控制器803将应用于所述当前帧的增益计算为烦扰水平NuisanceLevel的单调递减函数值。NuisanceLevel用于将另外的衰减应用于所传输的输出信号。在示例中,使用以下的表达式来计算增益:
[0179]
[0180] 其中,在一个示例中,使用下述值NuisanceGain=-20,在烦扰期间增益的适合范围有效地为0…-100dB。随着NuisanceLevel增加,该表达式应用表示与NuisanceLevel线性相关的信号dB降低的增益(或者有效衰减)。
[0181] 在方法900中的进一步的实施例中,音频信号关联有烦扰水平NuisanceLevel,烦扰水平NuisanceLevel指示当前帧处存在烦扰状态的可能性。在方法900中,如果从当前帧n中检测到无发声起始事件,当前帧n是当前语音段的最后一帧并且紧接在前的帧n-1的语音比VRn-1小于阈值VoiceNuisance,则以第一速率NuisanceInc(例如加0.2)增加烦扰水平NuisanceLevel。在当前帧在当前语音段之内的情况下,如果当前帧n的语音比VRn大于阈值VoiceGood(例如0.4)并且当前语音段的从起始帧到当前帧的部分长于阈值VoiceGoodWaitN,则以快于第一速率的第二速率NuisanceAlphaGood(例如乘以0.5)减小烦扰水平NuisanceLevel。如果确定传输当前帧,则将应用于所述当前帧的增益计算为烦扰水平NuisanceLevel的单调递减函数值。NuisanceLevel用于将另外的衰减应用于所传输的输出信号。
[0182] 在装置800和方法900的进一步的实施例中,如果从当前帧n中检测到无发声起始事件,当前帧是当前语音段的最后一帧并且紧接在前的帧n-1的语音比VRn-1大于比阈值VoiceNuisance更高的阈值VoiceGood,则以快于第一速率NuisanceInc的第三速率VoiceGoodDecay(例如乘以0.5)降低烦扰水平。这意味着如果语音比更高而由此当前帧更加可能会含有语音,则烦扰水平快速降低。
[0183] 在装置800和方法900的进一步的实施例中,如果从当前帧中检测到无发声起始事件,当前帧是当前语音段的最后一帧并且当前语音段的长度小于烦扰阈值长度,则以第一速率增加烦扰水平。这意味着短段可能会处于烦扰状态,而因此烦扰水平增加。可以看到这种对烦扰的更新是在语音段的结束帧处执行的。
[0184] 在装置800和方法900的进一步的实施例中,如果从当前帧中检测到无发声起始事件并且烦扰水平大于阈值NuisanceThresh,则减小当前语音段的自适应长度,其中,当前帧被包含在所减小的自适应长度中。这意味着如果满足条件,则段更加可能会处于烦扰状态,应该缩短该段以快速结束传输。
[0185] 在装置800和方法900的进一步的实施例中,如果从当前帧中检测到无发声起始事件并且当前帧不在当前语音段中,则以慢于第一速率的第四速率NuisanceAlpha减小烦扰水平。
[0186] 在装置800和方法900的进一步的实施例中,如果从当前帧中检测到无发声起始事件,当前帧是当前语音段的最后一帧,则将烦扰水平计算为通过将当前语音段中被分类为语音的帧的数目除以当前语音段的长度所得到的商。
[0187] 在装置800和方法900的进一步的实施例中,只有在当前语音段的从当前帧至当前语音段的结束帧之间的部分不长于阈值IgnoreEndN的情况下,才确定当前帧是在当前语音段内。这意味着在由阈值IgnoreEndN定义的结束部分中,分类处理以及由此更新语音比均被忽略。
[0188] 在装置800的进一步的实施例中,装置800还可以包括烦扰分类单元,该烦扰分类单元基于从多个帧中提取的长期特征来从当前帧中检测能够导致烦扰状态的预定类别的信号。在这种情况下,传输控制器还被配置成:如果检测到预定类别的信号,则传输控制器增加烦扰水平。
[0189] 在这种情况下,另外的分类器可以被训练并结合以识别特定类型的烦扰状态。这样的分类器可以用各个规则将已经存在的特征用于语音活动检测以及语音/非语音分类,规则被训练成针对特定的烦扰状态具有适度的灵敏度和高的特异度。可以被受到训练的模块高效识别的烦扰音频的一些示例可以包括呼吸、手机铃声、程控交换机PABX或类似等候音乐、音乐、手机RF(射频)干扰。
[0190] 除了以上详细描述的指示信息之外,这样的分类器也可以用于增加烦扰被估计到的概率。例如,对移动电话RF干扰持续超过1s的检测可以使烦扰参数快速饱和。每种烦扰类型可以具有不同的影响和逻辑用于与其他状态和烦扰值交互。通常,来自特定分类器的对烦扰存在的指示会在100ms至5s之内使烦扰水平增大至最大,和/或在没有检测到任何正常的语音的情况下同样的烦扰重复发生2至3次。
[0191] 在方法200的进一步的实施例中,方法200还可以包括基于从多个帧中提取的长期特征来从当前帧中检测能够导致烦扰状态的预定类别的信号,以及如果检测到预定类别的信号,则增加烦扰水平。
[0192] 在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机访问存储器(RAM)1003的程序执行各种处理。在RAM 1003中,也根据需要存储当CPU1001执行各种处理等等时所需的数据。
[0193] CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。
[0194] 下列部件连接到输入/输出接口1005:包括键盘、鼠标等等的输入部分1006;包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分1007;包括硬盘等等的存储部分1008;和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分1009。通信部分1009经由例如因特网的网络执行通信处理。
[0195] 根据需要,驱动器1010也连接到输入/输出接口1005。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质1011根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008。
[0196] 在通过软件实现上述步骤和处理的情况下,从例如因特网的网络或例如可移除介质1011的存储介质安装构成软件的程序。
[0197] 本文中所用的术语仅仅是为了描述特定实施例的目的,而非意图限定本发明。本文中所用的单数形式的“一”和“该”旨在也包括复数形式,除非上下文中明确地另行指出。还应理解,“包括”一词当在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。
[0198] 以下权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。对本发明进行的描述只是出于图解和描述的目的,而非用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施例。
[0199] 这里描述了下面的示例性实施例(均用"EE"表示)。
[0200] EE 1.一种方法,包括:
[0201] 接收或访问音频信号,所述音频信号包括多个时间上顺序的块或帧;
[0202] 确定两个或更多特征,所述特征合起来表征先前在相对于当前时间点最近的时间段内已经处理的所述顺序音频块或帧中的两个或更多个,其中所述特征确定超过特异度标准,并且相对于最近处理的音频块或帧被延迟;
[0203] 检测所述音频信号中语音活动的指示,其中所述语音活动检测(VAD)基于一个判决,所述判决超过预设的灵敏度阈值并且在一个时间段上计算而得,所述时间段相对于每个所述音频信号块或帧的时长而言是短的,其中所述判决涉及当前音频信号块或帧的一个或更多个特征;
[0204] 组合所述高灵敏度短期VAD、所述最近高特异度音频块或帧特征确定和涉及状态的信息,所述信息基于一个或更多个先前计算的特征确定的历史,所述特征确定是从在所述最近高特异度音频块或帧特征确定时间段之前的时间确定的多个特征中收集的;以及[0205] 基于所述组合输出有关所述音频信号的开始或终止的判决,或与之相关的增益。
[0206] EE 2.如EE 1所述的方法,其中所述组合步骤还包括组合与一个特征有关的一个或更多个信号或确定,该特征包括所述音频信号的当前或先前处理的特征。
[0207] EE 3.如EE 1所述的方法,其中所述状态涉及烦扰特征或音频信号中的语音内容与音频信号的总音频内容的比值中的一个或更多个。
[0208] EE 4.如EE 1所述的方法,其中所述组合步骤还包括组合涉及远端装置或音频环境的信息,所述远端装置或音频环境与正执行所述方法的装置通信耦合。
[0209] EE 5.如EE 1所述的方法,还包括:
[0210] 分析所确定的表征最近处理的音频块或帧的特征;
[0211] 基于所确定的特征的分析,推断所述最近处理的音频块或帧包含至少一个非期望的时间信号分段;以及
[0212] 基于非期望信号分段推断来测量烦扰特征。
[0213] EE 6.如EE 5所述的方法,其中所测量的烦扰特征是变化的。
[0214] EE 7.如EE 6所述的方法,其中所测量的烦扰特征是单调变化的。
[0215] EE 8.如EE 5、6或7中的一个或更多个所述的方法,其中所述高特异度先前音频块或帧特征确定包括期望语音内容相对于非期望时间信号分段的比值或主导程度中的一个或更多个。
[0216] EE 9.如EE 5、6、7或8中的一个或更多个所述的方法,还包括计算涉及所述期望语音内容相对于所述非期望时间信号分段的比值或主导程度的移动统计数据。
[0217] EE 10.如EE 5所述的方法,还包括:
[0218] 确定一个或更多个特征,所述特征识别两个或更多个所述先前处理的顺序音频块或帧的聚集上的烦扰特征;
[0219] 其中所述烦扰测量进一步基于所述烦扰特征识别。
[0220] EE 11.如EE 1所述的方法,还包括:
[0221] 控制增益应用;以及
[0222] 基于所述增益应用控制,平滑所述期望时间音频信号分段开始或终止。
[0223] EE 12.如EE 11所述的方法,其中:
[0224] 所述平滑期望时间音频信号分段开始包括渐强;以及
[0225] 所述平滑期望时间音频信号分段终止包括渐弱。
[0226] EE 13.如EE 3或引用EE 6的EE 7中的一个或更多个所述的方法,还包括基于所测量的烦扰特征来控制增益水平。
[0227] EE 14.一种设备,包括:
[0228] 输入单元,被配置成接收或访问音频信号,所述音频信号包括多个时间上顺序的块或帧;
[0229] 特征生成器,被配置成确定两个或更多特征,所述特征合起来表征先前在相对于当前时间点最近的时间段内已经处理的所述顺序音频块或帧中的两个或更多个,其中所述特征确定超过特异度标准,并且相对于最近处理的音频块或帧被延迟;
[0230] 检测器,被配置成检测所述音频信号中语音活动的指示,其中所述语音活动检测(VAD)基于一个判决,所述判决超过预设的灵敏度阈值并且在一个时间段上计算而得,所述时间段相对于每个所述音频信号块或帧的时长而言是短的,其中所述判决涉及当前音频信号块或帧的一个或更多个特征;
[0231] 组合单元,被配置成组合所述高灵敏度短期VAD、所述最近高特异度音频块或帧特征确定和涉及状态的信息,所述信息基于一个或更多个先前计算的特征确定的历史,所述特征确定是从在所述最近高特异度音频块或帧特征确定时间段之前的时间确定的多个特征中收集的;以及
[0232] 判决生成器,被配置成基于所述组合输出有关所述音频信号的开始或终止的判决,或与之相关的增益。
[0233] EE 15.如EE 14所述的设备,其中所述组合单元进一步被配置成组合与一个特征有关的一个或更多个信号或确定,该特征包括所述音频信号的当前或先前处理的特征。
[0234] EE 16.如EE 14所述的设备,其中所述状态涉及烦扰特征或音频信号中的语音内容与音频信号的总音频内容的比值中的一个或更多个。
[0235] EE 17.如EE 14所述的设备,其中所述组合单元进一步被配置成组合涉及远端装置或音频环境的信息,所述远端装置或音频环境与正执行所述方法的装置通信耦合。
[0236] EE 18.如EE 14所述的设备,还包括烦扰估计器,其被配置成:
[0237] 分析所确定的表征最近处理的音频块或帧的特征;
[0238] 基于所确定的特征的分析,推断所述最近处理的音频块或帧包含至少一个非期望的时间信号分段;以及
[0239] 基于非期望信号分段推断来测量烦扰特征。
[0240] EE 19.如EE 18所述的设备,其中所测量的烦扰特征是变化的。
[0241] EE 20.如EE 19所述的设备,其中所测量的烦扰特征是单调变化的。
[0242] EE 21.如EE 18、19或20中的一个或更多个所述的设备,其中所述高特异度先前音频块或帧特征确定包括期望语音内容相对于非期望时间信号分段的比值或主导程度中的一个或更多个。
[0243] EE 22.如EE 18、19、20或21中的一个或更多个所述的设备,还包括第一计算单元,被配置成计算涉及所述期望语音内容相对于所述非期望时间信号分段的比值或主导程度的移动统计数据。
[0244] EE 23.如EE 18所述的设备,还包括第二计算单元,被配置成确定一个或更多个特征,所述特征识别两个或更多个所述先前处理的顺序音频块或帧的聚集上的烦扰特征;
[0245] 其中所述烦扰测量进一步基于所述烦扰特征识别。
[0246] EE 24.如EE 14所述的设备,还包括第一控制器,被配置成:
[0247] 控制增益应用;以及
[0248] 基于所述增益应用控制,平滑所述期望时间音频信号分段开始或终止。
[0249] EE 25.如EE 24所述的设备,其中
[0250] 所述平滑期望时间音频信号分段开始包括渐强;以及
[0251] 所述平滑期望时间音频信号分段终止包括渐弱。
[0252] EE 26.如EE 16或引用EE 19的EE 20中的一个或更多个所述的设备,还包括第二控制器,被配置成基于所测量的烦扰特征来控制增益水平。
[0253] EE 27.一种执行信号传输控制的方法,包括:
[0254] 基于从音频信号的多个帧中的每个当前帧中提取的短期特征来对所述当前帧执行语音活动检测;
[0255] 如果从所述当前帧中检测到发声起始-开始事件,则将所述当前帧识别为当前语音段的起始帧,其中,所述当前语音段初始被赋予不小于保持长度的自适应长度;
[0256] 如果所述当前帧在所述当前语音段之内,则
[0257] 基于从所述多个帧中提取的长期特征来对所述当前帧执行语音/非语音分类,以导出所述当前帧中被分类为语音的帧的数目的测量;
[0258] 将所述当前帧的语音比计算为所述测量的移动平均值;
[0259] 如果从所述当前帧中检测到发声起始-延续事件并且紧接在所述当前帧之前的帧的语音比大于第一阈值,则增大所述自适应长度;
[0260] 如果从所述当前帧中检测到无发声起始事件并且所述紧接在前的帧的语音比小于所述第一阈值,则减小所述当前语音段的所述自适应长度,其中所述当前帧被包含在所减小的自适应长度中;以及
[0261] 针对所述多个帧中的每个帧,如果所述帧被包括或不被包括在多个语音段中的一个语音段中,则确定传输所述帧或者不传输所述帧。
[0262] EE 28.根据EE 27所述的方法,其中,所述音频信号关联有一个烦扰水平,所述烦扰水平指示所述当前帧处存在烦扰状态的可能性,所述方法还包括:
[0263] 如果从所述当前帧中检测到无发声起始事件,所述当前帧是所述当前语音段的最后一帧并且所述紧接在前的帧的语音比小于所述第一阈值,则以第一速率增加所述烦扰水平;
[0264] 如果所述当前帧在所述当前语音段之内,
[0265] 如果所述当前帧的语音比大于第二阈值并且所述当前语音段的从所述起始帧到所述当前帧的部分长于第三阈值,则以快于所述第一速率的第二速率减小所述烦扰水平;以及
[0266] 如果确定传输所述当前帧,则将应用于所述当前帧的增益计算为所述烦扰水平的单调递减函数值。
[0267] EE 29.根据EE 28所述的方法,还包括:
[0268] 如果从所述当前帧中检测到无发声起始事件,所述当前帧是所述当前语音段的最后一帧并且所述紧接在前的帧的语音比大于比所述第一阈值更高的第四阈值,则以快于所述第一速率的第三速率降低所述烦扰水平。
[0269] EE 30.根据EE 28或29所述的方法,还包括:
[0270] 如果从所述当前帧中检测到无发声起始事件,所述当前帧是所述当前语音段的最后一帧并且所述当前语音段的长度小于烦扰阈值长度,则以所述第一速率增加所述烦扰水平。
[0271] EE 31.根据EE 28或29所述的方法,还包括:
[0272] 如果从所述当前帧中检测到无发声起始事件并且所述烦扰水平大于第五阈值,则减小所述当前语音段的所述自适应长度,其中,所述当前帧被包含在所减小的自适应长度中。
[0273] EE 32.根据EE 28或29所述的方法,还包括:
[0274] 如果从所述当前帧中检测到无发声起始事件并且所述当前帧不在所述当前语音段中,则以慢于所述第一速率的第四速率减小所述烦扰水平。
[0275] EE 33.根据EE 28或29所述的方法,还包括:
[0276] 如果从所述当前帧中检测到无发声起始事件并且所述当前帧是所述当前语音段的最后一帧,则将所述烦扰水平计算为通过将所述当前语音段中被分类为语音的帧的数目除以所述当前语音段的长度所得到的商。
[0277] EE 34.根据EE 27或28或29所述的方法,其中,只有当所述当前语音段的从所述当前帧至所述当前语音段的结束帧之间的部分不长于第六阈值的情况下,才确定所述当前帧是在所述当前语音段内。
[0278] EE 35.根据EE 27或28或29所述的方法,其中,所述长期特征包括所述短期特征,或者所述长期特征包括所述短期特征以及关于所述短期特征的统计信息。
[0279] EE 36.根据EE 28或29所述的方法,还包括:
[0280] 基于从所述多个帧中提取的长期特征来从所述当前帧中检测能够导致烦扰状态的预定类别的信号;以及
[0281] 如果检测到所述预定类别的信号,则增加所述烦扰水平。
[0282] EE 37.一种用于执行信号传输控制的设备,包括:
[0283] 语音活动检测器,所述语音活动检测器被配置成基于从音频信号的多个帧中的每个当前帧中提取的短期特征来对所述当前帧执行语音活动检测;
[0284] 传输控制器,所述传输控制器被配置成:如果从所述当前帧中检测到发声起始-开始事件,则所述传输控制器将所述当前帧识别为当前语音段的起始帧,其中,所述当前语音段初始被赋予不小于保持长度的自适应长度;以及
[0285] 分类器,所述分类器被配置成:如果所述当前帧在所述当前语音段之内,则所述分类器基于从所述多个帧中提取的长期特征来对所述当前帧执行语音/非语音分类,以导出所述当前帧中被分类为语音的帧的数目的测量,
[0286] 其中,所述传输控制器还被配置成:如果所述当前帧在所述当前语音段之内,则[0287] 所述传输控制器将所述当前帧的语音比计算为所述测量的移动平均值;
[0288] 如果从所述当前帧中检测到发声起始-紧接在所述当前帧之前的帧的语音比大于第一阈值,则所述传输控制器增大所述自适应长度;以及
[0289] 如果从所述当前帧中检测到无发声起始事件并且所述紧接在前的帧的语音比小于所述第一阈值,则所述传输控制器减小所述当前语音段的所述自适应长度,其中所述当前帧被包含在所减小的自适应长度中,以及
[0290] 其中,所述传输控制器还被配置成:针对所述多个帧中的每个帧,如果所述帧被包括或不被包括在多个语音段中的一个语音段中,则所述传输控制器确定传输所述帧或者不传输所述帧。
[0291] EE 38.根据EE 37所述的设备,其中,所述音频信号关联有一个烦扰水平,所述烦扰水平指示所述当前帧处存在烦扰状态的可能性,所述传输控制器还被配置成:
[0292] 如果从所述当前帧中检测到无发声起始事件,所述当前帧是所述当前语音段的最后一帧并且所述紧接在前的帧的语音比小于所述第一阈值,则所述传输控制器以第一速率增加所述烦扰水平;
[0293] 如果所述当前帧在所述当前语音段之内,
[0294] 如果所述当前帧的语音比大于第二阈值并且所述当前语音段的从所述起始帧到所述当前帧的部分长于第三阈值,则所述传输控制器以快于所述第一速率的第二速率减小所述烦扰水平;以及
[0295] 如果确定传输所述当前帧,则所述传输控制器将应用于所述当前帧的增益计算为所述烦扰水平的单调递减函数值。
[0296] EE 39.根据EE 38所述的设备,所述传输控制器还被配置成:
[0297] 如果从所述当前帧中检测到无发声起始事件,所述当前帧是所述当前语音段的最后一帧并且所述紧接在前的帧的语音比大于比所述第一阈值更高的第四阈值,则所述传输控制器以快于所述第一速率的第三速率降低所述烦扰水平。
[0298] EE 40.根据EE 38或39所述的设备,所述传输控制器还被配置成:
[0299] 如果从所述当前帧中检测到无发声起始事件,所述当前帧是所述当前语音段的最后一帧并且所述当前语音段的长度小于烦扰阈值长度,则所述传输控制器以所述第一速率增加所述烦扰水平。
[0300] EE 41.根据EE 38或39所述的设备,所述传输控制器还被配置成:
[0301] 如果从所述当前帧中检测到无发声起始事件并且所述烦扰水平大于第五阈值,则所述传输控制器减小所述当前语音段的所述自适应长度,其中,所述当前帧被包含在所减小的自适应长度中。
[0302] EE 42.根据EE 38或39所述的设备,所述传输控制器还被配置成:
[0303] 如果从所述当前帧中检测到无发声起始事件并且所述当前帧不在所述当前语音段中,则所述传输控制器以慢于所述第一速率的第四速率减小所述烦扰水平。
[0304] EE 43.根据EE 38或39所述的设备,所述传输控制器还被配置成:
[0305] 如果从所述当前帧中检测到无发声起始事件并且所述当前帧是所述当前语音段的最后一帧,则所述传输控制器将所述烦扰水平计算为通过将所述当前语音段中被分类为语音的帧的数目除以所述当前语音段的长度所得到的商。
[0306] EE 44.根据EE 37或38或39所述的设备,其中,只有当所述当前语音段的从所述当前帧至所述当前语音段的结束帧之间的部分不长于第六阈值的情况下,所述传输控制器才确定所述当前帧是在所述当前语音段内。
[0307] EE 45.根据EE 37或38或39所述的设备,其中,所述长期特征包括所述短期特征,或者所述长期特征包括所述短期特征以及关于所述短期特征的统计信息。
[0308] EE 46.根据EE 38或39所述的设备,还包括:
[0309] 烦扰分类单元,所述烦扰分类单元基于从所述多个帧中提取的长期特征来从所述当前帧中检测能够导致烦扰状态的预定类别的信号;以及
[0310] 所述传输控制器还被配置成:如果检测到所述预定类别的信号,则所述传输控制器增加所述烦扰水平。
[0311] EE 47.一种在其上记录有计算机程序指令的计算机可读介质,当由处理器执行所述计算机程序指令时,所述指令使处理器执行一种方法,所述方法包括:
[0312] 接收或访问音频信号,所述音频信号包括多个时间上顺序的块或帧;
[0313] 确定两个或更多特征,所述特征合起来表征先前在相对于当前时间点最近的时间段内已经处理的所述顺序音频块或帧中的两个或更多个,其中所述特征确定超过特异度标准,并且相对于最近处理的音频块或帧被延迟;
[0314] 检测所述音频信号中语音活动的指示,其中所述语音活动检测(VAD)基于一个判决,所述判决超过预设的灵敏度阈值并且在一个时间段上计算而得,所述时间段相对于每个所述音频信号块或帧的时长而言是短的,其中所述判决涉及当前音频信号块或帧的一个或更多个特征;
[0315] 组合所述高灵敏度短期VAD、所述最近高特异度音频块或帧特征确定和涉及状态的信息,所述信息基于一个或更多个先前计算的特征确定的历史,所述特征确定是从在所述最近高特异度音频块或帧特征确定时间段之前的时间确定的多个特征中收集的;以及[0316] 基于所述组合输出有关所述音频信号的开始或终止的判决,或与之相关的增益。