麦克风阵列语音波束形成方法、语音信号处理装置及系统转让专利

申请号 : CN201110142759.X

文献号 : CN102324237B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 钟雄虎舒畅

申请人 : 深圳市华新微声学技术有限公司

摘要 :

本发明实施例公开了一种麦克风阵列语音波束形成方法,包括数字信号转换步骤、频域信号获取步骤、时延获取步骤、时延补偿步骤及加权叠加步骤,尤其在时延获取步骤采用基于相位转换的时延估计,从而获得了增强处理后的指向目标声源空间位置的波束形成信号,相对于现有技术提升了三维空间的定位精度以及指向性,大大增强了在复杂声学环境中的远距离拾音能力,获得了高质量的语音信号,减少了噪声和其它干扰。本发明实施例还公开了一种语音信号处理装置及系统。

权利要求 :

1.一种麦克风阵列语音波束形成方法,其特征在于,包括:数字信号转换步骤:对由至少两个麦克风组成的麦克风阵列获取的麦克风信号转换为数字信号;

频域信号获取步骤:获取所述数字信号的频域信号;

时延获取步骤:对所述频域信号进行广义相关分析获取目标声源相对两个所述麦克风的相对时延;

时延补偿步骤:根据所述时延对所述频域信号进行时延补偿;

加权叠加步骤:对时延补偿后的信号进行加权叠加增强处理后获得指向所述目标声源空间位置的波束形成信号。

2.如权利要求1所述的麦克风阵列语音波束形成方法,其特征在于,所述频域信号获取步骤中,通过如下公式来获取所述数字信号的频域信号:即经过J点的快速傅里叶变换变换得到频域信号Ze(k,ω)(k=1,……N,w=1,……J),其中,J为512的正整数倍,l表示第l对麦克风对,l=1,……L;r表示声源到麦克风的距离;S表示对应声源的频谱变换;V表示通道及背景噪声的频谱;表示傅立叶变换函数。

3.如权利要求2所述的麦克风阵列语音波束形成方法,其特征在于,所述时延获取步骤包括如下子步骤:互功率谱获取子步骤:通过如下公式来获取2路所述频域信号之间的互功率谱:其中,E表示数学期望; 表示复共轭;

反傅立叶变换子步骤:通过如下公式来对所述互功率谱做反傅立叶变换:其中,R表示互功率谱的反傅立叶变换;Ω为300Hz-2kHz的语音信号频率范围;

Φl(k,ω)为加权函数即相位变换函数,也即互功率谱的模的倒数;

搜索最大值子步骤:通过如下公式来搜索出所述反傅里叶变换所得数据中的最大值,对应的时延点即为求出的时延:其中, :表示时延。

4.如权利要求3所述的麦克风阵列语音波束形成方法,其特征在于,所述时延补偿步骤通过如下公式来对L路多通道频域信号直接进行时延补偿:

5.如权利要求4所述的麦克风阵列语音波束形成方法,其特征在于,所述加权叠加步骤中,通过如下公式来对所述频域信号进行加权叠加,并进行反傅立叶变换:

6.一种语音信号处理装置,用于对由至少两个麦克风组成的麦克风阵列获取的麦克风信号进行语音增强处理,其特征在于,所述语音信号处理装置包括:用于将所述麦克风阵列获取的麦克风信号转换为数字信号的数字信号转换模块;

用于获取所述数字信号的频域信号的频域信号获取模块;

用于对所述频域信号进行广义相关分析获取目标声源相对两个所述麦克风的相对时延的时延获取模块;

用于根据所述时延对所述频域信号进行时延补偿的时延补偿模块;

用于对时延补偿后的信号进行加权叠加增强处理后获得指向所述目标声源空间位置的波束形成信号的加权叠加模块。

7.如权利要求6所述的语音信号处理装置,其特征在于,所述频域信号获取模块通过如下公式来获取所述数字信号的频域信号:即经过J点的快速傅里叶变换变换得到频域信号Ze(k,ω)(k=1,……N,w=1,……J),其中,J为512的正整数倍,l表示第l对麦克风对,l=1,……L;r表示声源到麦克风的距离;S表示对应声源的频谱变换;V表示通道及背景噪声的频谱;表示傅立叶变换函数。

8.如权利要求7所述的语音信号处理装置,其特征在于,所述时延获取模块包括如下子模块:互功率谱获取子模块:通过如下公式来获取2路所述频域信号之间的互功率谱:其中,E表示数学期望; 表示复共轭;

反傅立叶变换子模块:通过如下公式来对所述互功率谱做反傅立叶变换:其中,R表示互功率谱的反傅立叶变换;Ω为300Hz-2kHz的语音信号频率范围;Φl(k,ω)为加权函数即相位变换函数,也即互功率谱的模的倒数;

搜索最大值子模块:通过如下公式来搜索出所述反傅里叶变换所得数据中的最大值,对应的时延点即为求出的时延:其中, :表示时延。

9.如权利要求8所述的语音信号处理装置,其特征在于,所述时延补偿模块通过如下公式来对L路多通道频域信号直接进行时延补偿:

10.一种语音信号处理系统,其特征在于,该系统包括:由至少两个麦克风组成的、用于获取麦克风信号的麦克风阵列;

用于对所述麦克风信号进行语音增强处理的语音信号处理装置,其中,所述语音信号处理装置包括:用于将所述麦克风阵列获取的麦克风信号转换为数字信号的数字信号转换模块;

用于获取所述数字信号的频域信号的频域信号获取模块;

用于对所述频域信号进行广义相关分析获取目标声源相对两个所述麦克风的相对时延的时延获取模块;

用于根据所述时延对所述频域信号进行时延补偿的时延补偿模块;

用于对时延补偿后的信号进行加权叠加增强处理后获得指向所述目标声源空间位置的波束形成信号的加权叠加模块。

说明书 :

麦克风阵列语音波束形成方法、语音信号处理装置及系统

技术领域

[0001] 本发明涉及复杂声学环境中室内/外音频信号获取例如噪声污染大或室内混响(room reverberation)严重情等况下的远距离拾音数字麦克风阵列(digital microphone array,DMA)技术,尤其涉及一种麦克风阵列语音波束形成方法、语音信号处理装置及系统。

背景技术

[0002] 由于目标声源可能受到背景噪声(汽车、说话的人及爆炸声等)以及多径反射和混响等因素的影响,导致单个麦克风接收的信号信噪比降低,从而使得语音通信质量严重恶化,致使感兴趣的说话人的声音难以听清。在噪声处理上,传统的单个孤立麦克风一般采用频域谱抵消(spectral subtraction)和滤波等技术来抑制噪声。遗憾的是,这些接收到的信号和噪声往往在时间和频谱上相互重叠,尤其是在室内语音条件下,墙壁和其它物体的反射信号实际上就是原信号的复制,要去除这些多径反射极其困难。因此,使用传统的单一麦克风及其相应的数字信号处理方法来增强感兴趣的声音并有效抑制背景噪声、方向性强干扰(如不感兴趣的声音等)和室内混响相当困难。
[0003] 针对单个孤立麦克风的以上不足,人们使用麦克风阵列(Microphone Array,MA)来提高语音通信的质量,所谓麦克风阵列,就是由多个麦克风按照一定的拓扑结构组成一个阵列,现有常见的有麦克风均匀线列阵、均匀圆阵等一维或二维阵列。然而,在实际的应用中,更多的则是使用具有任意拓扑结构的麦克风阵列,也即三维空间的麦克风阵列。因此,与麦克风阵列均匀线阵及圆阵模型相比,建立一个通用的可指向三维空间位置的目标声源的麦克风阵列语音信号处理模型更具有普遍的意义。

发明内容

[0004] 本发明实施例所要解决的技术问题在于,建立一种通用的、更具有普遍的意义麦克风阵列语音信号处理模型,提供一种麦克风阵列语音波束形成方法、语音信号处理装置及系统。
[0005] 为了解决上述技术问题,本发明实施例提出了一种麦克风阵列语音波束形成方法,包括:数字信号转换步骤:对由至少两个麦克风组成的麦克风阵列获取的麦克风信号转换为数字信号;频域信号获取步骤:获取所述数字信号的频域信号;时延获取步骤:对所述频域信号进行广义相关分析获取目标声源相对两个所述麦克风的相对时延;时延补偿步骤:根据所述时延对所述频域信号进行时延补偿;加权叠加步骤:对时延补偿后的信号进行加权叠加增强处理后获得指向所述目标声源空间位置的波束形成信号。
[0006] 相应地,本发明实施例还提供了一种语音信号处理装置,用于对由至少两个麦克风组成的麦克风阵列获取的麦克风信号进行语音增强处理,所述语音信号处理装置包括:用于将所述麦克风阵列获取的麦克风信号转换为数字信号的数字信号转换模块;用于获取所述数字信号的频域信号的频域信号获取模块;用于对所述频域信号进行广义相关分析获取目标声源相对两个所述麦克风的相对时延的时延获取模块;用于根据所述时延对所述频域信号进行时延补偿的时延补偿模块;用于对时延补偿后的信号进行加权叠加增强处理后获得指向所述目标声源空间位置的波束形成信号的加权叠加模块。
[0007] 进一步地,本发明实施例还提供了一种语音信号处理系统,该系统包括:由至少两个麦克风组成的、用于获取麦克风信号的麦克风阵列;用于对所述麦克风信号进行语音增强处理的语音信号处理装置,其中,所述语音信号处理装置包括:用于将所述麦克风阵列获取的麦克风信号转换为数字信号的数字信号转换模块;用于获取所述数字信号的频域信号的频域信号获取模块;用于对所述频域信号进行广义相关分析获取目标声源相对两个所述麦克风的相对时延的时延获取模块;用于根据所述时延对所述频域信号进行时延补偿的时延补偿模块;用于对时延补偿后的信号进行加权叠加增强处理后获得指向所述目标声源空间位置的波束形成信号的加权叠加模块。
[0008] 本发明实施例的麦克风阵列语音波束形成方法通过数字信号转换步骤、频域信号获取步骤、时延获取步骤、时延补偿步骤及加权叠加步骤,尤其在时延获取步骤采用基于相位转换的时延估计,从而获得了增强处理后的指向目标声源空间位置的波束形成信号,相对于现有技术提升了三维空间的定位精度以及指向性,大大增强了在复杂声学环境中的远距离拾音能力,获得了高质量的语音信号,减少了噪声和其它干扰。

附图说明

[0009] 图1是本发明实施例的麦克风阵列的语音信号处理流程示意图。
[0010] 图2是本发明实施例的麦克风阵列语音波束形成流程示意图。
[0011] 图3是图2所示的麦克风阵列语音波束对应的三维空间麦克风阵列模型示意图。
[0012] 图4是本发明实施例的语音信号处理系统的功能模块示意图。

具体实施方式

[0013] 下面结合附图,对本发明实施例进行详细说明。
[0014] 请参考图1,本发明实施例的麦克风阵列有麦克风0~4组成,各个麦克风获得的语音信号依次经过数字信号转换、频域信号获取及时延获取后,分别进行对应的时延补偿0~4,然后再经过加权叠加,最后得到语音信号增强的语音波束。具体地,本发明实施例的麦克风阵列语音波束形成方法,包括:
[0015] 数字信号转换步骤:对由至少两个麦克风组成的麦克风阵列获取的麦克风信号转换为数字信号;
[0016] 频域信号获取步骤:获取所述数字信号的频域信号;
[0017] 时延获取步骤:对所述频域信号进行广义相关分析获取目标声源相对两个所述麦克风的相对时延;
[0018] 时延补偿步骤:根据所述时延对所述频域信号进行时延补偿;
[0019] 加权叠加步骤:对时延补偿后的信号进行加权叠加增强处理后获得指向所述目标声源空间位置的波束形成信号。
[0020] 具体地,所述频域信号获取步骤中,通过如下公式来获取所述数字信号的频域信号:
[0021]
[0022]
[0023] 即经过J点的快速傅里叶变换变换得到频域信号Ze(k,ω),(k=1,…N,ω=1,…J),其中,J为512的正整数倍,l表示第1对麦克风对,l=1,…L;r表示声源到麦克风的距离;S表示对应声源的频谱变换;V表示通道及背景噪声的频谱;表示傅立叶变换函数。
[0024] 所述时延获取步骤包括如下子步骤:
[0025] 互功率谱获取子步骤:通过如下公式来获取2路所述频域信号之间的互功率谱:
[0026]
[0027] 其中,E表示数学期望; 表示复共轭;
[0028] 反傅立叶变换子步骤:通过如下公式来对所述互功率谱做反傅立叶变换:jωτ
[0029] Rl(k,τ)=∫Ωφl(k,ω)Gl(k,ω)e dω,
[0030] 其中,R表示互功率谱的反傅立叶变换;Ω为300Hz-2kHz的语音信号频率范围;φl(k,ω)为加权函数即相位变换函数,也即互功率谱的模的倒数;
[0031] 搜索最大值子步骤:通过如下公式来搜索出所述反傅里叶变换所得数据中的最大值,对应的时延点即为求出的时延:
[0032]
[0033] 其中, 表示时延。
[0034] 所述时延补偿步骤通过如下公式来对L路多通道频域信号直接进行时延补偿:
[0035]
[0036] 所述加权叠加步骤中,通过如下公式来对所述频域信号进行加权叠加,并进行反傅立叶变换:
[0037]
[0038] 请再参考图2,为本发明实施例的麦克风阵列语音波束形成流程示意图,其中,x1(n)、x2(n)及xM(n)表示各麦克风经处理的数字信号; 及 表示权重;y(n)表示对应的加权叠加,0、30等数字表示语音波束对应的角度。麦克风阵列语音波束是通过对各麦克风信号进行加权处理,加重特定方向信号而削弱其它方向信号,从而得到来自某一特定方向的信号。因此,波束形成器输出信号可以看作是对声场信号进行空间滤波的结果。麦克风阵列的波束形成能力使其可以在捕捉方向性声源的同时,提供比单麦克风更高的系统输出信噪比。
[0039] 请参考图3,为本发明实施例的麦克风阵列语音波束对应的三维空间麦克风阵列模型,其中,参考点为O,x、y及z为三维坐标轴,圆圈“o”表示麦克风,s表示目标声源。由于采用的阵列不是规则阵型,很难求出权系数的最优解。而且两大核心问题必须纳入到三维空间语音麦克风阵列波束形成技术的考虑:
[0040] 1)三维空间中波束形成问题;
[0041] 2)语音信号本身为一宽带过程,通常情况下从20Hz-20kHz都含有语音信号,而且这个频段也是大多数应用场合需要的频段;这也是加权过程中的问题所在。
[0042] 本发明实施例对采集进来的信号进行基于相位转换(Phase transform,PHAT)的时延估计,然后对各通道信号进行时延补偿和加权,从而形成阵列的空间指向性,达到语音信号增强的目的。本发明实施例的快速宽带波束形成技术能够适应于语音信号的宽频特性,并能大大减少运算的复杂度。
[0043] 本发明实施例的麦克风阵列三维空间麦克风阵列模型的特点在于:(1)以更为精确的球面波前传播模型为基础,考虑了传播路径长度的不同对信号幅度衰减的影响。(2)处理的信号是宽带的,因此,阵列传输方程被转化到了频域,不同频点的传输方程各不相同,其中主要是相位延迟发生了变化。(3)该模型具有通用性,适用于任意拓扑结构的麦克风阵列,并且对远场声源和近场声源都兼容。(4)能够在三维空间实现定向和指向性,具有更广泛的用途。显然,现有麦克风均匀线阵和均匀圆阵模型可以看作是该任意阵型的特例。
[0044] 请参考图4,对应地,本发明实施例还提供了一种语音信号处理装置10,用于对由至少两个麦克风组成的麦克风阵列20获取的麦克风信号进行语音增强处理,所述语音信号处理装置10包括:数字信号转换模块11、频域信号获取模块13、时延获取模块15、时延补偿模块17及加权叠加模块19。
[0045] 数字信号转换模块11用于将所述麦克风阵列20获取的麦克风信号转换为数字信号;频域信号获取模块13用于获取所述数字信号的频域信号;时延获取模块15用于对所述频域信号进行广义相关分析获取目标声源相对两个所述麦克风的相对时延;时延补偿模块17用于根据所述时延对所述频域信号进行时延补偿的;加权叠加模块19用于对时延补偿后的信号进行加权叠加增强处理后获得指向所述目标声源空间位置的波束形成信号。
[0046] 具体地,所述频域信号获取模块13通过如下公式来获取所述数字信号的频域信号:
[0047]
[0048]
[0049] 即经过J点的快速傅里叶变换变换得到频域信号Ze(k,ω),(k=1,…N,ω=1,…J),其中,J为512的正整数倍,l表示第1对麦克风对,l=1,…L;r表示声源到麦克风的距离;S表示对应声源的频谱变换;V表示通道及背景噪声的频谱;表示傅立叶变换函数。
[0050] 所述时延获取模块15包括如下子模块:
[0051] 互功率谱获取子模块:通过如下公式来获取2路所述频域信号之间的互功率谱:
[0052]
[0053] 其中,E表示数学期望; 表示复共轭;
[0054] 反傅立叶变换子模块:通过如下公式来对所述互功率谱做反傅立叶变换:jωτ
[0055] Rl(k,τ)=∫Ωφl(k,ω)Gl(k,ω)e dω,
[0056] 其中,R表示互功率谱的反傅立叶变换;Ω为300Hz-2kHz的语音信号频率范围;
[0057] φl(k,ω)为加权函数即相位变换函数,也即互功率谱的模的倒数;
[0058] 搜索最大值子模块:通过如下公式来搜索出所述反傅里叶变换所得数据中的最大值,对应的时延点即为求出的时延:
[0059]
[0060] 其中, 表示时延。
[0061] 所述时延补偿模块17通过如下公式来对L路多通道频域信号直接进行时延补偿:
[0062]
[0063] 所述加权叠加模块19通过如下公式来对所述频域信号进行加权叠加,并进行反傅立叶变换:
[0064]
[0065] 进一步地,本发明实施例还提供了一种语音信号处理系统,该系统包括:由至少两个麦克风组成的、用于获取麦克风信号的麦克风阵列20;用于对所述麦克风信号进行语音增强处理的语音信号处理装置10。
[0066] 其中,所述语音信号处理装置10包括:用于将所述麦克风阵列20获取的麦克风信号转换为数字信号的数字信号转换模块11;
[0067] 用于获取所述数字信号的频域信号的频域信号获取模块13;
[0068] 用于对所述频域信号进行广义相关分析获取目标声源相对两个所述麦克风的相对时延的时延获取模块15;
[0069] 用于根据所述时延对所述频域信号进行时延补偿的时延补偿模块17;
[0070] 用于对时延补偿后的信号进行加权叠加增强处理后获得指向所述目标声源空间位置的波束形成信号的加权叠加模块19。
[0071] 本发明实施例结合了时域和频域的技术,提高时延估计的精度,以提高波束的空间指向性。同时,由于采用了任意阵型,能够在三维空间上形成波束指向性,所以三维空间的定位精度以及指向性将进一步得到提升。采用本发明实施例的数字麦克风阵列可以大大增强在复杂声学环境中的远距离拾音能力。与单个麦克风相比,本发明实施例的数字麦克风阵列具有空间选择性,使它在捕获特定方向的高质量信号的同时,又减少了噪声和其它干扰。另外,数字麦克风阵列不必限制说话人的活动,在其接收区域内,可以自动检测、定位和追踪说话人。因此,本发明实施例的数字麦克风阵列可以广泛应用于各种具有嘈杂背景的语音通信环境(如会场、多媒体教室、助听器、车载免提电话、战场等),以提高语音通信质量。
[0072] 另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Radom Access Memory,RAM)等。
[0073] 以上所述是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。