一种麦克风阵列的声源方向定位方法及装置转让专利

申请号 : CN201610500281.6

文献号 : CN106199607B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李健张连毅武卫东

申请人 : 北京捷通华声科技股份有限公司

摘要 :

本发明实施例提供了一种麦克风阵列的声源方向定位方法及装置,其中的方法具体包括:根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果;确定与所述当前阵元相邻的阵元为当前阵元;根据所述第一估计结果对所述基础阵元及当前阵元进行间距解模糊,以得到第N‑2解模糊结果;根据所述第N‑2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N‑1估计结果,并返回所述确定与当前阵元相邻的阵元为当前阵元的步骤,直至N等于M;根据所述第一估计结果、所述第N‑1估计结果确定最终声源方向;本发明实施例能够提高声源方向的定位精度。

权利要求 :

1.一种麦克风阵列的声源方向定位方法,其特征在于,所述方法包括:根据基础阵元及第一当前阵元对声源方向进行估计,以得到第一估计结果;其中,所述第一当前阵元为与所述基础阵元相邻的阵元;

确定与所述第一当前阵元相邻的阵元为第二当前阵元;

根据所述第一估计结果对所述基础阵元及第二当前阵元进行间距解模糊,以得到第N-

2解模糊结果;其中,所述N为所述第二当前阵元在所述麦克风阵列中序列号;

根据所述第N-2解模糊结果、所述基础阵元及所述第二当前阵元对声源方向进行估计,以得到第N-1估计结果,以第二当前阵元作为新的第一当前阵元,并返回所述确定与第一当前阵元相邻的阵元为第二当前阵元的步骤,直至N等于M;其中,M为所述麦克风阵列中阵元的最大序列号;

根据所述第一估计结果、所述第N-1估计结果确定最终声源方向;其中,N为大于2且小于M的整数。

2.根据权利要求1所述的方法,其特征在于,所述根据基础阵元及第一当前阵元对声源方向进行估计,以得到第一估计结果的步骤,包括:分别根据所述基础阵元及所述第一当前阵元采集的语音数据确定所述基础阵元及所述第一当前阵元对应通道的频谱;

根据所述基础阵元对应通道的频谱及第一当前阵元对应通道的频谱,得到所述基础阵元与第一当前阵元对应的第一广义互相关函数;

确定所述第一广义互相关函数中最大值对应的频点索引值为所述第一估计结果。

3.根据权利要求1所述的方法,其特征在于,所述根据所述第一估计结果对所述基础阵元及与第二当前阵元进行间距解模糊,以得到第N-2解模糊结果的步骤,包括:根据所述第一估计结果确定频点索引值的搜索范围;

确定所述搜索范围为所述第N-2解模糊结果;

其中,所述根据所述第一估计结果确定频点索引值的搜索范围的步骤,包括:确定所述第一估计结果与估计系数的乘积结果;其中,所述估计系数为所述第二当前阵元的序列号与1的差值、与所述第二当前阵元的序列号与2的差值的比值;

确定大于等于所述乘积结果与1的差值、且小于等于所述乘积结果与1的和的频点索引值的范围为所述搜索范围。

4.根据权利要求1所述的方法,其特征在于,所述根据所述第N-2解模糊结果、所述基础阵元及所述第二当前阵元对声源方向进行估计,以得到第N-1估计结果的步骤,包括:分别根据所述基础阵元及所述第二当前阵元采集的语音数据确定所述基础阵元及所述第二当 前阵元对应通道的频谱;

根据所述基础阵元对应通道的频谱及第二当前阵元对应通道的频谱,得到所述基础阵元与第二当前阵元的第N-1广义互相关函数;

确定所述第N-2解模糊结果对应的频点索引值范围内、所述第N-1广义互相关函数中最大值对应的频点索引值为所述第N-1估计结果。

5.根据权利要求1所述的方法,其特征在于,所述根据所述第一估计结果、所述第N-1估计结果确定最终声源方向的步骤,包括:分别根据所述第一估计结果、所述第N-1估计结果确定所述麦克风阵列中的阵元对应的通道相对于所述基础阵元对应的通道的时延值;其中,所述时延值的个数为M-1;

根据所述M-1个时延值确定最终声源方向。

6.一种麦克风阵列的声源方向定位装置,其特征在于,包括:第一估计模块,用于根据基础阵元及第一当前阵元对声源方向进行估计,以得到第一估计结果;其中,所述第一当前阵元为与所述基础阵元相邻的阵元;

第一确定模块,用于确定与所述第一当前阵元相邻的阵元为第二当前阵元;

解模糊模块,用于根据所述第一估计结果对所述基础阵元及第二当前阵元进行间距解模糊,以得到第N-2解模糊结果;其中,所述N为所述第二当前阵元在所述麦克风阵列中序列号;

第二估计模块,用于根据所述第N-2解模糊结果、所述基础阵元及所述第二当前阵元对声源方向进行估计,以得到第N-1估计结果,以第二当前阵元作为新的第一当前阵元,并返回所述确定与第一当前阵元相邻的阵元为第二当前阵元的步骤,直至N等于M;其中,M为所述麦克风阵列中阵元的最大序列号;

第二确定模块,用于根据所述第一估计结果、所述第N-1估计结果确定最终声源方向;

其中,N为大于2且小于M的整数。

7.根据权利要求6所述的装置,其特征在于,所述第一估计模块,包括:第一确定单元,用于分别根据所述基础阵元及所述第一当前阵元采集的语音数据确定所述基础阵元及所述第一当前阵元对应通道的频谱;

第一函数获取单元,用于根据所述基础阵元对应通道的频谱及第一当前阵元对应通道的频谱,得到所述基础阵元与第一当前阵元对应的第一广义互相关函数;

第二确定单元,用于确定所述第一广义互相关函数中最大值对应的频点索引值为所述第一估计结果。

8.根据权利要求7所述的装置,其特征在于,所述解模糊模块,包括:第三确定单元,用于根据所述第一估计结果确定频点索引值的搜索范围;

第四确定单元,用于确定所述搜索范围为所述第N-2解模糊结果;

其中,所述第三确定单元,包括:

第一确定子单元,用于确定所述第一估计结果与估计系数的乘积结果;其中,所述估计系数为所述第二当前阵元的序列号与1的差值、与所述第二当前阵元的序列号与2的差值的比值;

第二确定子单元,用于确定大于等于所述乘积结果与1的差值、且小于等于所述乘积结果与1的和的频点索引值的范围为所述搜索范围。

9.根据权利要求6所述的装置,其特征在于,第二估计模块,包括:第五确定单元,用于分别根据所述基础阵元及所述第二当前阵元采集的语音数据确定所述基础阵元及所述第二当前阵元对应通道的频谱;

第二函数获取单元,用于根据所述基础阵元对应通道的频谱及第二当前阵元对应通道的频谱,得到所述基础阵元与第二当前阵元的第N-1广义互相关函数;

第六确定单元,用于确定所述第N-2解模糊结果对应的频点索引值范围内、所述第N-1广义互相关函数中最大值对应的频点索引值为所述第N-1估计结果。

10.根据权利要求6所述的装置,其特征在于,所述第二确定模块,包括:第七确定单元,用于分别根据所述第一估计结果、所述第N-1估计结果确定所述麦克风阵列中的阵元对应的通道相对于所述基础阵元对应的通道的时延值;其中,所述时延值的个数为M-1;

第八确定单元,用于根据所述M-1个时延值确定最终声源方向。

说明书 :

一种麦克风阵列的声源方向定位方法及装置

技术领域

[0001] 本发明涉及信号处理技术领域,尤其涉及一种麦克风阵列的声源方向定位方法及装置。

背景技术

[0002] 声源定位技术是阵列信号处理的重要技术之一。目前在声呐探测、视频电话会议、人工智能、语音追踪与识别、监控系统等多个领域有着广泛的应用。利用麦克风阵列对声源方位进行计算是声源定位的基本方法,它是将一组麦克风传感器按一定方式布置在空间不同位置上,形成麦克风阵列;利用麦克风阵列接收空间声源信号,再对阵列接收的信号进行处理,提取信号的有用特征,再通过一定计算方法得到声源的方位信息。
[0003] 现有对麦克风阵列的声源进行定位的方法,是利用线性均匀分布麦克风的麦克风阵列中、不相邻的麦克风配对进行声源方向的估计,由于不相邻的麦克风对有多个,因此估计结果即为多个,然后对多个估计结果进行融合得到最终结果,以对声源方向进行定位。
[0004] 然而,在使用上述对麦克风阵列的声源进行定位的方法的过程中,当不相邻的麦克风的间距大于一个波长时,将会造成相位模糊的问题,例如:两个麦克风的间距大于一个波长,相位差为 时,此时无论n取何整数值,相位差看起来都是相同的数值 因此,造成了相位模糊的问题;进一步的,将导致声源方向的定位精度较低。

发明内容

[0005] 本发明实施例提供一种麦克风阵列的声源方向定位方法,以解决现有的麦克风阵列的声源方向定位方法定位精度较低的问题。
[0006] 第一方面,本发明实施例提供了一种麦克风阵列的声源方向定位方法,所述方法包括:
[0007] 根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果;其中,所述当前阵元为与所述基础阵元相邻的阵元;
[0008] 确定与所述当前阵元相邻的阵元为当前阵元;
[0009] 根据所述第一估计结果对所述基础阵元及当前阵元进行间距解模糊,以得到第N-2解模糊结果;其中,所述N为所述当前阵元在所述麦克风阵列中序列号;
[0010] 根据所述第N-2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N-1估计结果,并返回所述确定与当前阵元相邻的阵元为当前阵元的步骤,直至N等于M;其中,M为所述麦克风阵列中阵元的最大序列号;
[0011] 根据所述第一估计结果、所述第N-1估计结果确定最终声源方向;其中,N为大于2且小于M的整数。
[0012] 优选的,所述根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果的步骤,包括:
[0013] 分别根据所述基础阵元及所述当前阵元采集的语音数据确定所述基础阵元及所述当前阵元对应通道的频谱;
[0014] 根据所述基础阵元对应通道的频谱及当前阵元对应通道的频谱,得到所述基础阵元与当前阵元对应的第一广义互相关函数;
[0015] 确定所述第一广义互相关函数中最大值对应的频点索引值为所述第一估计结果。
[0016] 优选的,所述根据所述第一估计结果对所述基础阵元及与当前阵元进行间距解模糊,以得到第N-2解模糊结果的步骤,包括:
[0017] 根据所述第一估计结果确定频点索引值的搜索范围;
[0018] 确定所述搜索范围为所述第N-2解模糊结果;
[0019] 其中,所述根据所述第一估计结果确定频点索引值的搜索范围的步骤,包括:
[0020] 确定所述第一估计结果与估计系数的乘积结果;其中,所述估计系数为所述当前阵元的序列号与1的差值、与所述当前阵元的序列号与2的差值的比值;
[0021] 确定大于等于所述乘积结果与1的差值、且小于等于所述乘积结果与1的和的频点索引值的范围为所述搜索范围。
[0022] 优选的,所述根据所述第N-2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N-1估计结果的步骤,包括:
[0023] 分别根据所述基础阵元及所述当前阵元采集的语音数据确定所述基础阵元及所述当前阵元对应通道的频谱;
[0024] 根据所述基础阵元对应通道的频谱及当前阵元对应通道的频谱,得到所述基础阵元与当前阵元的第N-1广义互相关函数;
[0025] 确定所述第N-2解模糊结果对应的频点索引值范围内、所述第N-1广义互相关函数中最大值对应的频点索引值为所述第N-1估计结果。
[0026] 优选的,所述根据所述第一估计结果、所述第N-1估计结果确定最终声源方向的步骤,包括:
[0027] 分别根据所述第一估计结果、所述第N-1估计结果确定所述麦克风阵列中的阵元对应的通道相对于所述基础阵元对应的通道的时延值;其中,所述时延值的个数为M-1;
[0028] 根据所述M-1个时延值确定最终声源方向。
[0029] 第二方面,本发明实施例还提供了一种麦克风阵列的声源方向定位装置,包括:
[0030] 第一估计模块,用于根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果;其中,所述当前阵元为与所述基础阵元相邻的阵元;
[0031] 第一确定模块,用于确定与所述当前阵元相邻的阵元为当前阵元;
[0032] 解模糊模块,用于根据所述第一估计结果对所述基础阵元及当前阵元进行间距解模糊,以得到第N-2解模糊结果;其中,所述N为所述当前阵元在所述麦克风阵列中序列号;
[0033] 第二估计模块,用于根据所述第N-2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N-1估计结果,并返回所述确定与当前阵元相邻的阵元为当前阵元的步骤,直至N等于M;其中,M为所述麦克风阵列中阵元的最大序列号;
[0034] 第二确定模块,用于根据所述第一估计结果、所述第N-1估计结果确定最终声源方向;其中,N为大于2且小于M的整数。
[0035] 优选的,所述第一估计模块,包括:
[0036] 第一确定单元,用于分别根据所述基础阵元及所述当前阵元采集的语音数据确定所述基础阵元及所述当前阵元对应通道的频谱;
[0037] 第一函数获取单元,用于根据所述基础阵元对应通道的频谱及当前阵元对应通道的频谱,得到所述基础阵元与当前阵元对应的第一广义互相关函数;
[0038] 第二确定单元,用于确定所述第一广义互相关函数中最大值对应的频点索引值为所述第一估计结果。
[0039] 优选的,所述解模糊模块,包括:
[0040] 第三确定单元,用于根据所述第一估计结果确定频点索引值的搜索范围;
[0041] 第四确定单元,用于确定所述搜索范围为所述第N-2解模糊结果。
[0042] 其中,所述第三确定单元,包括:
[0043] 第一确定子单元,用于确定所述第一估计结果与估计系数的乘积结果;其中,所述估计系数为所述当前阵元的序列号与1的差值、与所述当前阵元的序列号与2的差值的比值;
[0044] 第二确定子单元,用于确定大于等于所述乘积结果与1的差值、且小于等于所述乘积结果与1的和的频点索引值的范围为所述搜索范围。
[0045] 优选的,第二估计模块,包括:
[0046] 第五确定单元,用于分别根据所述基础阵元及所述当前阵元采集的语音数据确定所述基础阵元及所述当前阵元对应通道的频谱;
[0047] 第二函数获取单元,用于根据所述基础阵元对应通道的频谱及当前阵元对应通道的频谱,得到所述基础阵元与当前阵元的第N-1广义互相关函数;
[0048] 第六确定单元,用于确定所述第N-2解模糊结果对应的频点索引值范围内、所述第N-1广义互相关函数中最大值对应的频点索引值为所述第N-1估计结果。
[0049] 优选的,所述第二确定模块,包括:
[0050] 第七确定单元,用于分别根据所述第一估计结果、所述第N-1估计结果确定所述麦克风阵列中的阵元对应的通道相对于所述基础阵元对应的通道的时延值;其中,所述时延值的个数为M-1;
[0051] 第八确定单元,用于根据所述M-1个时延值确定最终声源方向。
[0052] 综上,本发明实施例提供的一种麦克风阵列的声源方向定位方法及装置,可以通过基础阵元及与之相邻的当前阵元得到声源方向的第一估计结果,然后重新确定当前阵元相邻的阵元为当前阵元,并通过基础阵元及与重新确定的当前阵元得到声源方向的第N-1估计结果,其中,在上述通过基础阵元及重新确定的当前阵元得到声源方向的第N-1估计结果的过程中,可以根据第N-2估计结果对基础阵元及重新确定的当前阵元进行间距解模糊;相对于现有的声源方向根据不相邻的麦克风配对进行声源方向的估计,本发明实施例中可以根据基础阵元及当前阵元的前一阵元的声源方向的第N-2估计结果对基础阵元及当前阵元进行间距解模糊,进而得到第N-1估计结果;由于第一估计结果是通过相邻阵元配对得到的,该第一估计结果不存在相位模糊的问题,也即第一估计结果对应唯一相位,根据该第一估计结果对基础阵元及重新确定的当前阵元进行间距解模糊,也即确定了第二估计结果的相位范围,在该范围内也即第二估计结果对应唯一相位;因此,当第N-2估计结果对应唯一相位,第N-1估计结果也即对应唯一相位,因此本发明实施例消除了由于阵元间距产生的相位模糊的问题,并且由于充分利用了麦克风阵列的长度,根据阵列信号处理理论,空域分辨率反比于阵元间距,因此本发明实施例提高了声源方向的定位精度。

附图说明

[0053] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0054] 图1是本发明的一种麦克风阵列的声源方向定位方法实施例一的流程图;
[0055] 图2是本发明的一种麦克风阵列的声源方向定位方法实施例二的流程图;
[0056] 图3是本发明的一种麦克风阵列的声源方向定位装置实施例一的结构示意图;
[0057] 图4是本发明的一种麦克风阵列的声源方向定位装置实施例二的结构示意图;
[0058] 图5是本发明的一种麦克风阵列的声源方向定位装置实施例三的结构示意图;;
[0059] 图6是本发明的一种麦克风阵列的声源方向定位装置实施例四的结构示意图;及[0060] 图7是本发明的一种麦克风阵列的声源方向定位装置实施例五的结构示意图。

具体实施方式

[0061] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0062] 方法实施例一
[0063] 参照图1,示出了本发明的一种麦克风阵列的声源方向定位方法实施例一的流程图,具体可以包括如下步骤:
[0064] 步骤101、根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果;其中,所述当前阵元为与所述基础阵元相邻的阵元;
[0065] 本发明实施例可以应用于安装有麦克风阵列的终端及场景中,例如:智能手机、平板电脑、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、穿戴式设备等等终端中,及声呐探测、视频电话会议、人工智能、语音追踪与识别、监控系统等场景中,用以对声源方向进行定位。
[0066] 本发明实施例中,假定麦克风阵列中呈线性均匀分布有M个麦克风,该M个麦克风即为麦克风阵列中的M个阵元,该M个阵元的序列号依次分别为1、2、3、……(该M个阵元的序列号还可以依次分别为0、1、2、3、……);其中,上述基础阵元可以为该麦克风阵列中序列号为1的阵元,当前阵元也即为与基础阵元相邻的、序列号为2的阵元(当上述阵元的序列号为从0开始时,上述基础阵元可以为该麦克风阵列中序列号为0的阵元,当前阵元也即为与基础阵元相邻的、序列号为1的阵元)。
[0067] 在本发明的一种可选实施例中,上述根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果的步骤,具体可以包括:
[0068] 步骤A1、分别根据所述基础阵元及所述当前阵元采集的语音数据确定所述基础阵元及所述当前阵元对应通道的频谱;
[0069] 本发明实施例中,可以通过将所述麦克风阵列中的阵元采集的语音数据进行相应的快速傅里叶变换,以得到上述阵元对应的通道的频谱Xm(k),其中,上述m为大于0且小于M的整数,用于表示所述阵元对应的通道的通道号,上述M为所述麦克风阵列中的阵元的最大序列号;上述k为大于0且小于K-1的整数,用于表示频点索引值,上述K为频点索引值的总数;
[0070] 本发明实施例中,上述基础阵元的序列号为1,对应的通道的通道为1;当前阵元的序列号为2,对应的通道的通道为2;则上述对根据所述基础阵元及所述当前阵元采集的语音数据进行相应的快速傅里叶变换,得到上述两个阵元对应的通道的频谱:X1(k)、及X2(k)。
[0071] 步骤A2、根据所述基础阵元对应通道的频谱及当前阵元对应通道的频谱,得到所述基础阵元与当前阵元的第一广义互相关函数;
[0072] 本发明实施例中,上述基础阵元为序列号为1的阵元,当前阵元为序列号为2的阵元,则可以根据下述公式(1)得到所述基础阵元与当前阵元的第一广义互相关函数:
[0073]
[0074] 其中,上述GCC12(k)可以表示上述基础阵元与当前阵元的第一广义互相关函数;上述IFFT可以表示对上述 进行傅里叶逆变换;上述X1(k)可以表示上述基础阵元对应通道号为1的通道的频谱;上述 可以表示当前阵元对应通道号为2的通道的频谱的共轭。
[0075] 步骤A3、确定所述第一广义互相关函数中最大值对应的频点索引值为所述第一估计结果。
[0076] 本发明实施例中,可以根据下述公式(2)确定上述第一广义互相关函数中的最大值对应的频点索引值,以确定第一估计结果;
[0077]
[0078] 其中,上述 可以表示上述第一广义互相关函数中的最大值对应的频点索引值,也即第一估计结果。
[0079] 步骤102、确定与所述当前阵元相邻的阵元为当前阵元;
[0080] 本发明实施例中,与当前阵元相邻的阵元的序列号比当前阵元的序列号大1,也即当前阵元的序列号为n,则与当前阵元相邻的阵元的序列号为n+1,也即确定序列号为n+1的阵元为当前阵元,例如:上述当前阵元序列号为2,则与当前阵元相邻的阵元的序列号即为3,也即确定序列号为3的阵元为当前阵元。
[0081] 步骤103、根据所述第一估计结果对所述基础阵元及当前阵元进行间距解模糊,以得到第N-2解模糊结果;其中,所述N为所述当前阵元在所述麦克风阵列中的序列号;
[0082] 在本发明的一种可选实施例中,上述根据所述第一估计结果对所述基础阵元及当前阵元进行间距解模糊,以得到第N-2解模糊结果的步骤,具体可以包括:
[0083] 步骤B1、根据所述第一估计结果确定频点索引值的搜索范围;
[0084] 在本发明的一种可选实施例中,上述根据所述第一估计结果确定频点索引值的搜索范围的步骤,具体可以包括:
[0085] 步骤B11、确定所述第一估计结果与估计系数的乘积结果;其中,所述估计系数为所述当前阵元与1的差值、与所述当前阵元与2的差值的比值;
[0086] 本发明实施例中,上述第一估计结果为 当前阵元的序列号为m,则所述估计系数为: 则上述乘积结果为
[0087] 步骤B12、确定大于等于所述乘积结果与1的差值、且小于等于所述乘积结果与1的和的频点索引值的范围为所述搜索范围。
[0088] 本发明实施例中,可以根据下述公式3确定上述搜索范围:
[0089]
[0090] 步骤B12、确定所述搜索范围为所述第N-2解模糊结果。
[0091] 本发明实施例中,上述k的取值范围即为所述第N-2解模糊结果;例如:当前阵元的序列号为3,则上述第1解模糊结果为:
[0092] 步骤104、根据所述第N-2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N-1估计结果,并返回步骤102,直至N等于M;其中,M为所述麦克风阵列中阵元的最大序列号;
[0093] 在本发明的一种可选实施例中,上述根据所述第N-2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N-1估计结果的步骤,具体可以包括:
[0094] 步骤C1、分别根据所述基础阵元及所述当前阵元采集的语音数据确定所述基础阵元及所述当前阵元对应通道的频谱;
[0095] 本发明实施例中,当前阵元的序列号为N,通道号为m,则对应的通道的频谱为Xm(k),其中,N与m可以相等,也即假设当前阵元的序列号为3,则通道号也可以为3,对应的频谱为X3(k);
[0096] 步骤C2、根据所述基础阵元对应通道的频谱及当前阵元对应通道的频谱,得到所述基础阵元与当前阵元的第N-1广义互相关函数;
[0097] 本发明实施例中,可以根据下述公式4得到上述基础阵元与当前阵元的第N-1广义互相关函数:
[0098]
[0099] 其中,上述GCC1m(k)可以表示上述基础阵元与序列号为m的当前阵元的第N-1广义互相关函数;上述 可以表示当前阵元对应通道号为m的通道的频谱的共轭。
[0100] 步骤C3、确定所述第N-2解模糊结果对应的频点索引值范围内、所述第N-1广义互相关函数中最大值对应的频点索引值为所述第N-1估计结果。
[0101] 本发明实施例中,可以根据以下公式(5)确定所述第N-1估计结果:
[0102]
[0103] 其中,上述 可以表示上述第N-1估计结果;
[0104] 本发明实施例中,当前阵元的序列号为N,则在确定上述第N-1估计结果后,若N
[0105] 步骤105、根据所述第一估计结果、所述第N-1估计结果确定最终声源方向;其中,N为大于2且小于M的整数。
[0106] 本发明实施例中,上述声源方向可以为声音源头相对于麦克风阵列的方向。
[0107] 在本发明的一种可选实施例中,上述根据所述第一估计结果、所述第N-1估计结果确定最终声源方向的步骤,具体可以包括:
[0108] 步骤D1、分别根据所述第一估计结果、所述第N-1估计结果确定所述麦克风阵列中的阵元对应的通道相对于所述基础阵元对应的通道的时延值;其中,所述时延值的个数为M-1;
[0109] 本发明实施例中,可以根据下述公式(6)确定麦克风阵列中的阵元对应的通道相对于所述基础阵元对应的通道的时延值:
[0110]
[0111] 其中,上述τ1m表示序列号为m的阵元相对于所述基础阵元对应的通道的时延值;上述K可以表示频点索引值的总数;上述fs可以表示语音的采样频率;在当前阵元的序列号m为2时,上述 用于表示第一估计结果,在当前阵元的序列号为m大于2时,上述 用于表示第N-1估计结果,其中N与上述m相等;
[0112] 假设麦克风阵列中有4个阵元,则上述时延值的个数为3,分别为序列号为2的阵元对应的通道相对于基础阵元对应的通道的时延值 序列号为3的阵元对应的通道相对于基础阵元对应的通道的时延值 序列号为3的阵元对应的通
道相对于基础阵元对应的通道的时延值
[0113] 步骤D2、根据所述M-1个时延值确定最终声源方向。
[0114] 本发明实施例中,可以根据上述M-1个时延值建立M-1个求解声源方向的方程,并利用最小二乘法得到最终声源方向;其中,上述根据时延值建立的求解声源方向的方程参照下述公式7:
[0115] (m-1)d cosθ=cτ1m     公式(7)
[0116] 其中,上述d可以表示麦克风阵列中的相邻阵元之间的间距;上述c可以表示声速,取值可以为340m/s;上述θ可以表示上述声源方向;
[0117] 本发明实施例中,利用最小二乘法得到最终声源方向的过程可以参照下述公式8和公式9:
[0118]
[0119] 其中,上述M为麦克风阵列中的最大的序列号;
[0120] 对上述公式9进行变换,进而得到确定声源方向的公式9:
[0121]
[0122] 在本发明的一种应用示例中,麦克风阵列中存在4个线性均匀分布的阵元,序列号分别为1、2、3、4;则序列号为1的阵元为基础阵元,序列号为2的阵元为当前阵元,则根据上述基础阵元和当前阵元得到第一估计结果 重新确定序列号为3的阵元为当前阵元,根据上述第一估计结果 对基础阵元与当前阵元进行间距解模糊,也即根据上述第一估计结果 确定基础阵元与当前阵元确定第二估计结果时的频点索引值范围,确定该范围为解模糊结果;在上述解模糊结果的频点索引值的范围内、根据上述基础阵元和当前阵元得到第二估计结果 当前阵元的序列号为3,小于最大序列号4,则重新确定序列号为4的阵元为当前阵元,根据上述第二估计结果 对基础阵元与当前阵元进行间距解模糊,并根据解模糊结果及上述基础阵元和当前阵元得到第三估计结果 当前阵元的序列号为最大序列号,则根据上述 确定最终声源方向。
[0123] 参照图2,示出了本发明一种麦克风阵列的声源方向定位方法示例的流程图,具体可以包括:
[0124] 步骤201、分别根据所述基础阵元及所述当前阵元采集的语音数据确定所述基础阵元及所述当前阵元对应通道的频谱;
[0125] 步骤202、根据所述基础阵元对应通道的频谱及当前阵元对应通道的频谱,得到所述基础阵元与当前阵元的第一广义互相关函数;
[0126] 步骤203、确定所述第一广义互相关函数中最大值对应的频点索引值为所述第一估计结果;
[0127] 步骤204、确定与所述当前阵元相邻的阵元为当前阵元;
[0128] 步骤205、根据所述第一估计结果确定频点索引值的搜索范围;
[0129] 步骤206、确定所述搜索范围为所述第N-2解模糊结果;
[0130] 步骤207、分别根据所述基础阵元及所述当前阵元采集的语音数据确定所述基础阵元及所述当前阵元对应通道的频谱;
[0131] 步骤208、根据所述基础阵元对应通道的频谱及当前阵元对应通道的频谱,得到所述基础阵元与当前阵元的第N-1广义互相关函数;
[0132] 步骤209、确定所述第N-2解模糊结果对应的频点索引值范围内、所述第N-1广义互相关函数中最大值对应的频点索引值为所述第N-1估计结果;
[0133] 步骤210、分别根据所述第一估计结果、所述第N-1估计结果确定所述麦克风阵列中的阵元对应的通道相对于所述基础阵元对应的通道的时延值;其中,所述时延值的个数为M-1;
[0134] 步骤211、根据所述M-1个时延值确定最终声源方向。
[0135] 在本发明的一种应用示例中,麦克风阵列中线性均匀4颗麦克风,序列号分别为1、2、3、4。先求取序列号为1和2的阵元对应通道的互相关函数GCC12(k)最大值位置 再根据此最大值位置 确定对序列号为1和3的阵元对应通道的互相关函数最大值位置的搜索范围 待计算1和3的阵元对应通道的互相关函数GCC13(k)并搜索得到
最大值位置 后,进而确定对序列号为1和4的阵元对应通道的互相关函数最大值位置的搜索范围 计算序列号为1和4的阵元对应通道的互相关函数GCC14
(k)并搜索得到最大值位置 最后通过对序列号为1和2,1和3,1和4的阵元对应通道的互相关函数最大值位置确定其时延值τ12、τ13、τ14,根据3个时延值用最小二乘法得到声源方向θ。
[0136] 综上,本发明实施例提供的一种麦克风阵列的声源方向定位方法,可以通过基础阵元及与之相邻的当前阵元得到声源方向的第一估计结果,然后重新确定当前阵元相邻的阵元为当前阵元,并通过基础阵元及与重新确定的当前阵元得到声源方向的第N-1估计结果,其中,在上述通过基础阵元及重新确定的当前阵元得到声源方向的第N-1估计结果的过程中,可以根据第N-2估计结果对基础阵元及重新确定的当前阵元进行间距解模糊;相对于现有的声源方向根据不相邻的麦克风配对进行声源方向的估计,本发明实施例中可以根据基础阵元及当前阵元的前一阵元的声源方向的第N-2估计结果对基础阵元及当前阵元进行间距解模糊,进而得到第N-1估计结果;由于第一估计结果是通过相邻阵元配对得到的,该第一估计结果不存在相位模糊的问题,也即第一估计结果对应唯一相位,根据该第一估计结果对基础阵元及重新确定的当前阵元进行间距解模糊,也即确定了第二估计结果的相位范围,在该范围内也即第二估计结果对应唯一相位,依此类推,当第N-2估计结果对应唯一相位,第N-1估计结果也即对应唯一相位,因此本发明实施例消除了由于阵元间距产生的相位模糊的问题,并且由于充分利用了麦克风阵列的长度,根据阵列信号处理理论,空域分辨率反比于阵元间距,因此本发明实施例提高了声源方向的定位精度。
[0137] 需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
[0138] 装置实施例一
[0139] 参照图3,示出了本发明一种麦克风阵列的声源方向定位装置实施例一的结构框图,具体可以包括如下模块:第一估计模块301、第一确定模块302、解模糊模块303、第二估计模块304及第二确定模块305;其中,
[0140] 上述第一估计模块301,可以用于根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果;其中,所述当前阵元为与所述基础阵元相邻的阵元;
[0141] 第一确定模块302,可以用于确定与所述当前阵元相邻的阵元为当前阵元;
[0142] 解模糊模块303,可以用于根据所述第一估计结果对所述基础阵元及当前阵元进行间距解模糊,以得到第N-2解模糊结果;其中,所述N为所述当前阵元在所述麦克风阵列中序列号;
[0143] 第二估计模块304,可以用于根据所述第N-2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N-1估计结果,并返回所述确定与当前阵元相邻的阵元为当前阵元的步骤,直至N等于M;其中,M为所述麦克风阵列中阵元的最大序列号;
[0144] 第二确定模块305,可以用于根据所述第一估计结果、所述第N-1估计结果确定最终声源方向;其中,N为大于2且小于M的整数。
[0145] 装置实施例二
[0146] 参照图4,示出了本发明一种麦克风阵列的声源方向定位装置实施例二的结构框图,具体可以包括如下模块:第一估计模块401、第一确定模块402、解模糊模块403、第二估计模块404及第二确定模块405;其中,
[0147] 上述第一估计模块401,可以用于根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果;其中,所述当前阵元为与所述基础阵元相邻的阵元;
[0148] 第一确定模块402,可以用于确定与所述当前阵元相邻的阵元为当前阵元;
[0149] 解模糊模块403,可以用于根据所述第一估计结果对所述基础阵元及当前阵元进行间距解模糊,以得到第N-2解模糊结果;其中,所述N为所述当前阵元在所述麦克风阵列中序列号;
[0150] 第二估计模块404,可以用于根据所述第N-2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N-1估计结果,并返回所述确定与当前阵元相邻的阵元为当前阵元的步骤,直至N等于M;其中,M为所述麦克风阵列中阵元的最大序列号;
[0151] 第二确定模块405,可以用于根据所述第一估计结果、所述第N-1估计结果确定最终声源方向;其中,N为大于2且小于M的整数;
[0152] 其中,上述第一估计模块401,具体可以包括:
[0153] 第一确定单元4011,可以用于分别根据所述基础阵元及所述当前阵元采集的语音数据确定所述基础阵元及所述当前阵元对应通道的频谱;
[0154] 第一函数获取单元4012,可以用于根据所述基础阵元对应通道的频谱及当前阵元对应通道的频谱,得到所述基础阵元与当前阵元对应的第一广义互相关函数;
[0155] 第二确定单元4013,可以用于确定所述第一广义互相关函数中最大值对应的频点索引值为所述第一估计结果。
[0156] 装置实施例三
[0157] 参照图5,示出了本发明一种麦克风阵列的声源方向定位装置实施例三的结构框图,具体可以包括如下模块:第一估计模块501、第一确定模块502、解模糊模块503、第二估计模块504及第二确定模块505;其中,
[0158] 上述第一估计模块501,可以用于根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果;其中,所述当前阵元为与所述基础阵元相邻的阵元;
[0159] 第一确定模块502,可以用于确定与所述当前阵元相邻的阵元为当前阵元;
[0160] 解模糊模块503,可以用于根据所述第一估计结果对所述基础阵元及当前阵元进行间距解模糊,以得到第N-2解模糊结果;其中,所述N为所述当前阵元在所述麦克风阵列中序列号;
[0161] 第二估计模块504,可以用于根据所述第N-2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N-1估计结果,并返回所述确定与当前阵元相邻的阵元为当前阵元的步骤,直至N等于M;其中,M为所述麦克风阵列中阵元的最大序列号;
[0162] 第二确定模块505,可以用于根据所述第一估计结果、所述第N-1估计结果确定最终声源方向;其中,N为大于2且小于M的整数;其中,
[0163] 上述解模糊模块503,具体可以包括:
[0164] 第三确定单元5031,可以用于根据所述第一估计结果确定频点索引值的搜索范围;
[0165] 第四确定单元5032,可以,用于确定所述搜索范围为所述第N-2解模糊结果。
[0166] 在本发明的一种可选实施例中,上述第三确定单元5031,具体可以包括:
[0167] 第一确定子单元,可以用于确定所述第一估计结果与估计系数的乘积结果;其中,所述估计系数为所述当前阵元的序列号与1的差值、与所述当前阵元的序列号与2的差值的比值;
[0168] 第二确定子单元,可以用于确定大于等于所述乘积结果与1的差值、且小于等于所述乘积结果与1的和的频点索引值的范围为所述搜索范围。
[0169] 装置实施例四
[0170] 参照图6,示出了本发明一种麦克风阵列的声源方向定位装置实施例四的结构框图,具体可以包括如下模块:第一估计模块601、第一确定模块602、解模糊模块603、第二估计模块604及第二确定模块605;其中,
[0171] 上述第一估计模块601,可以用于根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果;其中,所述当前阵元为与所述基础阵元相邻的阵元;
[0172] 第一确定模块602,可以用于确定与所述当前阵元相邻的阵元为当前阵元;
[0173] 解模糊模块603,可以用于根据所述第一估计结果对所述基础阵元及当前阵元进行间距解模糊,以得到第N-2解模糊结果;其中,所述N为所述当前阵元在所述麦克风阵列中序列号;
[0174] 第二估计模块604,可以用于根据所述第N-2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N-1估计结果,并返回所述确定与当前阵元相邻的阵元为当前阵元的步骤,直至N等于M;其中,M为所述麦克风阵列中阵元的最大序列号;
[0175] 第二确定模块605,可以用于根据所述第一估计结果、所述第N-1估计结果确定最终声源方向;其中,N为大于2且小于M的整数;其中,
[0176] 上述第二估计模块604,具体可以包括:
[0177] 第五确定单元6041,可以用于分别根据所述基础阵元及所述当前阵元采集的语音数据确定所述基础阵元及所述当前阵元对应通道的频谱;
[0178] 第二函数获取单元6042,可以用于根据所述基础阵元对应通道的频谱及当前阵元对应通道的频谱,得到所述基础阵元与当前阵元的第N-1广义互相关函数;
[0179] 第六确定单元6043,可以用于确定所述第N-2解模糊结果对应的频点索引值范围内、所述第N-1广义互相关函数中最大值对应的频点索引值为所述第N-1估计结果。
[0180] 装置实施例五
[0181] 参照图7,示出了本发明一种麦克风阵列的声源方向定位装置实施例五的结构框图,具体可以包括如下模块:第一估计模块701、第一确定模块702、解模糊模块703、第二估计模块704及第二确定模块705;其中,
[0182] 上述第一估计模块701,可以用于根据基础阵元及当前阵元对声源方向进行估计,以得到第一估计结果;其中,所述当前阵元为与所述基础阵元相邻的阵元;
[0183] 第一确定模块702,可以用于确定与所述当前阵元相邻的阵元为当前阵元;
[0184] 解模糊模块703,可以用于根据所述第一估计结果对所述基础阵元及当前阵元进行间距解模糊,以得到第N-2解模糊结果;其中,所述N为所述当前阵元在所述麦克风阵列中序列号;
[0185] 第二估计模块704,可以用于根据所述第N-2解模糊结果、所述基础阵元及所述当前阵元对声源方向进行估计,以得到第N-1估计结果,并返回所述确定与当前阵元相邻的阵元为当前阵元的步骤,直至N等于M;其中,M为所述麦克风阵列中阵元的最大序列号;
[0186] 第二确定模块705,可以用于根据所述第一估计结果、所述第N-1估计结果确定最终声源方向;其中,N为大于2且小于M的整数;其中,
[0187] 上述第二确定模块705,具体可以包括:
[0188] 第七确定单元7051,可以用于分别根据所述第一估计结果、所述第N-1估计结果确定所述麦克风阵列中的阵元对应的通道相对于所述基础阵元对应的通道的时延值;其中,所述时延值的个数为M-1;
[0189] 第八确定单元7052,可以用于根据所述M-1个时延值确定最终声源方向。
[0190] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0191] 本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0192] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0193] 在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0194] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0195] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0196] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0197] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。