音源定向方法及装置和计算机可读存储介质转让专利

申请号 : CN201910117055.3

文献号 : CN109831709B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 高威特叶振昀张楠赓

申请人 : 杭州嘉楠耘智信息科技有限公司

摘要 :

本发明提供一种音源定向方法,包括:获取多个声音输入信号;在多个预设方向中的每个预设方向上计算出所述多个声音输入信号的累加声音信号;对所述每个预设方向上所计算出的累加声音信号进行滤波,得到所述每个预设方向上的滤波后声音信号;计算所述每个预设方向上的滤波后声音信号的能量与该预设方向上的滤波前的累加声音信号的能量的比值;以及将最大的所述比值对应的预设方向确定为所述声音输入信号的音源方向。在该方法中,针对每一个预设方向,由于是根据同一累加声音信号在滤波前后的能量来计算比值,所以避免了噪声干扰;由于采用具有预定通带的滤波器,能够判断特定声音的音源方向。本发明还提供相应的音源定向装置及计算机可读存储介质。

权利要求 :

1.一种音源定向方法,其特征在于,包括:

获取多个声音输入信号;

在多个预设方向中的每个预设方向上计算出所述多个声音输入信号的累加声音信号;

对所述每个预设方向上所计算出的累加声音信号进行滤波,得到所述每个预设方向上的滤波后声音信号;

计算所述每个预设方向上的滤波后声音信号的能量与该预设方向上的滤波前的累加声音信号的能量的比值;以及将最大的所述比值对应的预设方向确定为所述声音输入信号的音源方向。

2.根据权利要求1所述的音源定向方法,其特征在于,所述计算所述每个预设方向上的滤波后声音信号的能量与该预设方向上的滤波前的累加声音信号的能量的比值包括:在时域中计算所述滤波后声音信号的能量以及所述滤波前的累加声音信号的能量以计算所述比值。

3.根据权利要求1所述的音源定向方法,其特征在于,由多个麦克风获取所述多个声音输入信号,并且所述在多个预设方向中的每个预设方向上计算出所述多个声音输入信号的累加声音信号包括:针对所述多个预设方向中的每个预设方向,

指定所述多个麦克风之一作为参考麦克风,

根据所述多个麦克风中其余麦克风各自相对于所述参考麦克风的声音传播延时值,对所述其余麦克风各自获取的所述声音输入信号进行延时处理,将经过延时处理后的声音输入信号以及参考麦克风获取的声音输入信号进行累加,得到所述每个预设方向上的累加声音信号。

4.根据权利要求1-3中任一项所述的音源定向方法,其特征在于,对所每个预设方向上所计算出的累加声音信号进行滤波是利用具有预定通带的滤波模块进行。

5.根据权利要求4所述的音源定向方法,其特征在于,

所述预定通带包括人声频率范围,或者

所述滤波模块为带通滤波器,所述预定通带的频率范围为20Hz 20kHz,或者为60Hz~ ~

2kHz,或者为150Hz 2kHz。

~

6.根据权利要求4所述的音源定向方法,其特征在于,所述滤波模块为复合带通滤波器,由依次连接的第一滤波器、降采样器和第二滤波器构成,其中所述第一滤波器的通带与所述第二滤波器的通带至少部分交叠,并且在计算所述滤波前的累加声音信号的能量之前以与所述降采样器一样的降采样率对所述滤波器的累加声音信号进行降采样。

7.根据权利要求6所述的音源定向方法,其特征在于,

所述第一滤波器为低通滤波器,所述第二滤波器为高通滤波器或带通滤波器,且所述低通滤波器的截止频率高于所述高通滤波器的截止频率,或所述低通滤波器的截止频率高于所述带通滤波器的下限截止频率且低于所述带通滤波器的上限截止频率;或者所述第一滤波器为带阻滤波器,所述第二滤波器为带通滤波器,所述带阻滤波器的下限截止频率在所述带通滤波器的下限截止频率与上限截止频率之间,且所述带阻滤波器的上限截止频率高于所述带通滤波器的上限截止频率。

8.根据权利要求4所述的音源定向方法,其特征在于,所述具有预定通带的滤波模块的预定通带的频率范围是可调节的。

9.一种音源定向装置,其特征在于,包括:

多个麦克风,其用于采集多个声音输入信号;

累加模块,其用于接收来自所述多个麦克风的所述多个声音输入信号,并在多个预设方向中的每个预设方向上计算出所述多个声音输入信号的累加声音信号;

滤波模块,其与所述累加模块连接,用于对每个预设方向上所计算出的累加声音信号进行滤波,得到所述每个预设方向上的滤波后声音信号;以及计算模块,其与所述累加模块以及所述滤波模块连接,用于计算所述每个预设方向上的滤波后声音信号的能量与该预设方向上的滤波前的累加声音信号的能量的比值,并且将最大的所述比值对应的预设方向确定为所述声音输入信号的音源方向。

10.根据权利要求9所述的音源定向装置,其特征在于,所述计算模块还用于:在时域中计算所述滤波后声音信号的能量以及所述滤波前的累加声音信号的能量,以计算所述比值。

11.根据权利要求9或10所述的音源定向装置,其特征在于,所述在多个预设方向中的每个预设方向上计算出所述多个声音输入信号的累加声音信号,包括:针对所述多个预设方向中的每个预设方向,

指定所述多个麦克风之一作为参考麦克风,

根据所述多个麦克风中其余麦克风各自相对于所述参考麦克风的声音传播延时值,对所述其余麦克风各自获取的所述声音输入信号进行延时处理,将经过延时处理后的声音输入信号以及参考麦克风获取的声音输入信号进行累加,得到所述每个预设方向上的累加声音信号。

12.根据权利要求9所述的音源定向装置,其特征在于,所述滤波模块具有预定通带。

13.根据权利要求12所述的音源定向装置,其特征在于,所述预定通带包括人声频率范围;或者

所述滤波模块为带通滤波器,所述预定通带的频率范围为20Hz 20kHz,或者为60Hz~ ~

2kHz,或者为150Hz 2kHz。

~

14.根据权利要求12或13所述的音源定向装置,其特征在于,所述滤波模块为复合带通滤波器,由依次连接的第一滤波器、降采样器和第二滤波器构成,其中所述第一滤波器的通带与所述第二滤波器的通带至少部分交叠,并且,所述计算模块在计算所述声音输入信号的能量之前以与所述降采样器一样的降采样率对所述声音输入信号进行降采样。

15.根据权利要求14所述的音源定向装置,其特征在于,所述第一滤波器为低通滤波器,所述第二滤波器为高通滤波器或带通滤波器,且所述低通滤波器的截止频率高于所述高通滤波器的截止频率,或所述低通滤波器的截止频率高于所述带通滤波器的下限截止频率且低于所述带通滤波器的上限截止频率;或者所述第一滤波器为带阻滤波器,所述第二滤波器为带通滤波器,所述带阻滤波器的下限截止频率在所述带通滤波器的下限截止频率与上限截止频率之间,且所述带阻滤波器的上限截止频率高于所述带通滤波器的上限截止频率。

16.根据权利要求12所述的音源定向装置,其特征在于,所述滤波模块的预定通带的频率范围是可调节的。

17.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1-8中任一项所述的音源定向方法。

说明书 :

音源定向方法及装置和计算机可读存储介质

技术领域

[0001] 本发明属于音源定向领域,具体涉及一种音源定向方法及装置以及计算机可读存储介质,用于确定目标声音的音源方向,例如用于确定人声的音源方向。

背景技术

[0002] 当前的声音定向系统大多基于麦克风阵列来完成音源定向。麦克风阵列是麦克风的集群,包括多个麦克风,可以用于对空间中的声音进行采样和处理,以确定该空间中音源相对于方向特性进行采样和处理。麦克风阵列中通常采用“延时后求和”(delay-and-sum)技术对各麦克风采集的声音信号进行处理。即针对每一个预设音源方向,相对于麦克风阵列中的参考麦克风,将每个麦克风收到的声音信号按照该麦克风在该预设音源方向上相对于参考麦克风的声音传播延时值进行声音信号延时处理,再将各个预设方向上经过延时处理的声音信号以及参考麦克风接收的声音信号进行叠加以获得该预设音源方向上的累加声音信号,接着在得到的这些累加声音信号中找出具有最大振幅的累加声音信号,将该具有最大振幅的累加声音信号所对应的预设方向判断为音源方向。
[0003] 现有技术中的音源定向通常包括如下两种技术方案:第一种确定音源方向的方案是搜索空间以查找最大能量区域,该方案通常对诸如噪声和混响之类的干扰不具有鲁棒性;第二种确定音源方向的方案是确定声音信号到达不同麦克风的时间差,即,由于麦克风阵列中不同麦克风的位置不同,来自音源的同一声波通常以不同时间到达这些麦克风。
[0004] 音源定向的一个常见应用场景是确定人声声源的方向。例如在视频会议的过程中,需要确定当前发言者的方位。对此,通常是在多个方向上计算出麦克风阵列采集的多路声音信号在各方向上的累加声音强度,然后将最大声音强度所对应的方向确定为人声声源的方向,并基于确定的人声声源方向,进行声音增强等后续操作。但是上述技术方案存在如下缺陷:由于多个麦克风采集的多路声音信号中存在噪声干扰,所以如果仅仅使用最大声音强度来确定音源方向,往往会将强度较大的噪声识别为目标声音,从而错误地将该噪声的方向作为目标声音的音源方向;另外,由于不能有选择地区分人声和非人声,导致有可能将非人声的其他声音的方向确定为人声方向的情况。

发明内容

[0005] 针对上面提到的可能错误地将噪声的方向判定为目标音源方向以及将非人声的方向判定为人声方向的问题,提出了音源定向方法及装置,其能够避免噪声的干扰,环境适应性强,而且能够有选择地对特定声音例如人声进行音源定向,进一步排除其他非人声信号的干扰,而且实现简单,不涉及频域计算,功耗低,配置灵活。
[0006] 依据本发明的第一方面,提供了一种音源定向方法,其包括:
[0007] 获取多个声音输入信号;
[0008] 在多个预设方向中的每个预设方向上计算出所述多个声音输入信号的累加声音信号;
[0009] 对所述每个预设方向上所计算出的累加声音信号进行滤波,得到所述每个预设方向上的滤波后声音信号;
[0010] 计算所述每个预设方向上的滤波后声音信号的能量与该预设方向上的滤波前的累加声音信号的能量的比值;以及
[0011] 将最大的所述比值对应的预设方向确定为所述声音输入信号的音源方向。
[0012] 优选地,计算所述每个预设方向上的滤波后声音信号的能量与该预设方向上的滤波前的累加声音信号的能量的比值包括:在时域中计算所述滤波后声音信号的能量以及所述滤波前的累加声音信号的能量以计算所述比值。
[0013] 优选地,由多个麦克风获取所述多个声音输入信号,并且所述在多个预设方向中的每个预设方向上计算出所述多个声音输入信号的累加声音信号包括:针对所述多个预设方向中的每个预设方向,指定所述多个麦克风之一作为参考麦克风,根据所述多个麦克风中其余麦克风各自相对于所述参考麦克风的声音传播延时值,对所述其余麦克风各自获取的所述声音输入信号进行延时处理,将经过延时处理后的声音输入信号以及参考麦克风获取的声音输入信号进行累加,得到所述每个预设方向上的累加声音信号。
[0014] 优选地,对所每个预设方向上所计算出的累加声音信号进行滤波是利用具有预定通带的滤波模块进行。所述预定通带可以包括人声频率范围。例如,所述滤波模块为带通滤波器,所述预定通带的频率范围为20Hz~20kHz,或者为60Hz~2kHz,或者为150Hz~2kHz。当然,预定带通的频率范围也可以根据实际应用而包括其它频率范围,例如在检测车辆鸣笛的使用场景中,预定带通的频率范围可以设定为鸣笛声的通常频率范围,以检测在哪个方位发生鸣笛并定位鸣笛的车辆。
[0015] 所述滤波模块也可以为复合带通滤波器,由依次连接的第一滤波器、降采样器和第二滤波器构成,其中所述第一滤波器的通带与所述第二滤波器的通带至少部分交叠,并且在计算所述声音输入信号的能量之前以与所述降采样器一样的降采样率对所述声音输入信号进行降采样。其中,第一滤波器可以为低通滤波器,第二滤波器可以为高通滤波器或带通滤波器,且所述低通滤波器的截止频率高于所述高通滤波器的截止频率,或所述低通滤波器的截止频率高于所述带通滤波器的下限截止频率且低于所述带通滤波器的上限截止频率;或者第一滤波器可以为带阻滤波器,第二滤波器可以为带通滤波器,所述带阻滤波器的下限截止频率在所述带通滤波器的下限截止频率与上限截止频率之间,且所述带阻滤波器的上限截止频率高于所述带通滤波器的上限截止频率。
[0016] 在这里,具有预定通带的滤波模块的预定通带的频率范围可以是可调节的,例如通过调整滤波模块的滤波函数各预设参数来实现其通带频率范围的调节,这样,在使用之前或甚至使用过程中,可以调节预定通带的频率范围,以应用于不同的使用场景。
[0017] 根据本发明的另一方面,提供了一种音源定向装置,包括:
[0018] 多个麦克风,其用于采集多个声音输入信号;
[0019] 累加模块,其用于接收来自所述多个麦克风的所述多个声音输入信号,并在多个预设方向中的每个预设方向上计算出所述多个声音输入信号的累加声音信号;
[0020] 滤波模块,其与所述累加模块连接,用于对每个预设方向上所计算出的累加声音信号进行滤波,得到所述每个预设方向上的滤波后声音信号;以及
[0021] 计算模块,其与所述累加模块以及所述滤波模块连接,用于计算所述每个预设方向上的滤波后声音信号的能量与该预设方向上的滤波前的累加声音信号的能量的比值,并且将最大的所述比值对应的预设方向确定为所述声音输入信号的音源方向。
[0022] 优选地,计算模块还可以用于:在时域中计算所述滤波后声音信号的能量以及所述滤波前的累加声音信号的能量,以计算所述比值。
[0023] 优选地,所述在多个预设方向中的每个预设方向上计算出所述多个声音输入信号的累加声音信号,包括:针对所述多个预设方向中的每个预设方向,指定所述多个麦克风之一作为参考麦克风,根据所述多个麦克风中其余麦克风各自相对于所述参考麦克风的声音传播延时值,对所述其余麦克风各自获取的所述声音输入信号进行延时处理,将经过延时处理后的声音输入信号以及参考麦克风获取的声音输入信号进行累加,得到所述每个预设方向上的累加声音信号。
[0024] 优选地,滤波模块具有预定通带。该预定通带可以包括人声频率范围。例如,滤波模块可以为带通滤波器,预定通带的频率范围为20Hz~20kHz,或者为60Hz~2kHz,或者为150Hz~2kHz。当然,预定带通的频率范围也可以根据实际应用而包括其它频率范围,例如在检测车辆鸣笛的使用场景中,预定带通的频率范围可以设定为鸣笛声的通常频率范围,以检测在哪个方位发生鸣笛并定位鸣笛的车辆。
[0025] 滤波模块也可以为复合带通滤波器,由依次连接的第一滤波器、降采样器和第二滤波器构成,其中所述第一滤波器的通带与所述第二滤波器的通带至少部分交叠,其中计算模块在计算所述声音输入信号的能量之前以与所述降采样器一样的降采样率对所述声音输入信号进行降采样。其中,第一滤波器可以为低通滤波器,第二滤波器可以为高通滤波器或带通滤波器,且所述低通滤波器的截止频率高于所述高通滤波器的截止频率,或所述低通滤波器的截止频率高于所述带通滤波器的下限截止频率且低于所述带通滤波器的上限截止频率;或者第一滤波器可以为带阻滤波器,第二滤波器可以为带通滤波器,所述带阻滤波器的下限截止频率在所述带通滤波器的下限截止频率与上限截止频率之间,且所述带阻滤波器的上限截止频率高于所述带通滤波器的上限截止频率。
[0026] 在这里,滤波模块的预定通带的频率范围是可调节的,例如通过调整滤波模块的滤波函数各参数来实现对其通带频率范围的调节,这样,在使用之前或甚至使用过程中,可以调节预定通带的频率范围,以应用于不同的使用场景。
[0027] 根据本发明又一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现如上所述的音源定向方法。
[0028] 在以上各方案中,所述多个麦克风可以属于麦克风阵列中,也可以是任何处于不同位置处的麦克风,即,其在空间中是分布式的。
[0029] 在以上各方案中,针对各个预设方向的参考麦克风可以是同一个麦克风或者是不同的麦克风。
[0030] 在以上各方案中,针对每一个预设方向,由于是根据同一累加声音信号在滤波前后的能量来计算比值,并采用该比值来判断音源方向,所以能够避免噪声的干扰,从而环境适应性强;而且,由于采用了具有预定通带的滤波器,所以能够有选择地对特定声音(例如人声)进行处理,以判断该特定声音的音源方向,进一步排除其他声音信号(包括噪声和除特定声音外的其它声音)的干扰。
[0031] 另外,关于声音信号的能量计算,可以仅通过时域计算来计算滤波后声音信号的能量和声音输入信号的能量,避免了频率变换以及在频域中进行计算的复杂性,从而简化了计算过程和复杂度,降低了设备运行功耗。另外,滤波模块可以为由依次连接的第一滤波器、降采样器和第二滤波器构成的复合带通滤波器实现,其中接收声音输入信号的第一滤波器采用截止频率较高的低通滤波器或者下限截止频率较高的带阻滤波器,从而其不需要采用高阶滤波函数,另外,通过采用降采样器,显著降低了第二滤波器的阶数,从而简化了滤波模块的总体实现复杂度。
[0032] 应当理解,上述说明仅是本发明技术方案的概述,以便能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施。为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本发明的具体实施方式。

附图说明

[0033] 通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的有点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:
[0034] 图1为根据本发明一实施例的音源定向方法的示意图。
[0035] 图2示意性示出根据本发明一实施例的滤波模块,其为复合带通滤波器。
[0036] 图3示意性示出根据本发明一实施例的复合带通滤波器的构成示例(a)、(b)和(c)。
[0037] 图4为根据本发明一实施例的音源定向装置的示意图。
[0038] 图5为根据本发明一实施例的存储有计算机指令的计算机可读存储介质的示意图。
[0039] 图6和图7为根据本发明一实施例的麦克风阵列的工作原理示意图。

具体实施方式

[0040] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0041] 在本发明中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
[0042] 另外还需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0043] 在图1中,示出了根据本发明一实施例的一种音源定向方法,其包括步骤:
[0044] S101:获取多个声音输入信号si,其中i为1,2,3,…,N,N为大于1的整数;
[0045] S102:在多个预设方向中的每个预设方向上计算出所述多个声音输入信号si的累加声音信号s′;
[0046] S103:对所述每个预设方向上所计算出的累加声音信号s′进行滤波,得到所述每个预设方向上的滤波后声音信号h;
[0047] S104:计算所述每个预设方向上的滤波后声音信号h的能量Eh与该预设方向上的滤波前的累加声音信号s′的能量Es′的比值r=Eh/Es′;以及
[0048] S105:对所述各个预设方向计算出的比值r进行比较,将最大的所述比值r对应的预设方向确定为声音输入信号的音源方向。
[0049] 在步骤S101中,获取的多个声音输入信号si可以是各种声音,例如应用该方法的各种应用场景中的声音,如背景噪声、包含目标检测声音(例如人声、鸣笛声等)的背景噪声等等,本实施例中的方法不受此限制。另外,声音输入信号si可以通过各种声音采集设备同时获取,例如通过麦克风阵列中的多个麦克风获取,也可以是通过任何处于不同位置处的麦克风(即,其在空间中分布式设置)获取,本实施例中的方法也不受此限制。
[0050] 在步骤S102中,在多个预设方向中的每个预设方向上计算出所述多个声音输入信号si的累加声音信号s′。该计算通过延时后求和的方式计算,包括如下步骤:针对所述多个预设方向中的每个预设方向,指定所述多个麦克风之一作为参考麦克风,根据所述多个麦克风中其余麦克风各自相对于所述参考麦克风的声音传播延时值,对所述其余麦克风各自获取的所述声音输入信号si进行延时处理,将经过延时处理后的声音输入信号以及参考麦克风获取的声音输入信号进行累加,得到所述每个预设方向上的累加声音信号s′。
[0051] 下面具体参照图6和图7来举例说明如上所述的对声音信号延时后求和的方式。
[0052] 如图6和图7所示,其为根据本发明一实施例的麦克风阵列的工作原理示意图,其中以圆盘型麦克风阵列为例进行图示说明,但是实际上麦克风阵列中的多个麦克风能够根据实际需要以其它不同方式排列,本文对此不作限制。本实施例中,如图6和图7所示,包含5个小圆圈的大圆圈代表麦克风阵列,其中的5个麦克风由A、B、C、D、E表示,麦克风A位于麦克风阵列的中心,麦克风B、C、D、E均匀分布于所述麦克风阵列的边缘。当然,麦克风阵列中的麦克风数量不限于5个,也可以是2、3、4个或者超过5个,而且其中各个麦克风的具体位置也可以根据实际需要进行调整,也未必一定具有设置于中心的麦克风等等,本文对此不做限制。
[0053] 另外,在图6和图7中示出了8个示例性预设方向d1至d8,在麦克风阵列实际工作时会在每次判定中将其中之一判定为声音输入信号的音源方向。当然,也可以有其他数量的预设方向。而且,尽管图6和图7中的预设方向是在360度的范围内均匀分布,但是所述预设方向也未必一定是各向均匀分布,例如这些预设方向可以仅分布在一个扇形中,本文对此不做限制。
[0054] 下面结合图6和图7说明麦克风阵列的工作原理。
[0055] 一般来说,由于麦克风阵列距离音源有一定距离,因此对于麦克风阵列中的多个麦克风而言,可以假定声音信号平行地传播到每一个麦克风。如图6和图7中所示,实际声音信号按照图中所示的声音传播方向传播到麦克风阵列,各个麦克风A、B、C、D、E接收到的声音输入信号分别为s1、s2、s3、s4、s5。接下来计算预设方向d1至d8中每个预设方向上的累加声音信号s′。下面以结合图6计算预设方向d2上的累加声音信号s′以及结合图7计算预设方向d4上的累加声音信号s′为例进行说明,其余预设方向上的累加声音信号的计算与此类似,在此就不再赘述。
[0056] 如图6所示,关于预设方向d2,指定麦克风C为参考麦克风,设该预设方向d2上的同一声音输入信号传播到达麦克风A、B、C、D、E的时间分别为tA、tB、tC、tD、tE,则可以得到其他麦克风A、B、D、E相对于参考麦克风C在该预设方向d2上的声音传播延时值分别为tAC=tA-tC、tBC=tB-tC、tDC=tD-tC、tEC=tE-tC,如图6所示,则预设方向d2上的累加声音信号s′可以根据如下计算:s′(t)=s1(t-tAC)+s2(t-tBC)+s3(t)+s4(t-tDC)+s5(t-tEC)。也就是说,将各个麦克风接收到的声音输入信号si根据各自对应的延时值在时间上进行延时处理,具体为将延时值为正的麦克风接收到的声音输入信号在时间上向前移位,将延时值为负的麦克风接收到的声音输入信号在时间上向后移位,而参考麦克风的延时值为0所以不需要对参考麦克风接收的声音输入信号进行延时处理,然后将各个麦克风的移位后的声音输入信号和参考麦克风的声音输入信号进行累加得到该预设方向d2上的累加声音信号s′。
[0057] 如图7所示,关于预设方向d4,可以指定麦克风B为参考麦克风,设该预设方向d4上的同一声音输入信号传播到达麦克风A、B、C、D、E的时间分别为tA、tB、tC、tD、tE,则可以得到其他麦克风A、C、D、E相对于参考麦克风B在该预设方向d4上的声音传播延时值分别为tAB=tA-tB、tCB=tC-tB、tDB=tD-tB、tEB=tE-tB,如图7所示,则预设方向d4上的累加声音信号s′可以根据如下计算:s′(t)=s1(t-tAB)+s2(t)+s3(t-tCB)+s4(t-tDB)+s5(t-tEB)。也就是说,将各个麦克风接收到的声音输入信号si根据各自对应的延时值在时间上进行延时处理,然后将各个麦克风的移位后的声音输入信号和参考麦克风的声音输入信号进行累加得到该预设方向d4上的累加声音信号s′。
[0058] 其他预设方向上的累加声音信号的计算可以以此类推。
[0059] 如图6和图7所示,由于实际的声音传播方向表明实际音源方向与预设方向d2最接近,所以在实际计算出的各个预设方向上的累加声音信号s′当中,预设方向d2上的累加声音信号s′中的目标检测声音(例如人声)的占比会是最大,即步骤S104中计算出的预设方向d2上的比值r会是最大的,从而在步骤S105中会判断出预设方向d2为声音输入信号的音源方向。
[0060] 从以上看出,所述音源定向方法中对累加声音信号进行了滤波,并且采用比值r来判断音源方向,所以即使在非音源方向上存在除目标声音频率以外的其它频率上较大的噪声,由于滤波的作用,该噪声不会引起该非音源方向上的比值r增大,所以不会对基于比值r的音源定向结果产生负面影响,从而避免了噪声的干扰,从而增强了该音源定向方法的环境适应性。
[0061] 关于参考麦克风,以上示例中针对不同预设方向指定不同的麦克风作为参考麦克风,例如指定预设方向上与假设音源最近的麦克风为参考麦克风以确定其余麦克风相对于参考麦克风的声音传播延时值。但是也可以在各个预设方向上指定同一麦克风(例如中心麦克风A)作为参考麦克风,本文对此不做限制。
[0062] 在步骤S103中,对累加声音信号s′进行滤波是利用具有预定通带的滤波模块进行。预定通带可以包括人声频率范围。例如,滤波模块可以为带通滤波器,预定通带的频率范围为20Hz~20kHz,或者为60Hz~2kHz,或者为150Hz~2kHz。当然,预定带通的频率范围也可以根据实际应用而包括其它频率范围,例如在检测车辆鸣笛的使用场景中,预定带通的频率范围可以设定为鸣笛声的通常频率范围,以检测发生鸣笛的方位;又例如在其他示例中,预定带通的频率范围也可以包括报警声音或火车通过声音等的频率范围。
[0063] 因此,由于采用了具有预定通带的滤波器,所以通过改变预定通带,能够有选择地判断特定频率声音的音源方向。
[0064] 滤波模块也可以为复合带通滤波器。如图2中所示,滤波模块200由依次连接的第一滤波器201、降采样器202和第二滤波器203构成,其中第一滤波器201的通带与第二滤波器203的通带至少部分交叠,从而在频带上形成滤波模块200的预定通带。由于在计算滤波后声音信号h的能量Eh之前由降采样器202对滤波后声音信号h进行了降采样,为了保持上述比值r的准确性,在计算所述累加声音信号s′的能量之前以与降采样器202一样的降采样率对累加声音信号s′进行降采样,然后由其计算能量Es′。
[0065] 其中,第一滤波器201和第二滤波器203可以存在多种具体组合来实现复合带通滤波器。例如,如图3中示出了根据本发明一实施例的复合带通滤波器的构成示例(a)、(b)和(c)。如图3中(a)所示,第一滤波器201可以为低通滤波器,第二滤波器203可以为高通滤波器,该低通滤波器的截止频率f11高于该高通滤波器的截止频率f31,从而得到具有上下截止频率f11和f31的带通滤波器。或者如图3中(b)所示,第一滤波器201可以为低通滤波器,第二滤波器203可以为带通滤波器,该低通滤波器的截止频率f′11高于该带通滤波器的下限截止频率f′31且低于该带通滤波器的上限截止频率f′32,从而得到具有上下截止频率f′11和f′31的带通滤波器。或者如图3中(c)所示,第一滤波器201可以为带阻滤波器,第二滤波器203可以为带通滤波器,该带阻滤波器的下限截止频率f″11在该带通滤波器的下限截止频率f″31与上限截止频率f″32之间,且该带阻滤波器的上限截止频率f″12高于带通滤波器的上限截止频率f″32,从而得到具有上下截止频率f″11和f″31的带通滤波器。在滤波器中,为了实现滤除低频分量,往往需要采用高阶滤波器,而要滤除的低频分量的频率越低,滤波器的阶数往往越高,考虑到这点,在上述复合带通滤波器中,采用了降采样器202来对第一滤波器201滤波后的声音输入信号进行降采样,然后将降采样后的声音输入信号提供给第二滤波器203。由于采用降采样器202降低了声音输入信号的采样率,从而可以显著降低第二滤波器203的阶数,从而简化了滤波模块200的总体实现复杂度,减少了滤波模块200的实现成本。
[0066] 此外,具有预定通带的滤波模块200的预定通带的频率范围可以是可调节的,例如通过调整滤波模块200的滤波函数各预设参数来实现对其通带频率范围的调节,这样,在使用之前或甚至使用过程中,可以调节预定通带的频率范围,以应用于不同使用场景中的目标声音检测。
[0067] 步骤S104具体可以包括:在时域中计算所述滤波后声音信号h的能量Eh以及所述滤波前的累加声音信号s′的能量Es′以计算所述比值r。在这里,关于声音信号的能量计算,可以是仅通过时域计算来获得滤波后声音信号h的能量Eh和声音输入信号s′的能量Es′,在时域计算信号能量的具体方法可以与现有技术中的相同,例如对于预定时间段内的声音输入信号,计算其各个采样点幅值的平方并求和,得到该预定时间段内的声音输入信号的能量,类似的,在对该预定时间段内的声音输入信号进行滤波后得到滤波后声音信号,计算滤波后声音信号各采样点幅值的平方并求和,得到滤波后声音信号的能量,从而可以得到这两个能量的比值。
[0068] 因此,本实施例的音源定向方法利用时域计算进行声音信号的能量计算,避免了频率变换以及在频域中进行计算的复杂性,从而简化了计算过程和复杂度,降低了音源定向设备的运行功耗。
[0069] 在步骤S105中,对所述各个预设方向计算出的比值r进行比较,将最大的所述比值r对应的预设方向确定为声音输入信号的音源方向。其中该比值越大,表明目标声音信号的能量占对应的滤波前的累加声音信号的能量的比例越大,也就是目标声音信号越强,因此在所有预设方向中,可以将该比值最大的预设方向确定为目标声音的音源方向;反之,该比值越小,表明该比值对应的预设方向上的目标声音信号强度越弱,所以该预设方向不太可能是目标声音的音源方向。通过比较上述比值r的大小,能够确定输入声音信号的音源方向。
[0070] 根据本发明的另一实施例,提供了一种音源定向装置,用于实现如上所述实施例中的音源定向方法。如图4所示,音源定向装置400包括:
[0071] 多个麦克风401,其用于采集多个声音输入信号si;
[0072] 累加模块402,其用于接收来自多个麦克风401的多个声音输入信号si,并在多个预设方向中的每个预设方向上计算出多个声音输入信号si的累加声音信号s′;
[0073] 滤波模块403,其与累加模块402连接,用于对每个预设方向上所计算出的累加声音信号s′进行滤波,得到每个预设方向上的滤波后声音信号h;
[0074] 计算模块404,其与累加模块402以及滤波模块403连接,用于计算每个预设方向上的滤波后声音信号h的能量Eh与该预设方向上的滤波前的累加声音信号s′的能量Es′的比值r,并且将最大的比值r所对应的预设方向确定为声音输入信号si的音源方向。
[0075] 与上述音源定向方法的实施例类似,这里的声音输入信号si也可以是各种声音,本实施例不受此限制,在此不再赘述。累加模块402计算累加声音信号s′的步骤包括:针对多个预设方向中的每个预设方向,指定所述多个麦克风之一作为参考麦克风,根据其余麦克风各自相对于参考麦克风的声音传播延时值,对其余麦克风各自获取的声音输入信号进行延时处理,将经过延时处理后的声音输入信号以及参考麦克风获取的声音输入信号进行累加,得到每个预设方向上的累加声音信号。该累加声音信号s′的计算方式也与上述音源定向方法的实施例中类似,在此不再赘述。
[0076] 计算模块404在计算比值r时,可以在时域中计算滤波后声音信号h的能量Eh以及滤波前的累加声音信号s′的能量Es′,以计算滤波后声音信号h的能量Eh与滤波前的累加声音信号s′的能量Es′的比值r。比值r的具体计算方法与上述音源定向方法的实施例中相同,在此不再赘述。
[0077] 另外,滤波模块403具有预定通带。该预定通带可以包括人声频率范围。例如,滤波模块403可以为带通滤波器,预定通带的频率范围为20Hz~20kHz,或者为60Hz~2kHz,或者为150Hz~2kHz。当然,预定带通的频率范围也可以根据实际应用而包括其它频率范围,例如在检测车辆鸣笛的使用场景中,预定带通的频率范围可以设定为鸣笛声的通常频率范围,以检测发生鸣笛的方位;又例如在其他示例中,预定带通的频率范围也可以包括报警声音或火车通过声音等的频率范围。
[0078] 滤波模块403也可以为复合带通滤波器,由依次连接的第一滤波器、降采样器和第二滤波器构成,其中所述第一滤波器的通带与所述第二滤波器的通带至少部分交叠,从而在频带上形成滤波模块403的预定通带。滤波模块403的构造可以与上述音源定向方法实施例中的滤波模块200相同,例如也可以由图2和图3中所示的复合带通滤波器构成,在此就不再赘述。类似地,如果滤波模块403的实现中采用了降采样器,那么计算模块404在计算滤波前的累加声音信号的能量之前也会以与该降采样器一样的降采样率对该累加声音信号进行降采样然后计算降采样后的累加声音信号的能量,以确保得到正确的能量比值r。
[0079] 在这里,滤波模块403的预定通带的频率范围是可调节的,例如通过调整滤波模块403的滤波函数各参数来实现对其通带频率范围的调节,这样,在使用之前或甚至使用过程中,可以调节预定通带的频率范围,以应用于不同的使用场景中的目标声音检测。
[0080] 在以上各实施例中,如果各个预设方向的参考麦克风是同一个麦克风,则在各预设方向上计算出的累加声音信号彼此在时间上是对齐的,则音源方向判定结果会更加严格准确;如果各个预设方向的参考麦克风所述多个麦克风中的不同麦克风,则在各预设方向上计算出的累加声音信号彼此在时间上未必是对齐的,但是由于彼此时间差很小,在实际上也并不影响音源方向判定的准确性。
[0081] 在以上各方案中,针对每一个预设方向,由于是根据同一累加声音信号在滤波前后的能量来计算比值,并采用该比值来判断音源方向,所以能够避免噪声的干扰(因为噪声在滤波前后的累加声音信号中都同样存在),从而环境适应性强;而且,由于采用了具有预定通带的滤波器,所以能够有选择地对特定声音(即,目标声音例如人声)进行处理,以判断该特定声音的音源方向,进一步排除其他声音信号(包括噪声和除特定声音外的其它声音)的干扰。
[0082] 在以上各方案中,关于声音信号的能量计算,可以仅通过时域计算来计算滤波后声音信号的能量和累加声音信号的能量,避免了频率变换以及在频域中进行计算的复杂性,从而简化了计算过程和复杂度,降低了设备运行功耗。另外,滤波模块可以为由依次连接的第一滤波器、降采样器和第二滤波器构成的复合带通滤波器实现,其中接收累加声音信号的第一滤波器采用截止频率较高的低通滤波器或者下限截止频率较高的带阻滤波器,从而其不需要采用高阶滤波函数,另外,通过采用降采样器,显著降低了第二滤波器的阶数,从而简化了滤波模块的总体实现复杂度。
[0083] 根据本发明的又一实施例,还提供了一种计算机可读存储介质。如图5所示,示出了根据本发明一实施例的计算机可读存储介质500的示意图,该计算机可读存储介质上存储有计算机指令,该计算机指令被处理器执行时实现如上所述的音源定向方法。该计算机可读存储介质500可以采用便携式紧凑盘只读存储器(CD-ROM)。然而,本发明的计算机可读存储介质500不限于此,在本文件中,计算机可读存储介质可以是任何包含或存储计算机指令的有形介质。
[0084] 附图中的流程图和框图,图示了按照本公开各种实施例的方法、装置和计算机可读存储介质的可能实现的体系架构、功能和操作。应当注意,流程图中的每个方框所表示的步骤未必按照标号所示的顺序进行,有时可以基本并行地执行,有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的硬件来实现,或者可以用硬件与计算机指令的组合来实现。
[0085] 描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
[0086] 通过以上对实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0087] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。