一种声源定位方法、装置、介质和设备转让专利

申请号 : CN202010987005.3

文献号 : CN112198474B

文献日 : 2022-02-15

相似专利: 请登录后查看

本发明涉及一种声源定位方法、装置、介质和设备。根据本发明实施例提供的方案，可以在确定出的声源方向既包括真实声源方向，又包括镜像声源方向，无法确定哪个声源方向为真实声源的方向时，通过进行DOA估计确定每个声源方向对应的谱峰，或者通过进行波束形成，确定每个声源方向对应的声源波束信号的相对延迟的绝对值，来确定真实声源方向。使得声源波束存在强反射的情况下，仍然可以确定声源真实方向。

1.一种声源定位方法，其特征在于，所述方法包括：针对基于声源到达方向估计确定出的至少两个声源方向，所述至少两个声源方向对应真实声源方向和镜像声源方向，进行声源到达方向估计，确定每个声源方向对应的谱峰；或者，

针对所述至少两个声源方向中的每个声源方向，在该声源方向，以及该声源方向的至少一个设定方向偏差的方向上做波束形成，得到各方向分别对应的声源波束信号，分别确定该声源方向的每个设定方向偏差的方向对应的声源波束信号，与该声源方向对应的声源波束信号的相对延迟的绝对值；

根据确定出的谱峰或相对延迟的绝对值，确定一个声源方向作为真实声源方向；

根据确定出的谱峰，确定一个声源方向作为真实声源方向，包括：若最大谱峰与次大谱峰之间的差值小于指定差值，则：确定对应的谱峰不小于设定值的至少两个声源方向；

针对对应的谱峰不小于设定值的至少两个声源方向做波束形成，得到每个声源方向分别对应的声源波束信号；

若最大谱峰对应的声源方向对应的声源波束信号，与其它每个声源波束信号的相关系数均低于指定系数值；

将最大谱峰对应的声源方向作为真实声源方向；

根据确定出的相对延迟的绝对值，确定一个声源方向作为真实声源方向，包括：若最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差值小于设定差值，则：

确定对应的相对延迟的绝对值的平均值不大于门限值的至少两个声源方向；

针对对应的相对延迟的绝对值的平均值不大于门限值的至少两个声源方向做波束形成，得到每个声源方向分别对应的声源波束信号；

若对应的相对延迟的绝对值的平均值最小的声源方向对应的声源波束信号，与其它每个声源波束信号的相关系数均低于设定系数值；

将对应的相对延迟的绝对值的平均值最小的声源方向作为真实声源方向。

2.如权利要求1所述的方法，其特征在于，根据确定出的谱峰，确定一个声源方向作为真实声源方向，包括：

若最大谱峰与次大谱峰之间的差值不小于指定差值，将最大谱峰对应的声源方向作为真实声源方向。

3.如权利要求1所述的方法，其特征在于，若最大谱峰对应的声源方向对应的声源波束信号，与至少一个其它声源波束信号的相关系数不低于指定系数值，则：针对最大谱峰对应的声源方向，以及所述至少一个其它声源波束信号中的每个声源波束信号分别对应的声源方向中的每个声源方向，在该声源方向，以及该声源方向的至少一个设定方向偏差的方向上做波束形成，得到各方向分别对应的声源波束信号，分别确定该声源方向的每个设定方向偏差的方向上，与该声源方向对应的声源波束信号的相对延迟的绝对值；

根据确定出的相对延迟的绝对值，确定一个声源方向作为真实声源方向。

4.如权利要求1所述的方法，其特征在于，根据确定出的相对延迟的绝对值，确定一个声源方向作为真实声源方向，包括：若最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差值不小于设定差值，将对应的相对延迟的绝对值的平均值最小的声源方向，作为真实声源方向。

5.如权利要求1所述的方法，其特征在于，若对应的相对延迟的绝对值的平均值最小的声源方向对应的声源波束信号，与至少一个其它声源波束信号的相关系数大于设定系数值，则：

针对对应的相对延迟的绝对值的平均值最小的声源方向，以及所述至少一个其它声源波束信号分别对应的声源方向中的每个声源方向，进行声源到达方向估计，确定每个声源方向对应的谱峰；

根据确定出的谱峰，确定一个声源方向作为真实声源方向。

6.一种声源定位装置，其特征在于，所述装置包括：确定模块，用于针对基于声源到达方向估计确定出的至少两个声源方向，所述至少两个声源方向对应真实声源方向和镜像声源方向，进行声源到达方向估计，确定每个声源方向对应的谱峰；或者，

选择模块，用于根据确定出的谱峰或相对延迟的绝对值，确定一个声源方向作为真实声源方向；

针对对应的谱峰不小于设定值的至少两个声源方向做波束形成，得到每个声源方向分别对应的声源波束信号；

若最大谱峰对应的声源方向对应的声源波束信号，与其它每个声源波束信号的相关系数均低于指定系数值；

将最大谱峰对应的声源方向作为真实声源方向；

确定对应的相对延迟的绝对值的平均值不大于门限值的至少两个声源方向；

针对对应的相对延迟的绝对值的平均值不大于门限值的至少两个声源方向做波束形成，得到每个声源方向分别对应的声源波束信号；

若对应的相对延迟的绝对值的平均值最小的声源方向对应的声源波束信号，与其它每个声源波束信号的相关系数均低于设定系数值；

将对应的相对延迟的绝对值的平均值最小的声源方向作为真实声源方向。

7.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～5任一所述的方法。

8.一种声源定位设备，其特征在于，所述设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现权利要求1～5任一所述的方法步骤。

一种声源定位方法、装置、介质和设备

技术领域

[0001] 本发明涉及声源定位技术领域，特别涉及一种声源定位方法、装置、介质和设备。

背景技术

[0002] 利用麦克风阵列进行声源到达方向估计(direction‑of‑arrival(DOA)estimation)，在声信号处理中是一个非常重要也是非常热点的话题。它在很多应用场景中
对声音的捕捉有非常重要的作用，比如智能设备的人机语音交互、镜头追踪以及智能监控
等等。

[0003] 在现有技术中，DOA估计基于声源发出的声源波束直达麦克风阵列来实现声源定位，没有考虑声源波束存在强反射的情况。

[0004] 如果声源波束存在强反射的情况，例如，声源波束遇刚性壁物体反射，麦克风阵列会接收到至少一个经反射得到的声源波束，根据经反射得到的声源波束，将其作为直达声
源波束，会得到对应的镜像声源的方向，由此导致无法确定声源的真实方向。

[0005] 有刚性物体的壁面(可以简称为刚性壁，如墙壁)环境下声源波束传播示意图可以如图1所示，真实声源发出的声源波束以直达声源波束(在图1中简单记为直达声)的形式，
被麦克风阵列接收(在图1中麦克风阵列简单记为接收阵列)，基于直达声，可以通过DOA估
计，确定一个真实声源对应的方向(可以用方位角θA表示)。

[0006] 由于存在刚性壁，真实声源发出的声源波束还会以反射声源波束(在图1中简单记为反射声)的形式，被麦克风阵列接收，基于反射声，可以通过DOA估计，确定一个镜像声源
对应的方向(可以用方位角θB表示)。

[0007] 需要说明的是，基于每个被麦克风阵列接收的反射声，均可以通过DOA估计，确定一个镜像声源对应的方向，也就是说，可能确定出多个镜像声源对应的方向。

[0008] 此时，由于确定出多个方向，无法确定哪个方向对应真实声源的方向。因此，在声源波束存在强反射的情况下，如何确定声源真实方向，成为一个亟需解决的问题。

发明内容

[0009] 本发明实施例提供一种声源定位方法、装置、介质和设备，用于解决声源波束存在强反射的情况下，无法通过DOA估计确定声源真实方向的问题。

[0010] 本发明提供了一种声源定位方法，所述方法包括：

[0011] 针对基于声源到达方向估计确定出的至少两个声源方向，所述至少两个声源方向对应真实声源方向和镜像声源方向，进行声源到达方向估计，确定每个声源方向对应的谱
峰；或者，

[0012] 针对所述至少两个声源方向中的每个声源方向，在该声源方向，以及该声源方向的至少一个设定方向偏差的方向上做波束形成，得到各方向分别对应的声源波束信号，分
别确定该声源方向的每个设定方向偏差的方向对应的声源波束信号，与该声源方向对应的
声源波束信号的相对延迟的绝对值；

[0013] 根据确定出的谱峰或相对延迟的绝对值，确定一个声源方向作为真实声源方向。

[0014] 本发明还提供了一种声源定位装置，所述装置包括：

[0015] 确定模块，用于针对基于声源到达方向估计确定出的至少两个声源方向，所述至少两个声源方向对应真实声源方向和镜像声源方向，进行声源到达方向估计，确定每个声
源方向对应的谱峰；或者，

[0016] 针对所述至少两个声源方向中的每个声源方向，在该声源方向，以及该声源方向的至少一个设定方向偏差的方向上做波束形成，得到各方向分别对应的声源波束信号，分
别确定该声源方向的每个设定方向偏差的方向对应的声源波束信号，与该声源方向对应的
声源波束信号的相对延迟的绝对值；

[0017] 选择模块，用于根据确定出的谱峰或相对延迟的绝对值，确定一个声源方向作为真实声源方向。

[0018] 本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述的方法。

[0019] 本发明还提供了一种声源定位设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

[0020] 所述存储器，用于存放计算机程序；

[0021] 所述处理器，用于执行所述存储器上所存储的程序时，实现如上所述的方法步骤。

[0022] 根据本发明实施例提供的方案，可以在确定出的声源方向既包括真实声源方向，又包括镜像声源方向，无法确定哪个声源方向为真实声源的方向时，通过进行DOA估计确定
每个声源方向对应的谱峰，或者通过进行波束形成，确定每个声源方向对应的声源波束信
号的相对延迟的绝对值，来确定真实声源方向。使得声源波束存在强反射的情况下，仍然可
以确定声源真实方向。

[0023] 本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明
书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

[0024] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以
根据这些附图获得其他的附图。

[0025] 图1为有刚性壁环境下声波传播示意图；

[0026] 图2为本发明实施例一提供的声源定位方法的流程示意图；

[0027] 图3为本发明实施例一提供的对针对每个声源方向，两个与该声源方向存在方向偏差的方向的示意图；

[0028] 图4为本发明实施例二提供的声源定位装置的结构示意图；

[0029] 图5为本发明实施例三提供的声源定位设备的结构示意图。

具体实施方式

[0030] 本案发明人研究发现，声源波束存在强反射的情况下，确定出的声源方向既包括真实声源方向，又包括镜像声源方向，现有技术无法确定哪个声源方向为真实声源方向。

[0031] 因此，本发明方案提出，基于发明人对反射声相对于直达声会存在损失的研究发现，例如，如果刚性壁有一定柔性，可以吸收部分能量，可以在每个声源方向进行DOA估计，
通过确定出的谱峰大小，来确定真实声源的方向。

[0032] 此外，在本发明方案中，还可以基于发明人对反射声相对于直达声传输路径较长的研究发现，可以针对每个声源方向，在声源方向以及指定方向进行波束形成。通过一个声
源方向上的声源波束信号与每个指定方向上的声源波束信号之间，相对延迟的绝对值越
小，确定各声源波束信号到达麦克风阵列的距离越短，来确定真实声源的方向。

[0033] 另外，在本发明方案中，基于谱峰大小，来确定真实声源的方向，可以进一步结合针对每个声源方向，在声源方向以及指定方向进行波束形成，得到的一个声源方向上的声
源波束信号与每个指定方向上的声源波束信号之间，相对延迟的绝对值大小，以及在各声
源方向进行波束形成，得到的声源波束信号的相关性大小，来确定真实声源的方向。

[0034] 需要说明的是，结合时，可以先结合针对每个声源方向，在声源方向以及指定方向进行波束形成，得到的一个声源方向上的声源波束信号与每个指定方向上的声源波束信号
之间，相对延迟的绝对值大小，再结合在各声源方向进行波束形成，得到的声源波束信号的
相关性大小，来确定真实声源的方向。

[0035] 也可以先结合在各声源方向进行波束形成，得到的声源波束信号的相关性大小，再结合针对每个声源方向，在声源方向以及指定方向进行波束形成，得到的一个声源方向
上的声源波束信号与每个指定方向上的声源波束信号之间，相对延迟的绝对值大小，来确
定真实声源的方向。

[0036] 而基于相对延迟的绝对值大小，来确定真实声源的方向，可以进一步结合谱峰大小，以及在各声源方向进行波束形成，得到的声源波束信号的相关性大小，来确定真实声源
的方向。

[0037] 此时需要说明的是，可以先结合谱峰大小，再结合在各声源方向进行波束形成，得到的声源波束信号的相关性大小，来确定真实声源的方向。

[0038] 也可以先结合在各声源方向进行波束形成，得到的声源波束信号的相关性大小，再结合谱峰大小，来确定真实声源的方向。

[0039] 为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施
例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的
所有其他实施例，都属于本发明保护的范围。

[0040] 需要说明的是，在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存
在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的
关系。

[0041] 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情
况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外
的顺序实施。

[0042] 此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些
步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它
步骤或单元。

[0043] 实施例一

[0044] 本发明实施例一提供一种声源定位方法，该方法的步骤流程可以如图2所示，包括：

[0045] 步骤101、确定相关信息。

[0046] 针对基于DOA估计确定出的至少两个声源方向，所述至少两个声源方向对应真实声源方向和镜像声源方向，为了实现真实声源方向识别，在本步骤中，可以进行DOA估计，确
定每个声源方向对应的谱峰。也可以针对所述至少两个声源方向中的每个声源方向，在该
声源方向，以及该声源方向的至少一个设定方向偏差的方向上做波束形成，得到各方向分
别对应的声源波束信号，分别确定该声源方向的每个设定方向偏差的方向对应的声源波束
信号，与该声源方向对应的声源波束信号的相对延迟的绝对值。

[0047] 使得后续可以基于确定出的谱峰大小或者确定出的相对延迟的绝对值大小，来识别真实声源方向。

[0048] 针对基于DOA估计确定出的至少两个声源方向，进行DOA估计，确定每个声源方向对应的谱峰，可以理解为，针对基于DOA估计确定出的至少两个声源方向，进行相干声源的
DOA估计，例如，广义互相关(GCC)声源定位方法、可控波束响应(SRP)声源定位方法等，确定
空间谱或伪谱，通过谱峰搜索，确定每个声源方向对应的谱峰。

[0049] 针对所述至少两个声源方向中的每个声源方向，在该声源方向，以及该声源方向的至少一个设定方向偏差的方向上做波束形成，得到各方向分别对应的声源波束信号，分
别确定该声源方向的每个设定方向偏差的方向对应的声源波束信号，与该声源方向对应的
声源波束信号的相对延迟的绝对值，可以理解为，为了确定各声源方向对应的传播路径长
短，可以针对每个声源方向，在该声源方向以及一个与该声源方向存在方向偏差的方向上
做波束形成，基于得到的两个声源波束信号，来确定一个相对延迟的绝对值。如果这个绝对
值越小，则认为该声源方向对应的传播路径越短，越有可能为真实声源方向。使得后续可以
根据确定出的该相对延迟的绝对值，来确定真实声源方向。

[0050] 进一步的，为了保证获得的相对延迟的绝对值的准确性，在本实施例中，可以在针对每个声源方向，在该声源方向以及至少两个与该声源方向存在方向偏差的方向上做波束
形成。通过每个与该声源方向存在方向偏差的方向上对应的声源波束信号，与该声源方向
上对应的声源波束信号两两比较，确定多个相对延迟的绝对值。使得后续可以根据确定出
的多个相对延迟的绝对值，来确定真实声源方向。

[0051] 以针对每个声源方向，在该声源方向以及两个与该声源方向存在方向偏差的方向上做波束形成为例，针对图1所示的真实声源与镜像声源，利用图3对针对每个声源方向，两
个与该声源方向存在方向偏差的方向进行示意。

[0052] 在图3中，两个与声源方向之间的方向偏差可以分别用方位角θm和θn表示，图3中对两个与真实声源方向存在方向偏差的方向，以及两个与镜像声源方向存在方向偏差的方向
进行了示意。

[0053] 步骤102、识别真实声源方向。

[0054] 在本步骤中，可以基于步骤101中确定出的谱峰或相对延迟的绝对值，确定一个声源方向作为真实声源方向。

[0055] 在一种可能的实现方式中，根据确定出的谱峰，确定一个声源方向作为真实声源方向，可以包括：

[0056] 将最大谱峰对应的声源方向作为真实声源方向；或者，若最大谱峰与次大谱峰之间的差值不小于指定差值，将最大谱峰对应的声源方向作为真实声源方向。

[0057] 即，可以直接将最大谱峰对应的声源方向作为真实声源方向。

[0058] 而为了进一步提高确定出的真实声源方向的准确性，也可以进一步判断最大谱峰与次大谱峰之间的差值是否不小于指定差值，并在确定不小于指定差值时，将最大谱峰对
应的声源方向作为真实声源方向。

[0059] 可以理解为最大谱峰与次大谱峰之间的差值越大，最大谱峰对应直达声的可能性越大，最大谱峰对应的声源方向为真实声源方向的可能性越大。

[0060] 如果通过进一步判断最大谱峰与次大谱峰之间的差值是否不小于指定差值，来确定最大谱峰对应的声源方向是否是真实声源方向，那么进一步的，若最大谱峰与次大谱峰
之间的差值小于指定差值，还可以通过针对每个声源方向，在声源方向以及指定方向进行
波束形成，得到的一个声源方向上的声源波束信号与每个指定方向上的声源波束信号之
间，相对延迟的绝对值大小，来确定真实声源方向。

[0061] 此时，若最大谱峰与次大谱峰之间的差值小于指定差值，可以确定对应的谱峰不小于设定值(在一种可能的实现方式中，该设定值可以根据最大谱峰确定，例如，该设定值
可以表示为Thre_P＝α·P(θ1)，其中，Thre_P表示设定值，0<α<1，P(θ1)表示方位角θ1表示的
声源方向对应的谱峰，该谱峰为各声源方向对应的谱峰中的最大谱峰)的至少两个声源方
向；针对对应的谱峰不小于设定值的至少两个声源方向做波束形成，得到每个声源方向分
别对应的声源波束信号；若最大谱峰对应的声源方向对应的声源波束信号，与其它每个声
源波束信号的相关系数均低于指定系数值；将最大谱峰对应的声源方向作为真实声源方
向。

[0062] 最大谱峰对应的声源方向对应的声源波束信号，与其它每个声源波束信号的相关系数越小，可以理解为最大谱峰对应的声源方向对应的声源波束信号，与其它每个声源波
束信号的相关性越小，那么最大谱峰对应的声源方向为真实声源方向的可能性越大。

[0063] 更进一步的，若最大谱峰对应的声源方向对应的声源波束信号，与至少一个其它声源波束信号的相关系数不低于指定系数值，那么还可以：

[0064] 针对最大谱峰对应的声源方向，以及所述至少一个其它声源波束信号中的每个声源波束信号分别对应的声源方向中的每个声源方向，在该声源方向，以及该声源方向的至
少一个设定方向偏差的方向上做波束形成，得到各方向分别对应的声源波束信号，分别确
定该声源方向的每个设定方向偏差的方向上，与该声源方向对应的声源波束信号的相对延
迟的绝对值；根据确定出的相对延迟的绝对值，确定一个声源方向作为真实声源方向。

[0065] 需要说明的是，若在一个声源方向，以及该声源方向的一个设定方向偏差的方向上做波束形成，得到各方向分别对应的声源波束信号，那么可以确定出一个相对延迟的绝
对值。

[0066] 若在一个声源方向，以及该声源方向的至少两个设定方向偏差的方向上做波束形成，得到各方向分别对应的声源波束信号，那么可以与设定方向偏差的方向的数量对应的，
可以确定出至少两个相对延迟的绝对值。

[0067] 根据确定出的相对延迟的绝对值，确定一个声源方向作为真实声源方向，可以理解为，根据确定出的每个相对延迟的绝对值，确定一个声源方向作为真实声源方向。且，根
据确定出的相对延迟的绝对值，确定一个声源方向作为真实声源方向，可以但不限于是，根
据确定出的每个相对延迟的绝对值的平均值，确定一个声源方向作为真实声源方向。

[0068] 由于之前已经经过了两轮判断，备选声源方向已经是被选择出的一部分声源方向，该部分声源方向是真实声源方向的可能性较高，因此，根据确定出的相对延迟的绝对
值，确定一个声源方向作为真实声源方向，可以但不限于是，将对应的相对延迟的绝对值的
平均值最小的声源方向，作为真实声源方向。

[0069] 当然，也可以是若最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差值不小于设定差值，将对应的相对延迟的绝对值的平均值最小的声源方
向，作为真实声源方向。以更好地保证确定出的真实声源方向的准确性。

[0070] 另外，如果通过进一步判断最大谱峰与次大谱峰之间的差值是否不小于指定差值，来确定最大谱峰对应的声源方向是否是真实声源方向，那么进一步的，若最大谱峰与次
大谱峰之间的差值小于指定差值，还可以确定对应的谱峰不小于设定值的至少两个声源方
向；针对对应的谱峰不小于设定值的至少两个声源方向中的每个声源方向，在该声源方向，
以及该声源方向的至少一个设定方向偏差的方向上做波束形成，得到各方向分别对应的声
源波束信号，分别确定该声源方向的每个设定方向偏差的方向上，与该声源方向对应的声
源波束信号的相对延迟的绝对值；根据确定出的相对延迟的绝对值，确定一个声源方向作
为真实声源方向。

[0071] 由于之前已经经过了一轮判断，备选声源方向已经是被选择出的一部分声源方向，该部分声源方向是真实声源方向的可能性较高，因此，根据确定出的相对延迟的绝对
值，确定一个声源方向作为真实声源方向，可以但不限于是，将对应的相对延迟的绝对值的
平均值最小的声源方向，作为真实声源方向。

[0072] 当然，也可以是若最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差值不小于设定差值，将对应的相对延迟的绝对值的平均值最小的声源方
向，作为真实声源方向。以更好地保证确定出的真实声源方向的准确性。

[0073] 而进一步的，若是在最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差值不小于设定差值时，将对应的相对延迟的绝对值的平均值最小的声源
方向，作为真实声源方向，那么，若最小相对延迟的绝对值的平均值与次小的相对延迟的绝
对值的平均值之间的差值小于设定差值，还可以确定对应的相对延迟的绝对值的平均值不
大于门限值的至少两个声源方向；针对对应的相对延迟的绝对值的平均值不大于门限值的
至少两个声源方向做波束形成，得到每个声源方向分别对应的声源波束信号；若对应的相
对延迟的绝对值的平均值最小的声源方向对应的声源波束信号，与其它每个声源波束信号
的相关系数均低于设定系数值；将对应的相对延迟的绝对值的平均值最小的声源方向作为
真实声源方向。

[0074] 另外需要说明的是，在本实施例中，在一种可能的实现方式中，根据确定出的相对延迟的绝对值，确定一个声源方向作为真实声源方向，可以包括：

[0075] 将对应的相对延迟的绝对值的平均值最小的声源方向，作为真实声源方向；或者，若最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差值不小
于设定差值，将对应的相对延迟的绝对值的平均值最小的声源方向，作为真实声源方向。

[0076] 即，可以直接将对应的相对延迟的绝对值的平均值最小的声源方向，作为真实声源方向。

[0077] 而为了进一步提高确定出的真实声源方向的准确性，也可以进一步判断最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差值是否不小于设定
差值，并在确定不小于指定差值时，将对应的相对延迟的绝对值的平均值最小的声源方向，
作为真实声源方向。

[0078] 若根据确定出的相对延迟的绝对值，确定一个声源方向作为真实声源方向，包括：若最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差值不小
于设定差值，将对应的相对延迟的绝对值的平均值最小的声源方向，作为真实声源方向，
则，若最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差值小
于设定差值，还可以：

[0079] 确定对应的相对延迟的绝对值的平均值不大于门限值的至少两个声源方向；针对对应的相对延迟的绝对值的平均值不大于门限值的至少两个声源方向做波束形成，得到每
个声源方向分别对应的声源波束信号；若对应的相对延迟的绝对值的平均值最小的声源方
向对应的声源波束信号，与其它每个声源波束信号的相关系数均低于设定系数值；将对应
的相对延迟的绝对值的平均值最小的声源方向作为真实声源方向。

[0080] 进一步的，若对应的相对延迟的绝对值的平均值最小的声源方向对应的声源波束信号，与至少一个其它声源波束信号的相关系数大于设定系数值，则可以：

[0081] 针对对应的相对延迟的绝对值的平均值最小的声源方向，以及所述至少一个其它声源波束信号分别对应的声源方向中的每个声源方向，进行声源到达方向估计，确定每个
声源方向对应的谱峰；根据确定出的谱峰，确定一个声源方向作为真实声源方向。

[0082] 此时，由于之前已经经过了两轮判断，根据确定出的谱峰，确定一个声源方向作为真实声源方向，可以是将最大谱峰对应的声源方向作为真实声源方向。

[0083] 当然，也可以是进一步判断最大谱峰与次大谱峰之间的差值，若最大谱峰与次大谱峰之间的差值不小于指定差值，将最大谱峰对应的声源方向作为真实声源方向。

[0084] 另外，若根据确定出的相对延迟的绝对值，确定一个声源方向作为真实声源方向，包括：若最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差值
不小于设定差值，将对应的相对延迟的绝对值的平均值最小的声源方向，作为真实声源方
向，则，若最小相对延迟的绝对值的平均值与次小的相对延迟的绝对值的平均值之间的差
值小于设定差值，还可以：

[0085] 确定对应的相对延迟的绝对值的平均值不大于门限值的至少两个声源方向；针对对应的相对延迟的绝对值的平均值不大于门限值的至少两个声源方向，进行声源到达方向
估计，确定每个声源方向对应的谱峰；根据确定出的谱峰，确定一个声源方向作为真实声源
方向。

[0086] 此时，由于之前已经经过了一轮判断，根据确定出的谱峰，确定一个声源方向作为真实声源方向，可以是将最大谱峰对应的声源方向作为真实声源方向。

[0087] 当然，也可以是进一步判断最大谱峰与次大谱峰之间的差值，若最大谱峰与次大谱峰之间的差值不小于指定差值，将最大谱峰对应的声源方向作为真实声源方向。

[0088] 而若最大谱峰与次大谱峰之间的差值小于指定差值，还可以进一步：

[0089] 确定对应的谱峰不小于设定值的至少两个声源方向；针对对应的谱峰不小于设定值的至少两个声源方向做波束形成，得到每个声源方向分别对应的声源波束信号；若最大
谱峰对应的声源方向对应的声源波束信号，与其它每个声源波束信号的相关系数均低于指
定系数值；将最大谱峰对应的声源方向作为真实声源方向。

[0090] 根据本发明实施例提供的方案，当由于镜像声源的存在，为声源定位带来极大干扰时，可以基于谱峰大小、信号相关性和通道相对延迟来排除镜像声源，提高声源定位算法
的鲁棒性，提高应用声源定位技术的智能语音设备的适应性。

[0091] 与实施例一提供的方法对应的，提供以下的装置。

[0092] 实施例二

[0093] 本发明实施例二提供一种声源定位装置，该装置的结构可以如图4所示，包括：

[0094] 确定模块11用于针对基于声源到达方向估计确定出的至少两个声源方向，所述至少两个声源方向对应真实声源方向和镜像声源方向，进行声源到达方向估计，确定每个声
源方向对应的谱峰；或者，

[0095] 针对所述至少两个声源方向中的每个声源方向，在该声源方向，以及该声源方向的至少一个设定方向偏差的方向上做波束形成，得到各方向分别对应的声源波束信号，分
别确定该声源方向的每个设定方向偏差的方向对应的声源波束信号，与该声源方向对应的
声源波束信号的相对延迟的绝对值；

[0096] 选择模块12用于根据确定出的谱峰或相对延迟的绝对值，确定一个声源方向作为真实声源方向。

[0097] 基于同一发明构思，本发明实施例提供以下的设备和介质。

[0098] 实施例三

[0099] 本发明实施例三提供一种声源定位设备，该设备的结构可以如图5所示，包括处理器21、通信接口22、存储器23和通信总线24，其中，所述处理器21，所述通信接口22，所述存
储器23通过所述通信总线24完成相互间的通信；

[0100] 所述存储器23，用于存放计算机程序；

[0101] 所述处理器21，用于执行所述存储器上所存储的程序时，实现本发明实施例一所述的方法步骤。

[0102] 可选的，所述处理器21具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC，Application Specific Integrated Circuit)，可以是一个或多个用于控制程序执行的集
成电路，可以是使用现场可编程门阵列(FPGA，Field Programmable Gate Array)开发的硬
件电路，可以是基带处理器。

[0103] 可选的，所述处理器21可以包括至少一个处理核心。

[0104] 可选的，所述存储器23可以包括只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)和磁盘存储器。存储器23用于存储至少一个处理器21
运行时所需的数据。存储器23的数量可以为一个或多个。

[0105] 本发明实施例四提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，当可执行程序被处理器执行时，实现本发明实施例一提供的方法。

[0106] 在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus Flash Drive)、移动硬盘、只读存储器(ROM，Read‑Only Memory)、
随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的
存储介质。

[0107] 在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为
一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或
者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互
之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连
接，可以是电性或其它的形式。

[0108] 在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

[0109] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案
的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质
中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设
备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的
存储介质包括：通用串行总线闪存盘(Universal Serial Bus Flash Drive)、移动硬盘、
ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

[0110] 本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产
品的形式。

[0111] 本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0112] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。

[0113] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。

[0114] 尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优
选实施例以及落入本发明范围的所有变更和修改。

[0115] 显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围
之内，则本发明也意图包含这些改动和变型在内。

一种声源定位方法、装置、介质和设备转让专利

申请号 : CN202010987005.3

文献号 : CN112198474B

文献日 : 2022-02-15

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 郝斌 , 冯大航 , 陈孝良 , 常乐

申请人 : 北京声智科技有限公司

摘要 :

权利要求 :

说明书 :