用于生成声场描述的装置、方法或计算机程序转让专利

申请号 : CN202011129075.1

文献号 : CN112218211B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 伊曼纽尔·哈毕兹奥利弗·蒂尔加特法比安·库切亚历山大·尼德莱特纳阿凡-哈桑·卡恩德克·马内

申请人 : 弗劳恩霍夫应用研究促进协会

摘要 :

一种用于生成具有声场分量的表示的声场描述的装置,包括:方向确定器(102),用于针对多个麦克风信号的多个时间‑频率瓦片中的每个时间‑频率瓦片确定一个或多个声音方向;空间基函数评估器(103),用于针对多个时间‑频率瓦片中的每个时间‑频率瓦片使用一个或多个声音方向评估一个或多个空间基函数;以及声场分量计算器(201),用于针对多个时间‑频率瓦片中的每个时间‑频率瓦片计算与使用一个或多个声音方向评估的一个或多个空间基函数和用于对应时间‑频率瓦片的参考信号对应的一个或多个声场分量,参考信号是从多个麦克风信号中的一个或多个麦克风信号中得出的。

权利要求 :

1.一种用于生成声场描述的装置,包括:

方向确定器(102),用于针对多个声音信号的多个时间‑频率瓦片中的每个时间‑频率瓦片确定一个或多个声音方向;

其中所述装置被配置为通过使用空间基函数评估器(103)取决于所述一个或多个声音方向为每个时间‑频率瓦片计算一个或多个响应函数,所述空间基函数评估器(103)用于针对所述多个时间‑频率瓦片中的每个时间‑频率瓦片使用所述一个或多个声音方向评估一个或多个空间基函数,以获得所述一个或多个响应函数,其中所述装置被配置为针对每个时间‑频率瓦片从所述多个声音信号获得一个或多个参考声音信号或者一个或多个直接声音信号和一个或多个漫射声音信号,以及声场分量计算器(201),用于针对所述多个时间‑频率瓦片中的每个时间‑频率瓦片利用所述一个或多个响应函数评估所述一个或多个参考声音信号或者所述一个或多个直接声音信号和所述一个或多个漫射声音信号,以获得一个或多个声场分量或者以获得一个或多个直接声场分量和一个或多个漫射声场分量。

2.如权利要求1所述的装置,其中所述声场分量计算器(201)被配置用于计算期望阶数或状态的多个声场分量,以及其中所述声场分量计算器(201)被配置为求和对应声场分量,以获得期望阶数或状态的最终声场分量。

3.如权利要求1所述的装置,其中所述声场计算器被配置为解相关不同阶数或状态的所述一个或多个漫射声场分量。

4.如权利要求1所述的装置,其中所述声场分量计算器(201)被配置为针对特定的阶数或状态,将所述一个或多个直接声场分量的直接声场分量和所述一个或多个漫射声场分量的漫射声场分量求和,以获得特定的阶数或状态的最终声场分量。

5.如权利要求1所述的装置,还包括时间‑频率转换器(101),用于将多个时域声音信号中的每个转换成具有所述多个时间‑频率瓦片的时间‑频率表示。

6.如权利要求1所述的装置,还包括频率‑时间转换器(20),用于将所述一个或多个声场分量或者所述一个或多个直接声场分量和所述一个或多个漫射声场分量的组合转换成声场分量的时域表示。

7.如权利要求6所述的装置,

其中所述频率‑时间转换器(20)被配置为处理所述一个或多个直接声场分量以获得多个时域直接声场分量,其中所述频率‑时间转换器(20)被配置为处理所述漫射声场分量以获得多个时域漫射声场分量,并且其中组合器(401)被配置为在时域中执行所述时域直接声场分量和所述时域漫射声场分量的组合;或者其中组合器(401)被配置为在频域中将用于时间‑频率瓦片的所述一个或多个直接声场分量与用于对应时间‑频率瓦片的所述一个或多个漫射声场分量组合,并且其中所述频率‑时间转换器(20)被配置为处理所述组合器(401)的结果以获得时域中的声场分量。

8.如权利要求1所述的装置,还包括:

参考信号计算器(104),用于使用所述一个或多个声音方向、使用基于所述一个或多个声音方向从所述多个声音信号中选择的特定声音信号、或者使用应用于所述多个声音信号的两个或更多个声音信号的多声道滤波器,从所述多个声音信号中计算参考所述一个或多个声音信号,其中所述多声道滤波器取决于所述一个或多个声音方向和从中获得所述多个声音信号的麦克风的各个位置。

9.如权利要求1所述的装置,

其中所述空间基函数评估器(103)被配置为:

对于空间基函数使用参数化表示,其中所述参数化表示的参数是声音方向;以及将与所述声音方向对应的参数插入到所述参数化表示中以获得用于每个空间基函数的评估结果;

或者

其中所述空间基函数评估器(103)被配置为对于每个空间基函数使用查找表,以空间基函数标识和声音方向作为输入并且以评估结果作为输出,并且其中所述空间基函数评估器(103)被配置为对于由所述方向确定器(102)确定的所述一个或多个声音方向确定查找表输入的对应声音方向或者被配置为计算在与由所述方向确定器(102)确定的所述一个或多个声音方向相邻的两个查找表输入之间的加权平均值或未加权平均值;

或者

其中所述空间基函数评估器(103)被配置为:

对于空间基函数使用参数化表示,其中所述参数化表示的参数是声音方向,在二维情况下声音方向是一维的,诸如方位角,或者在三维情况下声音方向是二维的,诸如方位角和仰角;以及将与所述声音方向对应的参数插入到所述参数化表示中以获得用于每个空间基函数的评估结果。

10.如权利要求1所述的装置,还包括:

直接或漫射声音确定器(105),用于确定多个麦克风信号的直接部分或漫射部分,作为参考信号,其中所述声场分量计算器(201)被配置为仅在计算一个或多个直接声场分量时使用直接部分。

11.如权利要求10所述的装置,还包括:

平均响应基函数确定器(106),用于确定平均空间基函数响应,所述确定器包括计算处理或查找表访问处理;以及漫射分量计算器(301),用于使用仅漫射部分作为参考信号连同所述平均空间基函数响应一起计算一个或多个漫射声场分量。

12.如权利要求11所述的装置,还包括:

组合器(401),用于组合直接声场分量;和

漫射声场分量,以获得声场分量。

13.如权利要求11所述的装置,

其中所述漫射分量计算器(301)被配置为计算上至预定的第一数量或阶数的漫射声音分量,其中所述声场分量计算器(201)被配置为计算上至预定的第二数量或阶数的直接声场分量,其中所述预定的第二数量或阶数大于所述预定的第一数量或阶数,以及

其中所述预定的第一数量或阶数为1或大于1。

14.如权利要求11所述的装置,

其中直接或漫射声音确定器(105)包括用于在频域表示或时域表示中在与空间基函数的平均响应组合之前或之后对漫射声音分量进行解相关的解相关器(107)。

15.如权利要求10所述的装置,

还包括漫射分量计算器(301),用于针对所述多个时间‑频率瓦片中的每个时间‑频率瓦片计算一个或多个漫射声音分量,其中所述直接或漫射声音确定器(105)被配置为从单个麦克风信号计算直接部分和漫射部分,并且其中所述漫射分量计算器(301)被配置为使用漫射部分作为参考信号计算所述一个或多个漫射声音分量,并且其中所述声场分量计算器(201)被配置为使用直接部分作为参考信号计算所述一个或多个直接声场分量;或者其中所述直接或漫射声音确定器(105)被配置为从与从中计算直接部分的麦克风信号不同的麦克风信号计算漫射部分,并且其中所述漫射分量计算器(301)被配置为使用漫射部分作为参考信号计算所述一个或多个漫射声音分量,并且其中所述声场分量计算器(201)被配置为使用直接部分作为参考信号计算所述一个或多个直接声场分量;或者还包括漫射分量计算器(301),用于针对所述多个时间‑频率瓦片中的每个时间‑频率瓦片计算一个或多个漫射声音分量,其中所述直接或漫射声音确定器(105)被配置为使用不同的麦克风信号计算用于不同空间基函数的漫射部分,并且其中所述漫射分量计算器(301)被配置为对于与第一数量对应的平均空间基函数响应使用第一漫射部分作为参考信号并且对应于第二数量的平均空间基函数响应使用不同的第二漫射部分作为参考信号,其中所述第一数量与所述第二数量不同,并且其中所述第一数量和所述第二数量指示所述一个或多个空间基函数的任何阶数或级以及状态;或者还包括漫射分量计算器(301),用于针对所述多个时间‑频率瓦片中的每个时间‑频率瓦片计算一个或多个漫射声音分量,其中所述直接或漫射声音确定器(105)被配置为使用应用于所述多个麦克风信号的第一多声道滤波器计算直接部分,并且使用应用于所述多个麦克风信号的第二多声道滤波器计算漫射部分,所述第二多声道滤波器与所述第一多声道滤波器不同,并且其中所述漫射分量计算器(301)被配置为使用漫射部分作为参考信号计算所述一个或多个漫射声音分量,并且其中所述声场分量计算器(201)被配置为使用直接部分作为参考信号计算所述一个或多个直接声场分量;或者还包括漫射分量计算器(301),用于针对所述多个时间‑频率瓦片中的每个时间‑频率瓦片计算一个或多个漫射声音分量,其中所述直接或漫射声音确定器(105)被配置为使用用于不同空间基函数的不同多声道滤波器计算用于不同空间基函数的漫射部分,并且其中所述漫射分量计算器(301)被配置为使用漫射部分作为参考信号计算所述一个或多个漫射声音分量,并且其中所述声场分量计算器(201)被配置为使用直接部分作为参考信号计算所述一个或多个直接声场分量。

16.如权利要求1所述的装置,

其中所述空间基函数评估器(103)包括在时间方向或频率方向上操作的增益平滑器(111),所述增益平滑器(111)用于平滑评估结果,以及其中所述声场分量计算器(201)被配置为在计算所述一个或多个声场分量或所述一个或多个直接声场分量和所述一个或多个漫射声场分量时使用平滑的评估结果。

17.如权利要求1所述的装置,

其中所述空间基函数评估器(103)被配置为在二维或三维情况下使用所述一个或多个空间基函数用于高保真度立体声响复制。

18.如权利要求17所述的装置,

其中所述空间基函数评估器(103)被配置为至少使用至少两个级或阶数或者至少两个状态的空间基函数。

19.如权利要求18所述的装置,

其中所述声场分量计算器(201)被配置为针对包括级0、级1、级2、级3、级4的一组级中的至少两个级计算声场分量,或者其中所述声场分量计算器(201)被配置为针对包括状态‑4、状态‑3、状态‑2、状态‑1、状态0、状态1、状态2、状态3、状态4的状态组中的至少两个状态计算声场分量。

20.如前述权利要求中任一项所述的装置,

漫射分量计算器(301),用于针对所述多个时间‑频率瓦片中的每个时间‑频率瓦片计算一个或多个漫射声音分量;以及组合器(401),用于组合漫射声音信息和直接声场信息,以获得声场分量的频域表示或时域表示,其中所述漫射分量计算器(301)或所述组合器(401)被配置为计算或组合漫射分量,直到确定的阶数或数量,所述确定的阶数或数量小于所述声场分量计算器(201)被配置为计算直接声场分量所上至的阶数或数量。

21.如权利要求20所述的装置,其中所述确定的阶数或数量是一或零,并且所述声场分量计算器(201)被配置为计算声场分量所上至的阶数或数量是2或更大。

22.如权利要求1所述的装置,

其中所述声场分量计算器(201)被配置为将参考信号的时间‑频率瓦片中的信号与从空间基函数获得的评估结果相乘(115)以获得关于与所述空间基函数相关联的声场分量的信息,并且将参考信号的时间‑频率瓦片中的信号与从另一个空间基函数获得的另一个评估结果相乘(115)以获得关于与所述另一个空间基函数相关联的另一个声场分量的信息。

23.一种生成声场描述的方法,包括:

针对多个声音信号的多个时间‑频率瓦片中的每个时间‑频率瓦片,确定(102)一个或多个声音方向;

通过针对所述多个时间‑频率瓦片中的每个时间‑频率瓦片使用所述一个或多个声音方向评估一个或多个空间基函数以获得所述一个或多个响应函数,取决于所述一个或多个声音方向为每个时间‑频率瓦片计算一个或多个响应函数,针对每个时间‑频率瓦片从所述多个声音信号获得一个或多个参考声音信号或者一个或多个直接声音信号和一个或多个漫射声音信号;以及针对所述多个时间‑频率瓦片中的每个时间‑频率瓦片,利用所述一个或多个响应函数评估所述一个或多个参考声音信号或者所述一个或多个直接声音信号和所述一个或多个漫射声音信号,以获得一个或多个声场分量或者以获得一个或多个直接声场分量和一个或多个漫射声场分量。

24.一种在其上存储有计算机程序的数字存储介质,当所述计算机程序在计算机或处理器上运行时,用于执行如权利要求23所述的生成声场描述的方法。

说明书 :

用于生成声场描述的装置、方法或计算机程序

[0001] 本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为2017年3月10日、申请号为201780011824.0、发明名称为“用于生成声场描述的装置、方法或计算机程序”的分案申请。

技术领域

[0002] 本发明涉及用于生成声场描述的装置、方法或计算机程序,并且还涉及使用声音方向信息在时间‑频率域中对(高阶)高保真度立体声响复制信号(Ambisonics signal)的合成。

背景技术

[0003] 本发明属于空间声音记录和再现领域。空间声音记录旨在利用多个麦克风来捕获声场,使得在再现侧,听众感知到声音图像就像其在记录位置处一样。用于空间声音记录的标准方法通常使用间隔开的全向麦克风(例如,在AB立体声中)或一致的定向麦克风(例如,在强度立体声中)。所记录的信号可以从标准立体声扬声器设置中再现,以实现立体声图像。对于环绕声再现,例如,使用5.1扬声器设置,可以使用类似的记录技术,例如,指向扬声器位置的五个心形麦克风[ArrayDesign]。最近,已经出现了3D声音再现系统,例如7.1+4扬声器设置,其中使用4个高度扬声器来再现提升的声音。用于这种扬声器设置的信号可以例如用非常明确间隔开的3D麦克风设置[MicSetup3D]来记录。所有这些记录技术的共同之处在于它们是为特定的扬声器设置而设计的,这限制了实际的应用性,例如,当所记录的声音应当在不同的扬声器配置上再现时。
[0004] 当不直接记录用于特定扬声器设置的信号,而是记录中间格式的信号、然后可以在再现侧从中生成任意扬声器设置的信号时,实现更大的灵活性。这种在实践中已得到很好建立的中间格式由(高阶)高保真度立体声响复制[Ambisonics]来表示。从高保真度立体声响复制信号中,可以生成包括双耳信号的每种期望扬声器设置的信号,以用于耳机再现。这需要应用于高保真度立体声响复制信号的特定渲染器,诸如经典高保真度立体声响复制渲染器[Ambisonics]、定向音频编码(DirAC)[DirAC]或HARPEX[HARPEX]。
[0005] 高保真度立体声响复制信号表示多声道信号,其中每个声道(称为高保真度立体声响复制分量)等同于所谓的空间基函数的系数。利用这些空间基函数的加权和(其中权重对应于系数),可以在记录位置中重新创建原始声场[FourierAcoust]。因此,空间基函数系数(即,高保真度立体声响复制分量)表示记录位置中的声场的紧凑描述。存在不同类型的空间基函数,例如球面谐波(SH)[FourierAcoust]或柱面谐波(CH)[FourierAcoust]。当描述2D空间中的声场(例如用于2D声音再现)时可以使用CH,而SH可以用于描述2D和3D空间中的声场(例如用于2D和3D声音再现)。
[0006] 对于不同的阶数l存在空间基函数,并且在3D空间基函数(诸如SH)的情况下存在状态(mode)m。在后一种情况下,对于每个阶数l,存在m=2l+1个状态,其中m和l是在l≥0并且‑l≤m≤l范围内的整数。图1a中示出了空间基函数的对应示例,其示出了针对不同阶数l和状态m的球面谐波函数。要注意的是,阶数l有时被称为级,状态m也可以被称为度。如从图1a中可以看出的,零阶(第零级)l=0的球面谐波表示记录位置中的全向声压,而第一阶(第一级)l=1的球面谐波表示沿着笛卡尔坐标系的三个维度的偶极子分量。这意味着,特定阶数(级)的空间基函数描述阶数l的麦克风的方向性。换句话说,空间基函数的系数与阶数(级)l和状态m的麦克风的信号对应。要注意的是,不同阶数和状态的空间基函数是相互正交的。这意味着例如在纯漫射声场中,所有空间基函数的系数是互不相关的。
[0007] 如上面所解释的,高保真度立体声响复制信号的每个高保真度立体声响复制分量与特定级(和状态)的空间基函数系数对应。例如,如果使用SH作为空间基函数上至级l=1描述声场,那么高保真度立体声响复制信号将包括四个高保真度立体声响复制分量(因为具有用于阶数l=0的一个状态加上用于阶数l=1的三个状态)。最大阶数l=1的高保真度立体声响复制信号在下文中被称为一阶高保真度立体声响复制(FOA),而最大阶数l>1的高保真度立体声响复制信号被称为高阶高保真度立体声响复制(HOA)。当使用更高阶数l来描述声场时,空间分辨率变得更高,即,可以以更高的准确度描述或重新创建声场。因此,可以以较少的阶数来描述声场,从而导致较低的准确度(但是较少的数据),或者可以使用较高的阶数,从而导致较高的准确度(以及更多的数据)。
[0008] 对于不同的空间基函数,存在不同但紧密相关的数学定义。例如,可以计算复数值球面谐波以及实数值球面谐波。而且,可以用不同的归一化项(诸如SN3D、N3D或N2D归一化)来计算球面谐波。不同的定义可以在例如[Ambix]中找到。稍后将结合本发明的描述和实施例示出一些特定的示例。
[0009] 可以从多个麦克风的记录确定期望的高保真度立体声响复制信号。获得高保真度立体声响复制信号的直接方式是从麦克风信号直接计算高保真度立体声响复制分量(空间基函数系数)。这种方法需要测量非常明确的位置处的声压,例如在圆上或球体的表面上。之后,可以通过对测得的声压进行积分来计算空间基函数系数,如例如在[FourierAcoust,第218页]中所描述的。这种直接方法需要特定的麦克风设置,例如全向麦克风的圆形阵列或球形阵列。商用麦克风设置的两个典型示例是SoundField ST350麦克风或
[EigenMike]。不幸的是,对特定麦克风几何形状的要求强烈地限制了实际应用性,例如当麦克风需要被集成到小型设备中时或者在麦克风阵列需要与摄像机组合时。而且,利用这种直接方法确定较高阶的空间系数需要相对大量的麦克风以确保对噪声具有足够的健壮性。因此,获得高保真度立体声响复制信号的直接方法常常非常昂贵。

发明内容

[0010] 本发明的目标是提供用于生成具有声场分量的表示的声场描述的改进概念。
[0011] 该目标通过如权利要求1所述的装置、如权利要求23所述的方法或者如权利要求24所述的计算机程序来实现。
[0012] 本发明涉及用于生成具有声场分量的表示的声场描述的装置或方法或计算机程序。在方向确定器中,针对多个麦克风信号的多个时间‑频率瓦片中的每个时间‑频率瓦片确定一个或多个声音方向。空间基函数评估器针对多个时间‑频率瓦片中的每个时间‑频率瓦片使用一个或多个声音方向评估一个或多个空间基函数。此外,声场分量计算器针对多个时间‑频率瓦片中的每个时间‑频率瓦片计算与使用一个或多个声音方向评估的一个或多个空间基函数对应的一个或多个声场分量,并且使用用于对应的时间频率瓦片的参考信号,其中参考信号是从多个麦克风信号中的一个或多个麦克风信号得出的。
[0013] 本发明基于这样的发现:可以从由时间‑频率瓦片组成的时间‑频率表示内的多个麦克风信号以高效的方式得出描述任意复杂声场的声场描述。这些时间‑频率瓦片一方面指多个麦克风信号,另一方面用于确定声音方向。因此,声音方向确定使用时间‑频率表示的时间‑频率瓦片在谱域内发生。然后,后续处理的主要部分优选地在相同的时间‑频率表示内执行。为此,针对每个时间‑频率瓦片使用确定的一个或多个声音方向执行空间基函数的评估。空间基函数取决于声音方向,但与频率无关。因此,应用利用频域信号(即,时间‑频率瓦片中的信号)的空间基函数的评估。在相同的时间‑频率表示内,与也存在于相同的时间‑频率表示内的参考信号一起计算与已经使用一个或多个声音方向评估的一个或多个空间基函数对应的一个或多个声场分量。
[0014] 用于信号的每个块和每个频率仓(bin)(即,用于每个时间‑频率瓦片)的这一个或多个声场分量可以是最终结果,或者可替代地,可以执行回到时域的转换,以便获得与一个或多个空间基函数对应的一个或多个时域声场分量。取决于实现,一个或多个声场分量可以是使用时间‑频率瓦片在时间‑频率表示内确定的直接声场分量,或者可以是除了直接声场分量之外通常还要确定的漫射声场分量。然后可以通过组合直接声场分量和漫射声场分量来获得具有直接部分和漫射部分的最终声场分量,其中可以根据实际实现在时域或频域中执行该组合。
[0015] 可以执行若干过程,以便从一个或多个麦克风信号中得出参考信号。这种过程可以包括从多个麦克风信号中的某个麦克风信号的直接选择或者基于一个或多个声音方向的高级选择。高级的参考信号确定从来自已经从其得出麦克风信号的麦克风中的最接近声音方向定位的麦克风的多个麦克风信号中选择特定麦克风信号。另一种替代方案是将多声道滤波器应用于两个或更多个麦克风信号,以便对这些麦克风信号进行联合滤波,从而获得用于时间块的所有频率瓦片的公共参考信号。可替代地,可以得出时间块内不同频率瓦片的不同参考信号。自然,也可以生成用于不同时间块但用于不同时间块内的相同频率的不同参考信号。因此,取决于实现,可以从多个麦克风信号中自由地选择或得出用于时间‑频率瓦片的参考信号。
[0016] 在这个上下文中,需要强调的是,麦克风可以位于任意位置。麦克风也可以具有不同的方向特点。此外,多个麦克风信号不一定必须是已经由真实物理麦克风记录的信号。相反,麦克风信号可以是使用模仿真实物理麦克风的某些数据处理操作已经从某个声场人为创建的麦克风信号。
[0017] 在某些实施例中为了确定漫射声场分量,不同的过程是可能的并且对于某些实现是有用的。通常,从多个麦克风信号中得出漫射部分作为参考信号,然后将这个(漫射)参考信号与某个阶数(或级和/或状态)的空间基函数的平均响应一起处理,以便获得用于这个阶数或级或状态的漫射声音分量。因此,使用利用某个到达方向的某个空间基函数的评估来计算直接声音分量,并且漫射声音分量当然不是使用某个到达方向来计算的,而是通过使用漫射参考信号并且通过由某个函数组合漫射参考信号和某个阶数或级或状态的空间基函数的平均响应来计算的。例如,此函数组合可以是如也可以在计算直接声音分量时执行的乘法运算,或者此组合可以是加权乘法或加法或减法,例如当执行对数域中的计算时。使用另外的非线性或线性函数执行与乘法或加法/减法不同的其它组合,其中非线性函数是优选的。在生成某个阶数的直接声场分量和漫射声场分量之后,可以针对每个单独的时间/频率瓦片通过在谱域内组合直接声场分量和漫射声场分量来执行组合。可替代地,可以将针对某个阶数的漫射声场分量和直接声场分量从频域变换到时域,然后也可以执行某个阶数的直接时域分量和漫射时域分量的时域组合。
[0018] 取决于情况,进一步的解相关器可以用于将漫射声场分量解相关。可替代地,通过针对不同阶数的不同漫射声场分量使用不同的麦克风信号或不同的时间/频率仓,或者通过使用不同的麦克风信号用于计算直接声场分量以及另一不同的麦克风信号用于计算漫射声场分量,可以生成解相关的漫射声场分量。
[0019] 在优选实施例中,空间基函数是与众所周知的高保真度立体声响复制声场描述的某些级(阶数)和状态相关联的空间基函数。某个阶数和某个状态的声场分量将对应于与某个级和某个状态相关联的高保真度立体声响复制声场分量。通常,第一声场分量将是与图1a中针对阶数l=0和状态m=0所示的全向空间基函数相关联的声场分量。
[0020] 第二声场分量可以例如与在x方向内具有最大方向性的空间基函数相关联,该空间基函数与关于图1a的阶数l=1和状态m=‑1对应。例如,第三声场分量可以是在y方向定向的空间基函数,其将与图1a的状态m=0和阶数l=1对应,并且第四声场分量可以例如是在z方向定向的空间基函数,其与图1a的状态m=1和阶数l=1对应。
[0021] 但是,除了高保真度立体声响复制之外的其它声场描述对于本领域技术人员当然是众所周知的,并且也可以有利地在时间‑频率域表示内计算依赖来自高保真度立体声响复制空间基函数的不同空间基函数的此类其它声场分量,如前面讨论的。
[0022] 以下发明的实施例描述了获得高保真度立体声响复制信号的实用方式。与上述现有技术的方法相比,本方法可以应用于拥有两个或更多个麦克风的任意麦克风设置。而且,更高阶的高保真度立体声响复制分量可以使用仅相对较少的麦克风进行计算。因此,本方法相对便宜和实用。在所提出的实施例中,并非关于上面所解释的现有技术方法直接从沿着特定表面的声压信息来计算高保真度立体声响复制分量,而是基于参数化方法来合成它们。为此,假设相当简单的声场模型,类似于DirAC[DirAC]中使用的模型。更确切地说,假设记录位置中的声场由一个或几个从特定声音方向到达的直接声音加上从所有方向到达的漫射声音组成。基于这个模型,并通过使用声场的参数信息(诸如直接声音的声音方向),有可能仅从少量声压测量中合成高保真度立体声响复制分量或任何其它声场分量。以下各节将详细解释本方法。

附图说明

[0023] 随后参考附图解释本发明的优选实施例,其中
[0024] 图1a示出针对不同阶数和状态的球面谐波函数;
[0025] 图1b示出如何基于到达方向信息来选择参考麦克风的一个示例;
[0026] 图1c示出用于生成声场描述的装置或方法的优选实现;
[0027] 图1d图示示例性麦克风信号的时间‑频率转换,其中特别地识别一方面用于频率仓10和时间块1的特定时间‑频率瓦片(10,1)和用于频率仓5和时间块2的特定时间‑频率瓦片(5,2);
[0028] 图1e图示使用用于识别出的频率仓(10,1)和(5,2)的声音方向的四个示例性空间基函数的评估;
[0029] 图1f图示针对两个仓(10,1)和(5,2)的声场分量的计算,以及后续的频率‑时间转换和交叉衰落/重叠相加处理;
[0030] 图1g图示四个示例性声场分量b1至b4的时域表示,如通过图1f的处理获得的;
[0031] 图2a示出本发明的一般框图;
[0032] 图2b示出本发明的一般框图,其中在组合器之前应用逆时间‑频率变换;
[0033] 图3a示出本发明的实施例,其中从参考麦克风信号和声音方向信息计算期望级和状态的高保真度立体声响复制分量;
[0034] 图3b示出本发明的实施例,其中基于到达方向信息选择参考麦克风;
[0035] 图4示出本发明的实施例,其中计算直接声音高保真度立体声响复制分量和漫射声音高保真度立体声响复制分量;
[0036] 图5示出本发明的实施例,其中漫射声音高保真度立体声响复制分量被解相关;
[0037] 图6示出本发明的实施例,其中从多个麦克风和声音方向信息中提取直接声音和漫射声音;
[0038] 图7示出本发明的实施例,其中漫射声音是从多个麦克风提取的,并且漫射声音高保真度立体声响复制分量被解相关;以及
[0039] 图8示出本发明的实施例,其中增益平滑被应用于空间基函数响应。

具体实施方式

[0040] 图1c中图示优选实施例。图1c图示用于生成声场描述130的装置或方法的实施例,该声场描述130具有声场分量的表示,如声场分量的时域表示或声场分量的频域表示、编码或解码表示或中间表示。
[0041] 为此,方向确定器102针对多个麦克风信号的多个时间‑频率瓦片中的每个时间‑频率瓦片确定一个或多个声音方向131。
[0042] 因此,方向确定器在其输入132处接收至少两个不同的麦克风信号,并且对于那两个不同的麦克风信号中的每一个,通常由频谱仓的后续块组成的时间‑频率表示是可用的,其中频谱仓的块具有与其相关联的某个时间索引n,其中频率索引是k。用于时间索引的频率仓的块表示由某个开窗操作生成的时域样本的块的时域信号的频谱。
[0043] 声音方向131被空间基函数评估器103使用,用于针对多个时间‑频率瓦片中的每个时间‑频率瓦片评估一个或多个空间基函数。因此,方框103中的处理的结果是针对每个时间‑频率瓦片的一个或多个评估后的空间基函数。优选地,使用两个或甚至更多个不同的空间基函数,诸如关于图1e和1f所讨论的四个空间基函数。因此,在方框103的输出133处,用于时间‑频谱表示的不同时间‑频率瓦片的不同阶数和状态的评估后的空间基函数是可获得的并且被输入到声场分量计算器201中。声场分量计算器201额外地使用由参考信号计算器(图1c中未示出)生成的参考信号134。参考信号134从多个麦克风信号中的一个或多个麦克风信号中得出,并在同一时间/频率表示内被声场分量计算器使用。
[0044] 因此,声场分量计算器201被配置为针对多个时间‑频率瓦片中的每个时间‑频率瓦片借助于用于对应时间‑频率瓦片的一个或多个参考信号来计算与使用一个或多个声音方向评估的一个或多个空间基函数对应的一个或多个声场分量。
[0045] 取决于实现,空间基函数评估器103被配置为针对空间基函数使用参数化表示,其中参数化表示的参数是声音方向,声音方向在二维情况下是一维的,或者在三维情况下是二维的,并且被配置为将与声音方向对应的参数插入到参数化表示中以获得每个空间基函数的评估结果。
[0046] 可替代地,空间基函数评估器被配置为针对每个空间基函数使用查找表,以空间基函数标识和声音方向作为输入并且以评估结果作为输出。在这种情况下,空间基函数评估器被配置为针对由方向确定器102确定的一个或多个声音方向确定查找表输入的对应声音方向。通常,不同的方向输入以一种方式被量化,使得例如存在一定数量的表输入,诸如十个不同的声音方向。
[0047] 空间基函数评估器103被配置为针对与用于查找表的声音方向输入不直接一致的某个特定声音方向确定对应的查找表输入。例如,这可以通过针对某个确定的声音方向使用输入到查找表中的下一个更高或下一个更低的声音方向来执行。可替代地,以这样一种方式使用该表:计算两个相邻查找表输入之间的加权平均值。因此,过程将是确定用于下一个更低方向输入的表输出。此外,确定用于下一个更高输入的查找表输出,然后计算那些值之间的平均值。
[0048] 这个平均值可以是通过将两个输出相加并将结果除以2得到的简单平均值,或者可以是取决于所确定的声音方向相对于下一个更高和下一个更低表输出的位置的加权平均值。因此,示例性地,加权因子将取决于所确定的声音方向与至查找表的对应的下一个更高/下一个更低输入之间的差异。例如,当测得的方向接近下一个更低输入时,用于该下一个更低输入的查找表结果乘以与对用于下一个更高输入的查找表输出进行加权的加权因子相比而言更高的加权因子。因此,对于所确定的方向与下一更低输入之间的小差值,用于下一个更低输入的查找表输出将利用与用于对与针对声音方向的下一个更高查找表输入对应的查找表输出进行加权的加权因子相比而言更高的加权因子进行加权。
[0049] 随后,为了更详细地示出用于不同块的特定计算的示例而讨论图1d至1g。
[0050] 图1d中的上部图示示出示意性麦克风信号。但是,并未示出麦克风信号的实际振幅。相反,示出了窗口,特别是窗口151和152。窗口151定义第一块1,并且窗口152识别并确定第二块2。因此,利用优选地重叠的块处理麦克风信号,其中重叠等于50%。但是,也可以使用更高或更低的重叠,甚至完全不重叠也是可行的。但是,为了避免块效应(blocking artifact),执行重叠处理。
[0051] 麦克风信号的采样值的每个块被转换成频谱表示。用于具有时间索引n=1的块(即,用于块151)的频谱表示或频谱在图1d的中间表示中示出,并且与标号152对应的第二块2的频谱表示在图1d中的下图中示出。此外,出于示例性的原因,每个频谱被示为具有十个频率仓,即,频率索引k在例如1和10之间延伸。
[0052] 因此,时间‑频率瓦片(k,n)是在153处的时间‑频率瓦片(10,1),并且另一个示例示出在154处的另一个时间‑频率瓦片(5,2)。由用于生成声场描述的装置执行的进一步处理在例如图1d中示出,该图使用由标号153和154指示的这些时间‑频率瓦片来示例性地示出。
[0053] 此外,还假设方向确定器102确定由单位范数向量n示例性指示的声音方向或“DOA”(到达方向)。可替代的方向指示包括方位角、仰角或两个角度一起。为此,方向确定器102使用多个麦克风信号中的所有麦克风信号,其中每个麦克风信号由如图1d中所示的频率仓的后续块表示,并且图1c的方向确定器102然后例如确定声音方向或DOA。因此,示例性地,时间‑频率瓦片(10,1)具有声音方向n(10,1)并且时间‑频率块(5,2)具有声音方向n(5,
2),如图1e的上部部分所示。在三维的情况下,声音方向是具有x、y或z分量的三维向量。自然,也可以使用诸如球面坐标之类的其它坐标系,其依赖两个角度和半径。可替代地,角度可以是例如方位角和仰角。那么,半径不是必需的。类似地,在诸如笛卡尔坐标之类的二维情况下,存在声音方向的两个分量(即,x和y方向),但是可替代地,具有半径和角度或方位角和仰角的圆形坐标也可以被使用。
[0054] 这个过程不仅针对时间‑频率瓦片(10,1)和(5,2)执行,而且针对通过其表示麦克风信号的所有时间‑频率瓦片执行。
[0055] 然后,确定所需的一个或多个空间基函数。特别地,确定应当生成哪个数量的声场分量或者一般来说声场分量的表示。图1c的空间基函数评估器103现在使用的空间基函数的数量最终确定频谱表示中用于每个时间‑频率瓦片的声场分量的数量或时域中声场分量的数量。
[0056] 对于进一步的实施例,假设要确定四个声场分量,其中示例性地,这四个声场分量可以是一个全向声场分量(与等于0的阶数对应)和在笛卡尔坐标系的对应坐标方向上定向的三个定向声场分量。
[0057] 图1e中的下图图示针对不同时间‑频率瓦片的评估后的空间基函数Gi。因此,变得清楚的是,在这个示例中,确定针对每个时间‑频率瓦片的四个评估后的空间基函数。当示例性地假设每个块具有十个频率仓时,针对每个块(诸如对于块n=1和对于块n=2)确定40个评估后的空间基函数Gi,如图1e中所示。因此,当考虑仅两个块并且每个块具有十个频率仓时,由于在这两个块中存在二十个时间‑频率瓦片并且每个时间‑频率瓦片具有四个评估后的空间基函数,因此该过程总共导致80个评估后的空间基函数。
[0058] 图1f图示图1c的声场分量计算器201的优选实现。图1f在上面两个图示中示出了用于经由线134输入到图1c中的方框201的所确定的参考信号的频率仓的两个块。特别地,可以是特定麦克风信号或者不同麦克风信号的组合的参考信号已经以与关于图1d所讨论的相同方式被处理。因此,示例性地,参考信号由用于块n=1的参考频谱和用于块n=2的参考信号频谱表示。因此,参考信号被分解成与已经用于计算经由线133从方框103输出到方框201的时间‑频率瓦片的评估后的空间基函数的时间‑频率图案相同的时间‑频率图案(pattern)。
[0059] 然后,如在155处所指示的,经由用于参考信号P的对应时间‑频率瓦片与相关联的评估后的空间基本函数G之间的函数组合来执行声场分量的实际计算。优选地,由f(...)表示的函数组合是在随后讨论的图3a、3b中的115处示出的乘法。但是,也可以使用其它函数组合,如前面所讨论的。借助于方框155中的函数组合,为每个时间‑频率瓦片计算一个或多个声场分量Bi,以便获得如对于块n=1在156处并且对于块n=2在157处所示的声场分量Bi的频域(频谱)表示。
[0060] 因此,示例性地,一方面针对时间‑频率瓦片(10,1)并且另一方面针对第二块的时间‑频率瓦片(5,2)示出声场分量Bi的频域表示。但是,再一次清楚的是,图1f中在156和157处示出的声场分量Bi的数量与在图1e的底部处示出的评估后的空间基函数的数量相同。
[0061] 当仅需要频域声场分量时,利用块156和157的输出来完成计算。但是,在其它实施例中,需要声场分量的时域表示,以便获得用于第一声场分量B1的时域表示、用于第二声场分量B2的另一个时域表示,等等。
[0062] 为此,将第一块156中的从频率仓1到频率仓10的声场分量B1插入到频率‑时间转移方框159中,以便获得用于第一块和第一分量的时域表示。
[0063] 类似地,为了确定并计算时域中的第一分量(即,b1(t)),用于从频率仓1延续到频率仓10的第二块的频谱声场分量B1通过进一步的频率‑时间变换160被转换成时域表示。
[0064] 由于如图1d的上部所示的使用重叠窗口的事实,可以使用图1f中底部所示的交叉衰落或重叠相加操作161,以便计算在图1g中的162处所示的块1和块2之间的重叠范围中的第一频谱表示b1(d)的输出时域样本。
[0065] 为了计算第一块和第二块之间的重叠范围163内的第二时域声场分量b2(t),执行相同的过程。此外,为了计算时域中的第三声场分量b3(t),特别是为了计算重叠范围164中的样本,来自第一块的分量D3和来自第二块的分量D3相应地通过过程159、160被转换成时域表示,然后在方框161中交叉衰落/重叠相加结果值。
[0066] 最后,对于第一块的第四分量B4和第二块的B4执行相同的过程,以便获得重叠范围165中的第四时域表示声场分量b4(t)的最终样本,如图1g中所示。
[0067] 要注意的是,当为了获得时间‑频率瓦片的处理不是对重叠的块执行而是对非重叠的块执行时,则无需如方框161中所示的任何交叉衰落/重叠相加。
[0068] 此外,在两个以上的块相互重叠的更高度重叠的情况下,需要对应较高数量的方框159、160,并且方框161的交叉衰落/重叠相加不仅利用两个输入而是甚至利用三个输入来计算,以便最终获得如图1g中所示的时域表示的样本。
[0069] 此外,应该注意的是,例如对于重叠范围OL23的时域表示的样本是通过对第二块和第三块应用方框159、160中的过程而获得的。对应地,针对用于块0和块1的某个编号i,通过对对应的频谱声场分量Bi执行过程159、160来计算用于重叠范围OL0,1的样本。
[0070] 此外,如已经概述的那样,声场分量的表示可以是如图1f中对于156和157所示的频域表示。可替代地,声场分量的表示可以是如图1g中所示的时域表示,其中四个声场分量表示具有与某个采样率相关联的样本序列的直达声音信号(straightforward sound signal)。此外,可以对声场分量的频域表示或时域表示进行编码。这种编码可以分开执行,使得每个声场分量被编码为单声道信号,或者编码可以被联合执行,使得例如四个声场分量B1至B4被认为是具有四个声道的多声道信号。因此,用任何有用的编码算法编码的频域编码的表示或者时域表示也是声场分量的表示。
[0071] 此外,甚至在由方框161执行的交叉衰落/重叠相加之前的时域中的表示也可以是用于某个实现的声场分量的有用表示。此外,还可以执行用于某个分量(诸如分量1)的块n上的一种向量量化,以便压缩声场分量的频域表示,以供传输或存储或其它处理任务。
[0072] 优选实施例
[0073] 图2a示出由方框(10)给出的本新颖方法,其允许从多个(两个或更多个)麦克风的信号合成期望阶数(级)和状态的高保真度立体声响复制分量。与相关的现有技术方法不同,麦克风设置不受限制。这意味着,多个麦克风可以以任意几何形状布置,例如布置为重合设置、线性阵列、平面阵列或三维阵列。而且,每个麦克风可以具有全向或任意定向方向性。不同麦克风的方向性可能不同。
[0074] 为了获得期望的高保真度立体声响复制分量,使用方框(101)首先将多个麦克风信号变换成时间‑频率表示。为此,可以使用例如滤波器组或者短时傅立叶变换(STFT)。方框(101)的输出是时间‑频率域中的多个麦克风信号。要注意的是,以下处理针对时间‑频率瓦片单独执行。
[0075] 在时间‑频率域中变换多个麦克风信号之后,在方框(102)中从两个或更多个麦克风信号确定一个或多个声音方向(对于时间‑频率瓦片)。声音方向描述了时间‑频率瓦片的突出声音是从哪个方向到达麦克风阵列的。这个方向通常被称为声音的到达方向(DOA)。作为DOA的替代,还可以考虑声音的传播方向,这是DOA的相反方向,或者描述声音方向的任何其它测量。通过使用例如现有技术的窄带DOA估计器,在方框(102)中估计一个或多个声音方向或DOA,窄带DOA估计器几乎适用于任何麦克风设置。在实施例1中列出了合适的示例DOA估计器。在方框(102)中计算的声音方向或DOA的数量(一个或多个)取决于例如可容忍的计算复杂度,但也取决于所使用的DOA估计器的能力或麦克风几何形状。可以例如在2D空间(例如以方位角的形式表示)或在3D空间(例如以方位角和仰角的形式表示)中估计声音方向。在下面,大多数描述都是基于更一般的3D情况,然而也可直接将所有处理步骤应用于2D情况。在许多情况下,用户指定每个时间‑频率瓦片估计多少个声音方向或DOA(例如,1、2或3)。可替代地,可以使用现有技术方法来估计突出声音的数量,例如在[SourceNum]中解释的方法。
[0076] 在方框(103)中使用在方框(102)中针对时间‑频率瓦片估计的一个或多个声音方向来为时间‑频率瓦片计算期望的阶数(级)和状态的空间基函数的一个或多个响应。针对每个估计的声音方向计算一个响应。如前一节中所解释的,空间基函数可以表示例如球面谐波(例如,如果处理在3D空间中执行)或柱面谐波(例如,如果处理在2D空间中执行)。空间基函数的响应是在对应估计的声音方向上评估的空间基函数,如在第一实施例中更详细地解释的。
[0077] 在方框(201)中进一步使用针对时间‑频率瓦片估计的一个或多个声音方向,即,用以为时间‑频率瓦片计算期望阶数(级)和状态的一个或多个高保真度立体声响复制分量。这种高保真度立体声响复制分量合成用于从估计的声音方向到达的定向声音的高保真度立体声响复制分量。到方框(201)的附加输入是在方框(103)中针对时间‑频率瓦片计算的空间基函数的一个或多个响应,以及用于给定的时间‑频率瓦片的一个或多个麦克风信号。在方框(201)中,针对每个估计的声音方向和空间基函数的对应响应来计算期望的阶数(级)和状态的一个高保真度立体声响复制分量。在下面的实施例中进一步讨论方框(201)的处理步骤。
[0078] 本发明(10)包含可选方框(301),其可以针对时间‑频率瓦片计算期望阶数(级)和状态的漫射声音高保真度立体声响复制分量。例如,这个分量合成用于纯漫射声场或环境声音的高保真度立体声响复制分量。到方框(301)的输入是在方框(102)中估计的一个或多个声音方向以及一个或多个麦克风信号。在后面的实施例中进一步讨论方框(301)的处理步骤。
[0079] 在可选方框(301)中计算的漫射声音高保真度立体声响复制分量可以在可选方框(107)中进一步解相关。为此,可以使用现有技术的解相关器。一些示例在实施例4中列出。通常,将针对不同的阶数(级)和状态应用不同的解相关器或解相关器的不同实现。在这样做时,不同阶数(级)和状态的解相关的漫射声音高保真度立体声响复制分量将是互不相关的。这模拟了预期的物理行为,即,不同阶数(级)和状态的高保真度立体声响复制分量对于漫射声音或环境声音是互不相关的,例如在[SpCoherence]中所解释的。
[0080] 在方框(201)中针对时间‑频率瓦片计算出的期望阶数(级)和状态的一个或多个(直接声音)高保真度立体声响复制分量以及在方框(301)中计算出的对应漫射声音高保真度立体声响复制分量在方框(401)中组合。如在后面的实施例中讨论的,该组合可以实现为例如(加权)和。方框(401)的输出是用于给定时间‑频率瓦片的期望阶数(级)和状态的最终合成的高保真度立体声响复制分量。显然,如果仅在方框(201)中为时间‑频率瓦片计算期望阶数(级)和状态的单一(直接声音)高保真度立体声响复制分量(而没有漫射声音高保真度立体声响复制分量),那么组合器(401)是多余的。
[0081] 在计算出用于所有时间‑频率瓦片的期望阶数(级)和状态的最终高保真度立体声响复制分量之后,可以利用可以例如被实现为逆滤波器组或逆STFT的逆时间‑频率变换(20)将高保真度立体声响复制分量变换回时域。要注意的是,不是在每个应用中都需要逆时间‑频率变换,因此它不是本发明的一部分。在实践当中,可以计算针对所有期望阶数和状态的高保真度立体声响复制分量,以获得期望最大阶数(级)的期望高保真度立体声响复制信号。
[0082] 图2b示出所述本发明的稍微修改的实现。在这个图中,在组合器(401)之前应用逆时间‑频率变换(20)。这是可行的,因为逆时间‑频率变换通常是线性变换。通过在组合器(401)之前应用逆时间‑频率变换,例如可以在时域(而不是如图2a中那样的时间‑频率域)中执行解相关。在实现本发明时这对于一些应用可以具有实际的优点。
[0083] 应当注意的是,逆滤波器组也可以在其它地方。一般而言,组合器和解相关器应当(并且通常是后者)在时域中应用。但是,也可以在频域中应用两者或仅一个方框。
[0084] 因此,优选实施例包括漫射分量计算器301,用于针对多个时间‑频率瓦片中的每个时间‑频率瓦片计算一个或多个漫射声音分量。此外,这种实施例包括组合器401,用于组合漫射声音信息和直接声场信息,以获得声场分量的频域表示或时域表示。此外,取决于实现,漫射分量计算器还包括用于将漫射声音信息解相关的解相关器107,其中解相关器可以在频域内实现,使得利用漫射声音分量的时间‑频率瓦片表示来执行相关。可替代地,解相关器被配置为在时域内操作,如图2b中所示,使得执行某个阶数的某个漫射声音分量的时间表示的时域内的解相关。
[0085] 与本发明相关的进一步的实施例包括时间‑频率转换器,诸如时间‑频率转换器101,用于将多个时域麦克风信号中的每一个转换成具有多个时间‑频率瓦片的频率表示。
进一步的实施例包括频率‑时间转换器,诸如图2a或图2b的方框20,用于将一个或多个声场分量或一个或多个声场分量的组合(即,直接声场分量和漫射声音分量)转换成声场分量的时域表示。
[0086] 特别地,频率‑时间转换器20被配置为处理一个或多个声场分量,以获得多个时域声场分量,其中这些时域声场分量是直接声场分量。此外,频率‑时间转换器20被配置为处理漫射声音(场)分量,以获得多个时域漫射(声场)分量,并且组合器被配置为在时域中执行时域(直接)声场分量和时域漫射(声场分量)的组合,如图2b中所示。可替代地,组合器401被配置为在频域内组合用于时间‑频率瓦片的一个或多个(直接)声场分量和用于对应时间‑频率瓦片的漫射声音(场)分量,于是频率‑时间转换器20被配置为处理组合器401的结果以获得时域中的声场分量,即,时域中的声场分量的表示,例如如图2a中所示。
[0087] 以下实施例更详细地描述本发明的几种实现。要注意的是,实施例1‑7考虑每个时间‑频率瓦片一个声音方向(并且因此每个级和状态以及时间和频率,仅空间基函数的一个响应和仅一个直接声音高保真度立体声响复制分量)。实施例8描述每个时间‑频率瓦片考虑多于一个声音方向的示例。这个实施例的概念可以以直接的方式应用于所有其它实施例。
[0088] 实施例1
[0089] 图3a示出本发明的实施例,其允许从多个(两个或更多个)麦克风的信号合成期望阶数(级)l和状态m的高保真度立体声响复制分量。
[0090] 本发明的输入是多个(两个或更多个)麦克风的信号。麦克风可以以任意几何形状布置,例如布置为重合设置、线性阵列、平面阵列或三维阵列。而且,每个麦克风可以拥有全向或任意定向方向性。不同麦克风的方向性可以不同。
[0091] 使用例如滤波器组或者短时傅立叶变换(STFT)在方框(101)中将多个麦克风信号变换到时间‑频率域中。时间‑频率变换(101)的输出是时间‑频率域中的多个麦克风信号,用P1...M(k,n)表示,其中k是频率索引,n是时间索引,并且M是麦克风的数量。要注意的是,以下处理针对时间‑频率瓦片(k,n)分别地执行。
[0092] 在将麦克风信号变换到时间‑频率域之后,使用两个或更多个麦克风信号P1...M(k,n)在方框(102)中每时间和频率地执行声音方向估计。在这个实施例中,每个时间和频率确定单个声音方向。对于(102)中的声音方向估计,可以使用现有技术的窄带到达方向(DOA)估计器,这些估计器在文献中可用于不同的麦克风阵列几何形状。例如,可以使用适用于任意麦克风设置的MUSIC算法[MUSIC]。在均匀线性阵列、具有等距网格点的非均匀线性阵列或全向麦克风的圆形阵列的情况下,可以应用Root MUSIC算法[RootMUSIC1,RootMUSIC2,RootMUSIC3],其在计算上比MUSIC更高效。另一个众所周知的可应用于具有旋转不变子阵列结构的线性阵列或平面阵列的窄带DOA估计器是ESPRIT[ESPRIT]。
[0093] 在这个实施例中,声音方向估计器(102)的输出是用于时间实例n和频率索引k的声音方向。声音方向可以例如依据单位范数向量n(k,n)表示或者依据方位角 和/或仰角θ(k,n)表示,其例如以下式相关
[0094]
[0095] 如果没有仰角θ(k,n)被估计(2D情况),那么可以在下面的步骤中假设零仰角,即,θ(k,n)=0。在这种情况下,单位范数向量n(k,n)可写为
[0096]
[0097] 在方框(102)中估计出声音方向之后,使用估计的声音方向信息在方框(103)中每时间和频率单独地确定期望阶数(级)l和状态m的空间基函数的响应。阶数(级)l和状态m的空间基函数的响应用 表示并且被计算为
[0098]
[0099] 在这里, 是阶数(级)l和状态m的空间基函数,其取决于由向量n(k,n)或者方位角 和/或仰角θ(k,n)指示的方向。因此,响应 描述用于从由向量n(k,n)或方位角 和/或仰角θ(k,n)指示的方向到达的声音的空间基函数 的响应。例如,当将具有N3D归一化的实数值球面谐波视为空间基函数时,如
[SphHarm.Ambix.FourierAcoust], 可以被计算为
[0100]
[0101] 其中
[0102]
[0103] 是N3D归一化常数,并月 是阶数(级)l和状态m的相关联的Legendre多项式,其取决于仰角,在例如[FourierAcoust]中定义。要注意的是,对于每个方位角和/或仰角,也可以预先计算期望阶数(级)l和状态m的空间基函数 的响应,并将其存储在查找表中,然后根据估计的声音方向进行选择。
[0104] 在这个实施例中,在不失一般性的情况下,第一麦克风信号被称为参考麦克风信号Pref(k,n),即,
[0105] Pref(k,n)=P1(k,n)
[0106] 在这个实施例中,参考麦克风信号Pref(k,n)与在方框(103)中确定的空间基函数的响应 组合,诸如对于时间‑频率瓦片(k,n)是相乘115,即,
[0107]
[0108] 导致用于时间‑频率瓦片(k,n)的阶数(级)l和状态m的期望高保真度立体声响复制分量 结果的高保真度立体声响复制分量 最终可以使用逆滤波器组或逆STFT被变换回时域、存储、发送或用于例如空间声音再现应用。在实践当中,将计算针对所有期望阶数和状态的高保真度立体声响复制分量,以获得期望最大阶数(级)的期望高保真度立体声响复制信号。
[0109] 实施例2
[0110] 图3b示出本发明的另一个实施例,其允许从多个(两个或更多个)麦克风的信号合成期望阶数(级)l和状态m的高保真度立体声响复制分量。该实施例类似于实施例1,但是附加地包含方框(104),以从多个麦克风信号确定参考麦克风信号。
[0111] 如实施例1中那样,到本发明的输入是多个(两个或更多个)麦克风的信号。麦克风可以以任意几何形状布置,例如布置为重合设置、线性阵列、平面阵列或三维阵列。而且,每个麦克风可以具有全向或任意定向方向性。不同麦克风的方向性可以不同。
[0112] 如实施例1中那样,使用例如滤波器组或者短时傅立叶变换(STFT)在方框(101)中将多个麦克风信号变换到时间‑频率域中。时间‑频率变换(101)的输出是时间‑频率域中的麦克风信号,其由P1...M(k,n)表示。以下处理分别针对时间‑频率瓦片(k,n)分别地执行。
[0113] 如实施例1中那样,使用两个或更多个麦克风信号P1...M(k,n)在方框(102)中每时间和频率地执行声音方向估计。在实施例1中讨论了对应的估计器。声音方向估计器(102)的输出是每个时间实例n和频率索引k的声音方向。声音方向可以例如依据单位范数向量n(k,n)或者依据方位角 和/或仰角θ(k,n)来表示,它们如实施例1中解释的那样相关。
[0114] 如实施例1中那样,使用估计的声音方向信息在方框(103)中每时间和频率地确定期望阶数(级)l和状态m的空间基函数的响应。空间基函数的响应由 表示。例如,可以将具有N3D归一化的实数值球面谐波视为空间基函数,并且可以如实施例1中解释的那样确定
[0115] 在这个实施例中,在方框(104)中从多个麦克风信号P1...M(k,n)中确定参考麦克风信号Pref(k,n)。为此,方框(104)使用在方框(102)中估计的声音方向信息。可以针对不同的时间‑频率瓦片确定不同的参考麦克风信号。存在不同的可能性以基于声音方向信息从多个麦克风信号P1...M(k,n)中确定参考麦克风信号Pref(k,n)。例如,可以每时间和频率地从多个麦克风中选择最接近估计的声音方向的麦克风。这种方法在图1b中可视化。例如,假设麦克风位置由位置向量d1...M给出,那么可以通过求解以下问题找到最接近麦克风的索引i(k,n)
[0116]
[0117] 从而用于所考虑的时间和频率的参考麦克风信号由下式给出
[0118] Pref(k,n)=Pi(k,n)(k,n)
[0119] 在图1b的示例中,当d3接近n(k,n)时,用于时间‑频率瓦片(k,n)的参考麦克风将是麦克风编号3,即,i(k,n)=3。确定参考麦克风信号Pref(k,n)的替代方法是将多声道滤波器应用于麦克风信号,即,
[0120] Pref(k,n)=wH(n)p(k,n)
[0121] 其中w(n)是取决于估计的声音方向的多声道滤波器,并且向量p(k,n)=[P1(k,Tn),...,PM(k,n)]包含多个麦克风信号。文献中存在许多不同的最优多声道滤波器w(n),其可以用于计算Pref(k,n),例如延迟与求和滤波器或LCMV滤波器,这些滤波器在例如[OptArrayPr]中得出。使用多声道滤波器提供了在[OptArrayPr]中解释的不同优点和缺点,例如,它们允许我们减少麦克风的自噪声。
[0122] 如实施例1中一样,参考麦克风信号Pref(k,n)最终与在方框(103)中确定的空间基函数的响应 组合,诸如每时间和频率地相乘115,从而对于时间‑频率瓦片(k,n)导致阶数(级)l和状态m的期望高保真度立体声响复制分量 结果的高保真度立体声响复制分量 最终可以使用逆滤波器组或逆STFT被变换回时域、存储、发送或用于例如空间声音再现。在实践中,可以针对所有期望阶数和状态计算高保真度立体声响复制分量,以获得期望最大阶数(级)的期望高保真度立体声响复制信号。
[0123] 实施例3
[0124] 图4示出本发明的另一个实施例,其允许从多个(两个或更多个)麦克风的信号合成期望阶数(级)l和状态m的高保真度立体声响复制分量。该实施例类似于实施例1,但计算用于直接声音信号和漫射声音信号的高保真度立体声响复制分量。
[0125] 如实施例1中那样,到本发明的输入是多个(两个或更多个)麦克风的信号。麦克风可以以任意几何形状布置,例如布置为重合设置、线性阵列、平面阵列或三维阵列。而且,每个麦克风可以拥有全向或任意定向方向性。不同麦克风的方向性可以不同。
[0126] 如在实施例1中那样,使用例如滤波器组或者短时傅立叶变换(STFT)在方框(101)中将多个麦克风信号变换到时间‑频率域中。时间‑频率变换(101)的输出是时间‑频率域中的麦克风信号,其由P1...M(k,n)表示。以下处理针对时间‑频率瓦片(k,n)分别地执行。
[0127] 如实施例1中那样,使用两个或更多个麦克风信号P1...M(k,n)在方框(102)中每时间和频率地执行声音方向估计。在实施例1中讨论了对应的估计器。声音方向估计器(102)的输出是每个时间实例n和频率索引k的声音方向。声音方向可以例如依据单位范数向量n(k,n)或者依据方位角 和/或仰角θ(k,n)来表示,它们如实施例1中解释的那样相关。
[0128] 如实施例1中那样,使用估计的声音方向信息在方框(103)中每时间和频率地确定期望阶数(级)l和状态m的空间基函数的响应。空间基函数的响应由 表示。例如,可以将具有N3D归一化的实数值球面谐波视为空间基函数,并且可以如实施例1中解释的那样确定
[0129] 在这个实施例中,从方框(106)获得与时间索引n无关的期望阶数(级)l和状态m的空间基函数的平均响应。此平均响应由 表示,并且描述了用于从所有可能方向到达的声音(诸如漫射声音或环境声音)的空间基函数的响应。定义平均响应 的一个示例是考虑在所有可能的角度 和/或θ上的空间基函数 的平方量值的积分。例如,当在球体的所有角度上进行积分时,可以获得
[0130]
[0131] 平均响应 的这种定义可以被解释如下:如在实施例1中所解释的,空间基函数 可以被解释为阶数l的麦克风的方向性。对于增加的阶数,这种麦克风将变得越来越有方向性,并且因此与全向麦克风(阶数l=0的麦克风)相比,在实际声场中将会捕获更少的漫射声能或环境声能。利用上面给出的 的定义,平均响应 将导致实数值因子,该实数值因子描述,与全向麦克风相比,在阶数l的麦克风的信号中漫射声能或环境声能衰减了多少。显然,除了在球体的方向上对空间基函数 的平方量值进行积分之外,还存在不同的替代方案来定义平均响应 例如:在圆上的方向上对 的平方量值进行积分,在期望方向 的任何集合上对 的平方量值进行积分,在期望方向 的任何集合上对 的平方量值求平均,对 的量值而不是平方
量值进行积分或求平均,考虑在期望方向 的任何集合上的 的加权和,或者指定与前述的阶数l的想像麦克风关于漫射声音或环境声音的期望灵敏度对应的用于的任何期望的实数值数。
[0132] 平均空间基函数响应也可以预先计算并存储在查找表中,并且通过访问查找表并检索对应的值来执行响应值的确定。
[0133] 如实施例1中那样,在不失一般性的情况下,第一麦克风信号被称为参考麦克风信号,即,Pref(k,n)=P1(k,n)。
[0134] 在这个实施例中,在方框(105)中使用参考麦克风信号Pref(k,n)来计算由Pdir(k,n)表示的直接声音信号和由Pdiff(k,n)表示的漫射声音信号。在方框(105)中,例如可以通过对参考麦克风信号应用单声道滤波器Wdir(k,n)来计算直接声音信号Pdir(k,n),即,[0135] Pdir(k,n)=Wdir(k,n)Pref(k,n)
[0136] 文献中存在不同的可能性来计算最优单声道滤波器Wdir(k,n)。例如,可以使用众所周知的平方根Wiener滤波器,其在例如[Victaulic]中被定义为
[0137]
[0138] 其中SDR(k,n)是时间实例n和频率索引k处的信号‑漫射比(SDR),其描述如[VirtualMic]中讨论的直接声音与漫射声音之间的功率比。可以利用文献中可用的现有技术SDR估计器(例如[SDRestim]中提出的估计器,其基于两个任意麦克风信号之间的空间相干性)使用多个麦克风信号P1...M(k,n)中的任意两个麦克风来估计SDR。在方框(105)中,可以例如通过对参考麦克风信号应用单声道滤波器Wdiff(k,n)来计算漫射声音信号Pdiff(k,n),即,
[0139] Pdiff(k,n)=Wdiff(k,n)Pref(k,n)
[0140] 在文献中存在不同的可能性以计算最优单声道滤波器Wdiff(k,n)。例如,可以使用众所周知的平方根Wiener滤波器,其在例如[VirtualMic]中被定义为
[0141]
[0142] 其中SDR(k,n)是可以如前面所讨论的那样估计的SDR。
[0143] 在这个实施例中,在方框(105)中确定的直接声音信号Pdir(k,n)与在方框(103)中确定的空间基函数的响应 组合,诸如每时间和频率地相乘115a,即,
[0144]
[0145] 导致用于时间‑频率瓦片(k,n)的阶数(级)l和状态m的直接声音高保真度立体声响复制分量 而且,在方框(105)中确定的漫射声音信号Pdiff(k,n)与在方框(106)中确定的空间基函数的平均响应 组合,诸如每时间和频率地相乘115b,即,[0146]
[0147] 导致用于时间‑频率瓦片(k,n)的阶数(级)l和状态m的漫射声音高保真度立体声响复制分量
[0148] 最后,例如经由求和操作(109),组合直接声音高保真度立体声响复制分量和漫射声音高保真度立体声响复制分量 以获得用于时间‑频率瓦片(k,n)的期望阶数(级)l和状态m的最终高保真度立体声响复制分量 即,
[0149]
[0150] 结果的高保真度立体声响复制分量 最终可以使用逆滤波器组或逆STFT被变换回时域、存储、发送或用于例如空间声音再现。在实践中,将针对所有期望阶数和状态计算高保真度立体声响复制分量,以获得期望最大阶数(级)的期望高保真度立体声响复制信号。
[0151] 重要的是要强调,在计算 之前(即,在操作(109)之前),可以执行使用例如逆滤波器组或逆STFT的回到时域的变换。这意味着,首先可以将 和变换回时域,然后利用操作(109)将这两个分量求和,以获得最终的高保真度立体声响复制分量 这是可能的,因为逆滤波器组或逆STFT一般是线性运算。
[0152] 要注意的是,这个实施例中的算法可以被配置为使得针对不同的状态(阶数)l计算直接声音高保真度立体声响复制分量 和漫射声音高保真度立体声响复制分量例如,可以计算上至阶数l=4的 但是可以计算仅上至阶数l=1的(在这种情况下, 对于大于l=1的阶数将为零)。这具有如实施例4中
所解释的特定优点。如果期望例如针对特定的阶数(级)l或状态m仅计算 而不计算 那么例如可以将方框(105)配置为使得漫射声音信号Pdiff(k,n)变成等于零。
例如,这可以通过将之前等式中的滤波器Wdiff(k,n)设置为0并且将滤波器Wdir(k,n)设置为
1来实现。可替代地,可以手动将先前等式中的SDR设置为非常高的值。
[0153] 实施例4
[0154] 图5示出本发明的另一个实施例,其允许从多个(两个或更多个)麦克风的信号合成期望阶数(级)l和状态m的高保真度立体声响复制分量。该实施例类似于实施例3,但附加地包含用于漫射高保真度立体声响复制分量的解相关器。
[0155] 如实施例3中那样,到本发明的输入是多个(两个或更多个)麦克风的信号。麦克风可以以任意几何形状布置,例如布置为重合设置、线性阵列、平面阵列或三维阵列。而且,每个麦克风可以具有全向或任意定向方向性。不同麦克风的方向性可以不同。
[0156] 如实施例3中那样,使用例如滤波器组或者短时傅立叶变换(STFT)在方框(101)中将多个麦克风信号变换到时间‑频率域中。时间‑频率变换(101)的输出是时间‑频率域中的麦克风信号,其由P1...M(k,n)表示。以下处理针对时间‑频率瓦片(k,n)分别地执行。
[0157] 如实施例3中那样,使用两个或更多个麦克风信号P1...M(k,n)在方框(102)中每时间和频率地执行声音方向估计。在实施例1中讨论了对应的估计器。声音方向估计器(102)的输出是每个时间实例n和频率索引k的声音方向。声音方向可以例如依据单位范数向量n(k,n)或者依据方位角 和/或仰角θ(k,n)来表示,它们如实施例1中解释的那样相关。
[0158] 如实施例3中那样,使用估计的声音方向信息在方框(103)中每时间和频率地确定期望阶数(级)l和状态m的空间基函数的响应。空间基函数的响应由 表示。例如,可以将具有N3D归一化的实数值球面谐波视为空间基函数,并且可以如实施例1中解释的那样确定
[0159] 如实施例3中那样,从方框(106)获得与时间索引n无关的期望阶数(级)l和状态m的空间基函数的平均响应。该平均响应由 表示,并且描述了用于从所有可能方向到达的声音(诸如漫射声音或环境声音)的空间基函数的响应,平均响应 可以如实施例3中所描述的那样获得。
[0160] 如实施例3中那样,在不失一般性的情况下,第一麦克风信号被称为参考麦克风信号,即,Pref(k,n)=P1(k,n)。
[0161] 如实施例3中那样,在方框(105)中使用参考麦克风信号Pref(k,n)来计算由Pdir(k,n)表示的直接声音信号和由Pdiff(k,n)表示的漫射声音信号。在实施例3中解释了Pdir(k,n)和Pdiff(k,n)的计算。
[0162] 如实施例3中那样,将在方框(105)中确定的直接声音信号Pdir(k,n)与在方框(103)中确定的空间基函数的响应 组合,诸如每时间和频率地相乘115a,从而导致用于时间‑频率瓦片(k,n)的阶数(级)l和状态m的直接声音高保真度立体声响复制分量而且,在方框(105)中确定的漫射声音信号Pdiff(k,n)与在方框(106)中确定的空间基函数的平均响应 组合,诸如每时间和频率地相乘115b,从而导致用于时间‑频率瓦片(k,n)的阶数(级)l和状态m的漫射声音高保真度立体声响复制分量
[0163] 在这个实施例中,使用解相关器在方框(107)中将计算出的漫射声音高保真度立体声响复制分量 解相关,从而导致解相关的漫射声音高保真度立体声响复制分量,由 表示。对于解相关,可以使用现有技术的解相关技术。不同的解相关器或解相关器的实现通常被应用于不同阶数(级)l和状态m的漫射声音高保真度立体声响复制分量 使得不同级和状态的结果的解相关的漫射声音高保真度立体声响复制分量互不相关。在这样做时,漫射声音高保真度立体声响复制分量 具有预期的物理行为,即,如果声场是环境或漫射,那么不同阶数和状态的高保真度立体声响复制分量互不相关[SpCoherence]。要注意的是,在应用解相关器(107)之前,可以使用例如逆滤波器组或逆STFT将漫射声音高保真度立体声响复制分量 变换回时域。
[0164] 最后,直接声音高保真度立体声响复制分量 和解相关的漫射声音高保真度立体声响复制分量 被组合,例如经由求和(109),以获得用于时间‑频率瓦片(k,n)的期望阶数(级)l和状态m的最终高保真度立体声响复制分量 即,
[0165]
[0166] 结果的高保真度立体声响复制分量 最终可以使用例如逆滤波器组或逆STFT被变换回时域、存储、发送或用于例如空间声音再现。在实践中,将针对所有期望阶数和状态计算高保真度立体声响复制分量,以获得期望最大阶数(级)的期望高保真度立体声响复制信号。
[0167] 重要的是要强调,在计算 之前(即,在操作(109)之前),可以执行使用例如逆滤波器组或逆STFT的回到时域的变换。这意味着,首先可以将 和变换回时域,然后利用操作(109)将这两个分量求和,以获得最终的高保真度立体声响复制分量 这是可能的,因为逆滤波器组或逆STFT一般是线性运算。以相同的方式,可以在将变换回时域之后将解相关器(107)应用于漫射声音高保真度立体声响复制分量这在实践中可以是有利的,因为一些解相关器对时域信号进行操作。
[0168] 此外,要注意的是,可以向图5添加方框,诸如在解相关器之前的逆滤波器组,并且逆滤波器组可以被添加到系统中的任何地方。
[0169] 如实施例3中所解释的那样,这个实施例中的算法可以被配置为使得直接声音高保真度立体声响复制分量 和漫射声音高保真度立体声响复制分量 是针对不同状态(阶数)l计算的。例如,可以计算上至阶数l=4的 但是可以计算仅上至阶数l=1的 这将减少计算复杂度。
[0170] 实施例5
[0171] 图6示出本发明的另一个实施例,其允许从多个(两个或更多个)麦克风的信号合成期望阶数(级)l和状态m的高保真度立体声响复制分量。该实施例类似于实施例4,但是从多个麦克风信号中并通过利用到达方向信息来确定直接声音信号和漫射声音信号。
[0172] 如实施例4中那样,到本发明的输入是多个(两个或更多个)麦克风的信号。麦克风可以以任意几何形状布置,例如布置为重合设置、线性阵列、平面阵列或三维阵列。而且,每个麦克风可以具有全向或任意定向方向性。不同麦克风的方向性可以不同。
[0173] 如实施例4中那样,使用例如滤波器组或者短时傅立叶变换(STFT)在方框(101)中将多个麦克风信号变换到时间‑频率域中。时间‑频率变换(101)的输出是时间‑频率域中的麦克风信号,其由P1...M(k,n)表示。以下处理针对时间‑频率瓦片(k,n)分别地执行。
[0174] 如实施例4中那样,使用两个或更多个麦克风信号P1...M(k,n)在方框(102)中每时间和频率地执行声音方向估计。在实施例1中讨论了对应的估计器。声音方向估计器(102)的输出是每个时间实例n和频率索引k的声音方向。声音方向可以例如依据单位范数向量n(k,n)或者依据方位角 和/或仰角θ(k,n)来表示,它们如实施例1中解释的那样相关。
[0175] 如实施例4中那样,使用估计的声音方向信息在方框(103)中每时间和频率地确定期望阶数(级)l和状态m的空间基函数的响应。空间基函数的响应由 表示。例如,可以将具有N3D归一化的实数值球面谐波视为空间基函数,并且可以如实施例1中解释的那样确定
[0176] 如实施例4中那样,从方框(106)获得与时间索引n无关的期望阶数(级)l和状态m的空间基函数的平均响应。此平均响应由 表示,并且描述了用于从所有可能方向到达的声音(诸如漫射声音或环境声音)的空间基函数的响应。平均响应 可以如实施例3中所描述的那样获得。
[0177] 在这个实施例中,在方框(110)中从两个或更多个可用的麦克风信号P1...M(k,n)中每时间索引n和频率索引k地确定直接声音信号Pdir(k,n)和漫射声音信号Pdiff(k,n)。为此,方框(110)通常利用在方框(102)中确定的声音方向信息。在下文中,解释方框(110)的不同示例,其描述如何确定Pdir(k,n)和Pdiff(k,n)。
[0178] 在方框(110)的第一示例中,基于由方框(102)提供的声音方向信息,从多个麦克风信号P1...M(k,n)中确定由Pref(k,n)表示的参考麦克风信号。可以通过选择对于所考虑的时间和频率最接近估计的声音方向的麦克风信号来确定参考麦克风信号Pref(k,n)。在实施例2中解释了确定参考麦克风信号Pref(k,n)的选择处理。在确定Pref(k,n)之后,可以例如通过分别对参考麦克风信号Pref(k,n)应用单声道滤波器Wdir(k,n)和Wdiff(k,n)来计算直接声音信号Pdir(k,n)和漫射声音信号Pdiff(k,n)。在实施例3中解释了这种方法和对应单声道滤波器的计算。
[0179] 在方框(110)的第二示例中,如在前面的示例中那样确定参考麦克风信号Pref(k,n),并通过将单声道滤波器Wdir(k,n)应用于Pref(k,n)来计算Pdir(k,n)。但是,为了确定漫射信号,选择第二参考信号 并且将单声道滤波器Wdiff(k,n)应用于第二参考信号即,
[0180]
[0181] 可以如例如在实施例3中所解释的那样计算滤波器Wdiff(k,n)。第二参考信号与可用麦克风信号P1...M(k,n)中的一个对应。但是,对于不同的阶数l和状态m,可以使用不同的麦克风信号作为第二参考信号。例如,对于阶数l=1和状态m=‑1,可以使用第一麦克风信号作为第二参考信号,即, 对于阶数l=1和状态m=0,可以使用第二麦克风信号,即, 对于阶数l=1和状态m=1,可以使用
第三麦克风信号,即, 针对不同阶数和状态,可用麦克风信号P1...M
(k,n)例如可以随机地指派给第二参考信号 这在实践中是合理的方法,因为对于漫射或环境记录情况,所有麦克风信号通常都包含相似的声音功率。为不同的阶数和状态选择不同的第二参考麦克风信号具有以下优点:结果的漫射声音信号对于不同的阶数和状态常常(至少部分地)互不相关。
[0182] 在方框(110)的第三示例中,通过将由wdir(n)表示的多声道滤波器应用于多个麦克风信号P1...M(k,n)来确定直接声音信号Pdir(k,n),即,
[0183]
[0184] 其中多声道滤波器wdir(n)取决于估计的声音方向并且向量p(k,n)=[P1(k,Tn),...,PM(k,n)] 包含多个麦克风信号。在文献中存在许多不同的最优多声道滤波器wdir(n)(例如在[InformedSF]中得出的滤波器),其可用于从声音方向信息计算Pdir(k,n)。类似地,通过将由wdiff(n)表示的多声道滤波器应用于多个麦克风信号P1...M(k,n)来确定漫射声音信号Pdiff(k,n),即,
[0185]
[0186] 其中多声道滤波器wdiff(n)取决于估计的声音方向。文献中存在许多不同的最优多声道滤波器wdiff(n)(例如在[DiffuseBF]中得出的滤波器),其可用于计算Pdiff(k,n)。
[0187] 在方框(110)的第四示例中,通过分别对麦克风信号p(k,n)应用多声道滤波器wdir(n)和wdiff(n)来如前面示例中那样确定Pdir(k,n)和Pdiff(k,n),但是,对不同的阶数l和状态m使用不同的滤波器wdiff(n),使得针对不同阶数l和状态m的结果的漫射声音信号Pdiff(k,n)互不相关。例如,如[CovRender]中所解释的,可以计算使输出信号之间的相关最小化的这些不同的滤波器wdiff(n)。
[0188] 如实施例4中那样,将在方框(105)中确定的直接声音信号Pdir(k,n)与在方框(103)中确定的空间基函数的响应 组合,诸如每时间和频率地相乘115a,从而导致用于时间‑频率瓦片(k,n)的阶数(级)l和状态m的直接声音高保真度立体声响复制分量而且,将在方框(105)中确定的漫射声音信号Pdiff(k,n)与在方框(106)中确定的空间基函数的平均响应 组合,诸如每时间和频率地相乘115b,从而导致用于时间‑频率瓦片(k,n)的阶数(级)l和状态m的漫射声音高保真度立体声响复制分量
[0189] 如实施例3中那样,所计算的直接声音高保真度立体声响复制分量 和漫射声音高保真度立体声响复制分量 被组合,例如经由求和操作(109),以获得用于时间‑频率瓦片(k,n)的期望阶数(级)l和状态m的最终高保真度立体声响复制分量结果的高保真度立体声响复制分量 最终可以使用逆滤波器组或逆STFT被变换回时域、存储、发送或用于例如空间声音再现。在实践中,将针对所有期望阶数和状态计算高保真度立体声响复制分量,以获得期望最大阶数(级)的期望高保真度立体声响复制信号。如实施例3中所解释的,可以在计算 之前(即,在操作(109)之前)执行回到时域的变换。
[0190] 要注意的是,这个实施例中的算法可以被配置为使得针对不同的状态(阶数)l计算直接声音高保真度立体声响复制分量 和漫射声音高保真度立体声响复制分量例如,可以计算上至阶数l=4的 但是可以计算仅上至阶数l=1的(在这种情况下, 对于大于l=1的阶数将为零)。如果期望例如针对特
定的阶数(级)l或状态m仅计算 而不计算 那么例如方框(110)可以被
配置为使得漫射声音信号Pdiff(k,n)变成等于零。例如,这可以通过将之前等式中的滤波器Wdiff(k,n)设置为0并且将滤波器Wdir(k,n)设置为1来实现。类似地,滤波器 可以被设置为零。
[0191] 实施例6
[0192] 图7示出本发明的另一个实施例,其允许从多个(两个或更多个)麦克风的信号合成期望阶数(级)l和状态m的高保真度立体声响复制分量。该实施例类似于实施例5,但附加地包含用于漫射高保真度立体声响复制分量的解相关器。
[0193] 如实施例5中那样,到本发明的输入是多个(两个或更多个)麦克风的信号。麦克风可以以任意几何形状布置,例如布置为重合设置、线性阵列、平面阵列或三维阵列。而且,每个麦克风可以具有全向或任意定向方向性。不同麦克风的方向性可以不同。
[0194] 如实施例5中那样,使用例如滤波器组或者短时傅立叶变换(STFT)在方框(101)中将多个麦克风信号变换到时间‑频率域中。时间‑频率变换(101)的输出是时间‑频率域中的麦克风信号,其由P1...M(k,n)表示。以下处理针对时间‑频率瓦片(k,n)分别地执行。
[0195] 如实施例5中那样,使用两个或更多个麦克风信号P1...M(k,n)在方框(102)中每时间和频率地执行声音方向估计。在实施例1中讨论了对应的估计器。声音方向估计器(102)的输出是每个时间实例n和频率索引k的声音方向。声音方向可以例如依据单位范数向量n(k,n)或者依据方位角 和/或仰角θ(k,n)来表示,它们如实施例1中解释的那样相关。
[0196] 如实施例5中那样,使用估计的声音方向信息在方框(103)中每时间和频率地确定期望阶数(级)l和状态m的空间基函数的响应。空间基函数的响应由 表示。例如,可以将具有N3D归一化的实数值球面谐波视为空间基函数,并且可以如实施例1中解释的那样确定
[0197] 如实施例5中那样,从方框(106)获得与时间索引n无关的期望阶数(级)l和状态m的空间基函数的平均响应。此平均响应由 表示,并且描述了用于从所有可能方向到达的声音(诸如漫射声音或环境声音)的空间基函数的响应。平均响应 可以如实施例3中所描述的那样获得。
[0198] 如实施例5中那样,在方框(110)中从两个或更多个可用的麦克风信号P1...M(k,n)中每时间索引n和频率索引k地确定直接声音信号Pdir(k,n)和漫射声音信号Pdiff(k,n)。为此,方框(110)通常利用在方框(102)中确定的声音方向信息。在实施例5中解释了方框(110)的不同示例。
[0199] 如实施例5中那样,将在方框(105)中确定的直接声音信号Pdir(k,n)与在方框(103)中确定的空间基函数的响应 组合,诸如每时间和频率地相乘115a,从而导致用于时间‑频率瓦片(k,n)的阶数(级)l和状态m的直接声音高保真度立体声响复制分量而且,将在方框(105)中确定的漫射声音信号Pdiff(k,n)与在方框(106)中确定的空间基函数的平均响应 组合,诸如每时间和频率地相乘115b,从而导致用于时间‑频率瓦片(k,n)的阶数(级)l和状态m的漫射声音高保真度立体声响复制分量
[0200] 如实施例4中那样,使用解相关器在方框(107)中将计算出的漫射声音高保真度立体声响复制分量 解相关,从而导致解相关的漫射声音高保真度立体声响复制分量,由 表示。在实施例4中讨论了解相关背后的推理和方法。如实施例4中那样,可以在应用解相关器(107)之前使用例如逆滤波器组或逆STFT将漫射声音高保真度立体声响复制分量 变换回时域。
[0201] 如实施例4中那样,直接声音高保真度立体声响复制分量 和解相关的漫射声音高保真度立体声响复制分量 被组合,例如经由求和操作(109),以获得用于时间‑频率瓦片(k,n)的期望阶数(级)l和状态m的最终高保真度立体声响复制分量结果的高保真度立体声响复制分量 最终可以使用逆滤波器组或逆STFT被变换回时域、存储、发送或用于例如空间声音再现。在实践中,将针对所有期望阶数和状态计算高保真度立体声响复制分量,以获得期望最大阶数(级)的期望高保真度立体声响复制信号。如实施例4中所解释的,可以在计算 之前(即,在操作(109)之前)执行回到时域的变换。
[0202] 如实施例4中那样,可以配置这个实施例中的算法,使得针对不同的状态(阶数)l计算直接声音高保真度立体声响复制分量 和漫射声音高保真度立体声响复制分量 例如,可以计算上至阶数l=4的 但是可以计算仅上至阶数l=1的
[0203] 实施例7
[0204] 图8示出本发明的另一个实施例,其允许从多个(两个或更多个)麦克风的信号合成期望阶数(级)l和状态m的高保真度立体声响复制分量。该实施例类似于实施例1,但是附加地包含方框(111),其对空间基函数的计算出的响应 应用平滑操作。
[0205] 如实施例1中那样,到本发明的输入是多个(两个或更多个)麦克风的信号。麦克风可以以任意几何形状布置,例如布置为重合设置、线性阵列、平面阵列或三维阵列。而且,每个麦克风可以具有全向或任意定向方向性。不同麦克风的方向性可以不同。
[0206] 如实施例1中那样,使用例如滤波器组或者短时傅立叶变换(STFT)在方框(101)中将多个麦克风信号变换到时间‑频率域中。时间‑频率变换(101)的输出是时间‑频率域中的麦克风信号,其由P1...M(k,n)表示。以下处理针对时间‑频率瓦片(k,n)分别地执行。
[0207] 如实施例1中那样,在不失一般性的情况下,第一麦克风信号被称为参考麦克风信号,即,Pref(k,n)=P1(k,n)。
[0208] 如实施例1中那样,使用两个或更多个麦克风信号P1...M(k,n)在方框(102)中每时间和频率地执行声音方向估计。在实施例1中讨论了对应的估计器。声音方向估计器(102)的输出是每个时间实例n和频率索引k的声音方向。声音方向可以例如依据单位范数向量n(k,n)或者依据方位角 和/或仰角θ(k,n)来表示,它们如实施例1中解释的那样相关。
[0209] 如实施例1中那样,使用估计的声音方向信息在方框(103)中每时间和频率地确定期望阶数(级)l和状态m的空间基函数的响应。空间基函数的响应由 表示。例如,可以将具有N3D归一化的实数值球面谐波视为空间基函数,并且可以如实施例1中解释的那样确定
[0210] 与实施例1形成对照,响应 波用作到方框(111)的输入,该方框(111)对应用平滑操作。方框(111)的输出是平滑的响应函数,表示为 平滑操作的目的是减少 的值的非期望估计方差,例如如果在方框(102)中估计的声音方向和/或θ(k,n)是嘈杂的,那么在实践中可能发生非期望估计方差。可以例如跨时间和/或频率执行应用于 的平滑。例如,可以使用众所周知的递归平均滤波器来实现时间平滑
[0211]
[0212] 其中 是在先前时间帧中计算出的响应函数。而且,α是0到1之间的实数值数,它控制时间平滑的强度。对于接近0的α的值,执行强时间平均,而对于接近1的α的值,执行短时间平均。在实际应用中,α的值取决于应用,并且可以被设置为常数,例如α=0.5。可替代地,也可以在方框(111)中执行频谱平滑,这意味着跨多个频带对响应求平均。例如在所谓的ERB频带内的这种频谱平滑被描述在例如[ERBsmooth]中。
[0213] 在这个实施例中,参考麦克风信号Pref(k,n)最终与在方框(111)中确定的空间基函数的平滑的响应 组合,诸如每时间和频率地相乘115,从而导致用于时间‑频率瓦片(k,n)的阶数(级)l和状态m的期望高保真度立体声响复制分量 结果的高保真度立体声响复制分量 最终可以使用逆滤波器组或逆STFT被变换回时域、存储、发送或用于例如空间声音再现。在实践中,将针对所有期望阶数和状态计算高保真度立体声响复制分量,以获得期望最大阶数(级)的期望高保真度立体声响复制信号。
[0214] 显然,方框(111)中的增益平滑也可以应用在本发明的所有其它实施例中。
[0215] 实施例8
[0216] 本发明还可以应用于所谓的多波情况,其中每个时间‑频率瓦片考虑多于一个声音方向。例如,图3b中所示的实施例2可以在多波情况中实现。在这种情况下,方框(102)估计每个时间和频率的J个声音方向,其中J是大于1的整数值,例如,J=2。为了估计多个声音方向,可以使用现有技术的估计器,例如ESPRIT或Root  MUSIC,这些在[ESPRIT,RootMUSIC1]中有描述。在这种情况下,方框102的输出是多个声音方向,例如依据多个方位角 和/或仰角θ1...J(k,n)来指示。
[0217] 然后多个声音方向在方框(103)中被用于计算多个响应 对于每个估计的声音方向一个响应,例如在实施例1中讨论的。而且,在方框(102)中计算的多个声音方向在方框(104)中被用于计算多个参考信号Pref,1...J(k,n),对于多个声音方向中的每一个声音方向一个参考信号。多个参考信号中的每一个可以例如通过对多个麦克风信号应用多声道滤波器w1...J(n)来计算,类似于实施例2中所解释的。例如,可以通过应用现有技术的多声道滤波器w1(n)来获得第一参考信号Pref,1(k,n),其中w1(n)将提取来自方向 和/或θ1(k,n)的声音,同时衰减来自所有其它声音方向的声音。这种滤波器可以被计算为例如在[InformedSF]中解释的获知的LCMV滤波器。然后,多个参考信号Pref,1...J(k,n)与对应的多个响应 相乘,以获得多个高保真度立体声响复制分量 例如,分别与第j个声音方向和参考信号对应的第j个高保真度立体声响复制分量被计算为
[0218]
[0219] 最后,J个高保真度立体声响复制分量被求和,以获得用于时间‑频率瓦片(k,n)的期望阶数(级)l和状态m的最终期望高保真度立体声响复制分量 即,
[0220]
[0221] 显然,其它上面提到的实施例也可以被扩展到多波情况。例如,在实施例5和实施例6中,可以使用与这个实施例中提到的相同的多声道滤波器来计算多个直接声音Pdir,1...J(k,n),对于多个声音方向中的每个声音方向一个直接声音。然后,多个直接声音与对应的多个响应 相乘,从而导致多个直接声音高保真度立体声响复制分量其可以被求和,以获得最终期望直接声音高保真度立体声响复制分量
[0222] 要注意的是,本发明不仅可以应用于二维(柱形)或三维(球形)高保真度立体声响复制技术,而且还可以应用于依赖空间基函数来计算任何声场分量的任何其它技术。
[0223] 作为列表的本发明的实施例
[0224] 1、将多个麦克风信号变换到时间频率域。
[0225] 2、从多个麦克风信号中每时间和频率地计算一个或多个声音方向。
[0226] 3、根据一个或多个声音方向为每个时间和频率计算一个或多个响应函数。
[0227] 4、对于每个时间和频率,获得一个或多个参考麦克风信号。
[0228] 5、对于每个时间和频率,将一个或多个参考麦克风信号与一个或多个响应函数相乘,以获得期望阶数和状态的一个或多个高保真度立体声响复制分量。
[0229] 6、如果对于期望阶数和状态获得了多个高保真度立体声响复制分量,那么将对应的高保真度立体声响复制分量求和,以获得最终期望高保真度立体声响复制分量。
[0230] 4、在一些实施例中,在步骤4中从多个麦克风信号计算一个或多个直接声音和漫射声音而不是一个或多个参考麦克风信号。
[0231] 5、将一个或多个直接声音和漫射声音与一个或多个对应的直接声音响应和漫射声音响应相乘,以针对期望阶数和状态获得一个或多个直接声音高保真度立体声响复制分量和漫射声音高保真度立体声响复制分量。
[0232] 6、对于不同的阶数和状态,可以额外地解相关漫射声音高保真度立体声响复制分量。
[0233] 7、将直接声音高保真度立体声响复制分量和漫射声音高保真度立体声响复制分量求和,以获得期望阶数和状态的最终期望高保真度立体声响复制分量。
[0234] 参考文献
[0235] [Ambisonics]R.K.Furness,“Ambisonics‑An overview”,in AES 8th International Conference,1990年4月,第181‑189页。
[0236] [Ambix]C.Nachbar,F.Zotter,E.Deleflie,和A.Sontacchi,″AMBIX‑A Suggested Ambisonics Format″,Proceedings ofthe Ambisonics Symposium 2011年。
[0237] [ArrayDesign]M.Williams和G.Le Du,“Multichannel Microphone Array Design,”in Audio Engineering Society Convention 108,2008年。
[0238] [CovRender]J.Vilkamo和V.Pulkki,″Minimization of Decorrelator Artifacts in Directional Audio Coding by Covariance Domain Rendering″,J.Audio Eng.Soc,第61卷,第9期,2013年。
[0239] [DiffuseBF]O.Thiergart和E.A.P.Habets,″Extracting Reverberant Sound Using a Linearly Constrained Minimum Variance Spatial Filter,″IEEE Signal Processing Letters,第21卷,第5期,2014年5月。
[0240] [DirAC]V.Pulkki,″Directional audio  coding in spatial  sound reproduction and stereo  upmixing,″in Proceedings  of  The  AES  28th International Conference,第251‑258页,2006年6月。
[0241] [EigenMike]J.Meyer和T.Agnello,“Spherical microphone array for spatial sound recording,”in Audio Engineering Society Convention,2003年10月。
[0242] [ERBsmooth]A.Favrot和C.Faller,″Perceptually Motivated Gain Filter Smoothing for Noise Suppression″,Audio Engineering Society Convention 123,2007年。
[0243] [ESPRIT]R.Roy,A.Paulraj,和T.Kailath,“Direction‑of‑arrival estimation by subspace rotation methods‑ESPRIT,”in IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),Stanford,CA,USA,1986年4月。
[0244] [FourierAcoust]E.G.Williams,″Fourier Acoustics:Sound Radiation and Nearfield Acoustical Holography,″Academic Press,1999年。
[0245] [HARPEX]S.Berge和N.Barrett,″High Angular Resolution Planewave Expansion,″in 2nd International Symposium on Ambisonics and Spherical Acoustics,2010年5月。
[0246] [InformedSF]O.Thiergart,M.Taseska,和E.A.P.Habets,″An Informed Parametric Spatial Filter Based on Instantaneous Direction‑of‑Arrival Estimates,″IEEE/ACM Transactions on Audio,Speech,and Language Processing,第22卷,第12期,2014年12月。
[0247] [MicSetup3D]H.Lee和C.Gribben,“On the optimum microphone array configuration fbr height channels,”in 134 AES Convention,Rome,2013年。
[0248] [MUSIC]R.Schmidt,“Multiple emitter location and signal parnmeter estimation,”IEEE Transactions on Antennas and Propagation,第34卷,第3期,第276‑280页,1986年。
[0249] [OptArrayPr]B.D.Van Veen和K.M.Buckley,″Beamforming:A versatile approach to spatial filtering″,IEEE ASSP Magazine,第5卷,第2期,1988年2月。
[0250] [RootMUSIC1]B.Raoand和K.Hari,“Performance analysis of root‑MUSIC”,Signals,Systems and Computers,1988年。第二十二届Asilomar会议上,第2卷,1988年,第578‑582页。
[0251] [RootMUSIC2]A.Mhamdi和A.Samet,“Direction of arrival estimation for nonuniform linear antenna,”in  Communications,Computing and Control Applications(CCCA),2011 International Conference on,2011年3月,第1‑5页。
[0252] [RootMUSIC3]M.Zoltowski and C.P.Mathews,“Direction finding with uniform circular arrays via phase mode excitation and beamspace root‑MUSIC,”in Acoustics,Speech,and Signal Processing,1992年.ICASSP‑92.,1992 IEEE International Conference on,第5卷,1992年,第245‑248页。
[0253] [SDRestim]O.Thiergart,G.Del Galdo,和E A.P.Habets,″On the spatial coherence in mixed sound fields and its application to signal‑to‑diffuse ratio estimation″,The Journal of the Acoustical Society of America,第132卷,第4期,2012年。
[0254] [SourceNum]J.‑S.Jiang和M.‑A.Ingram,“Robust detection of number of sources using the transformed rotational matrix,”in Wireless Communications and Networking Conference,2004年。WCNC.2004IEEE,第1卷,2004年3月。
[0255] [SpCoherence]D.P.Jarrett,O.Thiergart,E.A.P.Habets,和P.A.Naylor,“Coherence‑Based Diffuseness Estimation in the Spherical Harmonic Domain,”IEEE 27th Convention of Electrical and Electronics Engineers in Israel(IEEEI),2012年。
[0256] [SphHarm]F.Zotter,″Analysis和Synthesis of Sound‑Radiation with Spherical Arrays″,PhD thesis,University of Music and Performing Arts Graz,2009年。
[0257] [VirtualMic]O.Thiergart,G.Del Galdo,M.Taseska,和E.A.P.Habets,″Geometry‑based Spatial Sound Acquisition Using Distributed Microphone Arrays,″IEEE Transactions on in Audio,Speech,and Language Processing,第21卷,第12期,De
[0258] 虽然已经在装置的上下文中描述了一些方面,但清楚的是,这些方面也表示对应方法的描述,其中方框或设备与方法步骤或方法步骤的特征对应。类似地,在方法步骤的上下文中描述的方面也表示对应装置的对应方框或项或特征的描述。
[0259] 本发明信号可以存储在数字存储介质上,或者可以在传输介质(诸如无线传输介质或有线传输介质(诸如因特网))上被发送。
[0260] 取决于某些实现要求,本发明的实施例可以用硬件或软件来实现。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器)来执行该实现,电子可读控制信号与可编程计算机系统协作(或能够协作),使得执行相应的方法。
[0261] 根据本发明的一些实施例包括具有电子可读控制信号的非瞬态数据载体,电子可读控制信号能够与可编程计算机系统协作,使得执行本文描述的方法之一。
[0262] 一般而言,本发明的实施例可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作,用于执行方法之一。程序代码可以例如存储在机器可读载体上。
[0263] 其它实施例包括存储在机器可读载体上的用于执行本文描述的方法之一的计算机程序。
[0264] 换句话说,本发明方法的实施例因此是具有程序代码的计算机程序,当计算机程序在计算机上运行时,程序代码用于执行本文描述的方法之一。
[0265] 因此,本发明方法的另一个实施例是数据载体(或数字存储介质或计算机可读介质),其包括记录在其上的用于执行本文所述的方法之一的计算机程序。
[0266] 因此,本发明方法的另一个实施例是表示用于执行本文描述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如经由因特网)被传送。
[0267] 另一个实施例包括处理工具,例如计算机或可编程逻辑设备,其被配置为或适于执行本文描述的方法之一。
[0268] 另一个实施例包括具有安装在其上的于执行本文描述的方法之一的计算机程序的计算机。
[0269] 在一些实施例中,可以使用可编程逻辑设备(例如现场可编程门阵列)来执行本文描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以执行本文描述的方法之一。一般而言,这些方法优选地由任何硬件装置执行。
[0270] 上述实施例仅仅用于说明本发明的原理。应当理解的是,本文描述的布置和细节的修改和变化对于本领域的其他技术人员将是显而易见的。因此,其目的在于仅由即将到来的专利权利要求的范围而不是由通过本文实施例的描述和解释给出的具体细节来限制。