音频装置及其方法转让专利

申请号 : CN201480028302.8

文献号 : CN105247894B

文献日 : 2017-11-07

一种音频装置包括接收器（605），其用于接收音频数据和用于多个音频换能器（603）的音频换能器位置数据。渲染器（607）通过从音频数据产生用于所述多个音频换能器（603）的音频换能器驱动信号来渲染音频数据。此外，聚类器（609）响应于音频换能器位置数据和根据距离度量的音频换能器之间的距离而将所述音频换能器聚类成一组集群。渲染控制器（611）响应于所述聚类而适配所述渲染。所述装置可例如选择用于特定子集的阵列处理技术，该特定子集包括充分地接近的音频换能器。该方法可允许对音频换能器配置的自动适配，从而例如允许用户有对扬声器进行定位方面的增加的灵活性。

1.一种音频装置，包括：

接收器（605），其用于接收音频数据和用于多个音频换能器（603）的音频换能器位置数据；

渲染器（607），其用于通过从所述音频数据产生用于所述多个音频换能器（603）的音频换能器驱动信号来渲染所述音频数据；

聚类器（609），其用于响应于根据空间距离度量的所述多个音频换能器的音频换能器之间的距离而将所述多个音频换能器聚类成一组音频换能器集群，所述距离是根据所述音频换能器位置数据而确定的，并且所述聚类包括响应于音频换能器到先前迭代的集群的迭代包括而产生该组音频换能器集群，其中，第一音频换能器响应于第一音频换能器满足相对于第一集群的一个或多个音频换能器的距离准则而被包括在该组音频换能器集群的第一集群中；以及渲染控制器（611），其被布置成响应于所述聚类而适配所述渲染。

2.权利要求1的装置，其中，所述渲染器（607）能够根据多个渲染模式来渲染音频数据；

以及所述渲染控制器（611）被布置成针对不同的共存音频换能器集群从所述多个渲染模式中独立地选择渲染模式。

3.权利要求2的装置，其中，所述渲染器（607）能够执行阵列处理渲染；以及所述渲染控制器（611）被布置成响应于满足准则的该组音频换能器集群中的第一集群的属性而选择用于所述第一集群的阵列处理渲染。

4.权利要求1的装置，其中，所述渲染器（607）被布置成执行阵列处理渲染；以及所述渲染控制器（611）被布置成响应于该组音频换能器集群中的第一集群的属性而针对所述第一集群适配所述阵列处理渲染。

5.权利要求3或4的音频装置，其中，所述属性是以下各项中的至少一个：根据所述空间距离度量的为最近邻的所述第一集群的音频换能器之间的最大距离；根据所述空间距离度量的所述第一集群的音频换能器之间的最大距离；以及所述第一集群中的音频换能器的数目。

6.权利要求1的音频装置，其中，所述聚类器（609）被布置成针对该组音频换能器集群中的第一集群生成属性指示；并且所述渲染控制器（611）被布置成响应于该属性指示而适配用于第一集群的渲染。

7.权利要求6的音频装置，其中，所述属性指示指示选自以下各项的组的至少一个属性：根据所述空间距离度量的为最近邻的所述第一集群的音频换能器之间的最大距离；以及所述第一集群的任何两个音频换能器之间的最大距离。

8.权利要求6的音频装置，其中，所述属性指示指示选自以下各项的组的至少一个属性：所述第一集群的一个或多个音频换能器的频率响应；

所述第一集群中的音频换能器的数目；

所述第一集群相对于渲染环境的参考位置和几何属性中的至少一个的取向；以及所述第一集群的空间尺寸。

9.权利要求1的音频装置，其中，所述聚类器（609）被布置成根据在集群中根据空间距离度量为最近邻的两个音频换能器不具有超过阈值的距离的要求来生成该组音频换能器集群。

10.权利要求1的音频装置，其中，所述聚类器（609）还被布置成接收指示所述多个音频换能器中的至少某些音频换能器的声学渲染特性的渲染数据，并响应于所述渲染数据而将所述多个音频换能器聚类成该组音频换能器集群。

11.权利要求1的音频装置，其中，所述聚类器（609）还被布置成接收指示能够由所述渲染器（607）执行的渲染算法的特性的渲染算法数据，并响应于所述渲染算法数据而将所述多个音频换能器聚类成该组音频换能器集群。

12.权利要求1的音频装置，其中，所述空间距离度量是角距离度量，所述角距离度量反映相对于参考位置或方向的音频换能器之间的角度差。

13.一种音频处理的方法，该方法包括：

接收音频数据和用于多个音频换能器（603）的音频换能器位置数据；

通过从所述音频数据生成用于所述多个音频换能器（603）的音频换能器驱动信号来渲染所述音频数据；

响应于根据空间距离度量的所述多个音频换能器的音频换能器之间的距离而将所述多个音频换能器聚类成一组音频换能器集群，所述距离是根据所述音频换能器位置数据而确定的，并且所述聚类包括响应于音频换能器到先前迭代的集群的迭代包括而产生该组音频换能器集群，其中，第一音频换能器响应于第一音频换能器满足相对于第一集群的一个或多个音频换能器的距离准则而被包括在该组音频换能器集群的第一集群中；以及响应于所述聚类而适配所述渲染。

音频装置及其方法

技术领域

[0001] 本发明涉及音频装置及其方法，并且特别地但并非排他地涉及渲染对未知音频换能器配置的适配。

背景技术

[0002] 在最近几十年中，音频应用的多样性和灵活性随着例如显著变化的音频渲染应用的多样性而极大地增加。除了那之外，音频渲染设置用在种种声环境中且用于很多不同的应用。

[0003] 在传统上，总是针对一个或多个规定的扬声器配置来开发空间声再现系统。作为结果，空间体验取决于所使用的实际扬声器配置多么接近地匹配所定义的标称配置，并且一般只针对实质上正确地，即根据规定的扬声器配置被建立的系统，来实现高质量空间体验。

[0004] 然而使用具有一般相对高数量的扬声器的特定扬声器配置的要求是麻烦的和不利的。实际上，由消费者在部署例如家庭影院环绕声系统时感觉到的明显的不方便是对将要位于特定位置处的相对大数量的扬声器的需要。一般，实际环绕声扬声器设置将由于用户发现将扬声器定位在最佳位置处是不实际的，例如由于在起居室中的可用扬声器位置上的限制而从理想设置偏离。相应地，由这样的设置提供的体验且特别是空间体验是次优的。

[0005] 近年来，因此已经存在朝向消费者需求针对其扬声器的位置的不那么严格的要求的强烈倾向。甚至，他们的主要要求是扬声器设置适合于他们的家庭环境，同时其当然期待系统仍提供高质量的声音体验且特别是准确的空间体验。这些冲突的要求随着扬声器数目的增加而变得更加突出。此外，由于朝向用从多个方向到收听者的声音来提供全三维声再现的当前趋势，问题已变得更加相关。

[0006] 已经开发了音频编码格式以提供越来越有能力、多样化且灵活的音频服务，并且特别地，已经开发了支持空间音频服务的音频编码格式。

[0007] 类似于MPEG、DTS以及杜比数码之类的众所周知的音频编码技术产生已编码多通道音频信号，其将空间图像表现为围绕着在固定位置处的收听者的许多通道。针对与对应于多通道信号的设置不同的扬声器设置，空间图像将是次优的。并且，基于通道的音频编码系统通常不能应对不同数目的扬声器。

[0008] （ISO/IEC）MPEG-2提供了多通道音频编码工具，其中，比特流格式包括音频信号的2通道和5多通道两者混频。当用（ISO/IEC）MPEG-1解码器对比特流进行解码时，再现2通道后向兼容混音。当用MPEG-2解码器对比特流进行解码时，三个辅助数据通道被解码，其在被与立体声通道组合（解矩阵）时导致音频信号的5通道混音。

[0009] （ISO/IEC MPEG-D）MPEG环绕声提供多通道音频编码工具，其允许将现有基于单声道或立体声的编码器扩展至多通道音频应用。图1图示出MPEG环绕声系统的元件的示例。使用通过原始多通道输入的分析而获得的空间参数，MPEG环绕声解码器可以通过单声道或立体声信号的受控上混以获得多通道输出信号而重建空间图像。

[0010] 因为多通道输入信号的空间图像被参数化，MPEG环绕声允许通过不使用多通道扬声器设置的渲染设备而允许同一多通道比特流的解码。示例是头戴式耳机上的虚拟环绕声再现，其被称为MPEG环绕声双耳声解码过程。在此模式下，可以在使用正常头戴式耳机的同时提供逼真的环绕声体验。另一示例是较高阶多通道输出（例如7.1通道）到较低阶设置（例如5.1通道）的削减。

[0011] 如所提到的，随着越来越多的再现格式变得对主流消费者可用，在用于渲染空间声音的渲染配置中的变化和灵活性在近年来明显增大了。这要求音频的灵活表现。与引入MPEG环绕声编码解码器一起采取重要的步骤。尽管如此，仍然对特定的扬声器设置例如ITU 5.1扬声器设置产生并传输音频。没有规定在不同设置上和在非标准（即灵活的或用户定义的）扬声器设置上的再现。实际上，期望使音频编码和变现越来越地独立于特定的预定和标称扬声器设置。越来越优选地，对各种各样不同的扬声器设置的灵活适配可在解码器/渲染侧处被执行。

[0012] 为了提供音频的更灵活的表现，MPEG标准化了称为“空间音频对象编码”（ISO/IEC MPEG-D SAOC）的格式。与多通道音频编码系统（例如DTS、杜比数码和MPEG环绕声）相反，SAOC提供对个体音频对象而不是音频通道的有效编码。虽然在MPEG环绕声中，每个扬声器通道可被考虑为起源于声对象的不同混合，SAOC允许在如图2所示的多通道混合中的个体声对象的位置的交互式操纵。

[0013] 类似于MPEG环绕声，SAOC也创建单声道或立体声下混。此外，对象参数被计算并包括。在解码器侧，用户可操纵这些参数以控制个体对象的各种特征（例如位置、级别、均衡），或甚至应用效果例如混响。图3图示使用户能够控制包含在SAOC比特流中的个体对象的交互式接口。借助于渲染矩阵，个体的声对象被映射到扬声器通道。

[0014] SAOC允许更灵活的方法，且特别是通过除了仅仅再现通道之外传输音频对象而允许更多基于渲染的可适配性。这允许解码器侧将音频对象放置在空间中的任意位置处，假定空间被扬声器充分覆盖。这样，在所传输的音频和再现或渲染设置之间没有关系，因此可使用任意扬声器设置。这对于例如在典型起居室中的家庭影院设置（其中扬声器几乎从不在意图位置处）是有利的。在SAOC中，在解码器处决定对象被放置在声场景中的哪里（例如借助于如图3所示的接口），这可能不是从艺术观点通常所期望的。SAOC标准提供了在比特流中传输默认渲染矩阵的方式，消除了解码器责任。然而，所提供的方法依赖于固定再现设置或未规定的语法。因此，SAOC不提供标准手段来独立于扬声器设置完全传输音频场景。而且，SAOC未很好地被配备到扩散信号成分的忠实渲染。虽然存在包括所谓的多通道背景对象（MBO）以捕获扩散声音的可能性，这个目的被约束到一个特定的扬声器配置。

[0015] 3D音频的音频格式的另一规范由DTS有限公司（数字影院系统）开发。DTS有限公司TM开发了多维音频（MDA ）——一种基于开放对象的音频创建和创作平台，以加速下一代内容创建。MDA平台支持通道和音频对象两者，并适配于任何扬声器数量和配置。MDA格式允许遗留多通道下混连同个体声对象一起的传输。此外，对象定位数据被包括。生成MDA音频流的原理在图4中图示。

[0016] 在MDA方法中，声对象单独地在扩展流中被接收到，且这些可从多通道下混被提取。因而产生的多通道下混连同单独可得到的对象一起被渲染。

[0017] 对象可由所谓的符尾组成。这些符尾基本上是被分组（下混的）的轨或对象。因此，对象可由被封装进符尾内的多个子对象组成。在MDA中，多通道基准混合可与一系列音频对象一起被传输。MDA传输每个对象的3D位置数据。可然后使用3D位置数据提取对象。替代地，可传输描述在对象和基准混合之间的关系的逆混合矩阵。

[0018] 从MDA描述中，可能通过将角度和距离分配到每个对象来传输声场景信息，指示对象应相对于例如默认的正向方向放置在哪里。因此，为每个对象传输位置信息。这对点源是有用的，但不能描述宽源（像例如合唱队或喝彩）或扩散声场（例如背景）。当所有点源从基准混合被提取时，背景多通道混合保留。类似于SAOC，在MDA中的残余物固定到特定的扬声器设置。

[0019] 因此，SAOC和MDA方法都合并可个体地在解码器侧被操纵的个体音频对象的传输。在这两种方法之间的差异是，SAOC通过提供相对于下混表征对象的参数（即，使得在解码器侧处从下混产生音频对象）来提供关于音频对象的信息，而MDA提供音频对象作为完全和单独的音频对象（即可在解码器侧处与下混独立地产生）。对于这两种方法，可为音频对象传递位置数据。

[0020] 目前，在ISO/IEC MPEG内，准备标准MPEG-H 3D Audio以便于3D Audio的传输和渲染。MPEG-H 3D Audio旨在连同HEVC视频编码和MMT（MPEG媒体传输）系统层一起成为MPEG-H套件的部分。图5图示意图的MPEG 3D Audio系统的当前高级别方框图。

[0021] 除了传统的基于通道的格式以外，该方法旨在也支持基于对象和基于场景的格式。系统的重要方面是，它的质量应针对增加的比特率的透明度而按比例调整，即随着数据速率增加，由编码和解码引起的降级应继续减小，直到它是微不足道的为止。然而，这样的要求对在过去相当大量地使用的参数编码技术（即MPEG-4 HE-AAC v2、MPEG环绕声、MPEG-D SAOC和MPEG-D USAC）往往是成问题的。特别是，个体信号的信息损失的补偿往往不被参数数据安全补偿，甚至在非常高的比特率下也是如此。实际上，质量将被参数模型的内在质量限制。

[0022] MPEG-H 3D Audio此外试图提供因而产生的独立于再现设置的比特流。所设想的再现可能性包括多达22.2个通道的灵活的扬声器设置以及在头戴式耳机和紧密地间隔开的扬声器之上的虚拟环绕声。

[0023] 总之，大部分现有的声再现系统在扬声器设置方面只允许适度量的灵活性。因为几乎每个现有的系统都根据关于扬声器（例如或多或少等距地围绕收听者定位的扬声器，或布置在收听者的前方的一条线上的扬声器，或头戴式耳机）的一般配置，或关于内容的属性（例如由少量单独可定位源组成或由高度扩散声场景组成）的某个基本假设来开发，每个系统只能够传送用针对可出现在渲染环境中（例如在用户的家里）的有限范围的扬声器配置的最佳体验。允许灵活的扬声器设置的新的一类声音渲染系统因此是期望的。

[0024] 因此，当前采取各种活动以便开发更加灵活的音频系统。特别地，采取用以开发被已知为ISO/IEC MPEG-H 3D音频标准的音频标准的音频标准化活动，目的是提供单个高效的格式，其针对头戴式耳机和灵活的扬声器设置的向消费者提供沉浸式音频体验。

[0025] 该活动确认了大多数消费者不能和/或不愿意（例如由于房间的物理限制）遵守常规标准的标准化扬声器设置要求。替代地，其将其扬声器放置在其家庭环境中的其能够适合它们的任何地方，这一般地导致次优的声音体验。给定这只不过是日常现实的事实，MPEG-H 3D Audio的倡议目的在于在给定消费者的优选扬声器设置的情况下为消费者提供最佳体验。因此，不是假设扬声器处于任何特定位置处并因此要求用户使扬声器设置适配于音频标准的要求，而是该倡议设法开发一种适配于用户已经建立的任何特定扬声器配置的音频系统。

[0026] MPEG-H 3D Audio征集提案的参考渲染器是矢量基幅值平移（VBAP）的使用。这是一种良好地确立的技术，其通过在成对扬声器（或包括处于不同高度处的扬声器的设置中的三元组）之间应用源/通道的重新平移来修正与标准化扬声器配置（例如5.1、7.1或22.2）的偏差。

[0027] VBAP由于其在许多情况下提供合理的解决方案而一般地被视为用于修正非标准扬声器放置的参考技术。然而，还已变得清楚的是存在对该技术可以有效地处理的扬声器位置的偏差的限制。例如，由于VBAP依赖于幅值平移，所以其在具有扬声器之间、尤其是前扬声器与后扬声器之间的大间隙的使用情况中并未给出非常令人满意的结果。并且，其完全不能处理具有环绕声内容以及仅仅前扬声器的使用情况。其中VBAP给出次优结果的另一特定使用情况是当可用扬声器的子集在小的区域内聚集，诸如围绕着TV聚集（或者可能甚至集成在其中）时。相应地，改善的渲染和适配方法将是期望的。

[0028] 因此，改善的音频渲染方法将是有利的，特别是允许增大的灵活性、便利的实施方式和/或操作、允许扬声器的更灵活定位、改善对不同扬声器配置的适配性和/或改善的性能的方法将是有利的。

发明内容

[0029] 相应地，本发明设法优选地单个地或以任何组合方式缓解、减轻或消除上面提到的缺点中的一个或多个。

[0030] 根据本发明的一方面，提供了一种音频装置，包括：接收器，其用于接收音频数据和多个音频换能器的音频换能器位置数据；渲染器，其用于通过从音频数据生成用于所述多个音频换能器的音频换能器驱动信号来渲染音频数据；聚类器，其用于响应于根据空间距离度量的所述多个音频换能器的音频换能器之间的距离而将所述多个音频换能器聚类成一组音频换能器集群，该距离是根据音频换能器位置数据而确定的，并且聚类包括响应于音频换能器到先前迭代的集群的迭代包括而产生该组音频换能器集群，其中，第一音频换能器响应于第一音频换能器满足相对于第一集群的一个或多个音频换能器的距离准则而被包括在该组音频换能器集群的第一集群中；以及渲染控制器，其被布置成响应于所述聚类而适配渲染。

[0031] 本发明可在许多情形中提供改善的渲染。在许多实际应用中，可实现基本上改善的用户体验。该方法允许增加被用于渲染音频的音频换能器（具体地扬声器）的定位方面的灵活性和自由度。在许多应用和实施例中，该方法可允许该渲染适配于特定音频换能器配置。事实上，在许多实施例中，该方法可允许用户简单地将扬声器定位于期望位置处（可能与总体方针相关联，例如以尝试围绕收听场所），并且该系统可自动地适配于特定配置。

[0032] 该方法可提供高度的灵活性。事实上，聚类方法可提供对特定配置的特别（ad-hoc）适配。例如，该方法不需要例如每个集群中的音频换能器的尺寸的预定判定。事实上，在典型的实施例和情形中，每个集群中的音频换能器的数目在聚类之前将是未知的。并且，每个集群中的音频换能器的数目通常对于（至少某些）不同的集群而言将是不同的。

[0033] 某些集群可包括仅仅单个音频换能器（例如如果该单个音频换能器距离所有其它音频换能器太远而使距离不能满足用于聚类的给定要求）。

[0034] 该聚类可设法将具有空间相干性的音频换能器聚类成相同集群。给定集群中的音频换能器可具有给定空间关系，诸如最大距离或最大近邻距离。

[0035] 渲染控制器可适配渲染。该适配可以是用于一个或多个集群的渲染算法/模式的选择和/或可以是渲染算法/模式的参数的适配/配置/修改。

[0036] 渲染的适配可以响应于聚类的结果，诸如音频换能器到集群的分配、集群的数目、集群中的音频换能器的参数（例如，所有音频换能器之间或最近邻音频换能器之间的最大距离）。

[0037] 可根据空间距离度量来确定音频换能器之间的距离（事实上，在某些实施例中，包括例如最近邻的确定等所有距离）。

[0038] 空间距离度量在许多实施例中可以是欧几里德或角距离。

[0039] 在某些实施例中，空间距离度量可以是三维空间距离度量，诸如三维欧几里德距离。

[0040] 在某些实施例中，空间距离度量可以是二维空间距离度量，诸如二维欧几里德距离。例如，空间距离度量可以是被投射到平面上的矢量的欧几里德距离。例如，可将两个扬声器的位置之间的矢量投射到水平平面上，并且可将该距离确定为投射矢量的欧几里德长度。

[0041] 在某些实施例中，空间距离度量可以是一维空间距离度量，诸如角距离（例如对应于两个音频换能器的极坐标表示的角度值方面的差）。

[0042] 音频换能器信号可以是用于音频换能器的驱动信号。音频换能器信号在被馈送到音频换能器之前可被进一步处理，例如通过滤波或放大。等价地，音频换能器可以是有源换能器，包括用于对所提供驱动信号进行放大和/或滤波的功能。可针对所述多个音频换能器中的每个音频换能器生成音频换能器信号。

[0043] 该音频换能器位置数据可提供用于该组音频换能器中的每个音频换能器的位置指示，或者可仅仅针对其子集提供位置指示。

[0044] 音频数据可包括一个或多个音频成分，诸如音频通道、音频对象等。

[0045] 渲染器可被布置成针对每个音频成分生成用于音频换能器的换能器信号成分，并且通过将所述多个音频成分的音频换能器信号成分组合而生成用于每个音频换能器的音频换能器信号。

[0046] 该方法非常适合于具有相对大数目的音频换能器的音频换能器。事实上，在某些实施例中，所述多个音频换能器包括不少于10个或者甚至15个音频换能器。

[0047] 在某些实施例中，渲染器可能能够根据多个渲染模式来渲染音频数据；所述渲染控制器可被布置成响应于聚类而从所述多个渲染模式中选择至少一个渲染模式。

[0048] 音频数据和音频换能器位置数据在某些实施例中可在同一数据流中且可能从同一源被一起接收。在其它实施例中，数据可以是独立的，并且实际上可以是例如以不同的格式且从不同的源接收到的完全分离的数据。例如，音频数据可被作为已编码音频数据流从远程源接收，并且音频换能器位置数据可被从本地手动用户输入接收。因此，接收器可包括用于接收音频数据和音频换能器位置数据的单独（子）接收器。事实上，可在不同的物理设备中实施用于接收音频数据和音频换能器位置数据的（子）接收器。

[0049] 音频换能器驱动信号可以是允许音频换能器渲染音频换能器驱动信号所表示的音频的任何信号。例如，在某些实施例中，音频换能器驱动信号可以是被直接地馈送到无源音频换能器的模拟功率信号。在其它实施例中，音频换能器驱动信号可以是例如可被有源扬声器放大的低功率模拟信号。在再其它实施例中，音频换能器驱动信号可以是数字化信号，其可例如被音频换能器转换成模拟信号。在某些实施例中，音频换能器驱动信号可以是例如已编码音频信号，其可例如被经由网络或例如无线通信链路传送到音频换能器。在此类示例中，音频换能器可包括解码功能。

[0050] 根据本发明的可选特征，渲染器能够根据多个渲染模式来渲染音频成分；以及渲染控制器被布置成针对不同的音频换能器集群从所述多个渲染模式中独立地选择渲染模式。

[0051] 这在许多实施例中可提供渲染的改善且高效的适配。特别地，其可允许有利的渲染算法被动态地且特别地分配给能够支持这些渲染算法的音频换能器子集，同时允许对不能支持这些渲染算法的子集应用其它算法。

[0052] 渲染控制器可被配置成在不同渲染模式是用于集群的可能选择的意义上针对不同的集群独立地选择渲染模式。具体地，可针对第一集群选择一个渲染模式，同时针对不同的集群选择不同的渲染模式。

[0053] 用于一个集群的渲染模式的选择可考虑与属于集群的音频换能器相关联的特性，但是例如在某些情形中还可考虑与其它集群相关联的特性。

[0054] 根据本发明的可选特征，渲染器能够执行阵列处理渲染；以及渲染控制器被布置成响应于满足准则的第一集群的属性而选择用于该组音频换能器集群中的第一集群的阵列处理渲染。

[0055] 这在许多实施例中可提供改善的性能和/或可允许改善的用户体验和/或增加的自由度和灵活性。特别地，该方法可允许对特定渲染情形的改善的适配性。

[0056] 阵列处理可允许特别高效的渲染，并且特别地可允许用期望的空间感知特性来渲染音频方面的高度灵活性。然而，阵列处理通常要求阵列的音频换能器紧密地接近。

[0057] 在阵列处理中，通过将音频信号馈送到多个音频换能器来渲染该音频信号，相位和幅值在音频换能器之前被调节以提供期望的辐射图。相位和幅值通常是频率相关的。

[0058] 阵列处理可具体地包括波束成型、波场合成以及偶极处理（其可被视为一种形式的波束成型）。不同的阵列过程可具有对阵列的音频换能器的不同的要求，并且在某些实施例中可以通过在不同的阵列处理技术之间进行选择来实现改善的性能。

[0059] 根据本发明的可选特征，渲染器被布置成执行阵列处理渲染；以及渲染器控制器被布置成响应于第一集群的属性而针对该组音频换能器集群中的第一集群适配阵列处理渲染。

[0060] 这在许多实施例中可提供改善的性能和/或可允许改善的用户体验和/或增加的自由度和灵活性。特别地，该方法可允许对特定渲染情形的改善的适配性。

[0061] 阵列处理可允许有特别高效的渲染，并且特别地可允许用期望的空间感知空间特性来渲染音频方面的高度灵活性。然而，阵列处理通常要求阵列的音频换能器紧密地接近。

[0062] 根据本发明的可选特征，所述属性是以下各项中的至少一个：根据空间距离度量在作为最近邻的第一集群的音频换能器之间的最大距离；根据空间距离度量在第一集群的音频换能器之间的最大距离；以及第一集群中的音频换能器的数目。

[0063] 这可提供渲染和具体地阵列处理的特别有利的适配。

[0064] 根据本发明的可选特征，聚类器被布置成针对该组音频换能器集群中的第一集群生成属性指示；并且渲染控制器被布置成响应于该属性指示而适配用于第一集群的渲染。

[0065] 这在许多实施例中可提供改善的性能和/或可允许改善的用户体验和/或增加的灵活性。特别地，该方法可允许针对特定渲染情形的改善的适配性。

[0066] 渲染的适配可以是例如通过响应于属性来选择渲染模式。作为另一示例，该适配可以是通过适配渲染算法的参数。

[0067] 根据本发明的可选特征，属性指示可指示选自以下各项的组的至少一个属性：根据空间距离度量的为最近邻的第一集群的音频换能器之间的最大距离；以及第一集群的任何两个音频换能器之间的最大距离。

[0068] 这些参数在许多实施例和情形中可提供特别有利的适配性和性能。特别地，其常常可提供用于阵列处理的适合性和/或优选参数的非常强的指示。

[0069] 根据本发明的可选特征，属性指示可指示选自以下各项的组的至少一个属性：第一集群的一个或多个音频换能器的频率响应；用于渲染器的渲染模式的频率范围限制；第一集群中的音频换能器的数目；第一集群相对于渲染环境的参考位置和几何属性中的至少一个的取向；以及第一集群的空间尺寸。

[0070] 这些参数在许多实施例和情形中可提供特别有利的适配性和性能。

[0071] 聚类器被布置成响应于音频换能器到先前迭代的集群的迭代包括而产生该组音频换能器集群，其中，第一音频换能器响应于第一音频换能器满足相对于第一集群的一个或多个音频换能器的距离准则而被包括在该组音频换能器集群的第一集群中。

[0072] 这在许多实施例中可提供特别有利的聚类。特别地，其可允许“自下而上”聚类，其中逐渐地产生越来越大的集群。在许多实施例中，针对相对低的计算资源使用率而实现有利的聚类。

[0073] 可用一组集群对该过程进行初始化，而每个集群包括一个音频换能器，或者例如可用一组几个音频换能器（例如满足给定要求）的初始集群对该过程进行初始化。

[0074] 在某些实施例中，距离准则包括选自以下各项的组的至少一个要求：第一音频换能器是最接近于第一集群的任何音频换能器的音频换能器；第一音频换能器属于包括以下音频换能器的音频换能器集群，该音频换能器是最接近于第一集群的任何音频换能器的音频换能器；第一集群的音频换能器与第一音频换能器之间的距离低于包括不同集群的音频换能器的音频换能器对之间的任何其它距离；以及第一集群的音频换能器与第一音频换能器所属的集群的音频换能器之间的距离低于包括不同集群的音频换能器的音频换能器对之间的任何其它距离。

[0075] 在某些实施例中，集群可被布置成响应于后面是集群的迭代划分的集群初始生成而生成所述一组音频换能器集群；集群的每次划分是响应于集群的两个音频换能器之间的距离超过阈值。

[0076] 这在许多实施例中可提供特别有利的聚类。特别地，其可允许“自上而下”聚类，其中，从较大的集群逐渐地产生越来越小的集群。在许多实施例中，针对相对低的计算资源使用率而实现有利的聚类。

[0077] 可用包括包含所有集群的单个集群的一组集群对该过程进行初始化，例如，其可以用一组包括大量音频换能器（例如满足给定要求）的初始集群来进行初始化。

[0078] 根据本发明的可选特征，聚类器被布置成根据在集群中根据空间距离度量为最近邻的两个音频换能器不具有超过阈值的距离的要求来生成该组音频换能器集群。

[0079] 这在许多实施例中可提供特别有利的性能和操作。例如，其可生成可被假设为适合于例如阵列处理的集群。

[0080] 在某些实施例中，聚类器可被布置成根据集群中没有两个扬声器具有超过阈值的距离的要求来生成该组音频换能器集群。

[0081] 根据本发明的可选特征，聚类器还被布置成接收指示所述多个音频换能器中的至少某些音频换能器的声学渲染特性的渲染数据，并响应于该渲染数据而将所述多个音频换能器聚类成该组音频换能器集群。

[0082] 这可提供在许多实施例和情形中可允许渲染的改善适配的聚类。声学渲染特性可例如包括用于一个或多个音频换能器的频率范围指示，诸如频率带宽或中心频率。

[0083] 特别地，在某些实施例中，聚类可取决于音频换能器的例如由主辐射方向所表示的辐射图。

[0084] 根据本发明的可选特征，聚类器还被布置成接收指示可以由渲染器执行的渲染算法的特性的渲染算法数据，并响应于该渲染算法数据而将所述多个音频换能器聚类成该组音频换能器集群。

[0085] 这可提供在许多实施例和情形中可允许渲染的改善适配的聚类。渲染算法数据可例如包括指示哪些渲染算法/模式可以被渲染器支持、对于这些而言存在什么限制等的指示。

[0086] 根据本发明的可选特征，空间距离度量是角距离度量，其反映相对于参考位置或方向的音频换能器之间的角度差。

[0087] 这在许多实施例中可提供改善的性能。特别地，其可提供与用于例如阵列处理的集群的适合性的改善的对应性。

[0088] 根据本发明的一方面，提供了一种音频处理的方法，该方法包括：接收音频数据和用于多个音频换能器的音频换能器位置数据；通过从音频数据生成用于所述多个音频换能器的音频换能器驱动信号来渲染音频数据；响应于音频换能器位置数据和根据空间距离度量的所述多个音频换能器的音频换能器之间的距离而将所述多个音频换能器聚类成一组音频换能器集群，该距离是根据音频换能器位置数据而确定的，并且聚类包括响应于音频换能器到先前迭代的集群的迭代包括而产生该组音频换能器集群，其中，第一音频换能器响应于第一音频换能器满足相对于第一集群的一个或多个音频换能器的距离准则而被包括在该组音频换能器集群的第一集群中；以及响应于聚类而适配渲染。

[0089] 根据并且参考下面描述的（多个）实施例，本发明的这些及其它方面、特征和优点将变得显而易见并得到阐述。

附图说明

[0090] 将参考附图仅以示例的方式来描述本发明的实施例，在所述附图中：

[0091] 图1图示出根据现有技术的MPEG环绕声系统的原理的示例；

[0092] 图2图示出根据现有技术的SAOC系统的元件的示例；

[0093] 图3图示出使得用户能够控制包含在SAOC比特流中的GETI 对象的交互式界面；

[0094] 图4图示出根据现有技术的DTS MDATM的音频编码的原理的示例；

[0095] 图5图示出根据现有技术的MPEG-H 3D Audio系统的元件的示例；

[0096] 图6图示出根据本发明的某些实施例的音频装置的示例；

[0097] 图7图示出根据本发明的某些实施例的扬声器配置的示例；

[0098] 图8图示出用于图7的扬声器配置的聚类的示例；

[0099] 图9图示出根据本发明的某些实施例的扬声器配置的示例；以及

[0100] 图10图示出用于图7的扬声器配置的聚类的示例。

具体实施方式

[0101] 以下描述聚焦于本发明的实施例，其适用于被布置成渲染可以为不同类型的多个音频成分的渲染系统且特别适用于MPEG-H 3D音频流中的音频通道、音频对象和音频场景对象的渲染。然而，将认识到的是本发明不限于此应用，而是可应用于许多其它音频渲染系统以及其它音频流。

[0102] 所述渲染系统是适配性渲染系统，其能够使其操作适配于所使用的特定音频换能器渲染，并且具体地适配于在渲染中使用的音频换能器的特定位置。

[0103] 大多数现有声音渲染系统仅仅允许扬声器设置中的非常适度的量的灵活性。由于常规系统一般地是用关于扬声器的一般配置（例如，扬声器或多或少地等距地围绕着收听者定位或者布置成在收听者前面的一直线上等）和/或关于音频内容的性质（例如，其由少数的单独可局部化源组成或者由高度扩散声场景组成等）的基本假设而开发的，现有系统通常只能针对有限范围的扬声器配置提供最佳体验。这在许多现实使用情况中导致用户体验且特别是空间体验的显著降低和/或严重地降低了用于用户对扬声器进行定位的自由度和灵活性。

[0104] 在下面描述的渲染系统提供了一种适配性渲染系统，其能够针对大范围的多样化扬声器设置而提供高质量且通常优化的体验。其因此提供在许多应用中寻求的自由度和灵活性，诸如对于家庭渲染应用而言。

[0105] 渲染系统是基于聚类算法的使用，其执行扬声器到一组集群的聚类。该集群是基于使用适当的空间距离度量而确定的扬声器之间的距离，所述适当空间距离度量诸如相对于参考点的欧几里德距离或角度差/距离。该聚类方法可应用于任何扬声器设置和配置，并且可提供反映给定配置的特定特性的适配性和动态的集群生成。该聚类可具体地识别呈现出空间相干性的扬声器并将其聚集在一起。个体集群内的此空间相干性因此可被基于空间相干性的利用的渲染算法使用。例如，可以在所识别个体集群内应用基于阵列处理的渲染，诸如波束成型渲染。因此，该聚类可允许可以用来使用波束成型过程渲染音频的扬声器集群的识别。

[0106] 相应地，在本渲染系统中，根据聚类来适配渲染。根据聚类的结果，渲染系统可选择渲染的一个或多个参数。事实上，在许多实施例中，可针对每个集群自由地选择渲染算法。因此，被用于给定扬声器的算法将取决于聚类，并且具体地将取决于扬声器所属的集群。渲染系统可例如将具有超过给定数目扬声器的每个集群视为单个扬声器阵列，而通过诸如波束成型过程之类的阵列过程从该集群渲染音频。

[0107] 在某些实施例中，该渲染方法是基于聚类过程，聚类过程可具体地从扬声器的总集中识别一个或多个子集，其可具有允许应用特定渲染算法的空间相干性。具体地，聚类可提供可以被有效地应用阵列处理技术的灵活扬声器设置中的扬声器子集的灵活且特别的生成。子集的识别是基于相邻扬声器之间的空间距离。

[0108] 在某些实施例中，可用与子集的渲染性能有关的一个或多个指示符来表征扬声器集群或子集，并且可相应地设定渲染的一个或多个参数。

[0109] 例如，针对给定集群，可生成子集的可能阵列性能的指示符。此类指示符可包括例如子集内的扬声器之间的最大间距、子集的总空间范围（尺寸）、在其内部可有效地对子集应用阵列处理的频率带宽、子集相对于某个参考位置的位置、方向或取向以及针对一个或多个类型的阵列处理指定该处理是否可有效地对子集应用的指示符。

[0110] 虽然在不同实施例中可使用许多不同的渲染方法，该方法在许多实施例中被具体地布置成识别并生成特别适合于阵列处理的采取任何给定（随机）配置的扬声器的子集。以下描述将聚焦于其中一个或多个可能渲染方法使用阵列处理的实施例，但是将认识到的是在其它实施例中可不采用阵列处理。

[0111] 使用阵列处理，可以控制由多扬声器设置再现的声场的空间属性。存在不同类型的阵列处理，但是一般地，该处理涉及到向多个扬声器发送公共输出信号，可能以频率相关方式对每个扬声器信号施加单独的增益和相位修改。

[0112] 阵列处理可被设计成：

[0113] 限制声音被辐射到的空间区域（波束成型）；

[0114] 导致与某些期望源位置处的虚拟声源的空间声场相同的空间声场（波场合成和类似技术）；

[0115] 防止朝向特定方向的声音辐射（偶极处理）；

[0116] 渲染声音，使得其并不将清楚地方向关联传送给收听者；

[0117] 渲染声音，使得其针对收听空间中的特定位置产生期望的空间体验（使用串音消除和HRTF的扬声器可听化）。

[0118] 将认识到的是这些仅仅是某些特定示例，并且可替换地或另外使用任何其它音频阵列处理。

[0119] 不同阵列处理技术具有对扬声器阵列的不同要求，例如在扬声器之间的最大可允许间距或阵列中的扬声器的最小数目方面。这些要求也取决于应用和使用情况。它们可与频率带宽有关，在该频率带宽内要求阵列处理是有效地，并且它们可在感知上被刺激。例如，波场合成处理在达到25cm的扬声器间距的情况下可以是有效的，并且通常要求相对长的阵列以具有实际的益处。另一方面，波束成型处理通常仅在较小扬声器间距（例如，小于10cm）的情况下有用，但是对相对短的阵列仍可以是有效的，而偶极处理仅要求相对紧密间隔的两个扬声器。

[0120] 因此，扬声器总集的不同子集可适合于不同类型的阵列处理。挑战是识别这些不同的子集并对其进行表征，使得可对其应用适当的阵列处理技术。在所述渲染系统中，在没有要求的特定扬声器配置的先验知识或假设的情况下动态地确定子集。该确定是基于根据扬声器的空间关系来产生扬声器的子集的聚类方法。

[0121] 渲染系统相应地可使操作适配于特定扬声器配置，并且可具体地优化阵列处理技术的使用以提供改善的渲染且特别是提供改善的空间渲染。事实上，通常，阵列处理在被用于适当的扬声器阵列时与例如在某些渲染系统中使用的VBAP方法相比提供显著改善的空间体验。渲染系统可以自动地识别可以支持适当阵列处理的适当扬声器子集，从而允许有改善的总体音频渲染。

[0122] 图6图示出根据本发明的某些实施例的渲染系统/音频装置601的示例。

[0123] 音频处理装置601具体地是音频渲染器，其针对一组音频换能器产生驱动信号，该组音频换能器在本特定示例中是扬声器603。因此，音频处理装置601产生音频换能器驱动信号，其在本特定示例中是用于一组扬声器603的驱动信号。图6具体地图示出六个扬声器的示例，但是将认识到的是这仅仅举例说明特定示例，并且可使用任何数目的扬声器。事实上，在许多实施例中，扬声器的总数可不少于10个或者甚至15个扬声器。

[0124] 音频处理装置601包括接收器605，其接收包括要从扬声器603呈现的多个音频成分的音频数据。该音频成分通常被渲染以向用户提供空间体验，并且例如可包括音频信号、音频通道、音频对象和/或音频场景对象。在某些实施例中，音频数据可表示仅单个单声道音频信号。在其它实施例中，可例如用音频数据来表示不同类型的多个音频成分。

[0125] 音频处理装置601还包括渲染器607，其被布置成通过从音频数据产生音频换能器驱动信号（在下文中简称为驱动信号）、即用于扬声器603的驱动信号来渲染音频数据（的至少一部分）。因此，当驱动信号被馈送到扬声器603时，其产生音频数据所表示的音频。

[0126] 渲染器可具体地从接收的音频数据中的许多音频成分中的每一个产生用于扬声器603的驱动信号成分，并且然后将用于不同音频成分的驱动信号成分组合成单个音频换能器信号，即被馈送到扬声器603的最终驱动信号。为了简洁和清楚起见，图6和随后的描述将不讨论可以应用于驱动信号或当生成驱动信号时的标准信号处理操作。然而，将认识到的是系统可包括例如滤波和放大功能。

[0127] 接收器605在某些实施例中可接收已编码音频数据，其包括用于一个或多个音频成分的已编码音频数据，并且接收器605可被布置成将音频数据解码，并向渲染器607提供已解码音频流。具体地，可为每个音频成分提供一个音频流。替换地，一个音频流可以是多个声音对象的下混（例如针对SAOC比特流）。

[0128] 在某些实施例中，接收器605还可被布置成针对音频成分向渲染器607提供位置数据，并且渲染器607可因此对音频成分进行定位。在某些实施例中，可从例如用户输入、通过单独算法来提供位置数据，或者由渲染系统/音频装置601本身产生位置数据。一般地，将认识到的是可以任何适当方式且以任何适当格式产生和提供位置数据。

[0129] 与常规系统相反，图6的音频处理装置601不仅仅基于扬声器603的预定或假设位置来产生驱动信号。相反地，该系统使渲染适配于扬声器的特定配置。该适配是基于扬声器603到一组音频换能器集群的聚类。

[0130] 相应地，渲染系统包括聚类器609，其被布置成将所述多个音频换能器聚类成一组音频换能器集群。因此，由聚类器609产生对应于扬声器603的子集的多个集群。结果得到的集群中的一个或多个可包括仅单个扬声器，或者可包括多个扬声器603。一个或多个集群的扬声器的数目并不是预定的，而是取决于扬声器603之间的空间关系。

[0131] 聚类是基于被从接收器605提供给聚类器609的音频换能器位置数据。聚类是基于扬声器603之间的空间距离，其中根据空间距离度量来确定空间距离。空间距离度量可以例如是二维或三维欧几里德距离，或者可以是相对于适当参考点（例如，收听位置）的角距离。

[0132] 将认识到的是音频换能器位置数据可以是提供扬声器603中的一个或多个的位置的指示的任何数据，包括绝对或相对位置（包括例如相对于扬声器603的其它位置、相对于收听位置或环境中的单独局部化设备或其它设备的位置而言的位置）。还将认识到的是可以任何适当方式来提供或产生音频换能器位置数据。例如，在某些实施例中，可由用户手动地输入音频换能器位置数据，例如作为相对于参考位置（诸如收听位置）的实际位置或者作为扬声器之间的距离和角度。在其它示例中，音频处理装置601本身可包括用于基于测量结果来估计扬声器603的位置的功能。例如，可为扬声器603提供麦克风，并且这可被用来估计位置。例如每个扬声器603转而可渲染测试信号，并且可确定麦克风信号中的测试信号成分之间的时间差并用来估计到渲染测试信号的扬声器603的距离。从针对多个（且通常是全部）扬声器603的测试获得的全套距离然后可以被用来估计用于扬声器603的相对位置。

[0133] 聚类将设法将具有空间相干性的扬声器聚类成集群。因此，产生扬声器集群，其中，每个集群内的扬声器满足相对于彼此的一个或多个距离要求。例如，每个集群可包括一组扬声器，其中每个扬声器具有在预定阈值以下的到集群的至少一个其它扬声器的距离（根据距离度量）。在某些实施例中，集群的产生可服从集群中的任何两个扬声器之间的最大距离（根据距离对郎）小于阈值的要求。

[0134] 集群609被布置成基于用于集群扬声器的距离度量、位置数据和相对距离要求来执行聚类。因此，聚类器609不假设或要求任何特定扬声器位置或配置。相反地，可基于位置数据将任何扬声器配置聚类。如果给定扬声器配置确实包括利用适当空间相干性定位的一组扬声器，则聚类将产生包括该组扬声器的集群。同时，并未充分地接近于任何其它扬声器以呈现期望空间相干性的扬声器将结果是仅包括该扬声器本身的集群中。

[0135] 聚类因此可提供对任何扬声器配置的非常灵活的适配。事实上，针对任何给定扬声器配置，聚类可例如识别适合于阵列处理的扬声器603的任何子集。

[0136] 聚类器609被耦合到适配器/渲染控制器611，其被进一步耦合到渲染器609。渲染控制器611被布置成响应于聚类而由渲染器607来适配渲染。

[0137] 聚类器609因此为渲染控制器611提供描述聚类结果的数据。该数据可具体地包括哪些扬声器603属于哪些集群、即结果得到的集群及其组成的指示。应注意的是在许多实施例中，扬声器可属于超过一个集群。除哪些扬声器在每个集群中的信息之外，聚类器609还可生成附加信息，例如集群中的扬声器之间的平均或最大距离（例如，集群中的每个扬声器与该集群的最近其它扬声器之间的平均或最大距离）的指示。

[0138] 渲染控制器611从聚类器609接收信息，并且作为响应，其被布置成控制渲染器607，从而使渲染适配于特定聚类。该适配可以是例如渲染模式/算法的选择和/或渲染模式/算法的配置，例如通过渲染模式/算法的一个或多个参数的设定。

[0139] 例如，渲染控制器611可针对给定集群选择适合于该集群的渲染算法。例如，如果集群包括仅单个扬声器，则某些音频成分的渲染可以是用VBAP算法，其例如使用属于不同集群的另一扬声器。然而，如果集群替代地包括足够数目的扬声器，则可替代地使用诸如波束成型或波场合成之类的阵列处理来执行音频成分的渲染。因此，该方法允许进行其中可以应用阵列处理技术来改善空间感知的扬声器的自动检测和聚类，同时在这不可行时允许使用其它渲染模式。

[0140] 在某些实施例中，可根据另外特性来设定渲染模式的参数。例如，实际阵列处理可被适配为以反映被用于阵列处理渲染的给定集群中的扬声器的特定位置

[0141] 作为另一示例，渲染模式/算法可以是预先选择的，并且可根据聚类来设定用于渲染的参数。例如，波束成型算法可被适配为以反映包括在给定集群中的扬声器的数目。

[0142] 因此，在某些实施例中，渲染控制器611被布置成根据聚类而在许多不同算法之间进行选择，并且其具体地能够针对不同的集群选择不同的渲染算法。

[0143] 特别地，渲染器607可以可操作用于根据具有不同特性的多个渲染模式来渲染音频成分。例如，某些渲染模式将采用提供给出非常具体且高度局部化的音频感知的渲染的算法，而其它渲染模式采用提供扩散且散布开的位置感知的渲染算法。因此，渲染和感知空间体验可以根据使用哪个渲染算法而非常显著地不同。并且，不同渲染算法可对被用来渲染音频的扬声器603具有不同的要求。例如，诸如波束成型或波场合成之类的阵列处理要求紧密地定位于一起的多个扬声器，而VBAP技术可以被用于分开更远地定位的扬声器。

[0144] 在特定实施例中，渲染控制器611被布置成控制渲染器607所使用的渲染模式。因此，渲染控制器611控制哪些特定渲染算法被渲染器607使用。渲染控制器611基于聚类来选择渲染模式，并且因此音频处理装置601所采用的渲染算法将取决于扬声器603的位置。

[0145] 渲染控制器611不仅仅针对作为整体的系统调整渲染特性或在渲染模式之间切换。相反地，图6的音频处理装置601被布置成针对个体的扬声器集群选择渲染模式和算法。该选择通常取决于集群中的扬声器603的特定特性。因此，可对某些扬声器603使用一个渲染模式，而同时对其它扬声器603（在不同集群中）使用另一渲染模式。因此在此类实施例中由图6的系统渲染的音频是针对扬声器603的不同子集的不同空间渲染模式的应用的组合，其中根据聚类来选择空间渲染模式。

[0146] 渲染控制器611可具体地针对每个集群独立地选择渲染模式。

[0147] 用于不同集群的不同渲染算法的使用在许多情形中可提供改善的性能，并且可允许对特定渲染设置的改善的适配，同时在许多情形中提供改善的空间体验。

[0148] 在某些实施例中，渲染控制器611可被布置成针对不同的音频成分选择不同的渲染算法。例如，可根据音频成分的期望位置或类型来选择不同的算法。例如，如果意图从两个集群之间的位置渲染在空间上很好地定义的音频成分，则渲染控制器611可例如选择使用来自不同集群的扬声器的VBAP渲染算法。然而，如果渲染更加扩散的音频成分，则可在一个集群内使用波束成型以便以在收听位置的方向上具有槽口的波束来渲染音频成分，从而使任何直接声学路径衰减。

[0149] 该方法可被用于小数目的扬声器，但在许多实施例中对于使用较大数目的扬声器的系统而言是特别有利的。该方法可甚至针对具有例如总共四个扬声器的系统提供益处。然而，其还可支持具有大数目扬声器的配置，诸如具有不少于10或15个扬声器的系统。例如，该系统可允许其中简单地让用户将大数目扬声器定位于房间周围的使用情形。该系统然后可以执行聚类并将其用来自动地使渲染适配于从扬声器的用户定位得到的特定扬声器配置。

[0150] 在不同实施例中可使用不同的聚类算法。下面将描述适当聚类算法的某些特定示例。聚类是基于根据适当空间距离度量所测量的扬声器之间的空间距离。这具体地可以是欧几里德距离（通常是二维或三维距离）或角距离。该聚类设法将具有满足对集群的扬声器之间的距离的一组要求的空间关系的扬声器进行聚类。该要求通常可针对每个扬声器包括到集群的至少一个其它扬声器的距离小于阈值的要求（或由其组成）。

[0151] 一般地，存在用于将数据集聚类成子集的许多不同策略和算法。根据聚类的背景和目标，某些聚类策略和算法比其它的更适当。

[0152] 在其中使用阵列处理的所述系统中，聚类是基于设置中的扬声器之间的空间距离，因为阵列中的扬声器之间的空间距离是确定任何类型的阵列处理的效力时的主要参数。更具体地，聚类器609设法识别满足关于在集群内的扬声器之间发生的最大间距的某个要求的扬声器集群。

[0153] 通常，聚类包括其中该组集群被修改的许多次迭代。

[0154] 具体地，称为“分级聚类”（或者：“基于连接的聚类”）的聚类策略类别常常是有利的。在此类聚类方法中，本质上由连接集群内的元素所需的最大距离来定义集群。

[0155] 分级聚类的主要特性是当针对不同的最大距离执行聚类时，结果是集群的分级结构或树形结构，其中，较大的集群包括较小的子集群，子集群又包括甚至更小的子子集群。

[0156] 在该分级聚类类别内，可以区别用于执行聚类的两个不同方法：

[0157] 凝聚或“自下而上”聚类，其中，较小的集群可被合并成较大的一些，其例如可满足比个体的较小集群更宽松的最大距离准则，

[0158] 分裂或“自上而下”聚类，其中，较大的集群被分解成较小集群，较小集群可满足比较大集群更严格的最大距离要求。

[0159] 将认识到的是在不违背本发明的情况下可使用除本文所述的那些之外的其它聚类方法和算法。例如，在某些实施例中可使用“最近邻链”算法或“基于密度的聚类”方法。

[0160] 将描述使用迭代法的第一聚类方法，其中，聚类器609设法在每次迭代中增长集群中的一个或多个，即，将描述自下而上聚类方法。在本示例中，聚类是基于音频换能器到先前迭代的集群的迭代包括。在某些实施例中，在每次迭代中仅考虑一个集群。在其它实施例中，在每次迭代中可考虑多个集群。在该方法中，如果附加扬声器满足用于集群中的一个或多个扬声器的适当距离准则，则可在给定集群中包括该扬声器。具体地，如果到给定集群中的扬声器的距离在阈值以下，则可在给定集群中包括扬声器。在某些实施例中，该阈值可以是固定值，并且因此如果扬声器比起预定值更接近集群的扬声器，则包括该扬声器。在其它实施例中，阈值可以是可变的，并且例如是相对于到其它扬声器的距离。例如，如果扬声器在对应于最大可接受距离的固定阈值以下且在确保扬声器的确是最接近于集群的扬声器的阈值以下，则可包括该扬声器。

[0161] 在某些实施例中，聚类器609被布置成如果第二集群的扬声器已被找到适合于包括到第一集群中，则将第一和第二集群合并。

[0162] 为了描述示例性聚类方法，可考虑图7的示例性设置。该设置由16个扬声器组成，16个扬声器的空间位置被假设为是已知的，即其的音频换能器位置数据已被提供给聚类器
609。

[0163] 该聚类通过首先识别所有最近邻对开始，即针对每个扬声器，找到与之最接近的扬声器。在这时，应注意的是在不同实施例中可以以不同的方式定义“距离”，即可使用不同的空间距离度量。为了便于描述，将假设空间距离度量是“欧几里德距离”，即空间中的两个点之间的距离的最常见定义。

[0164] 现在找到的对是用于此设置的最低水平集群或子集，即其形成集群的分级树形结构中的最低分支。我们可在此第一步骤中施加附加要求，即如果一对扬声器的扬声器间距离（间距）在某个值Dmax以下，则仅将该对扬声器视为“集群”。可关于应用来选择此值。例如，如果目标是识别可被用于阵列处理的扬声器集群，则我们可排除其中两个扬声器分离超过例如50cm的各对，因为我们知道超过此类扬声器间距不可能有有用的阵列处理。使用50cm的此上限，我们找到在图8的表的第一列中列出的各对。针对每对还列出了相应间距δmax。

[0165] 在下一迭代中，针对在第一步骤中找到的每个集群找到最近邻，并且将此最近邻添加到集群。在这种情况下的最近邻被定义为在集群外面的具有到集群内的任何扬声器的最短距离的扬声器（这称为“最小“、”单联接”或“最近邻”聚类），该距离是根据距离度量确定的。

[0166] 因此，针对每个集群，我们找到在集群（我们可将其标记为A）外面的扬声器j，对于其而言：

[0167]

[0168] 扬声器j具有在A外面的所有扬声器的最小值，其中，d(i,j)是扬声器i和j的位置之间的所使用距离度量。

[0169] 因此，在本示例中，用于将第一扬声器包括在第一集群中的要求要求第一扬声器是最接近于第一集群的任何扬声器的扬声器。

[0170] 并且在此迭代中，我们可排除距离集群中的所有扬声器远于Dmax的最近邻，以防止将太远的扬声器添加到集群。因此，该包括可服从距离不超过给定阈值的要求。

[0171] 如上所述的方法导致每次增长单个元素（扬声器）的集群。

[0172] 根据可取决于应用的某些合并（或“联接”）规则，可允许集群的合并（或“联接”）发生。

[0173] 例如，在使用扬声器阵列处理的示例中，如果集群A的所识别最近邻已经是另一集群B的一部分，则将两个集群合并成单个是有意义的，因为这与在仅将最近邻添加到集群A的情况下相比导致较大的扬声器阵列和因此更有效的阵列处理（请注意，集群A和B之间的距离始终至少等于集群A和B两者内的最大间距，使得合并集群A和B并不比仅将最近邻添加到集群A将实现的更多地增加结果得到的集群中的最大间距。因此，在与在将仅添加最近邻的情况下相比导致已合并集群内的较大的最大间距的意义上，不会存在合并集群的不利影响）。

[0174] 因此，在某些实施例中，对将第一扬声器包括在第一集群中的要求要求第一扬声器属于包括作为到第一集群的任何扬声器的最近扬声器的扬声器的集群；

[0175] 请注意，可以进行对合并规则的改变，例如根据应用要求。

[0176] 此第二聚类迭代（用如上所述的合并规则）的结果得到的集群被连同其相应最大间距δmax一起列在图8的表格的第二列中。

[0177] 重复该迭代直至不能找到新的更高水平集群为止，然后聚类完成。

[0178] 图8的表格列出了针对图7的示例性设置所识别的所有集群。

[0179] 我们看到已经识别了全部的十个集群。在最高聚类水平，存在两个集群：一个由留个扬声器组成（1、2、3、4、15和16，用图7中的椭圆体701指示，在四个聚类步骤之后得到），并且一个由三个扬声器组成（8、9和10，用图7中的椭圆体703指示，在两个聚类迭代之后得到）。存在由两个扬声器组成的六个最低水平集群。请注意，在迭代3中，根据上述合并规则，将不具有共同的扬声器的两个集群（（1、2、16）和（3、4））合并。所有其它合并涉及到双扬声器集群，其中，一个扬声器属于另一集群，使得双扬声器集群中的仅另一扬声器被有效地添加到另一集群。

[0180] 针对每个集群，图8的表格还列出在集群内发生的最大扬声器间距δmax。在自上而下方法中，可以针对每个集群将δmax定义为用于来自先前聚类步骤的所有组成集群的δmax的值中的最大值以及其中在目前聚类步骤中发生合并的两个扬声器之间的距离。因此，针对每个集群，δmax的值始终等于或大于其子集群的δmax的值。换言之，在连续迭代中，集群从较小集群增长成具有单调递增的最大间距的较大集群。

[0181] 在上述自下而上实施例的替换版本中，在每个聚类迭代中，仅找到集合中的两个最近邻（集群和/或个体扬声器）并将其合并。因此，在第一迭代中，在所有个体扬声器仍在单独集群中的情况下，我们通过找到在其之间具有最小距离的两个扬声器开始，并将其链接在一起以形成双扬声器集群。然后，重复该流程，找到最近邻对（集群和/或个体扬声器）并将其链接，等。可执行此流程直至所有扬声器被合并到单个集群中为止，或者一旦最近邻距离超过例如50cm的某个极限，则其可终止。

[0182] 因此，在本示例中，用于将第一扬声器包括到第一集群中的要求要求第一集群的扬声器与第一扬声器之间的距离低于包括不同集群的扬声器的扬声器对之间的任何其它距离；或者第一集群的扬声器与第一扬声器所属的集群的扬声器之间的距离低于包括不同集群的扬声器的扬声器对之间的任何其它距离。

[0183] 针对图7的示例，该特定方法导致以下聚类步骤：

[0184] 1 + 16 → (1, 16) ; 3 + 4 → (3, 4) ; 8 + 9 → (8, 9) ; (8, 9) + 10 → (8, 9, 10) ; (1, 16) + 2 → (1, 2, 16) ; (1, 2, 16) + (3, 4) → (1, 2, 3, 4, 16) ; (1, 2, 3, 4, 16) + 15 → (1, 2, 3, 4, 15, 16)。

[0185] 相应地，我们看到在图8的表格中用粗体指示的由此流程得到的集群形成使用第一聚类示例找到的集群的子集。这是因为在第一示例中扬声器可以是不具有分级关系的多个集群的成员，而在第二示例中，集群成员资格是独有的。

[0186] 在某些实施例中，可不要求诸如从上述自下而上方法获得的完整聚类分级结构。替代地，识别满足关于最大间距的一个或多个特定要求的集群可以足够了。例如，我们可能想要识别具有给定阈值Dma（x 例如等于50cm）的最大间距的所有最高水平集群，例如因为这被视为对于其而言可以有效地应用特定渲染算法的最大间距。

[0187] 这可如下实现：

[0188] 从扬声器中的一个、例如扬声器1开始，找到具有到此扬声器1的小于最大允许值Dmax的距离的所有扬声器。

[0189] 使用在考虑中的任何渲染处理方法，具有较大距离的扬声器被认为与扬声器1间隔开太远而不能与之一起有效地使用。根据考虑哪个类型的例如阵列处理，可以将最大值设定成例如25或50cm。结果得到的扬声器集群是构造最大子集时的第一迭代，扬声器1是该最大子集的成员且该最大子集满足最大间距准则。

[0190] 然后，针对现在在扬声器1的集群中的扬声器（如果有的话）执行相同流程。现在找到的扬声器（除已经是集群的一部分的那些之外）被添加到集群。针对新添加的扬声器重复此步骤直至未找到附加扬声器为止。在这里，已经识别到最大集群，扬声器1属于该最大集群，并且该最大集群满足最大间距准则。

[0191] 在Dmax＝0.5m且从扬声器1开始，对图7的设置应用此流程再次地导致椭圆体702所指示的集群，其包含扬声器1、2、3、4、15和16。在此流程中，仅在两次迭代中构造此集群/子集；在第一轮之后，子集包含扬声器1、2、3和16，其全部与扬声器1分离小于Dmax。在第二迭代中，添加扬声器4和15，其分别地与扬声器2和3两者以及扬声器16分离小于Dmax。在下一迭代中，不再添加更多扬声器，因此聚类终止。

[0192] 在连续迭代中，以相同的方式识别并未与任何先前找到的子集重叠的其它集群。在每次迭代中，只需考虑尚未被识别为是任何先前识别子集的一部分的扬声器。

[0193] 在此流程结束时，已经识别了所有最大集群，其中，所有最近邻具有至多Dmax的扬声器间距离。

[0194] 对于图7的示例性设置而言，仅找到一个附加集群，其再次地用椭圆体703来指示，并且其包含扬声器8、9和10。

[0195] 为了找到满足关于最大间距Dmax的不同要求的所有集群，可以简单地再次用Dmax的此新值来执行上文概述的流程。注意，如果新Dmax小于先前的一个，则现在将找到的集群始终是用较大值的Dmax找到的集群的子集群。这意味着如果将对Dmax的多个值执行该流程，则从最大值开始并将该值单调地减小是高效的，因为然后只需对从先前的集群得到的集群应用每个接下来的评估即可。

[0196] 例如，如果将Dmax＝0.25 m而不是0.5 m的值用于图7的设置，则找到两个子集群。第一个是包含扬声器1减去扬声器15的原始集群，而第二个仍包含扬声器8、9和10。如果将Dmax进一步减小至0.15 m，则仅找到单个集群，包含扬声器1和16。

[0197] 在某些实施例中，可将聚类器609布置成响应于集群的初始产生、后面是集群的迭代划分而产生集群的集合；集群的每次划分是响应于集群的两个音频换能器之间的距离超过阈值。因此，在某些实施例中，可考虑自上而下集群。

[0198] 可以认为自上而下聚类经以与自下而上聚类相反的方式工作。其可通过将所有扬声器放入单个集群中且然后在递归迭代中将集群分离成较小集群而开始。可完成每次分离，使得两个结果得到的新集群之间的空间距离度量被最大化。要针对具有超过几个元素（扬声器）的多维配置实施，这可能是相当费劲的，如尤其是在该过程的初始阶段中，必须要评估的可能分离的数目可能是非常大的。因此，在某些实施例中，可与预先聚类步骤相组合地使用此类聚类方法。

[0199] 先前所述的聚类方法可用来产生初始聚类，其可以充当用于自上而下聚类流程的最高水平起始点。因此，不是以单个初始集群中的所有扬声器开始，我们可以首先使用低复杂性聚类流程来识别满足被认为有用的最宽松间距要求（例如50cm的最大间距）的最大集群，并且然后对这些集群执行自上而下聚类流程，在连续迭代中将每个集群分解成较小的一些直至达到最小可能（双扬声器）集群为止。这防止自上而下聚类中的第一步骤导致由于过大的最大间距而没有用的集群。如先前所讨论的，现在被避免的这些首先的自上而下聚类步骤也是计算需求最大的，因为需要评估许多聚类可能性，因此消除实际上执行它们的需要可显著地改善流程的效率。

[0200] 在自上而下流程的每次迭代中，在发生于集群内的最大间距的位置处将集群分离。其基本原理是此最大间距是确定最大频率的限制性因素，对于该最大频率而言可以对集群有效地应用阵列处理。以此最大间距将集群分离导致两个新集群，每个与父集群相比具有较小的最大间距和因此较高的最大有效频率。可以将集群进一步分离成具有单调递减最大间距的较小集群，直至留下由仅两个扬声器组成的集群为止。

[0201] 虽然在一维集合（线性阵列）的情况下找到在该处应将集群分离的位置是微不足道的，但对于2D或3D配置而言情况并非如此，因为存在用以将集群分离成两个子集群的许多可能方式。然而，原则上，可以考虑到两个子集群的所有可能分离，并且找到导致其之间的最大间距的那个。两个集群之间的此间距可被定义为任何一对扬声器之间的最小距离，其中一个扬声器是一个子集群的成员，并且另一扬声器是另一子集群的成员。

[0202] 相应地，针对到子集群A和B的每个可能分离，我们可以确定以下的值：

[0203]

[0204] 做出分离使得此值被最大化。

[0205] 作为示例，考虑椭圆体701所指示的图7中的设置的集群，其包含扬声器1、2、3、4、15和16。在由扬声器1、2、3、4和16组成的集群与由仅扬声器15组成的集群之间找到此集群中的最大间距（0.45m）。因此，第一分离导致扬声器15从集群去除。在新集群中，在由扬声器
1、2和16组成的集群与由扬声器3和4组成的集群之间找到最大间距（0.25m），因此集群被分离成这两个较小集群。可以针对其余的三扬声器集群完成最后分离，其中，在由扬声器1和
16组成的集群与由仅扬声器2组成的集群之间找到最大间距（0.22m）。因此，在最后分离中，扬声器2被去除，并且留下由扬声器1和16组成的最后集群。

[0206] 对在图7中用椭圆体703指示的集群应用相同流程导致由扬声器8和9组成的集群与由仅扬声器10组成的集群之间的分离。

[0207] 在本系统中，所有距离都是根据适当的距离度量确定的。

[0208] 在上述聚类示例中，距离度量是扬声器之间的欧几里德空间距离，其常常是定义空间中的两个点之间的距离的最常见方式。

[0209] 然而，还可使用用于空间距离的其它度量来执行聚类。根据个体应用的特定要求和偏好，距离度量的一个定义可能比另一个更适当。下面将描述不同使用情况和相应可能空间距离度量的几个示例。

[0210] 首先，可将两个点i和j之间的欧几里德距离定义为：

[0211]

[0212] 其中，in、jn分别地表示维度n上的点i和j的坐标，并且N是维数。

[0213] 该度量表示定义空间中的两个点之间的空间距离的最常见方式。使用欧几里德距离作为距离度量意味着我们在不考虑扬声器相对于彼此、其它扬声器或某些参考位置（例如优选收听位置）的取向来确定扬声器之间的距离。针对任意地分布在空间中的一组扬声器，这意味着我们正在以与任何特定的观察方向无关的方式确定集群及其特性两者（例如可用频率范围或适当处理类型）。相应地，这种情况下的特性反映阵列本身的某些属性，与其背景无关。这在某些应用中可以有用，但是在许多使用情况下其并非优选方法。

[0214] 在某些实施例中，可使用相对于收听位置的角度或“投影的”距离度量。

[0215] 扬声器阵列的性能极限本质上由阵列内的最大间距以及阵列的总空间范围（尺寸）确定。然而，由于阵列的表观或有效最大间距和尺寸取决于观察阵列所来自的方向，并且由于我们一般地主要对阵列相对于某个区域或方向的性能有兴趣，所以在许多使用情况下使用将此区域、方向或观察点考虑在内的距离度量是有意义的。

[0216] 具体地，在许多使用情况下，可以定义参考或优选收听位置。在这种情况下，我们想要确定适合于在此收听位置处实现某个声音体验的扬声器集群，并且集群的聚类和表征应因此与此收听位置相关。

[0217] 这样做的一个方式是根据每个扬声器相对于收听位置的角度φ来定义每个扬声器的位置，并且用其各自角度之间的绝对差来定义两个扬声器之间的距离：

[0218]

[0219] 或者替换地，根据点i和j的位置矢量之间的余弦：

[0220]

[0221] 这称为角或余弦相似性距离度量。如果使用此距离度量来执行聚类，则从收听位置（因此在彼此的前面或后面）看位于同一直线上的扬声器被认为是协同定位的。在子集中发生的最大间距现在易于确定，因为本质上其被减小至一维问题。

[0222] 如在欧几里德距离度量的情况下一样，可以使聚类局限于相互远离小于某个最大距离Dmax的扬声器。可直接地根据最大角度差来定义此Dmax。然而，由于扬声器阵列的重要性能特性（例如其可用频率范围）与扬声器之间的物理距离相关（通过其与再现声音的波长的关系），常常优选的是使用在物理仪表中表达的Dmax，例如在欧几里德距离度量的情况下。为了虑及性能取决于相对于阵列的观察方向的事实，可使用扬声器之间的投影距离而不是其之间的直接欧几里德距离。具体地，可将两个扬声器之间的距离定义为在与两个扬声器之间的角的等分线正交的方向上的距离（如从收听位置看）。

[0223] 这在针对3扬声器集群的图9中图示出。距离度量由下式给定：

[0224]

[0225] 当ri和rj分别地是从参考位置到扬声器i和j的径向距离。应注意的是投影距离度量是一种角距离。

[0226] 注意，如果集群中的所有扬声器相互足够接近，或者如果收听位置充分地远离集群，则集群中的所有对之间的等分线变成平行的，并且距离定义在集群内是一致的。

[0227] 在表征所识别集群时，可以将投影距离用于确定集群的最大间距δmax和尺寸L。这然后也将反映在所确定有效频率范围中，并且还可改变关于哪些阵列处理技术可以被有效地应用于集群的判定。

[0228] 如果根据前述自下而上方法的聚类程序被用角距离度量、（0,2）处的参考位置和50cm的扬声器之间的最大投影距离Dmax应用于图7的设置，则这导致聚类步骤的以下序列：

[0229] 8 + 9 → (8, 9) ; 1 + 16 → (1 , 16) ; (8 , 9 ) + 10 → (8 , 9 , 10) ; 3 + 4 → (3 , 4) ; (3 , 4) + 2 → (2 , 3 , 4) ; (1 , 16) + (2 , 3 , 4) → (1 , 2 , 3 , 4 , 16) ; (8 , 9 , 10) +11 → (8 , 9 , 10 , 11) ; (1 , 2 , 3 , 4 , 16) + 15 → (1 , 2 , 3 , 4 , 15 , 16) ; (1 , 2 , 3 , 4 , 15 , 16) + 5 → (1 , 2 , 3 , 4 , 5 , 15 , 16)。

[0230] 我们看到在这种情况下，聚类的顺序略微不同于用欧几里德距离度量的示例，并且我们还找到满足最大距离准则的一个附加集群。这是因为我们现在着眼于始终等于或小于欧几里德距离的投影距离。图10提供了列出集群及其相应特性的表格。

[0231] 在最后将被应用于所识别集群的渲染处理中，可借助于延迟来补偿集群内的扬声器的径向距离方面的任何差。

[0232] 注意虽然用此角距离度量的聚类结果与用欧几里德距离度量获得的相当类似，但这只是因为在本示例中扬声器围绕着参考位置或多或少地布置成圆圈。在更一般情况下，聚类结果对于不同的距离度量而言可能非常不同。

[0233] 由于角距离度量是一维的，所以在这种情况下聚类本质上是一维的，并且因此将是基本上计算需求较少的。事实上，在实践中，自上而下聚类程序在这种情况下通常是可行的，因为最近邻的定义在这种情况下完全是明确的，并且要评估的可能聚类的数目因此是有限的。

[0234] 在其中不仅存在单个优选收听位置、而且存在其中应将声音体验优化的扩展收听区域的使用情况下，仍可使用用角或投影距离度量的实施例。在这种情况下，可针对收听区域中的每个位置单独地或者仅针对收听区域中的极端位置（例如矩形收听区域的情况下的四个拐角）执行所识别集群的聚类和表征，并且让最关键的收听位置确定集群的最终聚类和表征。

[0235] 在先前的示例中，相对于用户在中心的收听位置或区域来定义距离度量。这在其中意图是优化某个位置或区域中的声音体验的大量使用情况下有意义。然而，还可使用扬声器阵列来影响再现声音与房间的交互。例如，可使声音指向墙壁以导致虚拟声源，或者可引导声音远离墙壁、天花板或地板以防止强反射。在这种使用情况下，定义相对于房间几何结构的某些方面而不是收听位置的距离度量是有意义的。

[0236] 特别地，可使用如在先前实施例中所述的扬声器之间的投影距离度量，但是现在是相对于与例如墙壁正交的方向。在这种情况下，子集的结果得到的聚类和表征将指示相对于墙壁的集群的阵列性能。

[0237] 为了简单起见，用2D来呈现上文详细描述的示例。然而，上述方法也适用于3D扬声器配置。根据使用情况，可在2D水平平面中单独地和/或在一个或多个垂直平面中或者同时地在全部的三个维度上执行聚类。在单独地在水平平面中和在垂直维度上执行聚类的情况下，可将如上所述的不同聚类方法和距离度量用于两个聚类流程。在用3D（因此同时地在全部的三个维度上）来完成聚类的情况下，可在水平平面中和垂直维度上使用用于最大间距的不同准则。例如，虽然在水平平面中，如果两个扬声器的角距离小于10度，则可将两个扬声器视为属于同一集群，但对于垂直地移位的两个扬声器而言，要求可以更宽松，例如小于20度。

[0238] 所述方法可用于许多不同的渲染算法。可能的渲染算法可例如包括：

[0239] 波束成型渲染：

[0240] 波束成型是与扬声器阵列、即被紧密地放置在一起（例如在之间小于几厘米）的多个扬声器的集群相关的渲染方法。控制个体扬声器之间的幅值和相位关系允许将声音“照射”到指定方向和/或使源“聚焦”在扬声器阵列前面或后面的特定位置处。在例如Van Veen、B.D在ASSP Magazine, IEEE (卷:5 , 期: 2 ), 公开日期: 1988年4月中的Beamforming : a versatile approach to spatial filtering中可以找到这种方法的详细描述。虽然从传感器（麦克风）的角度出发描述该文章，但所述原理由于声互惠原理而同样地适用于来自扬声器阵列的波束成型。

[0241] 波束成型是阵列处理的示例。

[0242] 其中此类渲染有益的典型使用情况是当小的扬声器阵列位于收听者前面、同时在后面或者甚至左和右前面处不存在扬声器时。在这种情况下，可以通过将某些音频通道或对象“照射”到收听房间的侧壁来为用户产生全环绕声体验。声音从墙壁的反射从侧面和/或后面到达收听者，因此产生完全沉浸式“虚拟环绕声”体验。这是在“soundbar”类型的各种消费产品中采用的渲染方法。

[0243] 其中可以有利地采用波束成型渲染的另一示例是当要渲染的声道或对象包含语音时。使用波束成型将这些语音音频成分渲染为指向用户的波束可导致用于用户的更好的语音可理解性，因为在房间中产生较少的混响。

[0244] 波束成型通常将被用于其中扬声器之间的间距超过几分米的扬声器配置（的子部分）。

[0245] 相应地，波束成型适合于在其中找到用相对大数目的非常紧密地间隔的扬声器来识别一个或多个集群的情形中应用。因此，针对此类集群中的每一个，可使用波束成型渲染算法，例如以从其中不存在扬声器的方向产生感知声源。

[0246] 串音消除渲染：

[0247] 这是能够从两个扬声器产生完全沉浸式3D环绕声体验的渲染方法。其与使用头部相关传递函数（或HRTF）在头戴式耳机上的双耳渲染紧密相关。由于使用扬声器而不是头戴式耳机，所以必须使用反馈环路来消除从左扬声器至右耳的串音且反之亦然。在Kirkeby, Ole；Rubak, Per；Nelson, Philip A.；Farina, Angelo在AES Convention:106（1999年5月）页号:4916中的Design of Cross-Talk Cancellation Networks by Using Fast Deconvolution中可以找到这种方法的详细描述。

[0248] 此类渲染方法可例如适合于在正面区中具有仅两个扬声器的使用情况，但是其中仍期望由该有限的设置实现完全空间体验。众所周知的是可以使用串音消除来向单个收听位置产生稳定的空间幻觉，尤其是当扬声器相互接近时。如果扬声器相互远离，则结果得到的空间图像由于交叉路径的复杂性而变得更加不稳定且听起来混乱。在本示例中提出的聚类可以用来判定是否应使用基于串音消除和HRTF滤波器或普通立体声重放的‘虚拟立体声’方法。

[0249] 立体声偶极渲染：

[0250] 这种渲染方法使用两个或更多紧密间隔的扬声器通过以公共（和）信号被单调地再现、同时差信号被用偶极辐射图再现的方式处理空间音频信号来为用户渲染宽声像。在例如Kirkeby, Ole；Nelson, Philip A.；Hamada, Hareo在JAES 卷46 期 5 页387-395; 1998年5月中的The 'Stereo Dipole': A Virtual Source Imaging System Using Two Closely Spaced Loudspeakers中可以找到这种方法的详细描述。

[0251] 此类渲染方法可例如适合于其中只有直接地在收听者前面的几个（例如2或3个）紧密间隔扬声器的非常紧凑的设置可用于渲染全前方声像的使用情况。

[0252] 波场合成渲染：

[0253] 这是使用扬声器阵列来准确地在大的收听空间内重建原始声场的渲染方法。在例如Boone, Marinus M.；Verheijen, Edwin N. G在AES Convention:104（1998年5月）页号:4689中的Sound Reproduction Applications with Wave-Field Synthesis中可以找到这种方法的详细描述。

[0254] 波场合成是阵列处理的示例。

[0255] 其特别适合于基于对象的声音场景，但是也与其它音频类型（例如基于声道或场景）兼容。限制是其仅仅适合于具有间隔开不超过约25cm的许多扬声器的扬声器配置。如果检测到包括非常接近地定位在一起的足够扬声器的集群，则特别地可应用该渲染算法。特别是如果集群跨越收听区域的前、后或侧面区域中的至少一个的相当一部分。在这种情况下，本方法可提供比例如标准立体声再现更加逼真的体验。

[0256] 最小二乘法优化渲染：

[0257] 这是一般渲染方法，其尝试借助于数值优化流程来实现指定目标声场，在该数值优化程序中，扬声器位置被指定为参数，并优化扬声器信号从而使某些收听区域内的目标或再现声场之间的差最小化。在例如Shin, Mincheol；Fazi, Filippo M.；Seo, Jeongil；Nelson, Philip A.在AES Convention:130（2011年5月）页号:8404中的Efficient 3-D Sound Field Reproduction中可以找到这种方法的详细描述。

[0258] 此类渲染方法可例如适合于如针对波场合成和波束成型所描述的类似使用情况。

[0259] 矢量基幅值平移渲染：

[0260] 这是基本上为通过使各对扬声器之间的幅值平移定律适配于放置在空间中的已知二维或三维位置上的超过两个扬声器来支持非标准化配置的立体音响渲染方法的一般化的方法。在例如V. Pulkki在J.AudioEng.Soc.,Vol.45,No.6，1997中的“Virtual Sound Source Positioning Using Vector Base Amplitude Panning”中可以找到这种方法的详细描述。

[0261] 此类渲染方法可例如适合于在扬声器集群之间应用，其中，集群之间的距离过高而不允许使用阵列处理，但是仍接近到足以允许平移以提供合理的结果（特别是对于其中扬声器的距离相对大但其（近似）被放置在收听区域周围的球体上的情形而言）。具体地，VBAP可以是用于不属于公共已识别集群的扬声器子集的“默认”渲染模式，所述公共已识别集群满足某个最大扬声器间距准则。

[0262] 如前所述，在某些实施例中，渲染器能够根据多个渲染模式来渲染音频成分，并且渲染控制器611可根据聚类来选择用于扬声器603的渲染模式。

[0263] 特别地，渲染器607可能能够使用具有适当空间关系的扬声器603来执行用于渲染音频成分的阵列处理。因此，如果聚类识别到满足适当距离要求的扬声器603的集群，则渲染控制器611可选择阵列处理以便从特定集群的扬声器603渲染音频成分。

[0264] 阵列处理包括通过除可影响用于个体扬声器的相位和幅值（或者对应地时域中的时间延迟和幅值）的一个或多个加权因数之外向所述多个扬声器提供相同的信号来从多个扬声器渲染音频成分。通过调整相位和幅值，可以控制不同渲染音频信号之间的干扰，从而允许控制音频成分的总体渲染。例如，可以调整权值以在某些方向上提供正干扰且在其它方向上提供负干扰。这样，可例如调整方向性特性，并且例如可用在期望方向上的主波束和槽口来实现波束成型。通常，使用频率相关增益来提供期望的总体效果。

[0265] 渲染器607具体地可能能够执行波束成型渲染和波场合成渲染。前者可在许多情形中提供特别有利的渲染，但是要求有效阵列的扬声器非常紧密地在一起（例如分开不超过25cm）。波场合成算法可以是第二优选选项，并且可适合于可能达到50cm的扬声器间距离。

[0266] 因此，在此类情形中，聚类可识别具有小于25cm的扬声器间距离的扬声器603的集群。在这种情况下，渲染控制器611可选择使用波束成型来从集群的扬声器渲染音频成分。然而，如果未识别到此类集群，而是替代地找到具有小于50cm的扬声器间距离的扬声器603的集群，则渲染控制器611可替代地选择波场合成算法。如果未找到此类集群，则可使用另一渲染算法，诸如VBAP算法。

[0267] 将认识到的是在某些实施例中，可执行更复杂的选择，并且特别地，可考虑集群的不同参数。例如，如果找到具有拥有小于50cm的扬声器间距离的大量扬声器的集群，而具有小于25cm的扬声器间距离的集群具有仅几个扬声器，则波场合成相比于波束成型而言可能是优选的。

[0268] 因此，在某些实施例中，渲染控制器可响应于满足准则的第一集群的属性而选择用于第一集群的阵列处理渲染。该准则可以是例如集群包括超过给定数目的扬声器，并且最近邻扬声器之间的最大距离小于给定值。例如，如果在没有距离集群的另一扬声器超过例如25cm的扬声器的集群中找到超过三个扬声器，则可针对该集群选择波束成型渲染。如果不是这样，而是替代地找到具有三个扬声器且不具有距离集群的另一扬声器超过例如50cm的扬声器的集群，则可针对该集群选择波场合成渲染。

[0269] 在这些示例中，具体地考虑集群的最近邻之间的最大距离。可将一对最近邻视为其中集群的第一扬声器是根据距离度量最接近于该对的第二扬声器的扬声器的一对。因此，使用距离度量测量的从第二扬声器至第一扬声器的距离低于从第二扬声器到集群的任何其它扬声器的任何距离。应注意的是作为第二扬声器的最近邻的第一扬声器不一定意指第二扬声器也是第一扬声器的最近邻。事实上，最接近于第一扬声器的扬声器可以是第三扬声器，其比第二扬声器更接近于第一扬声器，但是比第一扬声器距离第二扬声器更远。

[0270] 最近邻之间的最大距离对于确定是否要使用阵列处理而言是特别重要的，因为阵列处理的效率（和具体地干扰关系）取决于此距离。

[0271] 可使用的另一相关参数是集群中的任何两个扬声器之间的最大距离。特别地，对于高效的波场合成渲染而言，要求所使用阵列的总尺寸是足够大的。因此，在某些实施例中，该选择可基于集群中的任何一对扬声器之间的最大距离。

[0272] 集群中的扬声器的数目对应于可以被用于阵列处理的换能器的最大数目。此数目提供可以执行的渲染的强烈指示。事实上，阵列中的扬声器的数目通常对应于用于阵列处理的最大自由度数。例如，对于波束成型而言，其可指示可以产生的槽口和波束的数目。其还可影响例如可以使得主波束有多窄。因此，集群中的扬声器的数目可对选择是否要使用阵列处理有用。

[0273] 将认识到的是集群的这些特性还可用来适配被用于集群的渲染算法的各种参数。例如，扬声器的数目可用来选择槽口指向哪里，可在确定权值等时使用扬声器之间的距离。
事实上，在某些实施例中，渲染算法可以是预定的，并且可不存在其基于聚类的选择。例如，阵列处理渲染可以是预先选择的。然而，可根据聚类来修改/配置用于阵列处理的参数。

[0274] 事实上，在某些实施例中，聚类器609不仅可产生扬声器的一组集群，而且可产生用于集群中的一个或多个的属性指示，并且渲染控制器611可相应地适配渲染。例如，如果针对第一集群产生属性指示，则渲染控制器可响应于该属性指示而适配用于第一集群的渲染。

[0275] 因此，除识别集群之外，还可以对这些进行表征以促进优化的声音渲染，例如通过将其在选择或判定流程中使用和/或通过调整渲染算法的参数。

[0276] 例如，如针对每个已识别集群所述，可确定该集群内的最大间距δmax，即可确定最近邻之间的最大距离。并且，可将集群的总空间范围或尺寸L确定为集群内的扬声器中的任何两个之间的最大距离。

[0277] 这两个参数（可能连同其它参数一起，诸如子集内的扬声器的数目及其特性，例如其频率带宽）可以用来确定用于对子集应用阵列处理的可用频率范围以及确定适用阵列处理类型（例如，波束成型、波场合成、偶极处理等）。

[0278] 特别地，可以将子集的最大可用频率fmax确定为：

[0279]

[0280] c是声速。

[0281] 并且，可将用于子集的可用频率范围的下限确定为：

[0282] 或

[0283] 其表示阵列处理直到频率fmin都是有效的，对于该频率fmin而言，相应波长λmax约为子集的总尺寸L。

[0284] 因此，可确定用于渲染模式的频率范围限制并将其馈送到渲染控制器611，其可相应地适配渲染模式（例如通过选择适当的渲染算法）。

[0285] 应注意的是用于确定频率范围的特定准则可针对不同的实施例而改变，并且上述等式仅仅意图作为说明性示例。

[0286] 在某些实施例中，因此可以由用于一个或多个渲染模式的对应可用频率范围[fmin，fmax]来表征每个已识别子集。这例如可用来选择用于此频率范围的一个渲染模式（具体地阵列处理）和用于其它频率的另一渲染模式。

[0287] 所确定频率范围的相关性取决于阵列处理的类型。例如，虽然对于波束成型处理而言，fmin和fmax两者应被考虑在内，但fmin对于偶极处理不那么相关。将这些考虑因数考虑在内，可以使用fmin和/或fmax的值来确定哪些类型的阵列处理适用于特定集群以及哪些不是。

[0288] 除上述参数之外，可通过每个集群相对于参考位置的位置、方向或取向中的一个或多个来表征每个集群。为了确定这些参数，可定义每个集群的中心位置，例如从参考位置看的集群的两个最外扬声器之间的角的等分线，或者集群的加权质心位置，其为集群中的所有扬声器相对于参考位置的所有位置矢量的平均。并且，这些参数可用来识别用于每个集群的适当渲染处理技术。

[0289] 在先前的示例中，仅仅基于根据距离度量的在扬声器之间的空间距离的考虑来执行聚类。然而，在其它实施例中，聚类可进一步将其它特性或参数考虑在内。

[0290] 例如，在某些实施例中，可为聚类器609提供渲染算法数据，其指示可由渲染器执行的渲染算法的特性。例如，渲染算法数据可规定渲染器607能够执行哪些渲染算法和/或用于个体算法的限制。例如，渲染算法数据可指示渲染器607能够使用针对多达三个扬声器的VBAP进行渲染；在阵列中的扬声器的数目大于2但小于6且最大近邻距离小于25cm的情况下的波束成型以及最大近邻距离小于50cm的情况下的针对多达10个扬声器的波场合成。

[0291] 然后可根据渲染算法数据来执行聚类。例如，可根据渲染算法数据来设定聚类算法的参数。例如在上述示例中，聚类可使扬声器的数目局限于10，并且只有当到集群中的至少一个扬声器的距离小于50cm时，才允许新扬声器被包括在现有集群中。在聚类之后，可选择渲染算法。例如如果扬声器的数目超过5且最大近邻距离不超过50cm，则选择波场合成。否则，如果在集群中存在超过2个扬声器，则选择波束成型。否则，选择VBAP。

[0292] 如果替代地，渲染算法数据指示渲染只能进行使用VBAP的渲染或阵列中的扬声器的数目大于2但小于6且最大近邻距离小于25cm的情况下的波场合成，则聚类可使扬声器的数目限制到5个，并且只有当到集群中的至少一个扬声器的距离小于25cm时才允许新的扬声器被包括在现有集群中。

[0293] 在某些实施例中，可为集群609提供渲染数据，其指示至少某些扬声器603的声学渲染特性。具体地，渲染数据可指示扬声器603的频率响应。例如，渲染数据可指示个体扬声器是低频扬声器（例如低音扬声器）、高频扬声器（例如高音扬声器）还是宽带扬声器。此信息然后可在聚类时考虑在内。例如，可要求只有具有相应频率范围的扬声器被聚集在一起，从而避免例如集群包括不适合于例如阵列处理的低音扬声器和高音扬声器。

[0294] 并且，渲染数据可指示扬声器603的辐射图和/或扬声器603的主声轴的取向。例如，渲染数据可指示个体扬声器是具有相对宽还是相对窄的辐射图以及辐射图的主轴被定向到哪个方向。此信息可在聚类时考虑在内。例如，可要求只有对于其而言辐射图具有充分重叠的扬声器被聚集在一起。

[0295] 作为更复杂的示例，可使用无监督统计学习算法来执行聚类。可以用多维空间中的特征矢量来表示每个扬声器k，例如

[0296]

[0297] 其中，3D空间中的坐标是、和。本实施例中的频率响应可用单个参数来表示，其可表示例如频率响应的频谱质心。最后，相对于从扬声器位置到收听位置的线的水平角由给出。

[0298] 在本示例中，执行将整个特征矢量考虑在内的聚类。

[0299] 在参数无监督学习中，首先在特征空间中将N个集群中心初始化。其通常被随机地初始化或者从扬声器位置采样。接下来，更新的位置，使得其更好地表示特征空间中的扬声器位置的分布。存在用于执行此操作的各种方法，并且还可以以与在以上上下文或分级聚类中已描述的类似的方式在迭代期间将集群分离和重新分组。

[0300] 将认识到的是为了明了起见，以上描述已参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，将显而易见的是在不违背本发明的情况下可使用不同功能电路、单元或处理器之间的功能的任何适当分布。例如，可由相同的处理器或控制器来执行被示为由单独处理器或控制器执行的功能。因此，应将对特定功能单元或电路的参考仅仅视为对用于提供所述功能的适当手段的参考，而不是指示严格的逻辑或物理结构或组织。

[0301] 可以用包括硬件、软件、固件或这些的任何组合的任何适当形式来实施本发明。可选地可将本发明至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。可以以任何适当方式在物理上、在功能上和在逻辑上实施本发明的实施例的元件和部件。事实上，可在单个单元中、在多个单元中或者作为其它功能单元的一部分来实施该功能。因此，可以在单个单元中实施本发明，或者可以在物理上和功能上分布在不同单元、电路和处理器之间。

[0302] 虽然已经结合某些实施例描述了本发明，但其并不意图局限于在本文中阐述的特定形式。相反地，本发明的范围仅仅受到所附权利要求的限制。另外，虽然看起来是结合特定实施例来描述特征，但本领域的技术人员将认识到的是根据本发明可将所述实施例的各种特征组合。在权利要求中，术语包括不排除其它元件或步骤的存在。

[0303] 此外，虽然单独地列出，但可用例如单个电路、单元或处理器来实施多个装置、元件、电路或方法步骤。另外，虽然在不同权利要求中可包括个体特征，但这些可能被有利地组合，并且在不同权利要求中的包括并不暗示特征的组合并非可行和/或有利的。并且，一个种类的权利要求中的特征的包括并不暗示对此种类的限制，而是指示该特征在适当时同样地适用于其它权利要求种类。此外，权利要求中的特征的顺序并不暗示特征必须进行工作的任何特定顺序，并且特别地，方法权利要求中的个体步骤的顺序并不暗示必须按照此顺序来执行步骤。相反地，可按照任何适当顺序来执行步骤。另外，单数参考并不排除复数。因此，对“一”、“一个”、“第一”、“第二”等的参考不排除复数。权利要求中的附图标记仅仅是作为说明性示例而提供的，不应理解为以任何方式限制权利要求的范围。

音频装置及其方法转让专利

申请号 : CN201480028302.8

文献号 : CN105247894B

文献日 : 2017-11-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : W.P.J.德布鲁伊恩 , A.W.J.奧门 , A.S.哈尔马伊

申请人 : 皇家飞利浦有限公司

摘要 :

权利要求 :

说明书 :