感知方向的环绕声播放转让专利

申请号 : CN201410448788.2

文献号 : CN105376691B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孙学京马桂林郑羲光

申请人 : 杜比实验室特许公司

摘要 :

本发明的实施例涉及感知方向的环绕声播放。公开了一种用于在包括多个扬声器的电子设备上处理音频的方法,所述扬声器布置在所述电子设备的多于一个的维度上。该方法包括响应于多个接收的音频流的接收生成与所述多个接收的音频流相关联的渲染分量;确定所述渲染分量的基于方向的分量;通过根据所述扬声器的方向更新所述基于方向的分量来处理所述渲染分量;以及基于所处理的渲染分量将所述接收的音频流分派到所述多个扬声器以播放。还公开了相应的系统和计算机程序产品。

权利要求 :

1.一种用于在包括多个扬声器的电子设备上处理音频的方法,所述扬声器布置在所述电子设备的多于一个的维度上,所述方法包括:响应于多个接收的音频流的接收,生成与所述多个接收的音频流相关联的渲染分量;

确定所述渲染分量的基于方向的分量;

通过根据所述扬声器的方向更新所述基于方向的分量,来处理所述渲染分量;以及基于所处理的渲染分量,将所述接收的音频流分派到所述多个扬声器以播放,其中所述方法进一步包括将所述接收的音频流分解为直接部分和扩散部分;并且在确定所述渲染分量的所述基于方向的分量时,不同的基于方向的分量分别用于所述直接部分和所述扩散部分。

2.根据权利要求1所述的方法,进一步包括:

基于所述扬声器的数目对所述接收的音频流进行上混或下混。

3.根据权利要求1所述的方法,进一步包括对所述接收的音频流进行串音消除。

4.根据权利要求3所述的方法,进一步包括将串音消除函数划分为基于方向的分量和独立于方向的分量。

5.根据权利要求1所述的方法,其中确定所述渲染分量的基于方向的分量还包括:将所述渲染分量划分为基于方向的分量和独立于方向的分量。

6.根据权利要求1所述的方法,其中所述扬声器的所述方向与所述电子设备和其用户之间的角度连续相关联。

7.根据权利要求1所述的方法,其中所述渲染分量与所述接收的音频流的内容或格式相关联。

8.根据权利要求1所述的方法,其中所述多个接收的音频流是多声道信号、对象音频格式信号或高保真立体声B格式信号。

9.根据权利要求8所述的方法,其中所述多声道信号包括两声道信号。

10.根据权利要求9所述的方法,所述方法进一步包括当所述多个接收的音频流是两声道信号时将所述多个接收的音频流转换为中-侧格式。

11.根据权利要求8所述的方法,进一步包括对所述接收的音频流所携载的元数据进行处理。

12.一种用于在包括多个扬声器的电子设备上处理音频的系统,所述扬声器布置在所述电子设备的多于一个的维度上,所述系统包括:生成器,所述生成器响应于多个接收的音频流的接收,生成与所述多个接收的音频流相关联的渲染分量;

确定器,所述确定器确定所述渲染分量的基于方向的分量;

处理器,所述处理器通过根据所述扬声器的方向更新所述基于方向的分量,来处理所述渲染分量;以及分派器,所述分派器基于所处理的渲染分量,将所述接收的音频流分派到所述多个扬声器以播放,其中所述系统还包括分解器,所述分解器将所述接收的音频流分解为直接部分和扩散部分;并且所述确定器将不同的基于方向的分量分别用于所述直接部分和所述扩散部分。

13.根据权利要求12所述的系统,进一步包括上混器或下混器,所述上混器或下混器基于所述扬声器的数目对所述接收的音频流进行上混或下混。

14.根据权利要求12所述的系统,进一步包括串音消除器,所述串音消除器被配置为对所述接收的音频流进行串音消除。

15.根据权利要求14所述的系统,所述串音消除器进一步被配置为将串音消除函数划分为基于方向的分量和独立于方向的分量。

16.根据权利要求12所述的系统,其中所述确定器进一步被配置为将所述渲染分量划分为基于方向的分量和独立于方向的分量。

17.根据权利要求12所述的系统,其中所述扬声器的所述方向与所述电子设备和其用户之间的角度相关联。

18.根据权利要求12所述的系统,其中所述渲染分量与所述接收的音频流的内容或格式相关联。

19.根据权利要求12所述的系统,其中所述接收的音频流是多声道信号、对象音频格式信号或高保真立体声B格式信号。

20.根据权利要求19所述的系统,其中所述多声道信号包括两声道信号。

21.根据权利要求20所述的系统,所述系统进一步包括转换器,所述转换器在所述多个接收的音频流是两声道信号时将所述多个接收的音频流转换为中-侧格式。

22.根据权利要求19所述的系统,进一步包括元数据处理器,所述元数据处理器被配置为对所述接收的音频流所携载的元数据进行处理。

23.一种计算机可读介质,所述计算机可读介质具有存储在其上的计算机程序代码,所述计算机程序代码在被执行时使机器执行根据权利要求1至11中任一项所述的方法。

说明书 :

感知方向的环绕声播放

技术领域

[0001] 本发明总体上涉及音频处理,更具体地,涉及用于感知方向的环绕声播放的方法和系统。

背景技术

[0002] 现在,诸如智能手机、平板电脑或电视机的电子设备变得日益普遍。他们通常用于包括电影或音乐的媒介消费。
[0003] 目前,随着多媒体工业的发展,人们试图通过电子设备上的扬声器来传输环绕声。很多诸如平板电脑和手机的便携式设备包括多个扬声器以助于提供立体声或环绕声。然而,当存在环绕声时,一旦用户改变设备的方向,则用户体验会迅速下降。当设备的方向改变时,这些设备中的一些尝试提供一些形式的声音补偿(即移动左边的声音或右边的声音,或调节扬声器的声音水平)。
[0004] 然而,期望提供一种更有效的方法来解决与方向改变相关联的问题。

发明内容

[0005] 为了解决上述问题,本发明提出一种用于在包括多个扬声器的电子设备上处理音频的方法和系统。
[0006] 在一个方面,本发明的实施例提供一种用于在包括多个扬声器的电子设备上处理音频的方法,所述扬声器布置在所述电子设备的多于一个的维度上,所述方法包括:响应于多个接收的音频流的接收生成与所述多个接收的音频流相关联的渲染分量;确定所述渲染分量的基于方向的分量;通过根据所述扬声器的方向更新所述基于方向的分量来处理所述渲染分量;以及基于所处理的渲染分量将所述接收的音频流分派到所述多个扬声器以播放。这方面的实施例还包括相应的计算机程序产品。
[0007] 在另一方面,本发明的实施例提供一种用于在包括多个扬声器的电子设备上处理音频的系统,所述扬声器布置在所述电子设备的多于一个的维度上,所述系统包括:生成单元,所述生成单元被配置为响应于多个接收的音频流的接收生成与所述多个接收的音频流相关联的渲染分量;确定单元,所述确定单元被配置为确定所述渲染分量的基于方向的分量;处理单元,所述处理单元被配置为通过根据所述扬声器的方向更新所述基于方向的分量来处理所述渲染分量;以及分派单元,所述分派单元被配置为基于所处理的渲染分量将所述接收的音频流分派到所述多个扬声器以播放。
[0008] 通过下文描述将会理解,根据本发明的实施例,环绕声可以被呈现为具有高保真度。本发明的实施例所带来的其他益处将通过下文描述而清楚。

附图说明

[0009] 通过参考附图阅读下文的详细描述,本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本发明的若干实施例,其中:
[0010] 图1示出了根据本发明的一个示例实施例的用于在包括多个扬声器的电子设备上处理音频的方法的流程图;
[0011] 图2示出了根据本发明的示例实施例的三个扬声器布局的两个示例;
[0012] 图3示出了根据本发明的示例实施例的四个扬声器布局的两个示例;
[0013] 图4示出了用于立体声扬声器的串音消除系统的框图;
[0014] 图5示出了根据本发明的另一个示例实施例的用于音频对象提取的方法的流程图;
[0015] 图6示出了根据本发明的另一个示例实施例的用于在包括多个扬声器的电子设备上处理音频的系统的框图;
[0016] 图7示出了适于实现本发明的示例实施例的计算机系统的框图。
[0017] 在各个附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

[0018] 下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解,描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
[0019] 首先参考图1,其示出了根据本发明的一个示例实施例的用于在包括多个扬声器的电子设备上处理音频的方法100的流程图。
[0020] 在步骤S101,响应于多个接收的音频流的接收,生成与多个接收的音频流相关联的渲染分量。该输入音频流可以为各种格式。例如,输入音频内容可以遵循立体声、环绕5.1、环绕7.1等格式。在某些实施例中,音频内容可以被表示为频域信号。备选地,音频内容可以作为时域信号而被输入。
[0021] 对于给定的S扬声器(S>2)阵列以及一个或多个声音源Sig1,Sig2,...,SigM,渲染分量R可以根据以下等式来定义:
[0022]
[0023] 其中Spkri(i=1...S)表示扬声器的矩阵,ri,j(i=1...S,j=1...M)表示渲染分量中的元素,以及Sigi(i=1...M)表示音频信号的矩阵。
[0024] 等式(1)可以被写为以下简化形式:
[0025] Spkr=R×Sig      (2)
[0026] 渲染分量可以被认为是基于输入信号特性和播放要求的一系列分离的矩阵运算的乘积,其中输入信号特性包括输入信号的格式和内容。渲染分量R的元素可以是为频率的函数的复合变量。在这种情况下,可以通过将等式(1)中所示出的ri,j用ri,j(ω)来代替以增加准确度。
[0027] 符号Sig1,Sig2,...,SigM能够分别表示相对应的音频声道或者相对应的音频对象。例如,当输入信号时两声道音频输入信号时,Sig1表示左声道并且Sig2表示右声道,并且当输入信号是对象音频格式时,Sig1,Sig2,...,SigM能够表示相对应的音频对象,音频对象是指在声场中存在特定持续时间的个体音频元素。
[0028] 在步骤S102,确定渲染分量中基于方向的分量。在一个实施例中,扬声器的方向与电子设备和其用户之间的角度相关联。
[0029] 在一些实施例中,基于方向的分量可以从渲染分量中解耦。也就是说,渲染分量可以被划分为基于方向的分量和独立于方向的分量。基于方向的分量可以被统一为以下结构:
[0030]
[0031] 其中Os,m表示基于方向的分量。
[0032] 在一个实施例中,渲染分量R可以被划分为默认的方向不变的平移矩阵P以及基于方向的补偿矩阵O,如下所示:
[0033] R=O×P      (4)
[0034] 其中P表示独立于方向的分量,并且O表示基于方向的分量。
[0035] 当电子设备处于不同方向时,等式(4)可以用不同的分量来表示,诸如R=OL×P或R=OP×P,其中OL和OP分别表示在横向模式和纵向模式中的基于方向的补偿矩阵。
[0036] 此外,基于方向的补偿矩阵O不限于以上两个方向,并且其能够为在三维空间的连续设备方向的函数。等式(4)可以被写为:
[0037] R(θ)=O(θ)×P      (5)
[0038] 其中θ表示电子设备和其用户之间的角度。
[0039] 渲染矩阵的分解能够进一步延伸为允许以下相加的分量:
[0040]
[0041] 其中Oi(θ)和Pi分别表示基于方向的矩阵以及相对应的独立于方向的矩阵,可以存在N组这样的矩阵。
[0042] 例如,输入信号可以经由基于PCA(主分量分析)的方法经受直达和扩散分解。在这种方式下,多声道输入的方差矩阵的特征分析产生旋转矩阵V,并且通过使用V旋转原始输入计算主分量E。
[0043] E=V×Sig      (7)
[0044] 其中Sig表示输入信号,Sig=[Sig1 Sig2 ... SigM]T。V表示旋转矩阵,V=[V1 V2 ... VN],N≤M,并且V的每一列表示M维特征矢量。E表示主分量E1,E2  ... EN,由E=[E1 E2 T... EN]表示,其中N≤M。
[0045] 并且直达和扩散信号由在E上施加适当增益G来获得
[0046] Sig′direct=G×E      (8)
[0047] Sig′diffuse=(1-G)×E      (9)
[0048] 其中G表示增益。
[0049] 最终,不同的方向补偿分别用于直达和扩散部分。
[0050] R(θ)=Odirect(θ)×G×V+Odiffuse(θ)×(1-G)×V      (10)
[0051] 在步骤S103,通过根据扬声器的方向更新基于方向的分量来处理渲染分量。
[0052] 电子设备可以包括在电子设备多于一个维度上布置的多个扬声器。也就是说,在一个平面上,通过至少两个扬声器的线条的数目多于一。在一些实施例中,存在至少三个扬声器。图2和图3分别示出了根据本发明的实施例的三个扬声器布局和四个扬声器布局的示例。在其他实施例中,扬声器的数目和扬声器的布局可以根据不同的应用而变化。
[0053] 日益增长地,能够旋转的电子设备能够确定它们的方向。该方向能够通过使用方向传感器或其他合适的模块来确定,诸如陀螺仪和加速器。方向确定模块能够设置在电子设备内部或外部。方向确定的详细实施方式在本领域是已知的并且将不在本公开中解释以免模糊本发明。
[0054] 例如,当电子设备的方向从0度向90度变化时,基于方向的分量将相应地从OL改变至OP。
[0055] 在一些实施例中,基于方向的分量可以在渲染分量中确定,而不需要从渲染分量中解耦。相应地,基于方向的分量并且因此渲染分量能够基于方向进行更新。
[0056] 方法100然后前进至步骤S104,其中音频流基于处理的渲染分量被分派到多个扬声器。
[0057] 在音频输入和扬声器之间的合理映射在达到预期的音频体验中是关键的。通常,多声道或双耳音频通过假设特定物理扬声器设置来传达空间信息。例如,对于渲染双耳音频信号需要最小L-R扬声器设置。通常使用的环绕5.1格式使用五个扬声器,分别为中间、左、右、左环绕和右环绕声道。其他音频格式可以包括用于架空扬声器的声道,其用于渲染具有高度/海拔信息的音频信号,诸如雨、雷等。在该步骤中,在音频输入和扬声器之间的映射应当根据设备的方向改变。
[0058] 在一些实施例中,输入信号可以根据扬声器布局下混或上混。例如,在仅具有两个扬声器的便携设备上播放时,环绕5.1信号可以被下混至两个声道。另一方面,如果设备具有四个扬声器,可能根据输入的数目通过下混/上混操作来创建左声道和右声道加上两个高度声道。
[0059] 关乎上混的实施例,上混算法采用将音频信号经由诸如主分量分析(PCA)的方法分解至扩散和直达部分。扩散部分提供宽敞的总体印象,而直达信号对应于点源。优化/维持试听体验的解决方法可以对于这两部分不同。声场的宽度/范围很大程度基于声道间相关性。扬声器布局的改变可以改变在中耳处的有效的耳间相关性。因此,方向补偿的目的是为了维持合适的相关性。一种处理该问题的方式是引入基于布局的去相关处理,例如使用基于两个最远的扬声器之间的有效距离的全通滤波器。对于定向的音频信号,处理目的是为了维持对象的轨迹和音色。这能够通过如在传统扬声器虚拟器中的对象方向和物理扬声器位置的HRTF(头相关传递函数)来处理。
[0060] 在一些实施例中,方法100还可以包括当输入音频流包含元数据时处理元数据。例如,对象音频信号通常具有元数据,该元数据可以包括关于声道水平差异、时间差异、空间特性、对象轨迹等的信息。该信息可以经由用于特定扬声器布局的优化来预处理。优选地,该变换可以被表示为旋转角度的函数。在实时处理中,元数据可以根据当前角度被加载和平滑。
[0061] 根据本发明的一些实施例,方法100可以包括串音消除过程。例如,当通过扬声器播放双耳信号时,可能利用反向滤波器来消除串音分量。
[0062] 通过示例的方式,图4示出了用于立体声扬声器的串音消除系统的框图。来自左声道和右声道的输入双耳信号以矢量形式给出x(z)=[x1(z),x2(z)]T,并且由两个耳朵接收的信号被表示为d(z)=[d1(z),d2(z)]T,其中信号以z域表示。串音消除的目的是为了经由用串音消除滤波器H(z)来反转声学路径G(z)来更好地在听者的中耳处重现双耳信号。H(z)和G(z)分别由以下矩阵形式表示:
[0063]
[0064] 其中Gi,j(z),i,j=1,2表示从第j个扬声器到第i个耳朵的传递函数,并且Hi,j(z),i,j=1,2表示从第xj到第i个扬声器的串音消除滤波器。
[0065] 通常,串音消除器H(z)可以被计算为传递函数G(z)的逆矩阵与延迟项d的乘积。通过示例的方式,在一个实施例中,串音消除H(z)可以如以下方式获得:
[0066] H(z)=z-dG-1(z)      (12)
[0067] 其中H(z)表示串音消除器,G(z)表示传递函数并且d表示延迟项。
[0068] 如在图5中所示出的,在一个电子设备的扬声器(诸如LSL和LSR)改变,角度θL和θR将不同,这导致不同的声学传递函数G(z),因此导致不同的串音消除器H(z)。
[0069] 在一个实施例中,假设HRTF包含耳道的谐振系统,其谐振频率和Q因数独立于源的方向,串音消除器能够被分解为方向变化和不变分量。具体地,HRTF能够通过使用独立于源方向的极点和基于源方向的零点来建模。通过示例的方式,已提出称为共用声学极点/零点模型(CAPZ)的模型用于立体声串音消除(参见“A Stereo Crosstalk Cancellation System Based on the Common-Acoustical Pole/Zero Model”,Lin Wang,Fuliang Yin and Zhe Chen,EURASIP Journal on Advances in Signal Processing 2010,2010:719197),并且能够与本发明结合使用。例如,根据CAPZ,每个传递函数可以通过共用极点组合独特的零点组来建模,如下所示:
[0070]
[0071] 其中 表示传递函数,Nq和Np表示极点和零点的数目,并且和 分别表示极点系数矢量和零点系数矢量。
[0072] 极点和零点系数通过针对所有K传递函数最小化总建模误差来估计。对于每个串音消除功能,H(z)能够通过以下来获得:
[0073]
[0074] 其中以及 d11、d12、d21和d22分别表示从扬声器到耳朵的传递延迟,
并且δ=d-(d11+d22)表示延迟。
[0075] 在一个实施例中,串音消除函数能够被分为基于方向的分量(零点)和独立于方向的分量(极点)
[0076] 并且总的处理矩阵为:
[0077]
[0078] 两声道
[0079] 输入音频流可以为不同的格式。在一些实施例中,输入音频流是两声道输入音频信号,例如,左声道和右声道。在这种情况下,等式(1)可以被写为:
[0080]
[0081] 其中L表示左声道输入信号,并且R表示右声道输入信号。信号能够被转换为中-侧(mid-side)格式用于便于处理,例如,如下所示:
[0082]
[0083] 其中Mid=1/2*(L+R),并且Side=1/2*(L-R)。
[0084] 在一个实施例中,最简单的处理将是根据目前设备方向选择一对适用于输出信号的扬声器。例如,对于图2的三扬声器情况下,当电子设备初始在横向模式中时,等式(1)可以被写为:
[0085]
[0086] 可以从等式(18)中看出左声道信号和右声道信号被发送至扬声器a和b,而扬声器c则未改变。在旋转之后,假设设备在纵向模式中,然后等式(1)能够被写为:
[0087]
[0088] 可以看出渲染矩阵被改变,并且当设备在纵向模式中时,左声道信号和右声道信号被分别发送至扬声器c和b,而扬声器a为静音。
[0089] 以上的实施方式是针对不同方向选择不同的扬声器子集以输出L和R信号的简单方式。也可以采用如以下描述的较为复杂的渲染分量。例如,对于图2中的扬声器布局,由于扬声器b和c相对于扬声器a彼此更接近,因此,右声道可以均匀分派在b和c之间。因此,在横向模式中,基于方向的分量可以被选择为:
[0090]
[0091] 当电子设备在纵向模式中时,基于方向的分量可以如下改变:
[0092]
[0093] 随着电子设备的方向改变,基于方向的分量相应地改变。
[0094]
[0095] 其中O(θ)表示当角度等于θ时相应的基于方向的分量。
[0096] 渲染矩阵可以类似地用于其它扬声器布局情况,诸如四个扬声器布局,五个扬声器布局等。当输入信号是双耳信号时,上述串音消除器和中-侧(mid-side)处理能够同时采用,并且方向不变矩阵变为:
[0097]
[0098] 在该情况下,基于方向的分量是串音消除器的零点分量与基于布局的渲染矩阵的乘积。
[0099]
[0100] 多声道
[0101] 输入信号可以包括多个声道(N>2)。例如,输入信号可以是杜比数字/杜比数字加5.1格式,或MPEG环绕格式。
[0102] 在一个实施例中,多声道信号可以被转换为立体声或双耳信号。随后,可以采用以上描述的技术相应地将信号反馈至扬声器。例如,通过基于特定输入格式的合适的下混或双耳音频处理方法可以实现将多声道信号转换至立体声/双耳信号。例如,左全声道/右全声道(Lt/Rt)是适用于用杜比专业逻辑解码器解码以获得环绕5.1声道的下混。
[0103] 可替换地,多声道信号能够被直接馈入至扬声器或以定制的格式而不是传统的立体声格式被馈入至扬声器。例如,对于图3中所示出的四扬声器布局,输入信号可以被转换至包含C、Lt以及Rt的中间格式,如下所示:
[0104]
[0105] 其中(C L R Ls Rs)T表示输入信号。
[0106] 对于横向模式,当Lt和Rt声道信号被发送至图3中所示的扬声器a和c时,C信号被平均划分至扬声器b和d,基于方向的分量如下所示:
[0107]
[0108] 可替换地,输入能够通过基于方向的矩阵直接处理,使得每个独立的声道能够根据方向被分别适配。例如,根据扬声器布局,或多或少的增益能够被施加至环绕声道。
[0109]
[0110] 多声道输入可以包含高度声道、或具有高度/海拔信息的音频对象。诸如雨或飞机的音频对象也可以从传统环绕5.1音频信号中提取。例如,输入信号可以包含传统的环绕5.1加2高度声道,由环绕5.1.2表示。
[0111] 对象音频格式
[0112] 目前音频发展引入了一种新的音频格式,该音频格式包括音频声道(环境声)以及音频对象以创建一种更浸入式的音频体验。因此,基于声道的音频意味着音频内容通常包含预定物理位置(通常对应于扬声器的物理位置)。例如,立体声、环绕5.1、环绕7.1等能够被分类为基于声道的音频格式。与基于声道的音频格式不同,基于对象的音频是指在声场中存在特定持续时间的个体音频元素,一个音频对象可以是动态的也可以是静态的。这意味着当音频对象存储于单声道音频信号格式中时,将根据元数据存储的和传输的轨迹通过可用扬声器阵列来渲染。因此,能够得出,在基于对象的音频格式中保存的声音情景包含存储在声道中的静态部分和存储在对象中的动态部分,以及相对应的指示轨迹的元数据。
[0113] 因此,在基于对象的音频格式的内容中,对于对象和声道需要两个渲染矩阵,其由其相对应的基于方向的分量以及独立于方向的分量形成。因此,等式(1)变为:
[0114] Spkr=Robj×Obj+Rchn×Chn
[0115]                                 (28)
[0116] =Oobj×Pobj×Obj+Ochn×Pchn×Chn
[0117] 其中Oobj表示对象渲染矩阵Robj的基于方向的分量,Pobj表示对象渲染矩阵Robj的独立于方向的分量,Ochn表示声道渲染矩阵Rchn的基于方向的分量,并且Pchn表示声道渲染矩阵Rchn的独立于方向的分量。
[0118] Ambisonics(高保真立体声)B-格式
[0119] 接收的音频信号可以是Ambisonics B格式。没有高度z声道的一阶B格式通常被称为WXY格式。
[0120] 例如,通过以下线性混合过程处理称为Sig1的声音以生成三个信号W1、X1和Y1。
[0121] W1=Sig1
[0122] X1=x×Sig1      (29)
[0123] Y1=y×Sig1
[0124] 其中x表示cos(θ),y表示sin(θ),并且θ表示Sig1的方向。
[0125] B格式是可调的中间音频格式,其能够被转换为适用于扬声器播放的各种音频格式。例如,存在能够用于将B格式信号转换为双耳信号的高保真环绕声解码器。串音消除进一步被应用至立体声扬声器播放。一旦输入信号被转换至双耳格式或多声道格式,以上提出的渲染方法能够被采用以播放音频信号。
[0126] 当B格式被用于声音通信的内容中时,用于在接收设备上重建发送器的全部或部分声场。例如,已知的用以渲染WXY信号的各种方法,特别是一阶水平声场。随着增加的空间线索,诸如WXY的空间音频改善用户的语音通信体验。
[0127] 在一些已知的技术方案中,假设语音通信设备具有水平扬声器阵列(如在WO2013142657A1中所描述的),其不同于本发明的实施例中扬声器阵列被垂直设定,例如,当用户使用设备发出视频语音时。没有改变渲染算法,这会导致对于终端用户的声场的俯视图。而这可能导致一些非常规的声场感知,声场中的谈话者的空间分隔被很好地感知并且分隔效果甚至可以更显著。
[0128] 在该渲染模式中,当设备的方向被改变时声场可以相应地旋转,例如如下所示:
[0129]
[0130] 其中θ表示旋转角度。旋转矩阵构成本文中的基于方向的分量。
[0131] 图6示出了根据本发明的另一个示例实施例的用于在包括被布置在多于一个维度上的多个扬声器的电子设备上处理音频的系统的框图。
[0132] 生成单元601被配置为响应于多个接收的音频流生成与多个接收的音频流相关联的渲染分量。渲染分量与输入信号特性和播放要求相关联。在一些实施例中,渲染分量与接收的音频流的内容或格式相关联。
[0133] 确定单元602被配置为确定渲染分量的基于方向的分量。在一些实施例中,确定单元602能够进一步被配置为将渲染分量划分为基于方向的分量和独立于方向的分量。
[0134] 处理单元603被配置为通过根据扬声器的方向更新基于方向的分量来处理渲染分量。扬声器的数目和扬声器的布局能够根据不同的应用变化。能够通过使用方向传感器或其他适合的模块(诸如陀螺仪和加速器)来确定方向。方向确定模块能够被设置于电子设备内部或者外部。扬声器的方向与电子设备和其用户之间的角度连续相关联。
[0135] 分派单元604被配置为基于处理的渲染分量将接受的音频流分派至多个扬声器用于播放。
[0136] 应当注意一些可选的组件可以被添加至系统600,并且图6中所示的系统的一个或多个块可以被忽略。本发明的范围并不限于此。
[0137] 在一些实施例中,系统600还包括上混或下混单元,该上混或下混单元被配置为根据扬声器的数目将所接收的音频流上混或下混。此外,在一些实施例中,系统能够进一步包括串音消除器,该串音消除器被配置为消除所接收的音频流的串音。
[0138] 在其他的实施例中,确定单元602进一步被配置为将渲染分量划分为基于方向的分量和独立于方向的分量。
[0139] 在一些实施例中,接收的音频流是双耳信号。此外,系统进一步包括转换单元,该转换单元被配置为当接收的音频流是双耳信号时将接收的音频流转换为中-侧(mid-side)格式。
[0140] 在一些实施例中,接收的音频流是对象音频格式。在这种情况下,系统600能够进一步包括元数据处理单元,该元数据处理单元被配置为处理由接收的音频流所携的元数据。
[0141] 图7示出了适于用来实现本发明实施例的计算机系统700的示意性框图。如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。如所需要的,在RAM 703中,还存储有CPU 701执行各种过程等的数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
[0142] 以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
[0143] 特别地,根据本发明的实施例,上文参考图1-图6描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法100的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
[0144] 一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
[0145] 而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本发明的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
[0146] 在公开的上下文内,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
[0147] 用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
[0148] 另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务或并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
[0149] 针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。
[0150] 由此,本发明可以通过在此描述的任何形式来实现。例如,以下的枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。
[0151] EEE 1.一种在便携设备上输出音频的方法,包括:
[0152] 接收多个音频流;
[0153] 检测所扬声器阵列的方向,该扬声器阵列包括布置在多于一个维度上的至少三个扬声器;
[0154] 根据输入音频格式生成渲染分量;
[0155] 将渲染分量划分至基于方向的分量和独立于方向的分量;
[0156] 根据检测的方向更新基于方向的分量;
[0157] 通过布置在多于一个维度上的至少三个扬声器输出已被处理的
[0158] 多个音频流。
[0159] EEE 2.根据EEE1所述的方法,其中扬声器方向由方向传感器来检测。
[0160] EEE 3.根据EEE2所述的方法,其中渲染分量包括串音消除模块。
[0161] EEE 4.根据EEE3所述的方法,其中渲染分量包括上混器。
[0162] EEE 5.根据EEE2所述的方法,其中多个音频流为WXY格式。
[0163] EEE 6.根据EEE2所述的方法,其中多个音频流为5.1格式。
[0164] EEE7.根据EEE6所述的方法,其中多个音频流为立体声格式。
[0165] 将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。