用于处理多媒体信号的方法和设备转让专利

申请号 : CN201711373267.5

文献号 : CN108200530B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴贤午李泰圭

申请人 : 韦勒斯标准与技术协会公司

摘要 :

本发明涉及用于处理多媒体信号的方法和设备。本发明提供一种用于处理音频信号的方法和设备,该方法包括以下步骤:接收输入音频信号;接收截断的子带滤波器系数,用于对输入音频信号的每个子带信号进行滤波,截断的子带滤波器系数的长度基于滤波器阶数信息来确定,滤波器阶数信息通过至少部分地使用从相应的子带滤波器系数提取的特性信息获得;通过使用与每个子带信号对应的截断的子带滤波器系数来对输入音频信号进行滤波。

权利要求 :

1.一种用于处理音频信号的方法,包括:

接收输入音频信号;

接收截断的子带滤波器系数,用于对所述输入音频信号的每个子带信号进行滤波,所述截断的子带滤波器系数的长度基于滤波器阶数信息来确定,所述滤波器阶数信息通过至少部分地使用从相应的子带滤波器系数提取的特性信息获得,以及根据每个子带的混响时间信息所述滤波器阶数在频域中被确定为可变的;

通过使用与每个子带信号对应的所述截断的子带滤波器系数来对所述输入音频信号进行滤波。

2.根据权利要求1所述的方法,其中,至少一个子带的截断的子带滤波器系数的长度不同于另一子带的截断的子带滤波器系数的长度。

3.根据权利要求1所述的方法,其中,从用于对所述输入音频信号双耳滤波的双耳室脉冲响应滤波器系数获得的子带滤波器系数中截断所述截断的子带滤波器系数。

4.根据权利要求1所述的方法,其中,所述滤波器阶数信息对于每个子带具有单个值。

5.根据权利要求1所述的方法,

其中,所述输入音频信号包括多个子带信号,并且所述多个子带信号被分类为基于预定频带确定的具有低频子带信号的第一子带组和具有高频子带信号的第二子带组,以及其中,相对于用于所述第一子带组的子带信号通过使用所述截断的子带滤波器系数执行滤波。

6.根据权利要求5所述的方法,还包括:

获取与所述第二子带组的每个子带信号对应的至少一个参数,所述至少一个参数是从与所述第二子带组的每个子带信号对应的双耳室脉冲响应子带滤波器系数中提取的;以及通过使用接收到的参数对所述第二子带组的每个子带信号执行抽头延迟线滤波。

7.根据权利要求6所述的方法,其中,所述参数包括用于所述对应的双耳室脉冲响应子带滤波器系数的延迟信息和与所述延迟信息对应的增益信息。

8.一种用于处理音频信号的设备,包括:

渲染单元,所述渲染单元被配置为接收和滤波输入音频信号;

其中,所述渲染单元包括快速卷积单元,所述快速卷积单元被配置为:接收截断的子带滤波器系数,用于对所述输入音频信号的每个子带信号进行滤波,所述截断的子带滤波器系数的长度基于滤波器阶数信息来确定,所述滤波器阶数信息通过至少部分地使用从相应的子带滤波器系数提取的特性信息获得,以及根据每个子带的混响时间信息所述滤波器阶数在频域中被确定为可变的;以及通过使用与每个子带信号对应的所述截断的子带滤波器系数来对所述输入音频信号进行滤波。

9.根据权利要求8所述的设备,其中,至少一个子带的截断的子带滤波器系数的长度不同于另一子带的截断的子带滤波器系数的长度。

10.根据权利要求8所述的设备,其中,从用于对所述输入音频信号双耳滤波的双耳室脉冲响应滤波器系数获得的子带滤波器系数中截断所述截断的子带滤波器系数。

11.根据权利要求8所述的设备,其中,所述滤波器阶数信息对于每个子带具有单个值。

12.根据权利要求8所述的设备,

其中,所述输入音频信号包括多个子带信号,并且所述多个子带信号被分类为基于预定频带确定的具有低频子带信号的第一子带组和具有高频子带信号的第二子带组,以及其中,相对于所述第一子带组的子带信号,所述快速卷积单元通过使用所述截断的子带滤波器系数来执行滤波。

13.根据权利要求12所述的设备,还包括抽头延迟线处理单元,所述抽头延迟线处理单元被配置为:获取与所述第二子带组的每个子带信号对应的至少一个参数,所述至少一个参数是从与所述第二子带组的每个子带信号对应的双耳室脉冲响应子带滤波器系数中提取的;以及通过使用接收到的参数来对所述第二子带组的每个子带信号执行抽头延迟线滤波。

14.根据权利要求13所述的设备,其中,所述参数包括用于所述对应的双耳室脉冲响应子带滤波器系数的延迟信息和与所述延迟信息对应的增益信息。

说明书 :

用于处理多媒体信号的方法和设备

[0001] 本申请是2016年3月17日提交的国际申请日为2014年9月17日的申请号为201480051252.5(PCT/KR2014/008679)的,发明名称为“用于处理多媒体信号的方法和设备”专利申请的分案申请。
[0002] 相关申请的交叉引用
[0003] 本申请要求于2013年9月17日在美国专利与商标局提交的美国临时申请No.61/878,638、于2013年10月22日在韩国知识产权局提交的韩国专利申请No.10-2013-0125936以及于2013年10月23日在美国专利和商标局提交的美国临时申请No.61/894,442的优先权和权益,其整个内容通过引用被合并在此。

技术领域

[0004] 本发明涉及用于处理信号的方法和设备,其被用于有效地再现多媒体信号,并且更加特别地,涉及用于处理信号的方法和设备,其被用于以低计算量实现对于具有多个子带的多媒体信号的滤波。

背景技术

[0005] 存在随着目标滤波器的长度增加,用于立体收听多声道信号的双耳渲染要求高计算复杂性的问题。特别地,当使用反映了录音室特性的双耳室脉冲响应(BRIR)滤波器时,BRIR滤波器的长度可以达到48000至96000个采样。在此,当输入声道的数目像22.2声道格式一样增加时,计算复杂性是巨大的。
[0006] 当通过xi(n)表示第i个声道的输入信号时,通过biL(n)和biR(n)分别表示相对应的声道的左右BRIR滤波器,并且通过yL(n)和yR(n)表示输出信号,通过下面给出的等式能够表达双耳渲染。
[0007] [等式1]
[0008]
[0009] 在此,*表示卷积。通常基于快速傅立叶变换(FFT)通过使用快速卷积执行上述时域卷积。当通过使用快速卷积执行双耳渲染时,需要通过与输入声道的数目相对应的次数执行FFT,并且需要通过与输出声道的数目相对应的次数执行逆FFT。此外,因为像多声道音频编解码器一样在实时再现环境下需要考虑延迟,因此需要执行分块快速卷积,并且与相对于总长度仅执行快速卷积的情况下相比可能消耗更多的计算复杂性。
[0010] 然而,在频域中实现大多数编译方案,并且在一些编译方案(例如,HE-AAC、USAC等等)中,在QMF域中执行解码的最后步骤。因此,当如在上面给出的等式1中所示在时域中执行双耳滤波时,另外要求有与声道的数目一样多的用于QMF合成的操作,这是非常低效的。因此,在QMF域中直接地执行双耳渲染是有优势的。

发明内容

[0011] 技术问题
[0012] 本发明具有下述目的,关于立体再现多声道或者多对象信号,实现双耳渲染的要求高计算复杂性的滤波过程,用于以非常低的复杂性保留原始信号的沉浸感同时最小化音质的损坏。
[0013] 此外,本发明具有当在输入信号中包含失真时通过使用高质量的滤波器最小化失真的扩展的目的。
[0014] 此外,本发明具有通过具有较短长度的滤波器实现具有长度长的有限脉冲响应(FIR)滤波器的目的。
[0015] 此外,本发明具有当通过使用被截断的FIR滤波器执行滤波时最小化由于丢弃的滤波器系数而破坏的部分的失真的目的。
[0016] 技术方案
[0017] 为了实现目的,本发明提供一种如下面的用于处理音频信号的方法和设备。
[0018] 本发明的示例性实施例提供一种用于处理音频信号的方法,包括:接收包括多声道或者多对象信号的多音频信号;接收用于滤波多音频信号的被截断的子带滤波器系数,被截断的子带滤波器系数是从用于多音频信号的双耳渲染的双耳室脉冲响应(BRIR)滤波器系数中获得的子带滤波器系数的至少一部分,基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获取的滤波器阶数信息确定被截断的子带滤波器系数的长度,并且至少一个被截断的子带滤波器系数的长度不同于另一子带的被截断的子带滤波器系数的长度;以及通过使用与多音频信号的每个子带信号相对应的被截断的子带滤波器系数滤波子带信号。
[0019] 本发明的另一示例性实施例提供一种用于处理音频信号的设备,其被用于执行对于包括多声道或者多对象信号的多音频信号的双耳渲染,多音频信号均包括多个子带信号,该设备包括:快速卷积单元,该快速卷积单元被配置成执行对于每个子带信号的直接声音和前期反射声部分的渲染;和后期混响生成单元,该后期混响生成单元被配置成执行用于每个子带信号的后期混响部分的渲染,其中快速卷积单元接收用于滤波多音频信号的被截断的子带滤波器系数,被截断的子带滤波器系数是从用于多音频信号的双耳滤波的双耳室脉冲响应(BRIR)滤波器系数获取的子带滤波器系数的至少一部分,基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获取的滤波器阶数信息确定被截断的子带滤波器系数的长度,并且至少一个被截断的子带滤波器系数的长度不同于另一子带的被截断的子带滤波器系数的长度,并且通过使用与多音频信号的每个子带信号相对应的被截断的子带滤波器系数滤波子带信号。
[0020] 特性信息可以包括相对应的子带滤波器系数的第一混响时间信息,并且滤波器阶数信息可以对于每个子带具有一个值。
[0021] 被截断的子带滤波器的长度可以具有2的幂的倍数的值。
[0022] 多个子带滤波器系数和多个子带信号可以包括基于预先确定的频带分别具有低频率的第一子带组和具有高频率的第二子带组,并且相对于第一子带组的子带信号和被截断的子带滤波器系数执行滤波。
[0023] 通过使用至少部分基于相对应的子带滤波器系数的第一混响时间信息截断的前子带滤波器系数执行滤波,并且该方法可以进一步包括处理与跟随子带滤波器系数当中的前子带滤波器系数的区段相对应的子带信号的混响。
[0024] 混响的处理可以包括:接收用于每个子带的缩混子带滤波器系数,通过组合用于相对应的子带的每个声道或者每个对象的各自的后子带滤波器系数生成缩混子带滤波器系数,并且从跟随相对应的子带滤波器系数当中的前子带滤波器系数的区段获取后子带滤波器系数;生成用于每个子带的缩混子带信号,通过缩混用于相对应的子带的每个声道或者每个对象的各自的子带信号生成缩混子带信号;以及通过使用缩混子带信号和与其相对应的缩混子带滤波器系数生成2声道左右子带混响信号。
[0025] 该方法可以进一步包括,其中缩混子带信号是单声子带信号,并且缩混子带滤波器系数反映用于相对应的子带信号的混响部分的能量衰减特性;生成用于被滤波的单声子带信号的解相关信号;以及通过执行在被滤波的单声道子带信号和解相关信号之间的加权和生成2声道左右信号。
[0026] 本发明的又一示例性实施例提供一种用于处理音频信号的方法,包括:接收包括多声道或多对象信号的多音频信号,多音频信号中的每个包括多个子带信号,并且基于预先确定的频带多个子带信号包括具有低频率的第一子带组的信号和具有高频率的第二子带组的信号;接收与第二子带组的每个子带信号相对应的至少一个参数,从与第二子带组的每个子带信号相对应的双耳室脉冲响应(BRIR)子带滤波器系数提取至少一个参数;以及通过使用接收到的参数执行第二子带组的子带信号的抽头延迟线滤波。
[0027] 本发明的又一示例性实施例提供一种用于处理音频信号的设备,其被用于执行用于包括多声道或者多对象信号的多音频信号的双耳渲染,多音频信号中的每个包括多个子带信号,并且基于预先确定的频带多个子带信号包括具有低频率的第一子带组的信号和具有高频率的第二子带组的信号,该设备包括:快速卷积单元,该快速卷积单元被配置成执行第一子带组的每个子带信号的渲染;和抽头延迟线处理单元,该抽头延迟线处理单元被配置成执行第二子带组的每个子带信号的渲染,其中抽头延迟线处理单元接收与第二子带组的每个子带信号相对应的至少一个参数,从与第二子带组的每个子带信号相对应的双耳室脉冲响应(BRIR)子带滤波器系数提取至少一个参数,并且通过使用接收到的参数执行第二子带组的子带信号的抽头延迟线滤波。
[0028] 参数可以包括用于相对应的BRIR子带滤波器系数的一个延迟信息和与延迟信息相对应的一个增益信息。
[0029] 抽头延迟线滤波可以是使用参数的单抽头延迟线滤波。
[0030] 延迟信息可以指示用于BRIR子带滤波器系数中的最大峰值的位置信息。
[0031] 延迟信息在QMF域中可以具有基于采样的整数值。
[0032] 增益信息可以具有复值。
[0033] 该方法可以进一步包括:将被滤波的多音频信号与用于每个子带的2声道左右子带信号求和;将被求和的左右子带信号与从第一子带组的多音频信号生成的左右子带信号耦合;以及QMF合成各自的被耦合的左右子带信号。
[0034] 本发明的又一示例性实施例提供一种用于处理多媒体信号的方法,包括:接收具有多个子带的多媒体信号;接收用于滤波多媒体信号的每个子带信号的至少一个原型滤波器系数;将原型滤波器系数转换成多个子带滤波器系数;基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获得的滤波器阶数信息截断每个子带滤波器系数,至少一个被截断的子带滤波器系数的长度不同于另一子带的被截断的子带滤波器系数的长度;以及通过使用与每个子带信号相对应的被截断的子带滤波器系数滤波多媒体信号。
[0035] 本发明的又一示例性实施例提供一种用于处理具有多个子带的多媒体信号的设备,包括:参数化单元,该参数化单元被配置成接收用于滤波多媒体信号的每个子带信号的至少一个原型滤波器系数,将原型滤波器系数转换成多个子带滤波器系数,以及基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获得的滤波器阶数信息截断每个子带滤波器系数,至少一个被截断的子带滤波器系数的长度不同于另一子带的被截断的子带滤波器系数的长度;以及渲染单元,该渲染单元被配置成通过使用与每个子带信号相对应的被截断的子带滤波器系数接收多媒体信号并且滤波多媒体信号。
[0036] 多媒体信号可以包括多声道或者多对象信号,并且原型滤波器系数可以是时域的BRIR滤波器系数。
[0037] 特性信息可以包括相对应的子带滤波器系数的能量衰减时间信息,并且滤波器阶数信息可以对于每个子带具有一个值。
[0038] 本发明的又一示例性实施例提供一种用于处理音频信号的方法,包括:接收包括多声道或者多对象信号的多音频信号,多音频信号中的每个包括多个子带信号,并且基于预先确定的频带多个子带信号包括具有低频率的第一子带组的信号和具有高频率的第二子带组的信号;接收用于滤波第一子带组的多音频信号的被截断的子带滤波器系数,被截断的子带滤波器系数是从用于多音频信号的双耳滤波的双耳室脉冲响应(BRIR)滤波器系数获得的第一子带组的子带滤波器系数的至少一部分,并且基于通过至少部分地使用从相对应的子带滤波器系数提取的特性新获得的滤波器阶数信息确定被截断的子带滤波器系数的长度;使用被截断的子带滤波器系数滤波第一子带组的子带信号;接收与第二子带组的每个子带信号相对应的至少一个参数,从与第二子带组的每个子带信号相对应的子带滤波器系数提取至少一个参数;以及通过使用接收到的参数执行第二子带组的子带信号的抽头延迟线滤波。
[0039] 本发明的又一示例性实施例提供用于处理音频信号的设备,其被用于执行用于包括多声道或者多对象信号的多音频信号的双耳渲染,多音频信号均包括多个子带信号,并且基于预先确定的频带多个子带信号包括具有低频率的第一子带组的信号和具有高频率的第二子带组的信号,该设备包括:快速卷积单元,该快速卷积单元执行第一子带组的每个子带信号的渲染;和抽头延迟线处理单元,该抽头延迟线处理单元执行第二子带组的每个子带信号的渲染,其中快速卷积单元接收用于滤波第一子带组的多音频信号的被截断的子带滤波器系数,被截断的子带滤波器系数是从用于第一子带组的多音频信号的双耳渲染的双耳室脉冲响应(BRIR)滤波器获得的子带滤波器系数的至少一部分,基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获得的滤波器阶数信息确定被截断的子带滤波器系数的长度,并且通过使用被截断的子带滤波器系数滤波第一子带组的子带信号,并且该抽头延迟线处理单元接收与第二子带组的每个子带信号相对应的至少一个参数,从与第二子带组的每个子带信号相对应的子带滤波器系数提取至少一个参数,并且通过使用接收到的参数执行第二子带组的子带信号的抽头延迟线滤波。
[0040] 该方法可以进一步包括:耦合通过滤波第一子带组的子带信号生成的2声道左右子带信号和通过抽头延迟滤波第二子带组的子带信号生成的2声道左右子带信号;和QMF合成各自的被耦合的左右子带信号。
[0041] 有益效果
[0042] 根据本发明的示例性实施例,当执行对于多声道或者多对象信号的双耳渲染时,能够显著地减少计算复杂性同时最小化音质的损耗。
[0043] 根据本发明的示例性实施例,能够实现其实时处理在现有的低功率设备中不可行的多声道或者多对象音频信号的高音质的双耳渲染。

附图说明

[0044] 图1是图示根据本发明的示例性实施例的音频信号解码器的框图。
[0045] 图2是图示根据本发明的示例性实施例的双耳渲染器的每个组件的框图。
[0046] 图3至图7是图示根据本发明的实施例的用于处理音频信号的设备的各种示例性实施例的图。
[0047] 图8至图10是图示根据本发明的示例性实施例的用于生成用于双耳渲染的FIR滤波器的方法的图。
[0048] 图11至图14是图示本发明的P部分渲染单元的各种示例性实施例的图。
[0049] 图15和图16是图示本发明的QTDL处理的各种示例性实施例的图。

具体实施方式

[0050] 作为在本说明书中使用的术语,通过考虑本发明中的功能,当前尽可能被广泛地使用的通用术语被选择,但是它们可以取决于本领域中的技术人员的意图、习惯或者新技术的出现而被改变。此外,在特定的情况下,申请人任意地选择的术语可以被使用,并且在此情况下,在本发明的相对应的描述部分中辨别其意义。因此,贯穿整个说明书,将会公开在本说明书中使用的术语应基于不是仅术语的名称而且术语的本质意义和内容分析。
[0051] 图1是图示根据本发明的示例性实施例的音频信号解码器的框图。根据本发明的音频信号解码器包括核心解码器10、渲染单元20、混合器30以及后处理单元40。
[0052] 首先,核心解码器10解码扬声器声道信号、离散对象信号、对象缩混信号、以及预渲染的信号。根据示例性实施例,在核心解码器10中,基于统一的语音和音频编译(USAC)的编解码器可以被使用。核心解码器10解码接收到的比特流并且将被解码的比特流传输到渲染单元20。
[0053] 渲染单元20通过使用再生布局信息执行对通过核心解码器10解码的信号渲染。渲染单元20可以包括格式转换器22、对象渲染器24、OAM解码器25、SAOC解码器26、以及HOA解码器28。渲染单元20根据被解码的信号的类型通过使用上述组件中的任何一个执行渲染。
[0054] 格式转换器22将发送的声道信号转换成输出扬声器声道信号。即,格式转换器22在发送的声道配置和要被再生的扬声器声道配置之间执行转换。当输出扬声器声道的数目(例如,5.1声道)小于发送的声道的数目(例如,22.2声道)或者发送的声道配置不同于要被再生的声道配置时,格式转换器22执行发送的声道信号的缩混。本发明的音频信号解码器可以通过使用输入声道信号和输出扬声器声道信号的组合生成最佳的缩混矩阵,并且通过使用该矩阵执行缩混。根据本发明的示例性实施例,通过格式转换器22处理的声道信号可以包括预渲染的对象信号。根据示例性实施例,在编码音频信号以与声道信号混合之前,预渲染至少一个对象信号。与声道信号一起,如上所述的被混合的对象信号可以被格式转换器22转换成输出扬声器声道信号。
[0055] 对象渲染器24和SAOC解码器26执行对于基于对象的音频信号的渲染。基于对象的音频信号可以包括离散对象波形和参数对象波形。在离散对象波形的情况下,每个对象信号以单声波形被提供给编码器,并且编码器通过使用单个声道要素(SCE)发送对象信号中的每个。在参数对象波形的情况下,多个对象信号被缩混成至少一个声道信号,并且每个对象的特征和对象之间的关系被表达为空间音频对象编译(SAOC)参数。对象信号被缩混以被编码到核心编解码器,并且此时生成的参数信息被一起发送到解码器。
[0056] 同时,当离散对象波形或者参数对象波形被发送到音频信号解码器时,与其相对应的被压缩的对象元数据可以被一起发送。对象元数据以时间和空间为单位量化对象属性,以在3D空间中指定每个对象的位置和增益值。渲染单元20的OAM解码器25接收被压缩的对象元数据并且解码接收到的对象元数据,并且将被解码的对象元数据传输到对象渲染器24和/或SAOC解码器26。
[0057] 对象渲染器24通过使用对象元数据根据给定的再生格式执行渲染每个对象信号。在这样的情况下,基于对象元数据,每个对象信号可以被渲染到特定的输出声道。SAOC解码器26从解码的SAOC传输声道和参数信息恢复对象/声道信号。SAOC解码器26可以基于再生布局信息和对象元数据生成输出音频信号。正因如此,对象渲染器24和SAOC解码器26可以将对象信号渲染到声道信号。
[0058] HOA解码器28接收高阶环境声(HOA)系数信号和HOA附加信息,并且解码接收到的HOA系数信号和HOA附加信息。HOA解码器28通过单独的等式建模声道信号或者对象信号,以生成声音场景。当选择在生成的声音场景中的扬声器的空间位置时,可以执行到扬声器声道信号的渲染。
[0059] 同时,虽然在图1中未被图示,当音频信号被传输到渲染单元20的每个组件时,动态范围控制(DRC)可以作为预处理过程被执行。DRX将再生的音频信号的动态范围限于预先确定的水平,并且将小于预先确定的阈值的声音调节成较大并且将大于预先确定的阈值的声音调节成较小。
[0060] 通过渲染单元20处理的基于声道的音频信号和基于对象的音频信号可以被传输到混合器30。混合器30调节基于声道的波形和被渲染的对象波形的延迟,并且以采样为单位求和被调节的波形。通过混合器30求和的音频信号被传输到后处理单元40。
[0061] 后处理单元40包括扬声器渲染器100和双耳渲染器200。扬声器渲染器100执行用于输出从混合器30传输的多声道和/或多对象音频信号的后处理。后处理可以包括动态范围控制(DRC)、响度标准化(LN)、峰值限制器(PL)等等。
[0062] 双耳渲染器200生成多声道和/或多对象音频信号的双耳缩混信号。双耳缩混信号是允许通过以3D定位的虚拟声源表达每个输入声道/对象信号的2声道音频信号。双耳渲染器200可以接收被提供给扬声器渲染器100的音频信号作为输入信号。基于双耳室脉冲响应(BRIR)滤波器执行双耳渲染,并且在时域或者QMF域中执行。根据示例性实施例,作为双耳渲染的后处理过程,动态范围控制(DRC)、响度标准化(LN)、峰值限制器(PL)等等可以被另外执行。
[0063] 图2是图示根据本发明的示例性实施例的双耳渲染器的每个组件的框图。如在图2中所图示,根据本发明的示例性实施例的双耳渲染器200可以包括BRIR参数化单元210、快速卷积单元230、后期混响生成单元240、QTDL处理单元250、以及混合器和组合器260。
[0064] 双耳渲染器200通过执行各种类型的输入信号的双耳渲染生成3D音频耳机信号(即,3D音频2声道信号)。在这样的情况下,输入信号可以是包括声道信号(即,扬声器声道信号)、对象信号、以及HOA系数信号中的至少一个的音频信号。根据本发明的另一示例性示例,当双耳渲染器200包括特殊的解码器时,输入信号可以是前述的音频信号的被编码的比特流。双耳渲染将解码的输入信号转换成双耳缩混信号以使其能够在通过耳机听相对应的双耳缩混信号时体验环绕的声音。
[0065] 根据本发明的示例性实施例,双耳渲染器200可以在QMF域中执行输入信号的双耳渲染。这就是说,双耳渲染器200可以接收QMF域的多声道(N个声道)的信号,并且通过使用QMF域的BRIP子带滤波器执行用于多声道的信号的双耳渲染。当通过xk,i(l)表示经过QMF分析滤波器组的第i个声道的第k个子带信号并且通过1表示子带域中的时间索引时,可以通过下面给出的等式表达QMF域中的双耳渲染。
[0066] [等式2]
[0067]
[0068] 在此,通过将时域BRIR滤波器转换成QMF域的子带滤波器获得m∈{L,R}和[0069] 即,可以通过将QMF域的声道信号或者对象信号划分成多个子带信号并且利用与其相对应的BRIR子带滤波器卷积各自的子带信号,并且其后,求和通过BRIR子带滤波器卷积的各自的子带信号的方法,可以执行双耳渲染。
[0070] BRIR参数化单元210转换和编辑用于QMF域中的双耳渲染的BRIR滤波器系数并且生成各种参数。首先,BRIR参数化单元210接收用于多声道或者多对象的时域BRIR滤波器系数,并且将接收到的时域BRIR滤波器系数转换成QMF域BRIR滤波器系数。在这样的情况下,QMF域BRIR滤波器系数包括与多个频带分别相对应的多个子带滤波器系数。在本发明中,子带滤波器系数指示QMF转换的子带域的每个BRIR滤波器系数。在本说明书中,子带滤波器系数可以被指定为BRIR子带滤波器系数。BRIR参数化单元210可以编辑QMF域的多个BRIR子带滤波器系数中的每个,并且将被编辑的子带滤波器系数传输到快速卷积单元230等等。根据本发明的示例性实施例,BRIR参数化单元210可以被包括作为双耳渲染器200的组件,否则比提供作为单独的设备。根据示例性示例,包括除了BRIR参数化单元210之外的快速卷积单元230、后期混响生成单元240、QTDL处理单元250、以及混合器和组合器260的组件可以被分类成双耳渲染单元220。
[0071] 根据示例性实施例,BRIR参数化单元210可以接收与虚拟再生空间的至少一个位置相对应的BRIR滤波器系数作为输入。虚拟再生空间的每个位置可以对应于多声道系统的每个扬声器位置。根据示例性实施例,通过BRIR参数化单元210接收到的BRIR滤波器系数中的每个可以直接地匹配双耳渲染器200的输入信号的每个声道或者每个对象。相反地,根据本发明的另一示例性实施例,接收到的BRIR滤波器系数中的每个可以具有与双耳渲染器200的输入信号独立的配置。即,通过BRIR参数化单元210接收到的BRIR滤波器系数的至少一部分可以不直接匹配双耳渲染器200的输入信号,并且接收到的BRIR滤波器系数的数目可以小于或者大于输入信号的声道和/或对象的总数目。
[0072] 根据本发明的示例性实施例,BRIR参数化单元210转换和编辑与双耳渲染器200的输入信号的每个声道或者每个对象相对应的BRIR滤波器系数,以将被转换和编辑的BRIR滤波器系数传输到双耳渲染单元220。相对应的BRIR滤波器系数可以是用于每个声道或者每个对象的匹配BRIR或者回退BRIR。BRIR匹配可以被确定在虚拟再生空间中是否存在针对每个声道或者每个对象的位置的BRIR滤波器系数。当针对输入信号的各自的声道或者各自的对象的位置中的至少一个的BRIR滤波器系数存在时,BRIR滤波器系数可以是输入信号的匹配BRIR。然而,当针对特定声道或者对象的位置的BRIR滤波器系数不存在时,双耳渲染单元220可以提供针对与相对应的声道或者对象大部分相似的位置的BRIR滤波器系数,作为用于相对应的声道或者对象的回退BRIR。
[0073] 同时,根据本发明的另一示例性实施例,BRIR参数单元210转换和编辑接收到的BRIR滤波器系数的全部,以将转换和编辑的BRIR滤波器系数传输到双耳渲染单元220。在这样的情况下,通过双耳渲染单元220可以执行与输入信号的每个声道或者每个对象相对应的BRIR滤波器系数(可替选地,编辑的BRIR滤波器系数)的选择过程。
[0074] 双耳渲染单元220包括快速卷积单元230、后期混响生成单元240、以及QTDL处理单元250,并且接收包括多声道和/或多对象信号的多音频信号。在本说明书中,包括多声道和/或多对象信号的输入信号将会被称为多音频信号。图2图示双耳渲染单元220根据示例性实施例接收QMF域的多声道信号,但是双耳渲染单元220的输入信号可以进一步包括时域多声道信号和时域多对象信号。此外,当双耳渲染单元220另外包括特定的解码器时,输入信号可以是多音频信号的被编码的比特流。此外,在本说明书中,基于执行多音频信号的BRIR渲染的情况描述了本发明,但是本发明不限于此。因此,通过本发明提供的特征不仅可以被应用于BRIR而且可以被应用于其它类型的渲染滤波器,并且不仅被应用于多音频信号而且被应用于单声道或者单对象的音频信号。
[0075] 快速卷积单元230执行在输入信号和BRIR滤波器之间的快速卷积以处理用于输入信号的直接声音和前期反射声音。为此,快速卷积单元230可以通过使用被截断的BRIR执行快速卷积。被截断的BRIR包括取决于每个子带频率截断的多个子带滤波器系数,并且通过BRIR参数化单元210生成。在这样的情况下,取决于相对应的子带的频率确定每个被截断的子带滤波器系数的长度。快速卷积单元230可以通过使用根据子带具有不同长度的被截断的子带滤波器系数在频域中执行可变阶滤波。即,在用于每个频带的QMF域子带音频信号和与其相对应的QMF域的被截断的子带滤波器之间可以执行快速卷积。在本说明书中,直接声音和前期反射(D&E)部分可以被称为前(F)部分。
[0076] 后期混响生成单元240生成用于输入信号的后期混响信号。后期混响信号表示跟随由快速卷积单元230生成的直接声音和前期反射声音的输出信号。后期混响生成单元240可以基于通过从BRIR参数化单元210传输的每个子带滤波器系数确定的混响时间信息处理输入信号。根据本发明的示例性实施例,后期混响生成单元240可以生成用于输入音频信号的单声或者立体声缩混信号,并且执行被生成的缩混信号的后期混响处理。在本说明书中,后期混响(LR)部分可以被称为参数(P)部分。
[0077] QMF域抽头延迟线(QTDL)处理单元250处理输入音频信号当中的高频带中的信号。QTDL处理单元250从BRIR参数化单元210接收对应于高频带中的每个子带信号的至少一个参数,并且通过使用接收到的参数在QMF域中执行抽头延迟时间滤波。根据本发明的示例性实施例,基于预先确定的常数或者预先确定的频带,双耳渲染器200将输入音频信号分离成低频带信号和高频带信号,并且分别可以通过快速卷积单元230和后期混响生成单元240处理低频带信号,并且可以通过QTDM处理单元处理高频带信号。
[0078] 快速卷积单元230、后期混响生成单元240、以及QTDL处理单元250中的每个输出2声道QMF域子带信号。混合器和组合器260组合并混合快速卷积单元230的输出信号、后期混响生成单元240的输出信号,以及QTDL处理单元250的输出信号。在这样的情况下,为2个声道的左右输出信号中的每个单独地执行输出信号的组合。双耳渲染器200在时域中对被组合的输出信号执行QMF合成以生成最终的输出音频信号。
[0079] 在下文中,参考每个附图将会详细地描述在图2中图示的快速卷积单元230、后期混响生成单元240、以及QTDM处理单元250及其组合的各种示例性实施例。
[0080] 图3至图7图示根据本发明的用于处理音频信号的设备的各种示例性实施例。在本发明中,作为狭义,用于处理音频信号的设备可以指示如在图2中图示的双耳渲染器200或者双耳渲染单元220。然而,在本发明中,作为广义,用于处理音频信号的设备可以指示包括双耳渲染器的图1的音频信号解码器。为了描述的方便起见在图3至图7中图示的每个双耳渲染器可以仅指示在图2中图示的双耳渲染器200的一些组件。此外,在下文中,在本说明书中,将会主要地描述多声道输入信号的示例性实施例,但是除非另外描述,否则声道、多声道、以及多声道输入信号可以分别被用作包括对象、多对象、以及多对象输入信号的概念。此外,多声道输入信号也可以被用作包括HOA解码和渲染的信号的概念。
[0081] 图3图示根据本发明的示例性实施例的双耳渲染器200A。当使用BRIR的双耳渲染被一般化时,双耳渲染是用于获取用于具有M个声道的多声道输入信号的O输出信号的M至O处理。双耳滤波可以被视为在这样的过程期间使用与每个输入声道和每个输出声道相对应的滤波器系数的滤波。在图3中,初始滤波器集合H意指从每个声道信号的扬声器位置直到左耳和右耳的位置的传递函数。在传递函数当中的在一般收听室,即,回响空间中测量的传递函数被称为双耳室脉冲响应(BRIR)。相反地,在无回声室测量使得没有被再生空间影响的传递函数被称为头相关脉冲响应(HRIR),并且其传递函数被称为头相关传递函数。因此,不同于HRTF,BRIR包含再生空间的信息以及方向信息。根据示例性实施例,可以通过使用HRTF和人工混响器代替BRIR。在本说明书中,描述了使用BRIR的双耳渲染,但是本发明不限于此,并且本发明甚至可以类似地应用于使用各种类型的FIR滤波器的双耳渲染。同时,BRIR可以具有如上所述的96K个采样的长度,并且因为通过使用不同的M*O个滤波器执行多声道双耳渲染,要求有具有高计算复杂性的处理过程。
[0082] 根据本发明的示例性实施例,为了优化计算复杂性,BRIR参数化单元210可以生成从原始滤波器集合H变换的滤波器系数。BRIR参数化单元210将原始滤波器系数分离成前(F)部分系数和参数(P)部分系数。在此,F部分表示直接声音和前期反射(D&E)部分,P部分表示后期混响(LR)部分。例如,具有96K个采样的长度的原始滤波器系数可以被分离成其中仅前面的4K个采样被截断的F部分和与剩余的92K个采样相对应的部分的P部分中的每个。
[0083] 双耳渲染单元220从BRIR参数化单元210接收F部分系数和P部分系数中的每个,并且通过使用接收到的系数执行渲染多声道输入信号。根据本发明的示例性实施例,在图2中图示的快速卷积单元230通过使用从BRIR参数化单元210接收到的F部分系数渲染多音频信号,并且后期混响生成单元240可以通过使用从BRIR参数化单元接收到的P部分系数渲染多音频信号。即,快速卷积单元230和后期混响生成单元240可以分别对应于本发明的F部分渲染单元和P部分渲染单元。根据示例性实施例,通过一般的有限脉冲响应(FIR)滤波器可以实现F部分渲染(使用F部分系数的双耳渲染),并且通过参数方法可以实现P部分渲染(使用P部分系数的双耳渲染)。同时,通过用户或者控制系统提供的复杂性质量控制输入可以被用于确定对F部分和/或P部分生成的信息。
[0084] 图4图示根据本发明的另一示例性实施例的通过双耳渲染器200B实现F部分渲染的更加详细的方法。为了描述的方便起见,在图4中P部分渲染单元被省略。此外,图4图示在QMF域中实现的滤波器,但是本发明不限于此,并且可以被应用于其它域的子带处理。
[0085] 参考图4,在QMF域中通过快速卷积单元230可以执行F部分渲染。对于在QMF域中的渲染,QMF分析单元222将时域输入信号x0、x1、…x_M-1转换成QMF域信号X0、X1、…X_M-1。在这样的情况下,输入信号x0、x1、…x_M-1可以是多声道音频信号,即,与22.2声道扬声器相对应的声道信号。在QMF域中,可以使用总共64个子带,但是本发明不限于此。同时,根据本发明的示例性实施例,从双耳渲染器200B中可以省略QMF分析单元222。在使用谱带复制(SBR)的HE-AAC或者USAC的情况下,因为在QMF域中执行处理,所以双耳渲染器200B可以在没有QMF分析的情况下立即接收作为输入的QMF域信号X0、X1、…X_M-1。因此,当QMF域信号作为如上所述的输入被直接地接收时,在根据本发明的双耳渲染器中使用的QMF与在先前的处理单元(即,SBR)中使用的QMF相同。QMF合成单元244QMF合成2个声道的左和右信号Y_L和Y_R,其中执行双耳渲染,以生成时域的2声道输出音频信号yL和yR。
[0086] 图5至图7分别图示执行F部分渲染和P部分渲染两者的双耳渲染器200C、200D以及200E的示例性实施例。在图5至图7的示例性实施例中,在QMF域中通过快速卷积单元230执行F部分渲染,并且在QMF域或者时域中通过后期混响生成单元240执行P部分渲染。在图5至图7的示例性实施例中,将会省略与先前的附图的示例性实施例重复的部分的详细描述。
[0087] 参考图5,双耳渲染器200C可以在QMF域中执行F部分渲染和P部分渲染两者。即,双耳渲染器200C的QMF分析单元222将时域输入信号x0、x1、…x_M-1转换成QMF域信号X0、X1、…X_M-1以将被转换的QMF域信号X0、X1、…X_M-1中的每个传输到快速卷积单元230和后期混响生成单元240。快速卷积单元230和后期混响生成单元240分别渲染QMF域信号X0、X1、…X_M-1以生成2声道输出信号Y_L、Y_R和Y_Lp、Y_Rp。在这样的情况下,快速卷积单元230和后期混响生成单元240可以通过分别使用BRIR参数化单元210接收到的F部分滤波器系数和P部分滤波器系数执行渲染。F部分渲染的输出信号Y_L和Y_R与P部分渲染的输出信号Y_Lp和Y_Rp在混合器和组合器260中被组合用于左和右声道的每个,并且被传输到QMF合成单元224。QMF合成单元224QMF合成输入的2个声道的左右信号以生成时域的2声道输出音频信号yL和yR。
[0088] 参考图6,双耳渲染器200D可以执行QMF域中的F部分渲染和时域中的P部分渲染。双耳渲染器200D的QMF分析单元222QMF转换时域输入信号,并且将被转换的时域输入信号传输到快速卷积单元230。快速卷积单元230执行F部分渲染QMF域信号以生成2声道输出信号Y_L和Y_R。QMF分析单元224将F部分渲染的输出信号转换成时域输出信号,并且将被转换的时域输出信号传输到混合器和组合器260。同时,后期混响生成单元240通过直接地接收时域输入信号执行P部分渲染。P部分渲染的输出信号yLp和yRp被传输到混合器和组合器
260。混合器和组合器260在时域中组合F部分渲染输出信号和P部分渲染输出信号,以在时域中生成2声道输出音频信号yL和yR。
[0089] 在图5和图6的示例性实施例中,并行地执行F部分渲染和P部分渲染,同时根据图7的示例性实施例,双耳渲染器200E可以顺序地执行F部分渲染和P部分渲染。即,快速卷积单元230可以执行F部分渲染QMF转换的输入信号,并且QMF合成单元224可以将F部分渲染的2声道信号Y_L和Y_R转换成时域信号,并且其后,将转换的时域信号传输到后期混响生成单元240。后期混响生成单元240执行P部分渲染输入2声道信号以生成时域的2声道输出音频信号yL和yR。
[0090] 图5至图7分别图示执行F部分渲染和P部分渲染的示例性实施例,并且各自的附图的示例性实施例被组合和修改以执行双耳渲染。也就是说,在每个示例性实施例中,双耳渲染器可以将输入信号缩混成2声道左右信号或者单声信号,并且其后执行P部分渲染缩混信号以及分开地执行P部分渲染输入的多音频信号中的每个。
[0091] <频域中的可变阶滤波(VOFF)>
[0092] 图8至图10图示根据本发明的示例性实施例的用于生成用于双耳渲染的FIR滤波器的方法。根据本发明的示例性实施例,被转换成QMF域的多个子带滤波器的FIR滤波器可以被用于QMF域中的双耳渲染。在这样的情况下,取决于每个子带截取的子带滤波器可以被用于F部分渲染。即,双耳渲染器的快速卷积单元可以通过使用根据子带具有不同长度的被截断的子带滤波器在QMF域中执行可变阶滤波。在下文中,可以通过图2的BRIR参数化单元执行将会在下面描述的图8至图10中的滤波器生成的示例性实施例。
[0093] 图8图示根据被用于双耳渲染的QMF域滤波器的每个QMF带的长度的示例性实施例。在图8的示例性实施例中,FIR滤波器被转换成I QMF子带滤波器,并且Fi表示QMF子带i的被截断的子带滤波器。在QMF域中,总共64个子带可以被使用,但是本发明不限于此。此外,N表示初始子带滤波器的长度(抽头的数目),并且分别通过N1、N2以及N3表示被截断的子带滤波器的长度。在这样的情况下,长度N、N1、N2以及N3表示在降采样的QMF域(即,QMF时隙)中的抽头的数目。
[0094] 根据本发明的示例性实施例,根据每个子带具有不同的长度N1、N2以及N3的被截断的子带滤波器可以被用于F部分渲染。在这样的情况下,被截断的子带滤波器是在初始子带滤波器中截断的前滤波器,并且也可以被指定为前子带滤波器。此外,在截取初始子带滤波器之后的后部分可以被指定为后子带滤波器并且被用于P部分渲染。
[0095] 在使用BRIR滤波器渲染的情况下,基于从初始BRIR滤波器提取的参数,即,用于每个子带滤波器的混响时间(RT)信息、能量衰减曲线(EDC)值、能量衰减时间信息等等,用于每个子带的滤波器阶数(即,滤波器长度)可以被确定。由于声学特性,其中取决于墙和天花板的材料的在空气中的衰减和声音吸收程度对于每个频率变化,因此混响时间取决于频率而变化。通常,具有更低的频率的信号具有更长的混响时间。因为混响时间长意指更多的信息保留在FIR滤波器的后部中,所以优选的是,在正常传输混响信息中长地截断相对应的滤波器。因此,至少基于从相对应的子带滤波器提取的特性信息(例如,混响时间信息),确定本发明的每个被截断的子带滤波器的长度。
[0096] 根据各种示例性实施例可以确定被截断的子带滤波器的长度。首先,根据示例性实施例,每个子带可以被分类成多个组,并且每个被截断的子带滤波器的长度可以根据被分类的组而被确定。根据图8的示例,每个子带可以被分类成三个区段区段1、区段2、以及区段3,并且与低频率相对应的区段1的被截断的子带滤波器可以具有比与高频率相对应的区段2和区段3的被截断的子带滤波器更长的滤波器阶数(即,滤波器长度)。此外,相对应的区段的被截断的子带滤波器的滤波器阶数可以朝着具有高频率的区段逐渐地减少。
[0097] 根据本发明的另一示例性实施例,根据初始子带滤波器的特性信息,可以为每个子带独立地或者可变地确定每个被截断的子带滤波器的长度。每个被截断的子带滤波器的长度基于在相对应的子带中确定的截断长度确定,并且不受相邻的或者其它的子带的被截断的字段滤波器的长度影响。也就是说,区段2的一些或者所有的被截断的子带滤波器的长度可能比区段1的至少一个被截断的子带滤波器的长度长。
[0098] 根据本发明的另一示例性实施例,可以仅相对于被分类成多个组的一些子带执行在频域中的可变阶滤波。即,仅相对于属于至少两个被分类的组当中的一些组的子带,可以生成具有不同长度的被截断的子带滤波器。根据示例性实施例,其中生成被截断的子带滤波器的组可以是基于预先确定的常数或者预先确定的频带被分类成低频带的子带组(也就是说,区段1)。
[0099] 基于通过用于处理音频信号获得的附加信息,即,复杂性、复杂程度(属性)、或者解码器的所要求的质量信息,可以确定被截断的滤波器的长度。根据用于处理音频信号的设备的硬件资源或者用户直接地输入的值可以确定复杂性。质量可以根据用户的请求被确定,或者参考通过比特流发送的值或者在比特流中包括的其它信息来确定。此外,也可以根据通过估计被发送的音频信号的质量获得值确定质量,也就是说,随着比特率跟高,质量可以被视为更高的质量。在这样的情况下,每个被截断的子带滤波器的长度可以根据复杂性和质量按比例地增加,并且可以以用于每个带的不同的比率变化。此外,为了通过诸如下面要描述的FFT的高速处理获取附加的增益等等,每个被截断的子带滤波器的长度可以被确定为与附加的增益相对应的大小单元,也就是说,2的幂的倍数。相反地,当被确定的被截断的滤波器的长度比实际子带滤波器的总长度长时,被截断的子带滤波器的长度可以被调节成实际子带滤波器的长度。
[0100] BRIR参数化单元生成与根据前述的示例性实施例确定的各自的被截断的子带滤波器相对应的被截断的子带滤波器系数(F部分系数),并且将生成的被截断的子带滤波器系数传输到快速卷积单元。快速卷积单元通过使用被截断的子带滤波器系数在多音频信号的每个子带信号的频域中执行可变阶滤波。
[0101] 图9图示被用于双耳渲染的QMF域滤波器的每个QMF带的长度的另一示例性实施例。在图9的示例性实施例中,与图8的示例性实施例相同或者对应于图8的示例性实施例的部分的重复描述将会被省略。
[0102] 在图9的示例性实施例中,Fi_L和Fi_R中的每个表示被用于QMF子带i的F部分渲染的被截断的子带滤波器(前子带滤波器),并且Pi表示被用于QMF子带i的P部分渲染的后子带滤波器。N表示初始子带滤波器的长度(抽头的数目),并且NiF和NiP分别表示子带i的前子带滤波器和后子带滤波器的长度。如上所述,NiF和NiP表示在降采样的QMF域中的抽头的数目。
[0103] 根据图9的示例性实施例,基于从初始子带滤波器以及前子带滤波器提取的参数确定后子带滤波器的长度。即,至少部分基于在相对应的子带滤波器中提取的特性信息确定每个子带的前子带滤波器和后子带滤波器的长度。例如,基于相对应的子带滤波器的第一混响时间信息可以确定前子带滤波器的长度,并且可以基于第二混响时间信息确定后子带滤波器的长度。即,前子带滤波器可以是在初始子带滤波器中基于第一混响时间信息在被截断的前部分的滤波器,并且后子带滤波器可以是在与作为跟随前子带滤波器的区段的在第一混响时间和第二混响时间之间的区段相对应的后部分的滤波器。根据示例性实施例,第一混响时间信息可以是RT20,并且第二混响时间信息可以是RT60,但是实施例不限于此。
[0104] 其中前期反射声音部分被切换到后期混响声音部分的部分存在于第二混响时间内。即,点存在,其中具有确定性特性的区段被切换到具有随机特性的区段,并且在整个带的BRIR方面该点被称为混合时间。在混合时间之前的区段的情况下,主要存在提供用于每个位置的方向性的信息,并且这对于每个声道来说是唯一的。相反地,因为后期混响部分具有用于每个声道的公共特征,所以同时处理多个声道可能是有效率的。因此,用于每个子带的混合时间被估计以在混合时间之前通过F部分渲染执行快速卷积,并且在混合时间之后通过P部分渲染执行其中用于每个声道的公共特性被反映的处理。
[0105] 然而,在估计混合时间时从知觉的角度来看可能通过偏见而出现错误。因此,与通过估计精确的混合时间基于相对应的边界单独处理F部分和P部分相比较,从质量的角度来看,通过最大化F部分的长度执行快速卷积是更加优异的。因此,F部分的长度,即,前子带滤波器的长度,可能比根据复杂性质量控制与混合时间相对应的长度更长或者更短。
[0106] 此外,为了减少每个子带滤波器的长度,除了前述的截断方法之外,当特定子带的频率响应是单调的时,将相对应的子带的滤波器减少到低阶的建模是可用的。作为代表性的方法,存在使用频率采样的FIR滤波器建模,并且从最小平方的角度最小化的滤波器可以被设计。
[0107] 根据本发明的示例性实施例,对于相对应的子带的每个声道,用于每个子带的前子带滤波器和/或后子带滤波器的长度可以具有相同的值。测量中的错误在BRIR中可能存在,并且即使在估计混响时间中诸如偏见的错误要素等等存在。因此,为了减少影响,基于在声道之间或者在子带之间的相互关系可以确定滤波器的长度。根据示例性实施例,BRIR参数化单元可以从与相同子带的每个声道相对应的子带滤波器提取第一特性信息(也就是说,第一混响时间信息),并且通过组合被提取的第一特性信息获取用于相对应的子带的单滤波器阶数信息(可替选地,第一截断点信息)。基于获得的滤波器阶数信息(可替选地,第一截断点信息),用于相对应的子带的每个声道的前子带滤波器可以被确定为具有相同的长度。类似地,BRIR参数化单元可以从与相同子带的每个声道相对应的子带滤波器提取特性信息(也就是说,第二混响时间信息),并且通过组合被提取的第二特性信息,获取要被共同地应用于与相对应的子带的每个声道相对应的后子带滤波器的第二截断点信息。在此,前子带滤波器可以是在初始子带滤波器中基于第一截断点信息在被截断的前部分的滤波器,并且后子带滤波器可以是在与作为跟随前子带滤波器的区段的在第一截断点和第二阶段点之间的区段相对应的后部分的滤波器。
[0108] 同时,根据本发明的另一示例性实施例,仅相对于特定子带组的子带执行F部分处理。在这样的情况下,与通过使用整个子带滤波器执行处理的情况相比较,当通过仅使用直到第一截断点的滤波器相对于对应的子带执行处理时,用户感知水平的失真可能由于被处理的滤波器的能量差而出现。为了防止失真,对于没有被用于处理的区域,即,跟随第一截断点的区域的能量补偿可以在相对应的子带滤波器中被实现。通过将F部分系数(第一子带滤波器系数)除以直到相对应的子带滤波器的第一截断点的滤波器功率并且将相除的F部分系数(前子带滤波器系数)乘以所期待的区域的能量,即,相对应的子带滤波器的总功率,可以执行能量补偿。因此,F部分系数的能量可以被调节为与整个子带滤波器的能量相同。此外,虽然从BRIR参数化单元发送P部分系数,但是双耳渲染单元基于复杂性质量控制可以不执行P部分处理。在这样的情况下,双耳渲染单元可以通过使用P部分系数执行对于F部分系数的能量补偿。
[0109] 在通过前述方法的F部分处理中,从单个时域滤波器(即,原型滤波器)获取具有用于每个子带的不同长度的被截断的子带滤波器的滤波器系数。即,因为单个时域滤波器被转换成多个QMF基带滤波器,并且与每个子带相对应的滤波器的长度变化,所以从单个原型滤波器中获得每个被截断的子带滤波器。
[0110] BRIR参数化单元生成与根据前述的示例性实施例确定的每个前子带滤波器相对应的前子带滤波器系数(F部分系数),并且将生成的前子带滤波器系数传输到快速卷积单元。快速卷积单元通过使用接收到的前子带滤波器系数在多音频信号的每个子带信号的频域中执行可变阶滤波。此外,BRIR参数化单元可以生成与根据前述的示例性实施例确定的每个后子带相对应的后子带滤波器系数(P部分系数),并且将生成的后子带滤波器系数传输到后期混响生成单元。后期混响生成单元可以通过使用接收到的后子带滤波器系数执行每个子带信号的混响处理。根据本发明的示例性实施例,BRIR参数化单元可以组合用于每个声道的后子带滤波器系数以生成缩混子带滤波器系数(缩混P部分系数),并且将生成的缩混子带滤波器系数传输到后期混响生成单元。如下面所描述的,后期混响生成单元可以通过使用接收到的缩混子带滤波器系数生成2声道左右子带混响信号。
[0111] 图10图示用于生成被用于双耳渲染的FIR滤波器的方法的又一示例性实施例。在图10的示例性实施例中,将会省略与图8和图9的示例性实施例相同或者对应于图8和图9的示例性实施例的部分的重复描述。
[0112] 参考图10,被QMF转换的多个子带滤波器可以被分类成多个组,并且对于每个被分类的组可以应用不同的处理。例如,基于预先确定的频带(QMF带i),多个子带可以被分类成具有低频率的第一子带组区段1和具有高频率的第二子带组区段2。在这样的情况下,可以相对于第一子带组的输入子带信号执行F部分渲染,并且可以相对于第二子带组的输入子带信号执行下面要描述的QTDL处理。
[0113] 因此,BRIR参数化单元生成用于第一子带组的每个子带的前子带滤波器系数,并且将被生成的前子带滤波器系数传输到快速卷积单元。快速卷积单元通过使用接收到的前子带滤波器系数执行第一子带组的子带信号的F部分渲染。根据示例性实施例,通过后期混响生成单元可以另外执行第一子带组的子带信号的P部分渲染。此外,BRIR参数化单元从第二子带组的子带滤波器系数中的每个获得至少一个参数,并且将获得的参数传输到QTDL处理单元。QTDL处理单元通过使用获得的参数执行如下面描述的第二子带组的每个子带信号的抽头延迟时间滤波。根据本发明的示例性实施例,用于区分第一子带组和第二子带组的预先确定的频率(QMF带i)可以基于预先确定的常数值被确定,或者基于被发送的音频输入信号的比特流特性被确定。例如,在使用SBR的音频信号的情况下,第二子带组可以被设置以对应于SBR带。
[0114] 根据本发明的示例性实施例,基于预先确定的第一频带(QMF带i)和预先确定的第二频带(QMF带j),多个子带可以被划分成三个子带组。即,多个子带可以被分类成等于或者低于第一频带的低频率区段的第一子带组区段1、高于第一频带并且等于或者低于第二频带的中频区段的第二子带组区段2、以及高于第二频带的高频区段的第三子带组区段3。在这样的情况下,可以如上所述分别相对于第一子带组的子带信号和第二子带组的子带信号执行F部分渲染和QTDL处理,并且可以不相对于第三子带组的子带信号执行渲染。
[0115] <后期混响渲染>
[0116] 接下来,将会参考图11至图14描述本发明的P部分渲染的各种示例性实施例。即,将会参考图11至图14描述在QMF域中执行P部分渲染的图2的后期渲染生成单元240的各种示例性实施例。在图11至图14的示例性实施例中,假定多声道输入信号作为QMF域的子带信号被接收。因此,可以为每个QMF子带执行图11至图14的各自的组件,即,解相关器241、子带滤波单元242、IC匹配单元243、缩混单元244、以及能量衰减匹配单元246的处理。在图11至图14的示例性实施例中,将会省略与先前的附图的示例性实施例重复的部分的详细描述。
[0117] 在图8至图10的示例性实施例中,与P部分相对应的Pi(P1,P2,P3,…)是通过频率可变截断去除的每个子带滤波器的后部分,并且通常包括关于后期混响的信息。P部分的长度可以被定义为根据复杂性质量控制在每个子带滤波器的截断点之后的整个滤波器,或者参考相对应的子带滤波器的第二混响时间信息被定义为较小的长度。
[0118] P部分渲染可以为每个声道独立地执行或者相对于被缩混的声道执行。此外,P部分渲染可以对于每个预先确定的子带组或者对于每个子带通过不同的处理被应用,或者作为相同的处理被应用于所有的子带。在本示例性实施例中,可应用于P部分的处理可以包括用于输入信号的能量衰减补偿、抽头延迟线滤波、使用无限脉冲响应(IIR)滤波器的处理、使用人工混响器的处理、频率无关的耳间一致(FIIC)补偿、频率依赖的耳间一致(FDIC)补偿等等。
[0119] 同时,重要的是,通常保存两个特征,即,用于P部分的参数处理的能量衰减减轻(EDR)和频率依赖的耳间一致(FDIC)的特征。首先,当从能量的角度观察P部分时,能够看到对于每个声道来说EDR可以是相同或者相似的。因为各自的声道具有公共的EDR,所以将所有的声道缩混到一个或者两个声道,并且其后,从能量的角度执行被缩混的声道的P部分渲染是适当的。在这样的情况下,其中需要相对于M个声道执行M个卷积的P部分渲染的操作被减少到M到O缩混和一个(可替选地,两个)卷积,从而提供显著的计算复杂性的增益。
[0120] 接下来,在P部分渲染中要求补偿FDIC的过程。存在估计FDIC的各种方法,但是可以使用下述等式。
[0121] [等式3]
[0122]
[0123] 在此,Hm(i,k)表示脉冲响应hm(n)的短时傅立叶变换(STFT)系数,n表示时间索引,i表示频率索引,k表示帧索引,并且m表示输出声道索引L或者R。此外,分子的函数 输出输入x的实数值,并且x*表示x的复共轭值。等式中的分子部分可以被替换成具有绝对值而不是实数值的函数。
[0124] 同时,在本发明中,因为在QMF域中执行双耳渲染,所以可以通过下面给出的等式定义FDIC。
[0125] [等式4]
[0126]
[0127] 在此,i表示子带索引,k表示子带中的时间索引,并且hm(i,k)表示BRIR的子带滤波器。
[0128] 后期混响部分的FDIC是当BRIR被记录时主要通过两个麦克风的位置影响的参数,并且不受被扬声器的位置,即,方向和距离影响。当假定收听者的头是球体时,BRIR的理论的FDIC ICideal可以满足下面给出的等式。
[0129] [等式5]
[0130]
[0131] 在此,r表示在收听者的两个耳朵之间的距离,即,在两个麦克风之间的距离,并且k表示频率索引。
[0132] 当使用多个声道的BRIR的FDIC被分析时,能够看到主要被包括在F部分中的前期反射声对于每个声道变化。即,F部分的FDIC对于每个声道来说不同地变化。同时,FDIC在高频带的情况下很大地变化,但是理由是由于其能量快速衰减的高频带信号的特性导致大的测量错误发生,并且当对于每个声道的平均值被获得时,FDIC几乎被收敛到0。相反地,即使在P部分的情况下在对于每个声道的FDIC中的差由于测量错误而发生,但是能够确认FDIC被平均地收敛到在图等式5中示出的同步函数。根据本发明的示例性实施例,用于P部分渲染的后期混响生成单元可以基于前述的特性被实现。
[0133] 图11图示根据本发明的示例性实施例的后期混响生成单元240A。根据图11的示例性实施例,后期混响生成单元240A可以包括子带滤波单元242和缩混单元244a和244b。
[0134] 子带滤波单元242通过使用P部分系数滤波用于每个子带的多声道输入信号X0,X1,…,X_M-1。P部分系数可以从如上所述的BRIR参数化单元(未被图示)获得,并且包括具有用于每个子带的不同长度的后子带滤波器的系数。子带滤波器单元242为每个频率执行QMF域子带信号和与其相对应的QMF域的后子带滤波器之间的快速卷积。在这样的情况下,可以基于如上所述的RT60确定后子带滤光器的长度,但是根据复杂性质量控制被设置为高于或者低于RT60的值。
[0135] 通过子带滤波单元242,多声道输入信号分别被渲染成左声道信号X_L0、X_L1、…、X_L_M-1,和右声道信号X_R0、X_R1、…、X_R_M-1。缩混单元244a和244b分别缩混用于左右声道的被渲染的左声道信号和多个被渲染的右声道信号,以生成2声道左右输出信号Y_Lp和Y_Rp。
[0136] 图12图示根据本发明的另一示例性实施例的后期混响生成单元240B。根据图12的示例性实施例,后期混响生成单元240B可以包括解相关器241、IC匹配单元243、缩混单元244a和244b、以及能量衰减匹配单元246a和246b。此外,对于后期混响生成单元240B的处理,BRIR参数化单元(未被图示)可以包括IC评估单元213和缩混子带滤波器生成单元216。
[0137] 根据图12的示例性实施例,后期混响生成单元240B可以通过使用用于各自的声道的后期混响部分的能量衰减特性彼此相同来减少计算复杂性。即,后期混响生成单元240B执行每个多声道信号的解相关和耳间一致(IC)调节,将用于每个声道的被调节的输入信号和解相关信号缩混成左右声道信号,并且补偿被缩混的信号的能量衰减,以生成2声道左右输出信号。更加详细地,解相关器241生成用于各自的多声道输入信号X0、X1、…、X_M-1的解相关信号D0、D1、…、D_M-1。解相关器241是一种用于调节两耳之间的一致的预处理器,并且可以采用相位随机数发生器,并且为了计算复杂性的效率可以以90°为单位改变输入信号的相位。
[0138] 同时,BRIR参数化单元(未被图示)的IC估计单元213估计IC值,并且将估计的IC值传输到双耳渲染单元(未被图示)。双耳渲染单元可以将接收到的IC值存储在存储器255中,并且将接收到的IC值传输到IC匹配单元243。IC匹配单元可以从BRIR参数化单元直接地接收IC值,并且可替选地,获取被预存储在存储器255中的IC值。在IC匹配单元243中,用于各自的声道的输入信号和解相关信号被渲染成左声道信号X_L0、X_L1、…、X_L_M-1和右声道信号X_R0、X_R1、…、X_R_M-1。IC匹配单元243通过参考IC值执行在用于每个声道的解相关信号和初始输入信号之间的加权和,并且通过加权和调节在两个声道信号之间的一致。在这样的情况下,因为用于每个声道的输入信号是子带域的信号,所以可以实现前述的FDIC匹配。当通过X表示初始声道信号,通过D表示解相关声道信号,并且通过φ表示相对应的子带的IC时,可以通过下面给出的等式表达经历IC匹配的左右声道信号X_L和X_R。
[0139] [等式6]
[0140] X_L=sqrt((1+φ)/2)X±sqrt((1-φ)/2)D
[0141]
[0142] (以相同顺序的双重符号)
[0143] 缩混单元244a和244b通过IC匹配分别缩混用于左右声道的多个被渲染的左声道信号和多个被渲染的右声道信号,从而生成2声道左右渲染信号。接下来,能量衰减匹配单元246a和246b分别反映2声道左右渲染信号的能量衰减,以生成2声道左右输出信号Y_Lp和Y_Rp。能量衰减匹配单元246a和246b通过使用从缩混子带滤波器生成单元216获得的缩混子带滤波器系数执行能量衰减匹配。通过用于相对应的子带的各自的声道的后子带滤波器系数的组合,生成缩混子带滤波器系数。换言之,关于对应的子带,缩混子带滤波器系数可以包括具有用于每个声道的后子带滤波器系数的振幅响应的均方根值的子带滤波器系数。因此,缩混子带滤波器系数反映用于相对应的子带信号的后期混响部分的能量衰减特性。
缩混子带滤波器系数可以包括根据示例性实施例在单声或者立体声中缩混的缩混子带滤波器系数,并且从与FDIC相似的BRIR参数化单元直接接收或者从预存储在存储器225中的值获得。当通过BRIRk表示其中在M个声道当中的第k个声道中截取的F部分的BRIR,通过BRIRT,k表示其中在第k个声道中截取直到第N个采样的BRIR,并且通过BRIRE表示在补偿第N个采样之后的被截取的部分的能量的缩混子带滤波器系数时,通过使用下面给出的等式可以获得BRIRE。
[0144] [等式7]
[0145]
[0146] 其中
[0147] 图13图示根据本发明的又一示例性实施例的后期混响生成单元240C。图13的后期混响生成单元240C的各自的组件可以与在图12的示例性实施例中描述的后期混响生成单元240B的各自的组件相同,并且后期混响生成单元240C和后期混响生成单元240B两者可以在各自的组件当中的数据处理顺序上彼此部分不同。
[0148] 根据图13的示例性实施例,后期混响生成单元240C可以通过使用用于各自的声道的后期混响部分的FDIC彼此相同来进一步减少计算复杂性。即,后期混响生成单元240C将各自的多声道信号缩混成左右声道信号,调节被缩混的左右声道信号的IC,并且补偿对于调节的左右声道信号的能量衰减,从而生成2声道左右输出信号。
[0149] 更加详细地,解相关器241生成用于各自的多声道输入信号X0、X1、…、X_M-1的解相关信号D0、D1、…、D_M-1。接下来,缩混单元244a和244b分别缩混多声道输入信号和解相关信号,以生成2声道缩混信号X_DMX和D_DMX。IC匹配单元243通过参考IC值执行2声道缩混信号的加权和以调节两个声道信号之间的一致。能量衰减匹配单元246a和246b分别执行对于通过IC匹配单元243经历IC匹配的左右声道信号X_L和X_R的能量补偿,以生成2声道左右输出信号X_Lp和Y_Rp。在这样的情况下,用于能量补偿的能量补偿信息可以包括用于每个子带的缩混子带滤波器系数。
[0150] 图14图示根据本发明的又一示例性实施例的后期混响生成单元240D。图14的后期混响生成单元240D的各自的组件可以与在图12和图13的示例性实施例中描述的后期混响生成单元240B和240C的各自的组件相同,但是具有被更加简化的特征。
[0151] 首先,缩混单元244缩混用于每个子带的多声道输入信号X0、X1、…、X_M-1以生成单声道缩混信号(即,单声子带信号)X_DMX。能量衰减单元246反映用于生成的单声道缩混信号的能量衰减。在这样的情况下,用于每个子带的缩混子带滤波器系数可以被使用以便于反映能量衰减。接下来,解相关器241生成通过能量衰减反映的单声道缩混信号的解相关信号D_DMX。IC匹配单元243通过参考FDIC值执行反映能量衰减的单声缩混信号和解相关信号的加权和,并且通过加权和生成2声道左右输出信号Y_Lp和Y_Rp。根据图14的示例性实施例,因为仅关于单声缩混信号X_DMX执行能量衰减匹配一次,所以可以进一步节省计算复杂性。
[0152] <高频带的QTDL处理>
[0153] 接下来,将会参考图15和图16描述本发明的QTDL处理的各种示例性实施例。即,参考图15和图16将会描述在QMF域中执行QTDL处理的图2的QTDL处理单元250的各种示例性实施例。在图15和图16的示例性实施例中,假定多声道输入信号作为QMF域的子带信号被接收。因此,在图15和图16的示例性实施例中,抽头延迟线滤波器和单抽头延迟线滤波器可以执行用于每个QMF子带的处理。此外,仅关于基于预先确定的常数或者预先确定的频带分类的高频带的输入信号执行QTDL处理,如上所述。当谱带复制(SBR)被应用于输入音频信号时,高频带可以对应于SBR带。在图15和图16的示例性实施例中,将会省略与先前的附图的示例性实施例重复的部分的详细描述。
[0154] 被用于高频带的有效编码的谱带(SBR)是用于通过重新延伸由于在低比特率编码中扔掉高频带的信号而变窄的带宽来确保与原始信号一样多的带宽的工具。在这样的情况下,通过使用被编码和发送的低频带的信息和通过编码器发送的高频带信号的附加信息生成高频带。然而,由于不精确的谐波的生成,在通过使用SBR产生的高频分量中可能出现失真。此外,SBR带是高频带,并且如上所述,相对应的频带的混响时间非常短。即,SBR带的BRIR子带滤波器可以具有少的有效信息和高的衰减率。因此,在用于与SBR带相对应的高频带的BRIR渲染中,与执行卷积相比,在对音质的计算复杂性方面,通过使用少量的有效的抽头执行渲染可以仍然更加有效。
[0155] 图15图示根据本发明的示例性实施例的QTDL处理单元250A。根据图15的示例性实施例,QTDL处理单元250A通过使用抽头延迟线滤波器执行用于多声道输入信号X0、X1、…、X_M-1的每个子带的滤波。抽头延迟线滤波器关于每个声道信号执行仅少量的预先确定的抽头的卷积。在这样的情况下,基于从与有关子带信号相对应的BRIR子带滤波器系数直接提取的系数可以确定此时使用的少量的抽头。参数包括用于要被用于抽头延迟线滤波器的每个抽头的延迟信息和与其相对应的增益信息。
[0156] 通过复杂性质量控制可以确定被用于抽头延迟线滤波器的数目。基于被确定的抽头的数目,QTDL处理单元250A从BRIR参数化单元接收对应于用于每个声道和用于每个子带的抽头的有关数目的参数集(增益信息和延迟信息)。在这样的情况下,接收到的参数集可以从与有关子带信号相对应的BRIR子带滤波器系数提取,并且根据各种示例性实施例被确定。例如,按照绝对值的顺序、按照实数部分的值的顺序、或者按照虚数部分的值的顺序,在相对应的BRIR子带滤波器系数的多个峰值当中,与被确定的抽头的数目一样多的、用于每个被提取的峰值的参数集,可以被接收。在这样的情况下,每个参数的延迟信息指示相对应的峰值的位置信息,并且在QMF域中具有基于采样的整数值。此外,基于与延迟信息相对应的峰值的大小确定增益信息。在这样的情况下,作为增益信息,在用于整个子带滤波器系数的能量补偿被执行之后的相对应的峰值的加权值,以及子带滤波器系数中的相对应的峰值本身,可以被使用。通过使用用于相对应的峰值的加权值的实数和加权值的虚数两者从而具有复值来获得增益信息。
[0157] 通过抽头延迟线滤波器滤波的多个声道被共计到用于每个子带的2声道左右输出信号Y_L和Y_R。同时,在用于双耳渲染的初始化过程期间在QTDL处理单元250A的每个抽头延迟线滤波器中使用的参数可以被存储在存储器中,并且在没有用于提取参数的附加的操作的情况下可以执行QTDL处理。
[0158] 图16图示根据本发明的另一示例性实施例的QTDL处理单元250B。根据图16的示例性实施例,QTDL处理单元250B通过使用单抽头延迟线滤波器执行用于多声道输入信号X0、X1、…、X_M-1的每个子带的滤波。将会理解的是,相对于每个声道信号,单抽头延迟线滤波器仅在一个抽头中执行卷积。在这样的情况下,可以基于从与有关子带信号相对应的BRIR子带滤波器系数中直接提取的参数确定被使用的抽头。参数包括从BRIR子带滤波器系数中提取的延迟信息和与其相对应的增益信息。
[0159] 在图16中,L_0、L_1、…L_M-1分别表示用于与M个声道左耳有关的BRIR的延迟,并且R_0、R_1、…、R_M-1分别表示用于与M个声道右耳有关的BRIR的延迟。在这样的情况下,延迟信息表示在BRIR子带滤波器系数当中以绝对值、实数部的值、或者虚数部的值的顺序的最大峰值的位置信息。此外,在图16中,分别地,G_L_0、G_L_1、…、G_L_M-1表示与左声道的各自的延迟信息相对应的增益,并且G_R_0、G_R_1、…、G_R_M-1表示与右声道的各自的延迟信息相对应的增益。如所描述的,基于与延迟信息相对应的峰值的大小确定每个增益信息。在这样的情况下,作为增益信息,在用于整个子带滤波器系数的能量补偿之后的相对应的峰值的加权值以及在子带滤波器系数中的相对应的峰值可以被使用。通过使用用于相对应的峰值的加权值的实数和加权值的虚数两者获得增益信息。
[0160] 如在图15的示例性实施例中所描述的,通过单抽头延迟线滤波器滤波的多个声道信号与用于每个子带的2声道左右输出信号Y_L和Y_R被求和。此外,在用于双耳渲染的初始化过程期间,在QTDL处理单元250B的每个单抽头延迟线滤波器中使用的参数可以被存储在存储器中,并且在没有用于提取参数的附加的操作的情况下可以执行QTDL处理。
[0161] 在上文中,通过详细地示例性实施例已经描述了本发明,但是在没有脱离本发明的目的和范围的情况下本领域的技术人员能够进行本发明的修改和变化。即,在本发明中已经描述了用于多音频信号的双耳渲染的示例性实施例,但是本发明能够被相似地应用并且甚至延伸到包括视频信号以及音频信号的各种多媒体信号。因此,分析从详细描述中本领域的技术人员能够容易地类推的事件和本发明的示例性实施例被包括在本发明的权利要求中。
[0162] 本发明的模式
[0163] 如上面,以最佳模式已经描述了有关特征。
[0164] 工业实用性
[0165] 本发明能够被应用于处理多媒体信号的各种形式的设备,包括用于处理音频信号的设备和用于处理视频信号的设备等等。