会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 信号处理 / 信号 / 音频信号 / 音频信号处理

音频信号处理

阅读:584发布:2020-05-12

IPRDB可以提供音频信号处理专利检索,专利查询,专利分析的服务。并且本发明的实施例涉及音频信号处理。具体而言,公开了一种用于处理音频信号的方法,包括:针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。还公开了相应的系统和计算机程序产品。,下面是音频信号处理专利的具体信息内容。

1.一种用于处理音频信号的方法,所述方法包括:针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;

通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。

2.根据权利要求1所述的方法,其中确定所述频带能量包括:将所述当前帧从时域变换到频域,以获得多个频点;

将每个所述频带与至少一个所述频点相关联;以及基于与相关联的所述至少一个频点对应的所述频率参数,确定针对每个所述频带的所述频带能量。

3.根据权利要求2所述的方法,其中变换所述当前帧包括向所述当前帧应用时域交叉渐变。

4.根据权利要求1到3任一项所述的方法,其中所述频带中的一个或多个频带的所述频带能量是基于所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频率参数而被确定的。

5.根据权利要求4所述的方法,其中所述一个或多个频带包括所述多个预定义频带中的至少一个低频频带。

6.根据权利要求1到5任一项所述的方法,其中生成所述频带增益包括对所述频带能量应用以下至少一个处理:均衡器处理,调节器处理,以及峰值限制处理。

7.根据权利要求1到6任一项所述的方法,其中所述频带增益是通过根据用于回放所述音频信号的回放设备的参数来处理所述频带能量而被生成的。

8.根据权利要求1到7任一项所述的方法,还包括:至少部分地基于针对所述当前帧的所述频点增益,生成针对所述当前帧的频域输出。

9.根据权利要求8所述的方法,其中针对所述当前帧的所述频域输出是基于针对所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频点增益而被生成的。

10.根据权利要求8或9所述的方法,还包括:向所述频域输出应用频域交叉渐变;

将所述频域输出变换到时域中,以生成针对所述当前帧的时域输出;

向生成的所述时域输出应用时域交叉渐变;以及

利用预定义的峰值阈值来限制所述时域输出。

11.根据权利要求1到10任一项所述的方法,还包括:通过对所述音频信号和与所述音频信号相关联的与头部相关的脉冲响应HRIR进行卷积,向所述音频信号应用耳机虚拟化。

12.根据权利要求11所述的方法,其中所述卷积包括:在时域中对所述音频信号与所述HRIR进行卷积。

13.根据权利要求11所述的方法,其中所述HRIR被集成到所述预定义的频带滤波器组中,并且其中所述卷积包括:使用所述预定义的频带滤波器组,在频域中对所述音频信号与所述HRIR进行卷积。

14.根据权利要求13所述的方法,还包括:

至少部分地基于所述HRIR,修改确定的所述频带能量。

15.根据权利要求11到14任一项所述的方法,还包括:向所述音频信号应用空间均衡化与混响中的至少一个。

16.根据权利要求11到15任一项所述的方法,其中所述音频信号基于所述音频信号的声道的对称性而与所述HRIR卷积。

17.根据权利要求16所述的方法,其中所述卷积包括:根据所述声道的所述对称性来转换所述音频信号;

根据所述声道的所述对称性来转换所述HRIR;以及对转换后的音频信号与转换后的HRIR进行卷积。

18.一种用于处理音频信号的系统,所述系统包括:频带能量确定单元,被配置为针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;

频带增益生成单元,被配置为通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及频点增益生成单元,被配置为使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。

19.根据权利要求18所述的系统,还包括:

时频变换单元,被配置为将所述当前帧从时域变换到频域,以获得多个频点;以及关联单元,被配置为将每个所述频带与至少一个所述频点相关联,其中所述频带能量确定单元被配置为基于与相关联的所述至少一个频点对应的所述频率参数,确定针对每个所述频带的所述频带能量。

20.根据权利要求19所述的系统,还包括:

第一时域交叉渐变单元,被配置为向所述当前帧应用时域交叉渐变。

21.根据权利要求18到20任一项所述的系统,其中所述频带中的一个或多个频带的所述频带能量是基于所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频率参数而被确定的。

22.根据权利要求21所述的系统,其中所述一个或多个频带包括所述多个预定义频带中的至少一个低频频带。

23.根据权利要求18到22任一项所述的系统,其中所述频带增益生成单元包括以下至少一个:均衡器,调节器,以及峰值限制器。

24.根据权利要求18到23任一项所述的系统,其中所述频带增益生成单元包括特定于设备的处理单元,其被配置为根据用于回放所述音频信号的回放设备的参数来处理所述频带能量,从而生成所述频带增益。

25.根据权利要求18到24任一项所述的系统,还包括:频域输出生成单元,被配置为至少部分地基于针对所述当前帧的所述频点增益,生成针对所述当前帧的频域输出。

26.根据权利要求25所述的系统,其中所述频域输出生成单元包括:被配置为基于针对所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频点增益来生成针对所述当前帧的所述频域输出的单元。

27.根据权利要求25或26所述的系统,还包括:频域交叉渐变单元,被配置为向所述频域输出应用频域交叉渐变;

频时变换单元,被配置为将所述频域输出变换到时域中,以生成针对所述当前帧的时域输出;

第二时域交叉渐变单元,被配置为向生成的所述时域输出应用时域交叉渐变;以及峰值限制单元,被配置为利用预定义的峰值阈值来限制所述时域输出。

28.根据权利要求18到27任一项所述的系统,还包括:耳机虚拟化单元,被配置为通过对所述音频信号和与所述音频信号相关联的与头部相关的脉冲响应HRIR进行卷积,向所述音频信号应用耳机虚拟化。

29.根据权利要求28所述的系统,其中所述耳机虚拟化单元包括:时域卷积单元,被配置为在时域中对所述音频信号与所述HRIR进行卷积。

30.根据权利要求28所述的系统,其中所述HRIR被集成到所述预定义的频带滤波器组中,并且其中所述耳机虚拟化单元包括:频域卷积单元,被配置为使用所述预定义的频带滤波器组,在频域中对所述音频信号与所述HRIR进行卷积。

31.根据权利要求30所述的系统,还包括:

频带能量修改单元,被配置为至少部分地基于所述HRIR来修改确定的所述频带能量。

32.根据权利要求28到31任一项所述的系统,还包括以下至少一个:空间均衡单元,被配置为向所述音频信号应用空间均衡化;以及混响单元,被配置为向所述音频信号应用混响。

33.根据权利要求28到32任一项所述的系统,其中所述音频信号基于所述音频信号的声道的对称性而与所述HRIR卷积。

34.根据权利要求33所述的系统,其中所述耳机虚拟化单元包括:音频信号转换单元,被配置为根据所述声道的所述对称性来转换所述音频信号;以及HRIR转换单元,被配置为根据所述声道的所述对称性来转换所述HRIR,其中所述耳机虚拟化单元被配置为对转换后的音频信号与转换后的HRIR进行卷积。

35.一种用于处理音频信号的计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上,并且包括机器可执行指令,所述指令在被执行时使得所述机器执行根据权利要求1到17任一项所述的方法的步骤。

说明书全文

音频信号处理

[0001] 相关申请交叉引用
[0002] 本申请要求申请日为2013年11月27日、发明名称为“音频信号处理”、申请号为201310629975.6的中国专利申请的优先权。

技术领域

[0003] 本发明总体上涉及音频信号处理,更具体地,涉及用于低延迟的特定于设备的音频信号处理的方法和系统。

背景技术

[0004] 为了以良好的质量回放音频信号,通常需要对音频信号进行处理。例如,可以根据目标回放设备的特性或者参数来处理音频信号。这种处理称为特定于设备的(device specific)或者以设备为中心(device centric)音频信号处理。一般而言,特定于设备的音频信号处理包括与根据回放设备和/或环境的呈现和校正有关的所有处理。通常,特定于设备的音频信号处理可以包括均衡器(equalizer)处理、调节器(regulator)处理、峰值限制(peak limiting)处理,等等。作为示例,如果回放设备重现音频信号中的高频分量的能力有限,则可以对音频信号进行处理以相应地抑制高频分量,从而避免在回放中的任何破音、失真或者其他可听到的瑕疵。当然,将会理解,可以出于任何其他目的来处理音频信号。
[0005] 对于VoIP(网际语音)通信和游戏等某些情况而言,音频信号处理的延迟是一个重要因素。较长的音频信号处理延迟很可能降低应用的总体性能,并且对用户体验造成不良影响。然而目前,用于音频信号处理的方案通常出于保真度的考虑而无法使延迟最小化。具体而言,音频信号处理通常包括在时域与频域之间的变换。例如,音频信号可以从时域被变换到频域以获得一系列频率系数。这些频率系数可以根据回放设备的特性而被修改。继而,具有经修改系数的音频信号被变换回时域以便回放。在音频处理延迟与计算效率之间存在着权衡。为了实现滤波器频率响应中的高分辨率,已知的方案不得不以较高的计算代价或者显著的延迟进行操作。而且,为了允许对所有频率参数的精细控制,现有方案通常将会引入较高的失真或者较长的延迟。然而,在某些音频信号处理(例如,特定于设备的音频处理)中,可能仅需要修改少数频带的带能量便能够满足多数用户的质量需求。
[0006] 由此,本领域中需要一种低延迟的音频信号处理的解决方案。

发明内容

[0007] 为了解决上述以及其他潜在的问题,本发明提出一种用于处理音频信号的方法和系统。
[0008] 在一方面,本发明的实施例提供一种用于处理音频信号的方法。该方法包括:针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。
[0009] 在另一方面,本发明的实施例提供一种用于处理音频信号的系统。该系统包括:频带能量确定单元,被配置为针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;频带增益生成单元,被配置为通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及频点增益生成单元,被配置为使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。
[0010] 通过下文描述将会理解,根据本发明的实施例,可以简单地通过操作特定数目的预定义频带的频带增益来实现音频信号处理,其中所述频带是实现根据例如人类听觉特性或者模型而被定义和固定下来的。由于频带是事先固定的,因此可以使用预定义的频带滤波器组,基于频带增益导出频点增益,从而降低音频信号处理的延迟。本发明的实施例所带来的其他益处将通过下文描述而清楚。

附图说明

[0011] 通过参考附图阅读下文的详细描述,本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本发明的若干实施例,其中:
[0012] 图1示出了根据本发明的一个示例实施例的用于处理音频信号的方法的流程图;
[0013] 图2示出了根据本发明的另一示例实施例的用于处理音频信号的方法的流程图;
[0014] 图3示出了根据本发明的一个示例实施例的加窗信号的框图;
[0015] 图4A和图4B示出了根据本发明的一个示例实施例的对数扫略(1og sweep)信号的频带激励的框图;
[0016] 图5示出了根据本发明的示例实施例的示例对称的五个扬声器配置的示例的示意图;
[0017] 图6示出了根据本发明的示例实施例的用于处理音频信号的系统的框图;以及[0018] 图7示出了适于实现本发明的示例实施例的计算机系统的框图。
[0019] 在各个附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

[0020] 下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解,描述这些实施例只是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
[0021] 本发明的基本思想是:通过控制频域中的一组预定义频带的频带增益来处理音频信号。根据本发明的实施例,待操作的频带可以根据例如人类听觉特性或者模型而被事先定义和固定。而且,由于频带是事先固定的,因此可以使用预定义的频带滤波器组以频带增益为基础生成频点增益,从而缩短音频信号处理中的延迟。另外,由于所要处理的频率系数的减少,与时频变换(时域向频域的变换)和频时变换(频域向时域的变换)相关联的时间代价将会显著降低。
[0022] 首先参考图1,其示出了根据本发明的示例实施例的用于处理音频信号的方法100的流程图。
[0023] 在步骤S101,对于待处理的音频信号的当前帧或者块,至少部分地基于当前帧的频率参数来确定多个预定义频带的频带能量。在某些实施例中,音频信号可以作为频域信号被输入。例如,音频信号的形式可以是一系列频点,每个频点例如被表示为一个复数。备选地,输入音频信号可以处于时域中,并且因此需要被变换到频域中,这将在下文详述。
[0024] 根据本发明的实施例,频带可以事先定义,例如根据人类听觉特性或者模型来定义。例如,已经证明:人类用户对特定范围内的频率是敏感的,例如0到24kHz的范围。相应地,将仅对处于该范围内的频带进行频域处理。这样,本发明的实施例利用了一种遵循人类听觉系统的方便、高效的简化,以有助于降低延迟。例如,在某些实施例中,0到24kHz范围内的频率可以被划分为20个频带。应当注意,这仅仅是出于说明目的,任何其他适当的频率范围和/或频带数目均可被使用。
[0025] 对于当前帧的每个预定义频带,可以存在与之关联的频率参数。频率参数可以通过各种不同的方式获得。例如,在上文描述的某些实施例中,频域音频信号可以包括多个频点,每个频点被表示为一个复数。在这样的实施例中,每个复数的实部和虚部可以被用作频率参数。备选地或附加地,可以通过对音频信号的任何适当的频率分析或者处理来获得频率参数。
[0026] 每个频带的频带能量可以基于当前帧的关联频率参数而确定。给定频率参数,可以将频带能量计算为例如频率参数的和或者平方和,这方面的示例实施例将在下文详述。
[0027] 接下来,方法100进行到步骤S102,在此处理频带能量以生成预定义频带的频带增益。根据本发明的实施例,对一个或多个频带能量的处理可以通过任何适当的频域音频处理技术来实现,包括但不限于均衡器处理、调节器处理、峰值限制处理,等等。相应地,均衡器、调节器、峰值限制器或者任何其他设备均可与本发明的实施例结合使用,不论它们是目前已知的还是将来开发的。特别地,在某些实施例中,为了生成频带增益,可以根据用于回放音频信号的回放设备的一个或多个参数来处理频带能量,从而实现特定于设备的音频信号处理。通过处理频带能量而生成频带增益的很多技术是已知的并且可以用于本发明的实施例。本发明的范围在这方面不受限制。
[0028] 继而,在步骤S103,生成当前帧的频点增益。根据本发明的实施例,可以使用特定于所述多个预定义频带的多个预定义频带滤波器组,以基于频带增益生成频点增益。例如,可以针对每个预定义频带而设计一个滤波器组。如上所述,频带是预定义的。相应地,特定于每个频带的频带滤波器组也可以被事先设计。通过向频带增益应用这样的频带滤波器组,可以获得多个频点增益,其形式例如是滤波器系数。
[0029] 给定频点增益,例如可以通过将频点增益与相应的频点相乘来确定当前帧的频域输出。特别地,在某些实施例中,当前帧的频域输出可以仅仅基于当前帧的频点来确定。在某些备选实施例中,当前帧的频域输出不仅可以基于当前帧的频点增益、而且还可以基于音频信号的至少一个先前帧的频点增益而被确定。
[0030] 通过执行方法100,本发明的实施例能够以较低的延迟来处理音频信号。具体而言,如上所述,已知的方案需要获得和处理大量的频率系数以满足质量要求,这将导致变换中的较长延迟。相反,根据本发明的实施例,只需要针对特定数目的预定义的、固定的频带来控制频带增益。由此,时频变换和频时变换的时间代价将会被显著降低。而且,生成的频率增益可以通过预定义的频带滤波器组而被转换为频点增益,这些频带滤波器组是特定于预定义频带的。因为这些频带滤波器组可以根据频带的定义而被设计,因此快速地实现频点增益和频域输出的生成。
[0031] 图2示出了根据本发明的示例实施例的用于处理音频信号的方法200的流程图。将会理解,方法200可以被视为上文描述的方法100的一种特定实现。特别地,在图2所示的实施例中,待处理的音频信号最初被表示为由多个帧或者块组成的时域信号。
[0032] 在步骤S201,对音频信号应用时域交叉渐变(crossfading)。根据本发明的实施例,可以每S个样本执行一次处理,其中S是自然数。在某些实施例中,对音频信号的每个帧,可以获取S+C0个样本作为输入,并且将会产生S个新音频输出样本,其中C0表示交叉渐变的长度。以此方式,每个输出帧与前一输出帧交叉C0个样本。在某些实现中,可以存在长度为S+C0的缓冲区以用于存储输入样本。对于每个帧,获得S个样本并且将其附加到缓冲区的结尾,同时在缓冲区中保留先前帧的最后C0个样本。在某些实施例中,例如,可以设置S=256,C0=32并且N=320。应当注意,这些数值仅仅是出于说明目的,任何其他适当的数值都是可行的。
[0033] 步骤S201处的交叉渐变过程可以通过各种不同的方式来实现,不论是当前已知的还是将来开发的。例如,可以对S+C0个样本应用时域交叉渐变窗口。在某些实现中,交叉渐变窗口可以定义如下:
[0034]
[0035] 任何其他适当的交叉渐变技术均可与本发明的实施例结合使用。应用时域交叉渐变将有助于以非常低的计算代价在生成频带增益时降低失真。
[0036] 接下来,方法200进行到步骤S202,在此音频信号从时域被变换到频域。假设当前帧是音频信号的第p个帧,其频域信号可以这样获得:
[0037] Xp(k)=F(xp(n))
[0038] 其中F()表示时频变换,并且xp(n)表示第p帧的时域样本,其可被表示为:
[0039]
[0040] 其中input()表示音频信号的输入值,并且N表示时频变换的长度。
[0041] 在某些实施例中,例如,变换F()可以是调制离散傅里叶变换(MDFT)。在这些实施例中,第p帧的频域样本Xp(k)可以通过如下方式获得:
[0042]
[0043] 备选地,变换可以是标准离散傅里叶变换(DFT)或者任何其他适当的时频变换。本发明的范围在此方面不受限制。
[0044] 利用时频变换,2N个实数表示的时域样本可以被变换为N个复数表示的频域样本,每个样本可被视作一个频点。每个频点被表示为一个复数,并且每个复数的实部和虚部可被用作第p个帧的频率参数。
[0045] 随后,在步骤S203,将多个预定义频带中的每个频带与步骤S202处获得的多个频点中的至少一个频点相关联。在某些实施例中,获得的频点可以被分配给不同的频带,其中每个频带与一个或多个频点相关联。频带与频点之间的关联可以是预先定义的。作为示例,在某些实施例中,可以将最低频点与最低频带相关联,将次低的第二和第三频点与低次频带相关联,以此类推。
[0046] 方法200进行到步骤S204,以基于相关联频点的频率参数来确定频带能量。如上所述,在某些实施例中,每个频点可以表示为复数,复数的实部和虚部是对应于该频点的频率参数。在这些实施例中,第i个频带的频带能量可以通过计算与该频带相关联的频点的实部和虚部的平方和来确定:
[0047]
[0048] 其中BsiandBei分别表示与第i个频带相关联的第一个频点和最后一个频点。
[0049] 可以看到,在上述实施例中,频带能量仅仅基于当前帧的频率参数而被确定。以此方式,能够以较低的计算代价来确定频带能量。备选地,为了改进频带能量的精度,特别是对于那些持续时间较短的音频信号,可以基于音频信号的当前帧和至少一个先前帧的相应频率参数,来确定当前帧的频带能量。
[0050] 更具体地,图3示出了先前帧和当前帧的加窗信号301和302。当前帧的加窗信号302可以平移长度S,以获得平移之后的加窗信号303。通过将信号301与303进行组合,获得了具有更长窗口的加窗信号304。在数学上,信号304可以这样导出:
[0051] x′p=xp-1(n)+xp(n-S)
[0052] 其中xp(n-S)表示xp(n)和δ(n-S)的卷积,并且δ()表示平移函数。由此,合并的信号可以表示为:
[0053]
[0054] 其中 表示卷积函数。
[0055] 相应地,在这样的实施例中,当处理第p个帧时,用于当前帧和先前帧的时域样本可以被转换到时域中:
[0056] Xp(k)=F(x′p)=F(xp-1(n))+F(xp(n))*F(δ(n-S))
[0057] 以此方式,在确定用于当前帧p的频带能量时,当前帧以及一个或多个先前帧的频率参数都将被纳入考虑。由此,可以更加准确地、以较小的噪声确定频带能量。而且,将会理解,F(δ(n-S)对于所有的帧而言将是相同的,并且可以事先被计算和存储。因此,计算复杂性和计算代价将很低,因为只需要进行一些加法和乘法运算。
[0058] 图4A-图4B示出了分别示出了基于288个点和544个点的MDFT参数的对数扫略信号的频带激励。图中的每个曲线对应于一个频带的激励。可以看到:基于544个点频率参数的激励比基于288个点频率参数的激励要稳定得多。
[0059] 特别地,在上文的示例实施例中,考虑一个先前帧的频率参数。应当注意,本发明的范围不限于此。相反,在其他实施例中,可以基于当前帧和任意数目的先前帧的频率参数来确定频带能量。而且,已经发现:只有几个低频频带的频带激励倾向于有噪声和不准确。因此,在某些实施例中,只有一个或多个低频频带的频带能量是基于当前帧和先前帧的组合频率参数而被确定的。换言之,可以仅针对最低的一个或多个频点计算组合频率参数F(x’p)。
[0060] 返回参考图2,方法200继而进行到步骤S205。在步骤S205,通过处理一个或多个频带能量来生成针对预定义频带的频带增益,对频带能量的处理例如根据目标回放设备的一个或多个参数进行,以改进音频信号的呈现和校准。例如,在某些实施例中,可以对频带能量应用均衡器处理。均衡器处理的参数可以通过不同的设置来确定,例如基带增强,图形均衡器设置,优化器设置,等等。备选地或附加地,可以将频带能量输入到调节器中。在某些实施例中,调节器可以是一个多频带限制器(multi-band limiter),其允许对每个频带失真峰值的测量并且限制将要实施的阈值。每个频带可以独立于其他频带而被操作,从而可以抑制特定的共振。此外,可以使用峰值限制器来执行峰值限制处理,以确保经过提升(boosting)之后的输出信号在特定的峰值限制阈值之内。
[0061] 接下来,在步骤S206,使用特定于频带的预定义的频带滤波器组将步骤S205处生r i成的频带增益转化为频点增益。一般而言,这种滤波器组可以被视为由实部T 和虚部T 构r i
成的矩阵,实部T 和虚部T 的每一个都是尺寸为N×M×B的频率系数的复数矩阵,其中M表示延迟长度,B表示频带的数目。在某些实施例中,频带滤波器组可以如下文所述这样来设计。
[0062] 对于每个频带b∈[0,B-1],可以构造一个期望的脉冲响应 它是表示频带b的响应的带通滤波器。该滤波器将是有限长度的,该长度可以针对n∈[0,L-1]而被定义,其中L=2N+(M-2)S-C0+1。可选地,对于每个频带b∈[0,B-1],还可以构造一个期望的脉冲响应 它是表示频带b的90度相移响应的带通滤波器。该滤波器将是有限长度的,该长度可以针对n∈[0,L-1]而被定义。
[0063] 继而,对于频带滤波器 以及可选的 中的每一个,长滤波器可被拆分为多个较短的块,记为 其中n∈[0,2N-S-C0]并且m∈[0,M-1]。例如,在N=320、S=256、M=3和C0=48的实施例中,可以将长度为L=2N+(M-2)S-C0+1=849的滤波器拆分为M=3个块,每个块的长度为2N-S-C0+1=337。这些块将彼此重叠CF=2N-2S-C0+1=81个样本。每个脉冲响应块继而被变换到频域中 其可被视作是特定于频带b的一个频域滤波器组。可以类似地构造 这些系数继而可被用于实时地生成频点增益。
[0064] 如上设计的频带滤波器适当地较窄,其中相位响应被适配以确保频带滤波器的全集相加为一个平坦的频率响应。而且,频域系数Tr和Ti是稀疏的,使得计算复杂性和代价相对较低。应当注意,上面的示例仅仅是出于说明目的。给定一组预定义的频带,可以通过各种方式设计相关联的频带滤波器组。本发明的范围在此方面不受限制。
[0065] 利用作为输入的频带增益,频带滤波器组可以输出对应的频点增益:
[0066]
[0067] 其中gp(b)表示针对频带b(0≤b≤B)的频带增益,并且R()和I()分别表示用i于获取gp(b)的实部和虚部的函数。在不需要复数频带增益的某些实施例中,可以省略T虚部。
[0068] 方法200继而进行到步骤S207,在此基于在步骤S206获得的频点增益生成当前帧的频域输出。例如,可以通过将频点增益与相应的频点相乘来生成频域输出:
[0069] Yp(k)=Xp(k)Fp(k,m)
[0070] 备选地,为了将一个或多个先前帧的影响考虑在内,在某些实施例中,在步骤S207,可以不仅基于当前帧的频点增益、而且基于至少一个先前帧的频点增益,来生成针对当前帧的频域输出:
[0071]
[0072] 其中M表示被纳入考虑的先前帧的数目。
[0073] 在某些实施例中,在接下来的步骤S208,可以向信号Yp(k)应用频率交叉渐变,以获得针对当前帧的最终频域输出。以此方式,可以得到从一个帧到另一个帧的更加平滑和连续的过度,破音或者其他可听到的瑕疵被最小化。备选地,在步骤S207处获得的信号Yp(k)可以被直接用作最终频域输出,并且步骤S208可被省略。
[0074] 继而在步骤S209,将针对当前帧的频域输出变换到时域中,以生成当前帧的时域输出。这里的频时变换是步骤S202处使用的时频变换的逆变换。例如,在MDFT充当步骤S202处的时频变换的实施例中,可以利用逆调制离散傅里叶变换(IMDFT)将频域输出变换回时域:
[0075]
[0076] 获得的时域音频信号可以被直接回放。备选地,可以在步骤S210执行时域处理。在某些实施例中,该时域处理可以包括时域交叉渐变,这是通过添加帧间重叠。如上所述,如果C0>1,得到的当前帧的2N个时域样本将与先前帧部分地重叠。因此,时域输出信号可以被计算为:
[0077] outputp(pS+n)=outputp-1(pS+n)+yp(n),{0≤n<2N}
[0078] 其中表示outputp(pS+n)表示针对当前帧p而输出的S个样本。备选地或附加地,可以向时域输出信号应用峰值限制处理,以确保提升之后的输出信号在特定的峰值限制阈值以下。
[0079] 除了上文所讨论的特定于设备的音频信号处理之外,根据本发明的示例实施例,可以向音频信号应用耳机虚拟化(headphone virtualization)。在此使用的术语“耳机虚拟化”是指这样的过程:使用耳机或者耳麦产生虚拟化的扬声器或音箱,使得听众可以通过耳机体验到虚拟扬声器的声音,这些虚拟扬声器具有与扬声器体验相似的真实感。此外,可选地,耳机虚拟化可以包括空间均衡化(room equalization)、混响(reverberation)和/或任何其他适当的过程。以此方式,可以通过电子方式将适当地置于良定义声学环境中的相应扬声器(对于立体声程序而言是两个,最多可能是七个)的声学签名给予音频信号的每个声道。
[0080] 例如,在某些示例实施例中,重低音音箱(低音炮)信号可以与耳机以相等的比例被混合到左声道和右声道。相应地,所有信息可被合并到两个编码的声道中,这两个编码的声道经由传统的立体声耳机被递送到听众的每只耳朵。以此方式,可以在一个虚拟空间中创建多个虚拟扬声器。由此,收听的感觉将更加自然,声音就像从听众的头部以外传来一样。
[0081] 为了实现耳机虚拟化,输入音频信号可以和“与头部相关的脉冲响应”(head-related impulse response,HRIR)进行卷积。例如,在某些示例实施例中,音频信号的每个声道可以与一个HRIR相关联。在这样的实施例中,每个声道的信号可与相关联的HRIR进行卷积以用于耳机虚拟化。
[0082] 在某些示例实施例中,卷积可以在时域中完成。例如,在图2所示的实施例中,当在步骤S201处向信号样本应用时域交叉渐变窗口之后,所得的结果信号可以与HRIR进行卷积。在某些示例实施例中,HRIR可以利用HRTF(与头部相关的传递函数)滤波器来表示,这是已知的并且不再在此详述。
[0083] 换言之,在这样的实施例中,借助于在后续音频信号处理之前的时域卷积而实现耳机虚拟化。作为示例,在上文描述的方法200中,耳机虚拟化可以在步骤S201与S202之间执行。在某些实施例中,在方法200的步骤S201之前,还可以向每个声道应用可选的混响,并且对音频信号进行成帧。在步骤S201之后,成帧的音频信号可以与HRIR参数以及可能还有空间均衡化参数进行卷积。接下来,经过卷积的音频信号可在步骤S202处被转换到频域中,以用于后续音频信号处理。
[0084] 备选地,在某些其他实施例中,用于耳机虚拟化的卷积可以在频域执行,例如通过复用(re-use)特定于频带而设计的预定义频带滤波器组。在这样的实施例中,在时域中不需要进行HRIR卷积。相反,HRIR可以被集成到频域中的预定义滤波器组中,使得HRIR卷积可以在无需单独的时域卷积的情况下被完成。换言之,当在步骤S103或者S206处通过使用预定义的频带滤波器组来处理频带能量从而生成频点增益的同时,可以执行HRIR与音频信号的卷积以便实现耳机虚拟化。
[0085] 在某些示例实施例中,给定HRIR参数,可以根据这些HRIR参数修改预定义的频带滤波器组。例如,可以通过将HRIR的频域参数与上文讨论的预定义频带滤波器组的参数相乘,来修改这些预定义频带滤波器组。备选地,在某些其他示例实施例中,可以通过在设计预定义滤波器组时将所有预定义滤波器组的目标和变为HRIR的频域参数,来将HRIR参数集成到所述滤波器组中。这样,通过使用预定义频带滤波器组的冗余长度,可以显著改善耳机虚拟化的效率。
[0086] 特别地,在耳机虚拟化在频域中执行的那些实施例中,在步骤S204处生成的频带能量可以至少部分地基于HRIR而被修改,以便提供更加准确和自然的经处理音频信号。可选地,在修改频带能量时,还可以将空间均衡化参数纳入考虑。例如,在某些示例实施例中,每个频带的频带能量可以乘以与该频带相关联的HRIR和/或空间均衡化的增益。继而,经过修改的频带能量可在步骤S205处被处理,以生成用于预定义频带的频带增益。
[0087] 而且,在某些示例实施例中,为了降低计算复杂性和成本,可以基于声道的对称性对音频信号与HRIR进行卷积。将会理解,如果将HRIR的卷积直接应用于每个声道,则每个声道需要执行两次卷积操作,一次用于左耳、另一次用于右耳。通过将声道的对称性纳入考虑,可以减少卷积操作的数目。
[0088] 考虑图5中所示的对称的五个扬声器配置作为示例。在此使用的术语“对称性”表示左声道/左环绕声道对左耳的贡献等于右声道/右环绕声道对右耳的贡献,左声道/左环绕声道对右耳的贡献等于右声道/右环绕声道对左耳的贡献,并且中央声道对左耳和右耳的贡献相等。图5示出了声道对称性的示意图。
[0089] 为讨论方便之目的,分别使用C、L、R、LS和RS表示中央声道、左声道、右声道、左环绕声道和右环绕声道的音频信号。左声道和右声道对左耳的贡献(表示为SLM)可如下计算:
[0090] SLM=L*mainnear+R*mainfar
[0091] 其中mainnear表示左声道相对于左耳的HRIR,mainfar表示右声道相对于左耳的HRIR,并且运算符“*”表示卷积操作。由于声道的对称性,左声道和右声道对于右耳的贡献(表示为SRM)可计算如下:
[0092] SRM=L*mainfar+R*mainnear
[0093] 可以看到,直接计算SLM和SRM需要四次卷积操作。为了减少卷积操作的次数以提高效率,某些示例实施例可以如下计算SLM+SRM以及SLM+SRM而不是SLM和SRM:
[0094] SLM+SRM=(L+R)*(mainnear+mainfar)
[0095] SLM-SRM=(L-R)*(mainnear-mainfar)
[0096] 这样,只需要两次卷积即可。继而,可以通过加法和减法运算而从SLM+SRM和SLM+SRM恢复SLM和SRM,从而降低计算复杂性和成本。
[0097] 类似地,左环绕声道和右环绕声道的贡献可以通过以下项来恢复:
[0098] SLS+SRS=(LS+RS)*(surnear+surfar)
[0099] SLS-SRS=(LS-RS)*(surnear-surfar)
[0100] 其中surnear表示左环绕声道相对于左耳的HRIR或者说右环绕声道相对于右耳的HRIR,并且surfar表示左环绕声道相对于右耳的HRIR或者说右环绕声道相对于左耳的HRIR。中间声道的贡献(记为SC)可如下计算:
[0101] SC=C*center
[0102] 其中center表示中央声道相对于左耳或者右耳的HRIR。
[0103] 以此方式,只需要五次卷积来确定所有声道对于左耳的贡献(SL)和对于右耳的贡献(SR)之和。更具体地,SL和SR可以如下计算:
[0104]
[0105]
[0106] 在这些示例实施例中,音频信号和HRIR可以根据声道的对称性而被分别转换。例如,在上文讨论的示例对称的五个扬声器配置中,input信号可以被转换为信号C、(L+R)、(L-R)、(LS+RS)和(LS-RS),而HRIR可以被转换为如下HRIR:center、(mainnear+mainfar)、(mainnear-mainfar)、(surnear+surfar)以及(surnear-surfar)。相应地,在耳机虚拟化在时域中执行的那些实施例中,转换后的音频信号可以与转换后的HRIR在时域中直接卷积。
[0107] 另一方面,在耳机虚拟化借助于特定于频带的预定义频带滤波器组而在频域中执行的那些实施例中,转换后的HRIR,即center、(mainnear+mainfar)、(mainnear-mainfar)、(surnear+surfar)和(surnear-surfar)中的每一个可以与每个预定义滤波器组进行卷积。继而,可以使用得到的滤波器组来实现耳机虚拟化以及特定于设备的音频信号处理。将会理解,除了降低计算成本之外,在对称的五个扬声器配置中,可以节省存储资源,因为针对每个预定义频带只需要预先存储5个附加的滤波器。
[0108] 图6示出了根据本发明示例实施例的用于处理音频信号的系统600的框图。如图所示,系统600包括:频带能量确定单元601,被配置为针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;频带增益生成单元602,被配置为通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及频点增益生成单元603,被配置为使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。
[0109] 在某些实施例中,系统600还可以包括:时频变换单元,被配置为将所述当前帧从时域变换到频域,以获得多个频点;以及关联单元,被配置为将每个所述频带与至少一个所述频点相关联。在这些实施例中,所述频带能量确定单元601被配置为基于与相关联的所述至少一个频点对应的所述频率参数,确定针对每个所述频带的所述频带能量。
[0110] 在某些实施例中,系统600还可以包括第一时域交叉渐变单元,被配置为向所述当前帧应用时域交叉渐变。
[0111] 在某些实施例中,所述频带中的一个或多个频带的所述频带能量是基于所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频率参数而被确定的。特别地,在某些实施例中,所述一个或多个频带包括所述多个预定义频带中的至少一个低频频带。
[0112] 在某些实施例中,所述频带增益生成单元602可以包括以下至少一个:均衡器,调节器,以及峰值限制器。
[0113] 在某些实施例中,所述频带增益生成单元602可以包括特定于设备的处理单元,其被配置为根据用于回放所述音频信号的回放设备的参数来处理所述频带能量,从而生成所述频带增益。
[0114] 在某些实施例中,系统600还可以包括:频域输出生成单元,被配置为至少部分地基于针对所述当前帧的所述频点增益,生成针对所述当前帧的频域输出。在某些实施例中,所述频域输出生成单元包括:被配置为基于针对所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频点增益来生成针对所述当前帧的所述频域输出的单元。在某些实施例中,系统600还可以包括:频域交叉渐变单元,被配置为向所述频域输出应用频域交叉渐变;频时变换单元,被配置为将所述频域输出变换到时域中,以生成针对所述当前帧的时域输出;第二时域交叉渐变单元,被配置为向生成的所述时域输出应用时域交叉渐变;以及峰值限制单元,被配置为利用预定义的峰值阈值来限制所述时域输出。
[0115] 在某些实施例中,系统600还可以包括:耳机虚拟化单元,被配置为通过对所述音频信号和与所述音频信号相关联的与头部相关的脉冲响应HRIR进行卷积,向所述音频信号应用耳机虚拟化。
[0116] 在某些实施例中,所述耳机虚拟化单元可以包括时域卷积单元,被配置为在时域中对所述音频信号与所述HRIR进行卷积。
[0117] 备选地或附加地,在某些实施例中,所述HRIR可以被集成到所述预定义的频带滤波器组中。在这样的实施例中,所述耳机虚拟化单元可以包括频域卷积单元,被配置为使用所述预定义的频带滤波器组,在频域中对所述音频信号与所述HRIR进行卷积。特别地,在某些实施例中,系统600还可以包括频带能量修改单元,被配置为至少部分地基于所述HRIR来修改确定的所述频带能量。
[0118] 在某些实施例中,系统600还可以包括以下至少一个:空间均衡单元,被配置为向所述音频信号应用空间均衡化;以及混响单元,被配置为向所述音频信号应用混响。
[0119] 在某些实施例中,所述音频信号基于所述音频信号的声道的对称性而与所述HRIR卷积。特别地,在某些实施例中,所述耳机虚拟化单元可以包括音频信号转换单元和HRIR转换单元。音频信号转换单元可被配置为根据所述声道的所述对称性来转换所述音频信号。HRIR转换单元可被配置为根据所述声道的所述对称性来转换所述HRIR。在这样的实施例中,耳机虚拟化单元可被配置为对转换后的音频信号与转换后的HRIR进行卷积。
[0120] 为清晰起见,在图6中没有示出系统600的某些可选部件。然而,应当理解,上文参考图1到图2所描述的各个特征同样适用于系统600。而且,系统600中的各部件可以是硬件模块,也可以是软件单元模块。例如,在某些实施例中,系统600可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,系统600可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。
[0121] 下面参考图7,其示出了适于用来实现本发明实施例的计算机系统700的示意性框图。如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储单元708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有设备700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)单元705也连接至总线704。
[0122] 以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可移动介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
[0123] 特别地,根据本发明的实施例,上文参考图1和图2描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法100和/或方法200的程序代码。在这样的实施例中,该计算机程序可以通过通信单元709从网络上被下载和安装,和/或从可拆卸存储单元711被安装。
[0124] 一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
[0125] 而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本发明的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
[0126] 在本公开的上下文中,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
[0127] 用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
[0128] 另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务或并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
[0129] 针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。
[0130] 本发明可以通过在此描述的任意形式来实现。例如,下面的枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。
[0131] EEE1.一种用于耳机虚拟化的方法,包括通过对音频信号和与该音频信号相关联的与头部相关的脉冲响应(HRIR)进行卷积,对所述音频信号应用耳机虚拟化。
[0132] EEE2.根据EEE1所述的方法,其中所述卷积在时域中执行。
[0133] EEE3.根据EEE1所述的方法,其中所述卷积在频域中执行。
[0134] EEE4.根据EEE3所述的方法,其中所述HRIR被集成到特定于所述音频信号的多个预定义频带而设计的预定义频带滤波器组中,并且其中所述卷积包括使用所述预定义频带滤波器组,在频域中对所述音频信号与所述HRIR进行卷积。
[0135] EEE5.根据EEE3所述的方法,还包括:在频域中至少部分地基于所述HRIR,修改用于所述音频信号的多个预定义频带的频带能量。
[0136] EEE6.根据EEE5所述的方法,其中所述修改包括:将每个所述频带的所述频带能量乘以与该频带相关联的HRIR和/或空间均衡化的增益。
[0137] EEE7.根据EEE1到6任一项所述的方法,还包括向所述音频信号应用空间均衡化和混响中的至少一个。
[0138] EEE8.根据EEE7所述的方法,其中所述空间均衡化由卷积应用,或者通过修改所述音频信号的多个预定义频带的频带增益而被直接应用。
[0139] EEE9.根据EEE1到8任一项所述的方法,其中所述音频信号基于所述音频信号的对称性而与所述HRIR进行卷积。
[0140] EEE10.根据EEE9所述的方法,其中所述卷积包括:根据声道的对称性来转换音频信号;根据声道的对称性来转换HRIR;以及对转换后的音频信号与转换后的HRIR进行卷积。
[0141] EEE11.一种系统,包括被配置为实现根据EEE1到10任一项所述的方法的单元。
[0142] 将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用