模态混响的模式选择转让专利

申请号 : CN202080067483.0

文献号 : CN114667567B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 伍德罗.Q.赫尔曼罗素.韦德利奇科里.凯里留克

申请人 : 暮夕有限公司

摘要 :

描述了用于对音频信号执行模态混响技术的方法和系统。该方法可包括通过接收IR来简化要应用于音频信号的混响效果,将IR划分为多个子带,使用参数估计算法来确定每个子带中包括的模式的相应参数,将子带的各个模式聚合成一个集合;以及将聚合模式集截断为模式子集。音频信号的混响可基于IR进行操纵,IR本身基于模式的截断子集。

权利要求 :

1.一种用于产生用于操纵音频信号的模态混响效果的方法,其特征在于,包括:接收声学空间的脉冲响应,该脉冲响应包括声学空间的多个振动模式;

将脉冲响应划分为多个子带,脉冲响应的每个子带包括多个模式的一部分;

对于每个相应子带,使用参数估计算法,确定子带中包括的部分模式的相应参数;

将多个子带的各个模式聚合成一个集合;以及

将聚合模式集截断为模式子集,其中,截断聚合模式集包括:对于集合中包括的每个模式,基于预定掩蔽曲线确定模式的信号掩蔽比(SMR);并且根据每个模式的SMR对集合中包括的模式进行排序,其中,子集中包括的每个模式的SMR大于从子集中排除的每个模式的SMR。

2.根据权利要求1所述的方法,其特征在于,脉冲响应被划分为多个非均匀子带。

3.根据权利要求1所述的方法,其特征在于,将脉冲响应划分为多个子带包括将脉冲响应通过滤波器组。

4.根据权利要求3所述的方法,其特征在于,还包括,对于每个相应的子带信号,估计包括在子带信号的部分模式中的模式数量,其中,滤波器组包括一个或多个复合滤波器,并且对于每个子带具有通带宽度和比通带宽度更窄的分区宽度中的每一个,其中,在通带宽度内估计模式的数量,以及

其中,确定子带信号中包括的各个模式的参数仅对分区宽度内的模式执行。

5.根据权利要求1所述的方法,其特征在于,还包括,对于每个相应的子带,估计包括在子带的部分模式中的模式数量。

6.根据权利要求5所述的方法,其特征在于,对于每个相应的子带,应用于子带的参数估计算法的模型顺序基于子带的部分模式中包括的模式的估计数量。

7.根据权利要求5所述的方法,其特征在于,估计包括在子带的部分模式中的模式数量包括:确定子带的峰值选择阈值;以及

确定在子带内检测到的大于峰值选择阈值的峰值数量,其中,模式的估计数量基于所确定的峰值数量。

8.根据权利要求7所述的方法,其特征在于,子带源自脉冲响应的离散傅里叶变换(DFT),并且其中确定子带的峰值选择阈值包括:检测子带的最大峰值幅度;以及

检测子带的最小峰值幅度,

其中,至少部分地基于最大峰值幅度和最小峰值幅度来确定峰值选择阈值。

9.根据权利要求8所述的方法,其特征在于,峰值选择阈值基于:t=Mmax‑a(Mmax‑Mmin)来确定,其中Mmax是最大峰值幅度,Mmin是最小峰值幅度,a是0和1之间的预定值。

10.根据权利要求1所述的方法,其特征在于,对于每个相应子带,确定部分模式的相应参数包括:对于应用参数估计算法的每个子带,确定子带中包括的部分模式的频率、衰减时间、初始幅值或初始相位中的一个或多个。

11.根据权利要求10所述的方法,其特征在于,对于每个相应子带,确定部分模式的相应参数还包括估计子带中包括的每个相应模式的复振幅。

12.根据权利要求11所述的方法,其特征在于,子带源自离散傅里叶变换(DFT),并且其中对于子带信号中包括的每个模式,估计复振幅包括最小化子带信号的每个估计复振幅的近似误差。

13.根据权利要求12所述的方法,其特征在于,仅对于落入相应频谱滤波器的通带内的子带信号的模式来最小化近似误差,其中不同的频谱滤波器对应于各个子带信号,并且其中不同的频谱过滤器覆盖可听频谱而不重叠。

14.根据权利要求1所述的方法,其特征在于,参数估计算法是ESPRIT算法。

15.根据权利要求1所述的方法,其特征在于,对于每个相应的子带,确定部分模式的相应参数包括确定子带的峰值选择阈值,并且其中,为包括在部分模式中且振幅大于峰值选择阈值的模式确定参数。

16.根据权利要求1所述的方法,其特征在于,将集合截断为模式子集还包括:接收指示模式总数的输入,其中模式总数小于或等于集合中包括的模式数量;以及将集合截断为具有等于模式总数的模式数量的模式子集。

17.根据权利要求1所述的方法,其特征在于,预定掩蔽曲线基于心理声学模型。

18.一种用于产生用于操纵音频信号的模态混响效果的系统,其特征在于,包括:用于存储脉冲响应的存储器;和

一个或多个处理器被配置为:

接收声学空间的脉冲响应,该脉冲响应包括声学空间的多个振动模式;

将脉冲响应划分为多个子带,脉冲响应的每个子带包括多个模式的一部分;

对于每个相应的子带:

估计包括在子带的部分模式中的模式数量;以及使用参数估计算法,确定子带信号中包括的部分模式的相应参数;

将多个子带的各个模式聚合成一个集合;

对于集合中包括的每个模式,基于预定掩蔽曲线确定模式的信号掩蔽比(SMR);

根据每个模式的SMR对模式进行排序;并且

将聚合模式集截断为模式子集,其中,子集中包括的每个模式的SMR大于从子集中排除的每个模式的SMR。

说明书 :

模态混响的模式选择

[0001] 相关申请的交叉引用
[0002] 本申请是2019年9月27日提交的第16/585018号美国专利申请的延续,其公开内容通过引用并入本文。

背景技术

[0003] 音频工程师、音乐家,甚至普通人群(统称为“用户”)都习惯于生成和处理音频信号。例如,音频工程师通过使用平移和增益等效果将单声道音频信号混合在一起来编辑立体声信号,从而将它们定位在立体声场中。用户还可以使用多频带结构(如交叉网络)将音频信号处理为单独的组件以进行效果处理,从而实现多波段处理。此外,音乐家和音频工程师经常使用音频效果,如压缩、失真、延迟、混响等,以产生悦耳的声音,有时甚至是令人不快的声音。音频信号处理通常使用专用软件或硬件执行。用于处理操纵音频信号的硬件和软件类型通常取决于用户的意图。用户一直在寻找新的方法来创建和处理音频信号。
[0004] 混响是用户应用于音频信号的最常见效果之一。混响效果模拟特定房间或声学空间的混响,从而使音频信号听起来像是在具有特定脉冲响应的房间中录制的。
[0005] 将混响应用于音频信号的一种方法是使用一种称为卷积的技术。卷积混响将给定声学空间的脉冲响应应用于音频信号,导致音频信号听起来像是在给定空间中产生的,然而,控制卷积混响参数的技术相对有限。例如,使用卷积混响,可能无法隔离和操纵音频信号中单个频率的共振。此外,使用卷积混响,也可能无法调整或操纵模拟物理空间的单一属性(例如,空间的长度、空间的宽度)。
[0006] 对音频信号应用混响的另一种方法是使用称为模态混响的技术。与卷积混响不同,模态混响分析给定空间的脉冲响应,根据分析确定给定空间中的振动模式,然后合成空间中的各个振动模式。因此,混响的各个频率可以被隔离和编辑,并且用于操纵模态混响参数的技术比用于操纵卷积混响技术参数的技术更稳健。
[0007] 目前已知的模态混响技术的一个缺点是所需的处理程度。混响音频信号通常由数以万计的振动模式组成,模态混响技术必须识别并处理其中的每一种模式,以便正确重建应用于音频信号的混响。然而,通常只有大约3000‑5000种模式可以在不显著增加处理器负担的情况下进行处理。通过从音频信号中删除模式,可以减少所需的处理量,但这会产生降低音频信号质量的不良影响。
[0008] 模态混响技术的另一个缺点是难以识别声学空间中的所有模式。以前的技术无法提供足够高的分辨率来正确识别所有模式。例如,在一些示例性模态混响技术中,可以通过首先使用离散傅里叶变换(DFT)将声学空间中的音频信号的脉冲响应转换为频域,然后将转换后的信号的峰值识别为房间的模式来导出模态混响的参数。然而,基于DFT的模式识别具有较低的分辨率。由于分辨率较低,模拟的物理空间只能进行近似,不能轻易缩放。总而言之,基于DFT的模态混响技术可以提供音频信号的一些可操作性,但质量下降,并且可扩展性不准确。

发明内容

[0009] 本发明通过引入一种算法来改进已知的卷积混响技术,该算法通过分析空间脉冲响应(IR)的记录来提供声学空间模式的高分辨率估计。该算法通过将记录划分为多个子带,然后使用参数估计算法(例如ESPRIT)分别估计每个模式的频率和阻尼参数来做到这一点。ESPRIT算法执行的奇异值分解(SVD)计算与模式的数量近似成立方比例。这使得ESPRIT算法难以处理标准声学空间脉冲响应记录中存在的大量模式。但是,由于IR表示的空间模式被划分为单独的子带,ESPRIT算法可以分别应用于每个子带,从而减少了算法通常需要的处理。与传统的基于DFT的方法相比,ESPRIT估计的模态参数具有更高的分辨率。例如,这允许用户区分频率重叠的空间模式,这通常发生在IR记录中。
[0010] 同样的技术也可用于脉冲响应以外的记录。例如,鼓声的音频录音也可以被分析为多个模式,因此将这样的记录划分为子带可以类似地使ESPRIT算法能够应用于分析中,并基于模式参数修改记录,其分辨率高于传统的基于DFT的技术。
[0011] 上述技术可以进一步改进。例如,子带还可以被非均匀地划分,使得模式在子带之间被近似均匀地划分。首先,出于上述原因,这有利于减少所需的处理。此外,非均匀分割可以提高算法的分辨率。例如,空间的IR可以在频谱的一部分中具有相对较高的模式浓度,而在频谱的另一部分中具有相对较低的模式浓度。通过为具有高模式浓度的音频频谱部分选择相对窄的子带,可以提高应用于子带中的模式的算法的分辨率。同样,对于具有低模式浓度的频谱部分,较低的分辨率可能是可接受的,因此可以选择更宽的子带来应用该算法。
[0012] 本发明的一个方面提供了一种用于产生用于操纵音频信号的模态混响效果的方法。该方法可以包括:接收声学空间的脉冲响应,该脉冲响应包括声学空间的多个振动模式;将脉冲响应划分为多个子带,脉冲响应的每个子带包括多个模式的一部分;对于每个相应子带,使用参数估计算法,确定子带中包括的部分模式的相应参数;将多个子带的各个模式聚合成一个集合;以及将聚合模式集截断为模式子集。该方法还可涉及基于所生成的模式混响效果操纵音频信号。
[0013] 在一些示例中,可以接收音频信号,而不是接收声学空间的脉冲响应。音频信号本身可以包括多个振动模式。同样地,该方法的其余步骤可应用于音频信号,由此音频信号可被划分为子沙,使用参数化算法分析,等等,使得音频信号的模式可被截断以得到结果,由此产生经修改的音频信号。因此,尽管本发明提供了“脉冲响应”分析的示例,但本领域技术人员将认识到,相同类型的分析和原理可应用于其他音频信号,并且本文中的示例被理解并预期也适用于音频信号。
[0014] 在一些示例中,脉冲响应可分为多个非均匀子带。将脉冲响应划分为多个子带可包括将脉冲响应通过滤波器组。对于每个相应的子带信号,可以估计包括在子带信号的部分模式中的模式数量。滤波器组可以包括一个或多个复合滤波器,并且对于每个子带可以具有通带宽度和比通带宽度更窄的分区宽度中的每一个。可以在通带宽度内估计模式的数量。可以确定子带信号中包括的各个模式的参数仅对分区宽度内的模式执行。
[0015] 在一些示例中,该方法可以进一步包括,对于每个相应的子带,估计包括在子带的部分模式中的模式数量。
[0016] 在一些示例中,应用于子带的参数估计算法的模型顺序可以基于子带的部分模式中包括的模式的估计数量。
[0017] 在一些示例中,估计包括在子带的部分模式中的模式数量可以包括:确定子带的峰值选择阈值;以及确定在子带内检测到的大于峰值选择阈值的峰值数量。模式的估计数量可以基于确定的峰值数量。
[0018] 在一些示例中,子带可源自脉冲响应的离散傅里叶变换(DFT),并且确定子带的峰值选择阈值可包括:检测子带的最大峰值幅度;以及检测子带的最小峰值幅度。可以至少部分地基于最大峰值幅度和最小峰值幅度来确定峰值选择阈值。
[0019] 在一些示例中,峰值选择阈值可以基于:t=Mmax‑a(Mmax‑Mmin)来确定,其中Mmax可以是最大峰值幅度,Mmin可以是最小峰值幅度,a可以是0和1之间的预定值。
[0020] 在一些示例中,对于每个各自的子带,确定部分模式的相应参数可以包括:对于应用参数估计算法的每个子带,确定子带中包括的部分模式的频率、衰减时间、初始幅值或初始相位中的一个或多个。
[0021] 在一些示例中,对于每个相应的子带,确定部分模式的相应参数还可以包括估计子带中包括的每个相应模式的复振幅。
[0022] 在一些示例中,子带源自离散傅里叶变换(DFT),并且对于子带信号中包括的每个模式,估计复振幅可包括最小化子带信号的每个估计复振幅的近似误差。
[0023] 在一些示例中,可以仅对于落入相应频谱滤波器的通带内的子带信号的模式来最小化近似误差。不同的频谱滤波器可对应于各个子带信号,并且不同的频谱滤波器可覆盖可听频谱而不重叠。
[0024] 在一些示例中,参数估计算法可以是ESPRIT算法。
[0025] 在一些示例中,对于每个相应的子带,确定部分模式的相应参数可以包括确定子带的峰值选择阈值,并且可以为包括在部分模式中且振幅大于峰值选择阈值的模式确定参数。
[0026] 在一些示例中,将集合截断为模式子集可以包括:对于集合中包括的每个模式,基于预定掩蔽曲线确定模式的信号掩蔽比(SMR)。该集合中包括的一个或多个模式可以基于确定的SMR被截断。
[0027] 在一些示例中,将集合截断为模式子集还可以包括:接收指示模式总数的输入,模式总数小于或等于集合中包括的模式数量;以及将集合截断为具有等于模式总数的模式数量的模式子集。
[0028] 在一些示例中,将集合截断为模式子集还可以包括根据每个模式的SMR对集合中包括的模式进行排序。子集中包括的每个模式的SMR可大于从子集中排除的每个模式的SMR。
[0029] 在一些例子中,预定掩蔽曲线可以基于心理声学模型。
[0030] 本发明的另一个方面提供了一种用于产生用于操纵音频信号的模态混响效果的系统。该系统可包括用于存储脉冲响应的存储器和一个或多个处理器。一个或多个处理器可被配置为:接收声学空间的脉冲响应,该脉冲响应包括声学空间的多个振动模式;将脉冲响应划分为多个子带,脉冲响应的每个子带包括多个模式的一部分;对于每个相应子带,估计子带的部分模式中包括的模式数量,并使用参数估计算法确定子带中包括的部分模式的相应参数;将多个子带的各个模式聚合成一个集合;并将聚合模式集截断为模式子集。

附图说明

[0031] 当参考以下示例性实施例和附图的描述来考虑本发明的前述方面、特征和优点时,将进一步理解,其中类似的附图标记表示类似的元件。在描述附图中所示的本发明的实施例时,为了清楚起见,可以使用特定术语。然而,本发明的各方面并不旨在限于所使用的特定术语。
[0032] 图1是根据本发明的一个方面的示例系统的框图。
[0033] 图2是根据本发明一个方面的示例方法的流程图。
[0034] 图3是图2所示方法的示例子程序的流程图。
[0035] 图4是根据本发明一个方面的滤波器组的表示。
[0036] 图5是图2所示方法的另一示例子程序的流程图。

具体实施方式

[0037] 图1示出了用于执行本申请中描述的模态混响和模式选择技术的示例系统100。系统100可以包括一个或多个被配置为执行一组指令或可执行程序的处理设备110。处理器可以是诸如通用CPU或专用集成电路(“ASIC”)之类的专用组件,或者可以是其他基于硬件的处理器。尽管不是必需的,但可以包括专门的硬件组件以更快或更有效地执行特定的计算过程。例如,本发明的操作可以在具有多个具有并行处理能力的核的计算机架构上并行执行。
[0038] 结合图2、图3和图5的流程图更详细地描述了各种指令。该系统还可以包括一个或多个存储设备或存储器120,用于存储由一个或多个处理器110执行的指令130和程序。此外,存储器120可被配置为存储数据140,例如一个或多个脉冲响应(IR)142,以及从IR识别的一个或多个模式144。例如,IR142可由希望对音频信号应用混响效果的用户选择。可以通过识别和合成选定IR的模式144(例如,当音频信号在房间中播放时产生IR的房间的多个模式)来应用混响效果。数据还可以包括关于空间的多个模式的信息。为了简单起见,这些模式在本文中也被称为“IR模式”如下所述,可以使用指令130中包括的算法来估计关于模式的信息。
[0039] 系统100还可以包括用于数据输入和输出的接口150。例如,给定声学空间的IR可以经由接口150输入到系统,并且可以经由接口150输出选择数量的模式或相应的指数阻尼正弦(EDS)及其参数。可选地或另外,一个或多个处理器可以能够执行混响操作,在这种情况下,用户可以经由接口150输入期望的混响参数,并且可以经由接口150生成和输出基于混响参数的修改的音频信号。其他参数和指令可经由接口150提供给系统或从系统提供。例如,在IR中要识别的模式的数量可以是用户输入的变量。这可用于根据用户的偏好改变混响操作的处理速度。所需模式数量可以被预设并存储在存储器140中,可以由用户通过接口150输入,或者或两者兼而有之。
[0040] 在一些示例中,系统100可以包括个人计算机、笔记本电脑、平板电脑或用户的其他计算设备,其中包含处理器和存储器。结合图2、图3和图5的例程更详细地描述由系统执行的操作。
[0041] 图2是示出示例例程200的流程图。
[0042] 在框210中,系统接收给定空间的IR。该空间可以是真实空间(其中IR可以是响应在真实空间中播放的脉冲的记录),或者是模拟或虚拟空间。IR可以分解为IR模拟的空间振动的各个模式,这些模式可以被隔离和单独修改。典型的IR可能包括大约10000种以上的模式。
[0043] 在框220中,系统可将IR划分为多个子带。例如,IR的模式可以集中在宽频带的各种频率上,通常在可听频率范围内(通常认为是大约20Hz至20kHz)。该频带可以被分成多个子带,每个子带的带宽小于IR的全频带。在一些示例中,可以选择子带,使得它们不重叠,使得IR的全带内的所有频率被考虑到,或两者兼而有之。如果满足这两个考虑,则子带带宽的总和可等于整个IR的带宽。
[0044] 在一些示例中,子带可以选择为具有均匀的带宽,无论是在对数尺度上还是在非对数尺度上。例如,如果IR被分成三个子带,则每个子带可具有相等的带宽。在其他示例中,可以基于不同的因子将IR划分为子带,这可能导致子带带宽的不均匀性。例如,子带划分可以被布置成大致均匀地划分完整IR的模式。
[0045] 在一些示例中,划分完整的IR可以首先涉及使用一个或多个滤波器组对完整的IR进行下采样。滤波器组可以被配置为通过IR的某些部分,由此IR可以被过滤到不同的子带中。
[0046] 此外,在一些示例中,可以使用一个或多个复合滤波器执行下采样。复合滤波器可以仅保留IR的正频谱,从而从以后的处理操作中省略滤波IR的不需要的部分。
[0047] 在框230中,估计每个相应子带中的模式数量。模式的估计数量可告知子带是否已被均匀划分。另外,或者可选地,模式的估计数量可以通知例程的后续操作所需的分辨率。
[0048] 图3的流程图中显示了用于估计给定子带中的模式数量的示例子程序300。
[0049] 在框310中,可以确定子带的峰值选择阈值。在一些示例中,峰值选择阈值可以是固定值,例如表示最低可听音量的振幅值。可确定采样频率下的子带的振幅值(例如,使用傅里叶变换方法),然后将其与峰值选择阈值进行比较,从而仅将峰值选择阈值处或以上的那些值确定为IR的模式。
[0050] 在一些示例中,可以基于子带本身的特性来确定峰值选择阈值。例如,在框312中,可以使用离散傅里叶变换(DFT)在频域中导出子带。然后,在框314中,可以确定子带的DFT的最大峰值幅度,并且在框316中,可以确定子带的DFT的最小峰值幅度。在框318中,基于最大峰值和最小峰值设置峰值选择阈值。例如,公式:t=Mmax‑a(Mmax‑Mmin),可以使用来设置峰值选择阈值t,其中,Mmax是最大峰值幅度,Mmin是最小峰值幅度,a是0到1之间的预定值。a的预定值可以是0.25。
[0051] 在框320中,对在子带内检测到的幅度大于峰值选择阈值的峰值的数量进行计数。DFT中的剩余峰值被视为无关紧要或不可听见。计数的峰值数量对应于子带中模式的估计数量。换句话说,每个计数的峰值代表在子带中被识别和计数并在进一步处理步骤中使用的模式的中心频率。其余的模式被认为不重要并从进一步的处理步骤中省略。
[0052] 在框330中,可以基于检测到的峰值的数量将完整IR划分为子带。这可能会导致子带不均匀。为了实现这个结果,可以使用音频FFT滤波器组。每个子带可以通过使用因果N抽头(causal  N‑tap)有限脉冲响应(FIR)滤波器hr[n]对IR进行滤波来产生:
[0053] 其中 am是复振幅,zm是M个模式中第m个的复模式,amr是带比例因子的复振幅。信号的前N‑1个样本代表启动瞬态,该瞬态不表现出指数阻尼正弦曲线的行为,然后样本开始遵循这种行为。该滤波器有效地切断了阻带中具有中心频率的模式。
[0054] 本领域已知的加窗方法允许通过截断IIR滤波器来设计FIR滤波器。截断的行为扩展了FIR的带宽(与IIR滤波器相比)。这进而导致子带滤波器在频率上重叠,如图4所示。每个FIR滤波器的带宽在其分区中是恒定的,并且在接近分区结束时开始衰减。这意味着分区外的模式将衰减,使这些模式更难估计。对于任何给定的子带,位于该子带的通带内但在分区之外的模式将不可避免地被估计。然而,这些模式可以被适当地删减或忽略,因为它们必然落在相邻通带的分区内,因此可以在那里更可靠地估计。
[0055] 在使用加窗方法设计滤波器组的一个示例中,首先可以选择数量R个砖墙滤波器,使得R个滤波器的所有频率响应Hr的总和为1。取R个滤波器的逆DTFT可知其中,hr是R个滤波器中第r个滤波器的脉冲响应。由于
滤波器是砖墙滤波器,因此脉冲响应是IIR滤波器。接下来,可以通过与短窗口相乘来截断每个通道的脉冲响应,从而创建FIR滤波器。例如,可以使用N抽头窗口w[n],使得每个子带IR信道变为w[n]hr[n]。只要将w[0]归一化为1,这组滤波器仍可导致R个滤波器(δ[n])的完美重建,如从以下等式中可以看出:
[0056] 时域乘以w[n]会导致理想信道滤波器和频域窗口之间的卷积。这导致滤波器的频域扩展,从而导致滤波器响应在频率上彼此重叠。这将产生如图4所示的滤波器组。
[0057] 图4示出了具有给定通带宽度的通带410的滤波器组的子带。通带宽度可用于估计子带中包括的模式的数量(上文更详细地描述)。通带还可以包括具有给定分区宽度的分区420。分区可用于从子带丢弃中心频率在分区宽度之外的模式。应该认识到,每个分区区域跨越相应的第r个砖墙滤波器的原始边界。
[0058] 在图4的示例中,使用切比雪夫窗口设计了特定的滤波器组。然而,根据本发明,本领域已知的其他加窗技术可用于创建其他可用的滤波器组。
[0059] 回到图2,在框240,参数估计算法可用于确定子带中包括的部分模式的相应参数。这可以针对每个子带执行。可应用的此类参数估计算法之一是ESPRIT算法,该算法可用于寻找指数阻尼正弦信号(EDS)的频率和阻尼参数。该算法利用复正弦曲线的旋转不变性来求解代表信号向量的向量矩阵的复模态。
[0060] 因为向量矩阵在m维空间中(m是复模式的数量),所以求解复模式所需的处理随着模式的数量的增加呈指数增长。换言之,ESPRIT算法的模型阶数对应于估计包含在子带中的模式的数量。这使得在单个矩阵中处理整个IR变得难以处理。但是,通过将IR划分为子沙,然后将ESPRIT算法单独应用于子带,而不是整体应用于IR的所有模式,并且通过仅求解幅度大于峰值选择阈值的那些模式,可以显著减少处理量。
[0061] 对于给定的模式子集(例如,给定子带的模式),可以估计每个模式的复振幅。可以使用最小二乘法进行估计,例如a的以下最小化函数,即模式复振幅矩阵:其中,x是采样模式的向量,E是复正弦。该函数可以在频域中通过取分
别标记为X和Y的x和E的DFT来求解: 然后可以使用几何级数分析计算
Y的每一列: 其中z是N个模式中第m个的第n个样本,l是收集到向
量x中的第l个采样模式。
[0062] 或者,通过使用频谱滤波器再次使用分而治之的方法来进行幅度和相位估计的过程。在这种方法中,可以使用最小化函数估计幅度: 其中,X和Y分别是x和E的DFT,并且Hk是与多个子带中的第k个子带相关联的第k个频谱滤波器。通过从Y中移除列,可以有效地忽略与滤波器Hk重叠最小的模式,因此只有那些落在Hk内的频率需要被最小化。
[0063] 也可以估计模式子集中包括的每个模式m的带宽bm。这可以针对每个子带执行,并且可以使用以下等式执行: 其中dm是阻尼因子,N是模式的DFT长度。
[0064] 上述等式仅适用于子带频谱滤波器通带内的模式。例如,对于与第k个子带相关联的第k个频谱滤波器,可以仅针对范围 与滤波器的通带相交的那些模式估计幅度和相位。这可以简化功能。
[0065] 此外,由于每个模式的幅度和相位的估计是独立于每个子带执行的,因此每个子带的处理可以并行执行。因此,对于具有并行处理能力的多核计算机体系结构,模式参数估计可以进一步加快。
[0066] 估计参数可存储在系统存储器中,以供进一步计算和后续应用。
[0067] 继续图2,在框250中,多个子带的模式可以聚合或以其他方式重新组合成一个统一的集合。在框260中,可截断模式的统一集合。截断的结果可能是模式的子集。
[0068] 例如,对于集合中包括的每个模式,基于预定掩蔽曲线确定模式的信号掩蔽比(SMR),其中集合中包括的一个或多个模式基于确定的SMR被截断。
[0069] 一个用于截断统一模式集的示例子程序500如图5的流程图所示。
[0070] 在方框510中,可以定义掩蔽曲线。在一些示例中,掩蔽曲线可以预先确定。掩蔽曲线可用于比较模式的相对大小,但与曲线相关,而不是仅与彼此相关。掩蔽曲线可以是心理声学模型,旨在解释可能收听音频信号的人的心理声学。心理声学模型的一个例子是来自ISO/IEC MPEG1标准的心理声学模型1。
[0071] 在一些示例中,掩蔽曲线可包括音调掩蔽和噪声掩蔽。在某些情况下,包括心理声学模型1,可以通过对信号的每个临界频带中非音调掩蔽的贡献求和来创建单个噪声掩蔽。或者,可以用平均值代替总和,该平均值可以更真实地模拟掩蔽曲线。
[0072] 在框520处,对于统一集中的每个模式,可以基于每个给定模式的频率来确定信号掩蔽比(SMR)。SMR值可存储在系统存储器中。
[0073] 在框530处,可以根据每个模式的SMR对模式进行排序。然后,在框540,可以接收指示模式总数的输入,并且在框550处,可以将模式的统一集合截断为具有最高SMR的模式的模式子集。子集中包含的模式数可等于输入的总数。输入的总数可小于或等于IR中包含的振动模式总数。从心理声学的角度来看,结果是排除了对IR影响最小的模式的子集,包括对IR影响最大的模式。这意味着,基于模式子集的模态混响参数的操作可被听者感知为与基于完整IR的一整套已识别模式的参数操作没有不同(或存在可忽略的差异)。
[0074] 用于截断模式的其他方法可以用来代替或结合图5的子例程500。例如,振幅相对较低的模式(例如,使用最小二乘法估计)可能会立即被丢弃。例如,欠阻尼模式(响应的包络线本身正在增长)是不稳定的,可能会被丢弃。此外,或者可选地,可以使用K均值算法将模式组织和分组为集群以便压缩模式的总数。
[0075] 在某些情况下,ESPRIT算法可估计给定声学空间的IR包含6000到12000个模式。用户可能希望从6000到12000截断的模式数量可因计算机而异,具体取决于处理能力,也可因用户而异,具体取决于允许的时间限制或目标音频质量。图5的子例程500提供了可伸缩性和灵活性来控制这些因素(例如,操纵IR参数所需的时间、操纵的混响效果的质量和精度)。例如,可能需要将模式总数限制在2000‑3000,或在其他情况下限制在3000‑5000之间。然后,可在框440处输入介于2000和5000之间的数字,并且可相应地截断ESPRIT估计模式以用于后续处理步骤。
[0076] 回到图2,在框270处,IR可以简化为包括仅基于模式子集的参数。然后,可以使用简化的IR来操纵音频信号的混响效果,以便使音频信号听起来好像是在具有简化IR的脉冲响应的声学空间中播放的。由于本文描述的技术,声学空间的原始IR和简化IR之间的差异可以忽略,或者听者无法察觉。如上所述,听者感知差异的能力可基于几个因素,包括IR中包含的各种振动模式的大小、心理声学模型等。
[0077] 更一般地说,本发明可以使用户更有效地操纵音频录音或部分音频录音的混响效果。例如,用户可能希望向音频录音的一部分添加声学效果,以使记录声音仿佛是在目标声学空间中播放的,例如大厅或小房间。在操作中,一个或多个处理器将接收或以其他方式导出目标声学空间的脉冲响应,将脉冲响应转换为频域,将频率图分解为子带,然后分别分析每个子带—先单独,然后作为一个整体—以选择空间中最重要的模式(例如,上述模式的子集)。然后,可以通过丢弃剩余的、不太重要的空间模式来简化脉冲响应。然后,一个或多个处理器将能够使用空间的简化脉冲响应来操纵音频信号。结果就是修改了音频录音。
[0078] 在这方面,混响只是可以使用一组简化的振动模式修改的音频录音特性的一个例子,尽管模式修改对于操纵混响特别有用。这在一定程度上是因为模式到感知重要参数(房间大小、衰减时间)的映射相对简单,并且因为模式滤波器组的参数可以以音频速率稳定地调制。用于音频信号或录音操作的其他方法对于修改给定信号的其他属性可能更有效。
[0079] 上述例程的工作假设IR可以使用指数阻尼正弦曲线(EDS)的总和来表示。以这种方式,所选模式实际上是对IR的EDS参数的估计,并且单独控制所选模式近似于控制IR的单独EDS。这可以对IR实现多种音频效果,包括但不限于变形、空间化、房间大小缩放、均衡等。
[0080] 此外,上述例程一般描述了对所选声学空间的脉冲响应的处理。然而,本领域的技术人员将理解,类似的模式选择概念和算法可以应用于其他数字输入,例如音频信号,即使音频信号不是所选空间的脉冲响应。例如,音频信号本身可以在其中包括记录该音频信号的声学空间的脉冲响应,并且该脉冲响应可包括可使用本文中的技术来识别和选择的记录空间的多种振动模式。又例如,音频录音可以是包括多种振动模式的鼓录音,使得ESPRIT算法的应用可以使振动模式能够被单独修改。以这种方式,本申请可以为任何可模态修改的音频录音实现改进的分辨率。
[0081] 上述示例是在使用ESPRIT算法的背景下描述的。然而,其他算法可用于参数逼近。更一般地,除ESPRIT之外的参数估计算法可用于将信号分解为单独的分量(例如,模式、阻尼正弦等),然后估计每个单独分量的参数。
[0082] 尽管本文中的发明已参考特定实施例进行了描述,但应理解,这些实施例仅是本发明的原理和应用的说明。因此,应当理解,可以对说明性实施例进行许多修改,并且可以在不脱离所附权利要求所定义的本发明的精神和范围的情况下设计其他布置。