用于操纵包括暂态事件的音频信号的装置和方法转让专利

申请号 : CN201080009914.4

文献号 : CN102341847B

文献日 : 2014-01-08

用于操纵包括暂态事件的音频信号(110)的装置(100)，该装置(100)包括：暂态信号替换器(130)，被配置成用替换信号部分来替换音频信号的包括暂态事件的暂态信号部分，以获得暂态减少音频信号(132)，该替换信号部分适应于音频信号的一个或多个非暂态信号部分的信号能量特性，或适应于暂态信号部分的信号能量特性。该装置还包括：信号处理器(140)，被配置成处理暂态减少音频信号(132)来获得暂态减少音频信号的经处理(142)。该装置还包括：暂态信号重新插入器(150)，被配置成将暂态减少音频信号(132)的经处理版本(142)与以原始或经处理形式表示暂态信号部分的暂态内容的暂态信号相组合。

1.一种用于操纵包括暂态事件的音频信号(110)的装置(100)，该装置(100)包括：暂态信号替换器(130)，被配置成用替换信号部分来替换音频信号的包括暂态事件的暂态信号部分，以获得暂态减少音频信号(132)，该替换信号部分适应于音频信号的一个或多个非暂态信号部分的信号能量特性，或适应于暂态信号部分的信号能量特性；

信号处理器(140)，被配置成处理暂态减少音频信号(132)来获得暂态减少音频信号的经处理(142)；以及暂态信号重新插入器(150)，被配置成将暂态减少音频信号(132)的经处理版本(142)与以原始或经处理形式表示暂态信号部分的暂态内容的暂态信号(152)相组合；

其中暂态信号替换器(130)被配置成对暂态信号部分之前的一个或多个信号部分的振幅值进行外插，来获得替换信号部分的振幅值，以及，其中暂态信号替换器(130)被配置成对暂态信号部分之前的一个或多个信号部分的相位值进行外插，来获得替换信号部分的相位值。

2.如权利要求1所述的装置(100)，其中暂态信号替换器(130)被配置成提供替换信号部分，使得替换信号部分表示与暂态信号部分相比时具有平滑化时间演进的时间信号，使得替换信号部分的能量与暂态信号部分之前或暂态信号部分之后的音频信号(110)非暂态信号部分的能量之间的偏差小于预定的阈值。

3.如权利要求1所述的装置(100)，其中暂态信号替换器(130)被配置成施加加权噪声，来获得替换信号部分的所述振幅值，或被配置成施加加权噪声，来获得替换信号部分的所述相位值。

4.如权利要求1所述的装置(100)，其中暂态信号替换器(130)被配置成将暂态信号部分的非暂态分量与外插或内插的值相组合，来获得替换信号部分。

5.如权利要求1所述的装置(100)，其中该暂态信号替换器(130)被配置成获得具有依据当前暂态信号部分的长度而定的可变长度的替换信号部分。

6.如权利要求1所述的装置(100)，其中信号处理器(140)被配置成处理暂态减少音频信号(132)，使得该暂态减少音频信号的所述经处理版本(142)的给定时间信号部分依据该暂态减少音频信号(132)的多个时移时间信号部分而定。

7.如权利要求1所述的装置(100)，其中信号处理器(140)被配置成执行暂态减少音频信号(132)的基于时间块的处理，来获得该暂态减少音频信号的所述经处理版本(142)；

以及

其中暂态信号替换器(130)被配置成利用比时间块的持续时间精细的时间分辨率，来调整要被替换信号部分替换的暂态信号部分的持续时间，或以持续时间比所述时间块的持续时间短的替换信号部分，来替换持续时间比所述时间块的持续时间短的暂态信号部分。

8.如权利要求1所述的装置(100)，其中信号处理器(140)被配置成以频率相关方式来处理暂态减少音频信号(132)，使得该处理将暂态劣化频率相关相位偏移引入到暂态减少音频信号(132)中。

9.如权利要求1所述的装置(100)，其中暂态信号替换器(130)包括暂态检测器(130a)，其中该暂态检测器(130a)被配置成提供时变检测阈值以用于检测音频信号(110)中的暂态，使得该检测阈值遵循通过可调整平滑时间常数来遵循音频信号的包络，以及其中该暂态检测器被配置成响应于对暂态的检测和/或依据音频信号的时间演进，来改变所述平滑时间常数。

10.如权利要求1所述的装置(100)，其中该装置(100)包括暂态处理器(160)，该暂态处理器(160)被配置成接收暂态信息(134)，并基于该暂态信息(134)获得经处理的暂态信号(152)，在该经处理的暂态信号中音调分量减少，以及其中暂态信号重新插入器(150)被配置成将暂态减少音频信号(132)的所述经处理版本(142)与暂态处理器(160)所提供的所述经处理的暂态信号(152)相组合。

11.如权利要求1所述的装置(100)，

其中暂态信号替换器(130)包括暂态检测器(130a，130c)，该暂态检测器被配置成基于对音频信号(110)的监视或基于伴随该音频信号的辅助信息，检测该音频信号(110)的暂态信号部分，以及被配置成确定暂态信号部分的长度；

其中暂态信号替换器(130)被配置成考虑暂态检测器(130a，130c)所确定的暂态信号部分的长度；

其中暂态信号替换器(130)被配置成在时频域中，外插与暂态信号部分之前的音频信号(110)非暂态信号部分相关联的复值时频域系数，来获得替换信号部分的时频域系数，或者其中暂态信号替换器(130)被配置成在时频域中，在与暂态信号部分之前的音频信号(110)非暂态信号部分相关联的复值时频域系数以及与暂态信号部分之后的音频信号非暂态信号部分相关联的复值时频域系数之间进行内插，来获得替换信号部分的时频域系数；

其中信号处理器(140)被配置成通过时间延展或时间压缩来执行暂态劣化音频信号处理，使得信号处理器(140)所提供的经处理的信号(142)包括比音频信号处理器所接收的未经处理的信号(132)的持续时间长或短的持续时间；以及其中该装置(100)被配置成适配暂态信号重新插入器(150)所获得的信号的时间缩放或采样速率，使得至少由暂态信号重新插入器(150)获得的信号的非暂态分量相比于输入暂态信号替换器(150)的音频信号(110)而言是频率转换的。

12.如权利要求1所述的装置(100)，其中暂态信号重新插入器(150)被配置成使暂态减少音频信号(132)的经处理版本(142)与以原始或经处理形式表示暂态信号部分的暂态内容的暂态信号(152)交叉衰落。

13.一种用于操纵包括暂态事件的音频信号(110)的装置(100)，该装置(100)包括：暂态信号替换器(130)，被配置成用替换信号部分来替换音频信号的包括暂态事件的暂态信号部分，以获得暂态减少音频信号(132)，该替换信号部分适应于音频信号的一个或多个非暂态信号部分的信号能量特性，或适应于暂态信号部分的信号能量特性；

其中暂态信号替换器(130)被配置成在暂态信号部分之前的信号部分的振幅值与暂态信号部分之后的信号部分的振幅值之间进行内插，来获得替换信号部分的一个或多个振幅值，以及其中暂态信号替换器(130)被配置成在暂态信号部分之前的信号部分的相位值与暂态信号部分之后的信号部分的相位值之间进行内插，来获得替换信号部分的一个或多个相位值。

14.一种用于操纵包括暂态事件的音频信号(110)的装置(100)，该装置(100)包括：暂态信号替换器(130)，被配置成用替换信号部分来替换音频信号的包括暂态事件的暂态信号部分，以获得暂态减少音频信号(132)，该替换信号部分适应于音频信号的一个或多个非暂态信号部分的信号能量特性，或适应于暂态信号部分的信号能量特性；

其中暂态信号替换器(130)被配置成在时频域中对与音频信号(110)在暂态信号部分之前的非暂态信号部分相关联的复值时频域系数进行外插，以获得替换信号部分的时频域系数，或者其中暂态信号替换器(130)被配置成在时频域中，在与音频信号(110)在暂态信号部分之前的非暂态信号部分相关联的复值时频域系数和与音频信号在暂态信号部分之后的非暂态信号部分相关联的复值时频域系数之间进行内插，以获得替换信号部分的时频域系数。

15.一种用于操纵包括暂态事件的音频信号的方法(1200)，该方法包括：

以适应于音频信号的一个或多个非暂态信号部分的信号能量特性或适应于暂态信号部分的信号能量特性的替换信号部分，来替换(1210)音频信号的包括暂态事件的暂态信号部分，以获得暂态减少音频信号；

处理(1220)暂态减少音频信号，以获得该暂态减少音频信号的经处理版本；以及将暂态减少音频信号的经处理版本与以原始或经处理形式表示暂态信号部分的暂态内容的暂态信号相组合(1230)；

其中，对暂态信号部分之前的一个或多个信号部分的振幅值进行外插，来获得替换信号部分的振幅值，以及对暂态信号部分之前的一个或多个信号部分的相位值进行外插，来获得替换信号部分的相位值；或者其中，在暂态信号部分之前的信号部分的振幅值与暂态信号部分之后的信号部分的振幅值之间进行内插，来获得替换信号部分的一个或多个振幅值，以及在暂态信号部分之前的信号部分的相位值与暂态信号部分之后的信号部分的相位值之间进行内插，来获得替换信号部分的一个或多个相位值；或者其中，在时频域中对与音频信号在暂态信号部分之前的非暂态信号部分相关联的复值时频域系数进行外插，以获得替换信号部分的时频域系数；或者其中，在时频域中，在与音频信号在暂态信号部分之前的非暂态信号部分相关联的复值时频域系数和与音频信号在暂态信号部分之后的非暂态信号部分相关联的复值时频域系数之间进行内插，以获得替换信号部分的时频域系数。

用于操纵包括暂态事件的音频信号的装置和方法

背景技术

[0001] 根据本发明的实施例涉及用于操纵包括暂态事件的音频信号的装置、方法和计算机程序。

[0002] 在下文中，描述依据本发明的实施例可应用的典型的应用情景。 [0003] 在现行的音频信号处理系统中，音频信号通常使用数字技术来处理。例如特定信号部分，诸如暂态部分，对数字信号处理有特殊要求。

[0004] 暂态事件(或“暂态”)是信号中的事件，在该事件期间，整个频带或某一频率范围内信号的能量快速变化，即，其能量快速增加或快速降低。特定暂态(暂态事件)的特征可在频谱中的信号能量分布中得出。典型地，暂态事件期间音频信号的能量在整个频率范围内分布，而在非暂态信号部分中，能量在正常情况下集中在音频信号的低频部分或集中在一个或多个特定频带中。这意味着非暂态信号部分出(也称为稳态或“音调”信号部分)具有非平坦频谱。此外，暂态信号部分的频谱典型的是混沌的且“不可预测的”(例如，当在知晓暂态信号部分之前的信号部分的频谱时)。换言之，信号的能量包括在相对较少的频谱线或频谱带中，它们被强烈加重而超越音频信号的噪声基准。但是在暂态部分中，音频信号的能量将在许多不同的频带内分布且尤其将在高频部分中分布，以致音频信号的暂态部分的频谱相对较平坦且通常将比音频信号的音调部分的频谱平坦。然而，应指出的是，存在有具有平坦频谱的其他类型的信号，例如，像不表示暂态的类噪声信号。然而，尽管类噪声信号的频谱段具有不相关或弱相关的相位值，但是存在暂态的情况下频谱段通常存在有非常显著的相位相关性。

[0005] 典型地，暂态事件是音频信号的时域表示中的强烈变化，其意味着在执行傅立叶分解时信号将包括许多高频分量。许多高次谐波的重要特征是高次谐波的相位具有极其特定的相互关系，以致所有这些谐波的迭加将使信号能量产生快速变化(当在时域中考虑时)。换言之，暂态事件附近的频谱存在有强相关性。所有谐波中的特定相位情况还可被称为“垂直相干性”。此“垂直相干性”与信号的时间/频率谱图表示有关，其中水平方向与信号在时间上演进相对应，垂直维度描述在频率上短时间频谱中对频谱分量的频率的依赖性。

[0006] 例如，若变化在大时域范围内执行，例如，通过量化，则所述变化将影响整个块。因为暂态的特征在于能量的短期增加，所以当块变化时，此能量可能将在该块所表示的整个区域内被涂抹开。

[0007] 当信号的再现速度变化而音高维持不变时，或当信号被转换而原始再现持续时间维持不变时，问题变得尤为明显。使用相位语音编码器或诸如(P)SOLA的方法(参见关于此问题的参考文献[A1]至[A4])，上述两种情况均可被实现。后者通过再现以时间延展因数加速的经延展信号来实现。在时间离散信号表示下，这与维持采样频率的同时以延展因数来下采样信号相对应。诸如相位语音编码器等时间延展方法实际上仅适于稳态或准稳态信号，因为暂态通过分散在时间上“被涂抹开”。相位语音编码器削弱了信号的所谓垂直相干特性(与时间/频率谱图表示有关)。

[0008] 音频信号的时间延展在娱乐及艺术中均起重要作用。常用的算法基于交叠和相加(OLA)技术，诸如相位语音编码器(PV)、同步交叠相加(SOLA)、音高同步交叠相加(PSOLA)，以及波形相似性交叠相加(WSOLA)。尽管这些算法能够改变音频信号的重放速度同时保留它们的原始音高，但是暂态未被保留完好。使用OLA在时间上延展音频信号而不改变其音高需要分别处理暂态及持续信号部分，以避免暂态分散[B1]和时常伴随WSOLA及SOLA发生的时域混迭。延展诸如定音管发出的绝对音调信号与诸如响板发出的打击式信号的组合，这一任务提出了挑战。

[0009] 下面将参照一些常规方法以提供本发明的背景。

[0010] 一些现行的方法较强地延展暂态周围的时间以在暂态持续时间内不执行时间延展或只执行很小的时间延展(例如参见参考文献[5]至[8])。

[0011] 以下文章及专利描述了时间和/或音高操纵：[A1]、[A2]、[A3]、[A4]、[A5]、[A6]、[A7]、[A8]。

[0012] 在[B2]中，提出了一种方法，在时间延展版本中大致保留信号的包络及其频谱特性。该方法希望时间扩张打击事件的衰减慢于原始事件。

[0013] 若干广为人知的方法允许有区别地处理暂态及稳态信号分量，例如，将信号建模为正弦波、暂态及噪声的总和(S+T+N)[B4、B5]。为了在时间缩放修改之后保留暂态，分离地延展所有三部分。此技术能够完美地保留音频信号的暂态分量。但是，所产生的声音时常感觉不自然。

[0014] 其他方法改变时间延展的量且在暂态时间期间将其设定成1或在暂态事件下锁定相位[B3、B6、B7]。

[0015] 文献[B8]给出了利用PV如何在时间及频率延展中保留暂态。在此方法中，在信号被延展之前从该信号中截除(cut out)暂态。暂态部分的移除使信号内产生间隙，所述间隙通过PV过程被延展。在延展之后，暂态被重新加入该信号中，并具有在适合经延展的间隙的周边。

[0016] 鉴于上述内容，需要一种操纵包括暂态事件的音频信号的构思，其提供具有改进的感知质量的输出信号。

发明内容

[0017] 依据本发明的实施例建立了用于操纵包括暂态事件的音频信号的装置。该装置包括暂态信号替换器，被配置成以适应于音频信号的一个或多个非暂态信号部分的信号能量特性或适应于暂态信号部分的信号能量特性的替换信号部分，来替换该音频信号的包括暂态事件的暂态信号部分，以获得暂态减少音频信号。该装置进一步包括信号处理器，该处理器被配置成处理暂态减少音频信号来获得暂态减少音频信号的经处理版本。该装置还包括暂态信号重新插入器，被配置成将该暂态减少音频信号的经处理版本与以原始或经处理形式表示暂态信号部分的暂态内容的暂态信号相组合。

[0018] 上述实施例系基于以下研究结果：若暂态信号部分由替换信号部分替换，其中替换信号部分的信号能量适应于原始音频信号的信号能量特性，则信号处理器提供具有改进质量的输出信号，同时减少或消除暂态事件。该构思避免了简单地从音频信号中消除暂态信号部分而导致的输入信号处理器的信号的能量的较大阶跃式变化，且还可避免或至少减小暂态对该信号处理器的有害影响。

[0019] 因此，通过移除或减少音频信号中的暂态事件(以获得暂态减少音频信号)，且通过限制与输入音频信号相比时该暂态减少音频信号的能量变化，信号处理器接收适当的输入信号，使得其输出信号近似不具有暂态事件的所需输出信号。

[0020] 在较佳实施例中，暂态信号替换器被配置成提供替换信号部分(或暂态减少信号部分)，使得与暂态信号部分相比，该替换信号部分表示具有平滑时间演进的时间信号，且使得在该替换信号部分的能量与该暂态信号部分之前或该暂态信号部分之后的音频信号非暂态信号部分的能量之间的偏差小于预定阈值。以此方式，可以实现替换信号部分满足两个条件，即所谓的“暂态条件”及所谓的“能量条件”。暂态条件指示由时域中的阶跃或波峰表示的暂态事件在替换信号部分内的强度(或阶跃高度或波峰高度)上受限制。能量条件进一步指示(该替换信号部分的)暂态减少音频信号应具有能谱分布的平滑时间演进。通常，能谱分布的时间演进中的不连续性导致可听见的伪像的产生。因此，通过限制能谱分布的这些时间不连续性，可避免可听见的伪像，伪像可能由仅从输入音频信号中删除(而不替换)暂态信号部分而产生。

[0021] 在较佳实施例中，暂态信号替换器被配置成外插暂态信号部分之前的一个或多个信号部分的振幅值，来获得替换信号部分的振幅值。暂态信号替换器还被配置成外插暂态信号部分之前的一个或多个信号部分的相位值，来获得替换信号部分的相位值。使用此方法，可获得暂态减少音频信号的平滑振幅演进。而且，该暂态减少音频信号的不同频谱分量的相位(通过外插)得到良好地控制，使得由暂态信号部分期间的特定相位值(与非暂态信号部分的相位值不同)特征化的暂态事件被抑制。

[0022] 换言之，通过外插来强加相位值，所产生的相位值与特征化暂态的相位值不同。外插还提供以下优势：为执行外插，知晓暂态信号部分之前的音频信号部分就足够了。但是，自然可能进一步应用一些辅助信息，例如外插参数，来执行外插。

[0023] 在另一较佳实施例中，暂态信号重新插入器(150)被配置成使该暂态减少音频信号的经处理版本与以原始或经处理形式表示暂态信号部分的暂态内容的暂态信号交叉衰落(cross-fade)。在此情况下，该暂态减少信号的经处理版本可能是输入音频信号的时间延展版本。因此，可将暂态平滑地重新插入到输入音频信号的延展版本中。换言之，在暂态减少音频信号的(时间)延展之后，将(经处理或未经处理形式的)暂态重新加入到信号中，并具有适合延展间隙的周边。

[0024] 在另一较佳实施例中，暂态信号替换器被配置成在暂态信号部分之前的信号部分的振幅值与暂态信号部分之后的信号部分的振幅值之间进行内插，以获得替换信号部分的一个或多个振幅值。此外，暂态信号替换器被配置成在暂态信号部分之前的信号部分的相位值与暂态信号部分之后的信号部分的相位值之间进行内插，以获得替换信号部分的一个或多个相位值。通过执行内插，可以获得振幅值及相位值两者的尤其平滑的时间演进。相位的内插通常还使得暂态事件的减少或消除，因为暂态通常在直接接近暂态处包括极其特定的相位分布，该相位分布通常与远离暂态的某一间距处的相位分布不同。 [0025] 在较佳实施例中，暂态信号替换器被配置成施加加权噪声(例如，适应于音频信号的一个或多个非暂态信号部分的信号能量特性或适应于暂态信号部分的信号能量特性的类噪声信号频谱)来获得替换信号部分的振幅值，且施加加权噪声来获得替换信号部分的相位值。通过施加加权噪声，可以在保持对能量的影响足够小的同时进一步减少暂态。 [0026] 在较佳实施例中，暂态信号替换器被配置成将暂态信号部分的非暂态分量与外插或内插值相组合，来获得替换信号部分。已发现的是暂态减少音频信号(及使用信号处理器而获得的其经处理版本)的质量可得到改进，若暂态信号部分的非暂态分量被维持。例如，暂态信号部分的音调分量仅可对暂态产生有限的影响(因为时间暂态通常由在频率范围内具有特定相位分布的宽频信号引起)。因此，暂态信号部分的音调非暂态分量可能携带有珍贵信息，其实际上可有利于期望的信号处理器输出信号的产生。因此，通过保持这些信号部分-同时减少暂态-可有利于改良经处理的音频信号。

[0027] 在本发明的实施例中，暂态信号替换器被配置成获得依据暂态信号部分的长度而定的可变长度的替换信号部分。已发现的是音频信号质量有时可通过使替换信号部分的长度适应于暂态信号部分的可变长度来改进。例如，在某些信号中，暂态信号部分的持续时间可能非常短。在此情况下，可通过仅替换输入音频信号的相对较短部分来获得优化处理的音频信号。因此，可以保持尽可能多的原始输入音频信号的(非暂态)信息。此外，通过保持替换信号部分较短(依据暂态信号部分的长度)，在很多情况下可避免后续替换信号部分的交叠。因此，在大多数情况下，可以实现在两个后续替换信号部分之间有原始非暂态信号部分。因此，能足够精确地产生经处理的音频信号，并保持尽可能多的原始输入音频信号的(非暂态)信息。

[0028] 在较佳实施例中，信号处理器被配置成处理暂态减少音频信号，使得该暂态减少音频信号的经处理版本的给定时间信号部分依据该暂态减少音频信号的多个时间上非交叠时间信号部分而定。换言之，较佳的是在产生暂态减少音频信号的经处理版本的信号部分时该信号处理器包括时间存储器。使用存储器的信号处理允许对暂态减少音频信号进行逐块处理，或允许对暂态减少音频信号进行时间滤波(例如FIR滤波，或IIR滤波)。还发现，替换暂态信号部分的本发明构思非常适于与此信号处理器协同工作。尽管暂态通常会对所描述的执行逐块处理或具有时间存储器的信号处理器产生明显的负面影响，但是本发明的替换信号部分使暂态的该有害影响减小。尽管暂态通常会对信号处理器所提供的多个信号部分产生影响-延伸超出暂态信号部分的时间限度-但是本发明构思减小或甚至消除暂态的有害影响。通过保持暂态减少信号能量的平滑时间演进，可以使任何劣化都足够平滑。例如，(信号处理器的逐块处理的)块(例如，除了原始非暂态信号部分之外还)包括替换信号部分，该块未严重劣化，因为替换信号部分的能量适应于该块的其余部分。因此，从整体来看，块仅受暂态事件消除或减少的轻微影响。而且，由于替换信号部分的使用，使会受暂态事件且还受暂态信号部分的(例如，以强制归零形式的)完全移除的负面影响的时间滤波几乎不受暂态移除(或减少)的影响。

[0029] 在较佳实施例中，信号处理器被配置成执行对暂态减少音频信号的基于时间块的处理来获得该暂态减少音频信号的经处理版本。暂态信号替换器还被配置成利用比时间块的持续时间精细的时间分辨率，来调整要由替换信号部分替换的信号部分的持续时间，或以持续时间小于该时间块的持续时间的替换信号部分来替换持续时间小于该时间块的持续时间的暂态信号部分。因此，本文所提出的替换允许对音频信号进行低失真处理，即使被移除的暂态部分的长度与时间块的长度不同。

[0030] 在较佳实施例中，信号处理器被配置成以频率相关方式来处理暂态减少音频信号，使得该处理将暂态劣化频率相关相位偏移引入到暂态减少音频信号中。但是，甚至此暂态劣化信号处理也不会对经处理的音频信号产生明显的有害影响，因为通常与暂态减少音频信号的处理相分离地处理暂态。因此，尽管暂态劣化信号处理算法可应用于信号处理器，但是使用对暂态的分别处理且在该处理的稍后阶段使用暂态的重新插入，可以保持暂态的质量。

[0031] 在较佳实施例中，暂态信号替换器包括暂态检测器，其中该暂态检测器被配置成提供时变检测阈值以用于音频信号中的暂态检测，使得该检测阈值以可调整平滑时间常数遵循音频信号包络。该暂态检测器被配置成响应于暂态的检测及/或依据音频信号的时间演进，来改变该平滑时间常数。通过使用此暂态检测器，可以检测不同强度的暂态，即使暂态在时间上间隔很紧密。例如，本发明构思允许对弱暂态进行检测，即使该弱暂态紧紧跟随先前的较强暂态。因此，针对暂态替换的暂态检测可以可靠且精确的方式来执行。 [0032] 在较佳实施例中，该装置包括暂态处理器，被配置成接收表示暂态信号部分的暂态内容的暂态信息。在此情况下，暂态处理器可被配置成基于暂态信息获得经处理的暂态信号，在该经处理的暂态信号中音调分量减少。暂态信号重新插入器可被配置成将暂态减少音频信号的经处理版本与暂态处理器所提供的经处理的暂态信号相组合。因此，可以执行暂态减少音频信号及输入音频信号的暂态分量(由暂态信息来表示)的分离的处理，使得不同信号部分的随后的组合得到恰当的总输出信号。暂态信号部分中的已经“主”信号处理器处理的这些信号分量(例如，音调信号分量)不需要包括在暂态的分别处理中。因此，可以恰当地共享暂态信号部分的音频分量的处理。

[0033] 依据本发明的其他实施例建立了用于操纵包括暂态事件的音频信号的方法及计算机程序。

附图说明

[0034] 下面参照附图描述依据本发明的实施例，附图中：

[0035] 图1示出了依据本发明实施例的用于操纵包括暂态事件的音频信号的装置的方块示意图；

[0036] 图2示出了依据本发明实施例的暂态信号替换器的方块示意图；

[0037] 图3a-3c示出了依据本发明实施例的信号处理器的方块示意图；

[0038] 图4示出了依据本发明实施例的暂态信号重新插入器的方块示意图； [0039] 图5a示出了图1的信号处理器中使用的语音编码器的实现方式的概览； [0040] 图5b示出了图1的信号处理器的部分(分析)的实现方式；

[0041] 图5c说明图1的信号处理器的其他部分(延展)；

[0042] 图6说明图1的信号处理器中使用的相位语音编码器的变换实现方式； [0043] 图7示出了相位语音编码算法的操作示意图，其中合成跳距与分析跳距不同，例如，以因子2相差；

[0044] 图8示出了音频信号的振幅的时间演进的图形表示；

[0045] 图9示出了图1装置中的信号处理的时序的图形表示；

[0046] 图10示出了可能在依据图1的装置中出现的信号的图形表示；

[0047] 图11示出了可能在依据图1的装置中出现的信号的另一图形表示； [0048] 图12示出了依据本发明实施例的用于操纵音频信号的方法的流程图； [0049] 图13示出了依据本发明的实施例的暂态移除及内插的图形表示； [0050] 图14示出了依据本发明实施例的时间延展及暂态重新插入的图形表示； [0051] 图15示出了在利用相位语音编码器的时间延展应用中本发明的暂态处理的不同步骤中出现的信号波形的图形表示；以及

[0052] 图16示出了在时间延展的不同步骤出现的信号的图形表示。

具体实施方式

[0053] 在下文中，将描述依据本发明的一些实施例。用于操纵包括暂态事件的音频信号的装置的第一实施例将参见图1，图1示出了第一实施例的概览，还可参见图2、3a至3c、4、5a、5b、5c、6及7来描述，这些图示出了第一实施例的组件及相位语音编码器的操作(图7)的细节。暂态信号在第图8中示出，且其处理在图9至11中说明。图12示出了相对应的方法的流程图。

[0054] 随后，参见图13至17，描述用于操纵包括暂态事件的音频信号的装置的第二实施例的操作。

[0055] 依据图1的实施例

[0056] 依据本发明的实施例，图1示出了用于操纵包括暂态事件的音频信号的装置的方块示意图。在图1中所示出的该装置整体由100表示。装置100被配置成接收包括暂态事件的音频信号110被配置成在其基础上提供具有未经处理的“自然”或合成暂态的经处理的音频信号120。装置100包括暂态信号替换器130，该暂态信号替换器130被配置成用适应于该音频信号的一个或多个非暂态信号部分的信号能量特性或适应于该暂态信号部分的信号能量特性的替换信号部分，来替换包括音频信号110的暂态事件的暂态信号部分，以获得暂态减少音频信号132。可选地，替换信号部分的相位特性可适应于音频信号的一个或多个非暂态信号部分的相位特性。装置100进一步包括信号处理器140，该信号处理器140被配置成处理暂态减少音频信号132来获得该暂态减少音频信号的经处理版本142。装置100进一步包括暂态信号重新插入器150，该暂态信号重新插入器150被配置成将暂态减少音频信号的经处理版本142与暂态信号152相组合，以获得具有未经处理的“自然”或合成暂态的经处理的音频信号120。该暂态信号152可以以原始或经处理的形式来表示暂态信号部分的暂态内容，该暂态信号部分已被暂态信号替换器130替换为替换信号部分。 [0057] 暂态信号替换器130可进一步可选地提供暂态信息134，该暂态信息134表示(在暂态减少音频信号132中由替换信号部分所替换的)暂态信号部分的暂态内容。因此，暂态信息134可用来“保存”音频信号110的暂态内容，暂态内容在暂态减少音频信号132中被减少或甚至完全被抑制。暂态信息134可被直接转送至暂态信号重新插入器150以作为暂态信号152。但是，装置100可进一步包括可选的暂态处理器160，暂态处理器160被配置成处理暂态信息134，来从中导出暂态信号152。例如，暂态处理器160可被配置成执行暂态频率转换、暂态频率偏移、或暂态合成。

[0058] 装置100可进一步可选地包括信号调节器170，该信号调节器170被配置成调节经处理的音频信号120，来获得用于再现的经调节的音频信号。

[0059] 关于装置100的功能，大体上来说该装置100允许分离地处理音频信号110的非暂态音频内容(由暂态减少音频信号132来表示)及音频信号110的暂态音频内容(由暂态信息134来表示)。暂态事件在暂态减少音频信号132中被减少或甚至被抑制，使得信号处理器140可执行会使暂态事件劣化和/或会受暂态事件的有害影响的信号处理。但是，通过以能量适应的替换信号部分来替换暂态信号部分，暂态信号替换器130用来避免听得见的伪像，若简单地将暂态信号部分设定成零，则所述听得见的伪像会由信号处理器140引入。

[0060] 恰当的听觉效果还可通过使用暂态信号重新插入器150重新插入暂态来获得。当然，若简单消除暂态事件，则听觉效果通常会严重劣化。基于此原因，暂态被重新插入到经处理的音频信号142中。重新插入的暂态可与由暂态信号替换器130从音频信号110中移除的暂态相同。可选择地，对被移除的(或经替换的)暂态的处理例如可以以频率转换或频率偏移的形式来执行。但是，在某些实施例中，重新插入的暂态甚至可被合成产生，例如在描述要被重新插入的暂态的时间及强度的暂态参数的基础上。

[0061] 暂态信号替换器细节

[0062] 在下文中，参见图2，描述暂态信号替换器130的功能，其中图2示出了暂态信号替换器130的实施例的方块示意图。暂态信号替换器130 接收音频信号110且在其基础上提供暂态减少音频信号132。

[0063] 为了达到此目的，暂态信号替换器130例如可包括暂态检测器130a，暂态检测器130a被配置成检测暂态且提供关于暂态的时序的信息。例如，暂态检测器130a可提供信息130b，该信息130b描述暂态信号部分的开始时间及结束时间。关于暂态检测的不同构思是所属领域中常规的，此处将省略详细描述。但是，在某些情况下，暂态检测器130a可被配置成区分不同长度的暂态，使得识别出的暂态信号部分的长度可依据实际的信号形状而变化。

[0064] 可选择地，暂态信号替换器可包括辅助信息提取器130c，例如，如果描述暂态的时序的辅助信息与音频信号110相关联。在此情况下，暂态检测器130a自然可被省略。辅助信息提取器130c可进一步可选地被配置成在与音频信号110相关联的辅助信息基础上，提供一个或多个内插参数、外插参数和/或替换参数。暂态替换器130进一步包括暂态部分替换器130d，例如，暂态部分内插器或暂态部分外插器。暂态部分替换器130d被配置成接收音频信号110和(由暂态检测器130a或辅助信息提取器130c提供的)暂态时间信息130b，且以替换信号部分来替换音频信号110的暂态部分。

[0065] 在下文中，将描述关于检测及替换(或移除)暂态的细节。尤其是将详细讨论暂态移除的不同方法。

[0066] 暂态(例如乐器的起音点(onset)或打击式信号)大体上可描述为一短时间隔，在此间隔期间，信号以不可预测的方式快速发展。例如，可通过评估音频信号110的时域表示来检测暂态(使用暂态检测器130a)。若音频信号110的时域表示超过阈值(可以是时变的)，则可指示暂态事件的存在。包括该暂态事件的时间区域可被视为暂态信号部分，且可通过暂态时间信息130b来描述。

[0067] 因为这些信号部分(即暂态，或信号以不可预测的方式快速发展的时间间隔，)理想地不在时间上延展，在时间延展(可通过信号处理器140来执行)之前从信号中移除“暂态时间段”是有利的。抑制可在被视为“非稳态”的整个时间段期间发生。对于打击乐器而言，此时间段大部分由整个声音事件(例如单一的脚踏钹(HiHat)击打)组成。对于乐器的起音点，所谓的ADSR(起音衰减延持释音)包络可用来说明暂态时间段。 [0068] 图8示出了信号振幅的时间演进的图形表示800。横座标810描述时间，且纵座标812描述振幅。曲线814描述该振幅的时间演进。从图8可以看出，该振幅的时间演进包括起音间隔、衰减间隔、延持间隔及释音间隔。例如，起音间隔及衰减间隔可被视为“暂态区域”或暂态信号部分。

[0069] 但是，已发现的是对于进一步的信号处理(例如，在信号处理器140中)而言，由暂态抑制引起的音频信号中的间隙应被填充，使得在听到经处理的信号(＝合成信号)(例如，使用信号处理器140处理)时，听上去感觉是不具有破裂性暂停及振幅调制的连续的暂态自由信号。

[0070] 对于本文所描述的应用的特定情况而言，较佳的是抑制合成信号中(例如，提供给信号处理器140的信号132中，或从而在由信号处理器140提供的信号142中)的原始信号(例如，信号110)的所有暂态部分，而音调部分及非暂态噪声分量继续存在。 [0071] 关于此方面，已经存在有各种方法来解决，但是其目标绝不是得到高质量暂态调整(或暂态清除)信号。关于此问题，可参照刊物，例如[Edler]。

[0072] 关于暂态检测方法的效率及分解为各种分量，例如“暂态+噪声”，下述结论可分别从专业刊物[Bello]及[Daudet]中得出，所述刊物极好地概览了常见的方法：这些方法无一明显优于其他方法；选择应由各自的应用及可用的计算能力来控制。 [0073] 由此可见对特定的检测及分解方法的选择可显著地影响本发明的方法的结果。对于本领域技术人员，可以容易应用任何各种已知的方法以提供可能的最佳条件给各自的应用情景。

[0074] 暂态部分替换的构思

[0075] 某些应用情景关于产生信号部分，所述信号部分不需要通过用参考信号来验证以评估为“对”或“错”，而仅以它们总体良好的声音为基础来评估。此意味着依据本发明的实施例不限于分离所述部分且不限于省略暂态分量，而是可自身产生具有特定特性的合成信号。

[0076] 因此，合成信号产生(例如，由暂态信号替换器130d产生暂态减少信132)可以是暂态时间段期间信号分解和信号产生(从假定信号的内插和/或外插的意义上说)的组合。原始信号的非暂态分量可与内插/外插的分量混合，或可将其替换。

[0077] 在依据本发明的些实施例中，外插可以等同于使用过去值的合成信号产生。因此，外插能够实时地执行。相反，在一些实施例中，内插可等同于使用先前值和后续值的合成信号产生。因此，在某些情况下，内插可能需要预测(look-ahead)。

[0078] 为了总结上述内容，不同的构思可应用到暂态部分替换器130d以获得暂态减少音频信号132。

[0079] 例如，暂态部分替换器130d可配置为从音频信号110中减少暂态分量，来获得暂态减少音频信号。在此情况下，暂态部分替换器130d可配置为确保在代替暂态信号部分的替换信号部分中保持足够的能量。例如，可从音频信号110中移除包括暂态相位特性的频率分量，而其他不包括暂态相位特性的频率分量(例如音调频率分量)可从暂态信号部分获取到替换信号部分中。因此，可确保替换信号部分包括足够的信号能量，该信号能量不是严重偏离先前及后续信号部分的信号能量。

[0080] 备选地，暂态部分替换器130d可配置为通过破坏暂态信号部分中的暂态成形相位关系来获得替换信号部分。例如，暂态部分替换器可配置为使暂态信号部分的不同频率分量的相位随机化或(确定性地)对其进行调整。因此，以此方式获得的替换信号部分可包括与暂态信号部分(至少近似)相同的能量(因为频率分量的相位修改不会改变能量)。但是，替换信号部分所描述的时间信号的暂态成形时间演进可能消失，因为暂态时间演进是基于不同频率分量的特定相位关系的，而该特定相位关系已被破坏。

[0081] 但是，可选择地，暂态部分替换器130d可根据暂态信号部分之前的非暂态信号部分进行内插，例如，内插不同频带中能量的时间演进。因此，替换信号部分的内容可仅基于暂态信号部分之前的非暂态信号部分的内容的外插。因此，暂态信号部分的内容可被完全忽略。

[0082] 但是，可选择地，使用暂态部分替换器130d通过在暂态信号部分之前的非暂态信号部分的内容与暂态信号部分之后的非暂态信号部分的内容之间进行内插，可获得替换信号部分的内容。暂态信号部分的内容可同样被完全忽略。内插例如在时频域中执行。 [0083] 但是，可选择地，上述方法的组合可用于获得替换信号部分的内容。例如，暂态信号部分的非暂态内容(例如通过移除暂态内容或通过破坏暂态成形相位关系而提取的)可与通过内插或外插一个或多个暂态信号部分而获得的音频信号内容相组合。作为另一范例，暂态信号部分中的暂态成形相位关系可被破坏且暂态信号部分的能量可被调整，以适应于相邻的非暂态信号部分的能量。

[0084] 鉴于以上内容，可以说替换信号部分仅在非暂态信号部分(例如，在该暂态信号部分之前和/或在该暂态部分之后)的基础上合成(而不使用暂态信号部分的内容)，或仅在暂态信号部分的基础上合成，或在一个或多个非暂态信号部分及暂态信号部分的组合的基础上合成。

[0085] 关于暂态减少音频信号的产生的其他构思-基本内容

[0086] 在下文中，描述关于暂态减少音频信号132的产生的其他构思，其方面可应用于本文描述的任何实施例中。关于检测及替代过程，可参见WO 2007/118533，其全部内容在此并入本文以为参考资料。

[0087] WO 2007/118533 A1描述用于周围区域信号的产生的装置和方法。该文献描述暂态检测器，该暂态检测器被提供以检测暂态时间段。在WO 2007/118533 A1中描述的暂态检测器可例如用于实施(或替换)本文描述的暂态检测器130a。该公开进一步描述合成信号产生器，其产生满足暂态条件及连续条件的合成信号。例如在WO 2007/118533 A1中描述的合成产生器可用于实施暂态部分替换器130d，或甚至可代替暂态部分替换器130d。因此，在WO 2007/118533 A1中描述的关于合成信号产生的构思可用于本发明的一些实施例中的暂态减少音频信号132的产生。

[0088] 关于暂态减少音频信号的产生的其他构思-扩展

[0089] 这里描述的应用中(在维持良好的听觉效果的同时处理包括暂态的信号)，产生的信号的高音频质量实质上比在WO 2007/118533的应用(周围信号产生)中更加关键，WO 2007/118533中描述的方法通过一些步骤被扩展，以改进音频信号质量。 [0090] 例如，除了振幅外插之外，依据本发明的实施例还可包括外插或内插相位值，以获得具有改进质量且没有暂态部分的合成信号。

[0091] 例如，使用线性预测或线性预测编码(LPC)来执行外插或内插，或线性地和/或以样条或类似物+加权噪声，来执行外插或内插。

[0092] 在一些实施例中，上述暂态减少音频信号132的产生在与相位语音编码器组合使用时可能尤其有利，该相位语音编码器可以是信号处理器140的一部分，或可构成信号处理器140。在一些实施例中，利用相位语音编码器的性质，该性质通常被视为一大问题[8]，这在于在暂态期间不存在与先前帧的可预测的关系。在一些实施例中，正是利用这一事实来抑制暂态，因为通过迫使与先前段(bin)建立关系来抹除暂态。换言之，对描述替换信号部分(例如，呈复数形式)的不同时间-频率分段的不同系数的相位进行调整，例如，通过从(先前的非暂态信号部分的)先前时间-频率分段开始进行外插，或在先前的非暂态信号部分的相对应的时间-频率分段与随后的非暂态信号部分的相对应的时间-频率分段之间进行内插。在刊物[Maher]中，描述了可比较的内插方法。在[Maher]中呈现的该方法不能实时地执行，因为还需要跟随在信号间隙后之的部分。除此之外，[Maher]仅描述对音频信号中的“峰”的处理(相比之下，依据本发明的一些实施例处理所有频率线)，且噪声分量也未被明确处理。换言之，在一些实施例中，在[Maher]中描述的关于音频信号中的间隙的桥接的构思可与本申请一起应用，以在原始输入音频信号110基础上获得暂态减少音频信号132。被识别为暂态信号部分的一部分可使用[Maher]中描述的方法来替换，而不是桥接音频信号的“丢失”部分。但是，可针对每个频率分段独立执行内插/外插。可选地，可(例如，分离地)内插振幅和相位。

[0093] 暂态检测器130a

[0094] 在下文中，描述关于暂态检测器130a一些细节。但是，应指出的是，可以使用暂态检测器130a的许多不同的实现方式，使得下述细节应被视为有利实现方式的范例。在一些实施例中，自适应阈值优选地用于识别暂态时间段。通常，自适应阈值是检测函数的平滑版本，检测函数可引起大波动且进而不能检测到大波峰附近的小波峰。详情可参照刊物[Bello]。例如，通过依据当前检测到的状况(暂态区/非暂态区)且依据检测函数的发展(例如，起音、衰减)，进行平滑常数的适当适配，来解决该问题，。

[0095] 下面给出关于上文所提到的方面的一些参考文献：[Edler]、[Bello]、[Goodwin]、[Walther]、[Maher]、[Daudet]。

[0096] 暂态部分提取器130e

[0097] 除了上述功能之外，暂态信号替换器130可进一步包括暂态部分提取器130e，该暂态部分提取器130e可配置为接收音频信号110(或至少其暂态信号部分)，且提供暂态信息134。暂态部分提取器130e可配置为提供任何可能形式的暂态信息134，例如暂态信号部分时间信号的形式，暂态信号部分时间频率域表示的形式，或暂态参数(例如，暂态时间信息和/或暂态强度信息和/或暂态陡度信息和/或任何其他恰当的暂态信息)的形式。 [0098] 特别地，暂态部分提取器130e可配置为仅针对从音频信号110中移除的信号部分来提供暂态信息134，以获得暂态减少音频信号132，从而保持数据速率较小。 [0099] 信号处理器140的备选实现方式-概览

[0100] 在下文中，将描述信号处理器140的实现方式的不同基本构思。图3a说明图1的信号处理器140的较佳实现方式。此实现方式包括频率选择性分析器310及随后连接的频率选择性处理装置312，该频率选择性处理装置312被实施为，使得其对原始音频信号的“垂直相干性”产生负面影响。此频率选择性处理的范例是信号在时间上的延展或信号在时间上的缩短，其中此延展或缩短动作以频率选择性方式应用，使得例如该处理动作将相位偏移引入经处理的音频信号中，对于不同的频带所述相位偏移是不同的。例如相位偏移可被引入，使得暂态被劣化。图3a 所示的信号处理器140可进一步可选地包括频率组合器314，该频率组合器314被配置成将由频率选择性处理312提供的经处理的音频信号的不同的频率分量组合成单一信号(例如，时域信号)。

[0101] 可将暂态减少音频信号132分为多个频率分量(例如，复值频谱系数)的频率选择性分析器310、以及可配置为在不同频带的多个复值频谱系数基础上获得经处理的音频信号142的时域表示的频率组合器314均可被配置为执行逐块处理。例如，频率选择性分析器310可处理(例如，窗口化的)音频信号132采样块，以获得表示该音频信号采样块的音频内容的一组复值频谱系数。相似地，可选的频率组合器314可接收一组复值系数(例如，分别针对多个频带中的每一个频带)，且在其基础上提供包括多个时域采样的有限时间间隔范围内的时域表示。

[0102] 另一较佳信号处理在图3b中相位语音编码器处理上下文中说明。一般说来，相位语音编码器包括子带/变换分析器320、随后连接的处理器322、以及随后的子带/变换组合器324，处理器322用于执行对分析器320提供的多个输出信号的频率选择性处理，该子带/变换组合器324将处理器322所处理的信号组合，以在输出326处最终获得时域中的经处理的信号142。此外，时域中的经处理的信号142对于低通滤波信号而言是全带宽信号，只要经处理的信号142的带宽大于由项目322及324之间的单一分支表示的带宽，这是因为子带/变换组合器324执行频率选择性信号的组合。

[0103] 关于相位语音编码器的进一步的细节将在下文结合图5a、5b、5c及6讨论。 [0104] 图3c示出了信号处理器140的另一可能实现方式。可以看出，在一些实施例中，甚至可在时域中处理暂态减少音频信号132。通常，时域处理330可包括存储器，使得信号132中的暂态对经处理的音频信号142产生长期影响。在某些情况下，暂态减少音频信号
132会在经处理的音频信号142中引起暂态响应，该暂态响应明显比暂态持续时间(或暂态信号部分的持续时间)长(例如，延长了1倍，或甚至延长了4倍，或甚至延长了9倍)。
在此情况下，例如通过产生可听见的回音，音频信号132中的暂态会以不希望的方式将经处理的音频信号142显著劣化。而且，暂态信号部分的完全删除也会对经处理的音频信号
142产生长期影响，因为暂态信号部分的完全删除本身导致暂态产生。

[0105] 使用语音编码器的信号处理器的实现方式-滤波器组实现方式

[0106] 在下文中，参见图5及6，说明语音编码器的较佳实施例，其可用于信号处理器140的实现或可以是信号处理器140的一部分。图5a示出了相位语音编码器的滤波器组实现方式，其中输入音频信号(例如，暂态减少音频信号132)在输入500处馈入，经处理的音频信号(例如，经处理的音频信号142)在输出510处获得。特别地，图5a所说明的示意性滤波器组的每一通道包括带通滤波器501及下游的振荡器502。来自每个通道的所有振荡器的输出信号被组合器组合，以在输出510处获得输出信号，该组合器例如作为加法器实现且在503处被标示。每一滤波器501被实施为使得其一方面提供振幅信号而另一方面提供频率信号。该振幅信号及该频率信号是说明了滤波器501中振幅随时间的发展的时间信号，而该频率信号表示滤波器501所滤波的信号的频率的发展。

[0107] 滤波器501的示意性设置在图5b中说明。图5a的每一滤波器501可如图5b中所示那样设置，但是，其中只有供给两个输入混合器551以及加法器552的频率fi对于每个通道是不同的。混合器输出信号均经低通滤波器553低通滤波，其中低通信号是不同，因为它们由相位相差90°的局部振荡器信号产生。上部低通滤波器553提供正交信号554，而下部滤波器553提供同相信号555。此二信号即I和Q，被供给坐标变换器556，该坐标变换器556依据矩形表示产生幅度相位表示。图5a的幅度信号或振幅信号随着时间分别在输出557处输出。相位信号提供给相位展开器558。在该元件558的输出处，不再有始终在0与360°之间的相位值存在，而是出现线性增加的相位值。此“展开的”相位值提供给相位/频率转换器559，该相位/频率转换器559例如可作为简单的相位差形成器来实现，其从在当前时间点处的相位中减去先前时间点处的相位，以获得当前时间点的频率值。该频率值与滤波通道i的恒定频率值fi相加，以在输出560处获得时变频率值。在输出560处的频率值具有直流分量＝fi、以及交流分量＝滤波通道中的信号的当前频率偏离平均频率fi的频率偏差。

[0108] 因此，如图5a及5b中所说明的，相位语音编码器实现了频谱信息与时间信息的分离。频谱信息在特殊通道中或在频率fi中，频率fi提供每一通道的频率的直流部分，而时间信息相应地包括于随时间而变的频率偏差或幅度中。

[0109] 图5c示出了可在图5a中以虚线所标出的语音编码器的位置处在语音编码器中执行的操纵。

[0110] 对于时间缩放，例如，每一通道中的振幅信号A(t)或每一信号中信号f(t)的频率可分别被抽取或内插。因为对本发明有用，所以为了达到转换的目的，内插(即信号A(t)及f(t)的时间延伸或扩展)被执行以获得扩展信号A’(t)及f’(t)，其中该内插由扩展因数来控制。通过相位变量的内插，即在由加法器552加上恒定频率之前的值的内插，图5a中每一单独振荡器502的频率不改变。但是，总体音频信号的时间变化变慢，即慢了一半。结果得到时间上扩展的具有原始音高(即具有其谐波的原始基波)的音调。

[0111] 对于频率转换，可使用下面的构想。通过执行图5c中说明的信号处理，其中此处理在图5a中的每个滤波频带通道中执行，且通过在抽取器中对产生的时间信号进行抽取，音频信号可收缩回到其原始持续时间而同时所有频率加倍。这得到因数为2的音高转换，但是，其中获得的音频信号具有与原始音频信号相同的长度，即相同数目的采样。 [0112] 使用语音编码器的信号处理器的实现方式-转换实现方式

[0113] 作为图5a中说明的滤波器组实现方式的替代方案，相位语音编码器的转换实现方式还可如图6所述那样来使用。此处，音频信号132馈入FFT(快速傅立叶变换)处理器中，或更一般地，馈入短时傅立叶变换处理器600中，作为时间采样序列。FFT处理器600在图6中示意性地实施为对音频信号执行时间加窗，以便接着通过FFT来计算频谱的幅度和相位，其中此计算针对与音频信号的严重交叠的多个块有关的连续频谱来执行。 [0114] 在极端情况下，针对每个新音频信号采样，可以计算新频谱，其中还可例如仅针对每第二十个新采样来计算新频谱。两频谱之间的采样中的该距离a较佳地由控制器602给定。控制器602进一步实施以向IFFT(快速傅立叶逆变换)处理器604提供输入(feed)，该IFFT处理器604实施为以交叠操作来操作。特别地，IFFT处理器604被实施使得其通过基于修改的频谱的幅度及相位，来每频谱执行一个IFFT，来执行短时傅立叶逆变换，以便接着执行交叠相加操作，从中获得产生的时间信号。该交叠相加操作消除了分析窗的影响。 [0115] 时间信号的扩展通过两频谱(当这两个频谱经IFFT处理器604处理时)之间的距离b大于在FFT频谱产生中的所述频谱之间的距离a来实现。基本想法是简单地通过与分析FFT相比，使逆FFT间隔较远，来扩展音频信号。因此，合成音频信号中的时间变化比原始音频信号中的时间变化慢。

[0116] 但是在没有块606中的相位重新缩放的情况下，上述会导致伪像。例如，在考虑其中连续的相位值以45°来实现的单个频率分段时，这意味着该滤波器组中的信号在相位上以周期的1/8这种速率增加，即每时间间隔增加45°，此处的时间间隔是连续的FFT之间的时间间隔。若现在逆FFT彼此间隔更远，则这意味着45°相位增加在更长时间间隔上发生。这意味着由于相位偏移，在随后的交叠相加过程中发生失配，导致了不希望的信号消除。为了消除此伪像，以与音频信号用于在时间上扩展音频信号的因数完全相同的因数，来重新缩放相位。每个FFT频谱值的相位因此以因数b/a增加，从而失配消除。 [0117] 尽管在图5c说明的实施例中通过振幅内插/频率控制信号，针对图5a滤波器组实现方式中的一个信号振荡器，来实现扩展，然而图6中的扩展通过两IFFT频谱之间距离大于两FFT频谱之间距离来实现，即b大于a，但是其中为了防止伪像，依据b/a来执行相位重新缩放。

[0118] 关于相位语音编码器的详细说明，请参照下列文献：

[0119] Mark Dolson 所著的“The phase Vocoder：A tutorial”，Computer Music Journal，第10卷，第4期，第14--27页，1986年，或L.Laroche及M.Dolson所著的“New phase Vocoder techniques for pitch-shifting，harmonizing and other exotic effects”，Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics，纽普兹，纽约，1999 年10月17-20日，第91至94页；A. 所著的“New approached to transient processing interphase vocoder”，Proceeding of the 6th international conference on digital audio effects(DAFx-03)，伦敦，英国，2003年9月8-11日，第DAFx-1至DAFx-6页；Meller Puckette所著的“Phase-locked Vocoder”Proceedings 1995，IEEE ASSP，Conference on applications of signal processing to audio and acoustics，或美国专利申请号6,549,884。

[0120] 在下文中，基于变换的相位语音编码器的功能的范例将参见图7来简要描述。图7示出了利用合成跳距的相位语音编码算法操作的示意图，例如，该合成跳距(hop size)与分析跳距不同，相差1倍。

[0121] 相位语音编码(PV)算法用于修改信号的持续时间而不改变其音高[B9]。其将信号分成所谓的颗粒(grain)，所述颗粒表示通常具有数十毫秒范围内的长度的信号加窗截除部分(windowed cutout)。所述颗粒在交叠相加(OLA)过程中被重新排列，在此过程中，合成跳距与分析跳距不同。为了延展信号，例如，将其延展到2倍，合成跳距是分析跳距的两倍。图7示出了该算法。

[0122] 暂态信号重新插入器

[0123] 在下文中，图1所示的暂态信号重新插入器150的较佳实现方式将参见图4来描述。

[0124] 暂态信号重新插入器150包括作为重要元件的信号组合器150a。信号组合器150a被配置成接收经处理的音频信号142及暂态信号152，且在其基础上提供经处理的音频信号120。信号组合器150a例如可配置为执行用暂态信号152的一部分对经处理的音频信号142的一部分的硬切换式替换。但是，在较佳实施例中，信号组合器150a可配置为在经处理的音频信号142与暂态信号152之间形成交叉衰落，使得在经处理的音频信号120内信号142、152之间有平滑过渡。

[0125] 但是，暂态信号重新插入器150可配置为确定最优插入系数。例如，暂态信号重新插入器150可包括用于计算暂态重新插入部分的长度的计算器150b。该暂态重新插入部分的长度的计算例如可能是重要的，如果(例如通过暂态检测器130a确定的)经替换的暂态部分的长度是依据信号特性而可变的。在经处理的音频信号142与原始输入音频信号110相比时包括不同的长度(或每秒包括不同采样数目，或不同总采样数)的情况下，计算器150b可考虑延展因数或压缩因数以确定暂态重新插入部分的长度。参见图10及11，在下文提供长度变化的详细讨论。

[0126] 暂态信号重新插入器150可进一步包括用于计算重新插入位置的计算器150c。在某些情况下，重新插入位置的计算可将经处理的音频信号142的延展或压缩考虑在内。在某些情况下，较佳地是经处理的音频信号120中的非暂态信号内容与暂态信号内容之间的关系(例如，时间关系)至少与原始输入音频信号110中的该非暂态音频内容与该暂态音频内容的时间关系大致相同。但是，除了预先计算适当的暂态信号重新插入位置之外，还可以执行该重新插入位置的微调。例如，用于计算重新插入位置的计算器150c可配置为读取经处理的音频信号142及暂态信号152，且在比较经处理的音频信号142与暂态信号152的基础上确定重新插入时间点。关于重新插入位置的可能计算的细节将参见图10及11中说明的范例在下文中描述。

[0127] 可能的时序关系

[0128] 在下文中，关于可能的时序关系的细节将参见图9来描述。图9示出了对原始输入音频信号110的不同块的处理的图形表示。第一图形表示910描述原始输入音频信号110的时间演进，其中横座标912表示时间。输入音频信号110包括暂态信号部分920，其长度可变。作为时序参考，信号处理器140的处理间隔或处理块922a、922b、922c在图形表示910中被示出。可以看出，暂态信号部分920的持续时间可能小于所述处理间隔922a、
922b、922c的持续时间。但是在某些情况下，暂态信号部分的持续时间甚至可能大于处理间隔的持续时间，或延伸越过仅一个处理间隔。在某些情况下，处理间隔922a、922b、922c还可能是时间交叠的。

[0129] 图形表示930表示暂态减少音频信号132，该暂态减少音频信号132可通过暂态信号替换器130执行的暂态替换来获得。可以看出，暂态信号部分920经被替换信号部分替换。

[0130] 图形表示950描述经处理的音频信号142，例如通过使用对暂态减少音频信号132的逐块处理，来获得经处理的音频信号142。例如该处理可使用相位语音编码器和下采样来执行。在该处理中，可选的可以对块加窗，所述块还可选的是交叠的。

[0131] 另一图形表示970表示经处理的音频信号120，其中暂态(或其修改版本)已被暂态信号重新插入器150重新插入。

[0132] 重要的是要指出，暂态信号部分920可能会对整个块1”产生影响，如果在逐块处理中已考虑到暂态信号部分920，这是因为暂态能量在这种逐块处理中通常会在整个块上散开。因此，若在该逐块处理中要考虑暂态信号部分，则该块的总能量将可能由于暂态能量而出错。而且，暂态通常会展开(即增宽)，如果暂态受该逐块处理的影响。相反，对暂态的分别处理允许将暂态的影响限制在经处理的音频信号120的与暂态相关联的时间间隔1”中。暂态信号部分朝向信号处理器140中的逐块信号处理的整个块的扩展可被避免。相反，经处理的音频信号120中的暂态信号部分的持续时间可通过暂态处理器160所执行的暂态处理来确定。可选择地，若需要，可以在暂态信号部分920的原始持续时间内将暂态信号部分920插入到经处理的音频信号142中。因此，信号处理器140中不想要的暂态能量的扩展可被避免。

[0133] 音频信号的时间扩展

[0134] 从上述说明中可以看出，用于操纵包括暂态事件的音频信号的本发明构想可应用到许多不同的应用中。例如，该构想可应用到其中暂态将通过信号处理来劣化且其中仍然想要维持暂态的任何音频信号处理中。例如，许多类型的非线性音频信号处理由于暂态的存在会产生被严重劣化的结果。除此之外，某些类型的时间滤波由于暂态的存在而会受到严重影响。而且，音频信号的任何逐块处理通常都将由于暂态的存在而劣化，因为暂态的能量将被涂抹在整个处理块上，从而致使可听见的伪像。

[0135] 然而，音频信号的时间延展可被视为用于操纵包括暂态事件的音频信号的本发明构想的尤其重要的应用。由于此原因，关于此应用的细节将在下文中描述。 [0136] 在下文中，关于音频信号的时间延展的常规构想的一些缺点将被描述以有利于对本发明构想的优点的理解。由相位语音编码器对音频信号进行的时间延展包括通过分散来“涂抹开”暂态信号部分，因为信号的(从不同频带分量之间的特定相位关系的意义上说)所谓垂直相干性被削弱。与所谓的交叠相加(OLA)方法一起执行的方法可能产生暂态声音事件的破坏性预回音及延迟回音。在暂态环境中进行较显著的时间延展时，这些问题确实可能遇到。但是若发生转换，转换因数在暂态环境中将不再恒定，即叠加的(可能是音调的)信号分量的音高将改变且将感知为是破坏性的。

[0137] 若暂态被截除且若将产生的间隙延展，则此后必须填充非常大的间隙。若暂态彼此紧随，则大间隙可能交叠。

[0138] 在下文中，将描述一种用于信号变换的新方法。此处所呈现的该方法解决了上述提到的问题。

[0139] 依据此方法的一方面，从要被操纵的信号(例如，原始输入音频信号110)中，内插或外插包括暂态的加窗部分。若对于应用来说时间是关键的，即若延迟要被避免，则可较佳地选择外插。若未来被称为所谓的预测，且若延迟不是太重要，则内插是较佳的。 [0140] 在一些实施例中，该方法基本上可由下列步骤组成，且将在图10及11图中示出。 [0141] 1.暂态的辨识；

[0142] 2.暂态长度的确定；

[0143] 3.暂态保存；

[0144] 4.外插和/或内插；

[0145] 5.实际方法的应用，例如相位语音编码器；

[0146] 6.所保存的暂态的重新插入；以及

[0147] 7.可能的(可选的)重新采样(用于采样速率的修改)。

[0148] 当执行上述序列时，暂态的持续时间在下采样时被缩短。若这不是希望的，则可以调制暂态，使得其在频移键控之后、重新插入之前逐渐变为处于所期待的频带内(步骤6及7互换)。

[0149] 在下文中，一些细节将参见图10来描述。图10示出了不同信号的图形表示，这些信号可出现在依据图1的装置100的实施例中。图10表示的全部内容由1000来表示。信号表示1010描述原始输入音频信号110的时间演进。可以看出，输入音频信号110包括暂态信号部分1012，该暂态信号部分1012的可变宽度(或持续时间)可通过暂态检测器
130a以信号适应的方式来确定。暂态信号部分1012可由暂态信号替换器130移除，且可被替换信号部分替换。因此，可获得在信号表示1020中所示出的暂态减少音频信号132。
替换信号部分在参考数字1022处示出，其替换暂态信号部分1012。暂态减少音频信号132可以逐块方式来处理，其中不同的处理窗(确定逐块处理的粒度，且还可以“颗粒”来表示)在信号表示1030中示出。例如，对于每一块(或“颗粒”)而言，可获得一组频谱系数，以形成暂态减少音频信号132的时频域表示。相位语音编码处理可在暂态减少音频信号132的时频域表示内应用，由此获得持续时间增加的信号。为了达到此目的，可获得经内插的时频域系数。所述时频域系数可接着用于构建时域信号，与原始输入音频信号相比，该时域信号的持续时间延长，同时音高维持不变。换言之，信号周期的数目增加。通过相位语音编码操作获得的信号在信号表示1040中示出。从图形表示1040可以看出所谓的“截除暂态区域”(其中替换信号部分已被插入以替换暂态信号部分)相对于原始输入音频信号110中的暂态信号部分的时间位置被时移了(当参照输入音频信号的开始而考虑时)。 [0150] 随后，先前已被替换的暂态信号部分被重新插入，例如，通过暂态信号重新插入器
150。例如，暂态信号152所描述的暂态信号部分可交叉衰落而进入到暂态减少音频信号的经处理的版本142中。暂态重新插入的结果在图形表示1050中示出。

[0151] 在随后的下采样中，可减少经处理的音频信号120的持续时间。该下采样例如可通过信号调节器170来执行。该下采样例如可包括时间尺度的变化。可选择地，可减少多个采样点。因此，与相位语音编码器所提供的信号相比，经下采样的信号的持续时间减少。同时，与相位语音编码器所提供的信号相比，可通过下采样维持多个周期。因此，与相位语音编码器所提供的信号(在信号表示1040中示出)相比，在信号表示1050中示出的经下采样的信号的音高可增加。

[0152] 图11示出了另一信号表示，其表示在图1装置100的另一实施例中出现的信号。该处理与参见图10所解释的处理相似，此处仅描述处理顺序中的差别，且相同的信号表示及信号特性将由图10及11中相同的参考数字表示。

[0153] 在信号表示1100所表示的信号处理中，下采样在暂态信号重新插入之前执行。因此，信号表示1150示出了不具有插入的暂态信号部分的经下采样的信号。但是，使用暂态频率偏移操作1160来频移暂态信号部分，该操作1160可由暂态处理器160执行。频率偏移的暂态信号(相对于经暂态信号替换器130替换的暂态信号部分的频率偏移)可由暂态信号重新插入器150重新插入到经下采样处理的音频信号142中。暂态重新插入的结果在信号表示1170中示出。

[0154] 暂态信号部分的配适

[0155] 在下文中，将描述如何使用暂态信号插入器150将暂态信号152与经处理的音频信号142组合。例如，暂态信号插入器150可配置为从经处理的音频信号142中截除暂态区域，暂态信号152要被插入经处理的音频信号142中。这里可以考虑的是，暂态信号152的边界部分可能在时间上会与截除的暂态区域的边界部分交叠。在此交叠的边界部分中，经处理的音频信号142与暂态信号152之间可能发生交叉衰落。暂态信号152还可以相对于经处理的音频信号142被时移，使得被覆盖的暂态区域的边界部分的波形与暂态信号152的边界部分的波形十分一致。

[0156] 精确的配适可通过计算产生的凹口的边缘与暂态部分的边缘的交叉相关的最大值来执行(其中该凹口可能是由于从经处理的音频信号142中截除暂态区域而引起的)。以此方式，暂态的主观音频质量不再会由于分散及回音效应而被削弱。

[0157] 为达到选择适当的截除部分的目的，对暂态位置的精确确定可以执行，例如，通过在合适的时间段上使用能量的浮动重心计算来确定。

[0158] 依据最大交叉相关的暂态的最优配适可能需要在原始位置上的时间上略微偏移。但是，由于存在时间前掩蔽以及尤其是后掩蔽效应，重新插入的暂态的位置不需要与原始位置精确匹配。由于掩蔽罩作用期间较长，在此上下文中优选正时间方向上的暂态的偏移。通过插入原始信号部分，采样速率的变化致使音色的变化，或音高的变化。但是，这大体上通过心理声学掩蔽机制来由暂态掩蔽。

[0159] 暂态处理

[0160] 若暂态在重新插入之前与截除之后相比具有较少音调，例如，因为其仅将被加入到经处理的信号上，则相对应的窗口化的暂态部分将须以合适的方式来处理。在这种情况下，可实施反向(LPC)滤波。

[0161] 可选择的方式将在下列内容中简要地描述：

[0162] 1.确定(例如由暂态信息134所描述的暂态信号部分的)短时傅立叶变换(STFT)，以获得频谱；

[0163] 2.确定(例如该暂态信号部分的频谱的)倒频谱；

[0164] 3.高通滤波该倒频谱(第一系数被设定成0)，以获得频谱的高通滤波； [0165] 4.将(例如该暂态信号部分的)频谱除以(例如该暂态信号部分的)经滤波的频谱，以获得平滑化的频谱；及

[0166] 5.逆变换(例如该平滑化的频谱)至时域(例如，以获得经处理的暂态信号152)。 [0167] 产生的信号展示出(至少大致)与输出信号相同的频谱包络，但是已丢失了音调部分。

[0168] 方法

[0169] 依据本发明的实施例包括用于操纵包括暂态事件的音频信号的方法。图12示出了该方法1200的流程图。

[0170] 方法1200包括步骤1210，以适应于音频信号的一个或多个非暂态信号部分的信号能量特性或适应于暂态信号部分的信号能量特性的替换信号部分，来替换包括音频信号的暂态事件的暂态信号部分，以获得暂态减少音频信号。

[0171] 方法1200进一步包括步骤1220，处理暂态减少音频信号，以获得该暂态减少音频信号的经处理版本。

[0172] 方法1200进一步包括步骤1230，将暂态减少音频信号的经处理版本与以原始或经处理的形式表示该暂态信号部分的暂态内容的暂态信号相组合。

[0173] 方法1200可通过本文所描述的同样关于上述本发明的装置的任何特征或功能来补充。

[0174] 换言之，尽管一些方面已在装置的上下文中被描述，但显然这些方面还表示相对应的方法的说明，其中模块或装置与方法步骤或方法步骤的特征相对应。类似地，方法步骤的上下文中所描述的方面还表示相对应装置的相对应模块或项目或特征的说明。 [0175] 计算机程序

[0176] 依据某些实施要求，本发明的实施例可以硬件或软件来实施。该实施可使用数字存储介质来执行，例如软盘、DVD、蓝光碟、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器，该数字存储介质上储存有电子可读控制信号且与(或能够与)可编程计算机系统协作使得相应方法被执行。因此，数字存储介质可以是计算机可读的。

[0177] 依据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作，使得本文所描述的方法之一被执行。

[0178] 一般说来，本发明的实施例可作为具有程序代码的计算机程序产品来实施，当该计算机程序产品在计算机上运行时，该程序代码可操作地用于执行所述方法之一。该程序代码例如可被储存在机器可读载体上。

[0179] 其他实施例包括用于执行本文所描述的所述方法之一的储存在机器可读载体上的计算机程序。

[0180] 换言之，本发明方法的实施例进而是具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码用于执行本文所描述的所述方法之一。 [0181] 本发明所述方法的另一实施例进而是数据载体(或数字存储介质，或计算机可读介质)，其包括记录于其上用于执行本文所描述的所述方法之一的计算机程序。 [0182] 本发明方法的另一实施例进而是表示用于执行本文所描述的所述方法之一的计算机程序的数据流或信号序列。该数据流或信号序列例如可配置为经由数据通信连接，例如经由互联网来传送。

[0183] 另一实施例包括处理装置，例如，被配置成或适于执行本文所描述的所述方法之一的计算机或可编程逻辑器件。

[0184] 另一实施例包括计算机，其上安装有用于执行本文所描述的方法之一的计算机程序。

[0185] 在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可用于执行本文所描述的方法的某些功能或所有功能。在一些实施例中，现场可编程门阵列可与微处理器协作以执行本文所描述的方法之一。一般说来，所述方法较佳地通过任何硬件装置来执行。 [0186] 结论

[0187] 总结上述内容，依据本发明的实施例包括处理不需或不能通过实际处理例程(例如，使用信号处理器)来处理的声音事件的新方法。在一些实施例中，本发明的方法实质上包括对包含要被单独处理的声音事件的信号部分进行外插或内插。在该处理之后，单独处理后的暂态部分被再次加入。这种处理不限于时间或频率延展，而是当信号的实际处理对暂态信号部分不利(或受暂态信号部分负面影响)时，这种处理一般可在信号处理中使用。 [0188] 在下文中，描述新方法的一些优势，所述优势可在实施例的一些中获得。利用该新方法，有效防止了在使用时间延展及变换方法处理暂态期间可能产生的伪像(诸如分散、预回音及延迟回音)。避免了叠加的(可能是音调的)信号部分的质量的可能削弱。 [0189] 依据本发明的实施例可应用于不同应用领域中。该方法例如适于其中音频信号的再现速度或它们的音高需改变的任何音频应用。

[0190] 综上，已描述了用于单独处理音频信号中的声音事件以避免伪像的装置及方法。 [0191] 实施例2

[0192] 将参见图13-16在下文中描述本发明的另一实施例。

[0193] 首先，讨论关于暂态检测的细节。随后，将参见图13及14解释暂态处理。将参见图15讨论该暂态处理的结果。将参见图16解释该暂态处理的额外改进。除此之外，将给出该实施例的性能演进，且得出一些结论。

[0194] 实施例2-暂态检测

[0195] 为了实施本发明的构想，重要的是检测暂态的存在以允许替换暂态及单独处理暂态。

[0196] 除了当前的时间延展应用之外，范围广泛的信号处理方法需要了解关于音频信号的暂态内容。主要的范例是块长度判定(B.Edler所著的“Coding of audio signals with over-lapping block transform and adaptive window functions(in German)，”Frequenz，第43卷，第9期，第252-256页，1989年9月)或变换音频编解码中的暂态信号及稳态的分离编码(Oliver Niemeyer及Bernd Edler所著的“Detection and extraction of transients for audio coding，”，AES 120th Convention，巴黎，法国，2006年)，暂态分量的修改(M.M.Goodwin及C.Avendano所著的“Frequency-domain algorithms for audio signal enhancement based on transient modifiation，”，Journal of the Audio Engineering Society.，第54卷，第827-840页，2006年。)及音频信号分段(P.Brossier、J.P.Bello，及M.D.Plumbley所著的“Real-time temporal segmentation of note objects in music signals，”，ICMC，迈阿密，美国，2004年)。许多应用是检测暂态的方法。最普遍的是，通过计算检测函数来执行检测(J.P.Bello、L.Daudet、S.Abdallah、C.Duxbury、M.Davies，及 M.B.Sandler 所著的“A tutorial on onset detection in music signals，”，Speech and Audio Processing，IEEE Transactions on，第13卷，第5期，第1035-1047页，2005年9月)，即局部最大值与暂态的出现一致的函数。各种提出的方法通过研究子带信号的(加权)幅度或能量包络、宽带信号、其导数或其相对差函数，得出检测函数(例如，参见参考文献(A.Klapuri所著的“Sound onset detection by applying psychoacoustic knowledge，”，ICAS SP，1999年)及(P.Masri及A.Bateman所著的“Improved modelling of attack transients in music analysis-resynthesis，”，ICMC，1996年)。)

[0197] 其他方法计算所测量的相位与预测相位之间的偏差(例如，参见C.Duxbury、M.Davies，及M.Sandler所著的“Separation of transient information in musical audio using multiresolution analysis techniques，”，DAFX，2001年)，子带信号的相位及幅度的组合检验(参见C.Duxbury、M.Sandler，及M.Davies所著的“A hybrid approach to musical note onset detection，”，DAFX，2002年)，或自适应线性预测器所产生的误差(例如，参见W-C.Lee及C-C.J.Kuo，“Musical onset detection based on adaptive linear prediction，”，ICME，2006年)。通过波峰选取，暂态的存在及其在时间上的位置作为二元决策而获得，或连续检测函数被应用于控制修改单元的动作(例如，参见参考文献M.M.Goodwin及C.Avendano所著的“Frequency-domain algorithms for audio signal enhancement based on transient modifiation，”，Journal of the Audio Engineering Society.，第54卷，第827-840页，2006年)。

[0198] 利用二元决策，由于检测阶段中的错误分类而造成的错误分派可能会在某些应用中导致严重的减损。对于目前的算法而言，误否定(即错失暂态)会比误肯定(即检测出不存在的暂态)糟糕。第一种情况会导致被涂抹开的暂态分量，而后者仅产生多余的内插(若内插适当地执行)。

[0199] 短时傅立叶变换块的综合加权绝对值用于暂态区域的检测。此函数示出了起音暂态期间的显著的升高且还能够指示打击式信号及相关联的混响的衰减。关于平滑检测函数的波峰选取，使用基于以下所描述的百分位计算的自适应阈值来实现，例如，参考文献J.P.Bello、L.Daudet、S.Abdallah、C.Duxbury、M.Davies，及M.B.Sandler所著的“A tutorial on onset detection in music signals，”，Speech and Audio Processing，IEEE Transactions on，第13卷，第5期，第1035-1047页，2005年9月。

[0200] 总结上述内容，关于暂态检测的不同构想是领域中已知的且可应用于本发明的装置中。例如，上述关于暂态检测的构想可在暂态信号替换器130的暂态检测器130a中使用。

[0201] 实施例2-暂态处理

[0202] 在下文中，将参见图13及14来描述暂态处理。图13示出了暂态移除及内插的图形表示。图14示出了时间延展及暂态重新插入的图形表示。因此，图13及14中的所述示意表示说明所呈现的算法的处理步骤序列。

[0203] 图13的第一行1310示出了包括暂态事件1312的原始信号(即音频信号110)。响应于(或通过)对该暂态1312的检测，(例如通过暂态检测器130a)界定暂态区域(例如从暂态区域开始位置1314延伸至暂态区域结束位置1316)，其随后被从信号中扣减。换言之，首先，将暂态检测出且对其加窗。其次，从该信号中扣减暂态。在参考文献[B20]中示出了其中暂态被扣减的信号。存储暂态本身，以备稍后使用。直到这一步骤，该算法与参考文献[B8]中所描述的相同，尽管此处所使用的截除窗口是矩形的(点状粗线)。为了存储暂态，在前和在后加上了几毫秒的保护间隔，并且将窗口锥形化(细实线)，以界定用于将储存的暂态平滑地重新插入到时间删除无暂态信号中的交叉衰落区域。 [0204] 随后，应用依据本实施例的发明性算法的最重要的特征-内插以填充间隙。换言之，最后，产生的间隙透过内插来填充。内插的结果可在图13的底行中参考数字1330处看出。因为在内插之后信号通常为准稳态，所以现在信号可延展而不引入恼人的伪像。此延展的结果在图14的第一行中参考数字1410处示出。移位后的位置处的暂态区被识别且为先前储存的窗口化暂态的重新插入做准备。因此，锥形化的窗口(已用于暂态的提取及/或储存，且通过图形表示中的细实线于参考数字1310处示出)被反转且施加于该信号，以允许暂态重新加入。此处理的结果在参考数字1420中示出了。最后，储存的暂态加入到经延伸的信号中，此在图形表示中参考数字1430处可以看出。

[0205] 总结上述内容，暂态移除和由暂态移除引起的间隙的内插在图13中示出。首先，暂态被检测出且被加窗。然后，从信号中扣减暂态。最后，通过内插来填充产生的间隙。图14示出了紧随暂态移除及内插之后的时间延展及暂态重新插入。首先，将准稳态信号延展，例如，使用本文所描述的语音编码器。随后，通过与图14中用于储存暂态的窗口的反转窗口相乘，来为该经时间延展的信号中的暂态的位置作准备。最后，暂态被重新加入到该信号中。换言之，最后，将储存的暂态加入到经延展的信号中。

[0206] 实施例2-暂态处理结果

[0207] 在下文中，将参见图15来讨论本发明的暂态处理的一些结果。图15示出了利用相位语音编码器的时间延展应用中的该发明的暂态处理步骤的图形表示。第一行包括未经延展的信号，而第二行包括经延伸的口(port)。应注意在第一行及第二行的图形表示中所使用的时间跨距不同。

[0208] 图15绘示了在响板混合定音管的基础上不同算法步骤的结果。

[0209] 图15a中描述具有检测到的暂态区域的指示的原始输入信号的波形图。图15b示出了截除的暂态区域，截除的暂态区域(在随后的步骤中)被内插以产生图15c中所示的无暂态稳态信号。图15d包含了包括交叉衰落保护间隔的暂态区域，而图15e示出了经内插的(且通常经时间延展的)信号，该信号在时间删除暂态位置处受到反向交叉衰落窗口的阻尼。作为完成部分，图15f示出了时间延展算法的最终输出。

[0210] 因此，图15a表示音频信号110。图15e表示暂态减少音频信号132。图15d表示暂态信号152。图15f表示经处理的音频信号120。

[0211] 实施例2-暂态处理改进

[0212] 已发现关于截除暂态区域的内插的不同构想在某些情况下是重要的。例如，若暂态之前的信号与暂态之后的信号相当不同，则在暂态区域上的内插是困难的。在此情况下，在暂态事件期间所牵涉的信号在某些情况下几乎不能被预测。图16说明此情况，该情况通过举例的方式使用分别对两部分中的仅一个的可能的评估来简化。算法(例如用于执行内插以填充间隙的算法)必须决定(用于填充间隙的内插信号的)所包括的音高。这也应用于更加复杂的宽带信号。克服此问题的可能的解决方案在于彼此之间具有交叉衰落的向前预测及向后预测。因此，当计算用于填充间隙的内插信号时，可应用这样彼此之间具有交叉衰落的向前预测及向后预测。

[0213] 此问题在图16中说明，并提出依据本发明的一方面的解决方案。图16示出了若信号在暂态期间显著地变化，则暂态的内插(即对由暂态移除所引起的间隙的内插)是困难的。在内插范围(即移除暂态所引起的间隙)期间存在无限多种的音高轮廓。图16a以时间频率表示的形式示出了包括暂态事件的信号的图形表示。暂态范围，即已作为暂态时间间隔而被识别的时间间隔，由1610表示。图16b示出了用于获得输入音频信号的时间部分的不同可能性的图形表示，在此时间部分期间，暂态已经被检测出且被移除。可以看出，若在时间上在暂态于期间从输入音频信号中被移除的时间间隔1620之前有第一音高，及在时间上在该时间间隔1620之后有第二音高，则必须确定用于填充移除该暂态时间间隔1620而留下的间隙的音高演进。可以看出，例如，可以(在时间方向上)对时间间隔1620之前的音高进行前向外插，以获得该时间间隔1620期间的音高(参见虚线1630)。可选择地，可以(在时间方向上)对在时间间隔1620之后呈现的音高进行后向外插，以获得时间间隔1620期间的音高(参见虚线1632)。可选择地，可以在时间间隔1620期间在时间间隔1620之前呈现的音高与时间间隔1620之后呈现的音高之间进行内插(参见虚线1634)。
自然地，获得时间间隔1620(由暂态移除所引起的间隙)期间的音高演进的不同方案是可能的。

[0214] 暂态信号重新插入之后最终获得的经处理的信号的影响在图16c中示出了。可以看出，重新插入的暂态信号部分(反映暂态信号部分的原始或经处理的暂态内容)在时间上可能短于经处理的(例如经时间延展的)音频信号142，该音频信号142是已被处理而不具有暂态内容。因此，对用于填充由音频信号132中的暂态移除所引起的间隙的构想的选择实际上可能对经处理的音频信号120产生可听得见的影响，甚至在暂态重新插入之后，例如若(由暂态信号152所描述的)重新插入的暂态部分短于经处理的音频信号142中的间隙填充处理的结果。可参见重新插入的暂态之前的时间间隔140及重新插入的暂态之后的时间间隔142。

[0215] 总结上述内容，参见图16已示出的是若信号在暂态期间显著地变化，则暂态区域的内插需要一些考虑。在内插范围期间存在无限多种的音高轮廓。图16a示出了包括暂态事件的信号。图16b示出了以虚线来标示的内插暂态范围的不同可能性。图16c示出了经延展的信号。因为经延展的内插区延伸超出暂态部分，所以内插的信号可听见且可导致感知伪像。

[0216] 实施例2-性能评估

[0217] 为了获得对所提出方法的感知性能的一些了解，进行非正式的收听。选定的信号包括具有暂态及稳态信号特性的项目以评估针对暂态信号的新方案的益处，同时确保稳态信号不劣化。

[0218] 与现有软件时间延展算法相比较，此非正式的测试示出了对于前文所提到的定音管与响板的组合而言优势明显。结果示出了当焦点落在暂态信号上时，基于PV的时间延展算法优于WSOLA。

[0219] 利用新方法来延展现实世界的信号有时也优于以其他方法。

[0220] 结论

[0221] 总结上述内容，描述了新暂态处理方案，其可有利地用于时间延展算法。在不影响各自对方的情况下改变音频信号的速度或音高，这时常用于音乐制作及创造性再现，诸如重新混合。其还可用于达到其他目的，诸如带宽扩展及速度增强。尽管可在不有损质量的情况下延展稳态信号，但是当使用常规的算法时，暂态时常在延展之后不能被完好保留。本发明展示用于时间延展算法中的暂态处理方法。暂态区由稳态信号来替换。因此被移除的暂态被保存且在时间延展之后被重新插入到时间扩张稳态音频信号中。

[0222] 延展诸如定音管发出的绝对音调信号及诸如响板发出的打击式信号的组合，这项任务提出了挑战。

[0223] 尽管某些常规的方法在经时间延展版本中大致保留了信号的包络以及其频谱特性，且希望时间扩张打击事件衰减慢过原始事件，但是本发明遵循相反的假定：对于音乐信号的时间缩放而言，目标是保留暂态事件的包络。因此，依据本发明的一些实施例仅延展被维持的分量以实现听起来像是以不同的情绪来演奏相同乐器的效果(例如，参见参考文献[B3])。为了实现此效果，依据本发明，分离地处理暂态及稳态信号分量。 [0224] 依据本发明的实施例基于出版物[B8]中所描述的构想，其中已说明了如何利用语音编码器在时间上及频率延展上保留暂态。在此方法中，在信号延展之前从该信号中截除暂态。暂态部分的截除导致信号内出现间隙，所述间隙通过相位语音编码处理被延展。在延展之后，暂态被重新加入到该信号中，具有适合于经延展的间隙的周边。但是，已发现该解决方案对于许多信号而言包括了一些优势。但是还发现通过截除暂态，新的伪像出现了，因为间隙将新的非稳态部分引入到信号中，尤其是在引入的间隙的边界处。这些非稳态例如可在图15b中看到。

[0225] 本文描述的本发明方法的实施例具有超越例如在刊物[B3]、[B6]、[B7]中所描述的技术的优势，因为它们能够实现时间延展，而不必在暂态的周边改变延展因数。本发明方法与例如参考文献[B8]及[B5]中描述的方法具有共性。本发明方案将信号分为暂态部分及无暂态准稳态信号。与[B8]中描述的方法相反，由截除暂态而产生的间隙由稳态信号替换。利用内插方法来估计贯穿间隙的围绕间隙时间段的信号的持续。那么产生的准稳态部分非常适合时间延展算法。由于此信号现在(即内插或外插之后)不再包括暂态及间隙，所以可防止经延伸的暂态及经延伸的间隙的伪像。延展执行之后，暂态替换内插信号的多个部分。该技术依赖于暂态的准确检测及稳态部分的感知上正确的内插。但是，如上所述，除了内插以外，其他填充技术也可使用。

[0226] 为了更好地总结上述内容，在上述某些实施例中，目的是延展诸如定音管加响板发出的绝对音调信号和暂态信号的组合，而不产生任何感知伪像。已示出了本发明对实现此目的的方式而言有显著地提高。本发明的重要方面之一在于对暂态事件的正确识别，尤其是暂态事件的精确的起音点，且更困难的是暂态事件的衰减及其相关联的混响。因为暂态事件的衰减和混响覆盖有信号的稳态部分，这些部分需要仔细处理以避免重新加入到信号的经延伸部分中之后出现可感知的波动。

[0227] 一些收听者趋向于偏好混响与维持的信号部分一起被延展的版本。此偏好与实际目的相矛盾，实际目的是将暂态及相关联的声音作为一体来考虑。因此，在某些情况下，需要更多了解收听者的偏好。

[0228] 但是，依据本发明的观念及原则性方法已针对特殊情况证明了它们的价值及应用。然而，所希望的是本发明的应用范围甚至可扩展。由于其结构，本发明的算法可轻易地适应用于暂态部分的操纵，例如，相较于稳态信号部分改变它们的级别。 [0229] 本发明方法的另一可能的应用是任意地衰减或增强暂态，以便重放。这可用于改变诸如鼓等发出的暂态事件的响度或甚至完全移除它们，这是因为将信号分离为暂态和稳态部分是该算法所固有的。

[0230] 上述实施例仅是说明本发明的原则。应理解的是在此描述的所述布置及所述细节的修改及变化对于本领域技术人员而言是显而易见的。因此，旨在仅受独立权利要求的范围的限制而不受通过本文的实施例的说明及解释的方式所呈现的特定细节的限制。 [0231] 参考文献

[0232] [A1]J.L.Flanagan and R.M.Golden，“The Bell System Technical Journal，November 1966”，pages 1394 to 1509；

[0233] [A2]United States Patent 6,549,884，Laroche，J.& Dolson，M.：“Phase-vocoder pitch-shifting”；

[0234] [A3]Jean Laroche and Mark Dolson，“New Phase-Vocoder Techniques for Pitch-Shifting，Harmonizing and Other Exotic Effects”，by Proc. [0235] [A4] U：“DAFX：Digital Audio Effects”，Wiley & Sons，Edition：1(26 February 2002)，pages 201-298；

[0236] [A5]Laroche L.，Dolson M.：”Improved phase vocoder timescale modification of audio”，IEEE Trans.Speech and Audio Processing，vol.7，no.3，pp.323-332；

[0237] [A6]Emmanuel Ravelli，Mark Sandler and Juan P.Bello：“Fast implementation for non-linear time-scaling of stereo audio”，Proc.of the8thInt.Conference on Digital Audio Effects(DAFx’05)，Madrid，Spain，September
20-22，2005；

[0238] [A7]Duxbury，C.，M.Davies，and M.Sandler(2001，December)：“Separation of transient information in musical audio using multiresolution analysis techniques”.In：Proceedings of the COST G-6 Conference on Digital Audio Effects(DAFX-01)，Limerick，Ireland；

[0239] [A8] A.：“A NEW APPROACH TO TRANSIENT PROCESSING IN THE PHASE VOCODER”，Proc.Of the 6th Int.Conference on Digital Audio Effects(DAFx-03)，London，UK，September8-11，2003.

[0240] [B1]T.Karrer，E.Lee，and J.Borchers，“Phavorit：A phase vocoder for real-time interactive time-stretching，”in Proceedings of the ICMC 2006 International Computer Music Conference，New Orleans，USA，November 2006，pp.708-715.

[0241] [B2]T.F.Quatieri，R.B.Dunn，R.J.McAulay，and T.E.Hanna，“Time-scale modifications of complex acoustic signals in noise，” Technical report，Massachusetts Institute of Technology，February 1994.

[0242] [B3]C.Duxbury，M.Davies，and M.B.Sandler，“Improved time-scaling of musical audio using phase locking at transients，”in 112thAES Convention，Munich，2002，Audio Engineering Society.

[0243] [B4]S.Levine and Julius O.Smith III，“A sines+transients+noise audio representation for data compression and time/pitchscale modifications，”1998. [0244] [B5]T.S.Verma and T.H.Y.Meng，“Time scale modification using a sines+transients+noise signal model，”in DAFX98，Barcelona，Spain，1998. [0245] [B6]A. “A new approach to transient processing in the phase vocoder，”in 6th Conference on Digital Audio Effects(DAFx-03)，London，2003，pp.344-349.

[0246] [B7]A. “″Transient detection and preservation in the phase vocoder，”in Int.Computer Music Conference(ICMC 03)，Singapore，2003，pp.247-250. [0247] [B8]F.Nagel，S.Disch，and N.Rettelbach，“A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs，”in 126th AES Convention，Munich，2009.

[0248] [B9]M.Dolson，“The phase vocoder：A tutorial，”Computer Music Journal，vol.10，no.4，pp.14-27，1986.

[0249] [B10]B.Edler，“Coding of audio signals with over-lapping block transform and adaptive window functions(in german)，”Frequenz，vol.43，no.9，pp.252-256，Sept.1989.

[0250] [B11]Oliver Niemeyer and Bernd Edler，“Detection and extraction of transients for audio coding，”in AES 120th Convention，Paris，France，2006. [0251] [B12]M.M.Goodwin and C.Avendano，“Frequency-domain algorithms for audio signal enhancement based on transient modifiation，”Journal of the Audio Engineering Society.，vol.54，pp.827-840，2006.

[0252] [B13]P.Brossier，J.P.Bello，and M.D.Plumbley，“Real-time temporal segmentation of note ob-jects in music signals，”in ICMC，Miami，USA，2004. [0253] [B14]J.P.Bello，L.Daudet，S.Abdallah，C.Duxbury，M.Davies，and M.B.Sandler，“A tutorial on onset detection in music signals，”Speech and Audio Processing，IEEE Transactions on，vol.13，no.5，pp.1035-1047，Sept.2005. [0254] [B 15]A.Klapuri，“Sound onset detection by applying psychoacoustic knowledge，”in ICASSP，1999.

[0255] [B16]P.Masri and A.Bateman“，Improved modelling of attack transients in music analysis-resynthesis，”in ICMC，1996.

[0256] [B17]C.Duxbury，M.Davies，and M.Sandler，“Separation of transient information in musical audio using multiresolution analysis techniques，”in DAFX，2001.

[0257] [B18]C.Duxbury，M.Sandler，and M.Davies，“A hybrid approach to musical note onset detection，”in DAFX，2002.

[0258] [B19]W-C.Lee and C-C.J.Kuo，“Musical onset detection based on adaptive linear prediction，”in ICME，2006.

[0259] [Edler]O.Niemeyer and B.Edler，“Detection and extraction of transients thfor audio coding”，presented at the AES 120 Convention，Paris，France，2006； [0260] [Bello]J.P.Bello et al.，“A Tutorial on Onset Detection in Music Signals”，IEEE Transactions on Speech and Audio Processing，Vol.13，No.5，September 2005；

[0261] [Goodwin]M.Goodwin，C.Avendano，“Enhancement of Audio Signals Using Transient Detection and Modification”，presented at the AES 117thConvention，USA，October 2004；

[0262] [Walther]Walther et al.，“Using Transient Suppression in Blind Multi-channe1 Upmix Algorithms”，presented at the AES 122th Convention，Austria，May 2007；

[0263] [Maher]R.C.Maher，“A Method for Extrapolation of Missing Digital Audio Data”，JAES，Vol.42，No.5，May 1994；

[0264] [Daudet]L.Daudet，“A review on techniques for the extraction of transients in musical signals”，book series：Lecture Notes in Computer Science，Springer Berlin/Heidelberg，Volume 3902/2006，Book：Computer Music Modeling and Retrieval，pp.219-232.

用于操纵包括暂态事件的音频信号的装置和方法转让专利

申请号 : CN201080009914.4

文献号 : CN102341847B

文献日 : 2014-01-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 弗雷德里克·纳格尔 , 安德烈亚斯·沃尔瑟 , 纪尧姆·福克斯 , 热雷米·勒康特 , 哈拉尔德·波普 , 蒂洛·维嘉

申请人 : 弗劳恩霍夫应用研究促进协会

摘要 :

权利要求 :

说明书 :

用于操纵包括暂态事件的音频信号的装置和方法

背景技术

发明内容

附图说明

具体实施方式