用于信号时间标度的方法及设备转让专利

申请号 : CN200580003348.5

文献号 : CN1914668B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : E·G·P·舒伊杰斯A·J·格里茨A·W·J·乌门

申请人 : 皇家飞利浦电子股份有限公司

摘要 :

解码器接收(501)包括编码的单声道信号和立体声数据的比特流。时间标度处理器(503)产生时间标度的单声道信号。时间-频率处理器产生时间标度的信号的频率采样块,所述块长度固定且与时间标度无关。参数化立体声解码器(509)为所述频率采样块产生立体声信号,并且这些立体声信号由频率-时间处理器(511)转换成时域。同步处理器(515)通过确定参数值与频率采样块之间的时间关联,使所述立体声数据与时间标定的信号同步。所述参数值和时间关联被用于为该频率采样块以及其他频率采样块确定同步化的立体声参数值。本发明尤其适于从MPEG-4编码信号中低复杂性地生成时间标度的立体声信号。

权利要求 :

1.一种用于时间标度信号的设备,包括:

用于接收(501)输入信号的装置,所述输入信号包括第一信号以及扩展数据;

用于产生(503,505)第一信号的时间标度信号的装置;

用于为时间标度的信号产生(507)多个频率采样块的装置,每个频率采样块对应于所述时间标度的信号的固定时间间隔,所述固定时间间隔与时间标度因子无关;

用于确定扩展数据的第一参数值与第一频率采样块之间的第一时间关联(515)的装置,所述第一频率采样块具有时间标度的信号的关联第一时间间隔;

用于响应于第一时间关联和第一参数值确定(515)与第二频率采样块相关联的第二参数值的装置;

用于响应于第二参数值修改第二频率采样块的数据(509)的装置;以及用于从所述频率采样块中生成时域输出采样块(511,513)的装置。

2.如权利要求1所述的设备,其中,可操作用于确定第一时间关联(515)的装置,来确定第一频率采样块,所述第一频率采样块具有关联的时间间隔,而所述关联的时间间隔对应于与第一参数值相关联的时刻。

3.如权利要求1所述的设备,其中,第一时间关联包括对第一时间间隔内参数值的时间位置的指示。

4.如权利要求1所述的设备,还包括用于确定(515)扩展数据的第三参数值与第三频率采样块之间第二时间关联的装置;并且其中,可操作用于确定第二参数值(515)的装置以响应于第一参数值、第一时间关联、第三参数值以及第二时间关联,来执行内插。

5.如权利要求4所述的设备,其中,所述内插是线性内插。

6.如权利要求1所述的设备,其中,可操作用于确定第一时间关联(515)的装置以响应于先前的时间关联,确定第一时间关联。

7.如权利要求1所述的设备,还包括用于确定(515)扩展数据的连续参数值之间标度的时间偏移的装置,并且其中,可操作用于确定第一时间关联(515)的装置以响应于先前的参数值和标度的时间偏移,确定第一参数值的时刻,并响应于所述时刻,产生所述时间关联。

8.如权利要求7所述的设备,其中,可操作用于确定第二参数值(515)的装置以响应于所述时间关联,使第一参数值与第一时间间隔内的标定时间位置相关联,并响应于第一参数值和所述标定时间位置,确定第二参数值。

9.如权利要求8所述的设备,其中,可操作用于确定第二参数值(515)的装置以响应于对第一参数值和标定时间位置响应的内插,来确定第二参数值。

10.如权利要求1所述的设备,其中,所述输入信号是参数化编码音频信号。

11.如权利要求1所述的设备,其中,用于产生所述频率采样块(507)的装置包括复指数调制的滤波器组。

12.如权利要求1所述的设备,其中,所述扩展数据包括参数化立体声数据。

13.如权利要求12所述的设备,其中,第一参数值是立体声声象参数的参数值,所述立体声声象参数选自由如下参数组成的组:a.声道间强度差参数;

b.声道间时间或相位差参数;以及

c.声道间相关性参数。

14.如权利要求1所述的设备,其中,可操作用于修改(509)的装置来修改第二频率采样块的数据,以产生至少第一立体声声道的频率采样块。

15.一种时间标度信号的方法,所述方法包括如下步骤:接收输入信号,所述输入信号包括第一信号以及扩展数据;

产生第一信号的时间标度的信号;

为时间标度的信号产生频率采样块,每个频率采样块对应于所述时间标度的信号的固定时间间隔,所述固定时间间隔与时间标度因子无关;

确定扩展数据的第一参数值与第一频率采样块之间的第一时间关联,所述第一频率采样块具有时间标度的信号的关联第一时间间隔;

响应于第一时间关联和第一参数值,确定与第二频率采样块相关联的第二参数值;

响应于第二参数值,修改第二频率采样块的数据;以及从所述频率采样块中生成时域输出采样块。

说明书 :

技术领域

本发明涉及用于信号时间标度的方法及设备,具体涉及用于时间标度(scaling)音频信号的方法及设备。

背景技术

近年来,以数字形式分发和存储A/V内容已经显著增长。因此,已经开发出了大量的编码标准和协议。
音频编码和压缩技术规定了非常有效的音频编码,其允许相对低数据大小和相对高质量的音频文件便于通过诸如包括互连网之类的数据网络分发。
编码标准的示例是运动图象专家组-4(MPEG-4)的编码标准,其提供了用于视频及音频编码的解码器规范。MPEG-4编码标准的更多细节可以见“Coding of Audio-Visual Objects”,MPEG-4:ISO/IEC14496。
可以施加给音频信号以改变音频信号的播放速度和持续时间而不改变其感觉出的音调的技术,被称为时间标度或节奏标度。存在许多用于时间标度的令人感兴趣的应用,例如包括音频/视频同步、语言学习、用于听力受损的人的工具、应答装置、有声图书(spoken book)等。
通常,时间标度被用作后处理技术。因此,对于常规波形编码的素材,增大了复杂性,因为必须执行规则的解码和复杂的时间标度处理。而且,时间标度处理一般将伪像引入解码信号,因此使时间标度的信号的质量降级。为了达到可接受的质量,必须使用非常复杂的时间标度算法,这导致增大了对计算的需要。
与波形编码相比,参数化音频编码的优点在于音频信号的参数化表示便于效应处理,例如复杂度相对低的时间和/或音调标度处理。参数化音频编码的示例可以见Erik Schuijers、Werner Oomen、Bert denBrinker和Jeroen Breebaart的“Advances in Parametric Codingfor High-Quality Audio”(荷兰,阿姆斯特丹,2003年3月22~25日,第114届AES Convention,未定稿本5852)。
此参数化编码方案目前正在进行标准化,并且目前在MPEG-4Extension 2的“Coding of Moving Pictures and Audio,Parametriccoding for High Quality Audio”(ISO/IEC 14496-3:2001/FPDAM2,JTC1/SC29/WG11)中描述,并即将在ISO/IEC 14496-3:2001/AMD2中被正式标准化。为方便起见,术语MPEG-4Extension 2将用于此说明书。根据MPEG-4 Extension 2,立体声音频信号可以用下列参数数据表示:
瞬态参数数据,其表示音频信号的非稳态部分。
正弦波参数数据,其表示音频信号的音调部分。
噪声参数数据,其表示音频信号的非音调(或随机的)部分。
立体声声象(stereo imaging)数据。
MPEG-4 Extension 2规定立体声信号通过参数化立体声(PS)(Patametric Stereo)算法进行编码。在PS中,立体声音频编码通过将立体声音频信号编码为单声道信号和少量的立体声声象参数来实现。由此产生的单声道信号然后可以通过(参数化)单声道编码器进行编码。在解码器,通过向解码的单声道信号施加立体声声象参数,单声道编码的声道被扩展为立体声声道。这些立体声参数由声道间强度差(IID)、声道间时间或相位差(ITD或IPD)和声道间相关性(ICC)(或声道间交叉相关)组成。
图1说明了根据现有技术的MPEG-4 Extension 2参数化立体声解码器的示例。
解码器100包括接收机101,其接收进入的MPEG-4 Extension 2比特流和解多路复用该比特流。接收机101耦合于解码单元103,而瞬态、正弦波和噪声参数数据被馈送给解码单元103。作为响应,解码单元103产生单声道信号。
解码单元103与立体声处理器105耦合,而立体声处理器105还耦合于接收机101。立体声处理器105从解码单元103接收单声道信号,并从接收机101接收立体声声象数据,并且作为响应,根据MPEG-4Extension2参数化立体声解码算法产生立体声信号。
参数化音频编码允许在解码器执行相对低复杂性的时间标度。图2说明了根据现有技术的MPEG-4 Ext.2时间和/或音调标度参数化立体声解码器200的示例。解码器200除了它还包括时间/音调标度单元201以外,与图1的解码器100相同。解码器200和解码器100的相对应方框在图1和2中具有相同的参考符号。
时间/音调标度单元201被耦合在接收机100和解码单元103之间。可操作时间/音调标度单元201在参数数据被用于产生解码信号之前修改这些参数数据。因此,参数可以被修改,以便达到期望的节奏和音调。
图3说明了根据现有技术的参数化立体声解码器300。参数化立体声解码器300从解码单元103接收时域单声道信号,并且作为响应,在解相关器305中产生解相关的信号。单声道信号进一步被馈送给第一域变换处理器303,其产生单声道信号的频域表示。同样地,解相关的信号被馈送给第二域变换处理器305,其产生解相关的信号的频域表示。
第一和第二域变换处理器303、305耦合于参数化立体声解码器单元307,信号在参数化立体声解码器单元307中被处理,以产生左、右频域声道。具体而言,MPEG-4 Ext.2的立体声声象参数是随时间变化的频率相关参数。因此,频域采样通过以下参数被修改:
-标度(表示声道间强度差参数),
-转动(表示声道间相位差参数),以及
-混合(表示声道间相关性参数)。
结果,产生用于左声道和右声道信号的频域表示。
参数化立体声解码器单元307与第一逆变换处理器309和第二逆变换处理器311耦合,它们被分别馈送频域的左、右声道,并且作为响应,产生时域的左、右声道。
常规地,时域-频域的变换通过(分析)窗口化、其后是快速傅里叶变换(FFT)来执行,频域-时域的变换通过快速傅里叶逆变换(iFFT)、其后是(合成)窗口化以及后续的交叠和相加组合来自连续块的数据来执行。
应当理解,当施加时间标度时,必须在时间标度的单声道信号(和解相关的信号)与立体声声象参数之间保持适当的同步,以便保证适宜的立体声声象参数在参数化立体声解码器单元307中被施加给正确的采样。
常规地,同步通过调整在时间-频率和频率-时间的变换中都施加的窗口大小来实现。例如,如果这样时间标度单声道信号,即增快节奏,则需要在连续的立体声参数值之间产生较少的时域采样。结果,更短的分析与合成窗口在(逆向)域变换处理器303、305、309和311中被施加。然而,考虑到计算的复杂性,(逆向)变换长度优选保持恒定。因此,对分析与合成窗口应用补零,一直补零到预定变换长度。
在常规方法中,立体声参数从比特流中直接提取,并被用来通过参数化立体声解码器单元307进行处理。因此,参数化立体声解码器单元307的立体声参数和块的处理,可以被认为与原始的非时间标度信号同步。为了补偿这个情况,因此通过利用窗口化技术,修改FFT和iFFT的块时间。此方法允许非常灵活和精确的时间标度,而粒度很高。
与窗口化和FFT有关的复杂性非常高,尤其就内存要求而言。为了降低参数化立体声解码工具的复杂性,需要用下采样的复指数(complex-exponential)调制滤波器组来替换在参数化立体声解码器中的时间-频率和频率-时间的变换。复值子频带的域采样是通过用复指数调制原型滤波器卷积(滤波)输入信号来产生的。通过应用分解技术,执行此滤波所需的乘法和加法的数量被最小化。下采样复指数调制滤波器组的进一步说明,可以见P.EKstrand的“Bandwidthextension of audio Signals by Spectral Band replication”(2002年11月15日,比利时Leuven的Proc.1st IEEE Benelux Workshopon Model Base Processing and Coding of Audio(MPCA-2002))。
与基于FFT的方法中分析/合成窗口化的灵活性形成对照,复合调制滤波器组的使用导致了基于固定块的变换和处理。在典型的64个频带复合调制的滤波器组的情况下,事实上为每个64输入采样块生成64个复值子频带的域采样,如图4所示(应当注意,三个低频带在频率上被进一步划分,用于增大立体声重构所需的频率分辨率)。与这些块中每个块相关联的时间间隔被固定。然而,由于用于时间标度的信号的时间间隔是恒定的,所以非时间标度的信号的对应时间间隔的长度根据施加的时间标度而变化。例如,为了增快节奏,时间标度的单声道信号的64个采样将对应于超过64个原始编码的非时间标度的时间信号的采样。由于比特流的立体声声象参数值与原始编码的非时间标度的时间信号本来就同步,并且由于时域-频域的变换不能补偿时间标度,所以立体声声象参数通常将不与立体声解码单元中的频域采样同步。
因此,用于时间标度的改进系统将是有利的,尤其对允许增大灵活性、降低复杂性的系统,性能和/或信号质量将是有利的。特别地,用于MPEG-4立体声信号时间标度的改进系统已降低了复杂性,和/或改进了同步,这将都是有利的。

发明内容

因此,本发明优选设法单独地或以任何组合的方式缓和、减轻或消除一个或多个上述缺点。
根据本发明的第一特征,提供一种用于时间标度信号的设备,包括:用于接收输入信号的装置,所述输入信号包括第一信号和扩展数据;用于产生第一信号的时间标度的信号的装置;用于为时间标度的信号产生多个频率采样块的装置,每个频率采样块对应于所述时间标度的信号的固定时间间隔,所述固定时间间隔与时间标度因子无关;用于确定所述扩展数据的第一参数值与第一频率采样块之间的第一时间关联的装置,所述第一频率采样块具有时间标度的信号的关联第一时间间隔;用于响应于第一时间关联和第一参数值确定与第二频率采样块相关联的第二参数值的装置;用于响应于第二参数值修改第二频率采样块的数据的装置;以及用于从频率采样块中生成时域输出采样块的装置。
本发明规定了信号的有效时间标度。第一信号具体可以是编码的信号。尤其是,本发明允许使用时间标度的信号的固定长度域变换。因此,(频)域变换块的长度与时间标度因子无关。具体而言,本发明可以允许信号的时间标度而不要求通过可变长度(作为时间标度值的函数)的块变换来补偿时间标度的信号。因此,可以减轻或消除对时间标度的信号的可变窗口化的需要。作为替代,用于产生频率采样块的装置、用于修改数据的装置和用于产生时域输出采样块的装置,全都可以按照固定大小块的步骤来处理数据,而固定大小块的步骤对应于时间标度的信号的固定数量的采样。该固定数量与时间标度无关。具体而言,优选频率采样数与标度的时间信号的时间采样数之间的比率固定,并且优选为每个时间采样生成一个频率采样。因此,对于例如64个采样的块步骤大小,用于产生多个频率采样块的装置优选产生64个频率采样。实际的块处理可以涉及来自其他块的数据。例如,用于产生多个频率采样块的装置可以使变换基于超过块大小的多个采样。
这尤其可以允许低复杂性的处理,具体允许使用简化的域转换功能。尤其是,本发明可以允许使用下采样的复指数调制的滤波器组进行时间标度。
本发明提供一种将扩展数据的参数值与时间标度的信号同步的低复杂性和高性能的装置。具体而言,本发明允许时间标度参数值的简单处理以对应于施加给时间标度的信号的时间标度。
根据本发明的特征,用于确定第一时间关联的装置包括确定第一频率采样块作为具有关联时间间隔的频率采样块,而该关联时间间隔对应于与第一参数值相关联的时刻(time instant)。
这允许确定时间关联的简单实现以及可行方法,而该时间关联可以用于在参数值和时间标度的信号之间进行同步。具体而言,用于给定参数值的时间关联可以简单地指示哪个频率采样块对应于接收比特流中参数值的非标度的时刻。
根据本发明的不同特征,第一时间关联包括对第一时间间隔内参数值的时间位置的指示。
时间关联可以包括参数值的分数时间指示。具体而言,该指示可以是相关的时间指示,其指示参数值施加给第一时间间隔的哪个相关分数。这可以允许更加改进和接近扩展数据的参数值与时间标度的信号之间的同步。尤其是,它可以显著改进第二参数值的计算精度,并可以允许参数值的更高时间分辨率标度,藉此提供更加精确的时间标度分辨率。
根据本发明的不同特征,该设备还包括用于确定扩展数据的第三参数值与第三频率采样块之间第二时间关联的装置;以及可操作用于确定第二参数值的装置,以响应于第一参数值、第一时间关联、第三参数值以及第二时间关联,来执行内插(interpolation)。优选地,该内插是线性内插。
这可以提供虽然低复杂性但高性能的实现。具体而言,它可以允许用高时间分辨率确定第二参数值的有效方法,即,它可以允许为期望的时刻精确地确定第二参数值。
根据本发明的不同特征,可操作用于第一时间关联的装置以响应于先前的时间关联确定第一时间关联。
根据本发明的不同特征,该设备还包括用于确定扩展数据的连续参数值之间标度的时间偏移的装置,并且可操作用于确定第一时间相关的装置响应于先前的参数值和标度的时间偏移,确定第一参数值的时刻,并响应于所述时刻,产生所述时间关联。
通常,扩展数据的参数值可以以规则间隔出现,例如每隔1024个编码非时间标度的信号采样。因此,在非标度的时域中,连续参数值之间的时间偏移是1024个采样。对于时间标度的信号,对应标度的时间偏移将是不同的。例如,如果播放速率增加10%,则1024个采样将对应于时间标度的信号的922个采样。因此,关于时间标度的信号的第一参数值的时刻,可以被确定为先前参数值的时间标度的采样加上922个采样。这提供了使时间标度的信号和参数值同步的简单方法。
优选地,时间关联被确定与时间采样块有关。例如,如果时间采样块包括时间标度信号的64个采样,则时间指示2.75对应于第三块的第48个采样。优选地,确定标度的时间偏移也与时间采样块有关。因此,标度的时间偏移922可以等于14.41时间采样块的标度的时间偏移。如果先前的参数值在标度的时域2.75出现,则可以确定后续的参数值以对应于标度的域时间为2.75+14.41=17.16,即,对应于时间采样块17的标度的时间采样10。
根据本发明的不同特征,可操作用于确定第二参数值的装置以响应于所述时间关联,使第一参数值与第一时间间隔内的标定(nominal)时间位置相关联,并响应于第一参数值和所述标定时间位置,确定第二参数值。优选地,可操作用于确定第二参数值的装置以响应于对第一参数值和标定时间位置响应的内插,确定第二参数值。
具体而言,标定时间的位置可以是时间采样块的中间时刻。例如,已经计算出第一参数值的时刻为17.16,可以在第一参数值与先前的参数值之间进行内插,而假设第一参数值处于17.5的位置,假设先前的参数值处于2.5的位置。精确的时刻关联优选被用于确定后续参数的时刻。因此,可以优选确定下列参数值出现在17.16+14.41=31.57。
标定位置例如可以是中点、终点、与第一时间间隔有关的量化的或整数时间值。此特征可以简化对第二参数值的确定,同时保证时间关联的时间指示的高标度时域精度。
优选地,输入信号是参数化编码的音频信号,并且具体而言,它可以是MPEG-4编码的音频信号(例如MPEG-4 Ext.2编码的音频信号)。
根据本发明的不同特征,用于产生频率采样块的装置包括复指数调制的滤波器组(例如,基于QMF的滤波器组)。同样,用于产生时域输出采样块的装置优选包括复指数调制滤波器组。本发明因此可以便于或能够降低时间标度解码器的复杂性,并且尤其是,优选可以消除对用于与域变换相关联的分析窗口化的需要。
根据本发明的不同特征,扩展数据包括参数化立体声数据,并且优选第一参数值是选自由下列参数组成的组中的立体声声象参数的参数值:声道间强度差参数;信道间时间或相位差参数;和信道间相关性参数。优选地,可操作用于确定第二参数值的装置以根据参数化立体声协议,具体根据MPEG-4 Extension 2中所述的参数化立体声协议,处理频率采样块。优选地,可操作用于修改的装置修改第二频率采样块的数据,以产生至少第一立体声声道的频率采样块。因此,本发明可以允许从MPEG-4参数化立体声比特流中有效、低复杂性地生成立体声信号。
可替换地或另外,扩展数据可以包括空间音频数据。例如,扩展数据可以包括允许生成其他空间声道的数据,例如中央和后部声道。
根据本发明的不同方面,提供一种时间标度信号的方法,该方法包括如下步骤:接收输入信号,所述输入信号包括第一信号和扩展数据;产生第一信号的时间标度的信号;用于为时间标度的信号产生频率采样块的装置,每个频率采样块对应于所述时间标度的信号的固定时间间隔,所述固定时间间隔与时间标度因子无关;确定扩展数据的第一参数值与第一频率采样块之间的第一时间关联,所述第一频率采样块具有时间标度的信号的关联第一时间间隔;响应于第一时间关联和第一参数值确定与第二频率采样块相关联的第二参数值;响应于第二参数值修改第二频率采样块的数据;以及从所述频率采样块中生成时域输出采样块。
本发明的这些及其他方面、特征和优点,将参照下述的一个或多个实施例进行阐述,并从中显现出来。

附图说明

本发明的实施例将仅仅通过示例参照附图进行描述,其中,
图1说明根据现有技术的MPEG-4 Extension 2参数化立体声解码器的示例;
图2说明了根据现有技术的MPEG-4 Extension 2时间标度参数化立体声解码器的示例;
图3说明了根据现有技术的参数化立体声解码器;
图4说明了包括频率采样块的时间-频率图;
图5说明了根据本发明实施例的时间标度解码器;以及
图6用图表说明了根据本发明实施例的确定时间标度参数值的方法。

具体实施方式

下列描述集中在适于音频时间标度解码器的本发明实施例,并且尤其集中在包括时间标度功能的MPEG-4 Extension 2立体声解码器的实施例。然而,应该理解,本发明不限于该应用,而是可以应用于许多其他的信号和应用。
应当理解,虽然具体描述集中于该实施例,但是在此所述的原则、替换物和特征不必限于此具体实施例,而是可以选择性地被用于其他适当的实施例。
图5说明了根据本发明实施例的时间标度解码器500。
时间标度解码器500包括接收机501,其从外部或内部的源(未示出)接收MPEG-4 Extension2编码的立体声信号。接收机501可以例如从网络连接接收MPEG-4 Extension 2比特流,或可以从内部存储器或处理器检索该信号。
MPEG-4 Extension 2比特流包括参数化编码的单声道信号,该单声道信号是以瞬态、正弦曲线和噪声参数数据的形式。另外,MPEG-4Extension 2比特流包括扩展数据,其以参数化编码的立体声声象参数形式。具体而言,MPEG-4 Extension 2比特流包括立体声扩展数据,该立体声扩展数据以声道间强度差(IID)参数、声道间时间或相位差(ITD)参数和声道间相关性(ICC)参数的形式。
接收机501与时间标度处理器503耦合,而时间标度处理器503被馈送了包括瞬态、正弦曲线和噪声参数的编码的信号数据。时间标度处理器503响应于节奏和音调要求,处理瞬态、正弦曲线和噪声参数。因此,时间标度处理器503产生时间标度的瞬态、正弦曲线和噪声参数,它们具有期望的音调和播放速率。应当理解,在不有损于本发明的前提下,可以对这些参数应用任何适宜的时间标度处理。例如,正弦曲线合成窗口的长度和噪声包络可以被时间标度。
时间标度处理器503与单声道信号解码器505耦合,其从时间标度处理器503接收时间标度的瞬态、正弦曲线和噪声参数。作为响应,单声道信号解码器505产生时间标度的单声道信号。优选时间标度的瞬态、正弦曲线和噪声参数是MPEG-4 Extension 2兼容的参数,并且如本领域技术人员所公知的,单声道信号解码器505具体可以使用常规的MPEG-4 Extension 2参数化解码算法。
具体而言,单声道信号解码器505可以产生解码的时间标度的脉冲编码调制(PCM)信号。时间标度的信号具有实时对准,其不同于原始编码信号的实时对准。例如,如果施加了对应于节奏增加10%的时间标度,则对应于原始编码信号的1秒的时间间隔将对应于时间标度信号0.9秒的时间标度的时间间隔。假定恒定的采样速率为48kHz,原始单声道编码的信号将包括48000个采样,而时间标度的信号将只包括0.9×48000=43200个采样。很明显,时间标度的时间间隔和对应于给定的非时间标度的时间间隔的采样数,将取决于所施加的时间标度的程度。
单声道信号解码器505与时间-频率处理器507耦合,其接收时间标度的信号。时间-频率处理器507将时间标度信号变换成实际上对应于相等数量的时域采样的连续频率采样块。在该具体实施例中,时间-频率处理器507实际上将每个块的64个时间标度的信号采样变换成64个子频带域采样,它们随后基于块进行处理。
将采样划分成固定大小的块,与时间标度处理器503施加的时间标度因子无关。因此,每个块对应于时间标度的信号的固定时间间隔。例如,对于48kHz的采样速率,每个块对应于间隔为64/48000kHz=1.33毫秒,与时间标度的量值无关。然而,由于关联的时间标度间隔对于时间标度的信号是固定的,所以原始编码的信号的对应时间间隔将根据施加的时间标度因子而变化。
可操作时间-频率处理器507为时间标度信号的每个块产生频率采样块。因此,在每个块处理步骤中,时间-频率处理器507产生64个频率采样,其对应于时间标度信号的64个时间采样。然而,时间-频率处理器507在频率采样块的生成中,可以包括除了这些64个时间采样之外的其他采样。
具体而言,时间-频率处理器507包括下采样的复指数调制滤波器组,其产生频率采样块。
同样,为了进行FFT处理,复指数调制滤波器组利用复合调制(complex-modulate)的变换。例如,所述实施例的复指数调制滤波器组(例如,基于QMF的滤波器组)在变换中使用640个输入采样产生64个输出采样。然而,块间距(step)(或跳跃大小)仅是64个采样。因此,首先640个输入采样给出第一组64个经过滤波的系数,然后上次的640-64=576加上64个新的输入采样被用于产生第二组64个经过滤波的系数等。因此,虽然变换本身在大于当前块上扩展,但是时间标度信号的64个采样的输入块将产生包括64个频域采样的频率采样块。
因此,对于时间标度信号的64个采样的每个时间采样块,时间-频率处理器507实际上产生了64个频率采样的频率采样块,如图4所示。
时间-频率处理器507与参数化立体声解码器509耦合,参数化立体声解码器509接收所述频率采样块以及参数化立体声参数。参数化立体声解码器509响应于参数化立体声参数,处理每个频率采样块,来产生左、右声道的频域信号。
具体而言,参数化立体声解码器509响应于适宜的子频带IID参数来标度各个频率采样,并且响应于ITD参数来旋转参数。
应当理解,为了简便明了起见,上面的描述集中于立体声信号的生成,而不是集中于解相关信号的生成。然而,在实际应用中,改善质量可以通过生成和处理解相关的信号来实现,这为本领域技术人员所理解。具体而言,响应于ICC参数,单声道信号和解相关的信号可以被混合。
因此,参数化立体声解码器509可以产生频率采样立体声块(或等价地可以产生对应于左、右声道的两个频域采样块)。应当理解,参数化立体声解码器509可以根据适宜的MPEG-4 Extension 2兼容的参数化立体声解码算法来处理频率采样块。因此,可操作参数化立体声解码器509来修改频率采样块的数据,以便产生至少第一立体声声道的频率采样块。
参数化立体声解码器509与第一和第二频率-时间处理器511、513耦合。第一频率-时间处理器511接收修改过的频率采样块,具体而言,第一频率-时间处理器511接收对应于左声道的修改过的频率采样块的采样,第二频率-时间处理器513接收对应于左声道的修改过的频率采样块的采样。
第一和第二频率-时间处理器511、513执行频率-时间域变换,并因此分别为左、右立体声声道产生时域采样块。因此,提供了时间标度的立体声信号。
应当理解,参数化立体声解码器509的处理是基于频域块的处理。实际上,64个频率子频带采样的每个频率采样块对应于时间标度信号的64个时间采样的时间采样块,因此每个频率采样块与时间标度信号的时间间隔相关联,而该时间间隔与时间标度因子无关。因此,每个频率采样块对应于原始编码的非时间标度信号的可变时间间隔。非标度的时间间隔的长度取决于时间标度因子。
然而,参数化立体声解码器509使用的立体声声象参数,在MPEG-4Extension 2比特流中接收,并且与原始非时间标度的信号的时间排列同步。因此,在通过参数化立体声解码器509执行该处理时,必须使参数值与时间标度的信号同步。
一个选项是使用大小可变的采样块,通过响应于时间标度因子来改变采样块的大小,或者等价于响应于时间标度因子,改变与每个块相关联的时间标度的时间间隔。然而,如前所述,这需要复合操作,具体而言,需要交替窗口化,藉此导致很重的计算负担。
在本实施例中,时间标度信号的固定时间间隔块处理被保留,作为替代,产生与固定时间块处理兼容的立体声声象参数值。因此,与其通过修改时间标度的信号与基于块的处理之间时间关系来进行同步,倒不如通过使立体声参数与固定时间块处理同步来实现同步。
因此,时间标度解码器500包括同步处理器515,其与接收机501和参数化立体声解码器509耦合,该同步处理器515从接收机501接收非时间标度的立体声参数,并产生与时间标度的单声道信号同步的立体声参数,因此具有固定大小的块处理。
具体而言,可操作同步处理器515来确定立体声参数值与频率采样块之间的时间关联。在简单实施例中,时间关联仅仅包括立体声参数值对应于哪个采样频率块的指示。例如,如果立体声参数每隔16个块进行更新,其中,每个块由非标度的时间信号中的64个采样组成,并且时间标度因子是这样的,即64个采样的16个非时间标度的块仅对应于时间标度信号的15个块,则同步处理器515可以简单地将与立体声参数相关联的频率采样块确定为每第十五个块。
在此示例中,接收用于每第十五个频率采样块的立体声参数值。其他频率块的立体声参数值可以通过在已接收的立体声参数值之间进行内插来计算。因此,在确定立体声参数值适用于哪些频率采样块以后,响应于这些参数值和它们归属的频率采样块的定时,来确定其他频率采样块的参数值。
这可以允许简单的实现,尤其适合于对应于固定时间间隔块处理的时间标度因子(即,在非标度时域的64个采样的步骤中)。然而,对于更细粒度的时间标度因子,计算出的参数值可能太不正确,以致于达不到期望的质量。因此,一般优选确定时间关联来进一步指示立体声参数值在认为参数值所归属的频率采样块的时间间隔内的时间位置。
下面以一示例来说明该方法,在该示例中执行时间标度,籍此非时间标度的信号的16个块被时间标度成14.5个块。因此,假设采样频率相同,可操作时间标度处理器503这样修改编码的参数,即原始信号的16×64个采样=1024个采样被标度为时间标度的信号的14.5×64个采样=934个采样。在此示例中,每隔未时间标度的原始信号的16个块,即每隔1024个采样,接收立体声参数的新数值。
图6用图表说明了根据此示例确定时间标度参数值的方法。在下面,根据关联的频率采样块时间间隔给出用于立体声参数的时间指示。因此,在图6的示例情况中,第一个频率采样块对应于0-1的时间指示,第二频率采样块对应于1-2的时间指示等。
如所示,在时间1.5接收初始参数值。在标度的时域参数之间的已标度时间偏移为14.5个块,而下一参数值的对应时刻可以被计算为1.5+14.5=16,如图6所示。因此,知道了在时刻1.5和时刻16的立体声参数值,因而可以通过简单的内插,确定适于插入频率采样块的适宜立体声参数值。例如,如果在时刻1.5的参数值是x1,在时刻16的参数值是x2,则用于第三频率采样块的适宜参数值(对应于时刻2.5)可以由下式计算出:
x1=x1+(x2-x1)·2.5-1.516-1.5
一般而言,在基于复指数调制滤波器组的参数化立体声解码器中,立体声子频带的信号通常通过下列公式构造出:
lk(n)=H11(k,n)mk(n)+H21(k,n)dk(n)
rk(n)=H12(k,n)mk(n)+H22(k,n)dk(n)’
其中,信号mk(n)表示子频带下标k的复值子频带域单声道信号,而信号dk(n)表示子频带下标k的解相关的信号,n表示子频带采样的索引矩阵H11(k,n)、H12(k,n)、H21(k,n)和H22(k,n)表示参数操作矩阵(manipulation matrix)。
先前和当前(不一定是整数)的标度参数的位置可以分别用和表示。基于接收到的立体声参数,所述矢量和可以被计算出。
如果和已经在先前的步骤中被计算出,则然后用于

的操作矩阵可以由下式计算:
H11(k,n)=H11(k,n^prev)+(n-n^prev)H11(k,n^curr)-H11(k,n^prev)n^curr-n^prev
H12(k,n)=H12(k,n^prev)+(n-n^prev)H12(k,n^curr)-H12(k,n^prev)n^curr-n^prev
H21(k,n)=H21(k,n^prev)+(n-n^prev)H21(k,n^curr)-H21(k,n^prev)n^curr-n^prev
H22(k,n)=H22(k,n^prev)+(n-n^prev)H22(k,n^curr)-H22(k,n^prev)n^curr-n^prev
该实施例因此可以提供产生立体声参数值的低复杂性方法,而这些立体声参数值被与时间标度的单声道信号时间对准,继而规定参数化立体声解码器509的固定标度的时域间隔块处理。这可以进一步允许显著降低复杂性,因为可以使用更简单的域变换函数。
在此示例中,使用为接收到的参数值确定的真分数时刻来执行所述内插。然而,在某些实施例中,可能需要执行基于标定时刻的内插。具体而言,这可以允许降低处理的复杂性,并尤其可以降低或消除了对需要乘法或除法的复杂性和资源的需要。
因此,在为给定参数值确定了分数的时刻之后,这可以与用于进一步处理的时间间隔内的标定时间位置相关联。因此,所确定的时间位置可被移到最接近的标定值,例如为了进行内插,被移到对应的频率采样块时间间隔的中点。然而,优选地,所确定的时刻的分数值用于计算下一参数值的时刻。
作为具体示例,图6在时刻16.0出现的参数值,可以为了进行内插被移到时刻16.5(或15.5)。因此,用于第三个频率采样块(对应于时刻2.5)的参数值的内插,可以由下式计算:
x1=x1+(x2-x1)·115
然而,对用于下列参数值的下一时刻的计算,将仍然基于精确的数值,即,下列参数将被认为是在时刻16.0+14.5=30.5的。按照这种方式,正确的平均参数频率更新将被保持。
为了内插而进行的参数值时间移位将导致对应于这些参数值的不同采样值。然而,因为移位一般少于64个采样,所以该移位没有引入可听得到的伪像。
通常,应该理解,重要的是使时间标度的参数值的更新速度与时间标度的单声道信号同步,以便保证保持它们之间的同步。然而,较少的绝对时间偏移量(即少于64个采样)对感知质量的影响可以忽略。
先前和当前(不一定整数)的参数值时刻分别用和表示,通过下列递推得出将非整数参数位置和映射到整数位置nprev和ncurr的另一方法。假定N是一个块中采样的数量(例如64)。下面的值被确定:
x1=nprev·N+1
x2=n^curr·N
m=mod(x2-x1+1,N)
其中,nprev是先前的整数位置。
然后,当前的整数参数位置计算如下:
ncurr=n^curr+1-mN
为了开始递推,nprev=0。
本发明可以用任何适宜的形式来实现,包括硬件、软件、固件或这些形式的任何组合。然而,优选地,本发明被实现为计算机软件,其运行在一个或多个数据处理器和/或数字信号处理器中。本发明实施例的元件与部件,可以用任何适宜的方法在物理上、功能性上和逻辑上实现。甚至该功能可以用单个单元、多个单元来实现,或者被实现为其他功能单元的一部分。同样,本发明可以用单个单元来实现,或可以在物理上和功能性上被分配在不同的单元和处理器之间。
虽然已经结合优选实施例描述了本发明,但是本发明并不意欲限于在此阐述的特定形式。相反地,本发明的范围仅通过所附的权利要求进行限定。在权利要求中,术语包括(comprising)并不除其他元件或步骤的存在。而且,虽然多个装置、元件或方法步骤被逐个列出,但是它们可以例如通过单个单元或处理器来实现。另外,虽然各个特征可以被包含在不同的权利要求内,但是这些特征可以有利地组合,并且包含在不同的权利要求中并不意味特征的组合是不可行的和/或不利的。另外,单个的参考并不排除多个的参考。因此,参考“一”、“一个”、“第一”、“第二”等不排除多个。