用于对采样音频信号的帧进行编码和解码的音频编码器和解码器转让专利

申请号 : CN200980127089.5

文献号 : CN102089758B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 拉尔夫·盖格尔伯恩哈德·格瑞布鲁诺·贝塞特菲利普·古尔奈纪尧姆·福克斯马库斯·马特拉斯马克斯·诺伊恩多夫杰拉尔德·舒勒

申请人 : 弗劳恩霍夫应用研究促进协会沃伊斯亚吉公司

摘要 :

一种适于编码采样音频信号的帧来获得编码帧的音频编码器,其中,框包括多个时域音频采样。音频编码器(10)包括:预测编码分析级(12),用于基于音频采样的帧来确定与分析滤波器的系数有关的信息以及预测域帧。音频编码器(10)还包括:时间混叠导入变换器(14),用于将交叠预测域帧变换到频域来获得预测域帧频谱,其中时间混叠导入变换器(14)适于以临界采样方式变换交叠预测域帧。此外,音频编码器(10)包括:冗余减少编码器(16),用于基于所述系数和编码预测域帧频谱,来编码预测域帧频谱,从而获得编码帧。

权利要求 :

1.一种适于编码采样音频信号的帧来获得编码帧的音频编码器(10),其中,所述帧包括多个时域音频采样,所述音频编码器包括:预测编码分析级(12),用于基于音频采样的帧确定与合成滤波器的系数有关的信息以及预测域帧;

时间混叠导入变换器(14),用于将交叠预测域帧变换到频域,来获得预测域帧频谱,其中,所述时间混叠导入变换器(14)适于以临界采样方式变换交叠预测域帧;

冗余减少编码器(16),用于编码预测域帧频谱来基于系数和编码预测域帧频谱获得编码帧;

码簿编码器(13),用于基于预定的码簿来编码预测域帧,从而获得码簿编码预测域帧;

以及

判定器(15),用于基于编码效率度量判定使用码簿编码预测域帧还是编码预测域帧,来获得最终编码帧。

2.如权利要求1所述的音频编码器(10),其中,预测域帧基于包括用于合成滤波器的激励信号的采样在内的激励帧。

3.如权利要求1所述的音频编码器(10),其中,时间混叠导入变换器(14)适于变换交叠预测域帧,使得预测域帧频谱的采样的平均数等于预测域帧的采样的平均数。

4.如权利要求1所述的音频编码器(10),其中,时间混叠导入变换器(14)适于根据修改的离散余弦变换(MDCT)来变换交叠预测域帧。

5.如权利要求1所述的音频编码器(10),其中,时间混叠导入变换器(14)包括:加窗滤波器(17),用于对交叠预测域帧应用加窗函数;以及转换器(18),用于将加窗的交叠预测域帧转换成预测域帧频谱。

6.如权利要求5所述的音频编码器(10),其中,时间混叠导入变换器(14)包括:处理器(19),用于检测事件;以及如果检测到所述事件,则提供窗序列信息,并且所述加窗滤波器(17)适于根据所述窗序列信息应用所述加窗函数。

7.如权利要求6所述的音频编码器(10),其中,所述窗序列信息包括第一零部分、第二旁路部分以及第三零部分。

8.如权利要求7所述的音频编码器(10),其中,所述窗序列信息包括在第一零部分与第二旁路部分之间的上升沿部分,以及在第二旁路部分与第三零部分之间的下降沿部分。

9.如权利要求8所述的音频编码器(10),其中,第二旁路部分包括:1的序列,不修改预测域帧频谱的采样。

10.如权利要求1所述的音频编码器(10),其中,预测编码分析级(12)适于基于线性预测编码(LPC)来确定与系数有关的信息。

11.如权利要求1所述的音频编码器(10),还包括:耦接至判定器(15)的开关(20),用于基于编码效率度量,在时间混叠导入变换器(14)与码簿编码器(13)之间切换预测域帧。

12.一种用于编码采样音频信号的帧来获得编码帧的方法,其中,所述帧包括多个时域音频采样,所述方法包括以下步骤:基于音频采样的帧确定与合成滤波器的系数有关的信息;

基于音频采样的帧确定预测域帧;

以导入时间混叠的临界采样方式,将交叠预测域帧变换到频域来获得预测域帧频谱;

编码预测域帧频谱,来基于所述系数和编码预测域帧频谱获得编码帧;

由码簿编码器(13)基于预定的码簿来编码预测域帧,从而获得码簿编码预测域帧;以及由判定器(15)基于编码效率度量判定使用码簿编码预测域帧还是编码预测域帧,来获得最终编码帧。

13.一种用于对编码帧进行解码来获得采样音频信号的帧的音频解码器(80),其中,帧包括多个时域音频采样,所述音频解码器包括:冗余获取解码器(82),用于对编码帧进行解码来获得与合成滤波器的系数有关的信息以及预测域帧频谱;

时间混叠导入逆变换器(84),用于将预测域帧频谱变换到时域来获得交叠预测域帧,其中,所述时间混叠导入逆变换器(84)适于根据连续的预测域帧频谱确定交叠预测域帧,其中,时间混叠导入逆变换器(84)还包括:转换器(84a),用于将预测域帧频谱变换成变换的交叠预测域帧,以及加窗滤波器(84b),用于对转换的交叠预测域帧应用加窗函数,以获得交叠预测域帧;其中,时间混叠导入逆变换器(84)包括:处理器(84c),用于检测事件;

以及如果检测到所述事件,则向加窗滤波器(84b)提供窗序列信息,并且所述加窗滤波器(84b)适于根据窗序列信息应用加窗函数;并且其中,所述窗序列信息包括第一零部分、第二旁路部分以及第三零部分;

交叠/加法组合器(86),用来以临界采样方式组合交叠预测域帧,来获得预测域帧;以及预测合成级(88),用于基于所述系数和预测域帧确定音频采样的帧。

14.如权利要求13所述的音频解码器(80),其中,交叠/加法组合器(86)适于组合交叠预测域帧,使得预测域帧的采样的平均数等于预测域帧频谱的采样的平均数。

15.如权利要求13所述的音频解码器(80),其中,时间混叠导入变换器(84)适于根据修改的离散余弦逆变换(IMDCT)将预测域帧频谱变换到时域。

16.如权利要求13所述的音频解码器(80),其中,预测合成级(88)适于基于线性预测编码(LPC)来确定音频采样的帧。

17.如权利要求13所述的音频解码器(80),其中,所述窗序列信息包括在第一零部分与第二旁路部分之间的上升沿部分,以及在第二旁路部分与第三零部分之间的下降沿部分。

18.如权利要求17所述的音频解码器(80),其中,该第二旁路部分包括:1的序列,用于修改预测域帧的采样。

19.一种用于对编码帧进行解码来获得采样音频信号的帧的方法,其中,所述帧包括多个时域音频采样,所述方法包括以下步骤:对编码帧进行解码来获得与合成滤波器的系数有关的信息以及预测域帧频谱;

将预测域帧频谱变换到时域,来根据连续的预测域帧频谱获得交叠预测域帧,其中变换步骤包括:将预测域帧频谱变换成变换的交叠预测域帧,

通过加窗滤波器(84b)对转换的交叠预测域帧应用加窗函数,以获得交叠预测域帧,检测事件,并且如果检测到所述事件,则向加窗滤波器(84b)提供窗序列信息,其中,所述加窗滤波器(84b)适于根据窗序列信息应用加窗函数;并且其中,所述窗序列信息包括第一零部分、第二旁路部分以及第三零部分;

以临界采样方式组合交叠预测域帧来获得预测域帧;以及

基于所述系数以及预测域帧来确定帧。

说明书 :

用于对采样音频信号的帧进行编码和解码的音频编码器和

解码器

技术领域

[0001] 本发明涉及来源编码,特别涉及音频来源编码,其中,音频信号由具有不同的编码算法的两个不同的音频编码器来处理。

背景技术

[0002] 在低比特率音频及语音编码技术的上下文中,传统上采用若干不同的编码技术,来达成这种信号的低比特率编码,这种信号在给定比特率下具有最佳可能主观质量。一般音乐/声音信号的编码器目的在于,根据掩蔽阈值曲线,形成量化误差的频谱形状(及时间形状),来优化主观质量,该掩蔽阈值曲线是利用感知模型(“感知音频编码”)根据输入信号来估计的。另一方面,当极低比特率下的语音编码基于人类语音的产生模型,即,采用线性预测编码(LPC)来对人类声道的共振效应进行建模连同残差激励信号的高效编码时,已经显示效率非常高。
[0003] 由于这两种不同方法,一般音频编码器,例如MPEG-1层3(MPEG=运动图像专家组)或MPEG-2/4高级音频编码(AAC)由于缺乏对语音来源模型的开发,因而通常无法如同专用的基于LPC的语音编码器一样,对于极低数据速率下的语音信号也发挥良好效果。相反地,基于LPC的语音编码器当应用于一般音乐信号时,无法实现动听结果,原因在于其不能根据掩蔽阈值值曲线而灵活地形成编码失真的频谱包络。后文将描述一种构想,其将基于LPC的编码及感知音频编码的优点组合到单个框架中,因此描述可有效用于一般音频信号及语音信号二者的统一音频编码。
[0004] 传统上,感知音频编码器使用基于的滤波器组的方法,来高效地编码音频信号,并且根据掩蔽曲线的估值而形成量化失真。
[0005] 第16a图示出了单声感知编码系统的基本方块图。分析滤波器组1600用来将时域采样映射成子采样频谱分量。依据频谱分量的数目,系统也称作为子带编码器(少数子带,例如32个)或变换编码器(大量频率线,例如512条)。感知(“心理声学”)模型1602用来估计实际时间相关掩蔽阈值值。频谱(“子带”或“频域”)分量经过量化及编码1604,使得量化噪声隐藏于实际传输的信号下,而解码后不可被感知。这可以通过随时间和频率改变频谱值的量化粒度来实现。
[0006] 除了辅助信息之外,将已量化且已经熵编码频谱系数或子带值输入比特流格式化器1606,比特流格式化器1606提供适合于传输或储存的已编码音频信号。方块1606的输出比特流可以经由因特网传输,或可以储存于任何机器可读取数据载体上。
[0007] 在解码器侧上,解码器输入接口1610接收已编码的比特流。方块1610将已熵编码且已量化的频谱/子带值与辅助信息分离。将已编码频谱值输入到置于1610与1620之间的熵解码器中,例如霍夫曼解码器,这种熵解码器的输出信号是已量化的频谱值。将这些已量化的频谱值输入到再量化器中,再量化器如第16图中1620所指示,执行“逆”量化。将方块1620的输出输入到合成滤波器组1622中,合成滤波器组1622执行合成滤波,包括频率/时间变换且典型地执行时域混叠消除操作,例如交叠和加法,和/或合成侧加窗操作来最终获得输出音频信号。
[0008] 传统上,有效语音编码基于线性预测编码(LPC),对人类声带的共振效果进行建模,并且基于残差激励信号的有效编码。LPC参数及激励参数二者从编码器传输至解码器。第17a图和第17b图示出了本原理。
[0009] 第17a图指示基于线性预测编码的编码/解码系统的编码器侧。将语音输入输入到LPC分析器1701中,LPC分析器1701在其输出处提供LPC滤波器系数。基于这些LPC滤波器系数,调整LPC滤波器1703。LPC滤波器输出频谱白化的音频信号,也称作为“预测误差信号”。将该频谱白化音频信号输入到残差/激励编码器1705,残差/激励编码器1705产生激励参数。因此,语音输入信号一方面被编码成激励参数,而另一方面被编码成LPC系数。
[0010] 在第17b图所示解码器侧上,激励参数输入激励解码器1707,激励解码器1707产生激励信号,将该激励信号输入到LPC合成滤波器中。使用所传输的LPC滤波器系数来调整LPC合成滤波器。如此,LPC合成滤波器1709产生重构或合成的语音输出信号。
[0011] 随着时间的经过,关于残差(激励)信号的有效且感知上动听的呈现提出了多种方法,诸如多脉冲激励(MPE)、规则脉冲激励(RPE)、以及代码激励线性预测(CELP)。
[0012] 线性预测编码试图基于观察特定数目的过去值作为过去观察的线性组合,来产生序列目前采样值的估计。为了减少输入信号的冗余,编码器LPC滤波器将其频谱包络中的输入信号“白化”,即,信号的频谱包络的反相模型。相反地,解码器LPC合成滤波器是信号的频谱包络的模型。特别,已知众所周知的自动回归(AR)线性预测分析利用全极点近似值来对信号的频谱包络进行建模。
[0013] 典型地,窄带语音编码器(即,具有8kHz采样率的语音编码器)采用具有8至12阶之间的LPC滤波器。由于LPC滤波器的本质,均匀频率分辨率在全频率范围上有效。着并不与感知频率标度相对应。
[0014] 为了组合传统基于LPC/CELP编码(用于语音信号的质量为最佳)与传统基于滤波器组的感知音频编码办法(用于音乐信号的质量为最佳)的强度,已经提出了这些架构之间的组合编码。在AMR-WB+(AMR-WB=自适应多速率宽带)编码器中,B.Bessette,R.Lefebvre,R.Salami,“UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES,”,Proc.IEEE ICASSP 2005,301-304页2005年,两种交错编码核对LPC残差信号进行操作。一种基于ACELP(ACELP=代数代码激励线性预测),因此对于语音信号的编码非常有效。另一种编码核是基于TCX(TCX=变换编码激励),即,基于滤波器组的编码方法类似传统音频编码技术,以便实现音乐信号的良好质量。依据输入信号的特性,短时间段选择两种编码模式之一来传输LPC残差信号。这样,将80毫秒持续时间的帧拆分成40毫秒或20毫秒的子帧,其中在两种编码模式之间作判定。
[0015] AMR-WB+(AMR-WB+=扩充自适应性多速率宽带编码解码器),例如参考3GPP(3GPP=第三代伙伴计划)技术说明书号码26.290,版本6.3.0,2005年6月可以在两种实质上不同的模式ACELP与TCX之间切换。在ACELP模式中,时域信号由代数代码激励来编码。在TCX模式中,使用快速傅立叶变换(FFT=快速傅立叶变换),并且基于向量量化编码,来编码LPC加权信号(由该信号在解码器处导出激励信号)的频谱值。
[0016] 通过尝试和解码两个选项且比较获得的信噪比(SNR=信噪比),可以判定使用哪一个模式。
[0017] 此种情况也称作为闭环判定,原因在于有闭合控回路,分别评估编码性能和/或效率,及然后通过丢弃另一个而选择有较佳SNR的一个。
[0018] 众者周知对音频和语音编码应用,没有加窗的块变换是不可行的。因此对TCX模式,利用具有1/8交叠的低交叠窗对进行加窗。该交叠区是必要的,以便淡出先前块或帧,同时淡入下一个块或帧,例如用来抑制连续音频帧中因不相关量化噪声所造成的伪像。这样,与非临界采样可比的开销保持合理地低量,且闭环判定所需解码重构当前帧的至少7/8的采样。
[0019] 在TCX模式中,AMR-WB+导入1/8的开销,即,要编码的频谱值数目比输入采样数目高1/8。这产生增加数据开销的缺点。此外,由于连续帧的1/8陡峭交叠区,对应带通滤波器的频率响应是有缺陷的。
[0020] 为了对连续帧的代码开销和交叠作更进一步说明,第18图示出了窗参数的定义。第18图所示窗在左手侧有上升沿部分,表示为“L”,也称作为左交叠区;中心区表示为“1”,也称作为1区或旁路部分;以及下降沿部分,表示为“R”,也称作为右交叠区。此外,第18图示出了指示帧内理想重构区“PR”的箭头。第18图示出了指示变换核的长度的箭头,表示为“T”。
[0021] 第19图示出了AMR-WB+窗序列的视图,在底部示出了根据第18图的窗参数表。第19图顶部所示窗序列为ACELP、TCX20(用于20毫秒持续时间的帧)、TCX20、TCX40(用于40毫秒持续时间的帧)、TCX80(用于80毫秒持续时间的帧)、TCX20、TCX20、ACELP、ACELP。
[0022] 根据该窗序列,可以看到变化的交叠区,该交叠区与正好交叠了中心部分M的1/8。在第19图底部的表也示出了变换长度“T”始终比新理想重构的采样“PR”区大1/8。
此外,应注意,不仅对ACELP至TCX变化为如此,对TCXx至TCXx(此处“x”指示任意长度的TCX帧)变换亦如此。如此,在每个块中,导入1/8开销,即,永远不会达到临界采样。
[0023] 当从TCX切换至ACELP时,在交叠区中从FFT-TCX帧丢弃窗采样,例如在第19图顶部以1900标记的区所示。当从ACELP切换至TCX时,同样如第19图顶部以虚线1910指示的加窗零输入响应(ZIR=零输入响应)在编码器处被移除以用于加窗,而在解码器处被加入以用于恢复。当从TCX切换至TCX帧时,加窗采样用于交叉衰减。由于可以以不同方式对TCX帧进行量化,连续帧之间量化误差或量化噪声可以不同和/或无关。当从一个帧切换至下一帧而无交叉衰减时,可能出现显著伪像,需要交叉衰减来实现特定质量。
[0024] 从第19图底部的表可以看到,交叉衰减区随着帧长度的增加而增加。第20图提供另一个表,示意AMR-WB+中可能的转变的不同窗。当从TCX转变至ACELP时,可以抛弃交叠采样。当从ACELP转变至TCX时,来自ACELP的零输入响应在编码器处被移除,并在解码器处增加以用于恢复。
[0025] AMR-WB+的显著缺点为始终导入1/8开销。

发明内容

[0026] 本发明的目的是提供一种音频编码的更有效的构想。
[0027] 该目的可以通过根据权利要求1所述的音频编码器、根据权利要求14所述的用于音频编码的方法、根据权利要求16所述的音频解码器、以及根据权利要求25所述的用于音频解码的方法来实现。
[0028] 本发明的实施例基于以下发现:如果例如使用时间混叠导入变换用于TCX编码,则可以执行更有效的编码。时间混叠导入变换允许实现临界采样,而同时仍能够在相邻帧之间交叉衰减。例如,在一个实施例中,修改的离散余弦变换(MDCT=修改的离散余弦变换)用于将交叠时域帧变换至频域。由于该特定变换对于2N个时域采样产生N个频域采样,则即使时域帧较低50%,仍可以维持临界采样。在解码器或时间混叠导入逆变换处,交叠和加法级适合于组合时间混叠交叠采样与逆变换的时域采样,因而可以进行时域混叠消除(TDAC=时域混叠消除)。
[0029] 实施例可以使用在利用低交叠窗的切换频域和时域编码(例如AMR-WB+)的上下文中。实施例可以使用MDCT替代非临界采样的滤波器组。这样,基于例如MDCT的临界采样特性可以有利地降低因非临界采样导致的开销。此外,可能有较长的交叠,而不会导入额外开销。实施例可以提供优点,基于较长的交叠,可更平滑地进行交叉衰减,换言之可以在解码器处提高声音质量。
[0030] 在一个详细实施例中,在AMR-WB+TCX模式中FFT可以由MDCT来代替,同时保持AMR-WB+的功能,尤其是,基于闭环或开环判定的ACELP模式与TCX模式之间的切换。实施例针对ACELP帧后的第一个TCX帧可以使用非临界采样方式的MDCT,随后针对所有后续TCX帧可以使用临界采样方式的MDCT。实施例可以使用类似未经修改AMR-WB+、具有低交叠窗的MDCT,保持闭环判定的特征,但具有较长的交叠。这可以提供与未经修改的TCX窗相比更佳的频率响应的优势。

附图说明

[0031] 将使用附图说明本发明的实施例的细节,在附图中:
[0032] 第1图示出了音频编码器的实施例;
[0033] 第2a-2j图示出了用于时域混叠导入变换的实施例的方程;
[0034] 第3a图示出了音频编码器的另一个实施例;
[0035] 第3b图示出了音频编码器的另一个实施例;
[0036] 第3c图示出了音频编码器的又一个实施例;
[0037] 第3d图示出了音频编码器的又一个实施例;
[0038] 第4a图示出了用于浊音语音的时域语音信号的采样;
[0039] 第4b图示意了浊音语音信号采样的频谱;
[0040] 第5a图示意了清音语音的采样的时域信号;
[0041] 第5b图示出了清音语音信号的采样的频谱;
[0042] 第6图示出了合成分析CELP的实施例;
[0043] 第7图示意了提供短期预测信息和预测误差信号的编码器侧ACELP级;
[0044] 第8a图示出了音频编码器的实施例;
[0045] 第8b图示出了音频编码器的另一个实施例;
[0046] 第8c图示出了音频编码器的另一个实施例;
[0047] 第9图示出了窗函数的实施例;
[0048] 第10图示出了窗函数的另一个实施例;
[0049] 第11图示出了现有技术窗函数和实施例的窗函数的图示和延迟图;
[0050] 第12图示意了窗参数;
[0051] 第13a图示出了窗函数序列和对应的窗参数表;
[0052] 第13b图示出了基于MDCT的实施例可能转变;
[0053] 第14a图示出了实施例中可能转变的表;
[0054] 第14b图示意了根据一个实施例的从ACELP转变至TCX80的转变窗;
[0055] 第14c图示出了根据一个实施例的从TCXx帧至TCX20帧至TCXx帧的转变窗的实施例;
[0056] 第14d图示意了根据一个实施例的从ACELP至TCX20的转变窗的实施例;
[0057] 第14e图示出了根据一个实施例的从ACELP至TCX40的转变窗的实施例;
[0058] 第14f图示意了根据一个实施例由TCXx帧转变至TCX80帧至TCXx帧的转变窗的实施例;
[0059] 第15图示意了根据一个实施例的ACELP至TCX80的转变;
[0060] 第16图示意了传统编码器和解码器示例;
[0061] 第17a,b图示意了LPC编码和解码;
[0062] 第18图示意了现有技术交叉衰减窗;
[0063] 第19图示意了现有技术的AMR-WB+窗序列;
[0064] 第20图示意了AMR-WB+中用于在ACELP和TCX之间传输的窗。

具体实施方式

[0065] 在下文中,将详细描述本发明的实施例。应注意,下列实施例不应限制本发明的范围,反而应视为多个不同实施例之中可能的实现或实现方式。
[0066] 第1图示出了适合于编码采样音频信号帧来获得编码帧的音频编码器10,其中,帧包含多个时域音频采样。音频编码器10包含:预测编码分析级12用于测定与合成滤波器的系数有关的信息;以及基于音频采样帧的预测域帧,例如该预测域帧可以基于激励帧,该预测域帧可以包含LPC域信号的采样或加权采样,由此可以获得合成滤波器的激励信号。换言之,在实施例中,预测域帧可以基于激励帧,激励帧包含合成滤波器的激励信号的采样。在实施例中,预测域帧可以与激励帧的滤波版本相对应。例如感知滤波可应用于激励帧,来获得预测域帧。在其它实施例中,高通滤波或低通滤波可以应用于激励帧,来获得预测域帧。又一实施例中,预测域帧可以直接与激励帧相对应。
[0067] 音频编码器10进一步包含时间混叠导入变换器14,时间混叠导入变换器14用于将交叠预测域帧变换至频域而获得预测域帧频谱,其中,该时间混叠导入变换器14适合于以临界采样方式变换交叠预测域帧。音频编码器10进一步包含冗余减少编码器16,冗余减少编码器16用于编码该预测域帧频谱,来获得基于系数的已编码帧以及已编码预测域帧频谱。
[0068] 冗余减少编码器16可以适用于使用霍夫曼编码或熵编码,以便编码预测域帧频谱和/或与系数有关的信息。
[0069] 在实施例中,时间混叠导入变换器14可以适于变换交叠预测域帧,使得预测域帧频谱采样的平均数目等于预测域帧中采样的平均数目,从而实现临界采样变换。此外,时间混叠导入变换器14可以适于根据修改的离散余弦变换(MDCT=修改的离散余弦变换),来变换交叠预测域帧。
[0070] 在下文中,通过第2a-2j图所示意的方程进一步详细说明MDCT。修改的离散余弦变换(MDCT)为基于IV型离散余弦变换(DCT-IV=离散余弦变换型IV)的傅立叶相关变换,具有额外重迭性质,即,被设计成在大型数据集合的连续块上执行,其中,后续块是交叠的,使得例如一个块的后半部分与下一个块的前半部分一致。除了DCT的能量精简质量之外,此种交叠使得MDCT对于信号压缩应用特别具有吸引力,原因在于有助于避免因块边界所造成的伪像。因此,例如,在MP3(MP3=MPEG2/4层3)、AC-3(AC-3=杜比音频编码解码器3)、Ogg Vorbis、以及AAC(AAC=高级音频编码)中采用DMCT以用于音频压缩。
[0071] MDCT由Princen、Johnson和Bradley于1987年提出,遵循更早期(1986年)由Princen及Bradley开发MDCT的时域混叠消除(TDAC)基本原理的工作,容后进一步详述。也存在有基于离散正弦变换的类似变换,亦即MDST,及其它不常用的基于不同类型DCT或DCT/DST(DST=离散正弦变换)组合的MDCT,这也可用于时间混叠导入变换器14的实施例。
[0072] 在MP3中,MDCT不能直接应用于音频信号,而是应用于32频带多相正交滤波器(PQF=多相正交滤波器)组的输出。该MDCT的输出由混叠减少公式进行后处理,来减少PQF滤波器组的典型混叠。滤波器组与MDCT的这种组合称作为混合滤波器组或子带MDCT。另一方面,AAC通常使用纯粹MDCT;只有(很少使用的)MPEG-4 AAC-SSR变型(Sony公司)在MDCT之前使用四频带PQF组。ATRAC(ATRAC=自适应变换音频编码)在MDCT之前使用堆叠的正交镜像滤波器(QMF)。
[0073] 至于重迭变换,MDCT与其它傅立叶相关变换相比有点不寻常,原因在于其输出是2N N
输入的一半(而非相等)。具体地,MDCT为线性函数F:R ->R,此处R表示实数集合。2N个实数x0,...,x2N-1根据第2a图的公式变换成N个实数X0,...,XN-1。
[0074] 在该变换之前的归一化系数(此处为1),为任意惯用的系数,在相应处理之间不同。只有后文MDCT与IMDCT的归一化乘积是受限制的。
[0075] 逆MDCT称作为IMDCT。由于有不同数目的输入和输出,最初可能认为MDCT应该是不可逆的。然而,通过增加随后交叠块的交叠的IMDCT,使得消除误差,获取原始数据,可实现理想的可逆性;本技术称作为时域混叠消除(TDAC)。
[0076] IMDCT根据第2b图的公式将N个实数X0,...,XN-1变换成2N个实数y0,...,y2N-1。类似DCT-IV的正交变换,逆变换与正相变换具有相同形式。
[0077] 在有一般窗归一化的加窗MDCT的情况下(参见后文),在IMDCT之前的归一化系数可以乘以2,亦,即变成2/N。
[0078] 虽然MDCT公式的直接应用要求O(N2)次运算,但可如同于快速傅立叶变换(FFT),通过递归地将计算分解为简单计算,而只以O(N log N)复杂度来计算。也可以经过与其它变换(典型为DFT(FFT)或DCT)组合O(N)前处理步骤及后处理步骤来计算MDCT。同样,如下所述,针对DCT-IV的任何算法即刻提供运算一致尺寸的MDCT的IMDCT的方法。
[0079] 在典型信号压缩应用中,使用窗函数wn(n=0,...2N-1)来进一步提高变换特性,该窗函数在前述MDCT公式和IMDCT公式中乘以xn和yn,以便让该函数在那些点处平滑变成零,以避免n=0和n=2N边界处的不连续。换言之,在MDCT之前且在IMDCT之后,对数据加窗。原则上,x和y能够具有不同的窗函数,窗函数也可以从一个块到下一个块而变化,特别对组合不同尺寸的数据块的情况尤为如此,但为简化起见,首先考虑相等尺寸的块的相同窗函数的情况。
[0080] 变换保持可逆,即,针对对称窗wn=w2N-1-n,可进行TDAC,只要w满足根据第2c图的Princen-Bradley条件。
[0081] 常见多种不同窗函数,在用于MP3和MPEG-2 AAC的第2d图以及在用于Vorbis的第2e图中给出了示例。AC-3使用导出的Kaiser-Bessel(KBD=导出的Kaiser-Bessel)窗,MPEG-4 AAC也可以使用KBD窗。
[0082] 注意应用于MDCT的窗与用于其它类型信号分析的窗不同,原因在于其必须满足Princen-Bradley条件。该差异的理由之一在于,针对MDCT(分析滤波器)和IMDCT(合成滤波器)两次应用MDCT窗。
[0083] 观察定义可以看出,对于偶数N,MDCT实质上等于DCT-IV,其中,输入信号位移N/2,一次变换两个数据N块。通过该更小心检验此种相等情况,容易导出类似TDAC的重要特性。
[0084] 为了定义与DCT-IV的精确关系,必须实现DCT-IV与交错偶/奇边界条件相对应,其左边界为偶数(约为n=-1/2),其右边界为奇数(约为n=N-1/2),以此类推(替代关于DFT的周期性边界)。这遵照第2f图示出了的恒等式。因此,如果其输入为长度N的数组x,可设想将该数组扩充至(x、-xR、-x、xR、...)等,其中,xR表示与x顺序相反。
[0085] 考虑有2N个输入和N个输出的MDCT,其中,可以将输入划分成四个块(a、b、c、d),每个块大小为N/2。如果这些块位移N/2(根据MDCT定义中的+N/2项),则(b、c、d)扩充超过N个DCT-IV输入的末端,因此根据上述边界条件(b、c、d)被必须“折叠”。
[0086] 因此,2N个输入(a、b、c、d)的MDCT恰等于N个输入的DCT-IV:(-cR-d、a-bR),其中R表示如前述的逆。这样,任何计算DCT-IV的算法则一般可应用于MDCT。
[0087] 类似地,如前述的IMDCT公式恰为DCT-IV的1/2(本身的逆),其中输出位移N/2且扩充(经由边界条件)至长度2N。逆DCT-IV简单回到前文说明的输入(-cR-d、a-bR)。当经由边界条件位移和扩充时,获得第2g图所示结果。因此,IMDCT输出的一半为冗余。
[0088] 现在了解TDAC如何操作。假设运算后续50%交叠的2N块(c、d、e、f)的MDCT。则类似前文IMDCT将获得:(-cR-d、d-cR、e+fR、eR+f)/2。当这与一半交叠的先前IMDCT结果相加时,相反的各项互相抵消,获得简单(c、d),恢复原始数据。
[0089] 现在已经明白“时域混叠消除”一词的起源。使用扩充超过逻辑DCT-IV边界的输入数据,以与引起超过尼奎斯特(Nyquist)频率的频率混叠至较低频的相同方式混叠数据,但该混叠发生于时域而非发生于频域。因此组合c-dR等,在相加时对于要消除的组合具有精确的正号。
[0090] 对于奇数N(实际上很少使用),N/2并非整数,因此MDCT不是简单的DCT-IV位移置换。此种情况下,半个采样的额外位移表示MDCT/IMDCT变成等于DCT-III/II,而分析系类似前文。
[0091] 以上,已经对普通MDCT证实TDAC特性,示出了在它们一半交叠部分中加上后续块的IMDCT可以恢复原始数据。这种加窗MDCT的逆特性的导出只略微较复杂。
[0092] 由前文回想,当对(a,b,c,d)和(c,d,e,f)进行MDCT、IMDCT,且对它们一半交叠部分进行相加,获得(c+dR,cR+d)/2+(c-dR,d-cR)/2=(c,d),即原始数据。
[0093] 现在假设将MDCT输入和IMDCT输出乘以长度2N的窗函数。如前文说明,假设对称窗函数,因此具有形式(w,z,zR,wR),此处w和z为长度-N/2向量,R表示如前述的逆。则Princen-Bradley条件可写成
[0094]
[0095] 乘法和加法逐元素进行,或相等地
[0096]
[0097] 对w和z取反。
[0098] 因此,替代对(a、b、c、d)进行MDCT,对(wa、zb、zRc、wRd)进行MDCT,全部乘法逐元素进行。当对上述进行IMDCT且再次与窗函数相乘(逐元素)时,后N半部分结果如第2h图所示。
[0099] 注意不再进行与1/2的乘法,原因在于在加窗情况下,IMDCT归一化相差2倍。类似地,(c,d,e,f)的加窗MDCT和IMDCT在前N半部分获得根据第2i图所示结果。当这两半部分加在一起时,获得第2j图的结果,恢复原始数据。
[0100] 第3a图示出了音频编码器10的另一个实施例。在第3a图所示实施例中,时间混叠导入变换器14包含:加窗滤波器17,对交叠预测域帧应用窗函数;以及变换器18,用于将加窗交叠预测域帧转换成预测域频谱。根据前述的多个窗函数可设想的,其中部分函数如后进一步详细说明。
[0101] 第3b图示出了音频编码器10的另一个实施例。在第3b图所示实施例中,时间混叠导入变换器14包含:处理器19:用于检测事件,且若检测到事件时提供窗序列信息,并且加窗滤波器17适于根据窗序列信息应用窗函数。例如,可以依据从采样音频信号帧分析得的特定信号特性发生事件。例如可以根据信号、音调、瞬变等自相关特性,应用不同的窗长度或不同的窗边缘等。换言之,因采样音频信号帧的不同性质,可能发生不同事件,处理器19可依据该音频信号帧的特性而提供不同的窗序列。后文将说明窗序列的序列及参数的进一步细节。
[0102] 第3c图示出了音频编码器10的另一个实施例。在第3d图所示实施例中,预测域帧不仅提供给时间混叠导入变换器14同时也提供给码簿编码器13,码簿编码器13适于基于预定码簿来编码预测域帧,从而获得码簿编码帧。此外,第3c图所示实施例包含:判定器,用于基于编码效率独立判定使用码簿编码帧还是编码帧来获得最终编码帧。第3c图所示实施例也称作闭合情况。在这种情况下,判定器15能够从两个分支获得编码帧,一个分支基于变换,而另一个分支基于码簿。为了确定编码效率度量,判定器可以解码来自二个分支的编码帧,然后经由评估来自不同分支的误差统计,而确定编码效率度量。
[0103] 换言之,判定器15适于进行与编码过程相反的操作,即针对两个分支进行全解码。已经对帧进行完全解码之后,判定器15适于比较已解码采样与原始采样,如第3c图以虚线箭头指示。在第3c图所示实施例中,还向判定器15提供预测域帧,利用该预测域帧使得能够对来自冗余减少编码器16的编码帧进行解码,也可以对来自码簿编码器13的码簿编码帧进行解码,且将结果与先前已编码的预测域帧相比较。在一个实施例中,经由比较差异,可以确定例如信噪比或统计误差或最小误差等编码效率度量。在一些实施例中,也与相应码率有关,即编码帧所需的比特数目。然后判定器15适于基于该编码效率度量,选择来自冗余减少编码器16的编码帧或码簿编码帧作为最终编码帧。
[0104] 第3d图示出了音频编码器10的另一个实施例。在第3d图所示实施例中,存在耦合至判定器15的开关20,开关20用于基于编码效率度量在时间混叠导入变换器14与码簿编码器13之间切换预测域帧。判定器15适于基于采样音频信号的帧来确定编码效率度量,以便确定开关20的位置,即,使用具有时间混叠导入变换器14和冗余减少编码器16的基于变换的编码分支,或使用具有码簿编码器13的基于码簿的编码分支。如前文说明,编码效率度量可以基于采样音频信号帧的特性来确定,即,音频特性的本身,例如该帧是更像音调还是更像噪声。
[0105] 第3d图所示实施例的配置也称作为开环组态配置,原因在于判定器15可以基于输入帧进行判定,而无须得知相应编码分支的结果。在又一实施例中,判定器可以基于预测域帧进行判定,如第3d图以虚线箭头指示。换言之,在一个实施例中,判定器15可能并非基于采样音频信号帧进行判定,反而基于预测域帧进行判定。
[0106] 后文将举例说明判定器15的判断过程。总体上,经由应用信号处理操作,可以在音频信号的脉冲状部分与稳态信号的稳态部分之间区别,其中测量脉冲状特性,也测量稳态状特性。这种测量例如可经由分析音频信号的波形进行。为了达成此项目的,可进行任何基于变换的处理或LPC处理或任何其它处理。一种直观方式是确定该部分是否为脉冲状,例如观察时域波形,且确定此时域波形在规则间隔还是在或不规则间隔具有波峰,规则间隔的波峰甚至更适合于语音状编码器,即码簿编码器。注意,甚至在语音内部可区别浊音部分和清音部分。码簿编码器13对于浊音信号部分或浊音帧更有效,其中,包含时间混叠导入变换器14和冗余减少编码器16的基于变换的分支更适合于清音帧。通常基于变换的编码也更适合于稳态信号,而非语音信号。
[0107] 示例性地,分别参考第4a和4b图、第5a和第5b图。举例说明讨论脉冲状信号节段或信号部分及稳态信号节段或信号部分。总体上,判定器15适于基于不同标准判定例如稳态、瞬变、频谱白度等。后文将示出示例标准作为实施例的一部分。具体地,说明于第4a图的时域和第4b图的频域中示出了浊音语音,并且讨论作为脉冲状信号部分的示例,而结合第5a和5b图讨论作为稳态信号部分的示例的清音语音节段。
[0108] 语音通常可分类为浊音、清音或混合。在第4a、4b、5a和5b图中示出了采样的浊音节段和清音节段的时域和频域图。浊音语音在时域中为准周期性,而在频域为谐波结构的;而清音语音为类似于随机的且宽带。此外,浊音节段的能量通常高于清音节段的能量。浊音语音的短期频谱以其精细和共振峰结构表征。精细谐波结构是语音的准周期性的结果,且可归因于声带的振动。共振峰结构也称作为频谱包络,是由于声音来源与声道交互作用的结果。声道包含咽及口腔。“适合”浊音语音的短期频谱的频谱包络的形状与声道和由于声门脉冲导致频谱倾斜(6分贝/八音度)的传输特性相关联。
[0109] 频谱包络由一组称作为共振峰得波峰表征。共振峰为声道的共振模式。一般声道有3至5个低于5kHz的共振峰。通常出现低于3kHz的前三个共振峰的振幅和位置就语音的合成和感知而言相当重要。较高共振峰对宽带和清音语音的呈现相当重要。语音的特性与物理语音产生系统相关,说明如下。以振动声带产生的准周期性声门空气脉冲激励声道,产生浊音语音。周期性脉冲的频率称作为基本频率或音高。强制空气通过声道的狭窄部分产生清音语音。鼻音是由于鼻道与声道的声学耦合的结果,而爆破音由突然间减少堆积于声道闭合处后方的空气压而产生。
[0110] 因此,音频信号的稳态部分可为如第5a图所示时域的稳态部分或于频率的稳态部分,由于时域的稳态部分并未示出了持久重复脉冲,故系与第4a图所示脉冲状部分不同。如后详述,稳态部分与脉冲状部分之间的差异也使用LPC方法进行,该方法对声道和声道的激励建模。当考虑信号的频域时,脉冲状信号示出了各个单独共振峰的主要表现,即第4b图的主要峰,而稳态频谱具有如第5b图所示的宽频谱;或在谐波信号的情况下,具有相当连续的本底噪声,本底噪声具有主峰,表示例如音乐信号中可能出现的特殊音调,但不具有如第4b图中的脉冲状信号的彼此间规则距离。
[0111] 此外,脉冲状部分及稳态部分可能以定时方式发生,即表示时间上音频信号的一部分为稳态,而时间上音频信号的另一部分为脉冲状。备选或此外,信号的特性在不同频带可能不同。如此,音频信号是稳态还是脉冲状的确定也可以频率选择进行,使得特定频带或若干个频带被视为稳态,而其它频带被视为脉冲状。此种情况下,音频信号的特定时间部分包括脉冲状部分或稳态部分。
[0112] 回头参考第3d图所示实施例,判定器15可以分析音频帧、预测域帧或激励信号,以便确定其是脉冲状(即,更适合于码簿编码器13),还是稳态(即更适于基于变换的编码分支)。
[0113] 随后将就第6图讨论合成分析的CELP编码器。CELP编码器的细节也参考“Speech Coding:A tutorial review”,Andreas Spaniers,IEEE会议,84卷,第10期,1994年10月,1541-1582页。第6图所示CELP编码器包括长期预测组件60和短期预测组件62。此外,使用以64指示的码簿。在66处实现感知加权滤波器W(z),在68处提供误差最小化控制器。s(n)为输入音频信号。在被感知加权后,将加权的信号输入到减法器69中,减法器69计算加权合成信号(方块66的输出)与实际加权预测误差信号Sw(n)间的误差。
[0114] 通常短期预测A(z)由LPC分析级计算,容后详述。依据该信息,长期预测AL(z)包括长期预测增益b和延迟T(也称作为音高增益和音高延迟)。CELP算法则使用例如高斯序列的码簿编码激励或预测域帧。ACELP算法则,其中“A”表示具有特定代数设计的码簿的“代数”。
[0115] 码簿含有或多或少个向量,其中每个向量具有根据采样数目的长度。增益因子g缩放激励向量,而激励采样由长期合成滤波器和短期合成滤波器来滤波。选择“最优“向量,使得最小化感知加权均方误差。CELP的搜索过程根据第6图示例说明的合成分析方案变得显而易见。须注意,第6图只示例说明分析合成CELP的示例,该实施例不限于第6图所示结构。
[0116] 在CELP中,长期预测器经常实施为含有前激励信号的自适应码簿。长期预测延迟和增益由自适应码簿索引和增益表示,也通过最小化均方加权误差来选择。在此种情况下,激励信号由两个增益缩放的向量相加所组成,一个向量来自自适应码簿而另一个向量来自固定码簿。AMR-WB+的感知加权滤波器基于LPC滤波器,因此感知加权信号为LPC域信号形式。在AMR-WB+中使用的变换域编码器中,变换应用于已加权信号。在解码器处,通过由反合成和加权滤波器所组成的滤波器对已解码加权信号进行滤波,获得激励信号。
[0117] 重构的TCX目标x(n)可以通过零态逆加权合成滤波器来滤波
[0118]
[0119] 来找出可应用于合成滤波器的激励信号。注意在滤波中使用每子帧或每帧的插值LP滤波器。一旦确定激励,可以通过合成滤波器 滤波激励信号,以及然后例如通过滤波-1器1/(1-0.68z )滤波去加重而重构该信号。注意激励也可用来更新ACELP自适应码簿,允许在后续帧中从TCX切换至ACELP。还应注意,TCX合成的长度可以由TCX帧长度给出(不含交叠):对1、2或3的mod[]分别为256、512或1024采样。
[0120] 随后将根据第7图的实施例,在相应实施例中使用判定器15中的LPC分析及LPC合成,讨论预测编码分析级12的实施例功能。
[0121] 第7图示例说明LPC分析块12的实施例的进一步细节。将音频信号输入到滤波器确定块,该滤波器确定块确定滤波器信息A(z),即与合成滤波器的系数有关的信息。对信息进行量化,且输出作为解码器所需的短期预测信息。在减法器786中,输入信号的当前采样,减去当前采样的预测值,使得对于该采样,在线784处产生预测误差信号。注意预测误差信号也称作为激励信号或激励帧(通常在编码之后)。
[0122] 在第8a图中示出了用于解码编码帧来获得采样音频信号帧的音频解码器80的实施例,其中帧包含多个时域采样。音频解码器80包含冗余获取解码器82,冗余获取解码器82用于解码已编码帧来获得与合成滤波器的系数有关的信息和预测域帧频谱,或预测频谱域帧。音频解码器80进一步包含时间混叠导入逆变换器84,用于将预测频谱域帧变换至时域而获得交叠预测域帧,其中,时间混叠导入逆变换器84适于根据连续的预测域帧频谱确定交叠预测域帧。此外,音频解码器80包含交叠/加法组合器86,用于组合交叠预测域帧而用于以临界采样方式获得预测域帧。该预测域帧由基于LPC的加权信号组成。交叠/加法组合器86也包括转换器,用于将预测域帧转换为激励帧。音频解码器80进一步包含预测合成级88,用以基于系数和激励帧来确定合成帧。
[0123] 交叠/加法组合器86适于组合交叠预测域帧,使得预测域帧的采样的平均数目等于该预测域帧频谱的采样的平均数。在实施例中,反相时间混叠导入逆变换器84适于根据前述细节,根据IMDCT,将预测域帧频谱变换至时域。
[0124] 在方块86中,通常在“交叠/加法组合器”之后,在实施例中可选地存在“激励恢复”,第8a-c图以括号中所示。在实施例中,交叠/加法可以在LPC加权域中进行,然后可以通过逆加权合成滤波器进行滤波,将加权信号转换成激励信号。
[0125] 此外,在实施例中,预测合成级88适于基于线性预测,即LPC来确定帧。在第8b图中示出了音频解码器80的另一个实施例。第8b图所示的音频解码器80示出了类似于第8a图所示音频解码器80的组件,然而,在实施例中,第8b图所示时间混叠导入逆变换器84进一步包含:转换器84a,用于将预测域帧频谱转换成转换交叠预测域帧;加窗滤波器84b,用于对转换交叠预测域帧应用加窗函数而获得交叠预测域帧。
[0126] 第8c图示出了具有类似于第8b图所示的组件的音频解码器80的另一个实施例。在第8c图所示实施例中,时间混叠导入逆变换器84进一步包含:处理器84c,用于检测事件,以及如果检测到事件为加窗滤波器84b提供窗序列信息,并且加窗滤波器84b适于根据窗序列信息应用加窗函数。该事件可为由编码帧或任何辅助信息所导出的或所提供的指示。
[0127] 在音频编码器10和音频解码器80的实施例中,相应加窗滤波器17和84适于根据窗序列信息应用加窗函数。第9图示出了一般矩形窗,其中该窗序列信息包含:第一零部分,其中该窗掩蔽采样;第二旁路部分,其中帧(即预测域帧或交叠预测域帧)的采样可未经修改地通过;以及第三零部分,其中再次掩蔽帧结束处的采样。换言之,可应用加窗函数,该加窗函数在第一零部分中抑制帧的多个采样,在第二旁路部分通过采样,然后在第三零部分中抑制帧结束处的采样。在上下文中,遏止也表示在窗的旁路部分的起点和/或结束处附加零序列。第二旁路部分可使得加窗函数简单具有1值,即采样未经修改而通过,即加窗函数通过该帧的采样切换。
[0128] 第10图示出了加窗序列或加窗函数的另一个实施例,其中该加窗序列进一步包含第一零部分与第二旁路部分之间的上升沿,及第二旁路部分与第三零部分之间的下降沿。上升沿部分也视为淡入部分,而下降沿部分可视为淡出部分。在实施例中,第二旁路部分包含丝毫也不修改LPC域帧的采样的序列。
[0129] 换言之,基于MDCT的TCX可从算术解码器请求多个量化频谱系数,lg,其系由最后模式的mod[]及last_lpd_mode值确定。这二值也定义将应用于逆MDCT的窗长度和形状。窗可由三个部分组成,L个采样的左侧交叠部分、M个采样的中间部分、以及R个采样的右侧交叠部分。为了获得长2*lg的MDCT窗,可在左侧天界ZL个零及在右侧添加ZR个零。
[0130] 下表示出了针对若干实施例的根据last_lpd_mode和mod[]的频谱系数的数目:
[0131]
[0132] MDCT窗由以下给出
[0133]
[0134] 实施例可以提供以下优点:通过应用不同窗函数,MDCT、IMDCT的系统编码延迟分别比原始MDCT低。为了提供本优点的进一步细节,第11图示出了个视图,其中顶部的第一视图示出了基于与MDCT一起使用的传统三角形加窗函数的系统延迟,以时间单位T表示,在第11图顶部的第二视图中示出了该传统加窗函数。
[0135] 这里考虑的系统延迟是当采样到达解码器级时所经过的延迟,假设并无编码或传输该采样的延迟。换言之,第11图所示系统延迟考虑在编码开始前累积帧的采样所引起的编码延迟。如前文说明,为了在T处解码采样,必须变换0与2T之间的采样。这在T处获得另一个T的采样的系统延迟。然而,在对紧邻该采样之后的采样进行解码之前,第二窗的全部采样必须可使用,第二窗以2T为中心。因此,系统延迟跳至2T,降回至第二窗的中心T。第11图顶部的第三视图示出了由实施例所提供的窗函数序列。可知与第11图顶部的第二视图的现有窗相比,窗的非零部分的交叠区减少了2Δt。换言之,实施例中使用的窗函数系与现有窗一样广或一样宽,但具有第一零部分和变成可预测的第三零部分。
[0136] 换言之,解码器已知有第三零部分,因此解码相应地可比编码更早开始。因此,如第11图底部所示,系统延迟减少了2Δt。换言之,解码器不必等候零部分而可节省2Δt。当然显然在解码过程后,全部采样有相同的系统延迟。第11图的图示只验证采样到达解码器之前所经历的系统延迟。换言之,解码后的总系统延迟对现有方法而言将为2T,而对实施例中的窗为2T-2Δt。
[0137] 后文将考虑实施例,其中在AMR-WB+编码解码器中使用MDCT来替代FFT。因此,将根据第12图说明窗的细节,定义“L”为左交叠区或上升沿部分,“M”为1区或第二旁路部分,及“R”为右交叠区或下降沿部分。此外,考虑第一零部和第三零部。帧内理想重构区表示为“PR”,第12图中以箭头指示。此外,“T”指示变换核长度的箭头,与频域采样数目(即时域采样数目的半数)相对应,包含第一零部分、上升沿部分“L”、第二零旁路部分“M”、下降沿部分“R”、以及第三零部分。当使用MDCT时,可以减少频率采样数目,其中频率采样数目用于FFT或离散余弦变换(DCT=离散余弦变换)。
[0138] T=L+M+R
[0139] 与MDCT的变换编码器长度作比较
[0140] T=L/2+M+R/2。
[0141] 第13a图在顶部示出了AMR-WB+的窗函数序列的示例的视图。从左至右,第13a图顶部的视图示出了ACELP帧、TCX20、TCX20、TCX40、TCX80、TCX20、TCX20、ACELP及ACELP。虚线示出了前文说明的零输入响应。
[0142] 在第13a图底部,有个用于不同窗部分的参数表,其中在本实施例中,当任一个TCXx帧接在另一TCXx帧后时,不同窗部分是左交叠部分或上升沿部分L=128。当ACELP帧接在TCXx帧后时,使用类似的窗。如果TCX20或TCX40帧接在ACELP帧后,则可忽略左交叠部分,即L=0。当由ACELP转变至TCX80时,可使用L=128的交叠部分。由第13a图表中的图示可知,基本原则是保持非临界采样,只要有足够用于帧内完美重构所需的开销,且尽可能切换至临界采样即可。换言之,唯有ACELP帧后的第一个TCX帧维持利用本实施例的非临界采样。
[0143] 在第13a图的底部所示的表中,强调与第19图所示传统AMR-WB+的表的差异。强调的参数指示本发明的实施例的优点,其中交叠区扩充,使得可以更平滑地进行交叉衰减,提高了窗的频率响应,同时保持临界采样。
[0144] 由第13a图的底部的表可知,只有针对ACELP至TCX的转变,导入开销,即,唯有对此种转变T>PR,即实现非临界采样。对全部TCXx至TCXx(“x”指示任何帧持续时间)转变,变换长度T系等于新的理想重构采样的数目,即实现临界采样。第13b图标例示出了根据AMR-WB+的基于MDCT的实施例的针对全部可能的转变的所有窗的图示的表。如第13a图的表指示,窗的左部L不再取决于先前TCX帧的长度。第14b图也示出了当在不同TCX帧之间切换时可以维持临界采样。对TCX至ACELP的转变,可知产生128个采样的开销。因窗的左侧并非取决于先前TCX帧的长度,可以简化第13b图所示表格,如第14a图所示。第14a图再次示出了针对全部可能的转变的窗的图示,其中从TCX帧的转变概括在一行中。
[0145] 第14b图详细示出了从ACELP到TCX80的转变窗。第14b图的视图在横坐标上示出了采样数,在纵坐标上示出了窗函数。考虑MDCT的输入,左侧零部由采样1到采样512。上升沿部分在采样513与采样640之间,第二旁路部在641与1664之间,下降沿部分在1665与1792之间,第三零部在1793与2304之间。至于前文MDCT的讨论,在本实施例中,2304个时域采样变换1152个频域采样。根据前文说明,本窗的时域混叠区在采样513与采样640之间,即,在跨L=128个采样延伸的上升沿部分。另一个时域混叠区在采样1665与采样
1792之间延伸,即R=128个采样的下降沿部分。由于第一零部和第三零部,有非混叠区,其中实现大小M=1024采样641与采样1664之间的理想重构。第14b图中,虚线指示的ACELP帧结束于采样640。相对于TCX80窗的513至640之间的上升沿部分的采样有不同选项。其中一个选项是首先丢弃采样而留在ACELP帧。另一个选项是使用ACELP输出,以便对TCX80帧进行时域混叠消除。
[0146] 第14c示出了从以“TCXx”表示的任何TCX帧转变至TCX20帧且转变回任何TCXx帧。第14b图至第14f图使用已经就第14b图所述的相同图示。在环绕第14c图的采样256的中心,示出了TCX20窗。512个时域采样通过MDCT变换至256个频域采样。时域采样对第一零部使用64采样,对第三零部也使用64个采样。大小M=128的非混叠区环绕TCX20窗中心延伸。采样65与采样192之间的左交叠部分或上升沿部分可与前一个窗的下降沿部分(如虚线指示)组合用于时域混叠消除。理想重构区获得尺寸PR=256。由于全部TCX窗的全部上升沿部分为L=128并且适合全部下降沿部分R=128,先前TCX帧及后续TCX帧可以具有任何大小。当从ACELP转变至TCX20时,如第14d图指示,可以使用不同窗。由第14d图可知,选择上升沿部分为L=0,即矩形沿。理想重构面积PR=256。
第14e图示出了当从ACELP转变至TCX40的类似图示作为另一个实例;第14f示出了从任何TCXx窗至TCX80至任何TCXx窗的转变。
[0147] 总之,第14b图至第14f图示出了MDCT的交叠区始终为128个采样,但当从ACELP转变至TCX20、TCX40或ACELP时除外。
[0148] 当从TCX转变至ACELP或从ACELP转变至TCX80时,可有多个选项。在一个实施例中,在交叠区中可以丢弃从MDCT TCX帧采样的窗。在另一个实施例中,加窗采样可用于交叉衰减,且可用于基于交叠区中的已混叠ACELP采样,消除MDCT TCX采样中的时域交叠。在又一实施例中,可进行交叉衰减,而无需消除时域混叠。在从ACELP至TCX的转变中,零输入响应(ZIR=零输入响应)在编码器处可以被移除以用于加窗,而在解码器处可以被加入以用于恢复。在附图中,这可以通过ACELP窗之后的TCX窗内的虚线所指示。在本实施例中,当从TCX转变至TCX时,加窗采样可用于交叉衰减。
[0149] 当从ACELP转变至TCX80时,帧长度较长,且可与ACELP帧交叠,可以使用时域混叠消除或丢弃方法。
[0150] 当从ACELP转变至TCX80时,先前ACELP帧可以导入振铃(ringing)。由于LPC滤波的使用,振铃可以被辨识为来自先前帧的误差传播。用于TCX40和TCX20的ZIR方法可以解释振铃。在实施例中,TCX80的变型是使用具有1088变换长度的ZIR方法,即无需与ACELP帧交叠。在另一个实施例中,可以保持相同1152变换长度,可以利用恰在ZIR之前的交叠区归零,如第15图所示。第15图示出了ACELP至TCX80的转变,其中交叠区归零且使用ZIR方法。ZIR部分再次由ACELP窗结束之后的虚线指示。
[0151] 总之,本发明的实施例提供以下优点:当TCX帧继续时,可对全部TCX帧进行临界采样。与传统方法比较,可以实现1/8的开销减少。此外,实施例提供下述优点,接续帧之间的转变区或交叠区始终为128个采样,即比传统AMR-WB+更长。改善的交叠区也提供改善的频率响应和更平滑的交叉衰减。使用整体编码和解码过程可以实现更佳信号质量。
[0152] 依据本发明方法的若干实施要求,本发明方法可以以硬件或软件实施。实施可使用数字储存介质进行,具体地有可电子读取控制信号储存于其上的磁盘、DVD、闪存或CD,该信号与可编程计算机系统协力合作使得可执行本发明方法。因此通常,本发明是具有存储在机器可读载体上的程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码可操作用于执行本发明方法。换言之,因此本发明方法为具有当计算机程序运行在计算机上时可用于执行至少一种本发明方法的程序代码的计算机程序。