用于编码和解码音频样本的音频编码器和解码器转让专利

申请号 : CN200980127096.5

文献号 : CN102089811B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杰雷米·勒孔特菲利普·古尔奈斯特凡·拜尔马库斯·马特拉斯布鲁诺·贝塞特伯恩哈特·格里尔

申请人 : 弗朗霍夫应用科学研究促进协会

摘要 :

一种用于编码音频样本的音频编码器(100),包括第一时域混叠引入编码器(110),用于在第一编码域中编码音频样本,该第一时域混叠引入编码器(110)具有第一帧化规则、开始窗口和停止窗口。音频编码器(100)进一步包括第二编码器(120),用于在第二编码域中编码样本,该第二编码器(120)具有音频样本的预定帧大小数量,和音频样本的编码暖机期数量,该第二编码器(120)具有不同的第二帧化规则,该第二编码器(120)的帧是一定数量的在时间上连续的音频样本的编码表示,该数量等于音频样本的预定帧大小数量;音频编码器(100)进一步包控制器(130),基于音频样本的特性从第一编码器(110)切换到第二编码器(120),并且响应于从第一编码器(110)到第二编码器(120)的切换来修改第二帧化规则,或修改第一编码器(110)的开始窗口或停止窗口,其中第二帧化规则保持未被修改。

权利要求 :

1.一种用于编码音频样本的音频编码器(100),包括:

第一时域混叠引入编码器(110),用于在第一编码域中编码音频样本,所述第一时域混叠引入编码器(110)具有第一帧化规则、开始窗口和停止窗口以及包括用于基于改进离散余弦变换(MDCT)将后续音频样本的第一帧变换到频域的频域变换器;

第二编码器(120),用于在第二编码域中编码样本,所述第二编码器(120)具有音频样本的预定帧大小数量,和音频样本的编码暖机期数量,所述第二编码器(120)具有不同的第二帧化规则,所述第二编码器(120)的帧是一定数量的在时间上连续的音频样本的编码表示,所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量;以及控制器(130),用于响应于所述音频样本的特性从所述第一时域混叠引入编码器(110)切换到所述第二编码器(120),或响应于所述音频样本的特性从所述第二编码器(120)切换到所述第一时域混叠引入编码器(110),以及用于修改所述第一时域混叠引入编码器(110)的开始窗口或停止窗口达到所述窗口的零部分扩展横越改进离散余弦变换大小的第一个四分之一且交叉衰减在所述改进离散余弦变换大小的第二个四分之一中开始的程度,以便所述交叉衰减在相对于所述零部分的改进离散余弦变换折叠轴线之后开始,其中所述第二帧化规则保持未被修改。

2.一种用于编码音频样本的音频编码器(100),包括:

第一时域混叠引入编码器(110),用于在第一编码域中编码音频样本,所述第一时域混叠引入编码器(110)具有第一帧化规则、开始窗口和停止窗口;

第二编码器(120),用于在第二编码域中编码样本,所述第二编码器(120)具有不同的第二帧化规则并包括第二帧化规则是AMR帧化规则的AMR或AMR-WB+编码器,根据所述AMR帧化规则,一个超帧包括四个AMR帧,所述第二编码器(120)具有音频样本的预定帧大小数量和音频样本的编码暖机期数量,所述第二编码器(120)的超帧是一定数量的在时间上连续的音频样本的编码表示,所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量;以及控制器(130),用于响应于所述音频样本的特性从所述第一时域混叠引入编码器(110)切换到所述第二编码器(120),或响应于所述音频样本的特性从所述第二编码器(120)切换到所述第一时域混叠引入编码器(110),以及用于响应于从所述第一时域混叠引入编码器(110)到所述第二编码器(120)的切换或从所述第二编码器(120)到所述第一时域混叠引入编码器(110)的切换来修改所述第二帧化规则达到在切换处的第一超帧具有音频样本的增加的帧大小数量且在所述四个AMR帧之外还包括第五个AMR帧的程度,其中所述第五个AMR帧分别与所述第一时域混叠引入编码器(110)的开始窗口或停止窗口的衰减部分重叠。

3.如权利要求2所述的音频编码器(100),其中所述第一时域混叠引入编码器(110)包括用于将后续音频样本的第一帧变换到频域的频域变换器。

4.如权利要求3所述的音频编码器(100),其中所述第一时域混叠引入编码器(110)适于当通过所述第二编码器(120)对后续帧编码时使用所述开始窗口加权最后帧,和/或适于当通过所述第二编码器(120)对先前帧编码时使用所述停止窗口加权所述第一帧。

5.如权利要求3所述的音频编码器(100),其中所述频域变换器适于基于改进离散余弦变换(MDCT)将所述第一帧变换到所述频域,以及其中所述第一时域混叠引入编码器(110)适于将改进离散余弦变换大小适应所述开始和/或停止和/或已修改开始和/或停止窗口。

6.如权利要求2所述的音频编码器(100),其中所述第一时域混叠引入编码器(110)适于使用具有混叠部分和/或无混叠部分的开始窗口和/或停止窗口。

7.如权利要求2所述的音频编码器(100),其中所述第一时域混叠引入编码器(110)适于使用当通过所述第二编码器(120)编码先前帧时在窗口的上升边缘部分处具有无混叠部分且当通过所述第二编码器(120)编码后续帧时在下降边缘部分处具有无混叠部分的开始窗口和/或停止窗口。

8.如权利要求6所述的音频编码器(100),其中所述控制器(130)适于启动所述第二编码器(120),以便所述第二编码器(120)的帧序列的第一帧包括在所述第一时域混叠引入编码器(110)的先前无混叠部分中被处理的样本的编码表示。

9.如权利要求6所述的音频编码器(100),其中所述控制器(130)适于启动所述第二编码器(120),以便所述音频样本的编码暖机期数量与所述第一时域混叠引入编码器(110)的开始窗口的无混叠部分重叠,以及所述第二编码器(120)的后续帧与所述停止窗口的混叠部分重叠。

10.如权利要求6所述的音频编码器(100),其中所述控制器(130)适于启动所述第二编码器(120),以便所述编码暖机期与所述开始窗口的混叠部分重叠。

11.如权利要求1所述的音频编码器(100),其中所述第一时域混叠编码器(110)包括根据运动图像和相关音频的通用编码的AAC编码器:先进音频编码,国际标准13818-7,ISO/IEC JTC1/SC29/WG11运动图像专家组,1997。

12.如权利要求1所述的音频编码器(100),其中所述第二编码器包括根据第三代伙伴计划(3GPP),技术规范(TS),26.290,2005年6月的版本6.3.0的AMR或AMR-WB+编码器。

13.一种编码音频帧的方法,包括以下步骤:

使用第一帧化规则、开始窗口和停止窗口,以及通过基于改进离散余弦变换(MDCT)将后续音频样本的第一帧变换到频域,在第一编码域中编码音频样本;

使用音频样本的预定帧大小数量和音频样本的编码暖机期数量且使用不同的第二帧化规则,在第二编码域中编码音频样本,所述第二编码域的帧是一定数量的在时间上连续的音频样本的编码表示,所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量;

从第一编码域切换到第二编码域,或从第二编码域切换到第一编码域;以及修改所述第一编码域的开始窗口或停止窗口达到所述窗口的零部分扩展横越改进离散余弦变换大小的第一个四分之一且交叉衰减在所述改进离散余弦变换大小的第二个四分之一开始的程度,以便所述交叉衰减在相对于所述零部分的改进离散余弦变换折叠轴线之后开始,其中所述第二帧化规则保持未被修改。

14.一种用于编码音频帧的方法,包括以下步骤:

使用第一帧化规则、开始窗口和停止窗口,在第一编码域中编码音频样本;

采用不同的第二帧化规则通过所述第二帧化规则是AMR帧化规则的AMR或AMR-WB+编码,且使用音频样本的预定帧大小数量和音频样本的编码暖机期数量,在第二编码域中编码音频样本,根据所述AMR帧化规则所述超帧包括四个AMR帧,所述第二编码域的所述超帧是一定数量的在时间上连续的音频样本的编码表示,所述在时间上连续的音频样本的数量等于音频样本的所述预定的帧大小数量;

从所述第一编码域切换到所述第二编码域,或从所述第二编码域切换到所述第一编码域,以及

响应于从所述第一编码域到所述第二编码域的切换或从所述第二编码域到所述第一编码域的切换修改所述第二帧化规则达到在切换处的第一超帧具有音频样本的增加的帧大小数量且在所述四个AMR帧之外还包括第五个AMR帧的程度,其中所述第五个AMR帧分别重叠所述第一时域混叠引入编码器(110)的开始窗口或停止窗口的衰减部分。

15.一种音频解码器(150),用于解码音频样本的已编码帧,包括:

第一时域混叠引入解码器(160),用于在第一解码域中解码音频样本,所述第一时域混叠引入解码器(160)具有第一帧化规则、开始窗口和停止窗口,以及所述第一时域混叠引入解码器(160)包括基于反相改进离散余弦变换(IMDCT)将已解码音频样本的第一帧变换到时域的时域变换器;

第二解码器(170),用于在第二解码域中解码音频样本,所述第二解码器(170)具有音频样本的预定帧大小数量和音频样本的编码暖机期数量,所述第二解码器(170)具有不同的第二帧化规则,所述第二解码器(170)的帧是一定数量的在时间上连续的音频样本的编码表示,所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量;以及控制器(180),用于基于在音频样本的已编码帧中的指示从所述第一时域混叠引入解码器(160)切换到所述第二解码器(170),或从所述第二解码器(170)切换到所述第一解码器(160),其中所述控制器(180)适于修改所述第一时域混叠引入解码器(160)的开始窗口或停止窗口达到所述窗口的零部分扩展横越改进离散余弦变换大小的第一个四分之一且交叉衰减在所述改进离散余弦变换大小的第二个四分之一开始,以便所述交叉衰减在相对于所述零部分的改进离散余弦变换折叠线之后开始,其中所述第二帧化规则保持未被改变。

16.一种对音频样本已编码帧解码的音频解码器(150),包括:

第一时域混叠引入解码器(160),用于在第一解码域中解码音频样本,所述第一时域混叠引入解码器(160)具有第一帧化规则、开始窗口和停止窗口,第一时域混叠引入解码器(160)包括基于反相改进离散余弦变换(IMDCT)将已解码音频样本的第一帧变换到时域的时域变换器;

第二解码器(170),用于在第二解码域中解码音频样本,所述第二解码器(120)具有不同的第二帧化规则并包括所述第二帧化规则为AMR帧化规则的AMR或AMR-WB+解码器,根据所述AMR帧化规则,一个超帧包括四个AMR帧,所述第二解码器(170)具有音频样本的预定帧大小数量和音频样本的编码暖机期数量,所述第二解码器(170)的超帧是一定数量的在时间上连续的音频样本的编码表示,所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量;以及控制器(180),用于基于音频样本的已编码帧内的指示从所述第一时域混叠引入解码器(160)切换到所述第二解码器(170),或从所述第二解码器(170)切换到所述第一解码器(160),其中响应于从所述第一时域混叠引入解码器(160)到所述第二解码器(170)的切换或从所述第二解码器(170)到所述第一时域混叠引入解码器(160)的切换来修改所述第二帧化规则达到在切换处的第一超帧具有音频样本的增加的帧大小数量且在所述四个AMR帧之外还包括第五个AMR帧的程度,其中所述第五个AMR帧分别重叠所述第一时域混叠引入编码器(110)的开始窗口或停止窗口的衰减部分并指示所述第二解码器(170)的编码暖机期。

17.如权利要求16所述的音频解码器(150),其中所述第一时域混叠引入解码器(160)包括用于将已解码音频样本的第一帧变换到所述时域的时域变换器。

18.如权利要求16所述的音频解码器(150),其中所述第一时域混叠引入解码器(160)适于当所述第二解码器(170)解码后续帧时使用所述开始窗口加权最后已解码帧,和/或适于当所述第二解码器(170)对先前帧解码时使用所述停止窗口加权第一已解码帧。

19.如权利要求17所述的音频解码器(150),其中所述时域变换器适于基于反相改进离散余弦变换(IMDCT)将所述第一帧变换到所述时域,以及其中所述第一时域混叠引入解码器(160)适于将反相改进离散余弦变换大小适应所述开始和/或停止和/或已修改开始和/或停止窗口。

20.如权利要求16所述的音频解码器(150),其中所述第一时域混叠引入解码器(160)适于使用具有混叠部分和无混叠部分的开始窗口和/或停止窗口。

21.如权利要求16所述的音频解码器(150),其中所述第一时域混叠引入解码器(110)适于使用当所述第二解码器(170)解码先前帧时在上升边缘部分处具有无混叠部分且当所述第二解码器(170)解码后续帧时在下降边缘部分处具有无混叠部分的开始窗口和/或停止窗口。

22.根据权利要求20所述的音频解码器(150),其中所述控制器(180)适于启动所述第二解码器(170),以便所述第二解码器(170)的帧序列的第一帧包括在所述第一时域混叠引入解码器(160)的先前无混叠部分中被处理的样本的编码表示。

23.如权利要求20所述的音频解码器(150),其中所述控制器(180)适于启动所述第二解码器(170),以便所述音频样本的编码暖机期数量与所述第一时域混叠引入解码器(160)的开始窗口的无混叠部分重叠,以及所述第二解码器(170)的后续帧与所述停止窗口的混叠部分重叠。

24.如权利要求16所述的音频解码器(150),其中所述控制器(180)适于在不同解码器的已解码音频样本的连续帧之间应用交叉衰减。

25.如权利要求16所述的音频解码器(150),其中所述控制器(180)适于从所述第二解码器(170)的已解码帧确定在所述开始或停止窗口的混叠部分中的混叠,以及适于根据所述确定的混叠来减少所述混叠部分中的混叠。

26.如权利要求16所述的音频解码器(150),其中所述控制器(180)适于丢弃来自所述第二解码器(170)的音频样本的编码暖机期。

27.一种用于解码音频样本的已编码帧的方法,包括以下步骤:

在第一解码域中解码音频样本,所述第一解码域引入时间混叠,具有第一帧化规则、开始窗口和停止窗口,以及使用基于反相改进离散余弦变换(IMDCT)将已解码音频样本的第一帧变换到时域的变换;

在第二解码域中解码音频样本,所述第二解码域具有音频样本的预定帧大小数量和音频样本的编码暖机期数量,所述第二解码域具有不同的第二帧化规则,所述第二解码域的帧是一定数量的在时间上连续的音频样本的已解码表示,所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量;以及基于来自音频样本的已编码帧处的指示,从第一解码域切换到第二解码域,或从第二解码域切换到第一解码域;

修改第一解码域的开始窗口和/或停止窗口达到所述窗口的零部分扩展横越改进离散余弦变换大小的第一个四分之一且交叉衰减在所述改进离散余弦变换大小的第二个四分之一开始的程度,以便所述交叉衰减在相对于所述零部分的改进离散余弦变换折叠线之后开始,其中所述第二帧化规则保持未被修改。

28.一种用于解码音频样本的已编码帧的方法,包括步骤:

在第一解码域中解码音频样本,所述第一解码域引入时间混叠,具有第一帧化规则、开始窗口和停止窗口,以及使用基于反相改进离散余弦变换(IMDCT)将已解码音频样本的第一帧变换到时域的变换;

采用不同的第二帧化规则通过所述第二帧化规则是AMR帧化规则的AMR或AMR-WB+解码,在第二解码域中解码音频样本,根据所述AMR帧化规则,一个超帧包括四个AMR帧,所述第二解码域具有音频样本的预定帧大小数量和音频样本的编码暖机期数量,所述第二解码域的超帧是一定数量的在时间上连续的音频样本的已解码表示,所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量;以及基于来自音频样本的已编码帧内的指示,从所述第一解码域切换到所述第二解码域,或从第二解码域切换到第一解码域;

其中响应于从所述第一解码域到所述第二解码域的切换或从所述第二解码域到所述第一解码域的切换来修改所述第二帧化规则达到在切换处的第一超帧具有音频样本的增加的帧大小数量且在所述四个AMR帧之外还包括第五个AMR帧的程度,其中所述第五个AMR帧分别重叠所述第一时域混叠引入编码器(110)的开始窗口或停止窗口的衰减部分并指示所述第二解码器(170)的编码暖机期。

29.一种用于编码音频样本的音频编码器(100),包括:

第一时域混叠引入编码器(110),用于在第一编码域中编码音频样本,所述第一时域混叠引入编码器(110)具有第一帧化规则、开始窗口和停止窗口;

第二编码器(120),用于在第二编码域中编码样本,所述第二编码器(120)是CELP编码器并且具有音频样本的预定帧大小数量,以及音频样本的编码暖机期数量的暖机期,在所述暖机期期间所述第二编码器经历了增加的量化噪音,所述第二编码器(120)具有不同的第二帧化规则,所述第二编码器(120)的帧是一定数量的在时间上连续的音频样本的编码表示,所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量;以及控制器(130),用于响应于所述音频样本的特性从所述第一时域混叠引入编码器(110)切换到所述第二编码器(120),或者从所述第二编码器(120)切换到所述第一时域混叠引入编码器(110),以及响应于所述切换来修改所述第二帧化规则,其中所述第一时域混叠引入编码器(110)适于使用具有混叠部分和无混叠部分的开始窗口和/或停止窗口,其中所述控制器(130)适于响应于所述切换修改所述第二帧化规则,以便所述第二编码器(120)的帧序列的第一帧包括在所述第一时域混叠引入编码器(110)的所述无混叠部分中所处理的样本的编码表示。

30.一种对已编码音频样本解码的音频解码器(150),包括:

第一时域混叠引入解码器(160),用于在第一解码域中解码音频样本,所述第一时域混叠引入解码器(160)具有第一帧化规则、开始窗口和停止窗口;

第二解码器(170),用于在第二解码域中解码音频样本,以及所述第二解码器(170)是CELP解码器且具有音频样本的预定帧大小数量和音频样本的编码暖机期数量的暖机期,在所述暖机期期间所述第二解码器经历了增加的量化噪音,所述第二解码器(170)具有不同的第二帧化规则,所述第二解码器(170)的帧是一定数量的在时间上连续的音频样本的编码表示,所述在时间上连续的音频样本的数量等于音频样本的所述预定帧大小数量;以及控制器(180),用于基于音频样本的已编码帧的指示从所述第一时域混叠引入解码器(160)切换到所述第二解码器(170),或从所述第二解码器(170)切换到所述第一时域混叠引入解码器(160),其中所述控制器(180)适于响应于所述切换来修改所述第二帧化规则,其中所述第一时域混叠引入解码器适于使用具有混叠部分和无混叠部分的开始窗口和/或停止窗口,其中所述控制器适于响应于所述切换修改所述第二帧化规则,以便所述第二解码器的帧序列的第一帧包括在所述第一时域混叠引入解码器的所述无混叠部分中所处理的样本的编码表示和与所述开始窗口的无混叠部分重叠的编码样本的编码暖机期数量,并且所述控制器适于丢弃来自所述第二解码器(170)的音频样本的编码暖机期数量。

说明书 :

用于编码和解码音频样本的音频编码器和解码器

[0001] 本发明属于在不同编码域进行音频编码的领域,例如在时域和变换域中。
[0002] 在低比特率音频和语音编码技术的背景中,传统中已采用数个不同编码技术以获得在给定的比特率下具有可能最佳主观质量的如此低比特率编码信号。一般的音乐/声音信号的编码器旨在根据使用一种感知模型(“感知音频编码”)估算输入信号而获得的掩蔽临界曲线以通过塑造量化误差的频谱(及时间)形状来优化主观质量。另一方面,极低比特率下的语音编码已经显示出在其基于人类语音的产生模式时高效运行,即采用线性预测编码(LPC)以模型化与残差激发信号的有效编码一起的人类声道的共振效应。
[0003] 作为这两种不同方式的结果,常用音频编码器例如MPEG-1Layer 3(MPEG=运动图像专家组),或MPEG-2/4先进音频编码(AAC)通常对于非常低数据率下的语音信号执行的效果不如像专用LPC式语音编码器一样好,由于缺乏对声源模型的利用。相反地,LPC式语音编码器在被应用于常见音乐信号时,由于其无法根据掩蔽临界曲线灵活地形成编码失真的频谱包络而通常不能实现令人信服的结果。下面,描述了将LPC式编码和感知式音频编码二者优点结合进单一架构中的概念,并因此描述了对常见音频和语音信号二者都有效的统一语音编码。
[0004] 传统地,感知语音编码器使用一种基于滤波器组的方法以根据掩蔽曲线的估算有效地编码音频信号以及形成量化失真。
[0005] 图16a示出了一种单声道感知编码系统的基本方框图。分析滤波器组1600被用于将时域样本映射成子采样频谱分量。基于频谱分量的数量,该系统也被称作子带编码器(数量小的子频带,例如32)或变换编码器(数量大的频率线,例如512)。感知(心理声学)模型1602被用来估算实际时间所依的掩蔽阈值。该频谱(“子带”或“频域”)分量被量化和编码1604,以将量化噪声隐藏在实际传输信号下且在解码后无法察觉的方式。这通过改变时间及频率上频谱值的量化粒度而实现。
[0006] 量化和熵编码后的频谱系数或子频带值,与边信息一起,输入进提供了适于被传输和存储的已编码音频信号的比特流格式器1606中。方框1606的输出比特流可被Internet网传输,或可被存储在任意可机读数据载体上。
[0007] 在解码器端,解码器输入接口1610接收已编码。方框1610将熵编码后和量化后的频谱/子频带值从边信息处分离。该已编码的频谱值被输入如霍夫曼解码器的熵解码器中,其位于1610和1620之间。该熵解码器的输出是量化后的频谱值。这些量化频谱值被输入到再量化器中,其执行一种如图16a中1620处所示的“反”量化。该方框1620的输出被输入到合成滤波器组1622中,其执行包括频率/时间变换以及典型地如重叠和相加的时域混叠消除操作和/或合成端窗口操作的分析滤波,以最后获得该输出音频信号。
[0008] 传统地,有效语音编码已经基于线性预测编码(LPC)以模型化与残差激发信号的有效编码一起的人类声道的共振效应。LPC和激发参数二者被从编码器传输到解码器。这一原理如图17a和17b所示。
[0009] 图17a指示了基于线性预测编码的编码/解码系统的编码器端。语音输入被输入到LPC分析器1701中,其在其输出端提供LPC滤波器系数。基于这些LPC滤波器系数,调整LPC滤波器1703。该LPC滤波器输出了一种频谱白化音频信号,其也被称作“预测误差信号”。该频谱白化音频信号被输入到产生激发参数的残差/激发编码器1705中。因此,该语音输入一方面被编码成激发参数,以及另一方面为LPC系数。
[0010] 在图17b中的解码端上,激发参数被输入进激发解码器1707,其产生可被输入到LPC合成滤波器中的激发信号。使用该被传输的LPC滤波器系数对该LPC合成滤波器进行调整。因此,该LPC合成滤波器1709产生了一种重建或合成后的语音输出信号。
[0011] 随着时间的推移,已经提出了许多对于如多脉冲激发(MPE)、规则脉冲激发(RPE),以及码激式线性预测(CELP)的残差(激发)信号的有效和感知上令人信服再现的方法。
[0012] 线性预测编码试图基于对特定数量的过去值的观察作为对过去观察的线性组合,以对序列的当前采样值产生估计值。为了减少该输入信号中的冗余,编码器LPC滤波器“白化”其频谱包络中的输入信号,即,其是该信号的频谱包络的反相的模型。相反地,解码器LPC合成滤波器是信号的频谱包络的模型。具体地,公知的自回归(AR)线性预测分析已知是通过全极点接近来对信号的频谱包络模型化。
[0013] 典型地,窄频带语音编码器(即采用8kHz采样率的语音编码器)使用具有8到12之间的阶数的LPC滤波器。由于该LPC滤波器的性质,相同的频率解析度在全频率范围内是有效的。这与感知频率标度不相对应。
[0014] 为了将传统LPC/CELP式编码(对于语音信号具有最佳质量)与传统的滤波器组式感知音频编码方法(对于音乐最佳)的长处相结合,已经提出了一种在这些架构之间的结合编码。在该AMR-WB+(AMR-WB=Adaptive Multi-Rate WideBand)coder B.Bessette,R.Lefebvre,R.Salami,“UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES,”Proc.IEEE ICASSP 2005,pp.301-304,2005中,两交替编码核心操作于LPC残差信号上。一个编码核心基于ACELP(ACELP=代数编码激发线性预测)且因此对于语音信号的编码非常有效。另一个编码核心基于TCX(TCX=变换编码激发),即类似传统音频编码技术的滤波器组式编码方法,以获得音乐信号的良好质量。基于该输入信号的特性,可选该两种编码方式之一以在短时间期间传输该LPC残差信号。以这样的方式,80ms持续时间的帧可被分割为40ms或20ms的子帧,其中在该两种编码模式之间做出决策。
[0015] 参见2005年6月,版本号为6.3.0的3GPP(3GPP=第三代伙伴合作计划)技术规范编号26.290,该AMR-WB+(AMR-WB+=扩展自适应多速率宽频编解码器)可在两种本质上不同的模式ACELP与TCX之间切换。在ACELP模式中,时域信号通过代数编码激发而被编码。在该TCX模式中,快速傅利叶变换(FFT=快速傅利叶变换)予以使用且LPC加权信号的频谱值(LPC激发可源于此)基于向量量化而被编码。
[0016] 使用哪一模式的决策,可通过尝试和解码两种选择且比较产生的部分信噪比(SNR=信噪比)来实现。
[0017] 这种情况也被称为闭环决策,因为具有闭合控制环路,分别评估二者的编码性能或效率,以及随后选择具有较佳SNR的那个。
[0018] 公知的是对于音频和语音编码应用,未开窗口的块变换是不可行的。因而,对于TCX模式,信号以具有1/8叠加的低叠加窗口予以打开窗口。为了淡出先前块或帧而淡入下一个以例如抑制由于在后续音频帧中不相关的量化噪声所产生的失真,这个叠加区域是必要的。与非关键取样相比较,额外负担的方式可保持相当低,且对于该闭环决策所必须的解码以当前帧的样本的至少7/8进行再现。
[0019] AMR-WB+在TCX模式中引入了1/8的额外负担,即需编码的频谱值的数量闭输入样本的数量高1/8。这提出了一种增加的额外负担数据的缺陷。而且,对应带通滤波器的频率基于是不利的,归因于连续帧的1/8的陡峭叠加区域。
[0020] 为了更详细地说明连续帧的额外负担代码以及叠加,图18示出了窗口参数的定义。图18中所示的窗口具有在左手端的上升边缘部分,其被标注为“L”且也被称为左叠加区域,被标注为“1”的中心区域,其也被称为区域1或旁通部分,以及下降边缘部分,其被标注为“R”且也被称为右叠加区域。而且,图18示出了指示在一帧内完美重建的区域“PR”的箭头。进一步地,图18示出了指示由“T”表示的变换核心的长度的箭头。
[0021] 图19示出了AMR-WB+窗口序列的视窗以及在底部根据图18的窗口参数表。在图19顶部所示的窗口序列是ACELP,TCX20(对于持续20ms的帧),TCX20,TCX40(对于持续
40ms的帧),TCX80(对于持续80ms的帧),TCX20,TCX20,ACELP,ACELP。
[0022] 从该窗口序列处可以看到变化的叠加区域,其通过中心部分M的精确1/8进行叠加。在图19底部的表格也显示出该变换长度“T”总是以1/8大于新完美重建样本区域“PR”。然而,应注意的是,这不仅仅用于ACELP至TCX变换的情况,而且用于TCXx至TCXx(其中“x”是任意长度的TCX帧)的变换。因此,在每一块中引入了1/8的额外负担,即决不会实施临界采样。
[0023] 当从TCX变换至ACELP时候,窗口样本在重叠区域中从FFT-TCX处被丢弃,如例如在图19顶部由1900标记的区域所指示的一样。当从ACELP切换至TCX时,零输入基于(ZIR=零输入基于),其也在图19的顶部处由虚线1910所指示,在打开窗口之前从编码器处被移除且在解码器处加入用于恢复。当从TCX切换到TCX帧时,打开窗口的样本被用来交叉衰减。由于TCX帧可被不同地量化,在连续帧之间的量化误差或量化噪声可以是有差异的和/或独立的。此外,当从一帧处切换到下一个而没有交叉衰减的帧时,可能产生明显的失真,以及因此,为了实现特定的质量,交叉衰减是必要的。
[0024] 从图19的底部处的表格中可以看出,交叉衰减区域随着帧的递增长度而增长。图20提供了说明在ARM-WB+中可能变换的不同窗口的另一表格。当从TCX变换为ACELP时,可丢弃重叠样本。当从ACELP转变为TCX时,来自ACELP的零输入基于可在编码器处予以移除且在解码器处予以加入以用于恢复。
[0025] 下面将说明利用时域(TD=时域)及频域(FD=频域)编码的音频编码。而且,在种编码域之间,可以进行切换。图21中,显示了一种时间线,其间第一帧2101由FD编码器编码,其后是由TD编码器编码且与该第一帧2101叠加于区域2102中的另一帧2103。时域已编码帧2103之后是帧2105,其在频域中被再次编码且与先前帧2103在区域2104中重叠。该重叠区域2102和2104无论何时切换编码域都会产生。
[0026] 这些叠加区域用来平滑上述变换。但是,重叠区域仍可能易于产生编码效率的损失和失真。因此,通常将叠加区域或变换选作为在被传输信息的一些额外负担,即编码效率,以及传输质量,即已解码信号的音频质量,之间的妥协。为了建立该妥协,当处理该变换及设计图21所指示的变换窗口2111、2113及2115时应当小心。
[0027] 与管理在频域和时域编码模式之间的变换相关的常见概念是,例如使用交叉衰减窗口,即引入与叠加区域一样大的额外负担。使用淡出先前窗口的同时淡入下一窗口的交叉衰减窗口。这种方法,由于其额外负担,在解码效率中引入了缺陷,由于无论何时发生变换时,该信号都不再被临界取样。临界地取样重叠变换例如被揭露于J.Princen,A.Bradley,“Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation”,IEEE Trans.ASSP,ASSP-34(5):1153-1161,1986中,且例如用于AAC(AAC=先进音频编码)中,参见运动图像和相关音频的通用编码:先进音频编码,国际标准13818-7,ISO/IECJTC1/SC29/WG11运动图像专家组,1997。
[0028] 而且,无混叠交叉衰减转化被揭露于Fielder,Louis D.,Todd,Craig C.,“The Design of a Video Friendly Audio Coding System for Distribution Applications”,Paper Number 17-008,The AES 17th International Conference:High-Quality Audio Coding(August 1999)and in Fielder,Louis D.,Davidson,Grant A.,“Audio Coding Tools for Digital Television Distribution”,Preprint Number 5104,108 Convention of the AES(January 2000)。
[0029] WO2008/071353揭露了用于在时域和频域编码器之间切换的概念。该概念可适于基于时域/频域切换的任何编解码器。例如,该概念可适于根据AMR-WB+编解码器的ACELP模式的时域编码以及作为频域编解码器的示例的AAC。图22示出了使用在顶部分支中的频域解码器及在底部分支中的时域解码器的常见编码器的方框图。频率解码部分示范地被表示为包含再量化方框2202和反相改进离散余弦变换方框2204的AAC编码器。在AAC中改进离散余弦变换(MDCT=改进离散余弦变换)用作在时域和频域之间的变换。在图22中,时域解码路径被示范地表示为AMR-WB+解码器2206,其后是MDCT方框2208,为了将解码器2206的结果和再量化器2202的结果结合在频域中。
[0030] 这在频域中实现结合,其中在图22中未显示的重叠和相加阶段,能够在反MDCT2204后被使用,为了结合及交叉衰减相邻块而不必考虑他们是否已被编码在时域或频域中。
[0031] 在揭露于WO2008/071353中的另一常用方法中,为了避免图22中的MDCT2208,即在时域解码的情况下的DCT-IV及IDCT-IV,可使用所谓的时域混叠消除(TDAC=时域混叠消除)的另一方法。该方法被显示在图23中。图23显示了具有示范表示为包含再量化方框2302和IMDCT方框2304的AAC解码器的频域解码器的另一解码器。时域路径被再次示范表示为AMR-BW+解码器2306和TDAC方框2308。由于TDAC 2308引入了用于正确结合的必要时间混叠,即用于直接在时域中的时间混叠消除,因此图23中的解码器允许在时域中将已解码块结合,即在IMDCT2304之后。为了节省一些计算且替代在每一第一及最后超帧上使用MDCT,即在每一个AMR-WB+音段的每1024个样本上,TDAC可仅仅被用于在128样本上的叠加区或区域中。在引入在AMR-BW+部分中相对应的反时域混叠时,可保持由AAC处理引入的正常时域混叠。
[0032] 无混叠交叉衰减窗口具有因为产生非临界取样的已编码系数而不能有效编码和加入需编码信息的额外负担的缺点。在例如WO2008/071353中的时域解码器处引入了TDA(TDA=时域混叠),减少了上述额外负担,但仅仅可适于当两个编码器的时间帧化相互匹配时。否则,编码效率被再次减小。进一步地,在解码器端的TDA可能是有问题的,特别是在时域编码器的起点处。在可能的重置后,时域编码器或解码器将通常产生量化噪声的触发,由于使用例如LPC(LPC=线性预测编码)而使时域编码器或解码器清空存储体。随后解码器将在处于永久或稳定的状态之前消耗一段时间,并且随着时间的推移而发送更相似的量化噪声。触发误差由于其通常是可听见的因而是不利的。
[0033] 因此,本发明的目的在于提供在多个域中音频编码内进行切换的一种改良概念。
[0034] 该目的通过根据权利要求1的编码器,根据权利要求16的编码方法,根据权利要求18的音频解码器,以及根据权利要求32的音频解码方法来实现。
[0035] 本发明的一个发现是当相应编码域的帧化是合适的或使用修改后的交叉衰减窗口时,可实现在使用时域和频域编码的音频编码概念中的改良切换。在实施例中,例如AMR-WB+可被用作时域编解码器且AAC可用作频域编解码器的一个示例,在这两种编解码器之间可通过实施例实现更有效的切换,通过适合AMR-WB+部分的帧化或通过为各个AAC编码部分使用已修改的开始或停止窗口。
[0036] 本发明的另一发现是TDAC可用于上述解码器以及可使用非混叠的交叉衰减窗口。
[0037] 本发明的实施例可提供额外负担信息能被减少的优点,在重叠变换中引入而保持中度交叉衰减区域具有确凿的交叉衰减质量。本发明的实施例将使用附图进行具体描述,其中
[0038] 图1a示出了音频编码器的一个实施例;
[0039] 图1b示出了音频编码器的一个实施例;
[0040] 图2a-2j示出了MDCT/IMDCT的公式;
[0041] 图3示出了使用已修改帧化的一个实施例;
[0042] 图4a示出了在时域中的准周期信号;
[0043] 图4b示出了在频域中的有声信号;
[0044] 图5a示出了在时域中的类似噪声信号;
[0045] 图5b示出了在频域中的无声信号;
[0046] 图6示出了分析合成CELP;
[0047] 图7示出了在一个实施例中的LPC分析阶段的示例;
[0048] 图8a示出了具有已修改停止窗口的一个实施例;
[0049] 图8b示出了具有已修改停止-开始窗口的一个实施例;
[0050] 图9示出了原理窗口;
[0051] 图10示出了更先进的窗口;
[0052] 图11示出了已修改停止窗口的一个实施例;
[0053] 图12示出了具有不同重叠区或区域的一个实施例;
[0054] 图13示出了已修改的开始窗口的一个实施例;
[0055] 图14示出了用于编码器的无混叠的已修改停止窗口的一个实施例;
[0056] 图15示出了用于解码器的无混叠的已修改停止窗口;
[0057] 图16示出了常见的编码器和解码器的示例;
[0058] 图17a、17b示出了用于有声和无声信号的LPC;
[0059] 图18示出了现有技术的交叉衰减窗口;
[0060] 图19示出了现有技术的AMR-WB+窗口序列;
[0061] 图20示出了用于在AMR-WB+中在ACELP和TCX之间进行传输的窗口;
[0062] 图21示出了在不同编码域中连续音频帧的示范序列;
[0063] 图22示出了用于在不同域中音频解码的常用方法;以及
[0064] 图23示出了时域混叠消除的示例。
[0065] 图1a示出了用于编码音频样本的音频编码器100。该音频编码器100包括用于在第一编码域中编码音频样本的第一时域混叠引入编码器110,该第一时域混叠引入编码器110具有第一帧化规则、开始窗口和停止窗口。而且,该音频编码器100包含用于在第二编码域中编码音频样本的第二编码器120。该第二编码器120具有音频样本的预定帧大小数量和音频样本的编码暖机(warm-up)期数量。该编码暖机期可以是特定或预定的,其可根据音频样本、音频样本的帧或音频信号的序列而定。该第二编码器120具有不同的第二帧化规则。该第二编码器120的帧是一定数量的在时间上连续的音频样本的编码表示,该在时间上连续的音频样本的数量等于音频样本的预定帧大小数量。
[0066] 音频编码器100进一步包括控制器130,用于根据音频样本的特性从第一时域混叠引入编码器110切换到第二编码器120,并且用于根据从第一时域混叠引入编码器110切换至第二编码器120修改第二帧化规则或用于修改第一时域混叠引入编码器110的开始窗口或停止窗口,其中第二帧化规则保持未被修改。
[0067] 在实施例中,控制器130可适于基于输入音频样本或基于第一时域混叠引入编码器110或第二编码器120的输出来判定音频样本的特性。这在图1a中以虚线予以指示,由此可将输入音频样本提供给控制器130。下面将提供切换决策的进一步的细节。
[0068] 在实施例中,控制器130可以平行编码音频样本的方式来控制第一时域混叠引入编码器110和第二编码器120,且控制器130基于各个结果来确定切换决策,在切换之前实施修改。在其他实施例中,控制器130可分析音频样本的特征并且确定使用哪一个编码分支并且切换关闭另一分支。在这样的实施例中,第二编码器120的编码暖机期在切换之前是相应的,必须把编码暖机期考虑在内,这在下面将进一步进行描述。
[0069] 在实施例中,第一时域混叠引入编码器110可包含用于将后续音频样本的第一帧变换至频域的频域变换器。第一时域混叠引入编码器110可适于当通过第二编码器120编码后续帧时以开始窗口加权第一已编码帧,并且可进一步地适于当需由第二编码器120编码先前帧时以停止窗口加权第一已编码帧。
[0070] 应注意的是可使用不同的符号,第一时域混叠引入编码器110使用开始窗口或停止窗口。此处,对于其他,假设开始窗口在切换至该第二编码器120之前予以使用,且当从第二编码器120切换回该第一时域混叠引入编码器120时,停止窗口用于第一时域混叠引入编码器110处。在没有丧失一般性的情况下,相反关于第二编码器120同样可使用该表示。为了避免混淆,此处“开始”和“停止”的表达涉及在第二编码器120开始时或其停止之后用于第一编码器110处的窗口。
[0071] 在实施例中,如在第一时域混叠引入编码器110中所使用的频域变换器可适于基于MDCT将第一帧变换为频域,以及第一时域混叠引入编码器110可适于使MDCT大小适应开始和停止或已修改的开始和停止窗口。MDCT的细节和其大小将在下面被提出。
[0072] 在实施例中,该第一时域混叠引入编码器110从而可适于使用具有无混叠部分的开始及/或停止窗口,即在该窗口内存在不具有时域混叠的部分。而且,该第一时域混叠引入编码器110可适于当该先前帧由该第二编码器120编码时,使用在该窗口的上升边缘部分处具有无混叠部分的开始窗口及/或停止窗口,即该第一时域混叠引入编码器110使用具有无混叠的上升边缘部分的停止窗口。因而,该第一时域混叠引入编码器110可适于当后续帧由该第二编码器120编码时,使用具有无混叠的下降边缘部分的窗口,即使用具有无混叠的下降边缘部分的停止窗口。
[0073] 在实施例中,控制器130可适于启动第二编码器120以便第二编码器120的帧序列的第一帧包含在第一时域混叠引入编码器110的先前无混叠部分中所处理样本的编码表示。换句话说,第一时域混叠引入编码器110和第二编码器120的输出可以由控制器130来协调,采用使来自第一时域混叠引入编码器110的已编码音频样本的无混叠部分与由第二编码器120所输出的已编码音频样本重叠的方式。控制器130可进一步适于交叉衰减,即淡出一编码器而淡入另一编码器。
[0074] 控制器130可适于启动该第二编码器120,以便音频样本的编码暖机期数量叠加于第一时域混叠引入编码器110的开始窗口的无混叠部分,并且第二编码120的后续帧与停止窗口的混叠部分重叠。换句话说,控制器130可协调第二编码器120以便对于编码暖机期,来自第一编码器110的无混叠的音频样本是可用的,且仅当来自第一时域混叠引入编码器110的混叠音频样本可用时,第二编码器120的暖机期已被终止,并且已编码音频样本可以常规方式用于第二编码器120的输出处。
[0075] 控制器130可进一步地适于启动第二编码器120,以便编码暖机期与开始窗口的混叠部分重叠。在此实施例中,在叠加部分期间,来自第一时域混叠引入编码器110的输出的已混叠音频样本是可用的,且在第二编码器120的输出处,会经历增加的量化噪音的暖机期的已编码音频样本可能是可用的。控制器130还可适于在叠加期间在两个非最优化的已编码音频序列之间交叉衰减。
[0076] 在另外一些实施例中,控制器130可进一步适于基于该音频样本的不同特性从第一编码器110处进行切换,并且用于响应于从第一时域混叠引入编码器110至第二编码器120的切换来修改第二帧化规则,或用于修改第一编码器的开始窗口或停止窗口,其中第二帧化规则保持未被修改。换句话说,控制器130可适于在二个音频编码器之间来回切换。
[0077] 在其他实施例中,控制器130可适于开始第一时域混叠引入编码器110以便停止窗口的无混叠部分与第二编码器120的帧重叠。换句话说,在实施例中,控制器可适于在两个编码器的输出之间交叉衰减。在一些实施例中,第二编码器的输出被淡出,而仅仅被非最优化编码,即来自第一时域混叠引入编码器110的已混叠音频样本被淡入。在其他实施例中,控制器130可适于在第二编码器120的帧与该第一编码器110的非经混叠帧之间交叉衰减。
[0078] 在实施例中,第一时域混叠引入编码器110可包括根据运动图像及相关联音频的通用编码:先进音频编码,国际标准为13818-7,ISO/IEC JTC1/SC29/WG11运动图像专家组,1997的AAC编码器。
[0079] 在实施例中,第二编码器120可包含根据3GPP(3GPP=第三代伙伴计划)的技术规范26.290,版本6.3.0,其为2005年6月“Audio Codec Processing Function;Extended Adaptive Multi-Rate-Wide Band Codec;Transcoding Functions”,release 6的AMR-WB+编码器。
[0080] 控制器130可适于修改AMR或AMR-WB+的帧化规则,以便第一AMR超帧包含五个AMR帧,其中根据上面所提及的技术规范,将上面所提及的技术规范的第18页上的图4及表格10与第20页上的图5进行比较,超帧包含四个常规AMR帧。如下进一步进行具体描述,控制器130可适于将额外帧增加至AMR超帧中。应注意的是,在实施例中,超帧可通过在任何超帧的开始或末端处来附加帧以进行修改,即帧化规则也可匹配于超帧的末端处。
[0081] 图1b显示了用于把音频样本的已编码帧进行解码的音频解码器150的实施例。音频解码器150包含第一时域混叠引入解码器160,用于于第一解码域中解码音频样本。第一时域混叠引入编码器160具有第一帧化规则、开始窗口和停止窗口。音频解码器150进一步包含第二解码器170,用于在第二解码域中解码音频样本。第二解码器170具有音频样本的预定帧大小数量以及音频样本的编码暖机期数量。进一步地,第二解码器170具有不同的帧化规则。第二解码器170的帧可与一定数量的在时间上连续的音频样本的已解码表示相对应,其中该在时间上连续的音频样本的数量等于音频样本的预定帧大小数量。
[0082] 音频解码器150进一步包含控制器180,用于基于在音频样本的已编码帧中的指示,从第一时域混叠引入解码器160切换至第二解码器170,其中控制器180适于响应于从第一时域混叠引入解码器160切换至第二解码器170以修改第二帧化规则,或用于修改第一解码器160的开始窗口或停止窗口,其中第二帧化规则保持未被修改。
[0083] 根据上面的描述,例如在AAC编码器及解码器中,开始及停止窗口用于编码器处及解码器处。根据上面音频编码器100的描述,音频解码器150提供相对应的解码元件。控制器180的切换指示可根据比特、标志或与已编码帧一起的任意边信息而予以提供。
[0084] 在实施例中,第一解码器160可包含用于将已解码音频样本的第一帧变换为时域的时域变换器。第一时域混叠引入解码器160可适于当后续帧由第二解码器170解码时以开始窗口加权第一经解码帧,及/或用于当先前帧需由第二解码器170解码时以停止窗口加权第一经解码帧。时域变换器可适于基于反相MDCT(IMDCT=反相MDCT)将第一帧变换为时域及/或第一时域混叠引入解码器160可适于使IMDCT大小适应开始及/或停止或经修改的开始及/或停止窗口。IMDCT大小将在下面进行更详细地描述。
[0085] 在实施例中,第一时域混叠引入解码器160可适于使用具有无混叠或无混叠部分的开始窗口及/或停止窗口。第一时域混叠引入解码器160可进一步适于在先前帧已由第二解码器170解码时,使用在窗口的上升部分处具有无混叠部分的停止窗口,及/或第一时域混叠引入解码器160在后续帧由第二解码器170解码时可具有在下降边缘处具有无混叠部分的开始窗口。
[0086] 根据上面所描述的音频编码器100的实施例,控制器180可适于启动第二编码器170,以便第二解码器170的帧序列的第一帧被包含于第一解码器160的先前无混叠部分中所处理样本的已解码表示中。控制器180可适于启动第二解码器170,以便音频样本的编码暖机期数量与第一时域混叠引入解码器160的开始窗口的无混叠部分重叠,并且第二解码器170的后续帧与停止窗口的混叠部分重叠。
[0087] 在其他实施例中,控制器180可适于启动第二解码器170以便该编码暖机期与开始窗口的混叠部分重叠。
[0088] 在其他实施例中,控制器180可进一步适于基于来自已编码音频样本的指示,从第二解码器170切换至第一解码器160,并且用于响应于从第二解码器170至第一解码器160的切换,来修改第二帧化规则或用于修改第一解码器160的开始窗口或停止窗口,其中第二帧化规则保持未被修改。该指示可根据标志、比特或与已编码帧一起的任何边信息而予以提供。
[0089] 在实施例中,控制器180可适于启动第一时域混叠引入解码器160以便停止窗口的混叠部分与第二解码器170的帧重叠。
[0090] 控制器180可适于在不同解码器的已解码音频样本的连续帧之间使用交叉衰减。另外,控制器108可适于确定来自第二解码器170的已解码帧的开始或停止窗口的混叠部分中的混叠,并且控制器108可适于基于所判定的混叠来减少在混叠部分中的混叠。
[0091] 在实施例中,控制器180可进一步适于丢弃来自第二解码器170的音频样本的编码暖机期。
[0092] 下面,将描述改进离散余弦变换(MDCT=改进离散余弦变换)及IMDCT的细节。MDCT在图2a-2j所显示的等式的帮助下被予以更详细的解释。改进离散余弦变换是基于类型IV的离散余弦变换(DCT-IV=离散余弦变换类型IV)的傅利叶相关变换,具有被重叠的附加特性,即其被设计以执行于较大型数据集的连续区块上,其中后续区块被叠加以便例如区块的后半部与下一区块的前半部相符。该叠加,除了DCT的能量集中性质以外,使MDCT特别地吸引信号压缩,因为他帮助避免了来自该区块边界的失真。因而,MDCT被用于MP3(MP3=MPEG2/4第3层)、AC-3(AC-3=杜比音频编解码器3)、Ogg Vorbis以及AAC(AAC=先进音频编码)中用于例如音频压缩。
[0093] MDCT由Princen、Johnson和Bradley于1987年提出,其稍早(1986)的工作由Princen和Bradley做出,用以发展MDCT的时域混叠消除(TDAC)的基本原理,下面进一步进行描述。还存在基于离散正弦变换的类似变换MDST(MDST=已修改DST,DST=离散正弦变换)以及基于不同类型的DCT或DCT/DST结合(其也可由时域混叠引入变换用于实施例中)的MDCT所很少使用的其他形式。
[0094] 在MP3中,MDCT不直接地用于音频信号,而是用于32频带多相正交滤波器(PQF=多相正交滤波器)组的输出。此MDCT的输出由混叠简化公式进行后处理以简化PQF滤波器组的常见混叠。滤波器组与MDCT的这一结合被称为混合滤波器组或子频带MDCT。另一方面,AAC通常使用纯粹的MDCT;仅(很少使用)MPEG-4AAC-SSR变形(Sony所用)使用了后面是MDCT的四频带PQF滤波器组。ATRAC(ATRAC=自适应变换音频编码)使用后面是MDCT的堆叠正交镜像滤波器(QMF)。
[0095] 作为重叠变换,相比于其他的傅利叶相关变换,MDCT是有点不寻常的,因为其具有2N N
输入数量的一半(而不是相同数量)的输出。特别地,他是线性函数F:R ->R,其中R表示实数组。2N个实数x0,…,x2N-1根据图2a中的公式变换为N个实数X0,…,XN-1。
[0096] 该变换前端中的归一化系数,此处统一,为任意约定且在处理之间有所不同。仅下面的MDCT及IMDCT的归一化乘积受约束。
[0097] 反相MDCT被称为IMDCT。因为具有不同数量的输入及输出,所以乍看之下MDCT好像不应该是可逆的。然而,完美的可逆性通过增加后续叠加区块的所叠加的IMDCT而获实现,以便误差被消除别且获取了原始数据;该技术被称为时域混叠消除(TDAC)。
[0098] IMDCT根据图2b中的公式将N个实数X0,…,XN-1变换为2N个实数y0,…,y2N-1。与对DCT-IV进行的正交变换相同,该反相具有与正向变换相同的形式。
[0099] 在已开窗MDCT具有通常窗口归一化(如下所示)的情况下,IMDCT的前端的归一化系数应乘以2,即成为2/N。
[0100] 虽然直接使用MDCT公式将需要O(N2)操作,但是可能通过如在快速傅利叶变换(FFT)中递归分解运算,仅以O(N log N)的复杂性来运算同一MDCT公式。也可通过其他变换来运算MDCT,典型地,采用与O(N)前处理及后处理步骤相结合的DFT(FFT)或DCT。而且,如下所述,用于DCT-IV的任意算法立即提供了用以运算偶数大小的MDCT和IMDCT的方法。
[0101] 在典型的信号压缩应用中,变换性质通过使用与上面MDCT及IMDCT公式中的xn及yn相乘的窗口函数wn(n=0,…,2N-1)而进一步改良,以避免在n=0及2N边界处的不连续性,即通过使该函数在这些点处平滑地到达0。也就是说,数据在MDCT之前且在IMDCT之后被予以打开窗口。理论上,x及y可具有不同的窗口函数,且窗口函数也可从一区块到下一方块改变,特别是在将不同大小之数据区块相结合的情况下,但是为了简明起见,对于相同大小的区块首先考虑相同窗口函数的共用情况。
[0102] 该变换保持可逆,即TDAC对对称窗口wn=w2N-1-n起作用,只要w满足根据图2c中的Princen-Bradley条件。
[0103] 各种不同的窗口函数是共用的,在图2d给出了对于MP3及MPEG-2AAC的示例,且在图2e中对于Vorbis。AC-3使用了Kaiser-Bessel衍生(KBD=Kaiser-Bessel衍生)窗口,且MPEG-4AAC也可使用KBD窗口。
[0104] 应注意的是用于MDCT的窗口不同于用于其他类型的信号分析的窗口,因为他们必须满足Princen-Bradley条件。该不同的原因之一是MDCT窗口被两次用于MDCT(分析滤波器)和IMDCT(合成滤波器)二者。
[0105] 如通过对上述定义的检查可发现,对于偶数的N,MDCT本质上等效于DCT-IV,其中输出移位N/2且二个N-区块的数据被立即变换。通过更仔细地检查此等效,可轻易得到类似TDAC的重要性质。
[0106] 为了定义与DCT-IV的精确关系,必须认识到DCT-IV相对应于交替的偶数/奇数边界条件,在其左边界(大约n=-1/2)处为偶数,在其右边界(大约n=N-1/2)处为奇数等(替代如对于DFT的周期性边界)。这来自于图2f所给出的恒等式。因而,如果其输入是长度为N的阵列x,那么可设想将此阵列扩展至可想像的(x,-xR,-x,xR,…)等,其中xR以相反次序来表示x。
[0107] 考虑MDCT具有2N个输入和N个输出,其中该输入可分为四个区块(a,b,c,d),每一个的大小为N/2。如果这些移位N/2(来自该MDCT定义中+N/2项),那么(b,c,d)扩展经过N个DCT-IV输入的末端,所以他们必须根据上面所描述的边界条件“被折叠”回去。
[0108] 因此,具有2N个输入(a,b,c,d)的MDCT准确地等效于具有N个输入的DCT-IV:(-cR-d,a-bR),其中R表示取逆,如上所述。这样,任意用以运算DCT-IV的算法可顺利地被用于MDCT。
[0109] 类似地,上面所提及的IMDCT公式准确地是DCT-IV(其为其自身的反相)的1/2,其中输出移位N/2并且扩展至(经由边界条件)2N的长度。反相的DCT-IV将仅仅返回以上所述的输入(-cR-d,a-bR)。当在此被移位并且通过边界条件予以扩展时,获得的是图2g所显示的结果。因此,IMDCT输出的一半是冗余的。
[0110] 现在能够了解TDAC是如何起作用的。假设运算具有后续50%叠加的2N个区块(c,d,e,f)的MDCT。随后IMDCT如上所述将产生:(c-dR,d-cR,e+fR,eR+f)/2。当其与叠加的一半中的先前IMDCT结果相加时,反相的项目被消除,并且获取简单(c,d),恢复原始数据。
[0111] 现在清楚了“时域混叠消除”术语的起源。扩展超过逻辑DCT-IV边界的输入数据的使用导致数据以与超过奈奎斯特(Nyquist)频率的频率遭混叠至下方频率完全相同的方式遭混叠,除了混叠发生在时域中而不是频域中以外。因此,组合c-dR等,在他们被相加时精确地具有结合的正确符号以消去。
[0112] 对于奇数N(其很少使用于实际中),N/2不是一整数,所以MDCT不只是DCT-IV的移位置换。在这种情况下,将样本额外移位一半意味着MDCT/IMDCT等效于DCT-III/II,且该分析类似于以上所述。
[0113] 上面,对普通的MDCT证实了TDAC的性质,显示了在他们叠加半部分中,加入后续区块的IMDCT恢复了原始数据。对已开窗MDCT的该反相特性的推导只是稍微复杂些。
[0114] 回顾上面,当(a,b,c,d)和(c,d,e,f)是MDCT处理过、IMDCT处理过,以及被增加在他们的叠加半部分中时,获得(c+dR,cR+d)/2+(c-dR,d-cR)/2=(c,d),即原始数据。
[0115] 现在,假设通过长度为2N的窗口函数将MDCT输入与IMDCT输出相乘。如上,假定对称窗口函数,其因此是(w,z,zR,wR)形式,其中w及z是长度为N/2的向量,并且R表示取逆,如上述。那么该Princen-Bradley条件可写为
[0116]
[0117] 按元素执行的乘法和加法,或等效于
[0118]
[0119] 对w和z取逆。
[0120] 因此,代替MDCT处理(a,b,c,d),MDCT(wa,zb,zRc,wRd)是以按元素所执行的所有乘法来进行MDCT。当这是IMDCT后并且再次以该窗口函数相乘(按元素)时,最后的N半部分结果被显示于图2h中。
[0121] 应注意的是,因为IMDCT归一化在已开窗情况中由于因数2而不同,所以不再存在乘以1/2。类似地,(c,d,e,f)的已开窗MDCT和IMDCT按照图2i而产生于其第一N半部分中。当此二半部分相加于一起时,获得恢复原始数据的图2j的结果。
[0122] 下面,将详细地描述实施例,其中在编码器端的控制器130和在解码器端的控制器180分别响应于从第一编码域至第二编码域的切换而修改第二帧化规则。在实施例中,在被切换的编码器中的平滑转变,即在AMR-WB+与AAC编码之间的切换,被予以实现。为了具有平滑转变,二种编码模式所应用的一些叠加,即信号的短音段或一些音频样本被予以使用。换句话说,在下面的描述中,将提供一实施例,其中第一时域混叠编码器110与第一时域混叠解码器160相对应于AAC编码及解码。第二编码器120和解码器170相对应于在ACELP模式中的AMR-WB+。该实施例对应于各个控制器130和180的选择,其中使AMR-WB+的帧化,即第二帧化规则被予以修改。
[0123] 图3显示了时间线,其中显示多个窗口和帧。在图3中,AAC规则窗口301之后是AAC开始窗口302。在AAC中,AAC开始窗口302用于长帧与短帧之间。为了说明AAC的传统帧化,即第一时域混叠引入编码器110和解码器160的第一帧化规则,短AAC窗口序列303也被显示于图3中。AAC短窗口序列303终止于AAC停止窗口304,其开始于AAC长窗口序列。根据上面的描述,假定在本实施例中第二编码器120、解码器170分别使用AMR-WB+的ACELP模式。AMR-WB+使用与图3所显示的序列320的大小相等的帧。图3根据在AMR-WB+中的ACELP,显示了不同类型的预滤波器帧的序列。在从AAC切换至ACELP之前,控制器130或108修改ACELP的帧化以便第一超帧320由五个帧而不是四个组成。因此,ACE数据314在解码器处是可用的,而AAC已解码数据也是可用的。由此可见,第一部分可在解码器处丢弃,这分别指的是第二编码器120、第二解码器170的编码暖机期。一般地,在其他实施例中,AMR-WB+超帧也可通过在超帧的末端处附加帧来进行扩展。
[0124] 图3显示了二种模式的变换,即从AAC至AMR-WB+,从AMR-WB+至AAC。在一个实施例中,AAC编解码器的典型的开始/停止窗口302和304被使用且AMR-WB+编解码器的帧长度被增加以叠加AAC编解码器的开始/停止窗口的衰减部分,即第二帧化规则被修改。根据图3,从AAC至AMR-WB+,即分别从第一时域混叠引入编码器110至第二编码器120或从第一时域混叠引入解码器160至第二解码器170的该变换,通过保持AAC帧化动作并且在变换处扩展时域帧进行处理以覆盖该叠加。在变换处的AMR-WB+超帧,即图3中的第一超帧320使用五个帧而不是四个,该五个帧覆盖叠加。这引入了数据的额外负担,但是,该实施例实现确保了在AAC和AMR-WB+模式之间的平滑变换的优点。
[0125] 如上所述,控制器130可适于基于音频样本的特性(其中可设想不同的分析及不同的选项)在两个编码域之间切换。例如,控制器130可基于信号的固定部分或暂态部分来切换该编码模式。另一选项将基于该音频样本是否相对应于较有声或无声信号而予以切换。为了提供用于判定音频样本的特征的详细实施例,下面是基于信号的声音相似性而予以切换的控制器130的实施例。
[0126] 示范地,分别参照图4a和4b,5a和5b。将准周期性的类似脉冲信号段或信号部分以及类似噪声信号段或信号部分作为示范进行讨论。一般地,控制器130、180可适于基于例如稳定性、暂态性、频谱白度等不同的标准来决策。下面,示范标准作为实施例的部分被给出。特别地,有声语音显示于时域中的图4a中和频域中的图4b中,并且作为准周期类似脉冲信号部分的示例而进行讨论,并且将无声语音部分作为一类似噪声的语音部分的示例,结合图5a和5b而进行讨论。
[0127] 语音大体上可被分类为有声的、无声的或混合的。有声语音在时域中是准周期性的且在频域中具有谐波构造,而无声语音是类似随机的宽频带。此外,有声段的能量大体上高于无声段的能量。有声语音的短期频谱的特征在于其良好的和共振峰的结构。良好的谐波结构是语音的准周期性的结果,并且可归因于振动声带。也可被称为频谱包络的共振峰结构是由于声源与声道的交互作用。声道由咽喉和口腔组成。“适合”有声语音的短期频谱的频谱包络形状,由于声门脉冲而与声道以及频谱斜度(6dB/八度)的转移特性相关联。
[0128] 频谱包络的特征在于被称为共振峰的一组峰。共振峰是声道的共振模式。对于平均的声道,具有在5kHz以下的3至5个共振峰。开始三个共振峰(通常发生在3kHz以下)的振幅和位置在语音合成及感知中均很重要。较高的共振峰对于宽频带以及无声语音的表示也重要。语音的性质与物理的语音产生系统有关,如下所述。以由振动声带所产生的准周期性声门空气脉冲刺激声道以产生有声语音。周期脉冲的频率被称为基础频率或音高。迫使空气穿过声道中的阻碍物以产生无声语音。鼻音是由于鼻道与声道的声耦合而产生,以及破裂音通过突然地降低在声道关闭之后所产生的空气压力而被降低。
[0129] 因此,音频信号的类似噪声部分可以是图5a所示在时域中的固定部分或在频域中的固定部分,其由于时域中的固定部分不显示永久重复的脉冲这一事实而不同于如图4a所示的上述准周期性类似脉冲部分。然而,如稍后所概述,类似噪声部分和准周期性类似脉冲部分之间的不同对于激发信号也可在LPC之后进行观察。该LPC是模型化声道以及声道激发的一种方法。当考虑信号的频域时,类似脉冲信号显示个别共振峰的突出外观,即图4b中的突出峰,而固定频谱具有如图5b所示的相当宽的频谱,或在谐波信号的情况下,有具有表示例如在音乐信号中所发生的特定音调的一些突出峰的相当连续噪声基准,但上述突出峰相互间不具有如图4b所示的类似脉冲信号的突出峰相互间的规则距离。
[0130] 另外,准周期性类似脉冲部分和类似噪声部分可通过适时的方式发生,即这意味着音频信号在时间中的一部分为噪声并且音频信号在时间中的另一部分为准周期性的,即音调。可选择地或附加地,信号的特性在不同的频带中可有所不同。因而,语音信号是否是噪声或音调的判定也可选择频率来执行,以便某一频率带或多个某些频率带被认为是噪声而其他频率带被认为是音调。在这种情况下,该音频信号的某一时间部分可包括音调分量及噪声分量。
[0131] 随后,将参照图6图进行讨论分析合成CELP编码器。CELP编码器的细节也可在“Speech Coding:A tutorial review”,Andreas Spanias,Proceedings of IEEE,Vol.84,No.10,October 1994,pp.1541-1582中找到。CELP编码器如图6所示包括长期预测组件60和短期预测组件62。另外,使用了在64处所指示的编码表。感知加权滤波器W(z)在66处被实施,并且在68处提供误差最小化控制器。s(n)是时域输入音频信号。在已经进行感知加权之后,加权信号输入到计算在方块66的输出处的加权合成信号与实际加权信号sw(n)之间误差的减法器69中。
[0132] 一般地,短期预测A(z)通过将在下面进行进一步讨论的LPC分析阶段来计算。根据此信息,长期预测AL(z)包括长期预测增益b和延迟T(也称为音高增益和音高延迟)。CELP算法随后使用例如高斯序列的编码表,把在短期及长期预测之后所获得的残差信号进行编码。ACELP算法具有特定以代数方式设计的编码表,其中“A”代表“代数的”。
[0133] 编码表可包含更多或更少的向量,其中每一向量具有根据样本的数量的长度。增益因数g缩放编码向量,并且被增益已编码的样本由长期合成滤波器和短期预测合成滤波器进行滤波。选择“最佳”码向量以便感知加权均方误差最小化。在CELP中的搜寻过程从图6所示的分析合成方案中是显而易见的。应注意的是图6仅示出了分析合成CELP的示例,并且该实施例不应限于图6所示的结构。
[0134] 在CELP中,长期预测器通常被实施为包含先前激发信号的自适应编码表。长期预测延迟和增益被表现为一种自适应编码表索引和增益,其也通过最小化该均方加权误差而被选定。在这种情况下,激发信号由两个增益已缩放的向量相加组成,一个来自自适应编码表,以及一个来自固定编码表。在AMR-WB+中的感知加权滤波器基于LPC滤波器,因此感知加权信号是LPC域信号形式。在AMR-WB+中所使用的变换域编码器中,变换用于加权信号。在解码器处,激发信号可通过由合成及加权滤波器的逆所组成的滤波器通过滤波已解码加权信号而获得。
[0135] 随后将根据图7所示的实施例讨论预测编码分析阶段12的实施例的功能性,采用在相应实施例中的在控制器130、138中使用的LPC分析和LPC合成。
[0136] 图7描述了LPC分析方块实施例的更详细实施方式。音频信号被输入进判定滤波器信息A(z)(即用于合成滤波器之系数上的信息)的滤波器判定方块中。此信息被量化且作为解码器所需要的短期预测信息而被输出。在减法器786中,该信号的当前样本被输入,并且当前样本的预测值被减去以便对于该示例,在线784处产生预测误差信号。应注意的是,预测误差信号也可被称为激发信号或激发帧(通常在已编码之后)。
[0137] 图8a显示了另一实施例所实现的另一时序窗口。在下面所考虑的实施例中,AMR-WB+编解码器相对应于第二编码器120,并且AAC编解码器相对应于第一时域混叠引入编码器110。下面的实施例保持了AMR-WB+编解码器帧化动作,即第二帧化规则保持未被修改,但在从AMR-WB+编解码器至AAC编解码器的变换中开窗动作被修改,操作AAC编解码器的开始/停止窗口。换句话说,AAC编解码器的开窗动作在变换处将较长久。
[0138] 图8a和8b描述了上述实施例。二图都显示了常见AAC窗口序列801,其中在图8a中引入了新的已修改停止窗口,并且在图8b中引入了新的停止/开始窗口803。对于ACELP,如参照图3中实施例已经被描述的相似帧化动作被使用。在导致图8a和8b中所描绘的窗口序列的实施例中,假设未保持正常的AAC编解码器帧化动作,即使用了已修改的开始、停止或开始/停止窗口。图8a中所描绘的第一窗口是用于从AMR-WB+至AAC的变换,其中AAC编解码将使用长停止窗口802。另一窗口将在图8b的帮助下进行描述,该图8b显示了当AAC编解码器将使用短窗口时,使用图8b所指示的变换的AAC长窗口的从AMR-WB+至AAC的变换。图8a显示的ACELP的第一超帧820包含四个帧,即符合常见的ACELP帧化动作(即第二帧化规则)。为了保持ACELP帧化规则,即第二帧化规则保持未被修改,使用图8a和8b所示的已修改窗口802和803。
[0139] 因此,在下面,将一般地介绍有关于开窗的一些细节。
[0140] 图9描述了常见矩形窗口,其中窗口序列信息可包含窗口遮蔽样本的第一零部分,第二旁通部分,在所述第二旁通部分中帧的样本即输入时域帧或叠加时域帧可未被修改而通过,以及第三零部分,其中在帧的末端再次遮蔽样本。换句话说,可使用在第一零部分中抑制帧的多个样本、在第二旁通部分中通过样本并且接着在第三零部分中在帧的末端处抑制样本的开窗函数。在此情况中,抑制也可以是指在窗口的旁通部分的开始及/或末端处附加零序列。第二旁通部分可以是这样:开窗函数仅具有1的值,即样本未被修改而通过,即开窗函数通过帧的样本进行切换。
[0141] 图10示出了开窗序列或开窗函数的另一实施例,其中开窗序列进一步包含在第一零部分与第二旁通部分之间的上升边缘部分,及在第二旁通部分与第三零部分之间的下降边缘部分。上升边缘部分也可被认为是淡入部分且下降边缘部分也可以是淡出部分。在实施例中,第二旁通部分可包含根本不修改激发帧之样本的序列的值。
[0142] 回到图8a所显示的实施例,当从AMR-WB+变换至AAC时,用于在AMR-WB+与AAC之间变换的实施例中的已修改停止窗口被详细地描述于图11中。图11显示了ACELP帧1101、1102、1103及1104。已修改停止窗口802随后用于变换至AAC,即分别至第一时域混叠引入编码器110、解码器160。根据上述MDCT的细节,窗口已经开始于具有512个样本的第一零部分的帧1102的中间。此部分之后是扩展横越128个样本的窗口的上升边缘部分,上升边缘部分之后是在此实施例中扩展至576样本的第二旁通部分,即第一零部分折叠至上升边缘部分之后的512个样本,以及还有其后的由在窗口的末端处扩展横越64个样本的第三零部分产生的第二旁通部分的64个样本。窗口的下降边缘部分导致将与后续窗口重叠的1024个样本。
[0143] 该实施例也可使用虚拟码来描述,其示范表示为:
[0144] /*Block Switching based on attacks*/
[0145] If(there is an attack){
[0146] nextwindowSequence=SHORT_WINDOW;
[0147] }
[0148] else{
[0149] nextwindowSequence=LONG_WINDOW;
[0150] }
[0151] /*Block Switching based on ACELP Switching Decision*/
[0152] if(next frame is AMR){
[0153] nextwindowSequence=SHORT_WINDOW;
[0154] }
[0155] /*Block Switching based on ACELP Switching Decision for STOP_WINDOW_1152*/
[0156] if(actual frame is AMR && next frame is not AMR){
[0157] nextwindowSequence=STOP_WINDOW_1152;
[0158] }
[0159] /*Block Switching for STOPSTART_WINDOW_1152*/
[0160] if(nextwindowSequence==SHORT_WINDOW){
[0161] if(windowSequence==STOP_WINDOW_1152){
[0162] windowSequence=STOPSTART_WINDOW_1152;
[0163] }
[0164] }
[0165] 回到图11所述的实施例中,在扩展横越128个样本的该窗口的上升边缘部分内具有时间混叠折叠部分。因为该部分与最后的ACELP帧1104重叠,所以ACELP帧1104的输出可用于在上升边缘部分中的时间混叠消除。混叠消除可根据上面所描述的示例在时域或频域中执行。换句话说,最后ACELP帧的输出可变换为频域,并且随后与已修改停止窗口802的上升边缘部分重叠。可选择地,TDA或TDAC可在最后ACELP帧与已修改停止窗口802的上升边缘部分重叠之前用于最后ACELP帧。
[0166] 上面所描述的实施例减少了在变换处所产生的额外负担。他也移除了对时域编码的帧化动作(即第二帧化规则)的任何修改的需要。而且,他也适于频域编码器,即时域混叠引入编码器110(AAC),其在传输的位元分配及系数数量方面与时域编码器(即第二编码器120)相比,通常是比较灵活的。
[0167] 下面,将描述当在第一时域混叠引入编码器110与第二编码器120、解码器160与170之间切换时,提供无混叠交叉衰减的另一实施例。此实施例提供了在开始或重新开始步骤的情况下,避免特别是在低位元率下由于TDAC而造成的噪声的优点。该优点通过具有已修改AAC开始窗口而在窗口的右部分或下降边缘部分上无任何时间混叠的实施例来实现。
已修改开始窗口是非对称窗口,也就是说,该窗口的右部分或下降边缘部分在MDCT的折叠点之前结束。因此,窗口没有时间混叠。同时,叠加区域可通过实施例减少低至64个样本而不是128个样本。
[0168] 在实施例中,音频编码器100或音频解码器150可在处于永久的以及稳定的状态之前占用某段时间。换句话说,在时域编码器(即第二编码器120)及解码器170的启动期间,需要某段时间以启动例如LPC的系数。为了在重置情况下平滑化误差,在实施例中,AMR-WB+输入信号的左部分可由在该编码器120处例如具有64个样本的长度的短正弦窗口进行开窗。另外,合成信号的左部分可由在第二解码器170处的相同信号进行开窗。以此方式,方形的正弦窗口可类似于AAC进行使用,将方形的正弦用于其开始窗口的右部分。
[0169] 使用此开窗动作,在实施例中从AAC至AMR-WB+的变换可不具时间混叠地执行,并且可由例如64个样本的短交叉衰减窗口来完成。图12示出了时间线,示范了从AAC至AMR-WB+而后返回AAC的变换。图12示出了AAC开始窗口1201,其后是与AAC窗口1201重叠的AMR-WB+部分1203以及扩展横越64个样本的叠加区域1202。AMR-WB+部分之后是与之叠加128个样本的AAC停止窗口1205。
[0170] 根据图12,该实施例在从AAC至AMR-WB+的变换上使用各个无混叠窗口。
[0171] 图13示出了当从AAC变换至AMR-WB+时,分别用于在编码器100与解码器150、编码器110与解码器160处之两端上的已修改开始窗口。
[0172] 图13中所示的窗口显示出第一零部分不存在。窗口立刻以扩展横越1024个样本(即折叠线在图13图所示的1024间隔的中间)的上升边缘部分开始。对称轴随后处于1024间隔的右手侧。如图13所示,第三零部分扩展至512个样本,即在整个窗口的右手部分无混叠,即旁通部分从中心扩展至64个样本间隔的开始。还可见的是下降边缘部分扩展横越64个样本,这提供交叉部分狭窄的优点。64个样本间隔用于交叉衰减,然而,在此间隔中不存在混叠。因而,仅引入了低的额外负担。
[0173] 具有如上所述的已修改窗口的实施例能够避免把过多的额外负担信息编码,即把一些样本编码两次。根据上面的描述,同样地,被设计的窗口可被可选地用于从AMR-WB+至AAC的变换中,根据再次修改AAC窗口并且同样将叠加减少至64个样本的实施例。
[0174] 因此,已修改停止窗口在实施例中延长至2304个样本并且用于1152个点的MDCT中。该窗口的左手部分可通过在MDCT折叠线后开始淡入而不产生时间混叠。换句话说,通过使该第一零部分大于该整个MDCT大小的四分之一。该互补的方形正弦窗口随后被用于该AMR-WB+段的最后的64个已解码样本上。这二个交叉衰减窗口允许通过限制所传输的额外负担信息而得到从AMR-WB+至AAC的平滑变换。
[0175] 图14示出了用于从AMR-WB+至AAC变换的窗口,其在一实施例中可用于该编码器100端。可发现的是该折叠线是在576个样本之后,即第一零部分扩展横越576个样本。结果是在整个窗口的左手侧中无混叠。交叉衰减开始于窗口的第二个四分之一处,即在576个样本之后,或换句话说,恰好越过折叠线。随后,交叉衰减部分,即窗口的上升边缘部分根据图14可被变窄至64个样本。
[0176] 图15示出了在一实施例中用于该解码器150端的从AMR-WB+至AAC变换的窗口。该窗口类似于图14中所述的窗口,以便把二个窗口用于已编码并且随后再次被解码的样本而形成方形正弦窗口。
[0177] 下面的虚拟码描述了当从AAC切换至AMR-WB+时,开始窗口选择步骤的实施例。
[0178] 这些实施例也可使用虚拟码进行描述,例如:
[0179] /*Adjust to allowed Window Sequence*/
[0180] if(nextwindowSequence==SHORT_WINDOW){
[0181] if(windowSequence==LONG_WINDOW){
[0182] if(actual frame is not AMR && next frame is AMR){
[0183] windowSequence=START_WINDOW_AMR;
[0184] }
[0185] else{
[0186] windowSequence=START_WINDOW;
[0187] }
[0188] }
[0189] 以上所述实施例通过在变换期间在连续的窗口中使用小的叠加区域而减少了所产生信息的额外负担。而且,这些实施例提供了这些小的叠加区域仍足以平滑该阻塞的失真,即具有平滑的交叉衰减的优点。另外,由于时域编码器(即该第二编码器120)、解码器170的启动分别通过以已衰减的输入对其进行初始化,其降低了触发误差的影响。
[0190] 总结本发明的实施例,提供了平滑化后的交叉区域可在多模式音频编码概念中以高编码效率来执行的优点,即变换窗口在需予以传输的额外负担信息方面仅引入低的额外负担。但是,实施例在使一个模式的帧化或开窗动作适于另一模式时,能够使用多模式编码器。
[0191] 虽然已经以装置为背景来描述了一些方面,但是要清楚的是这些方面也可表示相对应的方法的描述,其中方块或装置相对应于方法步骤或方法步骤的特征。类似地,以方法步骤为背景所描述的方面也可表示为对相对应的方块或相对应的装置的项目或特征的描述。
[0192] 本发明的已编码音频信号可被存储在数字存储介质上,或可在例如无线传输介质或例如Internet网的有线传输媒体的传输媒体上传输。
[0193] 基于具体实施的要求,本发明的实施例可被实施于硬件或软件中。该实施可使用具有存储于其上的电子可读控制信号的例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存的数字存储媒体来执行,数字存储媒体与可编程计算机系统相协作(或能够协作)以便各个方法被执行。
[0194] 根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统相协作以便在此所述的这些方法之一被执行。
[0195] 一般地,本发明的实施例可被实施为具有编程代码的计算机编程产品,当该计算机产品被执行在计算机上时,可操作编程代码以执行上述方法之一。该编程代码可被存储在例如可机读载体上。
[0196] 其他实施例包括用于执行在此所述的这些方法之一并且储存于可机读载体上的计算机程序。
[0197] 换句话说,该发明方法的实施例,进而是计算机程序,具有计算机代码,用于当该计算机程序运行于计算机上时,执行在此所述的这些方法之一。
[0198] 因此,本发明方法的另一实施例是数据载体(或数据存储介质,或计算机可读介质),包括,记录在其上的用于执行在此所述的这些方法之一的计算机程序。
[0199] 因此,本发明方法的另一实施例是,表示用于执行在此所述的这些方法之一的该计算机程序的数据流或信号序列。该数据流或信号序列可例如被配置为通过数据通讯连接(例如通过Internet网)而被传输。
[0200] 另一实施例包括处理装置,例如计算机,或可编程逻辑设备,被配置为或适于执行在此所述的这些方法之一。
[0201] 另一实施例包括计算机,具有安装在其上的用于执行在此所述的这些方法之一的计算机程序。
[0202] 在一些实施例中,可编程逻辑设备(例如现场可编程门阵列)可用以执行在此所述的这些方法的一些或全部功能。在一些实施例中,现场可编程门阵列可与微处理器相协作以执行在此所述的这些方法之一。一般地,这些方法优选地通过任意硬件设备来执行。
[0203] 以上所述的实施例仅仅是对本发明原理的说明。可以理解的是,在此所述的这些设计以及细节的修改和变化,对于本领域的其他技术人员来说是显而易见的。因此,其仅打算由随后专利的权利要求的保护范围来限制,而不是由这里的实施例的描述和说明所表示的具体细节来限制。