使用从MDCT系数导出的估计频谱幅值和相位的改进编码技术转让专利

申请号 : CN200580003384.1

文献号 : CN1918633B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 库瑞·I.·程迈克尔·J.·史密斯尔斯戴维·N.·拉瑟罗普

申请人 : 杜比实验室特许公司

摘要 :

由使用来自诸如修改离散余弦变换之类的分析滤波器组的频谱信息的估计过程,得到频谱幅值和相位的估计。该估计过程可以通过与冲击响应的卷积状运算而实施。对于在卷积状运算中的使用,可以选择冲击响应的部分,以在计算复杂性与估计精度之间平衡。公开了用于滤波器结构和冲击响应的分析表达式的数学推导。

权利要求 :

1.一种处理代表源信号的信息的方法,该源信号传送供人感知之用的内容,该方法包括:接收第一频谱分量,该第一频谱分量通过把一分析滤波器组应用于源信号而被产生,其中,第一频谱分量代表在多维空间的第一子空间中表达的源信号的频谱内容;

从第一频谱分量的至少一些导出一个或多个第一中间分量,其中,所述第一中间分量的至少一些与从其导出它们的第一频谱分量不同;

根据一个或多个冲击响应的至少一部分形成所述一个或多个第一中间分量的组合,以得到一个或多个第二中间分量;

由所述一个或多个第二中间分量导出一个或多个第二频谱分量,其中,第二频谱分量代表在多维空间的第二子空间中表达的源信号的频谱内容,该第二子空间包括不包括在第一子空间中的多维空间的一部分;

使用第一频谱分量和第二频谱分量得到幅值或相位的估计测量;及把自适应过程应用于第一频谱分量,以产生处理过的信息,其中,自适应过程响应于幅值或相位的估计测量。

2.根据权利要求1所述的方法,其中:

第一频谱分量是布置在通过把一种或多种变换应用于源信号的一段或多段而产生的一个或多个变换系数块中的变换系数;并且所述一个或多个冲击响应的所述部分基于所述一种或多种变换的频率响应特性。

3.根据权利要求2所述的方法,其中,所述一种或多种变换的频率响应特性取决于一个或多个分析窗口函数的特性,该分析窗口函数向所述源信号的所述一段或多段施加有所述一种或多种变换。

4.根据权利要求3所述的方法,其中,所述一种或多种变换的至少一些实施一分析滤波器组,该分析滤波器组产生具有时域混淆的第一频谱分量。

5.根据权利要求3所述的方法,其中,所述一种或多种变换的至少一些产生第一频谱分量,其具有在第一子空间中表达的实值,以及其中所述第二频谱分量具有在第二子空间中表达的虚值。

6.根据权利要求5所述的方法,其中,产生具有在第一子空间中表达的实值的第一频谱分量的变换是离散余弦变换或修改离散余弦变换。

7.根据权利要求1所述的方法,其中:

第一频谱分量是布置在通过把一种或多种变换应用于源信号的一段或多段而产生的一个或多个变换系数块中的变换系数,所述一个或多个第二中间分量通过根据所述一个或多个冲击响应的一部分组合所述一个或多个第一中间分量而得到,所述一个或多个冲击响应的每一个包括按顺序布置的相应元素组,及所述一个或多个冲击响应的每一个的所述部分在所述相应元素组中排除每一个其它元素。

8.根据权利要求1所述的方法,还包括,使用由一个或多个第一频谱分量的至少一些导出的一个或多个第三频谱分量,得到幅值或相位的估计测量。

9.根据权利要求8所述的方法,其中:

第一频谱分量是布置在通过把一种或多种变换应用于源信号的一段或多段而产生的一个或多个变换系数块中的变换系数;

第三频谱分量从两个或更多个第一频谱分量的组合导出;及使用第三频谱分量或使用第一和第二频谱分量自适应地得到对于源信号的一相应段的幅值或相位的估计测量。

10.根据权利要求8所述的方法,其中:

第一频谱分量是布置在通过把一种或多种变换应用于源信号的一段或多段而产生的一个或多个变换系数块中的变换系数;

第三频谱分量从两个或更多个第一频谱分量的组合导出;及使用第三频谱分量得到对于源信号的一相应段的至少一些频谱内容的幅值或相位的估计测量,并且使用第一和第二频谱分量得到对于源信号的所述相应段的所述频谱内容的至少一些的幅值或相位的估计测量。

11.根据权利要求8或10所述的方法,包括:使用第三频谱分量或者使用第一和第二频谱分量,自适应地得到幅值或相位的测量。

12.根据权利要求1所述的方法,包括:响应于频谱分量显著性的测量,适应所述一个或多个冲击响应的所述部分。

13.根据权利要求12所述的方法,其中,频谱分量显著性的测量由感知模型提供,该感知模型估计源信号的所述频谱内容的感知显著性。

14.根据权利要求12所述的方法,其中,频谱分量显著性的测量反映一个或多个频谱分量的频率隔离。

15.根据权利要求1所述的方法,其中:

第一频谱分量是布置在通过把一种或多种变换应用于源信号的一段或多段而产生的一个或多个块中的第一变换系数,一相应块具有第一数量的第一变换系数;

第二频谱分量是第二变换系数;

导出第二数量的第二变换系数,第二数量的第二变换系数代表也由在所述相应块中的第一变换系数的一些所代表的频谱内容;及第二数量小于第一数量。

16.根据权利要求1、2、9、10或12所述的方法,包括:把所述自适应过程应用于第一频谱分量,以产生合成频谱分量;

由第一频谱分量和/或第二频谱分量及由合成频谱分量导出一个或多个第三中间分量;及通过把一个或多个合成滤波器组应用于一个或多个第三中间分量,产生传送供人感知之用的内容的一个或多个输出信号。

17.根据权利要求16所述的方法,其中,合成频谱分量的至少一些由频谱分量再生而被产生。

18.根据权利要求16所述的方法,其中,合成频谱分量的至少一些由代表用于多个源信号的频谱内容的复合的第一频谱分量和/或第二频谱分量的分解而被产生。

19.根据权利要求16所述的方法,其中,合成频谱分量的至少一些通过组合第一频谱分量和/或第二频谱分量而被产生以提供用于多个源信号的频谱内容的复合表示。

20.根据权利要求1、2、9、10或12所述的方法,包括:通过把所述分析滤波器组应用于源信号而产生第一频谱分量;

把所述自适应过程应用于第一频谱分量,以产生代表第一频谱分量的至少一些的编码信息;及产生传送所述编码信息的输出信号。

21.一种处理代表源信号的信息的设备,该源信号传送供人感知之用的内容,该设备包括:用来接收第一频谱分量的装置,该第一频谱分量通过把一分析滤波器组应用于源信号而被产生,其中,第一频谱分量代表在多维空间的第一子空间中表达的源信号的频谱内容;

用来从第一频谱分量的至少一些导出一个或多个第一中间分量的装置,其中,第一中间分量的至少一些与从其导出它们的第一频谱分量不同;

用来根据一个或多个冲击响应的至少一部分形成所述一个或多个第一中间分量的组合以得到一个或多个第二中间分量的装置;

用来由所述一个或多个第二中间分量导出一个或多个第二频谱分量的装置,其中,第二频谱分量代表在多维空间的第二子空间中表达的源信号的频谱内容,该第二子空间包括不包括在第一子空间中的多维空间的一部分;

用来使用第一频谱分量和第二频谱分量得到幅值或相位的估计测量的装置;及用来把自适应过程应用于第一频谱分量以产生处理过的信息的装置,其中,自适应过程响应于幅值或相位的估计测量。

22.根据权利要求21所述的设备,其中:

第一频谱分量是布置在通过把一种或多种变换应用于源信号的一段或多段而产生的一个或多个变换系数块中的变换系数;并且所述一个或多个冲击响应的所述部分基于所述一种或多种变换的频率响应特性,该频率响应特性取决于一个或多个分析窗口函数的特性,该分析窗口函数向源信号的所述一段或多段施加有所述一种或多种变换。

23.根据权利要求21所述的设备,还包括,用来使用由一个或多个第一频谱分量的至少一些导出的一个或多个第三频谱分量,以得到幅值或相位的估计测量的装置。

24.根据权利要求23所述的设备,其中:

第一频谱分量是布置在通过把一种或多种变换应用于源信号的一段或多段而产生的一个或多个变换系数块中的变换系数;

第三频谱分量从两个或更多个第一频谱分量的组合导出;及使用第三频谱分量或使用第一和第二频谱分量自适应地得到对于源信号的一相应段的幅值或相位的估计测量。

25.根据权利要求23所述的设备,其中:

第一频谱分量是布置在通过把一种或多种变换应用于源信号的一段或多段而产生的一个或多个变换系数块中的变换系数;

第三频谱分量从两个或更多个第一频谱分量的组合导出;及使用第三频谱分量得到对于源信号的一相应段的至少一些频谱内容的幅值或相位的估计测量,并且使用第一和第二频谱分量得到对于源信号的所述相应段的所述频谱内容的至少一些的幅值或相位的估计测量。

26.根据权利要求23所述的设备,包括用来使用第三频谱分量或者使用第一和第二频谱分量而自适应地得到幅值或相位的测量的装置。

27.根据权利要求21所述的设备,包括用来响应于频谱分量显著性的测量而适应所述一个或多个冲击响应的所述部分的装置。

28.根据权利要求27所述的设备,其中,频谱分量显著性的测量由感知模型提供,该感知模型估计源信号的所述频谱内容的感知显著性。

29.根据权利要求27所述的设备,其中,频谱分量显著性的测量反映一个或多个频谱分量的频率隔离。

30.根据权利要求21所述的设备,其中:

第一频谱分量是布置在通过把一种或多种变换应用于源信号的一段或多段而产生的一个或多个块中的第一变换系数,一相应块具有第一数量的第一变换系数;

第二频谱分量是第二变换系数;

导出第二数量的第二变换系数,第二数量的第二变换系数代表也由在所述相应块中的第一变换系数的一些所代表的频谱内容;及第二数量小于第一数量。

31.根据权利要求21所述的设备,包括:

用来把自适应过程应用于第一频谱分量以产生合成频谱分量的装置;

用来由第一频谱分量和/或第二频谱分量及由合成频谱分量导出一个或多个第三中间分量的装置;及用来通过把一个或多个合成滤波器组应用于一个或多个第三中间分量,产生传送供人感知之用的内容的一个或多个输出信号的装置。

32.根据权利要求21所述的设备,包括:

用来通过把所述分析滤波器组应用于源信号而产生第一频谱分量的装置;

用来把所述自适应过程应用于第一频谱分量以产生代表第一频谱分量的至少一些的编码信息的装置;及用来产生传送所述编码信息的输出信号的装置。

说明书 :

使用从MDCT系数导出的估计频谱幅值和相位的改进编码

技术

技术领域

[0001] 本发明提供一种用来从包括由Modified Discrete CosineTransforms(修改离散余弦变换)和Modified Discrete SineTransforms(修改离散正弦变换)实现的那些的各种类型的分析滤波器组得到的频谱信息精确估计频谱幅值和相位的有效过程。这些精确估计可以用在诸如声频编码和视频编码之类的各种信号处理用途中。
[0002] 在如下讨论中,使用由特定Modified Discrete Cosine Transforms实现的滤波器组,对声频编码用途进行更具体的描述;然而,本发明也可应用于其它用途和其它滤波器组实施。

背景技术

[0003] 多种编码应用试图减少适当代表源信号所要求的信息量。通过减少信息容量要求,信号表示可在具有较低带宽的信道上传输,或者存储在使用较少空间的介质上。
[0004] 编码通过消除在信号中的冗余分量或不相关分量可减少源信号的信息容量要求。所谓的感知编码方法和系统常常使用滤波器组,以通过使用谱频分量的基本组而去相关源信号而减少冗余度,并且通过根据心理感知标准的频谱分量的自适应性量化而减少不相关性。更粗略地采用量化分辨率的编码过程可较大程度地减小信息要求,但它也把较高的量化误差水平或“量化噪声”引入到信号中。感知编码系统试图控制量化噪声的水平,从而噪声由信号的其它频谱内容“掩蔽”或使得感知不到。这些系统典型地使用感知模型,以预计可由给定信号掩蔽的量化噪声的水平。
[0005] 在感知声频编码系统中,例如,常常基于心理声学研究,如在E.Zwicker,Psychoacoustics,1981中描述的研究,根据从感知模型得到的可听性预测通过采用量化分辨率而控制量化噪声。预测在信号中的频谱分量的可听性的感知模型在M.Schroeder等的“OptimizingDigital Speech Coders by Exploiting Masking Properties of theHuman Ear(通过利用人耳掩盖性质而优化数字语音编码器),”J.Acoust.Soc.Am.,1979年12月,pp.1647-1652中讨论。
[0006] 因为预测为被感知不到而认为不相关的频谱分量不必包括在编码信号中。认为相关的其它频谱分量可使用一种量化分辨率而被量化,该量化分辨率适于精细得足以保证由源信号中的其它频谱分量使量化噪声刚好感知不到。通过感知模型的感知力的精确预测允许感知编码系统更优化地采用量化分辨率,导致更少听得见的人工产物。
[0007] 使用已知的提供感知力不精确预测的模型的编码系统不能可靠地保证使量化噪声感知不到,除非使用比(如果更精确的预测适用)否则要求的更精细的量化分辨率。诸如由Schroeder等讨论的多种感知模型基于频谱分量幅值;因此,通过这些模型的精确预测取决于频谱分量幅值的精确测量。
[0008] 频谱分量幅值的精确测量也影响除量化之外的其它类型的编码过程的性能。在称作频谱再生和耦合的两种类型的编码过程中,编码器通过从源信号的编码表示排除选定频谱分量而减小源信号的信息要求,并且译码器合成用于丢失频谱分量的替代物。在频谱再生中,编码器产生排除频谱其它部分的源信号的基带部分的表示。译码器使用基带部分和传送用于丢失部分的频谱水平的某些测量的副信息而合成频谱的丢失部分,并且组合两部分以得到原始源信号的不完整复制。使用频谱再生的声频编码系统的一个例子在提交于2003年3月21日的国际专利申请no.PCT/US03/08895、公开于2003年10月9日的公报no.WO 03/083034中描述。在耦合中,编码器产生用于源信号的多信道的频谱分量的合成表示,并且译码器使用合成表示和传送用于每个源信号信道的频谱水平的某些测量的副信息而合成用于多信道的频谱分量。使用耦合的声频编码系统的一个例子在公开于2001年
8月20日的标题为“Revision A to Digital Audio Compression(AC-3)Standard(对于数字声频压缩(AC-3)标准的修订A)”的AdvancedTelevision Systems Committee(ATSC)A/52A文件中描述。
[0009] 如果译码器能够合成保留了原始源信号中的对应频谱分量的幅值的频谱分量,则可改进这些编码系统的性能。如果相位的精确测量是适用的,从而可避免或补偿由耦合异相信号引起的失真,则也可改进耦合性能。
[0010] 不幸的是,某些编码系统使用特定类型的滤波器组以导出频谱分量的表示,这使得难以得到频谱分量幅值或相位的精确测量。两种普通类型的编码系统称作子带编码和变换编码。在两种子带和变换编码系统中的滤波器组都可以由包括各种时域至频域变换的各种信号处理技术实施。见J.Tribolet等的“Frequency Domain Coding of Speech(语音的频域编码),”IEEE Trans.Acoust.,Speech,和Signal Proc.,ASSP-27,1979年10月,pp.512-530。
[0011] 诸如离散傅里叶变换(DFT)或其高效实施-快速傅里叶变换(FFT)之类的某些变换,提供一组频谱分量或变换系数,由其可容易地计算频谱分量幅值和相位。DFT的频谱分量,例如是源信号的多维表示。具体地说,可以用在声频编码和视频编码用途中的DFT,提供一组其实部和虚部可以表示为在两维空间中的坐标的复数值系数。由这样一种变换提供的每个频谱分量的幅值可使用熟知的计算从在多维空间中的每个分量的坐标容易地得到。
[0012] 然而,诸如离散余弦变换之类的某些变换,提供使得难以得到频谱分量幅值或相位的精确测量的频谱分量。例如,DCT的频谱分量代表仅在精确传送频谱幅值和相位所要求的多维空间的子空间中的源信号的频谱分量。例如,在典型的声频编码和视频编码用途中,DCT提供一组在上述的两维实/虚空间的一维子空间中表示的实值频谱分量或变换系数。由像DCT之类的变换提供的每个频谱分量的幅值不能从在相关子空间中的每个分量的坐标容易地得到。
[0013] DCT的这种特性由特定的Modified Discrete Cosine Transforms(MDCT)分享,这在J.Princen等的“Subband/Transform CodingUsing Filter Bank Designs Based on Time Domain AliasingCancellation,”ICASSP1987 Conf.Proc.,1987年5月,pp.2161-64中描述。MDCT和其互补Inverse Modified Discrete Cosine Transforms(逆修改离散余弦变换)(IMDCT)在多种编码系统中已经获得广泛使用,因为它们允许临界取样分析/合成滤波器组系统的实施,该系统供源信号的重叠段的完整重建之用。完整重建是指一个分析/合成滤波器组对完整地重建源信号而没有由有限准确算术引起的误差的性质。临界取样是指分析滤波器组产生多个频谱分量的性质,该频谱分量的数量不大于用来传送源信号的样本的数量。这些性质在多种编码用途中非常有吸引力,因为临界取样减少在编码信号中必须编码和传送的频谱分量的数量。
[0014] 临界取样的概念值得评述。尽管DFT或DCT例如对于在源信号段中的每个样本产生一个频谱分量,但在多种编码用途中的DFT和DCT分析/合成系统不提供临界取样,因为分析变换应用于重叠信号段序列。重叠允许非矩形窗口函数的使用,该非矩形窗口函数改进分析滤波器组频率响应特性,并且消除成块人工产物;然而,重叠也阻止借助于临界取样的完整重建,因为分析滤波器必须产生比源信号样本的数量多的系数值。临界取样的这种损失增加编码信号的信息要求。
[0015] 如以上提到的那样,由MDCT和IMDCT实施的滤波器组在多种编码系统中是有吸引力的,因为它们给源信号的重叠段的完整重建提供有临界取样。不幸的是,这些滤波器组与DCT的类似之处在于,MDCT的频谱分量代表仅在精确传送频谱幅值和相位所要求的多维空间的子空间中的源信号的频谱分量。频谱幅值或相位的精确测量不能从由MDCT产生的频谱分量或变换系数容易地得到;因此,使用MDCT滤波器组的多种系统的编码性能是次最佳的,因为感知模型的预测精度下降,并且损害通过合成过程的频谱分量幅值的保留。
[0016] 避免像MDCT和DCT滤波器组之类的各种滤波器组的这种不足的以前尝试由于各种原因是不满意的。一种技术公开在“ISO/IEC11172-3:1993(E)Coding of Moving Pictures and Associated Audio forDigital Storage Media at Up to about 1.5 Mbit/s,”ISO/IECJTC1/SC29/WG11,Part III Audio中。根据这种技术,包括几个基于MDCT的滤波器组的一组滤波器组用来产生用于编码的频谱分量,并且一个基于FFT的额外的滤波器组用来导出频谱分量幅值的精确测量。这种技术由于至少两个原因是没有吸引力的:(1)在译码器中要求显著的计算资源,以实现导出幅值的测量所需要的额外的FFT滤波器组,和(2)得到幅值的精确测量的处理在编码器中进行;因此由编码信号要求额外的带宽,以把这些频谱分量幅值的测量传送到译码器。
[0017] 另一种技术通过在译码器中计算这些测量避免招致传送频谱分量幅值的测量所要求的任何额外的带宽。这通过把合成滤波器组应用于译码频谱分量而复原源信号的复本、把分析滤波器组应用于复原信号以获得与译码频谱分量正交的第二组频谱分量、及由两组频谱分量计算频谱分量幅值而进行。这种技术也是没有吸引力的,因为在译码器中要求显著的计算资源,以实现得到第二组频谱分量所需要的分析滤波器组。
[0018] 在 S.Merdjani 等 的“Direct Estimation of Frequency FromMCT-Encoded Files,”Pro.of the 6th Int.conf.on Digital AudioEffects(DAFx-03),London,2003年9月中描述的又一种技术,由从MDCT系数导出的“规则化频谱”估计正弦源信号的频率、幅值和相位。这种技术克服了以上提到的缺点,但它对于典型的编码用途也是不满意的,因为它仅适用于只有一个正弦波的非常简单源信号。
[0019] 在美国专利申请no.09/948,053、公开于2003年5月15日的公开号US2003/0093282 A1中描述的另一种技术,能够由MDCT系数导出DFT系数;然而,公开的技术不能得到用于由MDCT系数本身代表的频谱分量的幅值或相位的测量。此外,公开的技术不使用幅值或相位的测量来适应用于编码或译码代表MDCT系数的信息的过程。
[0020] 所需要的是一种从由诸如MDCT之类的分析滤波器组产生的频谱分量提供幅值或相位的精确估计、也避免或克服已知技术的不足的技术。

发明内容

[0021] 本发明通过接收通过把分析滤波器组应用于传送打算用于人感知的内容的源信号而产生的第一频谱分量、从第一频谱分量的至少某些导出一个或多个第一中间分量、根据一个或多个冲击响应的至少一部分形成一个或多个第一中间分量的组合以得到一个或多个第二中间分量、由一个或多个第二中间分量导出第二频谱分量、使用第一频谱分量和第二频谱分量得到幅值或相位的估计测量、及把自适应过程应用于第一频谱分量以产生处理信息而克服现有技术的不足。自适应过程响应幅值或相位的估计测量而适应。
[0022] 通过参照如下讨论和其中类似附图标记在几个图中指示类似元件的附图,可以更好地理解本发明和其优选实施例的各种特征。如下讨论和附图的内容仅作为例子叙述,并且不应该理解成代表对于本发明范围的限制。

附图说明

[0023] 图1是在编码系统中使用的发射机的示意方块图。
[0024] 图2是在编码系统中使用的接收机的示意方块图。
[0025] 图3是根据本发明各个方面得到频谱分量幅值或相位的测量的装置的示意方块图。
[0026] 图4是包括本发明各个方面的发射机的示意方块图。
[0027] 图5是包括本发明各个方面的接收机的示意方块图。
[0028] 图6-8是可以与本发明的典型实施一起使用的冲击响应的曲线说明。
[0029] 图9是可以用来实施本发明的各个方面的装置的示意方块图。

具体实施方式

[0030] A.引言
[0031] 本发明允许由诸如以上提到的Modified Discrete CosineTransform(MDCT)之类的分析滤波器组产生的频谱分量得到幅值或相位的精确测量。本发明的各个方面可以用在包括声频和视频编码的多种用途中。图1和2分别表明在可以包括本发明各个方面的编码系统中的发射机和接收机的示意方块图。表明的发射机和接收机的特征在如下章节中简要地讨论。在这种讨论之后,讨论与计算幅值和相位的测量有关的某些分析和合成滤波器组的特征。
[0032] 1.发射机
[0033] 在图1中表明的发射机把分析滤波器组3应用于从路径1接收的源信号以产生代表源信号的频谱内容的频谱分量,把编码器5应用于频谱分量以产生编码信息,及把格式化器8应用于编码信息以产生适于沿路径9传输的输出信号。输出信号可以立即输送到伴随接收机或者被记录以便以后输送。分析滤波器组3可以以各种方式实现,包括无限冲击响应(IIR)滤波器、有限冲击响应(FIR)滤波器、晶格滤波器及小波变换。
[0034] 下面参照与MDCT相关的实施描述本发明的诸方面,然而,本发明不限于这些具体实施。
[0035] 在本公开中,像“编码器”和“编码”之类的术语不打算指任何具体类型的信息处理。例如,编码常常用来减少信息容量要求;然而,在本公开中的这些术语不必指这种类型的处理。编码器5基本上可以进行希望的任何类型的处理。在一种实施中,编码信息根据感知模型通过量化频谱分量而产生。在另一种实施中,编码器5把耦合过程应用于频谱分量的多个信道,以产生复合表示。在又一种实施中,用于信号带宽一部分的频谱分量被丢弃,并且丢弃部分的频谱包络的估计包括在编码信息中。没有具体类型的编码对于本发明是重要的。
[0036] 2.接收机
[0037] 在图2中表明的接收机把去格式化器23应用于从路径21接收的输入信号以得到编码信息,把译码器25应用于编码信息以得到代表源信号的频谱内容的频谱分量,及把合成滤波器组27应用于频谱分量以产生是源信号的复制但可能不是准确复制的输出信号。合成滤波器组27可以以与分析滤波器组3的实施相互补的各种方式实施。
[0038] 在本公开中,像“译码器”和“译码”之类的术语不打算指任何具体类型的信息处理。译码器25基本上可以进行需要或希望的任何类型的处理。在一种与以上描述的编码过程相反的实施中,量化频谱信息被译码成去量化频谱分量。在另一种实施中,多信道的频谱分量从频谱分量的一个复合表示而合成。在又一种实施中,译码器25从频谱包络信息合成信号带宽的丢失部分。没有具体类型的译码对于本发明是重要的。
[0039] 3.幅值和相位的测量
[0040] 在通过Odd Discrete Fourier Transform(ODFT)的一种实施中,分析滤波器组3产生可以在两维空间中表达的具有实部和虚部的复数值系数或“频谱分量”。这种变换可以表达为:
[0041]
[0042] 它可以分离成实部和虚部
[0043] XODFT(k)=Re[XODFT(k)]+j·Im[XODFT(k)] (2)
[0044] 并且重新写成
[0045]
[0046]
[0047] 其中XODFT(k)=用于频谱分量k的ODFT系数;
[0048] x(n)=在时刻n处的源信号振幅;
[0049] Re[X]=X的实部;及
[0050] Im[X]=X的虚部。
[0051] 每个频谱分量k的幅值和相位可以按如下计算:
[0052]
[0053]
[0054] 其中Mag[X]=X的幅值;并且
[0055] Phs[X]=X的相位。
[0056] 多种编码用途通过把以上讨论的Modified Discrete CosineTransform(MDCT)应用于由分析窗口函数调制的源信号的重叠段而实施分析滤波器组3。这种变换可以表达为:
[0057]
[0058] 其中XMDCT(k)=用于频谱分量k的MDCT系数。可以看到,由MDCT产生的频谱分量等效于ODFT系数的实部。
[0059] XMDCT(k)=Re[XODFT(k)] (7)
[0060] 产生代表与由MDCT的系数代表的频谱分量相正交的频谱分量的系数的具体Modified Discrete Sine Transform(MDST)可以表达为:
[0061]
[0062] 其中XMDST(k)=用于频谱分量k的MDST系数。可以看到,由MDST产生的频谱分量等效于ODFT系数的负虚部。
[0063] XMDST(k)=-Im[XODFT(k)] (9)
[0064] 幅值和相位的精确测量不能直接由MDCT系数直接计算,但是它们可直接由MDCT和MDST系数的组合直接计算,这可通过把公式7和9代入公式4和5中看到:
[0065]
[0066]
[0067] 以上提到的Princen论文指示,MDCT的正确使用要求满足分析窗口函数的应用,所述分析窗口函数满足一定的设计要求。在本公开的这节中的变换公式的表达省去对于任何分析窗口函数的清晰参考,这暗示了矩形分析窗口函数不满足这些标准。这不影响表达式10和11的有效性。
[0068] 下面描述的本发明的实施由MDCT系数和由从MDCT系数导出的MDST系数得到频谱分量幅值和相位的测量。在支持数学基础的讨论之后下面描述这些实施。
[0069] B.数学框架的导出
[0070] 这节讨论用来由MDCT系数计算准确MDST系数的分析表达式的推导。这种表达式在下面表示在公式41a和41b中。也讨论用于两个特定窗口函数的较简单分析表达式的推导。在推导的讨论之后呈现对于实际实施的考虑。
[0071] 下面讨论的本发明的一种实施由从MDCT系数计算准确MDST系数的过程导出。这个过程等效于另一种过程,该另一种过程把Inverse Modified Discrete Cosine Transform(IMDCT)合成滤波器组应用于MDCT系数块以产生时域样本的窗口段,重叠-添加样本的窗口段以重建原始源信号的复制,及把MDST分析滤波器组用于复原信号的段以产生MDST系数。
[0072] B.任意窗口函数
[0073] 准确MDST系数不能由通过把IMDCT合成滤波器组应用于MDCT系数的单一块而复原的窗口样本的单一段而计算,因为所述段由分析窗口函数调制,并且因为复原的样本包含时域混淆。准确MDST系数只能借助于用于以前和以后段的MDCT系数的额外知识计算。例如,在多个段彼此重叠半个段长度的情况下,通过把合成滤波器组和相关合成窗口函数应用于代表指示为段I、段II及段III的源信号的三个连续重叠段的MDCT系数的三个块,可抵消对于给定段II的窗口和时域混淆的影响。每个段重叠相邻段等于半个段长度的量。
在段II的第一半中的窗口影响和时域混淆可由与段I的第二半的重叠-添加而抵消,并且在段II的第二半中的这些影响由与段III的第一半的重叠-添加而抵消。
[0074] 由MDCT系数计算MDST系数的表达式取决于源信号的段的数量、这些段的重叠结构和长度、及分析和合成窗口函数的选择。这些特征在原理上对于本发明都不是重要的。然而,为了说明容易,假定在下面讨论的例子中,三个段具有均匀的相同长度N、彼此重叠与段长度一半相等的量,分析和合成窗口函数彼此相同,相同的窗口函数应用于源信号的所有段,及窗口函数是这样的,从而其重叠-添加性质满足如下标准,该标准如在Princen论文中所解释的那样,对于源信号的完整重建是必要的。
[0075] 对于
[0076] 其中w(r)=分析和合成窗口函数;并且
[0077] N=每个源信号段的长度。
[0078] 用于在段i的每一个中的源信号x(n)的MDCT系数Xi可以表示成:
[0079]
[0080]
[0081]
[0082] 由把IMDCT合成滤波器组应用于MDCT系数的每个块上得到的窗口时域样本 可以表示成:
[0083]
[0084]
[0085]
[0086] 通过如以上描述的那样重叠和添加三个窗口段而重建用于段II的源信号的样本s(r),由此从源信号x除去时域混淆。这可以表示成:
[0087]
[0088] 对于段II通过把MDST分析滤波器组应用于在重建段II中的时域样本可以计算MDST系数的块S(k),这可以表示成:
[0089]
[0090] 使用表达式18代替s(r),表达式19可重写成:
[0091]
[0092]
[0093] 通过使用表达式15-17代替时域样本这个公式可按照MDCT系数重写:
[0094]
[0095]
[0096]
[0097]
[0098] 本公开的这节的剩余部分表示这个公式如何可如下面在公式41a和41b中表示的那样简化。
[0099] 使用三角恒等式sinα·cosβ=1/2[sin(α+β)+sin(α-β)]合并各项并且切换求和的顺序,表达式21可重写成:
[0100]
[0101]
[0102]
[0103]
[0104]
[0105]
[0106]
[0107]
[0108]
[0109]
[0110]
[0111]
[0112] 这个表达式可通过合并诸对彼此相等的项而简化。第一和第二项彼此相等。第三和第四项彼此相等。第五和第六项彼此相等,并且第七和第八项彼此相等。在第三与第四顶之间的相等例如可以通过证明如下命题而表明:
[0113]
[0114]
[0115] 这个命题可以通过按如下把公式23的左手和右手侧重写为p的函数而证明:
[0116]
[0117]
[0118] 其中
[0119]
[0120]
[0121] 作为(p)的函数的G的表达式按如下可重写成(N-1-p)的函数:
[0122]
[0123] 已知MDCT系数是奇对称的;因此,XH(N-1-p)=-XH(p),对于通 过 把 (k-(N-1-p)) 重 写 为 (k+1+p)-N,可 以 看 到 (k-(N-1-p))·(r+n0) =(k+1+p)·(r+n0)-N·(r+n0)。这两个等式允许表达式26重写成:
[0124]
[0125] 参照Princen论文,用于n0的值是1/2(N/2+1),这是两个整数之间的中间位置。因为r是整数,所以可看到,在表达式27的被加数中的最后项2π(r+n0)等于π的奇数倍;因此表达式27可重写成
[0126]
[0127]
[0128] 这证明在公式23中的命题。在公式22中的其它项对之间的相等能以类似方式表明。
[0129] 通过省去在表达式22中的第一、第三、第五及第七项并且加倍第二、第四、第六及第八项,公式22在简化第二和第八项之后可按如下重写:
[0130]
[0131]
[0132]
[0133]
[0134] 使用如下恒等式:
[0135] sin(α±πp)=(-1)psinα
[0136]
[0137]
[0138] 表达式29可重写成:
[0139]
[0140]
[0141]
[0142]
[0143] 通过进行如下替换,第三和第四项的内部求和被改变从而其求和
[0144] 极限从r=0至r=(N/2-1):
[0145]
[0146]
[0147] 这允许公式31重写成
[0148]
[0149]
[0150]
[0151]
[0152] 公式32通过使用对于以上提到的窗口函数施加限制而被简化,该窗口函数对于源信号的完整重建是必要的。这种限制是 借助于这种限制,公式31可简化成
[0153]
[0154]
[0155]
[0156]
[0157] 收集诸项,公式33可写成
[0158]
[0159]
[0160]
[0161]
[0162] 通过认识到第三项的内部求和等于零可简化公式34。这可通过证明两个命题而表明。一个命题假定如下等式:
[0163]
[0164] 通过按如下把被加数重写成指数形式、重新排列、简化及合并诸项,可以证明这个等式:
[0165]
[0166]
[0167]
[0168]
[0169]
[0170]
[0171]
[0172]
[0173]
[0174]
[0175] 另一个命题假定 对于 这可以通过用n0代替在表达式35中的a而证明以得到如下:
[0176]
[0177]
[0178]
[0179]
[0180] 通过用(k-p)代替在表达式35中的q并且使用以前两个命题,在公式34中的第三项的内部求和可以按如下表示成等于零:
[0181]
[0182] 使用这个等式,公式34可以简化成如下:
[0183]
[0184]
[0185]
[0186] 实值信号的MDST系数S(k)根据表达式S(k)=S(N-1-k)是对称的,对于k∈[0,N-1]。使用这种性质,所有偶数系数可表达为S(2v)=S(N-1-2v)=S(N-2(v+1)+1),对于因为N和2(v+1)都是偶数项,所以量(N-2(v+1)+1)是奇数。由此,可看到偶数系数能以奇数系数的项表达。使用系数的这种性质,公式38可按如下重写:
[0187]
[0188]
[0189]
[0190] 其中
[0191] 在这个公式中的第二项对于p的所有偶数值都等于零。第二项仅对于p的奇数值,或者对于p=2l+1对于 需要被估计。
[0192]
[0193]
[0194]
[0195] 其中
[0196] 公式40可按如下重写成两个函数hI,III和hII与对于源信号的三段从MDCT系数XI、XII及XIII导出的两组中间频谱分量mI,III和mII的两种修改卷积运算之和:
[0197]
[0198] 其中(41a)其中
[0199] mI,III(τ)=|(-1)τ+1XI(τ)+XIII(τ)]
[0200] mII(τ)=XII(τ)
[0201]
[0202]
[0203]
[0204] S(2v+1)=S(N-2(1+v)) (41b)
[0205] 修改卷积运算的结果取决于函数hI,III和hII的性质,该函数hI,III和hII是与IMDCT合成滤波器组、随后MDST分析滤波器组、及分析和合成窗口函数的组合效应有关的假定滤波器的冲击响应。修改卷积只需要对于偶数被估计。
[0206] 冲击响应的每一个是对称的。由检查可以看到,hI,III(τ)=hI,III(-τ)和hII(τ)=-hII(-τ)。这些对称性质可以在实际数字实施中采用,以减小存储每个冲击响应的表示所需要的存储器量。冲击响应的对称性质如何与中间频谱分量mI,III和mII相互作用的理解也可以在实际实施中被利用,以降低计算复杂性。
[0207] 冲击响应hI,III(τ)和hII(τ)可以由以上表示的求和计算;然而,可以通过导出用于冲击响应的更简单分析表达式而有可能简化这些计算。因为冲击响应取决于窗口函数w(r),所以较简单的分析表达式的导出要求用于窗口函数的额外规定。下面讨论对于两种特定窗口函数,矩形和正弦窗口函数,的冲击响应的较简单分析表达式的导出的例子。
[0208] 2.矩形窗口函数
[0209] 矩形窗口函数不经常用在编码用途中,因为它具有较差的频率选择性;然而,其简单性降低了推导特定实施所需要的分析的复杂性。对于这种推导,使用窗口函数对于r∈[0,N-1]。对于这种具体窗口函数,公式41a的第二项等于零。对于第二段,MDST系数的计算不取决于MDCT系数。结果,公式41a可以重写成
[0210]
[0211] mI.III(τ)=|(-1)τ+1XI(τ)+XIII(τ)]
[0212]
[0213]
[0214] 如果N限制成具有四的倍数的值,则通过使用假定如下等式的另一个命题可进一步简化这个公式:
[0215]
[0216] 其中
[0217] 这可以按如下证明:
[0218]
[0219]
[0220]
[0221] 通过对于 使用在公式35中表示的命题,表达式44可重写成
[0222]
[0223] 这可简化以得到如下表达式:
[0224]
[0225] 如果q是N的整数倍从而q=mN,那么在表达式46中的商的分子和分母都等于零,使商的值是不确定的。L′Hospital′s法则可以用来进一步简化表达式。相对于q微分分子和分母并且代入q=mN产生表达式
[0226]
[0227] 因为N是四的整数倍,所以分子总是等于N,并且分母等于2(-1)m=2(-1)q/N。这完成由公式43表达的命题的证明。
[0228] 这个公式可以用来得到用于冲击响应hI,III的表达式。考虑不同的情形以估计响m应hI,III(τ)。如果τ是N的整数倍从而τ=mN,那么hI,III(τ)=(-1)·N/4。对于除N的整数倍之外的τ的偶数值,响应等于零,因为在公式46中的商的分子等于零。对于τ的奇数值的冲击响应hI,III的值可由检查看到。冲击响应可以表达为如下:
[0229] 对于τ=mN
[0230] hI,III(τ)=0 对于τ为偶数,τ≠0 (47)
[0231]
[0232] 对于矩形窗口函数hI,III和N=128的冲击响应表明在图6中。
[0233] 通过把这些表达式代入公式42中,公式41a和41b可重写成:
[0234]τ+1
[0235] mI,III(τ)=|(-1) XI(τ)+XIII(τ)]
[0236]
[0237] S(2v+1)=S(N-2(1+v))(49b)
[0238]
[0239] 使用公式49a和49b,假定矩形窗口函数的使用,可由段I和III的MDCT系数计算用于段II的MDST系数。这个公式的计算复杂性可通过采用冲击响应hI,III(τ)对于τ的多个奇数值等于零的事实而降低。
[0240] 3.正弦窗口函数
[0241] 正弦窗口函数具有比矩形窗口函数好的频率选择性,并且用在某些实际编码系统中。如下推导使用由如下表达式定义的正弦窗口函数
[0242]
[0243] 通过使用假定如下的命题可以导出用于冲击响应hI,III的简化表达式:
[0244]
[0245]
[0246] 其中
[0247] 这个命题通过按如下首先简化用于w(r)w(r+N/2)表达式可以证明:
[0248]
[0249]
[0250] 把这个简化表达式代入公式51中得到如下:
[0251]
[0252] 使用如下三角恒等式
[0253]
[0254] 公式53可重写成如下:
[0255]
[0256]
[0257]
[0258]
[0259] 通过根据公式35代入I(τ)的两项、在第一项中设置q=(τ+1)和及在第二项中设置q=(-τ+1)和 可简化公式55。这产生如下:
[0260]
[0261]
[0262]
[0263]
[0264]
[0265]
[0266]
[0267]
[0268]
[0269]
[0270] 公式58是有效的,除非对于任一个商的分母等于零。这些特定情况可通过检查公式57而分析,以辨别任一个分母是零的条件。由公式57可看到,对于τ=mN+1和τ=mN-1,出现奇点,其中m是整数。如下假定N是四的整数倍。
[0271] 对于τ=mN+1,公式57可重写成:
[0272]
[0273]
[0274]
[0275]
[0276] 商的值是不确定的,因为分子和分母都等于零。L′Hospital′s法则可用来确定其值。相对于m微分分子和分母产生如下:
[0277]
[0278]
[0279] 对于τ=mN-1,公式57可重写成:
[0280]
[0281]
[0282]
[0283] 在这个公式中的商的值是不确定的,因为分子和分母都等于零。
[0284] L′Hospital′s法则可用来确定其值。相对于m微分分子和分母产生如下:
[0285]
[0286]
[0287] 由公式51表达的命题通过结合公式58、60及62证明。
[0288] 用于冲击响应hII的简化表达式可以通过使用假定如下的命题导出:
[0289]
[0290]
[0291] 其中
[0292] 这个命题的证明与以前的证明类似。这种证明通过简化用于w(r)w(r)的表达式2
而开始。记住sinα=1/2-1/2cos(2α),从而:
[0293]
[0294] 使用这个表达式,公式63可重写成:
[0295]
[0296]
[0297] 由公式37和相关命题,可以看到,在公式65中的第一项等于零。
[0298] 第二项可以使用三角恒等式cosu·sinv=1/2[sin(u+v)-sin(u-v)]而简化,这得到如下:
[0299]
[0300]
[0301] 参照公式66,其第一项等于在公式55中的第一项的负值,并且其第二项等于公式55的第二项。在公式63中表达的命题的证明可以以与用来证明在公式51中表达的命题相类似的方式而证明。证明的主要差别在于公式59和公式61的奇点分析。对于这种证明,I(mN-1)乘以-1的辅助因数;因此, 允许这种差别以及在公式55的第
一项之前的负号,证明在公式63中表达的命题。
[0302] 用于冲击响应hII(τ)的准确表达式由这个命题给出;然而,仅对于τ的奇数值需要估计它,因为在公式41a中的hII的修改卷积只对于τ=(2v-(2l+1))而估计。根据公式63,对于除τ=mN+1和τ=mN-1之外的τ的奇数值,hII(τ)=0。因为hII(τ)仅对于τ的两个值为非零,所以这种冲击响应可表达为:
[0303]
[0304] 用于正弦窗口函数和N=128的冲击响应hI,III(τ)和hII(τ)分别表明在图7和8中。
[0305] 使用由公式51和67提供的用于冲击响应hI,III和hII的分析表达式,公式41a和41b可重写成:
[0306]
[0307]τ+1
[0308] mI,III(τ)=[(-1) XI(τ)+XIII(τ)]
[0309] mII(τ)=XII(τ)
[0310]
[0311]
[0312] S(2v+1)=S(N-2(1+v))(68b)
[0313] 使用公式68a和68b,假定正弦窗口函数的使用,由段I、段II及段III的MDCT系数可计算用于段II的MDST系数。通过利用冲击响应hI,III(τ)对于τ的许多奇数值等于零的事实,可进一步降低这个公式的计算复杂性。
[0314] C.频谱分量估计
[0315] 公式41a和41b表达对于任意窗口函数由MDCT系数计算准确MDST系数。公式49a、49b、68a及68b分别表达使用矩形窗口函数和正弦窗口函数由MDCT系数计算准确MDST系数。这些计算包括与冲击响应的卷积类似的运算。计算卷积之类的运算的计算复杂性可通过从计算排除已知为零的冲击响应的那些值而降低。
[0316] 通过从计算排除完全响应的具有很小意义的那些部分,可进一步降低计算复杂性;然而,这种生成计算仅提供MDST系数的估计,因为准确计算已不可能。通过控制从计算中排除的冲击响应的量,可实现在计算复杂性与估计精度之间的适当平衡。
[0317] 冲击响应本身取决于假定的窗口函数的形状。结果,窗口函数的选择影响可从计算排除的冲击响应的部分,而不把系数估计精度降低到某一希望水平以下。
[0318] 用于矩形窗口函数的公式49a的检查表明,冲击响应hI,III关于τ=0是对称的,并且常速地衰减。对于N=128的这种冲击响应的例子表示在图6中。冲击响应hII对于τ的所有值都等于零。
[0319] 用于正弦窗口函数的公式68a的检查表明,冲击响应hI,III关于τ=0是对称的,并且比用于矩形窗口函数的相应响应更快地衰减。对于正弦窗口函数,冲击响应hII仅对于τ的两个值为非零。对于正弦窗口函数和N=128的冲击响应hI,III和hII的例子分别表示在图7和8中。
[0320] 基于这些观察,为任何分析或合成窗口函数提供MDST系数的估计的公式41a和41b的修改形式可以按照两种滤波器结构表达成如下:
[0321] S(2v)=filter_structure_1(2v)+ (69)
[0322] filter_structure_2(2v)
[0323]τ+1
[0324] mI,III(τ)=|(-1) XI(τ)+XIII(τ)] (71)
[0325]
[0326]
[0327] mII(τ)=XII(τ) (74)
[0328]
[0329] S(2v+1)=S(N-2(1+v)) (76)
[0330] 其中
[0331] 并且ntapstot、τtrunc1、τtrunc2选择成满足
[0332]
[0333] 根据公式69估计MDST系数的装置30的例子由在图3中的示意方块图表明。在这种实施中,中间分量发生器32从路径1接收MDCT系数,并且通过进行在公式71中表示的计算分别从段I和III的MDCT系数XI和XII导出第一中间分量mI,III,及通过进行在公式74中表示的计算从段II的MDCT系数XII导出第一中间分量mII。中间分量发生器34通过形成第一中间分量mI,III的组合根据从冲击响应33接收的冲击响应hI,III的一部分通过进行在公式70中表示的计算而导出第二中间分量,并且通过形成第一中间分量mII的组合根据从冲击响应33接收的冲击响应hII的一部分通过进行在公式73中表示的计算而导出第二中间分量。可以使用两个冲击响应的任何部分,如由包括整个响应的值τtrunc1、τtrunc2表达的那样。较长冲击响应的使用增加计算复杂性,并且一般增加MDST系数估计的精度。频谱分量发生器35通过进行在公式69和76中表示的计算由第二中间分量得到MDST系数。
[0334] 幅值和相位估计器36由从路径31接收的计算MDST系数和MDCT系数计算幅值和相位的测量,并且沿路径38和39通过这些测量。MDST系数也可以沿路径37通过。通过进行例如在以上公式10和11中表示的计算,可以得到频谱幅值和相位的测量。可以得到的测量的其它例子包括频谱通量和瞬时频率,该频谱通量可以从频谱幅值的一阶导数得到,该瞬时频率可以从频谱相位的一阶导数得到。
[0335] 参照例如在图6-8中表示的冲击响应,可以看到,由两种滤波器结构的卷积型运算得到的系数值由靠近τ=0的响应部分支配。对于具体实施通过选择用来实施两种滤波器结构的滤波器抽头的总数ntapstot可以实现在计算复杂性与估计精度之间的平衡。抽头的总数ntapstot可以分别分布在第一与第二滤波器结构之间,如根据τtrunc1、τtrunc2的值希望的那样,以使MDST系数估计适应特定用途的需要。在两种滤波器结构之间抽头的分布可能影响估计精度,但它不影响计算复杂性。
[0336] 可使用可能希望的任何标准而选择用于每个滤波器结构的抽头的数量和选择。例如,两种冲击响应hI,III和hII检查将揭示较显著的响应部分。可以仅对于较显著的响应部分选择抽头。另外,通过仅得到诸如在一个或多个频率范围中的系数之类的选定的MDST系数,可以降低计算复杂性。
[0337] 本发明的自适应实施可以使用冲击响应的较大部分,以估计用于由感知模型判断是感知较显著的频谱分量的MDST系数。例如,用于频谱分量的感知显著性的测量可由频谱分量超过由感知模型计算的感知掩蔽阈值的量而导出。冲击响应的较短部分可以用来估计用于较不显著的频谱分量的MDST系数。可避免用于估计最不显著频谱分量的MDST系数所需要的计算。
[0338] 非自适应实施使用冲击响应的多个部分,可以得到在信号的各种频率子带中的MDST系数估计,所述冲击响应的多个部分的长度根据以前由典型信号的分析所确定的子带的感知显著性而改变。在多种声频编码用途中,在较低频率子带的频谱内容一般具有比在较高频率子带的频谱内容大的感知显著性。在这些用途中,例如,非自适应实施使用脉冲响应长度与子带的频率成反比变化的脉冲响应的部分,来估计在子带中的MDST系数。
[0339] D.另外的考虑
[0340] 以上公开叙述了仅描述本发明的几种实施的例子。本发明的原理可以以各种各样的方式应用和实施。下面讨论另外的考虑。
[0341] 1.其它变换
[0342] 以上描述的典型实施由MDCT导出,该MDCT按照应用于彼此重叠半个段长度的源信号的固定长度段的ODFT表示。以上讨论的例子的变化以及下面讨论的可选择例的变化可以通过由按照ODFT表示的MDST导出实施而得到。
[0343] 本发明的另外实施可以从包括DFT、FFT及在以上引用的Princen论文中讨论的MDCT滤波器组的一般化表达式的其它变换的表达式导出。这种一般化表达式在于1998年3月10日颁发的美国专利5,727,119中描述。
[0344] 本发明的实施也可以从应用于可变长度信号段的变换、和应用于没有重叠或具有除半个段长度之外的重叠量的变换的表达式导出。
[0345] 2.自适应估计
[0346] 某些经验结果建议,具有规定水平的计算复杂性的本发明的实施对于代表一个频谱能量带的频谱分量比代表单一正弦波或在频率上彼此隔离的几个正弦波的频谱分量常常能够导出更精确的频谱分量幅值的测量。估计频谱分量幅值的过程至少以两种方式可以自适应,以改进用于具有隔离的频谱分量的信号的估计精度。
[0347] 适应所述过程的一种方式是通过自适应地增加用于在公式69中表示的两种滤波器结构的冲击响应的长度,从而对于与一个或多个隔离频谱分量相关的限制MDST系数组,可进行更精确的计算。
[0348] 适应这个过程的另一种方式是通过自适应地进行用来导出用于隔离的频谱分量的频谱分量幅值的替换方法。替换方法由MDCT系数导出额外频谱分量组,并且额外频谱分量组用来得到幅值和/或相位的测量。这种自适应可以通过选择用于源信号的段的较适当方法而进行,并且它可以通过使用用于对于具体段的频谱部分的较适当方法而进行。在以上引用的Merdjani论文中描述的方法是一种可能的替换方法。如果它被使用,则这种方法优选地被扩展,以便为不止单个的正弦波提供幅值估计。这可以通过动态地把MDCT系数布置在其中每个带具有单一支配频谱分量的多个频带中、和把Merdjani方法应用于系数的每个带而进行。
[0349] 具有一个支配频谱分量或几个隔离的支配频谱分量的源信号的存在可以使用各种技术而探测。一种技术探测在MDCT系数中具有超过相邻和附近系数的幅值某一阀值量的局部最大值,以及或者计数局部最大值的数量或者确定在局部最大值之间的频谱距离。另一种技术通过计算源信号的适当频谱平坦度测量(SFM)而确定源信号的频谱形状。SFM在N.Jayant等的“Digital Coding of Waveforms,”Prentice-Hall,1984年,p.57中描述,并且定义为信号的功率频谱密度的几何平均与算术平均的比值。
[0350] 3.实施
[0351] 本发明可以便利地用在各种各样的用途中。包括本发明各个方面的发射机和接收机的示意方块图分别表示在图4和5中。
[0352] 在图4中表示的发射机与在图1中表示的发射机类似,并且包括估计器30,该估计器30包括本发明的各个方面,以分别沿路径38和39提供幅值和相位的测量。编码器6使用这些测量产生代表从分析滤波器组3接收的频谱分量的编码信息。可以用在编码器6中、可能取决于幅值或相位测量的过程的例子,包括用来确定自适应量化水平、耦合、及通过频谱再生译码过程用于以后使用的频谱包估计的感知模型。
[0353] 在图5中表示的接收机与在图2中表示的接收机类似,并且包括估计器30,该估计器30包括本发明的各个方面,以分别沿路径38和39提供幅值和相位的测量。估计器30也可以沿路径37提供MDST系数。译码器26使用这些测量由从格式化器23接收的编码信息得到频谱分量。可以用在译码器26中、可能取决于幅值或相位测量的过程的例子,包括用来确定自适应量化水平、来自复合或耦合表示的频谱分量合成、及频谱分量再生的感知模型。
[0354] 包括本发明的各个方面的装置可以以各种方式实施,这些方式包括由计算机或某种其它设备执行的软件,该设备包括更专用元件,如联接到与在通用计算机中找到的那些相类似的元件上的数字信号处理器(DSP)电路。图9是可以用来实施本发明各个方面的装置70的示意方块图。DSP 72提供计算资源。RAM 73是由DSP 72为信号处理使用的系统随机存取存储器(RAM)。ROM 74代表某种永久存储形式,如用来存储操作装置70和实现本发明各个方面所需要的程序的只读存储器(ROM)。I/O控制装置75代表通过通信信道76、77接收和发送信号的接口电路。模数转换器和数模转换器可以如希望的那样包括在I/O控制装置75中,以接收和/或发送模拟信号。在表示的实施例中,所有主要系统元件都连接到总线71上,该总线71可能代表多于一条的实际总线;然而,为了实施本发明,不要求总线结构。
[0355] 在通用计算机系统中实施的实施例中,可以包括辅助元件,用来接口到诸如键盘或鼠标和显示器之类的装置上,并且用来控制具有诸如磁带或磁盘、或光学介质之类的存储介质的存储装置。存储介质可以用来记录用于操作系统、设施及应用程序的指令的程序,并且可以包括实施本发明各个方面的程序的实施例。
[0356] 实施本发明各个方面所要求的功能可由以各种各样方式实施的元件完成,包括分立逻辑元件、集成电路、一个或多个ASIC和/或控制处理器。实施这些元件的方式对于本发明并不重要。
[0357] 本发明的软件实施可以由如下传送:各种机器可读介质,如贯穿包括从超声波到紫外频率的频谱的基带或调制通信路径;或存储介质,它基本上使用记录技术传送信息,包括磁带、卡或盘、光学卡或盘、及在像纸之类的介质上的可探测标记。