用于确定量化器步长的设备和方法转让专利

申请号 : CN200580005107.4

文献号 : CN1922656B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 伯恩哈德·格瑞迈克尔·舒格博多·迪克曼尼古拉斯·里特尔博谢

申请人 : 弗劳恩霍夫应用研究促进协会

摘要 :

为了确定用于对包括音频或视频信息的信号进行量化的量化器步长,提供第一量化器步长及干扰阈值(502)。根据本发明,确定通过第一量化器步长引入的实际干扰(504),并将其和干扰阈值进行比较(506)。如果比较指示实际引入的干扰高于阈值,则使用更粗的第二量化器步长(508),然后如果由更粗的第二量化器步长所引入的干扰落低于阈值或低于由第一量化器步长所引入的干扰(512),则利用该更粗的第二量化器步长进行量化(514)。这样,在量化变粗期间由此在压缩增益增大期间,量化干扰减小了。

权利要求 :

1.一种确定用于对包括音频或视频信息的信号进行量化的量化器步长的设备,该设备包括:用于提供第一量化器步长和干扰阈值的装置(502);

用于确定由第一量化器步长所引入的第一干扰的装置(504);

用于对由第一量化器步长引入的干扰和干扰阈值进行比较的装置(506);

用于在引入的第一干扰超过干扰阈值时选择比第一量化器步长大的第二量化器步长的装置(508);

用于确定由第二量化器步长所引入的第二干扰的装置(510);

用于对引入的第二干扰和干扰阈值或引入的第一干扰进行比较的装置(512);以及

用于在引入的第二干扰小于引入的第一干扰或小于干扰阈值时利用第二量化器步长对信号进行量化的装置(514)。

2.根据权利要求1所述的设备,其中信号是音频信号,并包括音频信号的谱表示的谱值,并且用于提供的装置(502)被配置为心理声学模型,该心理声学模型根据心理声学掩蔽阈值来计算频带的容许干扰。

3.根据权利要求1所述的设备,其中用于确定引入的第一干扰的装置(504)或用于计算引入的第二干扰的装置(510)被配置成,利用量化器步长进行量化、利用量化器步长进行重新量化、以及计算重新量化的信号和信号之间的距离,以获得所引入的干扰。

4.根据权利要求1所述的设备,其中用于提供第一量化器步长的装置(502)被配置成根据以下方程来计算量化器步长: Σ i | Δx i | 2 q 2 α 12 α 2 · Σ i x i 2 ( 1 - α ) 其中用于量化的装置(514)被配置成根据以下方程进行量化:

y i = round [ ( x i q ) α + s ] 其中xi是要量化的谱值,q代表量化器步长信息,s是不等于或等于0的数,α是不同于“1”的指数,round是把第一较大的值范围内的值映射到第二较小的值范围内的值的舍入函数,是容许干扰,i是频带中的谱值的运算索引。

5.根据权利要求1所述的设备,其中用于选择的装置(508)进一步被配置成,当引入的干扰小于容许干扰时选择更大的量化器步长。

6.根据权利要求1所述的设备,其中用于选择的装置(508)被配置成,与另一频带的量化器步长无关地改变某一频带的量化器步长。

7.根据权利要求1所述的设备,其中用于提供的装置(502)被配置成,作为在量化器步长变粗的情况下执行的先前迭代步骤的结果来确定第一量化器步长,其中干扰阈值是在确定第一量化器步长的先前迭代步骤中所引入的干扰。

8.一种确定用于对包括音频或视频信息的信号进行量化的量化器步长的方法,该方法包括:提供(502)第一量化器步长和干扰阈值;

确定(504)由第一量化器步长所引入的第一干扰;

对由第一量化器步长引入的干扰和干扰阈值进行比较(506);

如果引入的第一干扰超过干扰阈值,选择(508)比第一量化器步长大的第二量化器步长;

确定(510)由第二量化器步长所引入的第二干扰;

对引入的第二干扰和干扰阈值或引入的第一干扰进行比较(512);以及

如果引入的第二干扰小于引入的第一干扰或小于干扰阈值,利用第二量化器步长对信号进行量化(514)。

说明书 :

技术领域

本发明涉及音频编码器,并且尤其涉及基于变换的编码器,即在编码器流水线开始时执行从时间表示到谱表示的转换的编码器。

背景技术

图3中描述了基于变换的现有技术音频编码器。在国际标准ISO/IEC(国际标准化组织/国际电工技术委员会)14496-3:2001(E)第4子部分第4页中说明了图3所示的编码器,该编码器在该技术领域中也被称为AAC编码器。
以下将介绍该现有技术编码器。要编码的音频信号在输入1000处被供入。该音频信号最初被馈给缩放级1002,其中所谓的AAC增益控制被引入以确立音频信号的电平。来自缩放的辅助信息被供给位流格式器1004,如位于方框1002和方框1004之间的箭头所示。然后,经过缩放的音频信号被供给改进离散余弦变换(MDCT)滤波器组1006。利用AAC编码器,滤波器组用50%的重叠窗口来执行改进的离散余弦变换,窗口长度由方框1008来确定。
一般来讲,方框1008是为了以较短的窗口来为瞬态信号加窗、并以较长窗口来为趋向于稳定的信号加窗而存在的。这用来,对于瞬态信号,由于较短的窗口而获得较高的时间分辨率(以频率分辨率为代价),而对于趋向于稳定的信号,由于较长的窗口而获得较高的频率分辨率(以时间分辨率为代价),从而倾向于首选较长的窗口,因为较长的窗口导致较高的编码增益。在滤波器组1006的输出,存在时间上连续的谱值块,取决于滤波器组的实现,这些块可能是MDCT系数、傅立叶系数或子带信号,每个子带信号都具有由滤波器组1006中的相应子带通道所指定的特定受限带宽,并且每个子带信号都有特定数量的子带采样。
接下来,举例说明滤波器组输出时间上连续的MDCT谱系数块的情况,一般来讲,这种MDCT谱系数块代表要在输入1000编码的音频信号的连续短期谱。然后,MDCT谱值块被馈入其中执行时域噪声整形(TNS)的TNS处理方框1010。TNS技术用于对每个变换窗口内的量化噪声的时间形状进行整形。这是通过向每个通道的部分谱数据应用滤波过程来实现的。基于窗口执行编码。尤其是,执行以下步骤,以便向谱数据的窗应用TNS工具,即向谱值块应用TNS工具。
最初,选择TNS工具的频率范围。合适的选择包括用滤波器覆盖1.5kHz的频率范围,直到最高可能缩放因子带。应该指出,该频率范围取决于采样率,如AAC标准(ISO/IEC 14496-3:2001(E))中所规定的。
随后,确切地说,利用选定目标频率范围中所存在的MDCT谱系数来执行线性预测编码(LPC)计算。为了提高稳定性,从该过程中除去与2.5kHz以下的频率对应的系数。如语音处理领域所周知的普通LPC过程可用于LPC计算,例如周知的Levinson-Durbin算法。相对于噪声整形滤波器的最大容许阶数,来执行计算。
作为LPC计算的结果,获得预期的预测增益PG。另外,获得反射系数或Parcor(部分自相关)系数。
如果预测增益不超过特定阈值,则不应用TNS工具。在这种情况下,把一种控制信息写入位流中,使得解码器知道没有执行TNS处理。
然而,如果预测增益超过了阈值,则应用TNS处理。
在下一步中,对反射系数进行量化。通过从反射系数数组的“尾部”去除绝对值比阈值小的所有反射系数,来确定所使用的噪声整形滤波器的阶数。剩余反射系数的数目对应于噪声整形滤波器的阶数。合适的阈值是0.1。
剩余反射系数典型地被转换为线性预测系数,该技术也被称为“递升(step-up)”过程。
然后,把所计算的LPC系数用作编码器噪声整形滤波器系数,即用作预测滤波器系数。该有限脉冲响应(FIR)滤波器用于在指定的目标频率范围中滤波。在解码中使用自回归滤波器,而在编码中使用所谓的移动平均滤波器。最后,把TNS工具的辅助信息供给位流格式器,如图3中TNS处理方框1010和位流格式器1004之间所示的箭头所示。
然后,通过图3中未示出的几种任选工具,如长期预测工具、强度/耦合工具、预测工具、噪声替代工具,直到最终到达mid/side(中间/旁边)编码器1012为止。当要编码的音频信号是多通道信号,即具有左边通道和右边通道的立体声信号时,mid/side(中间/旁边)编码器1012起作用。到目前为止,即从图3中的方框1012向上,通过滤波器组分别处理即缩放,变换了左边和右边立体声通道,并且左边和右边立体声通道分别受到或未受到TNS处理。
在mid/side(中间/旁边)编码器中,最初执行关于mid/side(中间/旁边)编码是否有意义,即是否将完全产生编码增益的验证。如果左边和右边通道趋向于相似,则mid/side(中间/旁边)编码将产生编码增益,因为在这种情况下,除了以1/2的因子进行缩放以外,中间通道即左边和右边通道之和几乎等于左边通道或右边通道,而旁边通道只有很小的值,因为它等于左边和右边通道之差。因此,可以看到,当左边和右边通道近似相同时,差近似为0,或者差只有很小的值一该很小值有望在随后的量化器1014中被量化为0,从而可以以非常高效的方式进行传输,因为从量化器1014向下连接了熵编码器1016。
通过心理声学模型1020,向量化器1014提供每缩放因子带的容许干扰。量化器以交互的方式操作,即最初调用外部迭代循环,然后外部迭代循环调用内部迭代循环。一般来讲,从量化器步长起始值开始,最初在量化器1014的输入执行值块的量化。尤其是,内部循环量化MDCT系数,在该过程中消耗特定的位数。外部循环利用缩放因子来计算系数的失真和改进能量,以便再次调用内部循环。多次迭代该过程,直到满足特定的条件字句为止。对于外部迭代循环中的每次迭代,都重构信号,以便计算由量化引入的干扰,并将其和心理声学模型1020所提供的容许干扰进行比较。另外,确切地说,对于外部迭代循环的每次迭代,逐次迭代地使在该比较后仍然被认为受干扰的那些频带的缩放因子放大一级或多级。
一旦达到由量化所引入的量化干扰小于由心理声学模型所确定的容许干扰的情形,并且如果同时满足位要求-确切地说就是不超过最大位速率,就终止迭代即分析合成(analysis-by-synthesis)方法,并且如方框1014中所说明的那样对所获得的缩放因子进行编码,并以编码的形式将其提供给位流格式器1004,如方框1014和方框1004之间所绘制的箭头所示。然后,量化的值被提供给熵编码器1016,熵编码器1016典型地利用几个Huffman码表对几个缩放因子带执行熵编码,以便将量化值转变为二进制格式。众所周知,Huffman编码形式的熵编码涉及求助于基于预期信号统计信息而生成的码表,其中经常出现的值被赋予的码字比不经常出现的值短。然后,经过熵编码的值作为实际主要信息被提供给位流格式器1004,然后位流格式器1004按照特定的位流语法在输出端输出编码的音频信号。
如已经说明的,如果量化器步长所引入的干扰大于阈值,则在该迭代量化中使用更小的量化器步长,这样做是希望,因为所执行的量化更细、所以这将导致量化噪声的减小。
该思想的缺点在于,由于量化器步长更小,要传输的数据量自然增加,从而压缩增益减小了。

发明内容

本发明的目的是提供一种用于确定量化器步长的,一方面引入低量化干扰且另一方面提供高压缩增益的思想。
根据本发明,提出了一种一种确定用于对包括音频或视频信息的信号进行量化的量化器步长的设备,该设备包括:用于提供第一量化器步长和干扰阈值的装置(502);用于确定由第一量化器步长所引入的第一干扰的装置(504);用于对由第一量化器步长引入的干扰和干扰阈值进行比较的装置(506);用于在引入的第一干扰超过干扰阈值时选择比第一量化器步长大的第二量化器步长的装置(508);用于确定由第二量化器步长所引入的第二干扰的装置(510);用于对引入的第二干扰和干扰阈值或引入的第一干扰进行比较的装置(512);以及用于在引入的第二干扰小于引入的第一干扰或小于干扰阈值时利用第二量化器步长对信号进行量化的装置(514)。
根据本发明,还提出了一种一种确定用于对包括音频或视频信息的信号进行量化的量化器步长的方法,该方法包括:提供(502)第一量化器步长和干扰阈值;确定(504)由第一量化器步长所引入的第一干扰;对由第一量化器步长引入的干扰和干扰阈值进行比较(506);如果引入的第一干扰超过干扰阈值,选择(508)比第一量化器步长大的第二量化器步长;确定(510)由第二量化器步长所引入的第二干扰;对引入的第二干扰和干扰阈值或引入的第一干扰进行比较(512);以及如果引入的第二干扰小于引入的第一干扰或小于干扰阈值,利用第二量化器步长对信号进行量化(514)。
本发明基于以下发现:一方面可以实现干扰功率的额外减小,同时可实现编码增益的增大或至少保持,这是因为即使当引入的干扰大于阈值时,也试验至少几种更粗的量化器步长,而不是像现有技术那样执行更细的量化。证明了即使利用更粗的量化器步长,也可实现量化所引入的干扰的减小,确切地说,在更粗量化器步长比更细量化器步长更好地“击中”要量化的值的情况下,可实现量化所引入的干扰的减小。该效果是基于以下事实:量化误差不仅取决于量化器步长,而且自然也取决于要量化的值。如果要量化的值非常接近更粗量化器步长的步长,则将实现量化噪声的减小、同时增大压缩增益(因为量化更粗了)。
尤其是当作为执行阈值比较的基础的第一量化器步长已经有很好的估计量化器步长时,本发明思想非常有益。因此,在本发明的优选实施例中,优选地基于平均噪声能量而非最坏情况来进行直接计算,由此确定第一量化器步长。因而,根据现有技术的迭代循环可能已经大大地减少了,或者可能变得完全废弃。
在实施例中,本发明的量化器步长后处理然后将仅仅再一次试验更粗的量化器步长,以便得益于所描述的、“提高击中”要量化的值的效果。如果随后证明通过更粗量化器步长所获得的干扰小于先前的干扰乃至小于阈值,则可以执行更多的迭代来试验更粗的量化器步长。多次继续使量化器步长变粗的该过程,直到所引入的干扰再次增大为止。然后,达到终止准则,从而利用所存储的、提供最小引入干扰的那个量化器步长,来执行量化,并根据需要继续编码过程。
在本发明的替换实施例中,为了估计第一量化器步长,可以执行如现有技术中一样的分析合成方法,多次继续该方法,直到达到终止准则为止。然后,可以利用本发明的后处理来最终验证,是否有可能利用更粗的量化器步长来获得同样好的干扰结果,乃至更好的干扰结果。如果发现对于所引入的干扰来说,更粗的量化器步长同样好乃至更好,则将利用该步长进行量化。然而,如果发现更粗的量化没有产生正面效果,则将利用例如借助于分析/合成方法最初确定的那个量化器步长,来进行最终的量化。
因而,根据本发明,可以利用任何量化器步长来整形第一阈值比较。该第一量化器步长是已经通过分析/合成方案,还是借助于量化器步长的直接计算所确定的,是无关紧要的。
在本发明的优选实施例中,该思想用于对存在于频域中的音频信号进行量化。然而,该思想也可用于对包括音频和/或视频信息的时域信号进行量化。
另外,应该指出,用于比较的阈值是心理声学或心理光学容许干扰,或期望落在其之下的另一阈值。例如,该阈值实际上可以是通过心理声学模型提供的容许干扰。然而,该阈值也可以是为初始量化器步长预先确定的引入干扰、或其它任何阈值。
应该注意,不必对量化的值进行Huffman编码,而作为选择可以利用另一种熵编码如算术编码对量化值进行编码。作为选择,也可以用二进制方式对量化值进行编码,因为这种编码也具有以下效果:为了传输更小值或等于0的值,需要比传输更大值(一般为不等于0的值)所需的位更少的位。
为了确定起始值,即第一量化器步长,如果量化器步长是从直接噪声能量估计来确定的,则优选地可以完全或至少部分地省去迭代方法。从准确的噪声能量估计来计算量化器步长比分析合成循环中的计算要快得多,因为用于计算的值直接就存在,不必首先执行并比较几种量化尝试,直到找到适于编码的量化器步长为止。
然而,因为所使用的量化器特征曲线是非线性特征曲线,所以在噪声能量估计中必须考虑非线性特征曲线。不再可能把简单的噪声能量估计用于线性量化器,因为它不够精确。根据本发明,使用具有以下量化特征曲线的量化器:
y i = round [ ( x i q ) α + s ]
在以上方程中,xi是要量化的谱值。起始值由yi来表征,因而yi是量化的谱值。q是量化器步长。round是舍入函数,优选地为nint函数,“nint”代表“最接近的整数”。使量化器成为非线性量化器的指数被称为α,α不等于1。典型地,指数α将小于1,使得量化器具有压缩特性。对于第3层、并且对于AAC,指数α等于0.75。参数s是可以具有任何值,但也可以为0的加法常数。
根据本发明,利用以下关系来计算量化器步长。
Σ i | Δx i | 2 q 2 α 12 α 2 · Σ i x i 2 ( 1 - α )
在α等于3/4的情况下,得到以下方程:
Σ i | Δx i | 2 q 3 / 2 6.75 · Σ i | x i | 1 / 2
在这些方程中,左边项代表频带中所容许的干扰THR,并且是通过心理声学模型为具有i=i1至i=i2的频率线的缩放因子带而提供的。以上方程使能,几乎准确地为具有指数α不等于1的以上量化器特征曲线的非线性量化器,估计由量化器步长q引入的干扰,其中量化器方程中的nint函数执行舍入到下一整数的实际量化器方程。
应该注意,可以使用任何期望的舍入函数来代替nint函数,具体地说,例如舍入到下一偶数或下一奇数、或舍入到下一个10的倍数等。一般来讲,舍入函数负责把值从具有特定数量允许值的值集合映射到具有更少的第二特定数量值的值集合。
在本发明的优选实施例中,量化的谱值预先受到了TNS处理,并且如果所处理的是例如立体声信号,则对于mid/side(中间/旁边)编码,假定通道能使得mid/side(中间/旁边)编码器被激活。
因而,可以直接指示每个缩放因子带的缩放因子,并且可以将其馈入在量化器步长和缩放因子之间有关系的相应音频编码器,其中按照以下方程来给定量化器步长和缩放因子之间的关系。
q=2(1/4)*scf。
由以下方程产生缩放因子。
scf = 8.8585 · [ log 10 ( 6.75 · THR ) - log 10 ( FFAC ) ] ; Σ i | Δx i | 1 / 2 = FFAC
在本发明的优选实施例中,也可以利用基于分析合成原理的后处理迭代,以便稍微改变无迭代地直接计算的每个缩放因子带的量化器步长,以便获得实际最优值。
然而,与现有技术相比,已经非常精确的起始值计算使能非常短的迭代,虽然已经证明了在大多数情况下,可以完全省去下游的迭代。
因此,利用平均噪声能量来计算步长的优选思想提供了良好的实际估计,因为和现有技术不一样,它不是在最坏情况下操作,而是使用量化误差的期望值来作为基础,从而使能以少得多的位计数和主观上等效的质量,对数据进行高效地编码。另外,由于可以完全省去迭代以及/或者可以明确减少迭代步数,所以可实现快得多的编码器。这是值得注意的,尤其是因为现有技术编码器中的迭代循环对于编码器的总时间要求是必需的。因而,甚至一个或更少迭代步数的减少也将导致较大的编码器总时间节约。

附图说明

从以下连同附图一起考虑的说明,本发明的这些及其它目的和特征将变得显而易见,其中:
图1是用于确定量化的音频信号的设备的框图;
图2是代表根据本发明优选实施例的后处理的流程图;
图3描述了根据AAC标准的现有技术编码器的框图;
图4表示由更粗量化器步长引起的量化干扰的减小;以及
图5描述了用于确定用来对信号进行量化的量化器步长的本发明设备的框图。

具体实施方式

以下,将参考图5来介绍本发明的思想。图5示出了用于确定用来对经由信号输入500提供的、包括音频或信息的信号进行量化的量化器步长的设备的略图。信号被供给用于提供第一量化器步长(QSS)、并提供以下也将称为可引入干扰的干扰阈值的装置502。应该注意,干扰阈值可以是任何阈值。然而,优选地,干扰阈值将是心理声学或心理光学可引入干扰,这样选择该阈值,以致被引入干扰的信号仍将被听众或观众感觉为未受干扰的。
阈值(THR)及第一量化器步长被供给用于确定由第一量化器步长所引入的实际第一干扰的装置504。优选地,通过利用第一量化器步长进行量化、利用第一量化器步长进行重新量化、以及计算原始信号和重新量化的信号之间的距离,来确定实际引入的干扰。优选地,当正在处理谱值时,使原始信号和重新量化的信号的相应谱值平方,以便随后确定平方之差。可以采用替换的距离确定方法。
装置504为由第一量化器步长实际引入的第一干扰提供值。该第一干扰和阈值THR一起被供给用于比较的装置506。装置506在阈值THR和实际引入的第一干扰之间执行比较。如果实际引入的第一干扰大于阈值,则装置506将激活用于选择第二量化器步长的装置508,装置508被配置成选择要比第一量化器步长更粗,即更大的第二量化器步长。装置508所选择的第二量化器步长被供给用于确定实际引入的第二干扰的装置510。为此,装置510获得原始信号及第二量化器步长,并再次利用第二量化器步长执行量化、利用第二量化器步长执行重新量化、以及计算重新量化的信号和原始信号之间的距离,以便向用于比较的装置512提供实际引入的第二干扰的测量。用于比较的装置512对实际引入的第二干扰和实际引入的第一干扰或阈值THR进行比较。如果实际引入的第二干扰小于实际引入的第一干扰乃至小于阈值THR,则第二量化器步长将用于对信号进行量化。
应该注意,图5所描述的思想只是示意性的。自然,不一定需要提供分开的比较装置来执行方框506和512中的比较,而是也有可能提供单个据此控制的比较装置。上述情况也适用于用于确定实际引入的干扰的装置504和510。它们也不必被配置为分开的装置。
另外,应该注意,用于量化的装置不必被配置为和装置510分开的装置。确切地说,当装置510执行量化和重新量化以确定实际引入的干扰时,典型地和装置510中一样早地产生通过第二量化器步长量化的信号。当用于比较的装置512提供肯定结果时,所获得的量化值也可被存储和输出为量化的信号,使得用于量化的装置514照原样和用于确定实际引入的第二干扰合并在一起。
在本发明的优选实施例中,阈值THR是通过心理声学确定的最大可引入干扰,在这种情况下信号是音频信号。在此,通过心理声学模型来提供阈值THR,该心理声学模型以常规方式操作,并为每个缩放因子带提供可引入该缩放因子带中的估计最大量化干扰。最大可引入干扰是基于掩蔽阈值的,因为例如在利用安全间距执行编码,以致可引入干扰小于掩蔽阈值的意义上,或者在执行位速率减小意义上的更具进攻性的(rather offensive)编码的意义上,更具体地说在容许干扰超过掩蔽阈值的意义上,最大可引入干扰和掩蔽阈值是一样的、或者是从掩蔽阈值衍生的。
以下将参考图1来介绍用于提供第一量化器步长的装置502的优选实施方式。在这方面,图2的装置50和图5的装置502的功能性是相同的。优选地,装置502被配置成具有图1的装置10和装置12的功能性。另外,在该例子中,图5中的量化器514被配置成和图1中的量化器14相同。
此外,以下将参考图2来介绍,如果所引入的干扰超过阈值,也将尝试更粗量化器步长的完整过程。
另外,延伸图2中描述本发明思想的左边分支,因为如果所引入的干扰超过阈值且量化器步长的变粗不产生任何效果,并且如果位速率要求不是特别严格以及/或者“位存储单元(bit saving bank)”中仍有某些空间,则利用更小即更细的量化器步长执行迭代。
最后,以下将参考图4来介绍本发明所基于的效果,具体地说是以下效果:尽管量化器步长变粗,也可获得减小的量化噪声以及与之关联的压缩增益增大。
图1示出了用于确定作为谱值形式的谱表示而给出的量化音频信号的设备。尤其是应该注意,参考图3,如果没有执行TNS处理和mid/side(中间/旁边)编码,则谱值直接就是滤波器组的起始值。然而,如果只执行了TNS处理而没有执行mid/side(中间/旁边)编码,则馈入量化器1015中的谱值是如同由TNS预测滤波而形成的谱余值(spectral residual values)。
如果采用包括mid/side(中间/旁边)编码的TNS处理,则馈入本发明设备中的谱值是中间通道的谱值或旁边通道的谱值。
首先,本发明包括用于提供容许干扰的装置,由图1中的10所指示。图3所示的心理声学模型1020可用作提供容许干扰的装置,该心理声学模型1020典型地被配置成,为每个缩放因子带即一组在谱上相邻的几个谱值提供容许干扰或阈值(也称为THR)。容许干扰是基于心理声学掩蔽阈值,并指示在人耳感觉不到干扰能量的情况下、可引入原始音频信号的能量。换句话说,容许干扰是(通过量化)人为引入的、被实际音频信号掩蔽的信号部分。
装置10被描述为,为频带、优选地为缩放因子带计算容许干扰THR,并将容许干扰THR供给下游装置12。装置12用来为被指定了容许干扰THR的频带计算量化器步长信息。装置12被配置成将量化器步长信息q提供给下游的用于量化的装置14。用于量化的装置14按照方框14中所画的量化规范来操作,在图1所示的情况下量化器步长信息用于最初使谱值xi除以q值、然后使结果对不等于1的指数α取幂,然后视情况而定加上加法因子s。
随后,该结果被提供给舍入函数,在图1所示实施例中舍入函数选择下一整数。按照定义,可以通过截去小数点后的数字,即通过“总是下舍入”,来再次产生整数。作为选择,也可以通过下舍入到0.499、并且上舍入到0.5,来产生下一整数。作为另一替换方案,取决于各别实施,可以通过“总是上舍入”来产生下一整数。然而,可以采用以下其它任何舍入函数来代替nint函数:一般来讲,该其它任何函数把要舍入的值从第一、较大的值集合映射为第二较小的值集合。
然后,量化的谱值将呈现在装置14输出处的频带中。如从方框14中描述的方程可以看到的,除量化器步长q以外,自然还将向装置14提供要在所考虑的频带中进行量化的谱值。
应该注意,装置12不必直接计算量化器步长q,而是也可以计算如基于变换的现有技术音频编码器中所使用的缩放因子,作为替换的量化器步长信息。缩放因子经由图1中的方框12右边所描述的关系式,链接到实际的量化器步长。如果用于计算的装置进一步被配置成计算缩放因子scf作为量化器步长信息,则该缩放因子将被供给用于量化的装置14,然后在方框14中装置14将利用21/4scf值代替q值来执行量化计算。
以下将给出方框12中所给出的形式的推导。
如所阐述的,如方框14中所描述的指数律量化器服从以下关系式:
y i = round [ ( x i q ) α + s ]
逆操作如下:
xi′=yi1/α·q
因而,该方程式代表重新量化所需的操作,其中yi是量化的谱值,xi’是重新量化的谱值。此外,q是经由图1中的方框12右边所示的关系式和缩放因子关联的量化器步长。
如所预期的,如果α等于1,则结果和该方程一致。
如果对谱值的矢量来合计以上方程,则由索引i所确定的频带中的总噪声的计算如下:
Σ i | Δx i | 2 q 2 α 12 α 2 · Σ i x i 2 ( 1 - α )
总之,由量化器步长q和描述矢量分量分布的所谓形状因子,来确定矢量的量化噪声的期望值。
即使相对所希望的不同程度干扰电平来计算以上方程,作为以上方程中最右边项的形状因子也取决于实际的输入值,并且只需计算一次。
如已经阐述的,把α等于3/4的该方程简化如下:
Σ i | Δx i | 2 q 3 / 2 6.75 · Σ i x i 1 / 2
从而,该方程的左边是量化噪声能量的估计,在边界的情况下量化噪声能量与容许噪声能量(阈值)相符。
因而,将得到以下近似:
Σ i | Δx i | 2 = THR
方程右边部分中频率线(frequency line)的根的总和对应于频率线均匀性的测量,并且优选地和编码器中一样早地被称为形状因子:
Σ I | Δx i | 1 / 2 = FFAC
从而,得到以下结果:
THR q 3 / 2 6.75 · FFAC
在此,q对应于量化器步长。对于AAC,q被规定为:
q=2(1/4)*scf
scf是缩放因子。如果要确定缩放因子,则可以根据步长和缩放因子之间的关系来如下计算方程:
THR 2 ( 3 / 8 ) scf 6.75 · FFAC
2 ( 3 / 8 ) scf = 6.75 · THR FFAC
scf = 8 3 log 2 ( 6.75 · THR FFAC )
scf = 8 3 log 10 2 [ log 10 ( 6.75 · THR ) - log 10 ( FFAC ) ]
scf = 8.8585 · [ log 10 ( 6.75 · THR ) - log 10 ( FFAC ) ]
因而,本发明在具有特定形状因子的缩放因子带的缩放因子scf和给出特定干扰阈值THR的缩放因子之间提供紧密联系,干扰阈值THR典型地来源于心理声学模型。
如已经阐述的,利用平均噪声能量计算步长提供了更好的估计,因为所使用的基础是量化误差的期望值,而不是最坏情况。
因而,本发明的思想适于确定量化器步长,以及/或者与此等效,适于无任何迭代地确定缩放因子带的缩放因子。
然而,如果计算时间要求不很严格,则也可以执行如以下借助于图2表示的后处理。在图2的第一步骤中,估计第一量化器步长(步骤50)。利用借助于图1描述的过程,来执行第一量化器步长(QSS)的估计。随后在步骤52中,优选地根据如利用图1中方框14所描述的量化器、利用第一量化器步长执行量化。随后,对利用第一量化器步长所获得的值进行重新量化,以便随后计算所引入的干扰。因此,在步骤54中,验证所引入的干扰是否超过预定义的阈值。
应该指出,通过方框12中表示的关系所计算的量化器步长q(或scf)是近似值。如果图1的方框12中给出的关系实际上是准确的,则在方框54中应该确定所引入的干扰正好对应于阈值。然而,由于图1的方框12中的关系的近似性质,所引入的干扰可能超过阈值THR或落在阈值THR以下。
另外,应该注意,阈值的偏离将不是特别大,即使将仍然存在阈值偏离。如果在步骤54中发现,利用第一量化器步长、所引入的干扰落在阈值以下,即如果步骤54中问题的回答是否定,则将取图3中的右边分支。如果所引入的干扰落在阈值以下,则这意味图1方框12中的估计太不利,从而在步骤56中,设置比第二量化器步长更粗的量化器步长。
可以选择第二量化器步长比第一量化器步长粗的程度。然而,优选地取较小的增量,因为方框50中的估计将是已经较为准确的。
利用第二较粗(较大)量化器步长,在步骤58中执行谱值的量化、随后的重新量化、以及与第二量化器步长对应的第二干扰的计算。
然后在步骤(60)中,验证与第二量化器步长对应的第二干扰是否仍然落在初始阈值以下。如果是这样,则存储第二量化器步长(62),并开始新的迭代,以便在步骤(56)中设置更粗的量化器步长。然后,利用更粗的量化器步长再次执行步骤60以及看情况执行步骤62,以便再次开始新迭代。如果在步骤60中的迭代期间,发现第二干扰没有落在阈值之下,即第二干扰超过了阈值,则达到了终止准则,并且一旦达到终止准则,就利用最后存储的量化器步长执行量化(64)。
因为第一估计的量化器步长已经是较好的值,所以与较差估计的起始值相比,迭代次数将减少,这将导致编码时的计算时间的大大节约,因为用于计算量化器步长的迭代占据编码器计算时间的最大部分。
以下将参考图2的左边分支,来描述当实际引入的干扰超过阈值时所使用的本发明过程。
尽管引入的干扰已经超过阈值,也根据本发明设置更粗的第二量化器步长(70),然后在步骤72中执行与第二量化器步长对应的量化、重新量化和第二噪声干扰计算。此后,在步骤74中验证第二噪声干扰现在是否落在阈值以下。如果是这样,则步骤74中问题的回答是“是”,并存储第二量化器步长(76)。然而,如果发现第二噪声干扰超过了阈值,则利用所存储的量化器步长来执行量化,或者如果没有存储更好的第二量化器步长,则通过迭代,其中和现有技术中一样,选择更细的第二量化器步长来把把引入的干扰“推”到阈值以下。
接下来讨论,为什么当使用更粗的量化器步长、尤其当所引入的干扰超过阈值时,仍然可以获得改进。到目前为止,一直在以下的假定之下进行操作:更细的量化器步长导致更小的引入量化能量,并且更大的量化器步长导致更高的引入量化干扰。平均起来,情况可能是这样的,但不总是这样的,并且尤其是对于相当稀疏填充的缩放因子带、以及尤其当量化器具有非线性特征曲线时,情况将相反。已经发现,根据本发明,在不应低估的许多情况下,更粗的量化器步长导致更小的引入干扰。这可以追溯到以下事实:可能存在以下情况:更粗的量化器步长比更细的量化器步长更好地击中要量化的谱值,如将要利用参考图4的以下例子进行陈述的。
例如,图4示出了当对0和1之间的输入信号进行量化时的量化特征曲线(60),该量化特征曲线(60)提供四个量化级0、1、2、3。量化值对应于0.0、0.25、0.5和0.75。与之相比,在图4中用点线画出了不同的更粗量化特征曲线(62),该更粗量化特征曲线(62)只有和绝对值0.0、0.33和0.66对应的三个量化级。因而,在第一种情况下,即对于量化器特征曲线60,量化器步长等于0.25,而在第二种情况下,即对于量化器特征曲线62,量化器步长等于0.33。因此,第二量化器特征曲线(62)具有比代表细量化特征曲线的第一量化器特征曲线(60)粗的量化器步长。如果考虑要量化的值xi=0.33,则从图4可以看到,利用具有4级的细量化器进行量化的误差等于0.33和0.25之差,因此等于0.08。相反,由于量化器级照原样准确地“击中”要量化的值,利用3级进行量化的误差等于0。
因此,从图4可以看到,更粗的量化可能导致比细量化小的量化误差。
另外,更粗的量化是所要求的更小起始位速率的决定因素,因为和其中必须在0、1、2、3这4级给出信号的更细量化情况不一样,可能的状态只有三种,即0、1、2。另外,更粗量化器步长的优点在于,与其中更少的值被量化为“0”的更细量化器步长相比,更多的值倾向于被“量化”为0。即使当考虑一个缩放因子带中的几个谱值时、“量化为0”将导致量化误差的增大,这也不一定变得有问题,因为更粗的量化器步长可能以更准确的方式击中其它更重要的谱值,使得量化误差被抵销了,甚至被其它谱值的更粗量化过补偿,同时出现更小的位速率。
换句话说,总而言之,所获得的编码器结果“更好”,因为本发明的思想实现了要通知的状态数量的减小,同时提高了量化级的“击中”。
根据本发明,如图2左边分支所表示的,当引入的干扰超过阈值时,从估计值开始尝试更粗的量化器步长(图2中的步骤50),以便得益于利用图4表示的效果。另外,已证明,与图4所画出的两条线性量化器特征曲线的情况相比,该效果对于非线性量化器更为重要。
因而,所提出的量化器步长后处理和/或缩放因子后处理思想用于改进缩放因子估计器的结果。
从缩放因子估计器(图2中的50)中所确定的量化器步长开始,在分析合成步骤中确定尽可能大的、误差能量落在预定义阈值以下的新量化器步长。
因此,利用所计算的量化器步长对谱进行量化,并确定误差信号的能量,即优选地为原始和量化的谱值之差的平方和。作为选择,对于误差确定,也可以使用时间信号,即使优选使用谱值。
量化器步长和误差信号被存储为迄今所获得的最好结果。如果所计算的干扰超过了阈值,则采用以下方法:
缩放因子在预定义范围内在最初计算的值周围变化,尤其利用更粗量化器步长(70)。
对于每个新缩放因子,再次对谱进行量化,并计算误差信号的能量。如果误差信号小于迄今所计算的最小值,则把当前量化器步长和关联的误差信号的能量一起锁存为迄今获得的最好结果。
根据本发明,在此不仅考虑较小的缩放因子,而且还考虑较大的缩放因子,以便得益于参考图4描述的思想,尤其是当量化器是非线性量化器时。
然而,如果所计算的干扰落在阈值以下,即如果步骤50中的估计太不利,则缩放因子将在预定义范围内,在最初计算的值周围变化。
对于每个新缩放因子,对谱进行重新量化,并计算误差信号的能量。
如果误差信号小于迄今所计算的最小值,则把当前量化器步长和关联的误差信号的能量一起锁存为迄今获得的最好结果。
然而,在此只考虑较粗的缩放因子,以便减少对音频谱进行编码所需的位数。
取决于环境,可以用硬件或软件来实施本发明的方法。可以在数字存储介质,尤其是具有电子可读控制信号的盘或光盘(CD)上,实现本发明方法的实施,该电子可读控制信号可以和可编程计算机系统协作,以执行本发明方法。
一般,本发明是具有存储在机器可读载体上的程序代码的计算机程序产品,该程序代码用于当在计算机上运行该计算机程序产品时执行本发明的方法。换句话说,可以这样将本发明实现为一种具有程序代码的计算机程序,该程序代码用于当在计算机上运行该计算机程序时执行本发明的方法。