用于对音频信号进行编码或解码的方法和设备转让专利

申请号 : CN200480029891.8

文献号 : CN1867969B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : A·C·邓布林克A·J·格里特斯

申请人 : 皇家飞利浦电子股份有限公司

摘要 :

本发明公开了一种音频信号(x)的编码,该音频信号(x)由用于多个顺序时间片断当中的每一个的对应的一组采样信号值(x(t))表示。分析所述采样信号值,以便为所述多个顺序片段当中的每一个确定一个或多个正弦分量。跨越多个顺序片段链接正弦分量以便提供正弦轨道,每个轨道包括多个帧。产生一个已编码信号(AS),该已编码信号包括正弦代码(CS),所述正弦代码包含用于每个帧的表示层(r),并且当一个给定帧被指定为随机存取帧时,这些代码中的一些包含该给定帧的相位(ψ)、频率(ω)和量化表格(Q)。本发明允许在轨道中的随机存取,同时避免了在量化器中对量化精度的较长适配,以及/或者在保持提高的音频质量的同时不需要大比特流。

权利要求 :

1.一种编码音频信号的方法,该方法包括以下步骤:

-为多个顺序时间片段当中的每一个提供对应的一组采样信号值(x(t));

-分析所述采样信号值(x(t)),以便为所述多个顺序片段当中的每一个确定一个或多个正弦分量;

-跨越多个顺序片段链接正弦分量以便提供正弦轨道,每个轨道包括多个帧;以及-产生一个已编码信号(AS),该已编码信号包括正弦代码(CS),所述正弦代码包含用于0个或更多帧的表示层(r),并且当一个给定帧被指定为随机存取帧时,这些代码中的一些包含该给定帧的相位(φ)、频率(ω)和量化表格(Q)。

2.如权利要求1所述的方法,其中根据一个触发信号(Trig)在对应于包括表示层(r)的帧的代码以及对应于包括相位(φ)、频率(ω)和量化表格(Q)的帧的代码之间作出选择。

3.如权利要求1或2所述的方法,其中每个量化表格(Q)由一个索引(IND)表示,其中在随机存取帧(702)处将该索引(IND)从编码器(1)传送到解码器(3),而不传送量化表格(Q)。

4.如权利要求3所述的方法,其中使用Huffman编码来产生或表示所述索引(IND)。

5.如权利要求1或2所述的方法,其中随机存取帧的相位(φ)和频率(ω)是当前相位(φ(0))和当前频率(ω(0))。

6.一种解码一个已编码音频流(AS’)的方法,该方法包括以下步骤:-接收一个包括已编码音频流(AS’)的信号,该音频流(AS’)包括正弦代码(CS)的轨道,其中正弦代码(CS)包括一个用于0个或更多帧的表示层(r),并且当一个给定帧被指定为随机存取帧时,这些代码中的一些包含该给定帧的相位(φ)、频率(ω)和量化表格(Q);以及使用所述0个或更多接收到的表示层以及当一个给定帧被指定为随机存取帧时对于该指定帧接收到的相位(φ)、频率(ω)和量化表格(Q),以便合成该音频信号(y(t))的各正弦分量。

7.如权利要求6所述的方法,其中每个量化表格(Q)由一个索引(IND)表示,其中在随机存取帧(702)处从编码器(1)接收该索引(IND),而不接收量化表格(Q)。

8.如权利要求7所述的方法,其中使用Huffman编码来产生或表示所述索引(IND)。

9.如权利要求6或7所述的方法,其中随机存取帧的相位(φ)和频率(ω)是当前相位(φ(0))和当前频率(ω(0))。

10.一种音频编码器,其用来为多个顺序时间片段当中的每一个处理对应的一组采样信号值,该编码器包括:-一个分析器,用于分析所述采样信号值,以便为所述多个顺序片段当中的每一个确定一个或多个正弦分量;

-一个链接器(13),用于跨越多个顺序片段链接正弦分量以便提供正弦轨道,每个轨道包括多个帧;以及-装置(15),用于提供一个已编码信号(AS),该已编码信号包括正弦代码(CS),所述正弦代码包含用于0个或更多帧的表示层(r),并且当一个给定帧被指定为随机存取帧时,这些代码中的一些包含该给定帧的相位(φ)、频率(ω)和量化表格(Q)。

11.一种音频播放器,包括:

-用于接收一个包括已编码音频流(AS’)的信号的装置,该音频流(AS’)包括正弦代码(CS)的轨道,其中正弦代码(CS)包括用于0个或更多帧的表示层(r),并且当一个给定帧被指定为随机存取帧时,这些代码中的一些包含该给定帧的相位(φ)、频率(ω)和量化表格(Q);

-一个合成器,用于使用所述0个或更多接收到的表示层以及当一个给定帧被指定为随机存取帧时对于该指定帧接收到的相位(φ)、频率(ω)和量化表格(Q),以便合成该音频信号(y(t))的各正弦分量。

12.一种音频系统,包括如权利要求10的音频编码器和如权利要求11所述的音频播放器。

说明书 :

技术领域

本发明涉及对宽带信号、尤其是音频信号进行编码和解码。本发明涉及编码器和解码器,还涉及根据本发明编码的音频流,以及存储这种音频流的数据存储介质。

背景技术

当传送宽带信号(例如诸如语音的音频信号)时,使用压缩或编码技术来减小带宽或信号的比特率。
图1显示了已知的参数化编码方案,尤其是一种正弦编码器,该编码器在本发明中使用,并在WO 01/69593和欧洲专利申请02080002.5(PHNL021216)中有所描述。在该编码器中,输入音频信号x(t)被分割为几个(可能重叠的)时间片段或帧,通常每个时间片断或帧具有20ms的持续时间。每个片断被分解为瞬时、正弦和噪声分量。也可以导出输入音频信号的其它分量,诸如调和线丛(harmonic complex),虽然这与本发明的目的不相关。
在图1的正弦分析器130中,每个片断的信号x2通过使用由振幅、频率和相位参数表示的多个正弦波来模拟。该信息通常在一个分析时间间隔内通过执行傅立叶变换(FT)提取,其提供了该间隔的频谱表示,包括频率、每个频率的振幅以及每个频率的相位,其中每个相位在范围{-π;π}中被“卷绕(wrap)”。一旦每个片断的正弦信息被估计,就启动一个跟踪算法。该算法使用了成本函数来在片断到片断的基础上使不同片断内的正弦波互相链接,以便获得所谓的轨道。该跟踪算法因此产生了正弦代码CS,该正弦代码CS包括正弦轨道,其开始于特定时刻,并在多个时间片段上演变某段时间,然后停止。
在这种正弦编码中,通常传送在编码器中形成的轨道的频率信息。这可以用简单的方式完成,并且只需要相对低的成本,因为轨道只有缓慢变化的频率。因此频率信息可以通过时间差分编码而被有效地传送。总之,振幅也可以在时间上被差分编码。
与频率相比,相位随时间变化得更快。如果频率(基本上)是常数,那么相位将(基本上)随时间线性变化,并且频率变化将导致相应的与线性路程的相位偏离。作为轨道片断索引的函数,相位将具有近似线性的特性。因此已编码相位的传送更复杂。然而当传送时,相位被限制到{-π;π}的范围内,即相位被“卷绕”,如傅立叶变换所提供的那样。因为相位的模2π表示,所以结构上的相位的帧间关系丢失了,并且乍看起来是随机变化的。
然而,因为相位是频率的积分,所以相位是冗余的,并且原理上不需要传送该相位。这显著减小了比特率。在解码器中,相位由一个称为相位延续(phase continuation)的处理来恢复。
在相位延续中,只传送已编码频率,并且相位在解码器中通过利用相位和频率之间的积分关系而从频率数据中恢复。然而已知的是,当使用相位延续时,就不能完美地恢复相位。如果发生频率误差,例如由于频率中的测量误差或者由于量化噪声,那么通过使用积分关系重建的相位将通常展现出具有漂移特征的误差。这是因为频率误差具有近似随机的特征。低频误差被积分放大,因此所恢复的相位倾向于从实际测量的相位漂移。这导致了听觉伪信号(artefact)。
这显示在图2a中,其中Ω和ψ分别是轨道的真实频率和真实相位。在编码器和解码器中,频率和相位是积分的关系,由字母“I”所示。编码器中的量化过程被模拟成加性噪声n。因此在解码器中,所恢复的相位包括两个分量:真实相位ψ和噪声分量ε2,其中所恢复的相位的频谱和噪声ε2的功率谱密度函数具有显著的低频特征。
因此,可以看出在相位延续中,所恢复的相位本身是一个低频信号,因为该恢复的相位是一个低频信号的积分。然而,在重建过程中引入的噪声也主要在低频范围中。因此很难将这些源区分开来,以便将编码过程中引入的噪声n滤除。
此外,在相位延续中,每个轨道只有第一个正弦被传送,以便节省比特率。每个随后的相位从该轨道的初始相位和频率计算得出。因为频率被量化并且不总是被非常精确地估计,因此连续相位将从所测量的相位偏离。实验显示,相位延续降低了音频信号质量。
欧洲专利申请02080002.5(PHNL021216)通过提出一种联合频率/相位量化器来解决这些问题,其中,在-π和π之间具有值的正弦轨道的所测量相位通过使用所测量频率和链接信息而被解卷绕,从而产生沿着轨道单调增加的解卷绕相位。在编码器中,该解卷绕的相位通过使用自适应差分脉冲编码调制(ADPCM)量化器而被量化,并被传送到解码器。该解码器从该解卷绕相位轨迹中导出正弦轨道的频率和相位。
例如,ADPCM量化器可以如下配置。对于轨道的第一延续,该解卷绕相位根据表1量化。
  表示层r   表示表格R   层类型   0   -3.0   外层   1   -0.75   内层   2   0.75   内层   3   3.0   外层
表1:用于第一延续的表示表格R
量化边界由上表定义:{-∞;2·T(r=1),0,2·T(r=2),∞}。对于每个连续的延续,该表被缩放。如果该表示层是外层,那么该表就乘以21/2,使得量化精度变得更粗糙。否则,如果表示层在内层中的话,该表就乘以2-1/4,使得量化精度更精确。此外,内层还有上边界和下边界,即3π/4和π/64。
在上述方法中,解卷绕相位轨迹的量化是一个连续处理,其中量化精度沿着轨道被调节。因此,为了对轨道进行解码,解码处理必须从轨道的诞生点或起始点开始,即解码器只能去量化完整的轨道,而不可以解码部分轨道。因此,能够实现随机存取的特殊方法必须被添加到编码器和解码器中。随机存取可以例如用于在音频信号中进行“跳跃”或“快进”。
执行随机存取的第一个直接方法是在编码器/量化器中定义随机存取帧(或刷新点),并且在解码器中在这些随机存取帧处重启ADPCM量化器。对于随机存取帧,使用初始表格。因此,刷新在比特方面与正常的诞生一样昂贵。然而,该方法的缺点是量化表格(以及由此的量化精度)必须从随机存取帧向后再次被调节。因此,初始地,量化精度或许太粗糙从而在轨道中产生不连续,或者太精确以致产生大的量化误差。这导致与没有使用随机存取帧的解码信号相比,音频质量下降。
第二个直接方法是传送ADPCM量化器的所有状态(就是在欧洲专利申请02080002.5(PHNL021216)中提到的在预测器中的量化精度和存储器)。然后量化器将在具有或不具有随机存取帧的情况下具有相似的输出。通过这种方法,声音质量将几乎不受影响。但是,要传送所有信息的附加比特率是很可观的。尤其因为预测器的存储器的内容必须根据ADPCM量化器的量化精度而被量化。
本发明解决了这些问题。

发明内容

本发明提供了一种使用低比特率编码宽带信号的方法,尤其是音频信号或语音信号。更具体而言,本发明提供一种编码音频信号的方法,该方法包括以下步骤:为多个顺序时间片段的每一个提供对应的一组采样信号值;分析所述采样信号值,以便为所述多个顺序片段的每一个确定一个或多个正弦分量;跨越多个顺序片段链接正弦分量,以便提供正弦轨道,其中每个轨道包括多个帧;以及产生一个已编码信号,该已编码信号包括正弦代码,所述正弦代码包含用于0个或更多帧的表示层,并且当一个给定帧被指定为随机存取帧时,这些代码中的一些包含该给定帧的相位、频率和量化表格。
通过这个方法,能够实现随机存取(例如允许跳过轨道等等),同时避免在现有技术的量化器中(例如ADPCM量化器)对量化精度的较长适配,因为(一些)量化状态(以量化表格的形式)被传送到编码器。
此外,量化表格被适配成与使用缺省初始表格的第一直接方法相比更快。此外,与第二直接方法相比,本发明得到更低比特率。
本发明通过仅仅传送量化精度而提供了这两个(直接)方法之间的好的折衷,从而在低比特率下提供好的质量。
在一个优选实施例中,每个量化表格由一个索引表示,其中在随机存储帧处将该索引(而不是量化表格)从编码器传送到解码器。该索引例如可以通过使用Huffman编码来产生或表示。
优选地,随机存取帧的相位(φ)和频率(ω)是在根据用于量化轨道起始点的缺省方法量化的刷新帧中的所测量相位和所测量频率。这些相位和频率也可以分别表示为φ(0)和ω(0)。

附图说明

图1显示了其中实施本发明一个实施例的现有技术音频编码器;
图2a显示了现有技术系统中的相位和频率之间的关系;
图2b显示了使用相位编码的音频系统中的相位和频率之间的关系;
图3a和3b显示了根据本发明的图1的音频编码器的正弦编码器组件的一个优选实施例;
图4显示了其中实施本发明一个实施例的音频播放器;
图5a和5b显示了根据本发明的图4的音频播放器的正弦合成器组件的一个优选实施例;
图6显示了一种系统,该系统包括根据本发明的音频编码器和音频播放器;以及
图7a和7b分别显示了根据现有技术和本发明的从编码器发送并在解码器处接收的信息。

具体实施方式

现在参考附图描述本发明的一个优选实施例,其中相似的组件具有相似的附图标记,除非另有说明,其执行相似的功能。
图1显示了现有技术的音频编码器1,在其中执行本发明的一个实施例。在本发明的优选实施例中,编码器1是在WO 01/69593的图1以及欧洲专利申请02080002.5(PHNL021216)的图1中描述的正弦编码器类型。已经详细描述了现有技术的编码器和相应的解码器的操作,这里仅给出与本发明相关的介绍。
在现有技术和本发明优选实施例中,音频编码器1以某个采样频率对输入音频信号进行采样,从而产生了音频信号的数字表示x(t)。然后编码器1将采样的输入信号分离为3个分量:瞬时信号分量、持续确定性分量和持续随机性分量。音频编码器1包括瞬时编码器11、正弦编码器13和噪声编码器(NA)14。
瞬时编码器11包括瞬时检测器(TD)110、瞬时分析器(TA)111和瞬时合成器(TS)112。首先,信号x(t)进入瞬时检测器110。该检测器110估计是否有瞬时信号分量及其位置。该信息被馈送到瞬时分析器(TA)111。如果确定了瞬时信号分量的位置,那么瞬时分析器(TA)111就试图提取瞬时信号分量(的主要部分)。其将一个形状函数与一个优选地在所估计的起始位置处开始的信号片段相匹配,并通过使用例如多个(数量较小)正弦分量来确定形状函数下的内容。该信息包含在瞬时代码CT中,关于产生瞬时代码CT的更具体的信息参见WO 01/69593。
瞬时代码CT被提供到瞬时合成器(TS)112中。该合成的瞬时信号分量在减法器16中被从输入信号x(t)中减去,从而产生信号x1。增益控制机制GC(12)被用于从x1产生x2。
信号x2被提供到正弦编码器13,其在正弦分析器(SA)130中被分析,该分析器确定所述(确定性的)正弦分量。因此可以看出,虽然希望存在瞬时分析器,但这不是必须的,本发明可以在没有这种分析器的情况下实现。替换地,如上所述,本发明还可以例如使用调和线丛分析器来实现。简而言之,该正弦编码器将输入信号x2编码为从一个帧片段链接到下一个帧片段的正弦分量的轨道。
现在参考图3a,与现有技术相同,在本优选实施例中,输入信号x2的每个片段在傅立叶变换(FT)单元40中被变换到频域中。对于每个片段,FT单元提供所测量的振幅A、相位φ和频率ω。如上所述,傅立叶变换所提供的相位范围被限制为-π≤φ<π。跟踪算法(TRA)单元42获取每个片段的信息,并通过采用适当的成本函数从一个片段到下一个片段链接正弦,从而为每个轨道产生所测量相位φ(k)和频率ω(k)的序列。
最终由分析器130产生的正弦代码CS包括相位信息,并且频率是在解码器中从该信息重建的,正如在欧洲专利申请02080002.5(PHNL021216)中所描述的那样。根据本发明,当正在处理的给定子帧是随机存取帧时,由分析器130产生量化表格(Q)(或者优选地是表示量化表格(Q)的索引(IND))而不是表示层r,以下将参考图3b进行更详细的介绍。
然而如上所述,所测量相位φ(k)被卷绕,这表示其被限制于模2π的表示。因此,在该优选实施例中,分析器包括相位解卷绕器(PU)44,而模2π的相位表示被解卷绕,以便为轨道展示出结构上的帧间相位特性ψ。由于在正弦轨道中的频率几乎是常数,因此可以看出解卷绕相位ψ通常是几乎线性增长(或下降)的函数,这可以使得相位传送变得便宜,即可以以低比特率传送。作为相位编码器(PE)46的输入而提供解卷绕相位ψ,该编码器作为输出提供适于传送的量化表示层r(当给定子帧不是随机存储帧时)。
现在参考相位解卷绕器44的操作,如上所述,一个轨道的瞬时相位ψ和瞬时频率Ω有如下关系:
ψ(t)=T0tΩ(τ)+ψ(T0)---(1)
其中T0是参考时刻。
在帧k=K,K+1,...,K+L-1中的正弦轨道具有所测量频率ω(k)(以每秒的弧度为单位)和所测量的相位φ(k)(以弧度为单位)。各帧的中心间距离为U(以秒为单位表示的更新速率)。所测量频率应该是所假定的基本连续时间频率轨道Ω的样本,其中ω(k)=Ω(kU),类似地,所测量相位是相关联的连续时间相位轨道ψ的样本,其中对于正弦编码,假设Ω是几乎常数的函数。
假设所述频率在一个片段中几乎是常数,那么等式1可以近似为:
ψ(kU)=(k-1)UkUΩ(t)dt+ψ((k-1)U)(2)
{ω(k)+ω(k-1)}U/2+ψ((k-1)U)
因此可以看出,如果已知给定片段的相位和频率和下一个片段的频率,那么就可以估计下个片段的解卷绕相位值,从而估计轨道中每个片段的解卷绕相位值。
在该优选实施例中,相位解卷绕器确定时刻k的解卷绕因数m(k):
ψ(kU)=φ(k)+m(k)2π                    (3)
解卷绕因数m(k)告诉相位解卷绕器44必须添加的循环的数量以便获得解卷绕相位。
将等式2和3组合,该相位解卷绕器确定增量解卷绕因数e(k)如下:
2πe(k)=2π{m(k)-m(k-1)}={ω(k)+ω(k-1)U/2-{φ(k)-φ(k-1)}
其中e应该是整数。然而,由于测量和模型误差,增量解卷绕因数并不正好是整数,因此:
e(k)=round([{ω(k)+ω(k-1)}U/2-{φ(k)-φ(-1)}]/(2π))
其中假设模型和测量的误差很小。
在具有增量解卷绕因数e的条件下,等式(3)中的m(k)被计算为累加和,其中在无损一般性的情况下,该相位解卷绕器开始于m(K)=0的第一帧K,并从m(k)和φ(k)确定(解卷绕)相位ψ(kU)。
实际上,采样数据ψ(kU)和Ω(kU)被测量误差失真:
φ(k)=ψ(kU)+ε1(k),
ω(k)=Ω(kU)+ε2(k),
其中ε1和ε2分别是相位和频率误差。为了防止解卷绕因数的确定变得不明确,测量数据需要以充分的精度来确定。因此,在优选实施例中,对跟踪进行限制,以使得:
δ(k)=e(k)-[{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}]/(2π)<δ0
其中δ是舍入运算中的误差。因为乘以U,因此该误差δ主要由ω中的误差确定。假设ω由采样频率为Fs的输入信号采样版本的傅立叶变换的最大绝对值确定,并且该傅立叶变换的分辨率是2π/La,其中La是分析尺寸。为了在所考虑的边界内,我们有:
LaU=δ0
这意味着该分析尺寸应该是更新尺寸的几倍大,以便使解卷绕精确,例如设置δ0=1/4,该分析尺寸应该是更新尺寸的4倍大(忽略相位测量中的误差ε1)。
第二个预防措施(其可以用来避免在舍入运算中的判决误差)被用来恰当地定义轨道。在跟踪单元42中,正弦轨道通常是通过考虑振幅和频率差来定义的。此外,也可以在链接标准中考虑相位信息。例如,我们可以根据下式将相位预测误差ε定义为测量值和预测值之间的差:
ϵ={φ(k)-φ~(k)}mod2π
其中该预测值可以是:
φ~(k)=φ(k-1)+{ω(k)-ω(k-1)}U/2
因此,优选地,跟踪单元(TRA)42禁止了ε大于一个特定值(例如ε>π/2)的轨道,从而产生了e(k)的明确定义。
此外,编码器可以计算相位和频率,以便可以在解码器中使用。如果在解码器中可用的相位或频率与编码器中出现的相位和/或频率有很大的不同,那么可以决定中断轨道,例如用信号表示轨道的末端,并且使用当前的频率和相位和它们所链接的正弦数据来开始一个新的轨道。
相位解卷绕器(PU)44所产生的采样解卷绕相位ψ(kU)作为输入被提供到相位编码器(PE)46,以便当正被处理/传送的给定子帧是随机存取帧时产生一组表示层r(或者根据本发明产生量化表格(Q)或表示量化表格(Q)的索引(IND))。有效传送诸如解卷绕相位之类的通常单调变化的特征的技术是已知的。
图3b显示了相位编码器(PE)46的一个优选实施例。在该优选实施例中使用了自适应差分脉冲编码调制(ADPCM)。这里,预测器(PF)48被用来估计下个轨道片断的相位,并且在量化器(QT)50中仅仅编码差值。因为ψ被预期是几乎线性的函数,因此为了简单的目的,预测器48被选择为以下形式的二阶滤滤器:
y(k+1)=2x(k)-x(k-1)
其中x是输入,y是输出。然而可以看出,也可以使用其它函数关系(包括更高阶关系),也可以包括对滤波器系数的(向后或向前)的适配。在优选实施例中,向后自适应控制机制(QC)52被用来简单控制量化器(QT)50。向前自适应控制也是可以的,但是需要额外比特率。
可以看出,编码器(和解码器)对于轨道的初始化开始于对起始相位φ(0)和频率ω(0)的了解。所述相位和频率被分开的机制量化和传送。此外,在图5b中,编码器的量化控制器(QC)52以及解码器中的相应控制器62中所使用的初始量化步长或者被传送或者在编码器和解码器中被设置为某一值。最后,轨道的终点可以用信号在单独的边流中表示,或者作为相位比特流中的独特符号来表示。
在编码器和解码器中,解卷绕相位的起始频率是已知的。基于该频率来选择量化精度。对于开始于低频的解卷绕相位轨迹,选择比开始于更高频率的解卷绕相位轨迹来说更精确的量化格栅(即更高分辨率)。
在ADPCM量化器中,解卷绕相位ψ(k)是从轨道中的先前相位预测/估计的,其中k表示轨道的编号。预测相位和解卷绕相位ψ(k)的差随后被量化和传送。该量化器对于轨道中的每一个解卷绕相位而被适配。当预测误差很小的时候,量化器限制可能值的范围,从而使得量化更加精确。另一方面,当预测误差较大的时候,量化器使用更粗糙的量化。
图3b中量化器Q量化预测误差Δ,其由下式计算
Δ(k)=ψ(k)-ψ~(k)
该预测误差Δ可以通过使用查询表量化。为此,保持一个表格Q。例如,对于2比特ADPCM量化器,Q的初始表格看起来可以如表2所示。
  索引i   下边界bl   上边界bu   0   -∞   -1.5   1   -1.5   0   2   0   1.5   3   1.5   ∞
表2:用于第一延续的量化表格Q
量化如下进行。其中将预测误差Δ与边界b相比较,以便满足下式:
bli<Δ≤bui
根据i的值(其满足上述关系),表示层r由r=i计算。
相关的表示层被存储在表示表格R中,如表3所示。
  表示层r   表示表格R   层类型   0   -3.0   外层   1   -0.75   内层   2   0.75   内层   3   3.0   外层
表3:用于第一延续的表示表格R
表格Q和R的条目被乘以了一个因数c,以用于量化轨道中的下一个正弦分量。
Q(k+1)=Q(k)·c
R(k+1)=R(k)·c
在轨道解码期间,两个表格都根据所产生的表示层r而被缩放。对于当前的子帧,如果r是1或2(内层),那么用于量化表格的比例因数c被设置为
c=2-1/4
因为c<1,因此轨道中的下一个正弦的频率和相位变得更加精确。如果r是0或3(外层),那么该比例因数被设置为
c=21/2
因为c>1,因此轨道中的下一个正弦的量化精度下降。使用这些因数,一次放大可以通过两次缩小来抵消。放大和缩小因数的差导致放大的快速开始,而相应的缩小则需要两步。
为了避免量化表格中的非常小和非常大的条目,仅仅当内层的绝对值在π/64和3π/4之间时才进行适配。在内层小于等于π/64或者大于等于3π/4时,比例因数c被设置为1。
在解码器中,只需要维持表格R以便将所接收的表示层r变换成量化预测误差。该去量化操作由图5b的块(DQ)60执行。
使用上述设置,重建的声音的质量需要改进。根据起始频率,可以使用不同的用于解卷绕相位轨道的初始表格。这产生了更好的声音质量。该操作如下。初始表格Q和R基于轨道的第一频率而被缩放。在表4中,比例因数和频率范围一起给出。如果轨道的第一频率位于某一频率范围内,那么就选择合适的比例因数,并且表格R和Q被该比例因数所除。所述终点也依赖于轨道的第一频率。在解码器中,执行相应的程序以便以正确的初始表格R开始。
  频率范围   比例因数   初始表格Q   初始表格R   0-500Hz   8   -∞ -0.19 0 0.19 ∞   -0.375 -0.09375 0.09375  0.375   500-1000Hz   4   -∞ -0.375 0 0.375 ∞   -0.75 -0.1875 0.1875 0.75   1000-4000Hz   2   -∞ -0.75 0 0.75 ∞   -1.5 -0.375 0.375 1.5   4000-22050Hz   1   -∞ -1.5 0 1.5 ∞   -3 -0.75 0.75 3
表4:依赖于频率的比例因数和初始表格
表4显示了依赖于频率的比例因数的实例和相应的用于2比特ADPCM量化器的初始表格Q和R。音频频率范围0-22050Hz被分成4个频率子范围。可以看出,相对于较高频率范围,在较低频率范围中的相位精度提高了。
频率子范围的数量和依赖于频率的比例因数可以变化,并且可以被选择成适合单独的目的和要求。如上所述,在表4中的依赖于频率的初始表格Q和R可以被动态放大和缩小,以便适配于从一个时间片段到下一个时间片段的相位演变。
例如在3比特ADPCM量化器中,由3个比特定义的8个量化间隔的初始边界可以被定义如下:
Q={-∞ -1.41 -0.707 -0.35 0 0.35 0.707 1.41 ∞},并且可以具有最小格栅尺寸π/64和最大格栅尺寸π/2。表示表格R可以为:
R={-2.117,-1.0585,-0.5285,-0.1750,0.1750,0.5285,1.0585,2.117}。如表4所示的表格Q和R的相似的依赖于频率的初始化可以使用在该情况下。
到目前为止,使用了和欧洲专利申请02080002.5(PHNL021216)中相同的方法描述了该处理。
根据本发明,量化器(QT)50、预测器(PF)48和向后自适应控制机制(QC)52可以进一步接收(外部)触发信号(Trig),该信号表示正被处理的给定帧是随机存取帧。当没有触发信号(Trig)被接收时,该处理正常运行,并且只有表示层r被传送到解码器。当触发(Trig)被接收到(表示随机存取帧)时,不传送表示层r,而是传送量化表格(Q)或表示量化表格(Q)的索引(IND)以及当前相位(φ(0))和当前频率(ω(0))。
通过适当设置量化器参数,仅仅有限数量的量化表格是可能的。对于在表1中给出的例子,只有22个可能的量化表格,这在下面的表5中和索引号一起列出。表5中的条目是1.5·2k/4的舍入值,其中k的范围是-23,-22,...,5,6。
  索引   T1   T2   T3   T4   0   -4.2426   -1.0607   1.0607   4.2426   1   -3.5676   -0.8919   0.8919   3.5676   2   -3.0000   -0.7500   0.7500   3.0000   3   -2.5227   -0.6307   0.6307   2.5227   4   -2.1213   -0.5303   0.5303   2.1213   5   -1.7838   -0.4460   0.4460   1.7838   6   -1.5000   -0.3750   0.3750   1.5000   7   -1.2613   -0.3153   03153   1.2613   8   -1.0607   -0.2652   0.2652   1.0607
  索引   T1   T2   T3   T4   9   -0.8919   -0.2230   0.2230   0.8919   10   -0.7500   -0.1875   0.1875   0.7500   11   -0.6307   -0.1577   0.1577   0.6307   12   -0.5303   -0.1326   0.1326   0.5303   13   -0.4460   -0.1115   0.1115   0.4460   14   -0.3750   -0.0938   0.0938   0.3750   15   -0.3153   -0.0788   0.0788   0.3153   16   -0.2652   -0.0663   0.0663   0.2652   17   -0.2230   -0.0557   0.0557   0.2230   18   -0.1875   -0.0469   0.0469   0.1875   19   -0.1577   -0.0394   0.0394   0.1577   20   -0.1326   -0.0331   0.0331   0.1326   21   -0.1115   -0.0279   0.0279   0.1115
表5:在随机存储帧处的量化表格
因此,在一个优选实施侧中,为了减小所传送的数据量,仅仅向编码器传送表示/标识/指示给定量化表格(Q)的索引,其中该索引用来检索用作初始表格的合适的量化表格,这在下面将参考图5b更详细地介绍。
优选地,通过使用已知的Huffman编码来产生所述索引,对于表5,这种基于Huffman编码的索引可以列在表6中,如下:
  索引   IND   0   100001   1   11101
  索引   IND   2   11110   3   1100   4   1101   5   1010   6   0111   7   001   8   1011   9   0110   10   1001   11   0101   12   0000   13   0001   14   11100   15   01001   16   111111   17   111110   18   100000   19   010001   20   010000
  索引   IND   21   10001
表6:用于量化表格的Huffman索引(IND)
在一个优选实施例中,不传送给定的量化表格或者量化状态(例如19:T1=-0.1577;T2=-0.0394;T3=0.0394;T4=0.1577),而仅仅传送索引(IND)(例如010001),从而节省比特率。该索引然后在解码器中被用来检索合适的量化表格(例如19),其然后根据本发明被使用。
通过该方法,能够实现随机存取同时避免量化器中对于高精度的较长适配,这是因为随着量化表格的当前精度被存储并被传送给解码器(直接通过传送给定的量化表格(Q),或者间接通过传送表示/标识/指示给定量化表格(Q)的索引(IND)),不需要重启量化器。此外,该量化表格被适配成更快和/或获得更低的比特率。
随机存取帧可以例如通过在一个轨道期间选择每N个帧、使用音频分析来选择合适的点等等而被选择或标识。对于每个随机存取帧,当正在处理随机存取帧时,触发信号被提供给量化器(QT)50(以及(PF)48和(QC)52)。
根据使用正弦编码器产生的正弦代码CS,该正弦信号分量通过正弦合成器(SS)131以和对于解码器的正弦合成器(SS)所描述的相同方法重建。在减法器17中,从到正弦编码器13的输入x2中减去该信号,从而产生一个残余信号x3。由正弦编码器13产生的该残余信号x3被传递到该优选实施例的噪声分析器14,该噪声分析器产生表示噪声的噪声码CN,如在国际专利申请N0.PCT/EP00/04599中描述的那样。
最后,在复用器15中组成了音频流AS,其包括代码CT、CS和CN。该音频流AS被提供给例如数据总线、天线系统、存储介质等等。
图4显示了音频播放器3,其适于解码例如由图1的编码器产生的从数据总线、天线系统、存储介质等等获得的音频流AS’。音频流AS’在解复用器30中被解复用,以便获得代码CT、CS和CN。这些代码被分别提供到瞬时合成器(TS)31、正弦合成器(SS)32和噪声合成器(NS)33。在瞬时合成器(TS)31中,从瞬时代码CT计算瞬时信号分量。如果该瞬时代码表示一个形状函数,那么基于接收的参数来计算该形状。此外,基于正弦分量的频率和振幅来计算其形状内容。如果瞬时代码CT表示一个阶跃,那么就不计算瞬时。总的瞬时信号yT是所有瞬时的总和。
包括由分析器130编码的信息的正弦代码CS被正弦合成器32便用来产生信号ys。现在参考图5a和b,该正弦合成器32包括相位解码器(PD)56,其与相位编码器46相兼容。这里,去量化器(DQ)60与二阶预测滤波器(PF)64相结合地从以下各项中产生解卷绕相位(的估计):表示层r;被提供到预测滤波器(PF)64的当前信息φ(0)和ω(0),以及用于量化控制器(QC)62的初始量化步长。如果该帧是随机存储帧,那么从编码器接收的量化表格(Q)(而不是表示层r)在去量化器(DQ)60中被用作初始表格,这将在以下详细介绍。
如图2b所示,频率可以从解卷绕相位中通过差分恢复。假设在解码器处的相位误差近似白噪声,则由于差分放大了高频,因此该差分可以与低通滤波器相组合以便减小噪声,从而在解码器处获得对频率的精确估计。
在优选实施例中,滤波单元(FR)58近似该差分,其是从解卷绕相位中通过比如向前、向后或中央差分之类的程序获得频率所必须的。这能够使解码器产生可以以传统方式使用的相位和频率以作为输出,以便合成已编码信号的正弦分量。
同时,当信号的正弦分量被合成时,噪声代码CN被馈送到噪声合成器NS 33(其是一个滤波器),该合成器具有近似于噪声谱的频率响应。NS 33通过使用噪声代码CN滤波白噪声信号来产生重建噪声yN。总信号y(t)包括瞬时信号yT与一个乘积的和,该乘积是由任何振幅解压缩(g)乘以正弦信号ys与噪声信号yN的和而得到的。音频播放器包括两个加法器36和37以便将对应的信号相加。总信号被提供到输出单元35,其例如是一个扬声器。
根据本发明,对于随机存取帧,从编码器接收所传送的量化表格(Q)或索引(IND)而不是表示层r。对于所接收的帧是随机存取帧的指示可以例如通过在比特流语法中添加包括合适索引(例如表6所示)的附加字段来实现,从而标识要使用的特定量化表格(Q)。该索引从Huffman代码中获得。该索引表示用于ADPCM的表格,如表5所示。该表格包括所有可能的量化表格Q。其数量依赖于放大因数和缩小因数,以及内层的最小和最大值。
如果当前帧是随机存取帧,即对于子帧K的每个正弦,该子帧包括比特流语法的所述附加字段,该字段具有Huffman代码的值(作为触发信号(Trig)被提供到(QC)62、(DQ)60和(PF)64)。此外,子帧K还包括由编码器指定的用于每个正弦的直接量化的振幅、频率和相位。比特流语法的该字段被Huffman解码,并且根据表5选择合适的表格T。然后该表格在下一个子帧(K+1)中被用于去量化器(DQ)(60)。预测滤波器(PF)64对子帧K+1以与第一延续相同的方式被重新初始化:
ψr(K-1)=φ(K)-ω(K)·U,
其中U是更新间隔。这里φ是相位,ω是在子帧K中传送的频率。解码继续以上述的传统方式进行。
图6显示了根据本发明的音频系统,其包括图1所示的音频编码器1和如图4所示的音频播放器3。该系统提供播放和记录特征。音频流AS经由通信信道2从音频编码器被提供到音频播放器,该通信信道2可以是无线连接、数据总线20或存储介质。如果通信信道2是存储介质,则该存储介质可以被固定在系统中,或者也可以是可移动盘、存储卡或芯片或其它固态存储器。该通信信道2可以是音频系统的一部分,但通常在音频系统的外面。
图7a和7b分别显示了根据现有技术和本发明、从编码器发出并在解码器中接收的信息。图7a显示了具有其帧号码和频率的多个帧(701;703)。该图还显示了根据现有技术为每个(子)帧从编码器传送到解码器的信息或参数。可以看出,对于轨道帧(701)的诞生或开始而传送初始相位(φ(0))和初始频率(ω(0)),而对于属于该轨道的每个其它帧(703)则传送表示层r。
图7b显示了根据本发明的具有帧号码和频率的多个帧(701,702,703),以及对于每个(子)帧从编码器传送到解码器的信息或参数。可以看出,与图7a相似,对于轨道帧(701)的诞生或开始而传送初始相位(φ(0))和初始频率(ω(0)),而对于除随机存储帧(702)之外的、属于该轨道的每个其它帧(703)则传送表示层r。对于随机存取帧(702),当前(φ(0))和当前频率(ω(0))和相关量化表格(Q)(或者索引,如前所述)一起被从编码器传送到解码器。通过这个方法,至少一些量化状态被从编码器传送到解码器,从而避免听觉伪信号(如上所述),同时不会过于增大所需的比特率。