一种用于增强信源解码器的设备转让专利

申请号 : CN200610008886.X

文献号 : CN1838238B

文献日 : 2010-11-03

相似专利: 请登录后查看

本发明利用高频重建(HFR)提出用于增强信源解码器的设备。通过自适应噪声本底相加，它解决重建的高频带中噪声含量不足的问题。借助于限制无用噪声，内插和包络调整放大因子的平滑，它还引入增强性能的新方法。本发明可应用于语音编码系统和自然音频编码系统。

1.一种用于增强信源解码器的设备，该信源解码器通过对原始信号被信源编码所获得的编码的信号进行解码，产生解码的信号，该原始信号有低频带部分和高频带部分，该编码的信号包括原始信号的低频带部分而不包括原始信号的高频带部分，其中，该解码的信号被用于高频重建，以获得包括原始信号重建的高频带部分的高频重建信号，本设备包括：内插器(907)，用于内插频谱包络数据，所述频谱包络数据包括用于滤波器组信道集合的一个比例因子，其中所述信道集合有多个滤波器组信道，从而获得用于所述滤波器组信道集合中每一个滤波器组信道的内插比例因子；

置换器(905)，用于使用所述解码信号产生所述高频重建信号；

分析器(908)，用于分析所述高频重建信号以获得用于所述滤波器组信道集合中每一个滤波器组信道的高频重建信号比例因子；

放大因子计算器，用于使用用于所述每一个滤波器组信道的所述高频重建信号比例因子和所述内插比例因子，来计算所述信道集合中每个滤波器组信道的放大因子；以及调整器，用于使用所述诸个放大因子为信道集合中的诸个信道调整所述高频重建信号的频谱包络。

2.根据权利要求1所述的设备，其中所述内插器(907)可操作以为所述集合中的每个信道分配用于信道集合的所述比例因子。

3.根据权利要求1或2所述的设备，其中所述调整器可操作以限制或平滑所计算出的诸个放大因子。

4.一种用于增强信源解码器的方法，该信源解码器通过对原始信号被信源编码所获得的编码的信号进行解码，产生解码的信号，该原始信号有低频带部分和高频带部分，该编码的信号包括原始信号的低频带部分而不包括原始信号的高频带部分，其中，该解码的信号被用于高频重建，以获得包括原始信号重建的高频带部分的高频重建信号，本方法包括：内插(907)频谱包络数据，所述频谱包络数据包括用于滤波器组信道集合的一个比例因子，其中所述信道集合有多个滤波器组信道，从而获得用于所述滤波器组信道集合中每一个滤波器组信道的内插比例因子；

使用所述解码信号产生(905)所述高频重建信号；

分析(908)所述高频重建信号以获得用于所述滤波器组信道集合中每一个滤波器组信道的高频重建信号比例因子；

使用用于所述每一个滤波器组信道的所述高频重建信号比例因子和所述内插比例因子，来计算所述信道集合中每个滤波器组信道的放大因子；以及使用所述诸个放大因子为信道集合中的诸个信道调整所述高频重建信号的频谱包络。

技术领域

本发明涉及利用诸如频谱带复制SBR[WO98/57436]的高频重建(HFR)或有关方法的源编码系统。它改进高质量方法(SBR)以及低质量复制方法的性能[U.S.Pat.5，127，054]。它可应用于语音编码系统和自然音频编码系统。此外，利用自适应噪声本底相加，本发明可以有利地与有高频重建或没有高频重建的自然音频编解码器结合使用，以减小通常在低比特率条件下发生的频带关闭的音响效应。

背景技术

随机信号分量的存在是许多乐器以及人们声音的重要性质。若被感知的信号是自然发声，则重现这些噪声分量是很重要的，这些噪声分量往往与其他的信号分量相混合。在高频重建中，在某些条件下，必须增加噪声到重建的高频带中，为的是获得类似于原始信号中的噪声含量。这种必要性源于这样一个事实，与低频区域中的噪声电平比较，例如，簧片或弓弦乐器发出的大多数谐音在高频区域中有相对高的噪声电平。此外，发出的谐音中有时包含高频噪声，导致信号中高频带噪声电平与低频带噪声电平之间没有相似性。在任何一种情况下，频率置换，即，高质量SBR，以及任何低质量复制过程，在复制的高频带中有时会遇到缺少噪声。甚至于，高频重建过程常常包括某种包络调整，其中需要避免无用噪声替换谐波。因此，重要的是，在解码器中能够增加和控制高频再生过程中的噪声电平。
在低比特率条件下，自然音频编译码器通常显示严重的频带关闭。这是在帧到帧的基础上完成的，导致以任意方式在整个编码频率范围内出现频谱空洞。这种情况可以造成听觉上的假象。利用自适应噪声本底相加方法可以减轻这种效应。
一些现有技术编码系统包括这样一种装置，用于在解码器中重建噪声分量。这可以使编码器在编码过程中省略噪声分量，因此使它更加有效。然而，要使这种方法获得成功，在编码过程中被编码器排除的噪声必须不包含其他的信号分量。由于大多数噪声分量在时间和/或频率上与其他信号分量相混合，这种硬判决基噪声编码方案导致相对低的占空因数。而且，这种方案无论如何不能解决重建高频带中噪声含量不足的问题。

发明内容

本发明利用自适应增加噪声本底解决再生高频带中噪声含量不足的问题以及在低比特率条件下由于频带关闭引起的频谱空洞。它还避免无用噪声替换谐波。这是借助于在编码器中估算噪声本底电平，以及自适应噪声本底相加和在解码器中无用噪声替换限制完成的。
自适应噪声本底相加和噪声替换限制方法包括以下的步骤：
-在编码器中，利用加到原始信号频谱表示上的谷值踪迹(dip-follower)和峰值踪迹(peak-follower)，估算该原始信号的噪声本底电平；
-在编码器中，把噪声本底电平变换到几个频带，或利用LPC或任何其他多项式代表它；
-在编码器或解码器中，在时间和/或频率上平滑该噪声本底电平；
-在解码器中，按照原始信号的频谱包络表示整形随机噪声，并按照在编码器中估算的噪声本底电平调整该噪声；
-在解码器中，在时间和/或频率上平滑该噪声电平；
-在再生的高频带或关闭的频带中，给高频重建信号增加该噪声电平。
-在解码器中，利用包络调整放大因子限制，调整高频重建信号的频谱包络。
-在解码器中，利用接收频谱包络的内插，增大频率分辨率，因此，改进限幅器的性能。
-在解码器中，应用平滑操作到包络调整放大因子。
-在解码器中，产生高频重建信号，该信号是源于不同低频带频率范围的几个高频重建信号的和值，并分析该低频带以提供控制数据给这个和值。

附图说明

现在，参照附图并借助于几个说明性例子描述本发明，这些例子并不限制本发明的范围或精神，其中：
图1表示按照本发明加到高分辨率和中分辨率频谱的峰值踪迹和谷值踪迹，以及噪声本底到频带的变换；
图2表示按照本发明在时间和频率上平滑的噪声本底；
图3表示原始输入信号的频谱；
图4表示没有自适应噪声本底相加的SBR过程的输出信号频谱；
图5表示按照本发明有SBR和自适应噪声本底相加的输出信号频谱；
图6表示按照本发明的频谱包络调整滤波器组的放大因子；
图7表示按照本发明的频谱包络调整滤波器组中的平滑放大因子；
图8表示在源编码系统中编码器一侧的本发明可行的实施方案；
图9表示在源编码系统中解码器一侧的本发明可行的实施方案。

具体实施方式

以下描述的实施例仅仅说明改进高频重建系统的本发明原理。应当明白，此处描述的布置和细节中各种改动和变化对于本领域的其他专业人员是显而易见的。所以，本发明仅受所申请专利的权利要求书范围的限制，而不是受所描述和解释的实施例中具体细节的限制。
噪声本底电平估算
在利用足够的频率分辨率分析音频信号频谱时，可以清晰地见到共振峰，单个正弦波，等等，这在以下称之为精细结构频谱包络。然而，若利用低分辨率，则不可能观察到细节，这在以下称之为粗略结构频谱包络。噪声本底电平，虽然它未必是定义中的噪声，在本发明的整个使用过程中，它是指高分辨率频谱中沿局部最小点内插的粗略结构频谱包络与高分辨率频谱中沿局部最大点内插的粗略结构频谱包络之比率。这个测量值是通过计算信号段的高分辨率FFT并应用峰值踪迹和谷值踪迹得到的，如图1所示。然后，计算噪声本底电平作为峰值踪迹与谷值踪迹之差。在时间和频率上适当地平滑这个信号，得到噪声本底电平的量度。可以按照公式1和公式2描述峰值踪迹函数和谷值踪迹函数，

Y_{peak} (X (k)) = \max (Y (X (k - 1)) - T, X (k)), \forall 1 \leq k \leq \frac{fftSize}{2}

公式1

Y_{dip} (X (k)) = \min (Y (X (k - 1)) + T, X (k)), \forall 1 \leq k \leq \frac{fftSize}{2}

公式2
其中T是延迟因子，X(k)是k线处频谱的对数绝对值。计算两个不同FFT大小的一对，一个是高分辨率，另一个是中分辨率，为的是得到在颤音和准静态声音期间一个良好的估算值。加到高分辨率FFT的峰值踪迹和谷值踪迹是LP滤波的，为的是丢弃极端值。在得到两个噪声本底电平估算值之后，选取一个最大值。在本发明的一个实施方案中，把噪声本底电平值变换到多个频带，然而，也可以利用其他的变换，例如，曲线拟合多项式或LPC系数。应当指出，在确定音频信号中的噪声含量时，还可以利用几种不同的方法。然而，如上所述，本发明的目的是估算高分辨率频谱中局部最小值与局部最大值之差，虽然这未必是真实噪声电平的一个准确测量值。其他可行的方法是线性预测，自相关，等等，这些方法通常用于硬判决噪声/无噪声算法[“Improving Audio Codecs by Noise Substitution”D.Schultz，JAES，Vol.44，No.7/8，1996]。虽然这些方法力图测量信号中真实的噪声量，但是它们可应用于测量本发明中定义的噪声本底电平，虽然它们没能给出与上述方法相同的良好结果。还可以利用一种合成方法的分析，即，解码器置于编码器中，并按照这种方式评定所需自适应噪声量的准确值。
自适应噪声本底相加
为了加上自适应噪声本底，必须有信号的频谱包络表示。这可以是滤波器组装置的线性PCM值或LPC表示。在调整它到解码器接收值的准确电平之前，按照这个包络整形噪声本底。也可以利用解码器中给出的附加偏移调整该电平。
在本发明的一个解码器实施方案中，把接收的噪声本底电平与解码器中给出的上限值进行比较，再变换到几个滤波器组信道，随后在时间和频率上通过LP滤波进行平滑，如图2所示。在噪声本底加到该信号之后，调整复制的高频带信号，为的是得到正确的总信号电平。按照以下的公式3和公式4计算调整因子和噪声本底的能量。

noiseLevel (k, l) = sfb_nrg (k, l) \cdot \frac{nf (k, l)}{1 + nf (k, l)}

公式3

adjustFactor (k, l) = \sqrt{\frac{1}{1 + nf (k, l)}}

公式4
其中k指出频率线，l是每个子频带样本的时间指数，sfb_nrg(k，l)是包络表示，和nf(k，l)是噪声本底电平。在利用能量noiseLevel(k，l)产生噪声和利用adjustFactor(k，l)调整高频带幅度时，增加的噪声本底和高频带的能量是按照sfb_nrg(k，l)。图3至5表示该算法得出的一个例子。图3表示原始信号的频谱，该信号在低频带包含非常显著的共振峰结构，而在高频带中的共振峰很弱。图4表示没有自适应噪声本底相加而利用SBR处理这个信号得到的结果。显而易见，虽然复制高频带的共振峰结构是正确的，但是噪声本底电平太低。按照本发明估算和加上噪声本底电平得到图5中的结果，其中展示叠加到复制高频带上的噪声本底。自适应噪声本底相加的优点在视觉上和听觉上都是很明显的。
置换器增益自适应
利用多个置换因子，理想的复制过程产生大量的谐波分量，给出类似于原始信号的谐波密度。以下描述一种选择不同谐波的合适放大因子的方法。我们假设，输入信号是调和级数：

x (t) = Σ_{i = 0}^{N - 1} a_{i} \cos (2 π f_{i} t)

公式5
因子2的置换产生：

y (t) = Σ_{i = 0}^{N - 1} a_{i} \cos (2 \times 2 π f_{i} t)

公式6
很清楚，置换的信号中每隔二次的谐波已丢失。为了增加谐波密度，高阶置换(M＝3，5等)的谐波增加到高频带中。为了有利于大部分高阶谐波，重要的是，适当地调整它们的电平以避免重叠频率范围内的一种谐波占有主要成份。这样做时产生一个问题，如何处理各个谐波源范围之间的信号电平差。这些信号电平差还往往随程序材料而变化，对于不同的谐波很难使用恒定的增益因子。此处说明谐波电平调整方法，该方法中考虑到低频带中的频谱分布。来自置换器的输出馈入通过增益调整器，相加之后发送到包络调整滤波器组。低频带信号也发送到能够进行频谱分析的这个滤波器组。在本发明中，评价对应于不同置换因子的源范围的信号功率，并相应地调整各种谐波的增益。一种更精心设计的解决办法是估算低频带频谱的斜率，利用简单的滤波器装置，例如，斜率滤波器，在输入到该滤波器组之前给予补偿。重要的是，应当注意，这个过程不影响滤波器组的均衡功能，且该滤波器组分析的低频带不再由它重新合成。
噪声替换限制
按照以上公式5和公式6，复制的高频带有时在频谱中包含空洞。包络调整算法力图使再生高频带中的频谱包络类似于原始信号的频谱包络。我们假设，原始信号在一个频带内有高的能量，且置换的信号在这个频带内显示频谱空洞。倘若放大因子允许取任意的数值，这意味着，非常高的放大因子可以加到这个频带上，则可以调整噪声或其他无用信号分量到与原始信号相同的能量上。这称之为无用噪声替换。令
P1＝[p11，...，p1N] 公式7
是原始信号在给定时刻的比例因子，和
P2＝[p21，...，p2N] 公式8
是置换后信号的对应比例因子，其中两个矢量中的每个元素代表在时间和频率上归一化的子频带能量。我们得到如下的频谱包络调整滤波器组所需的放大因子

G = [g_{1}, \cdot \cdot \cdot {, g}_{N}] = [\sqrt{\frac{p_{11}}{p_{21}}}, \cdot \cdot \cdot, \sqrt{\frac{p_{1 N}}{p_{2 N}}}]

公式9
通过观察G，利用无用噪声替换确定频带是不重要的，因为这些频带相对于其他频带展现非常高的放大因子。应用限幅器到放大因子上，即，允许它们自由地改变到某个极限值gmax，因此，可以容易地避免无用噪声替换。利用噪声限幅器得到如下的放大因子，
Glim＝[min(g1，gmax)，...，min(gN，gmax)] 公式10
然而，这个表达式仅显示噪声限幅器的基本原理。由于置换后信号和原始信号的频谱包络在电平和斜率上可能有很大的差别，采用恒定的gmax值是不可行的。取而代之，计算以下定义的平均增益

G_{avg} = \sqrt{\frac{\underset{i}{Σ} P_{1 i}}{\underset{i}{Σ} P_{2 i}}}

公式11
并允许放大因子超过该值某个量。为了考虑到宽频带电平的变化，也可以把两个矢量P1和P2分成不同的子矢量，并相应地给予处理。按照这种方式，得到一个非常有效的噪声限幅器，没有干扰或限制包含有用信息的子频带信号的电平调整功能。
内插
在产生比例因子时，通常是在子频带音频编码器中把分析滤波器组的各个信道进行组合。比例因子代表频带内频谱密度的估算，该频带包含组合的分析滤波器组各个信道。为了得到可能的最低比特率，需要把发射的比例因子数目减至最小，这意味着使用尽可能大的滤波器信道组。通常，这是按照Bark比例通过组合各个频带完成的，因此采用人类听觉系统的对数频率分辨率。这在SBR解码器包络调整滤波器组中是可能的，对各个信道的组合是与编码器中在比例因子计算期间所用的组合相同。然而，通过内插来自接收比例因子的各个值，调整滤波器组仍然可以在滤波器组信道的基础上工作。最简单的内插方法是，在用于比例因子计算的组内，给每个滤波器组信道分配该比例因子值。还分析置换后的信号，并计算每个滤波器组信道的比例因子。这些比例因子和代表原始频谱包络的内插值，用于按照上述方法计算放大因子。利用这种频率域内插方法有两个主要的优点。与原始信号比较，置换后的信号往往有较稀疏的频谱。因此，频谱的平滑操作是有利的，与宽频带比较，这种平滑操作在窄频带上更加有效。换句话说，包络调整滤波器组可以更好地隔离和控制产生的谐波。此外，由于利用较高的频率分辨率可以更好地估算和控制频谱空洞，从而改进了噪声限幅器的性能。
平滑操作
在得到合适的放大因子之后，在时间和频率上进行平滑操作是有利的，为的是避免调整滤波器组时出现的混叠和振铃现象以及放大因子中的波纹。图6表示利用对应的子频带样本乘以放大因子。该图展示两个高分辨率块，随后是三个低分辨率块和一个高分辨率块。它还表示在较高频率下减小的频率分辨率。通过在时间和频率上滤波放大因子，例如，采用加权运动平均，图7中没有图6中的尖锐变化。然而，重要的是，保持时间短块的瞬态结构，为的是不减小复制频率范围的瞬态响应。类似地，重要的是，不要过分地滤波高分辨率块的放大因子，为的是保持复制频率范围内的共振峰结构。在图9b中，滤波操作是故意夸大的以获得较好的视觉效果。
实际的实施方案
利用任何的编译码器，本发明可以在各种类型的系统中用硬件芯片和DSP实施，这种系统用于存储或传输模拟信号或数字信号。图8和图9表示本发明可行的实施方案。此处，高频重建是借助于频谱带复制SBR完成的。图8表示编码器一侧。模拟输入信号馈入到A/D转换器801和任意的音频编码器802，以及噪声本底电平估算单元803和包络提取单元804。编码的信息多路复用成串行比特流805，用于发射或存储。图9表示典型的解码器实施方案。串行比特流被多路分解901，包络数据被解码，902，即，高频带的频谱包络和噪声本底电平。利用任意的音频解码器解码被分解的源编码信号，903，并向上取样，904。在这个实施方案中，在单元905中应用SBR置换。在这个单元中，按照本发明，利用来自分析滤波器组908的反馈信息放大不同的谐波。噪声本底电平数据发送到自适应噪声本底相加单元906，在其中产生噪声本底。按照本发明，频谱包络数据被内插907，放大因子受到限制909，并接受平滑操作910。调整重建的高频带911，并增加自适应噪声。最后，该信号被重新合成912，相加到延迟的低频带中913。数字输出转变成模拟波形914。
本申请是申请号为No.200410045997.9，申请日为2000年1月26日，发明名称为“一种用于增强信源解码器的设备的分案申请。

一种用于增强信源解码器的设备转让专利

申请号 : CN200610008886.X

文献号 : CN1838238B

文献日 : 2010-11-03

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 克里斯托弗·克约尔林 , 佩尔·艾克斯特兰德 , 弗雷德里克·海恩

申请人 : 编码技术股份公司

摘要 :

权利要求 :

说明书 :

技术领域

背景技术

发明内容

附图说明

具体实施方式