通过二维变换压缩音频比例因子转让专利
申请号 : CN200980135239.7
文献号 : CN102150207B
文献日 : 2013-04-10
发明人 : D·V·施穆克
申请人 : DTS(英属维尔京群岛)有限公司
摘要 :
权利要求 :
1.一种在使用比例因子加数据的格式表示声音样本或频谱值的音频压缩系统中,压缩表示声音的数字化音频信号的方法,所述信号具有音频带宽,其中样本被表示为比例因子和相关数量的乘积,所述方法包括步骤:接收表示声音的数字信号;
将样本组织为至少一个音频帧,所述帧包括表示一个时间间隔的多个时间连续的样本;
对于每帧,将所述多个时间连续的样本处理为多个子带信号,每个子带信号表示相应的子带频率范围,并且包括所述子带频率范围内的音频样本的时间序列;
将所述子带信号转换为一种格式,该格式将每个滤波后的音频样本表示为a)比例因子字段中表示的比例因子,和b)数量字段中表示的数量字段的乘积;
在相应于每一帧的至少一个区块上,以二维组织所述子带信号的比例因子字段,所述区块包括以时间作为第一维度,并且以子带频率范围作为第二维度组织的比例因子矩阵;
以二维正交变换处理所述至少一个区块,以便为每个所述区块产生相应的比例因子系数矩阵;
压缩每个所述比例因子系数矩阵,以便产生以压缩格式表示区块内的比例因子的压缩的系数矩阵;
将所述压缩的系数矩阵打包成数据格式以用于传输。
2.如权利要求1所述的方法,其中所述正交变换包括二维离散余弦变换。
3.如权利要求1所述的方法,其中所述至少一个区块包括多个区块,通过划分表示完整音频帧的二维矩阵,得出所述多个区块;
每个所述区块表示一个时间子间隔和所述完整音频帧的频率范围的一部分。
4.如权利要求3所述的方法,还包括步骤:
在所述处理所述至少一个区块的步骤之后,根据重新量化矩阵重新量化所述至少一个区块。
5.如权利要求1所述的方法,其中所述压缩步骤包括:对于至少一个比例因子系数矩阵,将系数重新布置成系数串。
6.如权利要求5所述的方法,其中所述压缩步骤还包括:使用熵减少编码压缩所述系数串。
7.如权利要求6所述的方法,其中所述熵减少编码包括Huffman编码。
8.如权利要求1所述的方法,其中所述压缩步骤包括在公共帧内的相关区块上使用差分编码。
9.如权利要求1所述的方法,其中所述组织比例因子字段的步骤包括通过预测模型修改所述至少一个区块,以便获得修改后的比例因子矩阵,所述预测模型以行和列中的至少一个上的计算的趋势来模拟矩阵。
10.如权利要求9所述的方法,其中所述预测模型包括线性预测模型,并且其中计算的趋势是线性趋势。
11.如权利要求9所述的方法,其中所述预测模型包括多项式模型,并且所述计算的趋势包括多项式函数。
12.如权利要求1所述的方法,其中所述将所述多个时间连续的样本处理为多个子带信号的步骤包括:以数字带通滤波器组对所述多个时间连续的样本滤波,然后抽减以便产生多个临界采样的子带信号。
13.如权利要求1所述的方法,其中所述将所述多个时间连续的样本处理为多个子带信号的步骤包括:以频率变换将所述样本的连续集合变换为频域表示,以便为每个所述集合产生对应于一组频率区间的子带信号序列。
14.如权利要求1所述的方法,还包括在将所述压缩的系数矩阵打包成数据格式后,通过传输介质传输所述压缩的系数矩阵的步骤。
15.如权利要求14所述的方法,其中所述传输介质包括数据网络。
16.如权利要求1所述的方法,还包括在将所述压缩的系数矩阵打包成数据格式后,在机器可读介质上记录所述压缩的系数矩阵的步骤。
17.一种对表示音频信号的编码的电子数据信号解码的方法,该方法用于对信号解码,其中样本被使用比例因子加数量的格式来表示声音样本或频谱值的系统编码,其中样本被表示为比例因子和相关联的数量(Q)的乘积,所述解码方法包括步骤:解包接收到的数据分组,以便分离编码的比例因子数据和编码的数量数据;
解压缩所述编码的比例因子数据,以便产生至少一个系数矩阵;和以二维逆正交变换来变换所述至少一个矩阵,以便获得至少一个相应的比例因子子矩阵,所述逆正交变换是用于对所述系数矩阵编码的正交变换的逆过程。
18.如权利要求17所述的方法,其中所述逆正交变换包括逆二维离散余弦变换。
19.如权利要求17所述的方法,其中:
所述至少一个系数矩阵包括多个系数矩阵;
所述变换所述至少一个系数矩阵的步骤包括变换多个系数矩阵中的每一个,以便获得多个对应的比例因子子矩阵;
并且还包括通过以对应于已知编码器中所使用的区块模式的预定区块模式连接所述比例因子子矩阵,将所述比例因子子矩阵组合为更大的帧矩阵的步骤。
20.如权利要求17所述的方法,其中所述解压缩所述编码的比例因子数据的步骤包括对熵减少编码解码。
21.如权利要求20所述的方法,其中所述熵减少编码包括Huffman编码。
22.如权利要求21所述的方法,其中所述解压缩所述编码的比例因子数据的步骤还包括:对公共帧矩阵中的相邻子矩阵之间的差值解码,并且将所述差值求和以重构子矩阵。
23.如权利要求21所述的方法,还包括步骤:
通过将所述解压缩的比例因子从非线性量化转换为线性比例因子,从而计算音频帧的比例因子矩阵,重新量化所述比例因子矩阵,以便获得解压缩的重新量化的比例因子矩阵。
24.如权利要求17所述的方法,还包括步骤:
通过将所述解压缩的比例因子从非线性量化转换为线性比例因子,从而计算音频帧的比例因子矩阵,重新量化所述比例因子矩阵,以便获得重新量化的解压缩的比例因子矩阵;
以及
将所述重新量化的解压缩的比例因子矩阵的元素与对应的数据数量(Q)相乘,以便重构音频样本的矩阵。
25.如权利要求24所述的方法,还包括处理所述音频样本矩阵,以便构造连续的数字化音频样本流的步骤。
26.如权利要求25所述的方法,其中所述处理所述音频样本矩阵的步骤包括:对于所述音频样本矩阵中的每一行,以合成滤波器处理该行,所述合成滤波器以与已知编码器执行的抽减互补的方式将该行上采样到样本中的帧长度,从而获得多个重构的子带信号;
混合所述重构的子带信号,以便产生表示声音的全频带音频信号的复制品。
27.如权利要求26所述的方法,还包括出于再现声音的目的,将所述音频样本输出到其它设备的步骤。
28.如权利要求26所述的方法,还包括使得基于所述连续的数字化音频样本流再现声音的步骤,所述声音是以与该解码方法兼容的方法编码的声音的近似复制品。
29.如权利要求17所述的方法,还包括步骤:
接收输入信号;和
将所述信号解码为数据分组。
30.如权利要求29所述的方法,其中从数据网络接收所述输入信号。
31.如权利要求29所述的方法,其中从机器可读存储介质读取所述信号。
说明书 :
通过二维变换压缩音频比例因子
技术领域
背景技术
缩的若干变体,通常在商业中使用诸如DTS相干声学(见美国专利5974380)和Dolby AC3
的某些方法。
量化样本表示信号(时域表示)。在其它编解码器中,样本可被若干数学方法中的任意一种
进行数学变换,以便产生也被称为谱表示或变换表示的“频域”表示。这种编解码器通常被
称为“变换编解码器”。
是已知的。每个数据值以比例因子和数量参数表示,数量参数可被理解为与比例因子相乘
以便恢复原始数据值。该方法有时被称为“比例表示”,有时被特定地称为比例块表示,或有
时被称为“浮点”表示。应当理解,浮点表示是比例表示的特定情况,其中一个数字被以尾
数(mantissa)和指数(exponent)的组合表示。尾数相应于数量参数;指数相应于比例因
子。通常,比例因子位可按某种非线性方案表示,诸如指数或对数映射。因此,比例因子字
段的每个量化步骤可以表示以10为底的对数方案的某个分贝数(例如)。
因此,希望减少传输比例因子所需的比特数。针对该问题的最常见的现有方法是传输与某
种较大的多个(块)样本相关联的单个比例因子。这种技术的一种变体被称为“块浮点”。
这种方法达到了最佳量化和需要减少传输比例因子所需的比特之间的折衷。该技术的成功
极大地依赖于信号的时间和频率行为,并且信号瞬变带来了挑战。
发明内容
将样本组织为至少一个音频帧,该帧包括表示一个时间间隔的多个时间连续的样本;对于
每帧,将所述多个时间连续的样本处理为多个子带信号,每个子带信号表示相应的子带频
率范围,并且包括所述子带频率范围内的音频样本的时间序列;将所述子带信号转换为一
种格式,该格式将每个滤波音频样本表示为a)比例因子字段中表示的比例因子,和b)数量
字段中表示的数量字段的乘积;在相应于每一帧的至少一个区块上,以二维组织所述子带
信号的比例因子字段;以二维正交变换处理所述至少一个区块,以便为每个所述区块产生
相应的比例因子系数矩阵;压缩每个所述比例因子系数矩阵,以便产生压缩系数矩阵;和
将所述压缩系数矩阵打包成用于传输的数据格式。
来对每个所述系数矩阵变换,以便获得多个相应的比例因子子矩阵;通过以相应于已知编
码器中使用的区块模式的预定区块模式连接所述比例因子子矩阵,将所述比例因子子矩阵
组合为较大的帧矩阵;和重新量化比例因子矩阵,以便获得解压缩的重新量化的比例因子
矩阵。
换将至少一个比例因子矩阵编码成比例因子系数矩阵;和包括编码的数据数量的数量字
段。
附图说明
样本时间组织的不同时间;
具体实施方式
宽带音频信号划分为多个子带信号的编解码器上下文中,对二维比例因子压缩的使用,抽
减(decimate)所述子带信号,以便临界地产生采样子带信号。本发明不限于这种上下文。
而是这些技术还与任意“变换编解码器”有关,出于这个目的,变换编解码器可被认为是子
带编解码器的特殊情况(具体地,使用数学变换,以便将样本的时间序列组织为频域表示
的编解码器)。因此,下面描述的技术可以适用于离散余弦变换编解码器、修改的离散余弦
变换编解码器、傅立叶变换编解码器、小波变换编解码器或任意其它变换编解码器。在面向
时域的编解码器的领域,该技术可被应用于使用数字滤波将信号划分为临界采样子带信号
(例如,美国专利5,974,380和别处描述的DTS 5.1环绕声)的子带编解码器。
可以是电的、光学的或任意其它传输通道(存储介质可被认为是其特定的例子)。该传输通
道可以包括开放或封闭网络、广播或任意其它网络拓扑。
转换被转换为数字格式,并且被适合地预先处理。典型地,如本领域已知的,应用模拟滤波、
数字滤波和其它预处理,以便最小化混叠(aliasing)、饱和度或其它信号处理错误。可以用
常规的线性方法诸如PCM编码表示音频信号。以多抽头多频带的分析滤波器组110对输入
信号滤波,滤波器组110适合地为一组互补正交镜像滤波器。可替换地,可以使用伪正交镜
像滤波器(PQMF),诸如多相滤波器组。滤波器组110产生多个子带信号输出112。图中仅示
出了几个这种输出,但是应当理解,通常采用大量这种子带输出,例如,32或64个。作为滤
波功能的一部分,滤波器组110优选地还应当临界地抽减每个子带内的子带信号,特别地,
将每个子带信号抽减为每秒仅仅足以完全表示每个子带内的信号(“临界采样”)的更少数
目的样本。这种技术是本领域已知的,并且例如在Bosi,M和Goldberg,R.E.,Introduction
to Digital Audio Codingand Standards,(Kluwer,date unknown),或Vaidyanathan,
MultirateSystems and Filter Banks,(Prentice Hall,1993)中有所讨论。
比例因子位中编码)和数量参数(存储在数据位中)的表示。比例因子通常可被非线性地
量化为例如分贝,然后例如通过Huffman编码被进一步编码。应当理解,如果比例因子首先
被解码为线性表示,那么样本值等于比例因子乘以数量参数。在一种常见方案中,样本可被
转换为包括指数和尾数的临时浮点形式,指数和尾数中的每一个位于以前指定的比特字段
中。
使用一种比特分配方案寻求优化服从比特率约束的某种准确性测量(诸如,最小平方误差
“MMSE”);或该方案可以寻求设置服从关于误差测量的预定约束的比特率。初始比例因子
分配仅是预备性的(换言之,临时的),并且以后可在该方法中被修改。对应基于非线性的
映射,诸如分贝或其它对数比例,分配所述分配的比例因子。可以根据线性或非线性映射分
配数据参数(尾数)。
(tandem)组合。可以使用有损或无损方法,但是预期有损方法在该方法可以利用人类听觉
的已知感知特性和限制方面最为有效。数据参数的编码对于本发明是附带的,本发明主要
涉及比例因子数据的压缩(比例因子数据基于逐个样本和数据参数相关联)。
置成一系列矩阵的特定方法。虽然图1示出了相应于4个“区块”的4个信号路径,但是可
以采用其它数目的区块,或在某些实施例中可以仅使用单个区块。
二维离散余弦变换(DCT)修改(如下面结合更特定地描述的)并压缩比例因子。这种操作
产生表示比例因子帧的修改后的比例因子矩阵。然后,对DCT变换后的比例因子矩阵(称
为比例因子系数矩阵)进一步处理和编码(方框126)以便去除熵。下面讨论细节。已经
发现在DCT变换之后,比例因子系数矩阵可被极大地压缩。然后存储压缩的比例因子矩阵
以便传输(模块128)。
不同)。使用重构的比例因子矩阵,编码器重新量化初始子带样本(重新量化模块130)。最
终,压缩的比例因子矩阵(或更准确地,可被解码以便重构这种矩阵的被极大压缩的编码)
与压缩的数据参数多路复用(通过多路复用器132),成为某种数据格式或“分组”,然后该
数据格式或“分组”被传输。可替换地,本发明准备的数据格式可被存储在机器可读介质上。
换言之,出于本申请的目的,数据存储和以后的检索可被认为是“传输”的特定情况。
址位、奇偶校验位、CRC位或其它改变,以便适应数据传输系统的网络层和物理层。这些方
面不是本申请的主题,但是是相关领域的技术人员所理解的。
的编码处理,由比例因子解码器204对编码的比例因子解码,以便重新构造重构的比例因
子矩阵。下面结合图8更详细地描述这些步骤。音频数量参数也被数量字段解码器206以
与用于对这些数量参数编码的方法互补的方法解码。最终为每个样本相关联地组合重构的
比例因子和数量参数(重构的比例数据)。最后,比例数据可通过相乘被解码或扩展(在方
框208内),以便产生表示每个音频样本的解码值的定点或整数音频数据。208的输出是表
示音频信号的一系列连续的数据。(数字)输出210可被D/A转换器转换为音频信号,诸如
电压或电流,该音频信号又可被用于驱动扬声器或耳机,从而重构接近复制的声音。
择地,解码器可以利用通道间相关性,来改进多通道实施例的压缩。
据传输或存储系统通信的数据存储能力。例如,可以采用可从各种半导体制造商获得的通
用微处理器,诸如ARM11处理器。可替换地,可以使用更专用的DSP处理器芯片,诸如可从
Analog Device(ADI)获得的DSP系列,这极其便于多频带FIR数字滤波器(对于子带滤波
器组)或变换操作(DCT或类似的变换)的编程。可以有利地使用多处理器体系结构。
数”字段,必须被与比例因子一对一关联地适当处理和压缩,必须总保持这样的关系,即,应
当以比例因子/数量表示的比例因子SF和数量(Q)字段的乘积紧密近似音频数据。下面
的详细描述更特定地集中在本发明的比例因子压缩。在采用对时域采样信号进行操作,以
便临界地产生采样子带信号的多带、FIR子带滤波器的子带编解码器的上下文中给出该描
述。该技术可适用于仅具有本领域技术人员明了的微小修改的变换编解码器。
虑等于一帧音频数据的时间跨度上每个子带内的时间连续样本数目。精确的大小(N和M)
不是至关重要的:仅仅为了容易解释给出特定值。仅仅作为例子,考虑一个音频“帧”,其包
括等于1024个以连续PCM表示的样本的N×M时间序列。通过经过子带滤波器组,这种序
列可被分解为N个子带。在典型的编解码器中,N可被适合地选择为32。然后,每个子带通
常在没有信息损失的情况下被抽减到1/32(临界采样)(见上面为其它描述引用的Bosi)。
在该特定示例情况下,每个子带将产生(对于单个音频帧)1024除以32等于32个连续样
本。这种“帧”布置可被有利地以32×32样本矩阵表示。出于本申请的目的,仅需要考虑
每个样本的比例因子分量。因此,以N×M比例因子矩阵表示比例因子“帧”。在更一般的情
况下,不必所有子带具有相等的频率跨度;每个临界采样子带中的时间分辨率也不必相同,
只要完全捕捉时间和频谱信息即可。因此,图3示出了具有46个(不等)子带的帧;大部
分子带具有128个时间连续样本。低频子带244被滤波并且抽减为每帧仅具有16个时间
顺序样本(与每帧具有128个样本的频带246相比,具有更窄的带宽)。
阵,它们可被二维(时间和频率)连接以便完整构成矩阵240。更特别地,出于本发明目的的
“区块”是J×K大小的矩阵,其中J和K分别小于或等于N和M,其中每个J×K区块由保持
矩阵240的频率、时间顺序的一系列连续比例因子组成。换言之,通过划分矩阵从矩阵240
获得区块;反之可通过以预定模式二维连接子矩阵(区块)构造矩阵240。对于划分和子矩
阵的讨论,见The Penguin Dictionary of Mathematics,John Daintith andR.D.Nelson,
Eds.(1989)。
中,通过子矩阵划分分解音频帧矩阵240。在图3所示的例子中,使用各种大小的区块。特
别地,该例子中最下面的16个子带被以16×4区块(频率、时间)表示。频率增加的下两
个子带被划分为3×16区块;更高频率子带被划分为8×16子矩阵。已经发现,指出的大小
可用于表示具有中到高保真度音乐信号的通常范围的音频带宽的音频信号(高至20KHz带
宽)。可以采用其它区块模式。
的数据速率在32KHz到48KHz采样速率的区域内(具有8Kb/s到320Kb/s的比特率)。更
高速率也是可行的,但是以这些相对低的样本速率,本发明提供了最显著的益处,由于在低
比特率时,比例因子包括总数据的非常多的部分。
且为后续步骤中更有效的压缩做准备。下一方法步骤304是将比例因子分解为多个区块,
所述区块是大小小于整个频率/时间音频帧的矩阵,并且所述区块完全并且足以通过有序
连接重构整个二维音频帧。应当理解,可以使用许多不同区块划分模式。图3所示的例子
仅是一个例子,并且不旨在限制本发明的范围。
Techniques and Standards forImage,Video and Audio Coding,pg.66(Prentice Hall,
1996)中给出的二维DCT中的任意一个可以被用在(完全不同于该参考文献给出的上下文
中)。可以替代DCT的差值规格化而不脱离本发明。每个区块的结果是此处被称为比例因
子系数矩阵(下面称为“SCM”)的J×K矩阵。注意,这个步骤与图像压缩中的DCT使用完
全不同,即,变换作用于比例因子索引,这代表非线性量化方案。比例因子不类似于图像量
诸如强度或色度,它们也不直接对应于采样振幅。
换。
的任意方法压缩与帧内的区块相关联的SCM。更特定地,在一种特定的新颖实施例中,本发
明包括以编码的熵减小方法压缩SCM的步骤。更特定地,在一种特定的新颖实施例中,本发
明包括以至少以下几个步骤压缩SCM:a)根据重新量化矩阵重新量化SCM,b)以差分编码方
法至少压缩DC系数,c)通过减少冗余的编码方法,诸如差分编码、矢量编码或Huffman编
码的任意组合,对系数编码(除了DC系数之外)。然后编码的比例因子系数被打包(换言
之,多路复用)以便传输(步骤310)。
编码、矢量编码或Huffman编码的组合,以便减少传输比例因子的比特需求。集中在比例因
子的压缩,将要压缩的数据表示为比例因子的DCT变换系数;所述比例因子通过非线性映
射表示一组乘数(或指数)来表示;并且每个乘数与音频数量字段(尾数)一一对应地关
联。例如,在一个实施例中,比例因子可由代表以分贝表示的基准级别的短字节组成,其隐
含地与以10为底的log映射的振幅有关。由于比例因子不是简单的振幅或线性数量,压缩
线性PCM数据或常规图像数据的常规方法预期不会对非线性比例因子数据产生有益作用。
编码的比例因子数据不类似于音频或常规图像量中的振幅;因此,本领域的技术人员不指
望使用相似方法压缩不相似的数量。
M量化系数:
例中)被以分贝表示(以10为底的对数比例)。DCT系数也直接有关地对应于分贝。如果
以符号(列,行)习惯性地指定项,根据步长大小矩阵M,3×16区块内的DC分量(1,1项)
被以2个分贝步长重新量化。为项(1,2)到(1,8)使用3个分贝步长;除了对应于重新量
化矩阵M内的零的比例因子项之外的其它项可被重新量化为零,这是由于它们对比例因子
矩阵的重构具有很小的作用。可以通过将SCM中的每个系数除以对应的步长大小,然后取
整到最接近的整数,来完成重新量化步骤。如本领域技术人员理解的,应当小心以避免除以
零。
此在分支504中被单独处理。
矩阵具有取决于区块数目和其顺序的大小。如果特定实施例中的区块模式不导致子矩阵的
矩形阵列,过多的区块被单独处理。例如,在图3所示的数据结构中,底下的4个区块(对应
于整个帧的时间,最低频率范围)作为单独的值被单独编码。不被独立处理的区块可被并
且优选地被差分编码。在优选实施例中,在步骤508中,计算并且存储两个标志以便传输给
解码器:第一个标记指示是否为水平相邻的区块的DC分量的差值编码(时间差分编码);
第二个标记指示是否为垂直相邻区块上的DC分量的差值编码(频率差分编码)。如果使
用差分编码,为每个区块边界计算相邻区块的DC分量之间的差值。例如,在图3的结构中,
在分离底下的4个区块之后,其余区块可被分组为5×8模式。在DCT变换之后,提取并且
在5×8矩阵中存储每个DCT的DC分量。然后如果差分编码将显著有助于压缩,则以差分
编码对5×8矩阵的元素编码。对于第一行(用于频率差分编码)或列(用于时间差分编
码)内的元素,对该系数的绝对值编码(作为矩阵其余部分上的差分编码的基础)。可选
择地,采用时间和频率方向两者上的差分编码。例如,首先编码相同行内的项之间的差值,
然后编码相同列内的不同行之间的差值。一般地,应当根据信号特征选择编码方法,以便减
少数据中的冗余。若干适合的差分编码方法是已知的,并且可根据差分编码技术加以调整。
接着考虑DC分量之外的重新量化SCM项,在分支520中应用不同的压缩或编码方法。首先
将方法应用于对单个区块编码来描述该方法。发明人发现在以此处描述的方法编码的典型
音频数据中,将被编码的大部分SCM系数具有在-1到+1间隔内的值。更特定地,大部分系
数等于下列值中的一个:0,+1或-1(整数)。因此,该方法可以有利地按照判断框522所示
分叉。在分支524中单独处理间隔-1到+1之外的所有系数值。在分支524中,以矢量形
式(a,b)对间隔-1到+1之外的“杂散”值编码(步骤526),其中a是(Huffman编码的)
偏移,并且b是(Huffman编码的)值。可以取代Huffman编码使用其它编码方法;仅以一
种适合的变长编码作为例子给出这种细节,在该情况下,可以有利地使用该变长编码,以便
减少比特使用。对于偏移,应当理解,使用指定矩阵中的位置偏移的任意系统,以便特别地
表示扫描模式中相对于以前传输的“杂散”值(-1到+1间隔之外)的位置偏移。“杂散”值
的总数通常是小的;关于SCM的大部分信息以平行压缩路径2被更有效地压缩。
的扫描模式,该扫描模式有效地展开矩阵,以便产生被方便地布置的系数串或(换言之)矢
量。在这个上下文中,“方便地”意味着这样的排序,其最大可能程度地将相邻矩阵项放置
在矢量的相邻位置;并且其趋于将最相似或最重要的值分组在一起以便便于压缩。最常见
的Z字形扫描模式通常在左上角开始于1,1分量,然后前进以便通过对角线前进扫描而不
在对角线结尾处跳越(在每个对角线的结尾处倒转方向)展开矩阵。其它解释见Rao(上
面引用的)。可以基于例如有序位置的存储表,采用其它方法。
每个SCM内的有意义矩阵项的数目。实际上发现每个区块大约20个系数的串足够用于
传输(分组在SCM的左上象限)。可以通过以熵减少编码表示这些系数来减少比特需求。
可以单独或组合采用若干技术:可以采用并且基于测量信号统计优化Huffman编码、游程
(run-length)熵编码、矢量编码、算术编码或其它已知技术。下面以示例方式描述一种特定
并且新颖的解决方案。
素,存在16个可能编码(如果排除符号)。对于+/-1值,符号可被存储为单独位。接着,在
步骤534,该方法算术地计算基于每个矢量的4个系数(cl,c2,c3,c4)的独特编码。例如,
在一个实施例中,计算等于c1的绝对值加上两倍c2的绝对值,再加上四倍c3的绝对值,再
加上八倍c4的绝对值的编码。计算这种算术编码的其它方法是已知的,并且可以采用减少
每个矢量的传输所需的比特数的任意编码方案。最后,步骤534计算出的编码被处理为符
号,并且以变长编码诸如Huffman编码在步骤536对每个符号进一步编码,这通过利用不同
符号的不相等的出现概率减少了比特需求。
个音频帧内的每个区块重复图5的步骤。可选择地,在某些实施例中,希望以步骤502到
536的方法将一个区块编码为一组,然后差分地对其它区块编码。换言之,首先对第一个区
块的系数编码;然后对于系数矩阵内的每个元素,通过表示相对于前一个(或频率相邻)区
块内的对应项的改变,来表示相邻区块的系数。可以使用时间或频率上的差值。传输一个
标记或多个标记,以便指出对于每帧,是否采用时间差分编码、频率差分编码还是直接值编
码。
比例因子集合。通过逆转上面提出的对比例因子编码的步骤,或等同地通过应用下面结合
本发明的解码器方面描述的解码处理的步骤这样做。优选地,如基于每个样本最可能接近
地匹配初始表示的音频数据所需要的,通过以比例因子/数量的格式重新计算每个样本,
使用重构的比例因子来重新规格化样本(步骤604)。重构的比例因子一般不同于在上面
图1的模块114中分配的临时比例因子。对于任意单个样本,如果初始的临时量化数据被
表示为SF×Q=样本值,则应当按照值/RSF重新计算最终数据(Q’),其中RSF是特定样本
的重构比例因子。优选地,然后压缩(步骤606)最终音频数据(Q’)的集合以便传输。
量、“杂散”的系数数据和压缩的系数数据多路复用在一起。最优选地,将对应于音频帧的
所有相应数据以一种公用顺序格式打包在一起,所述帧定义音频信号的给定预定时间间隔
中的音频事件。图7示出了一种适合的格式。该示例数据格式包括,优选地,预定大小的一
系列音频帧,虽然对该方法的调整可以使用可变大小。图7中以701一般地示出了单个帧。
优选地,该帧以头信息702开始,其可以包括关于格式、编码选项、标记、权利管理和其它开
销的一般信息。接着,在字段704中适合地以下面的顺序打包比例因子数据:首先在字段
704a中以预定顺序打包区块的DC系数。接着,在704b中,以更大区块的顺序为每个区块
以预定顺序打包范围外(+1到-1范围之外的“OOR”)非DC系数(AC系数)的打包值。接
着,在字段704c中,以更大区块的顺序为每个区块以预定顺序布置低频区块的“范围内”编
码系数。下一个字段704d包含对应于低频区块的编码的音频数量数据。在704d之后,关
于更高频率区块的其余系数(在范围+1到-1内)在704e中被打包。在704e之后,更高
频率区块的、打包的编码音频样本数据在704f中被打包。在一种典型应用中,这种排序可
以通过数据的简单时域多路复用完成,并且具有在心理声学上更重要的元素首先出现在比
特流内的益处。因此,如果带宽或处理器时间不足,可以简单地丢弃较不重要的更高频率的
比例因子和样本数据,并且信号仍然可被解码(以再现音频中的减小的频率范围)。可以按
照特定通信通道的需要所规定的,可替换地采用其它打包方案和其它多路复用方法。
因子。图8示出了根据本发明的解码器装置的方框图。解多路复用器804对802处来自接
收到的比特流的输入解多路复用,解多路复用器804将接收到的数据格式分解为路径806
处的编码的比例因子数据,以及多个子带分支808a-e内的样本数据。在给定实施例中,这
种分支的实际数目取决于特定编码实施例中使用的区块模式,该区块模式必须与解码器匹
配,或者必须向前传输信息,以便将区块模式通知解码器。在步骤810中通过逆转数量编码
(来自步骤606)对编码的音频数据解码,并且在每个子带内根据在编码器处应用的量化方
案去量化(812)。
交变换,最适合地以逆离散余弦变换,对这些矩阵进行变换,这些逆离散余弦变换与编码过
程中应用的每个区块的矩形尺寸相匹配。为了关联每个比例因子和其对应的音频数据(尾
数),通过连接多个区块,以便形成跨越带宽和连续且完整的时间帧两者的更大矩阵,将恢
复的比例因子(步骤824)分组为二维数据帧是便利的。换言之,比例因子被存储在一般地
对应于上面图3所示的帧的数据结构内。相关联的音频数据被分组在相同或平行结构内。
比例因子(在步骤826)。然后,通过将每个样本的线性比例因子与对应于相同样本的音频
数据(Q,或换言之尾数)相乘(在“转换为固定”步骤814),重构音频样本。所得到的子带
信号仍然对应于一般类似图3的形式的帧结构。
发明首先考虑采用时域数字滤波器(诸如QMF或多相滤波器)的实施例。在这种实施例中,
每个子带内的子带样本按照从最早样本到最新样本的时间顺序在平行路径830中由子带
被移出矩阵,并且进入合成滤波步骤832。在合成滤波步骤832,临界采样的音频子带样本
被上采样,然后通过与编码器所使用的滤波器匹配的一系列平行的合成滤波器进行滤波。
平行的子带信号还在步骤832被混合,以便在输出840重构音频样本的宽带序列。输出序
列是来源音频(图1的输入)的近似复制品。
逆开窗(inverse windowing),以便获得音频样本的连续的时域序列。本领域技术人员可
以容易地实现基于变换的实施例的细节。对于更多信息,可以参考诸如Vaidyanathan或
Bosi(上面引用了这两者)的著作。
被分组在一起,并且被扬声器模块842共同以符号表示。因此,本发明的装置和方法在中间
时期(通过产生能够传输和存储的电子数据信号)并且最终(通过使得从换能器发出声
音,该声音是以前记录或传输的声音的复制品)产生切实的物理作用。
器。该更详细说明的细节主要属于对比例因子编码的特定方法;出于这个原因,未示出关于
尾数的数据路径,但是应当理解,本发明中存在这样的路径。
约30%的减小。
码。该判断影响下面对区块解码的方法。
法互补的方法解码(步骤912)算术编码,以便产生4个矢量系列。然后连接这些矢量以便
形成串(步骤914),并且插入杂散值(步骤916)。然后沿着对应于编码器用于形成串的扫
描路径的扫描路径(诸如Z字形扫描),将串重新布置在SCM区块内(帧矩阵的子矩阵)。
相反的正交变换,优选地,以逆离散余弦变换(IDCT)处理(应当理解,步骤924的IDCT对
应于图8中的步骤832,图9是图8所示的更一般方法的特定情况)。这些步骤产生一系列
比例因子区块。
骤304)将子矩阵附加到更大矩阵内。然后根据与编码器使用的函数互补的函数,将得到的
比例因子矩阵转换(或换言之,步骤826中的重新量化)为线性比例因子。在典型应用中,
该步骤包括从分贝比例转换为线性比例因子。(一般术语“重新量化”在这个上下文中指解
除量化,或换言之,从对数扩展为线性比例。它在其它上下文中还可被用于指出于压缩目的
的重新量化处理)。
步骤,并且可以在将帧分解为区块(步骤304)之后和在步骤306之前适合地使用该步骤。
矩阵的复杂性,使得比例因子数据更不紧凑。
矩阵,所述预测模型以a)行和b)列中的至少一个上的计算的趋势模拟矩阵。实际上,在图
4-5的编码方法的进一步处理之前,以修改后的更平滑的比例因子矩阵取代该比例因子矩
阵。在一种简单的方法中,应用线性预测模型。可替换地,该方法可被修改为应用多项式预
测模型。
和计算(步骤950)线性趋势(标量)Trow:
用于表示划分总体的上半部分和下半部分的数字。
DT中的值(步骤958)。因此:
局限于表示更高比例因子之间的间隙的矩阵项:夹在具有更高信号电平的两个频率之间的
频带;或与具有更高振幅的信号的时隙相邻的短时隙。第一种情况是预期发生心理声学频
率掩蔽的情况;第二种情况对应于与瞬时高音相邻的寂静转变(将出现时间掩蔽)。在两
种情况下,由于心理声学掩蔽现象,可允许低于最优的量化。可能是由于这些原因,已经发
现以缺口去除平滑化比例因子矩阵减少了编码的比特需求,同时提供了主观上可以接受的
信号复制。可替换地,可以分配附加比特,以便改善心理声学更为敏感的区域内的信噪比。
改的DCT变换,以便将音频信号划分为子带(换言之,区间),从而产生二维帧。除了分贝比
例之外,可以使用各种函数定义非线性映射的比例因子。可以使用不同的数据格式、不同的
熵减少编码、以及不同的区块模式和帧大小。可以构想并且可以做出这些变型和替换实施
例,而不脱离所附权利要求定义的本发明的精神和范围。