用于编码/解码信号的装置和方法转让专利

申请号 : CN200780004527.X

文献号 : CN101385077B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郑亮源房熙锡吴贤午金东秀林宰显

申请人 : LG电子株式会社

摘要 :

本发明提供了一种编码方法和装置以及一种解码方法和装置。该解码方法包括从输入比特流提取三维(3D)缩减混音信号,通过对所提取的3D缩减混音信号执行3D渲染操作来生成从其去除3D效果的缩减混音信号,并通过对所生成的缩减混音信号执行3D渲染操作来生成具有3D效果的3D缩减混音信号。因此,高效率地编码具有3D效果的多声道信号,并根据音频再现环境的特性以最优音质自适应地恢复和再现音频信号是可能的。

权利要求 :

1.一种解码音频信号的解码方法,所述解码方法包括:

从输入比特流中提取第一三维3D缩减混音信号;

通过执行从所述第一3D缩减混音信号去除3D效果的第一3D渲染操作来生成3D效果去除的缩减混音信号;以及通过对所述3D效果去除的缩减混音信号执行第二3D渲染操作来生成具有3D效果的第二3D缩减混音信号。

2.如权利要求1所述的方法,其特征在于,所述第二3D缩减混音信号的生成通过利用存储在解码装置中的滤波器信息来执行。

3.如权利要求2所述的方法,其特征在于,所述滤波器信息包括关于报头相关传递函数HRTF的系数的信息。

4.如权利要求1所述的方法,其特征在于,所述第二3D缩减混音信号的生成通过利用特性与用于生成所述第一3D缩减混音信号的滤波器的特性不同的滤波器来执行。

5.如权利要求1所述的方法,其特征在于,还包括从多个滤波器中确定一个滤波器用于生成所述第二3D缩减混音信号。

6.如权利要求5所述的方法,其特征在于,用于生成所述第二3D缩减混音信号的滤波器是基于以下至少之一来确定的:由用户做出的选择、所述解码装置的性能、再现环境的特性,及所需音质。

7.如权利要求1所述的方法,其特征在于,所述3D效果去除的缩减混音信号的生成通过利用用于生成所述第一3D缩减混音信号的滤波器的逆滤波器来执行。

8.一种用于解码音频信号的装置,包括:

比特拆分单元,从输入比特流中提取第一3D缩减混音信号;

第一3D渲染单元,通过执行从所述第一3D缩减混音信号去除3D效果的第一3D渲染操作来生成3D效果去除的缩减混音信号;以及第二3D渲染单元,通过对所述3D效果去除的缩减混音信号执行第二3D渲染操作来生成具有3D效果的第二3D缩减混音信号。

9.如权利要求8所述的装置,其特征在于,还包括存储单元,所述存储单元存储与用以生成3D第二缩减混音信号的滤波器有关的滤波器信息,其中所述第二3D渲染单元使用所述滤波器信息生成所述第二3D缩减混音信号。

10.如权利要求9所述的装置,其特征在于,所述滤波器信息包括关于报头相关传递函数HRTF的系数的信息。

11.如权利要求8所述的装置,其特征在于,所述第二3D渲染单元通过使用特性与用于生成所述第一3D缩减混音信号的滤波器的特性不同的滤波器来生成所述第二3D缩减混音信号。

12.如权利要求8所述的装置,其特征在于,所述第二3D渲染单元从多个滤波器中确定一个滤波器用于生成所述第二3D缩减混音信号。

13.如权利要求12所述的装置,其特征在于,用于生成所述第二3D缩减混音信号的滤波器是基于以下至少之一来确定的:由用户做出的选择、所述解码装置的性能、再现环境的特性,及所需音质。

14.如权利要求8所述的装置,其特征在于,所述第一3D渲染单元通过利用用于生成所述第一3D缩减混音信号的滤波器的逆滤波器来生成所述3D效果去除的缩减混音信号。

说明书 :

用于编码/解码信号的装置和方法

技术领域

[0001] 本发明涉及编码/解码方法和编码/解码装置,尤其涉及可处理音频信号使得能够产生三维(3D)音响效果的编码/解码装置,以及利用该编码/解码装置的编码/解码方法。

背景技术

[0002] 编码装置将多声道信号缩减混音成具有较少声道的信号,并将经缩减混音的信号传送到解码装置。然后,解码装置从经缩减混音的信号恢复多声道信号,并使用如5.1声道扬声器之类的三个或更多扬声器再现所恢复的多声道信号。
[0003] 多声道信号可由诸如耳机之类的2声道扬声器来再现。在这种情况下,为了使用户觉得由2声道扬声器输出的声音好像从三个或更多声源再现的一样,有必要开发出能够编码或解码多声道信号使得能够产生3D效果的三维(3D)处理技术。

发明内容

[0004] 技术问题
[0005] 本发明提供一种能够通过高效率地处理具有3D效果的信号而在各种再现环境中再现多声道信号的编码/解码装置以及编码/解码方法。
[0006] 技术解决方案
[0007] 根据本发明的一个方面,提供了一种解码音频信号的解码方法,该解码方法包括:从输入比特流提取三维(3D)缩减混音信号,通过对所提取的3D缩减混音信号执行3D渲染操作来生成从其去除3D效果的缩减混音信号,并通过对所生成的缩减混音信号执行3D渲染操作来生成具有3D效果的3D缩减混音信号。
[0008] 根据本发明的另一个方面,提供了一种用于解码音频信号的解码装置,该解码装置包括:比特拆分单元,其从输入比特流提取3D缩减混音信号;第一3D渲染单元,其通过对所提取的3D缩减混音信号执行3D渲染操作来生成从其去除3D效果的缩减混音信号;以及第二3D渲染单元,其通过对由第一3D渲染单元生成的缩减混音信号执行3D渲染操作来生成具有3D效果的3D缩减混音信号。
[0009] 根据本发明的另一个方面,提供了一种具有用于执行上述的解码方法的计算机程序的计算机可读记录介质。
[0010] 有益效果
[0011] 根据本发明,可高效地编码具有3D效果的多声道信号,并根据再现环境的特性以最优音质自适应地恢复和再现音频信号。
[0012] 附图简要说明
[0013] 图1是根据本发明的实施例的编码/解码装置的框图;
[0014] 图2是根据本发明的实施例的编码装置的框图;
[0015] 图3是根据本发明的实施例的解码装置的框图;
[0016] 图4是根据本发明的另一个实施例的编码装置的框图;
[0017] 图5是根据本发明的另一个实施例的解码装置的框图;
[0018] 图6是根据本发明的另一个实施例的解码装置的框图;
[0019] 图7是根据本发明的实施例的三维(3D)渲染装置的框图;
[0020] 图8至11示出根据本发明的实施例的比特流;
[0021] 图12是根据本发明的实施例用于处理任意缩减混音信号的编码/解码装置的框图;
[0022] 图13是根据本发明的实施例的任意缩减混音信号补偿/3D渲染单元的框图;
[0023] 图14是根据本发明的实施例用于处理兼容缩减混音信号的解码装置的框图;
[0024] 图15是根据本发明的实施例的缩减混音兼容性处理/3D渲染单元的框图;以及[0025] 图16是根据本发明的实施例用于消除串扰的解码装置的框图。
[0026] 本发明的最佳实施方式
[0027] 下文中将参考示出本发明的示例性实施例的附图更全面地描述本发明。图1是根据本发明的实施例的编码/解码装置的框图。参考图1,编码单元100包括多声道编码器110、三维(3D)渲染单元120、缩减混音编码器130以及比特打包单元140
[0028] 多声道编码器110将具有多个声道的多声道信息缩减混音成诸如立体声或单声道信号之类的缩减混音信号,并生成关于该多声道信号的声道的空间信息。需要空间信息是为了从缩减混音信号恢复多声道信号。
[0029] 空间信息的例子包括:指示一对声道的能级之差的声道电平差(CLD)、声道预测系数(CPC)——即用于基于2声道信号生成3声道信号的预测系数、指示一对声道之间的相关性的声道间相关性(ICC)以及一对声道之间的时间间隔的声道时间差(CTD)。
[0030] 3D渲染单元120基于缩减混音信号生成3D缩减混音信号。3D缩减混音信号可以是具有三个或更多方向性的2声道信号,因此可由诸如耳机之类的2声道扬声器再现并具有3D效果。换言之,3D缩减混音信号可由2声道扬声器再现,使得用户觉得3D缩减混音信号好像是从具有三个或更多声道的声源再现的一样。声源的方向可基于分别输入到两耳的两个声音的强度之差、两个声音之间的时间间隔以及两个声音的相位之差中的至少一个来确定。因此,3D渲染单元120可基于人类如何利用其听觉确定声源的3D位置来将缩减混音信号转换成3D缩减混音信号。
[0031] 3D渲染单元120可通过利用滤波器滤波缩减混音信号来生成3D缩减混音信号。在这种情况下,可由外部源将滤波器相关信息——如滤波器系数输入到3D渲染单元120。
3D渲染单元120可利用由多声道编码器110提供的空间信息来基于缩减混音信号生成3D缩减混音信号。更具体地,3D渲染单元120可通过利用空间信息将缩减混音信号转换成想像的多声道信号并滤波该想像的多声道信号来将缩减混音信号转换成3D缩减混音信号。
[0032] 3D渲染单元120可通过利用报头相关传递函数(HRTF)滤波器滤波缩减混音信号来生成3D缩减混音信号。
[0033] HRTF是一种传递函数,它描述任意位置的声源和耳膜之间声波的传输,并返回根据声源的方向和高度变化的值。如果利用HRTF滤波没有方向性的信号,则可听到该信号好像从某方向再现一样。
[0034] 3D渲染单元120可在例如离散傅立叶变换(DFT)域或快速傅立叶变换(FFT)域之类的频域中执行3D渲染操作。在这种情况下,3D渲染单元120可在3D渲染操作前执行DFT或FFT,或者可在3D渲染操作后执行逆DFT(IDFT)或逆FFT(IFFT)。
[0035] 3D渲染单元120可在正交镜像滤波器(QMF)/混合域中执行3D渲染操作。在这种情况下,3D渲染单元120可在3D渲染操作之前或之后执行QMF/混合分析和合成操作。
[0036] 3D渲染单元120可在时域中执行3D渲染操作。3D渲染单元120可根据所需的音质和编码/解码装置的操作能力确定将在哪个域中执行3D渲染操作。
[0037] 缩减混音编码器130编码由多声道编码器110输出的缩减混音信号或由3D渲染单元120输出的3D缩减混音信号。缩减混音编码器130可利用诸如高级音频译码(AAC)法、MPEG层3(MP3)法或比特片算法译码(BSAC)法之类的音频编码法来编码由多声道编码器110输出的缩减混音信号或由3D渲染单元120输出的3D缩减混音信号。
[0038] 缩减混音编码器130可编码非3D缩减混音信号或3D缩减混音信号。在这种情况下,经编码的非3D缩减混音信号和经编码的3D缩减混音信号两者都可被包括在待传送的比特流中。
[0039] 比特打包单元140基于空间信息以及或者经编码的非3D缩减混音信号或者经编码的3D缩减混音信号来生成比特流。
[0040] 由比特打包单元140生成的比特流可包括空间信息、指示包括在比特流中的缩减混音信号是非3D缩减混音信号还是3D缩减混音信号的缩减混音标识信息、以及标识由3D渲染单元120所使用的滤波器的信息(例如,HRTF系数信息)。
[0041] 换言之,由比特打包单元140生成的比特流可包括还未经3D处理的非3D缩减混音信号以及通过由编码装置执行的3D处理操作获取的编码器3D缩减混音信号中的至少一个、以及标识包括在比特流中的缩减混音信号的类型的缩减混音标识信息。
[0042] 可按用户选择或根据图1所示的编码/解码装置的能力和再现环境的特性确定非3D缩减混音信号和编码器3D缩减混音信号中的哪一个将被包括在由比特打包单元140生成的比特流中。
[0043] HRTF系数信息可包括由3D渲染单元120所使用的HRTF的反函数的系数。HRTF系数信息可仅包括由3D渲染单元120所使用的HRTF的系数的简短信息,例如,HRTF系数的包络信息。如果将包括HRTF的反函数的系数的比特流传送到解码装置,则解码装置不需要执行HRTF系数转换操作,因此可减少解码装置的计算量。
[0044] 由比特打包单元140生成的比特流还可包括关于由基于HRTF的滤波导致的信号中的能量变化的信息,即,关于将要滤波的信号的能量与已滤波的信号的能量之差或将要滤波的信号的能量与已滤波的信号的能量之比的信息。
[0045] 由比特打包单元140生成的比特流还可包括指示其是否包括HRTF系数的信息。如果HRTF系数被包括在由比特打包单元140生成的比特流中,则该比特流还可包括指示其包括由3D渲染单元120所使用的HRTF的系数还是HRTF的反函数的系数的信息。
[0046] 参考图1,第一解码单元200包括比特拆分单元210、缩减混音解码器220、3D渲染单元230以及多声道解码器240。
[0047] 比特拆分单元210从编码单元100接收输入比特流,并从该输入比特流中提取经编码的缩减混音信号和空间信息。缩减混音解码器220对经编码的缩减混音信号进行解码。缩减混音解码器220可利用诸如AAC法、MP3法或BSAC法之类的音频信号解码方法来对经编码的缩减混音信号进行解码。
[0048] 如上所述,从输入比特流中提取的经编码的缩减混音信号可以是经编码的非3D缩减混音信号或经编码的、编码器3D缩减混音信号。指示从输入比特流中提取的经编码的缩减混音信号是经编码的非3D缩减混音信号还是经编码的、编码器3D缩减混音信号的信息可被包括在输入比特流中。
[0049] 如果从输入比特流中提取的经编码的缩减混音信号是编码器3D缩减混音信号,则经编码的缩减混音信号可在由缩减混音解码器220解码后容易地再现。
[0050] 另一方面,如果从输入比特流中提取的经编码的缩减混音信号是非3D缩减混音信号,则经编码的缩减混音信号可由缩减混音解码器220解码,且通过解码获取的缩减混音信号可通过由第三渲染单元233执行的3D渲染操作转换成解码器3D缩减混音信号。解码器3D缩减混音信号可被容易地再现。
[0051] 3D渲染单元230包括第一渲染器231、第二渲染器232和第三渲染器233。第一渲染器231通过对由缩减混音解码器220提供的编码器3D缩减混音信号执行3D渲染操作来生成缩减混音信号。例如,第一渲染器231可通过从编码器3D缩减混音信号去除3D效果来生成非3D缩减混音信号。编码器3D缩减混音信号的3D效果可能不能由第一渲染器231完全去除。在这种情况下,由第一渲染器231输出的缩减混音信号可具有相同的3D效果。
[0052] 第一渲染器231可将由缩减混音解码器220提供的3D缩减混音信号转换成使用编码单元100的3D渲染单元120所使用的滤波器的逆滤波器来将3D效果从其去除的缩减混音信号。关于由3D渲染单元120所使用的滤波器或由3D渲染单元120所使用的滤波器的逆滤波器的信息可被包括在输入比特流中。
[0053] 由3D渲染单元120所使用的滤波器可以是HRTF滤波器。在这种情况下,由编码单元100所使用的HRTF的系数或HRTF的反函数的系数也可被包括在输入比特流中。如果由编码器单元100所使用的HRTF的系数被包括在输入比特流中,则HRTF系数可被逆转换,且可在由第一渲染器231执行的3D渲染操作期间使用该逆转换的结果。如果由编码单元100所使用的HRTF的反函数的系数被包括在输入比特流中,则它们可在由第一渲染器231执行的3D渲染操作期间容易地使用,而不进行任何逆转换操作。在这种情况下,可减少第一解码装置100的计算量。
[0054] 输入比特流还可包括滤波器信息(例如,指示由编码单元100所使用的HRTF的系数是否被包括在输入比特流中的信息)以及指示该滤波器信息是否已被逆转换的信息。
[0055] 多声道解码器240基于从其去除3D效果的缩减混音信号和从输入比特流中提取的空间信息来生成具有三个或更多声道的3D多声道信号。
[0056] 第二渲染器232可通过对从其去除3D效果的缩减混音信号执行3D渲染操作来生成具有3D效果的3D缩减混音信号。换言之,第一渲染器231从由缩减混音解码器220提供的编码器3D缩减混音信号中去除3D效果。之后,第二渲染器232可利用第一解码装置的滤波器,通过对由第一渲染器231执行去除而获取的缩减混音信号执行3D渲染操作来生成第一解码装置200所期望的具有3D效果的组合3D缩减混音信号。
[0057] 第一解码装置200可包括其中结合有执行相同操作的第一、第二和第三渲染器231、232和233中的两个或更多个的渲染器。
[0058] 由编码单元100生成的比特流可被输入到具有与第一解码装置200不同的结构的第二解码装置300。第二解码装置300可基于包括在向其输入的比特流中的缩减混音信号生成3D缩减混音信号。
[0059] 更具体地,第二解码装置300包括比特拆分单元310、缩减混音解码器320以及3D渲染单元330。比特拆分单元310从编码单元100接收输入比特流,并从该输入比特流中提取经编码的缩减混音信号和空间信息。缩减混音解码器320对经编码的缩减混音信号进行解码。3D渲染单元330对经解码的缩减混音信号执行3D渲染操作,使得经解码的缩减混音信号可被转换成3D缩减混音信号。
[0060] 图2是根据本发明的实施例的编码装置的框图。参考图2,该编码装置包括渲染单元400和420以及多声道编码器410。将省略与图1的实施例相同的编码过程的详细描述。
[0061] 参考图2,可将3D渲染单元400和420分别设置在多声道编码器410的前面和后面。因此,多声道信号可由3D渲染单元400进行3D渲染,然后,经3D渲染的多声道信号可由多声道编码器410编码,从而生成经预处理的、编码器3D缩减混音信号。或者,多声道信号可由多声道编码器410进行缩减混音,然后,经缩减混音的信号可由3D渲染单元420进行3D渲染,从而生成经后处理的、编码器缩减混音信号。
[0062] 指示多声道信号在缩减混音前还是缩减混音后进行3D渲染的信息可被包括在待传送的比特流中。
[0063] 3D渲染单元400和420两者都可被设置在多声道编码器410的前面或后面。
[0064] 图3是根据本发明的实施例的解码装置的框图。参考图3,该解码装置包括3D渲染单元430和450以及多声道解码器440。将省略与图1的实施例相同的解码过程的详细描述。
[0065] 参考图3,可将3D渲染单元430和450分别设置在多声道解码器440的前面和后面。3D渲染单元430可从编码器3D缩减混音信号去除3D效果,并将通过去除获取的缩减混音信号输入到多声道解码器430。然后,多声道解码器430可解码向其输入的缩减混音信号,从而生成经预处理的3D多声道信号。或者,多声道解码器430可从经编码的3D缩减混音信号恢复多声道信号,且3D渲染单元450可从所恢复的多声道信号去除3D效果,从而生成经后处理的3D多声道信号。
[0066] 如果由编码装置提供的编码器3D缩减混音信号已经通过执行3D渲染操作和随后的缩减混音操作而生成,则编码器3D缩减混音信号可通过执行多声道解码操作和随后的3D渲染操作而被解码。另一方面,如果编码器3D缩减混音信号已经通过执行缩减混音操作和随后的3D渲染操作而生成,则编码器3D缩减混音信号可通过执行3D渲染操作和随后的多声道解码操作而被解码。
[0067] 可从编码装置传送的比特流中提取指示经编码的3D缩减混音信号是通过在缩减混音操作前还是在缩减混音操作后执行3D渲染操作而获取的信息。
[0068] 3D渲染单元430和450两者都可被设置在多声道解码器440的前面或后面。
[0069] 图4是根据本发明的另一个实施例的编码装置的框图。参考图4,编码装置包括多声道编码器500、3D渲染单元510、缩减混音编码器520以及比特打包单元530。将省略与图1的实施例相同的编码过程的详细描述。
[0070] 参考图4,多声道编码器500基于输入多声道信号生成缩减混音信号和空间信息。3D渲染单元510通过对缩减混音信号执行3D渲染操作来生成3D缩减混音信号。
[0071] 可按用户选择或根据编码装置的能力、再现环境的特性或所要求的音质确定是否对缩减混音信号执行3D渲染操作。
[0072] 缩减混音编码器520编码由多声道编码器500生成的缩减混音信号或由3D渲染单元510生成的3D缩减混音信号。
[0073] 比特打包单元530基于空间信息以及或者经编码的缩减混音信号或者经编码的、编码器3D缩减混音信号生成比特流。由比特打包单元530生成的比特流可包括指示包括在比特流中的经编码的缩减混音信号是没有3D效果的非3D缩减混音信号还是具有3D效果的编码器3D缩减混音信号的缩减混音标识信息。更具体地,缩减混音标识信息可指示由比特打包单元530生成的比特流是否包括非3D缩减混音信号、编码器3D缩减混音信号或这两者。
[0074] 图5是根据本发明的另一个实施例的解码装置的框图。参考图5,解码装置包括比特拆分单元540、缩减混音解码器550以及3D渲染单元560。将省略与图1的实施例相同的解码过程的详细描述。
[0075] 参考图5,比特拆分单元540从输入比特流中提取经编码的缩减混音信号、空间信息和缩减混音标识信息。缩减混音标识信息指示经编码的缩减混音信号是不具有3D效果的经编码的非3D缩减混音信号还是具有3D效果的经编码的3D缩减混音信号。
[0076] 如果输入比特流包括非3D缩减混音信号和3D缩减混音信号两者,则仅可按用户选择或根据解码装置的能力、再现环境的特性或所需的音质来从输入比特流中提取非3D缩减混音信号和3D缩减混音信号之一。
[0077] 缩减混音解码器550对经编码的缩减混音信号进行解码。如果通过由缩减混音解码器550执行的解码获取的缩减混音信号是通过执行3D渲染操作获取的编码器3D缩减混音信号,则该缩减混音信号可被容易地再现。
[0078] 另一方面,如果通过由缩减混音解码器550执行的解码获取的缩减混音信号是不具有3D效果的缩减混音信号,则3D渲染单元560可通过对由缩减混音解码器550执行解码所获取的缩减混音信号执行3D渲染操作来生成解码器3D缩减混音信号。
[0079] 图6是根据本发明的另一个实施例的解码装置的框图。参考图6,解码装置包括比特拆分单元600、缩减混音解码器610、第一3D渲染单元620、第二3D渲染单元630以及滤波器信息存储单元640。将省略与图1的实施例相同的解码过程的详细描述。
[0080] 比特拆分单元600从输入比特流中提取经编码的、编码器3D缩减混音信号和空间信息。缩减混音解码器610对经编码的、编码器3D缩减混音信号进行解码。
[0081] 第一3D渲染单元620使用用于执行3D渲染操作的编码装置的滤波器的逆滤波器,从由缩减混音解码器610执行的解码获取的编码器3D缩减混音信号去除3D效果。第二渲染单元630利用存储在解码装置中的滤波器通过对由第一3D渲染单元620执行去除而获取的缩减混音信号执行3D渲染操作生成具有3D效果的组合3D缩减混音信号。
[0082] 第二3D渲染单元630可利用其特性与用于执行3D渲染操作的编码单元的滤波器不同的滤波器执行3D渲染操作。例如,第二3D渲染单元630可利用其系数与编码装置所使用的HRTF的系数不同的HRTF执行3D渲染操作。
[0083] 滤波器信息存储单元640存储关于用于执行3D渲染的滤波器的滤波器信息,例如,HRTF系数信息。第二3D渲染单元630可利用存储在滤波器信息存储单元640中的滤波器信息生成组合3D缩减混音。
[0084] 滤波器信息存储单元640可存储分别对应于多个滤波器的多条滤波器信息。在这种情况下,可按用户选择或根据解码装置的能力或所要求的音质来选择多条滤波器信息之一。
[0085] 来自不同种族的人可具有不同的耳结构。因此,针对不同个体优化的HRTF系数可彼此不同。图6中所示的解码装置可生成针对用户优化的3D缩减混音信号。此外,图6中所示的解码装置可不管由3D缩减混音信号供应商所提供的HRTF的类型是什么,而生成与用户所期望的HRTF滤波器相对应的具有3D效果的3D缩减混音信号。
[0086] 图7是根据本发明的实施例的3D渲染装置的框图。参考图7,3D渲染装置包括第一和第二域转换单元700和720以及3D渲染单元710。为了在预定的域中执行3D渲染操作,可将第一和第二域转换单元700和720分别设置在3D渲染单元710的前面和后面。
[0087] 参考图7,输入缩减混音信号可由第一域转换单元700转换成频域缩减混音信号。更具体地,第一域转换单元700可通过执行DFT或FFT将输入缩减混音信号转换成DFT域缩减混音信号或FFT域缩减混音信号。
[0088] 3D渲染单元710通过将空间信息施加于由第一域转换单元700提供的频域缩减混音信号来生成多声道信号。之后,3D渲染单元710通过滤波多声道信号来生成3D缩减混音信号。
[0089] 由3D渲染单元710生成的3D缩减混音信号由第二域转换单元720转换成时域3D缩减混音信号。更具体地,第二域转换单元720可对由3D渲染单元710生成的3D缩减混音信号执行IDFT或IFFT。
[0090] 在频域3D缩减混音信号转换成时域3D缩减混音信号期间,可能发生混叠之类的数据丢失或数据失真。
[0091] 为了生成频域中的多声道信号和3D缩减混音信号,可将每一个参数频带的空间信息映射到频域,并可将多个滤波器系数转换至频域。
[0092] 3D渲染单元710可通过使第一域转换单元700提供的频域缩减混音信号、空间信息和滤波器系数相乘来生成3D缩减混音信号。
[0093] 通过使全部在M点频域中表示的缩减混音信号、空间信息和多个滤波器系数相乘而获取的时域信号具有M个有效信号。为了在M点频域中表示缩减混音信号、空间信息和滤波器系数,可执行M点DFT或M点FFT。
[0094] 有效信号是不一定具有0值的信号。例如,可通过经由采样从音频信号中获取x个信号来生成总共x个有效信号。在该x个有效信号中,y个有效信号被补零。然后,有效信号的数目减少至(x-y)。之后,具有a个有效信号的信号和具有b个有效信号的信号被卷积,从而获取总共(a+b-1)个有效信号。
[0095] M点频域中缩减混音信号、空间信息和滤波器系数的相乘可提供与在时域中卷积缩减混音信号、空间信息和滤波器系数相同的效果。具有(3*M-2)个有效信号的信号可通过将M点频域中的缩减混音信号、空间信息和滤波器系数转换至时域并卷积该转换的结果来生成。
[0096] 因此,通过使频域中的缩减混音信号、空间信息和滤波器系数相乘并将相乘的结果转换至时域而获取的信号中的有效信号的数目可能与通过卷积时域中的缩减混音信号、空间信息和滤波器系数获取的信号中的有效信号的数目不同。结果,在频域中的3D缩减混音信号转换至时域信号期间可发生混叠。
[0097] 为了防止混叠,时域中的缩减混音信号的有效信号的数目、映射到频域的空间信息的有效信号的数目、以及滤波器系数的数目的总和不能大于M。映射到频域的空间信息的有效信号的数目可根据频域的点的数目确定。换言之,如果对每一参数频带表示的空间信息被映射至N点频域,则空间信息的有效信号的数目可以是N。
[0098] 参考图7,第一域转换单元700包括第一补零单元701和第一频域转换单元702。第三渲染单元710包括映射单元711、时域转换单元712、第二补零单元713、第二频域转换单元714、多声道信号生成单元715、第三补零单元716、第三频域转换单元717以及3D缩减混音信号生成单元718。
[0099] 第一补零单元701对时域中的具有X个样本的缩减混音信号执行补零操作使得缩减混音信号的样本数目可从X增加至M。第一频域转换单元702将补零缩减混音信号转换成M点频域信号。经补零的缩减混音信号具有M个样本。在经补零的缩减混音信号的M个样本中,仅X个样本是有效信号。
[0100] 映射单元711将每一个参数频带的空间信息映射至N点频域。时域转换单元712将通过映射单元711执行的映射而获取的空间信息转换至时域。通过时域转换单元712执行转换而获取的空间信息具有N个样本。
[0101] 第二补零单元713对时域中的具有N个样本的空间信息执行补零操作,使得空间信息的样本数目可从N增加至M。第二频域转换单元714将经补零的空间信息转换成M点频域信号。经补零的空间信息具有N个样本。在经补零的空间信息的N个样本中,仅N个样本是有效的。
[0102] 多声道信号生成单元715通过使第一频域转换单元712提供的缩减混音信号和第二频域转换单元714提供的空间信息相乘生成多声道信号。由多声道信号生成单元715生成的多声道信号具有M个有效信号。另一方面,通过在时域中卷积由第一频域转换单元712提供的缩减混音信号和由第二频域转换单元714提供的空间信息获取的多声道信号具有(X+N-1)个有效信号。
[0103] 第三补零单元716可对时域中表示的Y滤波器系数执行补零操作,使得样本的数目可增加至M。第三频域转换单元717将补零滤波器系数转换成M点频域。经补零的滤波器系数具有M个样本。在M个样本中,仅Y个样本是有效信号。
[0104] 3D缩减混音信号生成单元718通过将多声道信号生成单元715所生成的多声道信号与第三频域转换单元717提供的多个滤波器系数相乘来生成3D缩减混音信号。由3D缩减混音信号生成单元718生成的3D缩减混音信号具有M个有效信号。另一方面,通过在时域中卷积由多声道信号生成单元715所生成的多声道信号和由第三频域转换单元717所提供的滤波器系数来获取的3D缩减混音信号具有(X+N+Y-2)个有效信号。
[0105] 通过将第一、第二和第三频域转换单元702所使用的M点频域设置成满足以下方程式:M≥(X+N+Y-2)来防止混叠是可能的。换言之,有可能通过使第一、第二和第三频域转换单元702、714和717能够执行满足以下方程式:M≥(X+N+Y-2)的M点DFT或M点FFT来防止混叠。
[0106] 至频域的转换可利用除DFT滤波器组、FFT滤波器组和QMF组以外的滤波器组来执行。3D缩减混音信号的生成可利用HRTF滤波器来执行。
[0107] 空间信息的有效信号的数目可利用除上述方法以外的方法来调节,或可利用上述方法中效率最高且需要计算量最少的一种方法来调节。
[0108] 不仅在信号、系数或空间信息从频域转换至时域或反过来的期间,而且在信号、系数或空间信息从QMF域转换至混合域或反过来的期间,都可发生混叠。上述防止混叠的方法也可用于在信号、系数或空间信息从QMF域转换至混合域或反过来的期间防止混叠发生。
[0109] 用于生成多声道信号或3D缩减混音信号的空间信息可改变。作为空间信息改变的结果,在输出信号中可发生作为噪声的信号不连续。
[0110] 输出信号中的噪声可利用平滑法来减少,通过该平滑法可防止空间信息快速变化。
[0111] 例如,当在第一帧和第二帧彼此相邻时施加于第一帧的第一空间信息与施加于第二帧的空间信息不同时,在第一帧和第二帧之间极可能发生不连续。
[0112] 在这种情况下,可利用第一空间信息补偿第二空间信息或利用第二空间信息补偿第一空间信息,使得第一空间信息和第二空间信息之差可减小,从而由第一和第二帧之间的不连续导致的噪声可降低。更具体地,第一空间信息和第二空间信息中的至少一个可用第一空间信息和第二空间信息的平均值来代替,从而降低噪声。
[0113] 噪声也很可能由于一对相邻参数频带之间的不连续而生成。例如,当在第一和第二参数频带彼此相邻时对应于第一参数频带的第三空间信息与对应于第二参数频带的第四空间信息不同时,不连续可能在第一和第二参数频带之间发生。
[0114] 在这种情况下,可利用第四空间信息补偿第三空间信息或利用第三空间信息补偿第四空间信息,使得第三空间信息和第四空间信息之差可减小,并且由第一和第二参数频带之间的不连续导致的噪声可降低。更具体地,第三空间信息和第四空间信息中的至少一个可用第三空间信息和第四空间信息的平均值来代替,从而降低噪声。
[0115] 由一对相邻帧之间或一对相邻参数频带之间的不连续导致的噪声可利用除上述方法以外的方法来降低。
[0116] 更具体地,可将每个帧乘以诸如汉宁(Hanning)窗口之类的窗口,并可将“重叠和添加”方案施加于乘法的结果,使得帧之间的改变可减小。或者,施加有多条空间信息的输出信号可被平滑,使得可防止输出信号的多个帧之间的改变。
[0117] 可利用例如ICC之类的空间信息将DFT域中的声道之间的解相关进行如下调节。
[0118] 可通过使输入到一至二(OTT)或二至三(TTT)框的信号的系数乘以预定值来调节解相关的程度。预定值可由以下方程式来限定:(A+(1-A*A)^0.5*i),其中A指示施加于OTT或TTT框的预定频带的ICC值,而i指示虚部。虚部可以是正的或负的。
[0119] 预定值可附有根据信号的特性的加权因子,信号的特性例如信号的能级、每一频率的信号的能量特性或施加ICC值A的框的类型。作为引入加权因子的结果,可进一步调节解相关的程度,并可应用帧间平滑或内插法。
[0120] 如以上参考图7所描述的,可通过使用转换至频域的HRTF或报头相关脉冲响应(HRIR)在频域中生成3D缩减混音信号。
[0121] 或者,3D缩减混音信号可通过在时域中卷积HRIR和缩减混音信号来生成。可将频域中生成的3D缩减混音信号留在频域中,而不进行逆域变换。
[0122] 为了在时域中卷积HRIR和缩减混音信号,可使用有限脉冲响应(FIR)滤波器或无限脉冲响应(IIR)滤波器。
[0123] 如上所述,根据本发明实施例的编码装置和解码装置可利用涉及使用频域中的HRTF或转换至频域的HRIR的第一方法、涉及在时域中卷积HRIR的第二方法或第一和第二方法的组合来生成3D缩减混音信号。
[0124] 图8至11示出根据本发明的实施例的比特流。
[0125] 参考图8,比特流包括:包含生成多声道信号所需信息的多声道解码信息字段、包含生成3D缩减混音信号所需信息的3D渲染信息字段、以及包含利用包含在多声道解码信息字段中的信息和包含在3D渲染信息字段中的信息所需的报头信息的报头字段。比特流可仅包括多声道解码信息字段、3D渲染信息字段和报头字段中的一个或两个。
[0126] 参考图9,含有解码操作所必需的辅助信息的比特流可包括:包含整个经编码信号的报头信息的特定配置报头字段、以及包含关于多个帧的辅助信息的多个帧数据字段。更具体地,每一个帧数据字段可包括:包含相应帧的报头信息的帧报头字段、以及包含相应帧的空间信息的帧参数数据字段。或者,帧数据字段中的每一个仅可包括帧参数数据字段。
[0127] 帧参数数据字段中的每一个可包括多个模块,每个模块包括标志和参数数据。模块是包括诸如空间信息之类的参数数据以及诸如缩减混音增益和平滑数据之类提高信号音质所必需的其他数据的数据集。
[0128] 如果在没有任何附加标志的情况下接收关于由帧报头字段指定的信息的模块数据,如果由帧报头字段指定的信息被进一步分类,或者如果接收附加标志和数据连同未被帧报头指定的信息,则模块数据可不包括任何标志。
[0129] 关于3D缩减混音信号的辅助信息,例如HRTF系数信息,可被包括在特定配置报头字段、帧报头字段和帧参数数据字段中的至少一个中。
[0130] 参考图10,比特流可包括:包含生成多声道信号所必需的信息的多个多声道解码信息字段、以及包含生成3D缩减混音信号所必需的信息的多个3D渲染信息字段。
[0131] 当接收比特流时,解码装置可使用多声道解码信息字段或3D渲染信息字段来执行解码操作并跳过任何未在解码操作中使用的多声道解码信息字段和3D渲染信息字段。在这种情况下,可根据要再现的信号的类型确定多声道解码信息字段和3D渲染信息字段中的哪些将被用于执行解码操作。
[0132] 换言之,为了生成多声道信号,解码装置可跳过3D渲染信息字段,并读取包含在多声道解码信息字段中的信息。另一方面,为了生成3D缩减混音信号,解码装置可跳过多声道解码信息字段,并读取包含在3D渲染信息字段中的信息。
[0133] 跳过比特流中的多个字段中的某些的方法如下。
[0134] 首先,关于字段的比特大小的字段长度信息可被包括在比特流中。在这种情况下,可通过跳过对应于字段比特大小的比特数来跳过该字段。可将字段长度信息设置在字段的开头。
[0135] 第二,可将同步字设置在字段的末端或开头。在这种情况下,可通过基于同步字的位置定位字段来跳过该字段。
[0136] 第三,如果提前确定并固定了字段的长度,则可通过跳过对应于该字段的长度的数据量来跳过该字段。可将关于字段长度的固定字段长度信息包括在比特流中或存储在解码装置中。
[0137] 第四,可利用上述字段跳过方法中的两种或更多种的组合来跳过多个字段之一。
[0138] 诸如字段长度信息、同步字或固定字段长度信息之类的字段跳过信息是跳过字段所必需的信息,可将其包括在图9所示的特定配置报头字段、帧报头字段和帧参数数据字段之一中,或可将其包括在图9所示字段以外的字段中。
[0139] 例如,为了生成多声道信号,解码装置可参照设置在每个3D渲染信息字段的开头的字段长度信息、同步字或固定字段长度信息跳过3D渲染信息字段,并读取包括在多声道解码信息字段中的信息。
[0140] 另一方面,为了生成3D缩减混音信号,解码装置可参照设置在每个多声道解码信息字段的开头的字段长度信息、同步字或固定字段长度信息跳过多声道解码信息字段,并读取包括在3D渲染信息字段中的信息。
[0141] 比特流可包括指示包括在该比特流中的数据是生成多声道信号所必需的还是生成3D缩减混音信号所必需的信息。
[0142] 然而,即使比特流不包括诸如CLD之类的任何空间信息,而仅包括生成3D缩减混音信号所必需的数据(例如,HRTF滤波器系数),也可通过利用生成3D缩减混音信号所必需的数据进行解码来再现多声道信号,而不需要空间信息。
[0143] 例如,从缩减混音信号获取作为关于两个声道的空间信息的立体声参数。然后,将立体声参数转换成关于待再现的多个声道的空间信息,并通过将由转换获取的空间信息施加于缩减混音信号来生成多声道信号。
[0144] 另一方面,即使比特流仅包括生成多声道信号所必需的数据,也可再现缩减混音信号而不需要附加解码操作,或可通过利用附加HRTF滤波器对缩减混音信号执行3D处理来再现3D缩减混音信号。
[0145] 如果比特流包括生成多声道信号所必需的数据和生成3D缩减混音信号所必需的数据两者,则可允许用户决定是再现多声道信号还是3D缩减混音信号。
[0146] 将在下文中参考各自相应的句法详细描述跳过数据的方法。
[0147] 句法1指示以帧为单位解码音频信号的方法。
[0148] [句法1]
[0149]SpatialFrame()
{
Framinglnfo();
bslndependencyFIag;
OttData();
TttData();
SmgData();
TempShapeData();
if[bsArbitraryDownmix){
ArbitraryDownmixData();
}
if(bsResidualCoding){
ResidualData();
}
}
[0150] 在句法1中,Ottdata()和TttData()是表示从缩减混音信号恢复多声道信号所必需的参数(诸如包括CLD、ICC和CPC的空间信息)的模块,而SmgData()、TempShapeData()、ArbitraryDownmixData()和ResidualData()是表示通过校正编码操作期间可能发生的信号失真来改善音质所必需的信息的模块。
[0151] 例 如,如 果 诸 如 CLD、ICC 或 CPC 之 类 的 参 数 和 包 括 在 模 块ArbitraryDownmixData()中的信息仅在解码操作期间使用,则设置在模块TttData()和ArbitraryDownmixData()之间的模块SmgData()和TempShapeData()是不必需的。因此,跳过模块SmgData()和TempShapeData()是有效率的。
[0152] 在下文中将参考以下的句法2详细描述根据本发明的实施例的跳过模块的方法。
[0153] [句法2]
[0154]:
TttData();
SkipData(){
bsSkipBits;
}
SmgData();
TempShapeData();
if[bsArbitraryDownmix){
ArbitraryDownmixData();
}
:
[0155] 参考句法2,可将模块SkipData()设置在将被跳过的模块之前,且将被跳过的模块的比特大小在模块SkipData()中被指定为bsSkipBits。
[0156] 换言之,假设模块SmgData()和TempShapeData()将被跳过,且组合的模块SmgData()和TempShapeData()的比特大小是150,则可通过将bsSkipBits设置为150来跳过模块SmgData()和TempShapeData()。
[0157] 在下文中将参考句法3详细描述根据本发明的另一个实施例的跳过模块的方法。
[0158] [句法3]
[0159]:
TttData();
bsSkipSyncflag;
SmgData();
TempShapeData();
bsSkipSyncword;
if[bsArbitraryDownmix){
ArbitraryDownmixData();
}
:
[0160] 参考图3,可通过使用bsSkipSyncflag和bsSkipSyncword跳过不必要的模块,bsSkipSyncflag是指示是否使用同步字的标志,bsSkipSyncword是可被设置在将被跳过的模块的末端的同步字。
[0161] 更具体地,如果将标志bsSkipSyncflag设置成使得同步字可使用,则标志bsSkipSyncflag和同步字bsSkipSyncword之间的一个或多个模块——即模块SmgData()和TempShapeData()可被跳过。
[0162] 参考图11,比特流可包括:包含再现多声道信号所必需的报头信息的多声道报头字段、包含再现3D缩减混音信号所必需的报头信息的3D渲染报头字段、以及包含再现多声道信号所必需数据的多个多声道解码信息字段。
[0163] 为了再现多声道信号,解码装置可跳过3D渲染报头字段,并从多声道报头字段和多声道解码信息字段读取数据。
[0164] 跳过3D渲染报头字段的方法与以上参考图10所述的字段跳过方法相同,因此,可跳过其详细描述。
[0165] 为了再现3D缩减混音信号,解码装置可从多声道解码信息字段和3D渲染报头字段读取数据。例如,解码装置可利用包括在多声道解码信息字段中的缩减混音信号和包括在3D缩减混音信号中的HRTF系数信息来生成3D缩减混音信号。
[0166] 图12是根据本发明的实施例的用于处理任意缩减混音信号的编码/解码装置的框图。参考图12,任意缩减混音信号是除了由包括在编码装置800中的多声道编码器801生成的缩减混音信号以外的缩减混音信号。将省略与图1的实施例相同的过程的详细描述。
[0167] 参考图12,编码装置800包括多声道编码器801、空间信息合成单元802以及比较单元803。
[0168] 多声道编码器801将输入多声道信号缩减混音成立体声或单声道缩减混音信号,并生成从缩减混音信号恢复多声道信号所必需的基本空间信息。
[0169] 比较单元803将缩减混音信号与任意缩减混音信号进行比较,并基于比较的结果生成补偿信息。补偿信息是补偿任意缩减混音信号使得任意缩减混音信号可被转换成接近缩减混音信号所必需的。解码装置可利用补偿信息来补偿任意缩减混音信号,并利用经补偿的任意缩减混音信号恢复多声道信号。恢复的多声道信号比从由多声道编码器801生成的任意缩减混音信号恢复的多声道信号更类似于原始的输入多声道信号。
[0170] 补偿信息可以是缩减混音信号和任意缩减混音信号之差。解码装置可通过将缩减混音信号和任意缩减混音信号之差与任意缩减混音信号相加来补偿任意声道缩减混音信号。
[0171] 缩减混音信号和任意缩减混音信号之差可以是指示缩减混音信号和任意缩减混音信号的能级之差的缩减混音增益。
[0172] 可针对每一频带、每一时间/时隙、和/或每一声道确定缩减混音增益。例如,一部分缩减混音增益可针对每一频带确定,而另一部分缩减混音增益可针对每一时隙确定。
[0173] 缩减混音增益可针对每一参数频带或为任意缩减混音信号优化的每一频带来确定。参数频带是施加有参数类型的空间信息的频率间隔。
[0174] 可将缩减混音信号和任意缩减混音信号的能级之差量化。量化缩减混音信号和任意缩减混音信号的能级之差的量化电平的分辨率可与量化缩减混音信号和任意缩减混音信号之间的CLD的量化电平的分辨率相同或不同。此外,缩减混音信号和任意缩减混音信号的能级之差的量化可涉及使用量化缩减混音信号和任意缩减混音信号之间的CLD的量化电平的全部或部分。
[0175] 因为缩减混音信号和任意缩减混音信号的能级之差的分辨率一般低于缩减混音信号和任意缩减混音信号之间的CLD的分辨率,所以与量化缩减混音信号和任意缩减混音信号之间的CLD的量化电平的分辨率相比,量化缩减混音信号和任意缩减混音信号的能级之差的量化电平的分辨率可具有微小的值。
[0176] 补偿任意缩减混音信号的补偿信息可以是包括残差信息的扩展信息,其指定不能利用任意缩减混音信号或缩减混音增益恢复的输入多声道信号的分量。解码装置可利用扩展信息来恢复不能利用任意缩减混音信号或缩减混音增益恢复的输入多声道信号的分量,从而恢复几乎不可与原始的输入多声道信号区分的信号。
[0177] 生成扩展信息的方法如下。
[0178] 多声道编码器801可生成与缩减混音信号所缺少的输入多声道信号的分量有关的信息作为第一扩展信息。解码装置可通过将第一扩展信息应用于利用缩减混音信号和基本的空间信息生成多声道信号来恢复几乎不可与原始的输入多声道信号区分的信号。
[0179] 或者,多声道编码器801可利用缩减混音信号和基本空间信息来恢复多声道信号,并生成所恢复的多声道信号和原始输入的多声道信号之差作为第一扩展信息。
[0180] 比较单元803可生成与任意缩减混音信号所缺少的缩减混音信号的分量——即不能利用缩减混音增益补偿的缩减混音信号的分量——有关的信息作为第二扩展信息。解码装置可利用任意缩减混音信号和第二扩展信息恢复几乎不能与缩减混音信号区分的信号。
[0181] 除上述方法外,扩展信息还可利用各种残差译码方法来生成。
[0182] 缩减混音增益和扩展信息两者都可被用作补偿信息。更具体地,可针对缩减混音信号的整个频带获取缩减混音增益和扩展信息两者,并可将它们一起用作补偿信息。或者,可将缩减混音增益用作针对缩减混音信号的一部分频带的补偿信息,并将扩展信息用作缩减混音信号的另一部分频带的补偿信息。例如,可将扩展信息用作缩减混音信号的低频带的补偿信息,并将缩减混音增益用作缩减混音信号的高频带的补偿信息。
[0183] 还可将与除缩减混音信号的低频带以外的、诸如显著影响音质的峰值或凹口之类的部分缩减混音信号有关的扩展信息用作补偿信息。
[0184] 空间信息合成单元802合成基本空间信息(例如,CLD、CPC、ICC和CTD)和补偿信息,从而生成空间信息。换言之,传送至解码装置的空间信息可包括基本空间信息、缩减混音增益及第一和第二扩展信息。
[0185] 空间信息可连同任意缩减混音信号一起被包括在比特流中,且可将比特流传送至解码装置。
[0186] 扩展信息和任意缩减混音信号可利用诸如AAC法、MP3法或BSAC法之类的音频编码方法来编码。扩展信息和任意缩减混音信号可利用相同的音频编码方法或不同的音频编码方法来编码。
[0187] 如果扩展信息和任意缩减混音信号利用相同的音频编码方法编码,则解码装置可利用单一音频解码方法来解码扩展信息和任意缩减混音信号两者。在这种情况下,因为任意缩减混音信号总是能够被解码,所以扩展信息也总是能够被解码。然而,因为任意缩减混音信号一般被输入至解码装置作为脉冲编码调制(PCM)信号,用于编码任意缩减混音信号的音频编解码器的类型可能不能容易地识别,因此,用于编码扩展信息的音频编解码器的类型可能也不能容易地识别。
[0188] 因此,与用于编码任意缩减混音信号和扩展信息的音频编解码器的类型有关的音频编解码器信息可被插入比特流中。
[0189] 更具体地,可将音频编解码器信息插入比特流的特定配置报头字段。在这种情况下,解码装置可从比特流的特定配置报头字段提取音频编解码器信息,并使用所提取的音频编解码器信息解码任意缩减混音信号和扩展信息。
[0190] 另一方面,如果任意缩减混音信号和扩展信息利用不同的编码方法来编码,则扩展信息可能不能够被解码。在这种情况下,因为不能识别扩展信息的末端,所以不能执行进一步的解码操作。
[0191] 为了解决该问题,可将与分别用于编码任意缩减混音信号和扩展信息的音频编解码器的类型有关的音频编解码器信息插入比特流的特定配置报头字段。然后,解码装置可从比特流的特定配置报头字段读取音频编解码器信息,并使用读取信息来解码扩展信息。如果解码装置不包括任何可解码扩展信息的解码单元,则可能不能进一步进行扩展信息的解码,且可读取紧接扩展信息之后的信息。
[0192] 与用于编码扩展信息的音频编解码器的类型有关的音频编解码器信息可由包括在比特流的特定配置报头字段中的句法元素表示。例如,音频编解码信息可由4比特句法元素bsResidualCodecType来表示,如以下的表1中指示的。
[0193] 表1
[0194]
[0195] 扩展信息不仅可包括残差信息,还可包括声道扩充信息。声道扩充信息是将通过利用空间信息解码获取的多声道信号扩充成具有更多声道的多声道信号所必需的信息。例如,声道扩充信息可以是将5.1声道信号或7.1声道信号扩充成9.1声道信号所必需的信息。
[0196] 可将扩展信息包括在比特流中,并可将比特流传送至解码装置。然后,解码装置可补偿缩减混音信号,或利用扩展信息扩充多声道信号。然而,解码装置可跳过扩展信息,而不是从比特流中提取扩展信息。例如,在利用包括在比特流中的3D缩减混音信号生成多声道信号或利用包括在比特流中的缩减混音信号生成3D缩减混音信号的情况下,解码装置可跳过扩展信息。
[0197] 跳过包括在比特流中的扩展信息的方法可与以上参考图10所述的字段跳过方法之一相同。
[0198] 例如,扩展信息可利用附连到包括扩展信息的比特流的开头且指示扩展信息的比特大小的比特大小信息、附连到包括扩展信息的字段的开头或末端的同步字、以及指示扩展信息的固定比特大小的固定比特性大小信息中的至少一个来跳过。可将比特大小信息、同步字和固定比特大小信息全部包括在比特流中。还可将固定比特大小信息存储在解码装置中。
[0199] 参考图12,解码单元810包括缩减混音补偿单元811、3D渲染单元815以及多声道解码器816。
[0200] 缩减混音补偿单元811利用包括在空间信息中的补偿信息——例如利用缩减混音增益或扩展信息来补偿任意缩减混音信号。
[0201] 3D渲染单元815通过对经补偿的缩减混音信号执行3D渲染操作来生成解码器3D缩减混音信号。多声道解码器816利用经补偿的缩减混音信号和包括在空间信息中的基本空间信息来生成3D多声道信号。
[0202] 缩减混音补偿单元811可按以下方式补偿任意缩减混音信号。
[0203] 如果补偿信息是缩减混音增益,则缩减混音补偿单元811利用缩减混音增益补偿任意缩减混音信号的能级,使得任意缩减混音信号可被转换成类似于缩减混音信号的信号。
[0204] 如果补偿信息是第二扩展信息,则缩减混音补偿单元811可利用第二扩展信息补偿任意缩减混音信息所缺少的分量。
[0205] 多声道解码器816可通过将前置矩阵M1、混音矩阵M2和后置矩阵M3顺序地施加于缩减混音矩阵信号来生成多声道信号。在这种情况下,第二扩展信息可用于在将混音矩阵M2施加于缩减混音信号期间补偿缩减混音信号。换言之,第二扩展信息可用于补偿已经施加有前置矩阵M1的缩减混音信号。
[0206] 如上所述,可通过将扩展信息应用于生成多声道信号来选择性地补偿多个声道中的每一个。例如,如果将扩展信息施加于混音矩阵M2的中心声道,则可由扩展信息补偿缩减混音信号的左声道和右声道分量。如果将扩展信息施加于混音矩阵M2的左声道,则可由扩展信息补偿缩减混音信号的左声道分量。
[0207] 缩减混音增益和扩展信息两者都可用作补偿信息。例如,可利用扩展信息补偿任意缩减混音信号的低频带,且可利用缩减混音增益补偿任意缩减混音信号的高频带。此外,还可利用扩展信息补偿除任意缩减混音信号的低频带以外的、诸如可显著影响音质的峰值或凹口之类的部分任意缩减混音信号。与将由扩展信息补偿的部分有关的信息可被包括在比特流中。指示包括在比特流中的缩减混音信号是否是任意缩减混音信号的信息以及指示比特流是否包括补偿信息的信息可被包括在比特流中。
[0208] 为了防止由编码单元800生成的缩减混音信号被削波,可将缩减混音信号除以预定增益。预定增益可具有静态值或动态值。
[0209] 缩减混音补偿单元811可通过利用预定增益补偿为防止削波而削弱的缩减混音信号来恢复原始缩减混音信号。
[0210] 可容易地再现由缩减混音补偿单元811补偿的任意缩减混音信号。或者,还待补偿的任意缩减混音信号可被输入至3D渲染单元815,并可由3D渲染单元815转换成解码器3D缩减混音信号。
[0211] 参考图12,缩减混音补偿单元811包括第一域转换器812、补偿处理器813和第二域转换器814。
[0212] 第一域转换器812将任意缩减混音信号的域转换成预定域。补偿处理器813利用补偿信息——例如,缩减混音增益或扩展信息——来补偿预定域中的任意缩减混音信号。
[0213] 任意缩减混音信号的补偿可在QMF/混合域中进行。为此,第一域转换器812可对任意缩减混音信号执行QMF/混合分析。第一域转换器812可将任意缩减混音信号的域转换成除QMF/混合域以外的域,例如,诸如DFT或FFT域之类的频域。任意缩减混音信号的补偿也可在除QMF/混合域以外的域中进行,例如,频域或时域。
[0214] 第二域转换器814将经补偿的任意缩减混音信号的域转换成与原始任意缩减混音信号相同的域。更具体地,第二域转换器814通过反向地执行由第一域转换器812所执行的域转换操作来将经补偿的任意缩减混音信号的域转换成与原始任意缩减混音信号相同的域。
[0215] 例如,第二域转换器814可通过对经补偿的任意缩减混音信号执行QMF/混合合成将经补偿的任意缩减混音信号转换成时域信号。同样,第二域转换器814可对经补偿的任意缩减混音信号执行IDFT或IFFT。
[0216] 类似于图7所示的3D渲染单元710,3D渲染单元815可对在频域、QMF/混合域或时域中的、经补偿的任意缩减混音信号执行3D渲染操作。为此,该3D渲染单元815可包括域转换器(未示出)。域转换器将经补偿的任意缩减混音信号的域转换成将要执行3D渲染操作的域,或转换通过3D渲染操作获取的信号的域。
[0217] 其中补偿处理器813补偿任意缩减混音信号的域可与其中3D渲染单元815对经补偿的任意缩减混音信号执行3D渲染操作的域相同或不同。
[0218] 图13是根据本发明的实施例的缩减混音补偿/3D渲染单元820的框图。参考图13,缩减混音补偿/3D渲染单元820包括第一域转换器821、第二域转换器822、补偿/3D渲染处理器823以及第三域转换器824。
[0219] 缩减混音补偿/3D渲染单元820可在单个域中对任意缩减混音信号执行补偿操作和3D渲染操作,从而减少解码装置的计算量。
[0220] 更具体地,第一域转换器821将任意缩减混音信号的域转换成其中将执行补偿操作和3D渲染操作的第一域。第二域转换器822转换空间信息,其包括生成多声道信号所必需的基本空间信息和补偿任意缩减混音信号所必需的补偿信息,使得空间信息变得可适用于第一域。补偿信息可包括缩减混音增益和扩展信息中的至少一个。
[0221] 例如,第二域转换器822可将QMF/混合域中对应于参数频带的补偿信息映射到频带,使得补偿信息可变得容易地适用于频域。
[0222] 第一域可以是诸如DFT或FFT之类的频域、QMF/混合域或时域。或者,第一域可以是除本文中陈述的域以外的域。
[0223] 在补偿信息的转换期间,可发生时延。为了解决该问题,第二域转换器822可执行时延补偿操作,使得补偿信息的域和第一域之间的时延能够被补偿。
[0224] 补偿/3D渲染处理器823利用经转换的空间信息对第一域中的任意缩减混音信号执行补偿操作,然后对通过补偿操作获取的信号执行3D渲染操作。补偿/3D渲染处理器823可按与本文陈述的不同的顺序执行补偿操作和3D渲染操作。
[0225] 补偿/3D渲染处理器823可同时对任意缩减混音信号执行补偿操作和3D渲染操作。例如,补偿/3D渲染处理器823可通过使用新滤波器系数对第一域中的任意缩减混音信号执行3D渲染操作来生成经补偿的3D缩减混音信号,该新滤波器系数是补偿信息和通常在3D渲染操作中使用的现有滤波器系数的组合。
[0226] 第三域转换器824将补偿/3D渲染处理器823所生成的3D缩减混音信号的域转换成频域。
[0227] 图14是根据本发明的实施例用于处理兼容缩减混音信号的解码装置900的框图。参考图14,解码装置900包括第一多声道解码器910、缩减混音兼容性处理单元920、第二多声道解码器930和3D渲染单元940。将省略与图1的实施例相同的解码过程的详细描述。
[0228] 兼容缩减混音信号是可由两个或更多多声道解码器解码的缩减混音信号。换言之,兼容缩减混音信号是最初针对预定多声道解码器优化、然后能够通过兼容性处理操作转换成针对除该预定多声道解码器以外的多声道解码器优化的信号的缩减混音信号。
[0229] 参考图14,假设输入的兼容缩减混音信号针对第一多声道解码器910优化。为了使第二多声道解码器930解码输入的兼容缩减混音信号,缩减混音兼容性处理单元920可对输入的兼容缩减混音信号执行兼容性处理操作,使得输入的兼容缩减混音信号可被转换成针对第二多声道解码器930优化的信号。第一多声道解码器910通过解码输入的兼容缩减混音信号来生成第一多声道信号。第一多声道解码器910可通过仅仅使用输入的兼容缩减混音信号而不需要空间信息进行解码来生成多声道信号。
[0230] 第二多声道解码器930利用由缩减混音兼容性处理单元920执行的兼容性处理操作获取的缩减混音信号生成第二多声道信号。3D渲染单元940可通过对由缩减混音兼容性处理单元920执行的兼容性处理操作获取的缩减混音信号执行3D渲染操作来生成解码器3D缩减混音信号。
[0231] 可利用诸如逆矩阵之类的兼容性信息,将针对预定多声道解码器优化的兼容缩减混音信号转换成针对除预定多声道解码器以外的多声道解码器优化的缩减混音信号。例如当存在利用不同编码方法的第一和第二多声道编码器与利用不同编码/解码方法的第一和第二多声道解码器时,编码装置可将矩阵施加于第一多声道编码器生成的缩减混音信号,从而生成针对第二多声道解码器优化的兼容缩减混音信号。然后,解码装置可将逆矩阵施加于由编码装置所生成的兼容缩减混音信号,从而生成针对第一多声道解码器优化的兼容缩减混音信号。
[0232] 参考图14,缩减混音兼容性处理单元920可利用逆矩阵对输入的兼容缩减混音信号执行兼容性处理操作,从而生成针对第二多声道解码器930优化的缩减混音信号。
[0233] 与缩减混音兼容性处理单元920所使用的逆矩阵有关的信息可提前存储在解码装置900中,或可被包括在编码装置传送的比特流中。此外,指示包括在输入比特流中的缩减混音信号是任意缩减混音信号还是兼容缩减混音信号的信息可被包括在输入比特流中。
[0234] 参考图14,缩减混音兼容性处理单元920包括第一域转换器921、兼容性处理器922和第二域转换器923。
[0235] 第一域转换器921将输入的兼容缩减混音信号的域转换成预定域,且兼容性处理器922利用诸如逆矩阵之类的兼容性信息执行兼容性处理操作,使得在预定域中的输入兼容缩减混音信号可被转换成针对第二多声道解码器930优化的信号。
[0236] 兼容性处理器922可在QMF/混合域中执行兼容性处理操作。为此,第一域转换器921可对输入的兼容缩减混音信号执行QMF/混合分析。同样,第一域转换器921可将输入的兼容缩减混音信号的域转换成除QMF/混合域以外的域,例如,诸如DFT或FFT域之类的频域,且兼容性处理器922可在除QMF/混合域以外的域——如频域或时域中执行兼容性处理操作。
[0237] 第二域转换器923转换由兼容性处理操作获取的兼容缩减混音信号的域。更具体地,第二域转换器923可通过反向地执行由第一域转换器921所执行的域转换操作来将通过兼容性处理操作获取的兼容性缩减混音信号的域转换成与原始输入兼容缩减混音信号相同的域。
[0238] 例如,第二域转换器923可通过对由兼容性处理操作获取的兼容缩减混音信号执行QMF/混合域合成来将由兼容性处理操作获取的兼容缩减混音信号转换成时域信号。或者,第二域转换器923可对由兼容处理操作获取的兼容缩减混音信号执行IDFT或IFFT。
[0239] 3D渲染单元940可对在频域、QMF/混合域或时域中的、由兼容性处理操作获取的兼容缩减混音信号执行3D渲染操作。为此,该3D渲染单元940可包括域转换器(未示出)。域转换器将输入的兼容缩减混音信号的域转换成其中将执行3D渲染操作的域,或转换由
3D渲染操作获取的信号的域。
[0240] 其中兼容性处理器922执行兼容性处理操作的域可与其中3D渲染单元940执行3D渲染操作的域相同或不同。
[0241] 图15是根据本发明的实施例的缩减混音兼容性处理/3D渲染单元950的框图。参考图15,缩减混音兼容性处理/3D渲染单元950包括第一域转换器951、第二域转换器952、兼容性/3D渲染处理器953以及第三域转换器954。
[0242] 缩减混音兼容性处理/3D渲染单元950在单个域中执行兼容性处理操作和3D渲染操作,从而减少解码装置的计算量。
[0243] 第一域转换器951将输入的兼容缩减混音信号转换至其中将执行兼容性处理操作和3D渲染操作的第一域。第二域转换器952转换空间信息和兼容性信息,例如逆矩阵,使得空间信息和兼容性信息能变得适用于第一域。
[0244] 例如,第二域转换器952可将QMF/混合域中对应于参数频带的逆矩阵映射到频域,使得逆矩阵可容易地适用于频域。
[0245] 第一域可以是诸如DFT或FFT域之类的频域、QMF/混合域或时域。或者,第一域可以是除本文中陈述的域以外的域。
[0246] 在空间信息和兼容性信息的转换期间,可发生时间延迟。
[0247] 为了解决该问题,第二域转换器952可执行时延补偿操作,使得空间信息和补偿信息的域与第一域之间的时延能够被补偿。
[0248] 兼容性/3D渲染处理器953利用经转换的兼容性信息对第一域中的输入兼容缩减混音信号执行兼容性处理操作,然后对通过兼容性处理操作获取的兼容缩减混音信号执行3D渲染操作。兼容性/3D渲染处理器953可按与本文陈述的不同的顺序执行兼容性处理操作和3D渲染操作。
[0249] 兼容性/3D渲染处理器953可同时对输入的兼容缩减混音信号执行兼容性处理操作和3D渲染操作。例如,兼容性/3D渲染处理器953可通过使用新滤波器系数对第一域中的输入兼容缩减混音信号执行3D渲染操作来生成3D缩减混音信号,该新滤波器系数是兼容性信息和通常在3D渲染操作中使用的现有滤波器系数的组合。
[0250] 第三域转换器954将兼容性/3D渲染处理器953所生成的3D缩减混音信号的域转换成频域。
[0251] 图16是根据本发明的实施例用于消除串扰的解码装置的框图。参考图16,解码装置包括比特拆分单元960、缩减混音解码器970、3D渲染单元980以及串扰消除单元990。将省略与图1的实施例相同的解码过程的详细描述。
[0252] 由3D渲染单元980输出的3D缩减混音信号可由耳机再现。然而,当3D缩减混音信号由远离用户的扬声器再现时,声道间串扰很可能发生。
[0253] 因此,解码装置可包括对3D缩减混音信号执行串扰消除操作的串扰消除单元990。
[0254] 解码装置可执行声场处理操作。
[0255] 声场处理操作中使用的声场信息,即,标识其中将再现3D缩减混音信号的空间的信息,可被包括在由编码装置传送的输入比特流中,或可由解码装置选择。
[0256] 输入比特流可包括混响时间信息。可根据混响时间信息控制在声场处理操作中使用的滤波器。
[0257] 对于早前部分和后面的混响部分可有差别地执行声场处理操作。例如,早前部分可利用FIR滤波器来处理,而后面的混响部分可利用IIR滤波器处理。
[0258] 更具体地,可通过使用FIR滤波器在时域中执行卷积操作或通过在时域中执行乘法操作、并将乘法操作的结果转换至时域来对早前部分执行声场处理操作。声场处理操作可在时域中对后面的混响部分执行。
[0259] 可将本发明实现为写在计算机可读记录介质上的计算机可读代码。计算机可读记录介质可以是其中数据以计算机可读方式存储的任何类型的记录设备。计算机可读记录介质的例子包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储器、载波(例如,通过因特网的数据传输)。可将计算机可读记录介质分布在连接至网络的多个计算机系统上,使得计算机可读代码能以分散的方式向其写入或从其执行。实现本发明所需的功能程序、代码和代码段可由本领域的普通技术人员容易地解释。
[0260] 如上所述,根据本发明,高效率地编码具有3D效果的多声道信号,并根据再现环境的特性以最优音质自适应地恢复和再现音频信号是可能的。
[0261] 工业实用性
[0262] 其他实现在以下权利要求的范围内。例如,根据本发明的编组、数据译码和熵译码可被应用于各种应用领域和各种产品。应用本发明的一个方面的存储数据的存储介质在本发明的范围内。