用于利用合成单元和混频器解码包括瞬时的信号的设备转让专利

申请号 : CN201180051699.9

文献号 : CN103180898B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 阿希姆·昆茨萨沙·迪施于尔根·赫莱法比安·库奇约翰内斯·希尔珀特

申请人 : 弗兰霍菲尔运输应用研究公司

摘要 :

一种用于产生去相关信号的设备包括瞬时分离器(310;410;510;610;710;910)、瞬时去相关器(320;420;520;620;720;920)、第二去相关器(330;430;530;630;730;930)、合成单元(340;440;540;640;740;940)以及混频器(450;552;752;952),其中,该瞬时分离器(310;410;510;610;710;910)适用于将输入信号分离成第一信号分量和第二信号分量,使得该第一信号分量包括输入信号的瞬时信号部分且使得该第二信号分量包括输入信号的非瞬时信号部分。合成单元(340;440;540;640;740;940)和混频器(450;552;752;952)被配置为使得将去相关信号作为输入信号从合成单元馈送到混频器(450;552;752;952)中。

权利要求 :

1.一种用于解码信号的设备,包括:

瞬时分离器(310;410;510;610;710;910),用于将设备输入信号分离成第一信号分量和第二信号分量,使得所述第一信号分量包括所述输入信号的瞬时信号部分且使得所述第二信号分量包括所述输入信号的非瞬时信号部分;

瞬时去相关器(320;420;520;620;720;920),用于根据第一去相关方法来去相关所述第一信号分量以获得第一去相关信号分量;

另一第二去相关器(330;430;530;630;730;930),用于根据第二去相关方法来去相关所述第二信号分量以获得第二去相关信号分量,其中,所述第二去相关方法不同于所述第一去相关方法;

合成单元(340;440;540;640;740;940),用于将所述第一去相关信号分量与所述第二去相关信号分量合成以获得去相关合成信号;以及混频器(450;552;752;952),适用于接收混频器输入信号且适用于基于所述混频器输入信号和混频规则来生成输出信号;

其中,所述合成单元(340;440;540;640;740;940)和所述混频器(450;552;752;

952)被配置为使得将所述去相关合成信号作为第一混频器输入信号馈送到所述混频器(450;552;752;952)中以及将所述设备输入信号或从所述设备输入信号导出的信号作为第二混频器输入信号馈送到所述混频器(450;552;752;952)中。

2.根据权利要求1所述的设备,

其中,所述混频器(450;552;752;952)还适用于接收指示两个信号之间的相关性或相干性的相关性/相干性参数数据,且其中,所述混频器(450;552;752;952)还适用于基于所述相关性/相干性参数数据来生成所述输出信号。

3.根据权利要求1所述的设备,

其中,所述混频器(450;552;752;952)还适用于接收指示两个信号之间的能量差的电平差参数数据,且其中,所述混频器(450;552;752;952)还适用于基于所述电平差参数数据生成所述输出信号。

4.根据权利要求1所述的设备,

其中,所述混频器(450;552;752;952)还适用于采用包括将所述第一混频器输入信号和所述第二混频器输入信号与混频矩阵相乘的规则的混频规则。

5.根据权利要求1所述的设备,

其中,所述合成单元(340;440;540;640;740;940)适用于通过将所述第一去相关信号分量与所述第二去相关信号分量相加来合成所述第一去相关信号分量与所述第二去相关信号分量。

6.根据权利要求1所述的设备,

其中,所述瞬时分离器(310;410;510;610;710;910)适用于根据瞬时分离信息来将所述设备输入信号的所考虑的信号部分馈送到所述瞬时去相关器(320;420;520;620;

720;920)中或者将所考虑的信号部分馈送到所述第二去相关器(330;430;530;630;730;

930)中,所述瞬时分离信息指示所考虑的信号部分包括瞬时或者指示所考虑的信号部分不包括瞬时。

7.根据权利要求1所述的设备,

其中,所述瞬时分离器(310;410;510;610;710;910)适用于部分地将所述设备输入信号的所考虑的信号部分馈送到所述瞬时去相关器(320;420;520;620;720;920)中,以及部分地将所考虑的信号部分馈送到所述第二去相关器(330;430;530;630;730;930)中,且其中,被馈送到所述瞬时分离器中的所考虑的信号部分的量和被馈送到所述第二去相关器中的所考虑的信号部分的量取决于瞬时分离信息。

8.根据权利要求1所述的设备,

其中,所述瞬时分离器(310;410;510;610;710;910)适用于分离在频域中表示的设备输入信号。

9.根据权利要求1所述的设备,

其中,所述瞬时分离器(310;410;510;610;710;910)适用于基于频率无关瞬时分离信息来将所述设备输入信号分离成第一信号分量和第二信号分量。

10.根据权利要求1所述的设备,

其中,所述瞬时分离器(310;410;510;610;710;910)适用于基于频率相关瞬时分离信息来将所述设备输入信号分离成第一信号分量和第二信号分量。

11.根据权利要求1所述的设备,

其中,所述设备还包括接收单元(650),所述接收单元适用于从编码器接收相位信息;

且其中,所述瞬时去相关器(320;420;520;620;720;920)适用于将来自所述编码器的所述相位信息应用于所述第一信号分量。

12.根据权利要求1所述的设备,

其中,所述第二去相关器(330;430;530;630;730;930)是格子式IIR去相关器。

13.一种用于解码信号的方法,包括:

将设备输入信号分离成第一信号分量和第二信号分量,使得所述第一信号分量包括所述设备输入信号的瞬时信号部分且使得所述第二信号分量包括所述设备输入信号的非瞬时信号部分;

由瞬时去相关器根据第一去相关方法来去相关所述第一信号分量以获得第一去相关信号分量;

由另一第二去相关器根据第二去相关方法来去相关所述第二信号分量以获得第二去相关信号分量,其中,所述第二去相关方法不同于所述第一去相关方法;

将所述第一去相关信号分量与所述第二去相关信号分量合成以获得去相关合成信号;

以及

基于混频规则、所述去相关合成信号和所述设备输入信号来生成输出信号。

说明书 :

用于利用合成单元和混频器解码包括瞬时的信号的设备

技术领域

[0001] 本发明涉及音频处理以及音频解码领域,具体地,涉及解码包括瞬时的信号。

背景技术

[0002] 音频处理和/或解码以许多方式发展。具体地,空间音频应用已变得越来越重要。音频信号处理经常被用于去相关或渲染信号。此外,信号的去相关和渲染被用于单声道至立体声上混、单声道/立体声至多声道上混、人工混响、立体声强化或用户互动混频/渲染的处理中。
[0003] 几种音频信号处理系统采用去相关器。重要实例是去相关系统应用在参数空间音频解码器中以恢复在从一个或几个下混信号重构的两个或更多个信号之间的特定去相关特性。例如,当与强度立体声相比时,去相关器的应用显著改善了输出信号的感知质量。具体地,去相关器的利用能使空间声音与宽的声音图像、几个并发的声音对象和/或周围环境适当合成。然而,也已知去相关器会在时间信号结构、音质等中引入伪像(artifact)类改变。
[0004] 音频处理中的去相关器的其他应用实例例如是用于改变空间感的人工混响的产生或在多声道声学回声消除系统中利用去相关器来改善收敛行为。
[0005] 图1中示出了去相关器在单声道至立体声上混频器中的现有技术应用的典型状态(例如,应用在参数立体声(PS)中),其中,单声道输入信号M(“干(dry)”信号)被提供至去相关器110。去相关器110根据去相关方法将单声道输入信号M去相关以在其输出端提供去相关信号D(“湿(wet)”信号)。该去相关信号D作为第一混频器输入信号与作为第二混频器输入信号的干单声道信号M一起被馈送至混频器120中。此外,上混控制单元130馈送上混控制参数到混频器120中。混频器120随后根据混频矩阵H产生两个输出声道L和R(L=左立体声输出声道;R=右立体声输出声道)。混频矩阵的系数可以是固定的、信号相关的或者由用户来控制。
[0006] 可替代地,混频矩阵由侧信息控制,该侧信息与包括关于如何上混该下混的信号以形成所需的多声道输出的参数描述的下混一起被发送。这一空间侧信息通常在单声道下混处理期间在匹配的信号编码器中产生。
[0007] 该原理广泛被应用在空间音频编码中,例如,参数立体声,例如参见J.Breebaart,S.van de Par,A.Kohlrausch,E.Schuijers,“High-Quality Parametric Spatial Audio Coding at Low Bitrates”in Proceedings of the AES116th Convention,Berlin,Preprint6072,May2004。
[0008] 图2中示出了参数立体声解码器的另一现有技术结构的典型状态,其中,去相关处理在转换域中被进行。分析滤波器组210将单声道输入信号转换到转换域中,例如,转换到频域中。被转换的单声道输入信号M的去相关随后利用产生去相关信号D的去相关器220进行。被转换的单声道输入信号M和去相关信号D两者均被馈送到混频矩阵230中。
混频矩阵230随后考虑由参数修改单元240提供的上混参数来产生两个输出信号L和R,其中,该参数修改单元240被设置有空间参数并被耦接至参数控制单元250。在图2中,空间参数可由用户或其他工具(例如,用于立体声渲染/呈现的后处理)修改。在该实例中,上混参数与来自立体声滤波器的参数结合以形成用于上混频矩阵的输入参数。最终,由混频矩阵230产生的输出信号被馈送到确定立体声输出信号的合成滤波器组260中。
[0009] 混频矩阵230的输出L/R根据混频规则从单声道输入信号M和去相关信号D被计算出,例如,通过应用以下公式计算:
[0010]
[0011] 在该混频矩阵中,被馈送至输出的去相关声音的量基于发送参数(例如,声道间相关/相干性(ICC)和/或固定的或用户定义的设置)来控制。
[0012] 在概念上,去相关器输出D的输出信号代替理想地将允许原始L/R信号的完美解码的余留信号。在上混频器中利用去相关器输出D代替余留信号会产生对以其他方式发送余留信号所需的位率的节省。因此,去相关器的目的是从单声道信号M产生信号D,该信号D表现出与由D代替的余留信号相似的性质。
[0013] 相应地,在编码器侧,两种类型的空间参数被提取:第一组参数包括表示在两个将被编码的输入声道之间的相干性或互相关的相关/相干性参数(例如,ICC=声道间相关/相干性参数)。第二组参数包括表示在两个输入声道之间的电平差的电平差参数(例如,ILD=声道间电平差参数)。
[0014] 此外,下混信号通过将两个输入声道下混来产生。此外,产生余留信号。余留信号是可被用于通过另外采用下混信号和上混矩阵来再生出原始信号的信号。例如,当N个信号被下混至1个信号时,该下混通常是从N个输入信号的映射产生的N个分量中的1个。从映射(例如,N-1个分量)产生的其余分量是余留信号且允许通过逆映射来重构原始的N个信号。该映射例如可以是转动操作。该映射将被进行,使得下混信号被最大化且余留信号被最小化,例如,类似于主轴转换。例如,下混信号的能量将被最大化且余留信号的能量将被最小化。当将2个信号下混至1个信号时,下混通常是从2个输入信号的映射产生的两个分量的一个。从映射产生的其余分量是余留信号且允许通过逆映射重构原始的2个信号。
[0015] 在一些情况下,余留信号可利用它们的下混和去相关的参数来表示与所表示的两个信号相关联的误差。例如,余留信号可以是表示在原始声道L、R和声道L’、R’之间的误差的误差信号,该声道L’、R’根据上混基于原始声道L和R产生的下混信号来产生。
[0016] 换言之,余留信号可被考虑为时域或频域或者子带域中的信号,该信号仅与下混信号或与下混信号以及参数信息一起来允许原始声道的正确的或近乎正确的重构。必须理解,近乎正确是指与利用下混而无需余留信号或者利用下混以及参数信息而无需余留信号的重构相比,与具有大于零的能量的余留信号的重构较接近于原始声道。
[0017] 考虑到MPEG环绕(MPS),类似于PS而被称为一至二盒(OTT盒)的结构被用于空间音频解码树中。这可被视为单声道到立体声上混至多声道空间音频编码/解码方案的概念的一般化。在MPS中,根据TTT操作模式,可施加去相关器的二至三上混系统(TTT盒)也存在。其细节在J.Herre,K. J.Breebaart,et al.,“MPEG surround—theISO/MPEG standard for efficient and compatible multi-channel audio coding,”in Proceedings of the 122th AES Convention,Vienna,Austria,May2007中被描述。
[0018] 关于定向音频编码(DirAC),DirAC涉及参数音域编码方案,其不限于具有固定扩音机位置的固定数目的音频输出声道。DirAC在DirAC渲染器中(即,在空间音频解码器中)应用去相关器来合成音域的非相干性分量。关于定向音频编码的更多信息可在Pulkki,Ville:“Spatial Sound Reproduction with Directional Audio Coding,”in J.Audio Eng.Soc.,Vol.55,No.6,2007中发现。
[0019] 关于空间音频解码器中的现有技术的去相关器的状态,可参考ISO/IEC国 际 标 准“Information Technology-MPEG audio technologies–Part1:MPEG Surround”,ISO/IEC23003-1:2007以及也可参考J.Engdegard,H.Purnhagen,J.L.Liljeryd,“Synthetic Ambience in Parametric Stereo Coding”in Proceedings of the AES116th Convention,Berlin,Preprint,May2004。IIR格 子 式 全 通 结 构被用作在类似于MPS的空间音频解码器中的去相关器,如在J.Herre,K.
J.Breebaart,et al.,“MPEG surround—the ISO/MPEG standard for efficient and compatible multi-channel audio coding,”in Proceedings of the122th AES Convention,Vienna,Austria,May 2007中所述,以及如在ISO/IEC国际标准“Information Technology-MPEG audio technologies–Part1:MPEG Surround”,ISO/IEC23003-1:2007中所述。其他现有技术的去相关器的状态将(可能为频率相关)延迟施加至去相关信号或对输入信号卷积,例如,以指数方式衰减噪声突发。对于用于空间音频上混系统的现有技术去相关器的状态的概述,参见“Synthetic Ambience in Parametric Stereo Coding”in Proceedings of the AES116th Convention,Berlin,Preprint,May2004。
[0020] 处理信号的另一技术是“语义上混处理”。语义上混处理是将信号分解为具有不同语义性质(即,信号分类)的分量并将不同的上混策略应用于不同的信号分量上的技术。不同的上混算法可根据不同的语义性质而被最佳化以改善整个信号处理方案。这一概念在国际专利申请WO/2010/017967,用于确定空间输出多声道-声道音频信号的设备(An apparatus for determining a spatial output multichannel-channel audio signal),PCT/EP2009/005828,11.8.2009,11.6.2010(FH090802PCT)中被描述。
[0021] 另一空间音频编码方案是“时间排列方法”,如在Hotho,G.,van de Par,S.,and Breebaart,J.:“Multichannel coding of applause signals”,EURASIP Journal on Advances in Signal Processing,Jan.2008,art.10.DOI=http://dx.doi.org/10.1155/2008/中所述。在该文献中,适用于类似喝彩信号的编码/解码的空间音频编码方案被提出。这一方案依赖于单声道音频信号(空间音频编码器的下混信号)的片段的感知相似性。该单声道音频信号被分割成重迭的时间片段。这些片段在“超级”块内被时间上伪随机地(对于n个输出声道相互独立)排列以形成去相关输出声道。
[0022] 另 一 空 间 音 频 编 码 技 术 是“时 间 延 迟 及 交 换 方 法”。 在DE 102007018032A:20070417,Erzeugung dekorrelierter Signale,17.4.2007,23.10.2008(FH
070414PDE)中,提出了也适合于用于立体声呈现的类似喝彩的信号的编码/解码的方案。
该方案也依赖于单声道音频信号的片段的感知相似性且在输出声道上彼此相对延迟。为避免向在先声道的局域偏移化,在先以及延后声道周期性被交换。
[0023] 一般地,已知在参数空间音频编码器中被编码/解码的立体声或多声道的类似喝彩的信号会导致信号质量降低(例如,参见Hotho,G.,van de Par,S.,and Breebaart,J.:“Multichannel coding of applause signals”,EURASIP Journal on Advances in Signal Processing,Jan.2008,art.10.DOI=http://dx.doi.org/10.1155/2008/531693,也参见DE102007018032A)。类似喝彩的信号通过包括来自不同方向的时间密集的瞬时混合来表征。关于这些信号的实例是喝彩、雨声、马的奔驰声等。类似喝彩的信号经常也包括来自远方的声音源的声音分量,其感知地被融合到类似噪声、平滑的背景音域中。
[0024] 在类似MPEG环绕的空间音频解码器中采用的现有技术的去相关技术的状态包括格子式全通结构。这些用作人工混响发生器并因此很好地适用于产生同质、平滑、类似噪声、沉浸的声音(类似于室内混响尾声)。然而,存在仍使收听者沉浸的具有非同质空间-时间结构的音域的实例:一个主要实例是不仅利用同质类似噪声的音域而且也利用来自不同方向的单一拍击声的密集序列来产生收听者环境的类似喝彩的音域。因此,喝彩音域的非同质分量可由空间分布的瞬时混合来表征。显然,这些不同的拍击声根本不是同质、平滑和类似噪声的。
[0025] 由于它们类似混响的行为,格子式全通去相关器不能产生具有例如喝彩特性的沉浸音域。然而,当应用至类似喝彩的信号时,它们易于在时间上抹除信号中的瞬时。非期望的结果是类似噪声的沉浸音域,而不具有类似喝彩的音域的特殊空间-时间结构。此外,类似于单一手拍击声的瞬时事件可能引起去相关器滤波器的回响式伪像音效。
[0026] 根 据 Hotho,G.,van de Par,S.,and Breebaart,J.:“Multichannel coding of applause signals”,EURASIP Journal on Advances in SignalProcessing,Jan.2008,art.10.DOI=http://dx.doi.org/10.1155/2008/531693的系统将表现出由于输出音频信号中的某一反复质量的可感知输出声音的降低。这是因为一个输入信号及其片段不变的出现在每个输出声道中(尽管在不同的时间点)这一事实。此外,为避免喝彩密度增加,一些原始声道必须在上混中被舍弃且因此一些重要听觉事件可能在产生的上混中丢失。该方法仅可应用于假设其可能找出共享相同感知性质的信号片段,即:声音相似的信号片段。该方法一般严重改变了信号的时间结构,这可能仅对于非常少的信号是可接受的。在将该方案应用至非类似喝彩的信号的情况下(例如,由于信号的误分类),时间的排列将更经常导致不可接受的结果。时间的排列进一步限制对几个信号片段可一起被混合而无类似伪像的回声或梳状滤波的情况的适用性。类似缺点适用于在DE 10 2007
018032A中所述的方法。
[0027] 在WO/2010/017967中所述的语义上混处理在去相关器应用之前分离信号的瞬时分量。其余(无瞬时)信号被馈送至常规去相关和上混处理器,而瞬时信号被不同处理:后者(例如,随机地)通过应用振幅扫视技术而被分布至立体声或多声道输出信号的不同声道。振幅扫视表现出几个缺点:
[0028] 振幅扫视不必产生接近于原始的输出信号。若原始信号中瞬时的分配可利用振幅扫视法则来描述,则该输出信号可仅接近于该原始信号。即:该振幅扫视可仅正确地纯复制振幅扫视事件,但在不同输出声道中的瞬时分量之间无相位或时间差。
[0029] 此外,振幅扫视方法在MPS中的应用将不仅需要旁路去相关器,而且也需要旁路上混频矩阵。由于上混频矩阵反映合成表现正确空间性质的上混输出所需的空间参数(声道间相关性:ICC、声道间电平差:ILD),所以扫视系统本身必须应用一些规则来合成具有正确空间性质的输出信号。用于如此处理的一般规则不是已知的。此外,该结构增加了复杂性,因为空间参数必须被考虑两次:一次是对于信号的非瞬时部分,以及第二次是对于信号的振幅扫视瞬时部分。

发明内容

[0030] 因此,本发明的一个目的是提供一种用于产生供解码信号的去相关信号的改进概念。本发明的目的由根据权利要求1所述的用于产生解码信号的设备、由根据权利要求13所述的用于解码信号的方法以及由根据权利要求14所述的计算机程序来解决。
[0031] 根据实施方式的设备包括瞬时分离器,该瞬时分离器用于将输入信号分离成第一信号分量和第二信号分量,使得该第一信号分量包括输入信号的瞬时信号部分且使得该第二信号分量包括输入信号的非瞬时信号部分。该瞬时分离器可将不同的信号分量相互分离,以允许包括瞬时的信号分量可不同于不包括瞬时的信号分量而被处理。
[0032] 该设备还包括瞬时去相关器,用于根据尤其适用于去相关包括瞬时的信号分量的去相关方法来去相关包括瞬时的信号分量。此外,该设备包括用于去相关不包括瞬时的信号分量的第二去相关器。
[0033] 因此,该设备能利用标准去相关器处理信号分量,或可选地,利用尤其适用于处理瞬时信号分量的瞬时去相关器来处理信号分量。在一种实施方式中,瞬时分离器确定信号分量是否被馈送到标准去相关器或者瞬时去相关器中。
[0034] 此外,该设备可适用于分离信号分量,使得该信号分量部分被馈送到瞬时去相关器中,以及部分被馈送到第二去相关器中。
[0035] 此外,该设备包括合成单元,用于合成由标准去相关器和瞬时去相关器输出的信号分量以产生去相关合成信号。
[0036] 在一种实施方式中,该设备包括混频器,适用于接收输入信号,且此外,适用于基于该输入信号和基于混频规则来产生输出信号。设备输入信号被馈送到瞬时分离器并随后由瞬时分离器和/或第二去相关器如上所述来去相关。合成单元和混频器可被配置为使得该去相关合成信号被馈送到混频器中作为第一混频器输入信号。第二混频器输入信号可以是设备输入信号或从该设备输入信号获得的信号。由于当去相关合成信号被馈送到混频器中时去相关处理已完成,所以混频器不需要考虑瞬时去相关。因此,可采用常规混频器。
[0037] 在另一实施方式中,混频器适用于接收指示在两个信号之间的相关性或相干性的相关性/相干性参数数据,且适用于基于该相关性/相干性参数数据来产生输出信号。在另一实施方式中,混频器适用于接收指示在两个信号之间的能量差的电平差参数数据,且适用于基于电平差参数数据来产生输出信号。在该实施方式中,由于混频器将负责处理相应数据,所以瞬时去相关器、第二去相关器以及合成单元不需要被调适来处理这些参数数据。另一方面,具有常规相关性/相干性以及电平差参数处理的常规混频器可被用于该实施方式中。
[0038] 在一种实施方式中,瞬时分离器适用于根据指示包括瞬时的所考虑的信号部分或指示不包括瞬时的所考虑的信号部分的瞬时分离信息来将设备输入信号的所考虑的信号部分馈送到瞬时去相关器中或者将所考虑的信号部分馈送到第二去相关器中。这一实施方式允许瞬时分离信息容易处理。
[0039] 在另一实施方式中,瞬时分离器适用于部分将设备输入信号的所考虑的信号部分馈送到瞬时去相关器中,以及部分将所考虑的信号部分馈送到第二去相关器中。被馈送到瞬时分离器的所考虑的信号部分的量以及被馈送到第二去相关器中的所考虑的信号部分的量取决于瞬时分离信息。由此,可考虑瞬时强度。
[0040] 在另一实施方式中,瞬时分离器适用于分离在频域中表示的设备输入信号。这允许频率相关的瞬时处理(分离和去相关)。因此,第一频带的特定信号分量可根据瞬时去相关方法来处理,而另一频带的信号分量可根据另一方法(例如,常规去相关方法)来处理。因此,在一种实施方式中,瞬时分离器适用于基于频率相关的瞬时分离信息来分离设备输入信号。然而,在另一实施方式中,瞬时分离器适用于基于频率相关的分离信息来分离设备输入信号。这允许更有效的瞬时信号处理。
[0041] 在另一实施方式中,瞬时分离器可适用于分离在频域中表示的设备输入信号,使得在第一频率范围内的设备输入信号的所有信号部分被馈送到第二去相关器中。因此,相应的设备适用于将瞬时信号处理限制于具有在第二频率范围中的信号频率的信号分量,同时不具有在第一频率范围中的信号频率的信号分量被馈送到瞬时去相关器中(但相反,是进入第二去相关器中)。
[0042] 在另一实施方式中,瞬时去相关器可适用于通过施加表示在余留信号与下混信号之间的相位差的相位信息来去相关该第一信号分量。在编码器侧,“逆”混频矩阵可被用于例如从立体声信号的两个声道产生下混信号和余留信号,如上文已述。尽管下混信号可被发送至解码器,但余留信号可被舍弃。根据一种实施方式,由瞬时去相关器采用的相位差可以是在余留信号与下混信号之间的相位差。因此,可以通过在下混上施加余留的原始相位来重构“人工式(artificial)”余留信号。在一种实施方式中,相位差可涉及某一频带,即,可以是频率相关的。可替代地,相位差不涉及某些频带,而是可被应用为频率无关的宽频带参数。
[0043] 在一种实施方式中,该设备包括用于接收相位信息的接收单元,其中,该瞬时去相关器适用于将相位信息应用至第一信号分量。相位信息可由适当的编码器来生成。
[0044] 在另一实施方式中,相位项可通过将相位项与第一信号分量相乘来应用于第一信号分量。
[0045] 在另一实施方式中,第二去相关器可以是常规去相关器,例如,格子式IIR去相关器。

附图说明

[0046] 现将参照附图更详细地说明实施方式,其中:
[0047] 图1示出了去相关器在单声道至立体声上混频器中的现有技术应用的状态;
[0048] 图2示出了去相关器在单声道至立体声上混频器中的另一现有技术应用的状态;
[0049] 图3示出了根据一种实施方式的用于产生去相关信号的设备;
[0050] 图4示出了根据一种实施方式的用于解码信号的设备;
[0051] 图5是根据一种实施方式的一至二(OTT)系统的概览图;
[0052] 图6示出了根据另一实施方式的包括接收单元的用于产生去相关信号的设备;
[0053] 图7是根据另一实施方式的一至二系统的概览图;
[0054] 图8示出了从相位一致性测量到瞬时分离强度的示例性映射;
[0055] 图9是根据另一实施方式的一至二系统的概览图;
[0056] 图10示出了根据一种实施方式的用于编码具有多个声道的音频信号的设备。

具体实施方式

[0057] 图3示出了根据一种实施方式的用于产生去相关信号的设备。该设备包括瞬时分离器310、瞬时去相关器320、常规去相关器330以及合成单元340。该实施方式的瞬时处理方法目标是例如针对空间音频解码器的上混处理中的应用而从类似喝彩的音频信号产生去相关信号。
[0058] 在图3中,输入信号被馈送到瞬时分离器310。该输入信号可例如通过应用混合QMF滤波器组而被转换至频域。瞬时分离器310可确定输入信号的各个考虑的信号分量是否包括瞬时。此外,该瞬时分离器310可被配置为若所考虑的信号部分包括瞬时(信号分量s1),则将所考虑的信号部分馈送到瞬时去相关器320中,或者若所考虑的信号部分不包括瞬时(信号分量s2),则其可将所考虑的信号部分馈送到常规去相关器330中。瞬时分离器310也可被配置为根据所考虑的信号部分中的瞬时的存在来划分所考虑的信号部分且部分地将它们提供至瞬时去相关器320以及部分提供至常规去相关器330。
[0059] 在一种实施方式中,瞬时去相关器320根据瞬时去相关方法来去相关信号分量s1,该去相关方法尤其适用于去相关瞬时信号分量。例如,瞬时信号分量的去相关可通过应用相位信息,例如通过应用相位项来实施。相位项被应用在瞬时信号分量上的去相关方法将参见图5的实施方式在下文说明。这一去相关方法也可被用作图3的实施方式的瞬时去相关器320的瞬时去相关方法。
[0060] 包括非瞬时信号部分的信号分量s2被馈送到常规去相关器330中。该常规去相关器330随后可根据常规去相关方法,例如通过应用格子式全通结构(例如,格子式IIR(无限脉冲响应)滤波器)来将信号分量s2去相关。
[0061] 在利用常规去相关器330去相关之后,去相关的信号分量从常规去相关器330被馈送到合成单元340中。去相关的瞬时信号分量还从瞬时去相关器320被馈送到合成单元340中。合成单元340随后合成两个去相关信号分量(例如,通过相加两个信号分量)来获得去相关合成信号。
[0062] 一般地,根据一种实施方式来去相关包括瞬时的信号的方法可如下进行:
[0063] 在分离步骤中,输入信号被分离成两个分量:一个分量s1包括输入信号的瞬时,另一分量s2包括输入信号的其余(非瞬时)部分。信号的非瞬时分量s2可在系统中被相同处理而不必应用该实施方式的瞬时去相关器的去相关方法。即:无瞬时的信号s2可被馈送至类似于格子式IIR全通结构的一个或几个常规去相关信号处理结构。
[0064] 此外,包括瞬时的信号分量(瞬时流s1)被馈送至去相关瞬时流同时保持比常规去相关结构更好的特殊信号性质的“瞬时去相关器”结构。瞬时流的去相关通过应用高时间分辨率的相位信息来实施。优选地,相位信息包括相位项。此外,优选相位信息可由编码器提供。
[0065] 此外,常规去相关器和瞬时去相关器两者的输出信号被合成以形成去相关信号,该去相关信号可被用于空间音频编码器的上混处理中。空间音频解码器的混频矩阵(Mmix)的元素(h11、h12、h21、h22)可保持不变。
[0066] 图4示出了根据一种实施方式的用于解码设备输入信号的设备,其中,该设备输入信号被馈送到瞬时分离器410中。该设备包括瞬时分离器410、瞬时去相关器420、常规去相关器430、合成单元440以及混频器450。该实施方式的瞬时分离器410、瞬时去相关器420、常规去相关器430和合成单元440可分别类似于图3的实施方式的瞬时分离器310、瞬时去相关器320、常规去相关器330和合成单元340。由合成单元440产生的去相关合成信号被馈送到混频器450中作为第一混频器输入信号。此外,已被馈送到瞬时分离器410中的设备输入信号也被馈送到混频器450中作为第二混频器输入信号。可替代地,设备输入信号不直接被馈送到混频器450中,而是从设备输入信号导出的信号被馈送到混频器450中。例如,可通过将常规信号处理方法应用于设备输入信号(例如,应用滤波器)来从设备输入信号导出信号。图4的实施方式的混频器450适用于基于输入信号以及混频法则来产生输出信号。这一混频法则可以是例如将输入信号与混频矩阵相乘,例如,通过应用以下公式:
[0067]
[0068] 混频器450可基于相关/相干性参数数据(例如,声道间相关/相干性(ICC))和/或电平差参数数据(例如,声道间电平差(ILD))来产生输出声道L、R。例如,混频矩阵的系数可取决于相关/相干性参数数据和/或电平差参数数据。在图4的实施方式中,混频器450产生两个输出声道L和R。然而,在另一实施方式中,混频器可产生多个输出信号,例如,3个、4个、5个或9个输出信号,其可以是环绕声音信号。
[0069] 图5示出了一种实施方式的1至2(OTT)上混系统(例如,MPS(MPEG环绕)空间音频解码器的1至2盒)中的瞬时处理方法的系统概览图。根据一种实施方式的用于单独的瞬时的并行信号路径被包括在U形瞬时处理盒中。设备输入信号DMX被馈送到瞬时分离器510中。设备输入信号可在频域中被表示。例如,时域输入信号可能已通过应用如在MPEG环绕中使用的QMF滤波器组而被转换为频域信号。瞬时分离器510随后可将设备输入信号DMX的分量馈送到瞬时去相关器520和/或格子式IIR去相关器530中。设备输入信号的分量随后被瞬时去相关器520和/或格子式IIR去相关器530去相关。随后,去相关的信号分量D1和D2被合成单元540合成(例如,通过相加两个信号分量)以获得去相关的合成信号D。该去相关的合成信号被馈送到混频器552中作为第一混频器输入信号D。此外,设备输入信号DMX(或者可替代地:从设备输入信号DMX导出的信号)也被馈送到混频器552中作为第二混频器输入信号。混频器552随后根据设备输入信号DMX来产生第一和第二“干”信号。混频器552也根据去相关的合成信号D来产生第一和第二“湿”信号。由混频器552产生的信号也可基于所发送的参数(例如,相关/相干性参数数据(例如,声道间相关/相干性(ICC))和/或电平差参数数据(例如,声道间电平差(ILD)))来产生。在一种实施方式中,由混频器552产生的信号可被提供至成形单元554,该成形单元554基于被提供的时间成形数据来形成所提供的信号。在其他实施方式中,没有信号成形发生。所产生的信号随后被提供至第一556或第二558加法单元,该第一556或第二558加法单元合成所提供的信号以分别产生第一输出信号L和第二输出信号R。
[0070] 图5中所示的处理原理可被应用于单声道至立体声上混系统(例如,立体声音频编码器)中以及多声道设置(例如,MPEG环绕)中。在实施方式中,所提出的瞬时处理方案可作为一种升级而被应用于现有的上混系统中,而无需上混系统的较大概念改变,因为仅引入了并行去相关器信号路径,而无需改变上混处理本身。
[0071] 信号向瞬时和非瞬时分量的分离利用可在编码器和/或空间音频解码器中产生的参数来控制。瞬时去相关器520采用相位信息,例如,可在编码器中或空间音频解码器中获得的相位项。用于获得瞬时处理参数(即:诸如瞬时位置或分离强度的瞬时分离参数以及诸如相位信息的瞬时去相关参数)的可能变化将在以下描述。
[0072] 输入信号可在频域中被表示。例如,信号可通过采用分析滤波器组被转换至频域信号。QMF滤波器组可被应用以从时域信号获得多个子频带信号。
[0073] 对于最佳感知质量,瞬时信号处理可优选将信号频率限制在有限的频率范围中。一个实例是将处理范围限定为如在MPS中所使用的混合QMF滤波器组的频带指数k≥8,类似于MPS中的引导封装成形(GES)的频带限定。
[0074] 在下文中,瞬时分离器520的实施方式将被更详细地说明。瞬时分离器510将输入信号DMX分别划分为瞬时和非瞬时分量s1、s2。瞬时分离器510可采用瞬时分离信息来划分输入信号DMX,例如,瞬时分离参数β[n]。输入信号DMX的分割可以一种使得分量总和s1+s2等于输入信号DMX的方式完成:
[0075] s1[n]=DMX[n]·β[n]
[0076] s2[n]=DMX[n]·(1-β[n])
[0077] 其中,n为下采样子频带信号的时间索引,以及关于时间变化瞬时分离参数β[n]的有效值处在范围[0,1]中。β[n]可以是频率无关参数。基于频率无关分离参数适用于分离设备输入信号的瞬时分离器510可根据β[n]的值来将所有具有时间索引n的子频带信号部分馈送到瞬时去相关器520或第二去相关器中。
[0078] 可替代地,β[n]可以是频率相关参数。若它们相应的瞬时分离信息不同,则基于频率相关瞬时分离信息而适用于分离设备输入信号的瞬时分离器510可不同地处理具有相同时间索引的子频带信号部分。
[0079] 此外,频率相关性可例如被用于限定瞬时处理的频率范围,如以上部分所提及。
[0080] 在一种实施方式中,瞬时分离信息可以是指示输入信号DMX的所考虑的信号部分包括瞬时或者指示所考虑的信号部分不包括瞬时的参数。若瞬时分离信息指示所考虑的信号部分包括瞬时,则瞬时分离器510将所考虑的信号部分馈送到瞬时去相关器520中。可替代地,若瞬时分离信息指示所考虑的信号部分包括瞬时,则瞬时分离器510将所考虑的信号部分馈送到第二去相关器(例如,格子式IIR去相关器530)中。
[0081] 例如,瞬时分离参数β[n]可被用作可以是二元参数的瞬时分离信息。n为输入信号DMX的所考虑的信号部分的时间索引。β[n]可以是1(指示所考虑的信号部分将被馈送到瞬时去相关器中)或0(指示所考虑的信号部分将被馈送到第二去相关器中)。限定β[n]为β∈{0,1}会导致硬性的瞬时/非瞬时确定,即:被处理为瞬时的分量完全从输入被分离(β=1)。
[0082] 在另一实施方式中,瞬时分离器510适用于部分将设备输入信号的所考虑的信号部分馈送到瞬时去相关器520中,以及部分将所考虑的信号部分馈送到第二去相关器530中。被馈送到瞬时分离器520中的所考虑的信号部分的量和被馈送到第二去相关器530中的所考虑的信号部分的量取决于瞬时分离信息。在一种实施方式中,β[n]必须处在范围[0,1]中。在另一实施方式中,β[n]可被限定为β[n]∈[0,βmax],其中,βmax<1,产生了瞬时的部分分离,从而导致瞬时处理方案的较小明显的影响。因此,改变βmax允许在常规无瞬时处理的上混处理的输出与包括瞬时处理的上混处理的输出之间的渐变。
[0083] 在下文中,将更详细说明根据一种实施方式的瞬时去相关器520。
[0084] 根据一种实施方式的瞬时去相关器520产生与输入充分去相关的输出信号。它不改变单一拍击声/瞬时的时间结构(无时间抹除、无延迟)。相反,其产生类似于原始(无编码)信号中的空间分配的瞬时信号分量的空间分配(在上混处理之后)。瞬时去相关器520可允许位率相对质量的折衷(例如,以低位率的完全随机的空间瞬时分配 以高位率的接近原始(近乎明晰的))。此外,这利用较低的计算复杂性来实现。
[0085] 如已在上文所说明,在编码器侧,“逆”混频矩阵可被用于例如从立体声信号的两个声道产生下混信号和余留信号。当下混信号可被发送至解码器时,余留信号可被舍弃。根据一种实施方式,例如,通过编码器可确定在余留信号与下混信号之间的相位差,且当将信号去相关时,该相位差可被解码器使用。由此,随后可以通过将余留的原始相位应用在下混上来重构“人工式”余留信号。
[0086] 根据一种实施方式的瞬时去相关器520的相应的去相关方法将在下文中说明:
[0087] 根据一种瞬时去相关方法,相位项可被使用。去相关通过简单地将瞬时流与高时间分辨率(例如,在类似于MPS的转换域系统中的子频带信号时间分辨率)的相位项相乘来实现:
[0088]
[0089] 在该方程中,n为下采样子频带信号的时间索引。 理想上反映在下混与余留之间的相位差。因此,瞬时余留被来自下混的瞬时的复制版取代、被修改,使得它们表现出原始相位。
[0090] 应用相位信息将在上混处理中固有地产生到原始位置的瞬时的扫视。正如说明性的实例考虑到ICC=0,ILD=0的情况:输出信号的瞬时部分随后为:
[0091]
[0092]
[0093] 对于 这使得L=2c×s,R=0,而 使得L=0,R=2c×s。其他的 ICC和ILD值在所呈现的瞬时之间产生不同电平和相位关系。
[0094] [n]值可被用作频率无关宽频带参数或频率相关参数。在类似喝彩的信号而无音调分量的情况中,由于较低数据率要求和宽频带瞬时的一致处理(频率上的一致性),宽频带 [n]值可以是有利的。
[0095] 图5的瞬时处理结构被配置为使得仅常规去相关器530关于瞬时信号分量被旁路,而混频矩阵保持不变。因此,对于瞬时信号,空间参数(ICC、ILD)也固有地被考虑,例如:ICC自动控制所呈现的瞬时分配的宽度。
[0096] 考虑到如何获得相位信息方面,在一种实施方式中,相位信息可从编码器接收。
[0097] 图6示出了用于产生去相关信号的设备的一种实施方式。该设备包括瞬时分离器610、瞬时去相关器620、常规去相关器630、合成单元640以及接收单元650。瞬时分离器
610、常规去相关器630和合成单元640类似于图3中所示实施方式的瞬时分离器310、常规去相关器330和合成单元340。然而,图6还示出了适用于接收相位信息的接收单元650。
该相位信息可由编码器(未示出)来发送。例如,编码器可计算在余留信号与下混信号之间的相位差(余留信号相对于下混的相对相位)。相位差可针对某些频带或宽频带(例如,在时域中)来计算。编码器可适当地通过均匀或非均匀量化来编码相位值且可能无损编码。随后,编码器可将该编码的相位值发送至空间音频解码系统。从编码器获得相位信息是有利的,因为原始相位信息是随后在解码器中可用的(除量化误差之外)。
[0098] 接收单元650将相位信息馈送到瞬时去相关器620中,当将信号分量去相关时,该瞬时去相关器620使用该相位信息。例如,该相位信息可以是相位项,且瞬时去相关器620可将接收到的瞬时信号分量与该相位项相乘。
[0099] 在从编码器将相位信息 [n]发送至解码器的情况中,所需的数据率可如下被降低:
[0100] 相位信息 [n]可仅被应用于解码器中的瞬时信号分量上。因此,只要在信号中有要被去相关的瞬时分量,则相位信息仅需在解码器中可用。因此,相位信息的发送可能受编码器的限制,使得仅必须的信息被发送至解码器。这可通过在编码器中应用瞬时检测来完成,如下文所述。相位信息 [n]仅在编码器中已检测到瞬时的时间点n发送。
[0101] 考虑到瞬时分离方面,在一种实施方式中,瞬时分离可被编码器驱动。
[0102] 根据一种实施方式,瞬时分离信息(也被称为“瞬时信息”)可从编码器获得。编码器可将如在 Andreas Walther,Christian Uhle,Sascha Disch“Using Transient Suppression in Blind Multi-channel Up-mix Algorithms,”in Proc.122nd AES Convention,Vienna,Austria,May2007中所述的瞬时检测方法应用于编码器输入信号或下混信号。该瞬时信息随后被发送至解码器且优选例如以下采样子频带信号的时间分辨率来获得。
[0103] 该瞬时信息优选可包括对时间上的每个信号样本的简单二元(瞬时/非瞬时)确定。该信息优选也可利用时间上的瞬时位置和瞬时持续时间来表示。
[0104] 该瞬时信息可被无损编码(例如,运行长度编码、熵编码)来降低从编码器将瞬时信息发送至解码器所需的数据率。
[0105] 该瞬时信息可以某一频率分辨率作为宽频带信息或作为频率相关信息来发送。作为宽频带参数发送该瞬时信息会由于宽频带瞬时的一致性处理而降低瞬时信息数据率并可能改善音频质量。
[0106] 代替二元(瞬时/非瞬时)确定,也可发送例如以两个或四个步长量化的瞬时强度。该瞬时强度随后可如下控制在空间音频解码器中的瞬时分离:强的瞬时与IIR格子式去相关器输入完全分离,而较弱的瞬时仅部分被分离。
[0107] 若编码器例如利用如在Christian Uhle,“Applause Sound Detection with Low Latency”,in Audio Engineering Society Convention127,New York,2009中所述的喝彩检测系统检测到类似喝彩的信号,则可仅发送瞬时信息。
[0108] 对于输入信号与类似喝彩的信号的相似性的检测结果也可以较低的时间分辨率(例如,以在MPS中的空间参数更新率)被发送至解码器来控制瞬时分离强度。该喝彩检测结果可作为二元参数(即,作为硬性确定)或作为非二元参数(即,作为软性确定)被发送。该参数控制空间音频解码器中的分离强度。因此,允许(几乎不或逐渐地)导通/关闭解码器中的瞬时处理。这允许例如当将宽频带瞬时处理方案应用至包括音调分量的信号时,避免可能发生的伪像。
[0109] 图7示出了根据一种实施方式的用于解码信号的设备。该设备包括瞬时分离器710、瞬时去相关器720、格子式IIR去相关器730、合成单元740、混频器752、可选的成形单元754、第一加法单元756以及第二加法单元758,它们分别对应于图5的实施方式的瞬时分离器510、瞬时去相关器520、格子式IIR去相关器530、合成单元540、混频器552、可选的成形单元554、第一加法单元556以及第二加法单元558。在图7的实施方式中,编码器获得相位信息和瞬时位置信息并将该信息发送至用于解码的设备。没有余留信号被发送。图
7示出了类似于MPS中的OTT盒的1至2上混配置。其可被应用在根据一种实施方式的用于从单声道下混到立体声输出的上混的立体声编解码中。在图7的实施方式中,三个瞬时处理参数作为频率无关参数而从编码器被发送至解码器,如在图7中可见:
[0110] 要被发送的第一瞬时处理参数是在编码器中运行的瞬时检测器的二元瞬时/非瞬时确定。其被用于控制解码器中的瞬时分离。在一种简单方案中,二元瞬时/非瞬时确定可作为每个子频带时间样本的二元标志被发送,而无需进一步编码。
[0111] 要被发送的另一瞬时处理参数是瞬时去相关器所需的相位值(或多个相位值)[n]。 仅针对其瞬时已在编码器中被检测到的时间n来发送。 值作为具有例如每个样本3位的分辨率的量化器的指数被发送。
[0112] 要被发送的另一瞬时处理参数是分离强度(即,瞬时处理方案的效果强度)。该信息以与空间参数ILD、ICC相同的时间分辨率被发送。
[0113] 用于从编码器将瞬时分离确定和宽频带相位信息发送至解码器的必须的位率BR可针对类似MPS的系统被如下估计:
[0114]
[0115] 其中,σ为瞬时密度(被标记为瞬时的时隙片段(=子频带时间样本)),Q为每个所发送的相位值的位数,以及fs为采样率。注意,(fs/64)为下采样子频带信号的采样率。
[0116] 已针对一组几个表示喝彩的项测量了E{σ}<0.25,其中,E{.}指示在项持续时间上的平均值。在相位值精确度与参数位率之间的合理折衷是Q=3。为降低参数数据率,ICC和ILD可作为宽频带指令而被发送。作为宽频带指令的ICC和ILD的发送尤其可适用于诸如喝彩的非音调信号。
[0117] 另外,用于信号发送分离强度的参数以ICC/ILD的更新率被发送。对于MPS中的长空间帧(32乘以64样本)以及4步长量化分离强度,这产生了以下其他位率:
[0118] BRtransientseparationstrength=(fs/(64·32))·2。
[0119] 分离强度参数可在编码器中从信号分析算法的结果导出,该信号分析算法的结果评估对于类似喝彩的信号、声调或在应用实施方式的瞬时去相关时指示可能的优势或问题的其他信号特性的相似性。
[0120] 所发送的用于瞬时处理的参数可经过无损编码以降低冗余量,从而产生较低的参数位率(例如,瞬时分离信息的运行长度编码,熵编码)。
[0121] 返回到获得相位信息的方面,在一种实施方式中,相位信息可在解码器中被获得。
[0122] 在该实施方式中,用于解码的设备不从编码器获得相位信息,而是可确定相位信息本身。因此,无需发送导致整个传输率降低的相位信息。
[0123] 在一种实施方式中,相位信息在MPS为基础的解码器中从“引导封装成形(GES)”数据获得。这仅在发送GES数据时,即,在GES特征在编码器中被激活时可用。GES特征例如在MPS系统中可用。在输出声道之间的GES封装值的比率反映对应高时间分辨率的瞬时的扫视位置。GES封装值比率(GESR)可被映射至瞬时处理所需的相位信息。在GES中,映射可根据映射法则进行,该映射法则是凭经验从对于表示的一组适当测试信号的相位相对于GESR分配的建构统计获得。确定映射法则是用于设计瞬时处理系统的步骤,而不是在应用瞬时处理系统时的运行时处理。因此,无论如何,若GES数据是GES特征应用所需的,则它是有利的,不需要花费另外的对于相位数据的发送成本。比特流回溯兼容性采用MPS比特流/解码器来实现。然而,从GES数据提取的相位信息并非如可在编码器中获得的相位信息那样精确(例如:估计相位的符号是未知的)。
[0124] 在另一实施方式中,相位信息也可在解码器中获得,但从发送的非满频带余留中获得。这例如在频带受限余留信号在MPS编码方案中被发送(通常涵盖高达某一转变频率的频率范围)时可适用。在该实施方式中,计算在下混与余留频带中被发送的余留信号之间的相位关系,即,针对余留信号被发送的频率来计算。此外,从余留频带到非余留频带的相位信息被外插(和/或可能被内插)。一种可能性是将在余留频带中获得的相位关系映射至随后被用于瞬时去相关器中的全频率无关相位关系值。总之,若无满频带余留被发送,则这产生没有由相位数据引发的另外的发送成本的优势。然而,必须考虑到,相位估计的正确性取决于余留信号被发送的频带宽度。该相位估计的正确性也取决于在沿频率轴的下混与余留信号之间的相位关系的一致性。对于清晰的瞬时信号,通常遇到高度一致性。
[0125] 在另一实施方式中,相位信息在采用从编码器发送的另外的校正信息的解码器中获得。该实施方式类似于先前的两种实施方式(来自GES的相位、来自余留的相位),但另外,其必须在编码器中产生被发送至解码器的校正数据。该校正数据允许降低可能发生在先前描述的不同的二者(来自GES的相位、来自余留的相位)中的相位估计误差。此外,校正数据可在编码器中从估计的解码器侧的相位估计误差导出。该校正数据可以是这一(可能被编码的)估计的估计误差。此外,对于从GES数据的相位估计的方法,校正数据简单地可以是编码器产生的相位值的校正符号。这允许在解码器中产生具有校正符号的相位项。该方法的优势在于由于有校正数据,在解码器中可恢复的相位信息的精确性更接近于编码器产生的相位信息。然而,校正信息的熵低于正确相位信息本身的熵。因此,当与直接地发送在编码器中所获得的相位信息相比较时,参数位率被降低。
[0126] 在另一实施方式中,相位信息/项在解码器中从(伪)随机处理获得。该方法的优势在于不需要发送任何具有高时间分辨率的相位信息。这使得数据率被降低。在一种实施方式中,简单方法是在[-180°,180°]范围中产生具有均匀随机分配的相位值。
[0127] 在另一实施方式中,编码器中的相位分配的统计性质被测量。这些性质被编码并随后(以低时间分辨率)被发送至解码器。受制于发送的统计性质的随机相位值在解码器中产生。这些性质可以是统计相位分布的平均值、变量或其他统计测量值。
[0128] 当多于一个的去相关器实例并行运行时(例如,对于多声道上混),必须注意以确保相互去相关的去相关器输出。在一种实施方式中,其中,(伪)随机相位值的多个向量(非单一向量)针对第一去相关器实例之外的所有去相关器来产生,选择在所有去相关器实例间产生相位值的最少相关性的一组向量。
[0129] 在从编码器发送相位校正信息至解码器的情况中,所需的数据率可如下被降低:
[0130] 只要在要被去相关的信号中有瞬时分量,则相位校正信息仅需在解码器中可用。因此,该相位校正信息的发送可受限于编码器,使得仅必须的信息被发送至解码器。这可通过在如上所述的编码器中应用瞬时检测来完成。相位校正信息仅对于其瞬时在编码器中被检测到的时间点n而被发送。
[0131] 返回到瞬时分离方面,在一种实施方式中,瞬时分离可被解码器驱动。
[0132] 在该实施方式中,瞬时分离信息也可在解码器中获得,例如通过在上混至立体声或多声道输出信号之前将瞬时检测方法应用于在空间音频解码器中可用的下混信号来获得,该瞬时检测方法如在Andreas Walther,Christian Uhle,Sascha Disch“Using Transient Suppression in Blind Multi-channel Up-mix Algorithms,”in Proc.122nd AES Convention,Vienna,Austria,May2007中所述。在该情况下,没有瞬时信息必须被发送,这节省了发送数据率。
[0133] 然而,在解码中进行瞬时检测例如当标准化瞬时处理方案时可能导致问题:例如,可能难以找到当在包括不同的数值精确性、舍入方案等的不同架构/平台上被实施时将确切产生相同瞬时检测结果的瞬时检测算法。这一可预料的解码器行为通常对标准化是强制性的。此外,标准化的瞬时检测算法可能对于一些输入信号无效,从而在输出信号中导致不能容忍的失真。随后可能难以在标准化之后不建构不符合标准的解码器而校正失效的算法。若控制瞬时分离强度的至少一个参数以低时间分辨率(例如,以MPS的空间参数更新率)从编码器被发送至解码器,则该问题可能不太严重。
[0134] 在另一实施方式中,瞬时分离也被解码器驱动且非满频带余留被发送。在该实施方式中,解码器驱动瞬时分离可通过采用从被发送的非满频带余留获得的相位估计来精致化(如上所述)。注意,该精致化可被应用在解码器中,而无需从编码器发送另外的数据至解码器。
[0135] 在该实施方式中,被施加在瞬时去相关器中的相位项通过外插从余留频带至没有可用的余留的频率的正确相位值来获得。一种方法是从针对余留信号为可用的那些频率可计算的相位值计算(可能是,例如,信号功率加权)平均相位值。该平均相位值随后可被用作在瞬时去相关器中的频率无关参数。
[0136] 只要在下混与余留之间的正确相位关系是频率无关的,则平均相位值表示正确相位值的良好估计。然而,在沿频率轴的相位关系不是一致的情况下,平均相位值可能是较不正确的估计,可能导致不正确的相位值以及可听到的伪像。
[0137] 因此,沿频率轴在下混与发送的余留之间的相位关系的一致性可被用作被应用在瞬时去相关器中的外插相位估计的可靠性测量。为降低可听到的伪像的风险,在解码器中获得的一致性测量可被用于例如如下控制解码器中的瞬时分离强度:
[0138] 相应的相位信息(即,对于相同时间索引n的相位信息)沿频率一致的瞬时完全与常规去相关器输入分离且被完全馈送到瞬时去相关器中。由于大的相位估计误差不可能,所以瞬时处理的完全可能性被使用。
[0139] 相应的相位信息沿频率较不一致的瞬时仅部分被分离,从而产生瞬时处理方案的较不显著的效应。
[0140] 相应的相位信息沿频率非常一致的瞬时不被分离,从而产生没有所建议的瞬时处理的常规上混系统的标准行为。因此,不会发生由于大的相位估计误差而造成的伪像。
[0141] 关于相位信息的一致性测量值可例如从(可能信号功率加权的)沿频率的相位信息标准偏差的变量中被减除。
[0142] 由于仅少数频率对于发送余留信号可用,所以一致性测量可能必须仅从沿频率的少数样本被估计,从而产生仅很少达到极值(“完全一致”或“完全不一致”)的一致性测量。因此,一致性测量在被用于控制瞬时分离强度之前可被线性或非线性变形。在一种实施方式中,阈值特性如图8右侧实例所示被实施。
[0143] 图8示出了从相位一致性测量映射至瞬时分离强度的不同实例,其示出了用于在对瞬时错误分类的强健度上获得瞬时处理参数的变化的影响。用于获得以上列出的瞬时分离信息和相位信息的变化在参数数据率方面不同,并因此以实施所提出的瞬时处理技术的编解码器的所有位率的形式表示不同的操作点。此外,用于获得相位信息的源的选择也影响诸如对于错误瞬时分类的强健度的方面:若正确相位信息被应用在瞬时处理中,则处理非瞬时信号作为瞬时会引起更少的可听见的失真。因此,当与解码器中的随机相位产生的情况相比较时,在发送相位值的情况下,信号分类错误会引起不太严重的伪像。
[0144] 图9是根据另一实施方式的具有瞬时处理的一至二系统概览图,其中,窄频带余留信号被发送。相位数据 从余留信号频带中的下混(DMX)与余留信号之间的相位关系被估计。可选地,相位校正数据被发送以降低相位估计误差。
[0145] 图9示出了瞬时分离器910、瞬时去相关器920、格子式IIR去相关器930、合成单元940、混频器952、可选的成形单元954、第一加法单元956以及第二加法单元958,它们分别对应于图5的实施方式的瞬时分离器510、瞬时去相关器520、格子式IIR去相关器530、合成单元540、混频器552、可选的成形单元554、第一加法单元556以及第二加法单元558。图8的实施方式还包括相位估计单元960。相位估计单元960接收输入信号DMX、余留信号“余留”以及可选地,相位校正数据。基于接收到的信息,相位信息单元计算相位数据 可选地,相位估计单元也确定相位一致性信息并将该相位一致性信息传送至瞬时分离器910。
例如,相位一致性信息可被瞬时分离器使用以控制瞬时分离强度。
[0146] 图9的实施方式应用如下的一些发现:若余留以非满频带形式在编码方案内被发送,则在余留与下混 之间的信号功率加权平均相位差可作为宽频带相位信息被应用于单独的瞬时 在该情况下,没有另外的相位信息
必须被发送,从而降低了对于瞬时处理的位率要求。在图9的实施方式中,来自余留频带的相位估计可能与在编码器中可用的更精确的宽频带相位估计大幅偏离。因此,一种选择是发送相位校正数据(例如, ),使得正确的 在解码器中可
用。然而,由于 可能表现出比 更低的熵,所以所需的参数数据率可能低于发
送 所需的数据率。(这一概念类似于编码中预测的一般使用:代替直接编码数据,具有较低熵的预测误差被编码。在图9的实施方式中,预测步骤是从余留频带到非余留频带的相位的外插)。在沿频率轴的余留频带 中的相位差的一致性可被用于控制瞬
时分离强度。
[0147] 在实施方式中,解码器可从编码器接收相位信息,或者解码器本身可确定相位信息。此外,解码器可从编码器接收瞬时分离信息,或者解码器本身可确定瞬时分离信息。
[0148] 在实施方式中,瞬时处理的一个方面是在与“瞬时去相关器”一起的WO/2010/017967中所述的“语义去相关”概念的应用,该应用基于将输入与相位项相乘。所呈现的类似喝彩的信号的感知质量被改善,因为两个处理步骤避免改变瞬时信号的时间结构。此外,瞬时的空间分配以及在这些瞬时之间的相位关系在输出声道中被重构。此外,实施方式也是计算上高效的且可易于被整合到PS或MPS类似的上混系统中。在实施方式中,瞬时处理不影响混频矩阵处理,使得通过混频矩阵定义的所有空间呈现的性质也被应用于瞬时信号。
[0149] 在实施方式中,新的去相关方案被应用,其尤其适用于上混系统中的应用,其尤其适用于类似于PS或MPS的空间音频编码方案的应用,以及其改善了类似喝彩的信号的情况中的输出信号(即,包括空间分布瞬时的密集混合的信号)的感知质量和/或可被视为特别增强的一般“语义去相关”架构的实施。此外,在实施方式中,新的去相关方案被包括,其重构类似于原始信号中的分配的瞬时的空间/时间分配,保留了瞬时信号的时间结构,允许变化位率对质量的折衷和/或理想地适用于与类似于非满频带余留或GES的MPS特征的组合。该组合是互补的,即:标准MPS特征的信息被重复用于瞬时处理。
[0150] 图10示出了用于编码具有多个声道的音频信号的设备。两个输入声道L、R被馈送到下混频器1010以及余留信号计算器1020中。在其他实施方式中,多个声道被馈送到下混频器1010以及余留信号计算器1020中,例如,3个、5个或9个环绕声道。下混频器1010随后向下混频两个声道L、R以获得下混信号。例如,下混频器1010可采用混频矩阵并进行该混频矩阵与两个输入声道L、R的矩阵乘法运算以获得下混信号。该下混信号可被发送至解码器。
[0151] 此外,余留信号生成器1020适用于计算被称为余留信号的另一信号。余留信号是可被用于通过另外采用下混信号和上混频矩阵来重新产生原始信号的信号。例如,当N个信号被下混至1个信号时,该下混通常是从N个输入信号的映射产生的N个分量中的1个。从映射产生的其余分量(例如,N-1个分量)是余留信号并允许通过逆映射来重构原始的N个信号。该映射可以是例如转动操作。映射将被进行,使得下混信号被最大化且使余留信号最小化,例如,类似于主轴转换。例如,下混信号的能量将被最大化且余留信号的能量将被最小化。当将2个信号下混至1个信号时,下混通常是从2个输入信号的映射产生的两个分量的一个。从映射产生的其余分量是余留信号,且允许通过逆映射来重构原始的2个信号。
[0152] 在一些情况下,余留信号可表示与通过它们的下混与相关参数来表示两个信号相关的误差。例如,余留信号可以是误差信号,该误差信号表示在原始声道L、R以及从上混基于原始声道L和R产生的下混信号而产生的声道L’、R’之间的误差。
[0153] 换言之,余留信号可被视为时域或频域或者子频域中的信号,其与单独的下混信号或者与下混信号和参数信息一起允许正确或近乎正确的原始声道的重构。必须理解,与利用下混而无需余留信号或利用下混和参数信息而无需余留信号的重构相比,利用具有大于零的能量的余留信号的重构近乎正确地更接近于原始声道。
[0154] 此外,编码器包括相位信息计算器1030。下混信号和余留信号被馈送到相位信息计算器1030中。该相位信息计算器随后计算有关下混与余留信号之间的相位差的信息以获得相位信息。例如,相位信息计算器可应用计算下混与余留信号的互相关的功能。
[0155] 此外,编码器包括输出生成器1040。由相位信息计算器1030生成的相位信息被馈送到输出生成器1040中。该输出生成器1040随后输出相位信息。
[0156] 在一种实施方式中,该设备还包括用于量化相位信息的相位信息量化器。由相位信息计算器生成的相位信息可被馈送到相位信息量化器中。该相位信息量化器随后量化该相位信息。例如,该相位信息可被映射至8个不同值,例如,映射至值0、1、2、3、4、5、6或7中的一个。这些值可分别表示相位差0、π/4、π/2、3π/4、π、5π/4、3π/2以及7π/4。被量化的相位信息随后可被馈送到输出生成器1040中。
[0157] 在另一实施方式中,该设备还包括无损编码器。来自相位信息计算器1040的相位信息或来自相位信息量化器的量化相位信息可被馈送到该无损编码器。该无损编码器适用于通过应用无损编码来编码相位信息。任何类型的无损编码方案均可被采用。例如,编码器可采用算术编码。该无损编码器随后无损地将编码的相位信息馈送到输出生成器1040中。
[0158] 以下将提及关于所述实施方式的解码器和编码器以及方法:
[0159] 尽管一些方面已在设备背景下被描述,但应清楚,这些方面也表示对相应方法的描述,其中,块或装置对应于方法步骤或者方法步骤的特征。类似地,在方法步骤背景下所述的方面也表示对相应设备的相应块或项目或者特征的描述。
[0160] 根据特定实施要求,本发明的实施方式可以硬件或软件来实施。该实施可使用具有存储其上的电可读控制信号的数字存储介质来执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或内存,该电可读控制信号与可编程计算机系统协作(或者能够协作),使得相应方法被执行。
[0161] 根据本发明的一些实施方式包括具有电可读控制信号的数据载体,该电可读控制信号能够与可编程计算机系统协作,从而执行本文所述方法中的一种。
[0162] 一般地,本发明的实施方式可被实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码可操作地用于执行方法中的一种。该程序代码例如可存储在机器可读载体上。
[0163] 其他实施方式包括存储在机器可读载体或非易失性存储介质上用于执行本文所述方法中的一种的计算机程序。
[0164] 因此,换言之,本发明方法的实施方式是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文所述方法中的一种。
[0165] 因此,本发明方法的另一实施方式是包括存储其上用于执行本文所述方法中的一种的计算机程序的数据载体(或数字存储介质或者计算机可读介质)。
[0166] 因此,本发明方法的另一实施方式是表示用于执行本文所述方法中的一种的计算机程序的数据流或信号序列。该数据流或信号序列例如可被配置为经由数据通信连接(例如经由因特网)来传送。
[0167] 另一实施方式包括处理装置(例如计算机)或可编程逻辑器件,其被配置为或适用于执行本文所述方法中的一种。
[0168] 另一实施方式包括具有安装其上用于执行本文所述方法中的一种的计算机程序的计算机。
[0169] 在一些实施方式中,可编程逻辑器件(例如,现场可编程门阵列)可用于执行本文所述方法中的一些或全部功能。在一些实施方式中,现场可编程门阵列可与微处理器协作以执行本文所述方法中的一种。一般地,该方法优选由任何硬件设备执行。
[0170] 上述实施方式仅用于说明本发明的原理。应当理解,本文所述配置和细节的修改和变形对于本领域技术人员而言将是显而易见的。因此,其旨在仅由所附专利权利要求的范围来限定,且不由以对本文实施方式的描述和说明的方式给出的具体细节来限定。