用于音场增强的设备及方法转让专利

申请号 : CN201480075389.4

文献号 : CN106170991B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴采颐

申请人 : 无比的优声音科技公司

摘要 :

一种非瞬态计算机可读储存介质,其具有可由处理器执行的指令,用于分辨数字音频输入信号的右声道和左声道内的中心分量、侧分量和环境分量。空间比由中心分量和侧分量确定。数字音频输入信号基于空间比调整,以形成预处理信号。递归串扰消除处理在预处理信号上执行,以形成串扰消除。串扰消除信号的中心分量被重新校正来产生最终数字音频输出。

权利要求 :

1.一种非瞬态计算机可读储存介质,其具有可由处理器执行的指令,用以:在数字音频输入信号的右声道和左声道内识别主要分量和环境分量;

从所述数字音频输入信号的所述主要分量和环境分量确定空间比;

通过将所述空间比与选择的感知阈值相比较,以根据所述选择的感知阈值平衡所述主要分量和所述环境分量,从而基于所述空间比调整所述数字音频输入信号来形成预处理信号;

在所述预处理信号上执行递归串扰消除处理以形成串扰消除信号;以及重新校正所述串扰消除信号的所述主要分量。

2.根据权利要求1所述的非瞬态计算机可读储存介质,其中重新校正所述主要分量的所述指令使用所述空间比。

3.根据权利要求1所述的非瞬态计算机可读储存介质,其中执行递归串扰消除的所述指令包括将来自第一声道的消除信号加至第二声道和将来自所述第二声道的消除信号加至所述第一声道而没有头相关传递函数处理的指令。

4.一种计算机实现的方法,包括:

在具有一个或多个处理器和存储器的计算设备上执行以下步骤,其中所述存储器用于存储由所述一个或多个处理器执行的一个或多个程序模块:从数字音频输入信号的右声道和左声道内识别主要分量和环境分量;

从所述数字音频输入信号的所述主要分量和环境分量确定空间比;

通过将所述空间比与选择的感知阈值相比较,以根据所述选择的感知阈值平衡所述主要分量和所述环境分量,从而基于所述空间比调整所述数字音频输入信号来形成预处理信号;

在所述预处理信号上执行递归串扰消除处理以形成串扰消除信号;以及重新校正所述串扰消除信号的所述主要分量。

5.根据权利要求4所述的方法,其中,使用所述空间比重新校正所述串扰消除信号的所述主要分量。

6.根据权利要求4所述的方法,其中,所述执行递归串扰消除的步骤还包括将来自第一声道的消除信号加至第二声道和将来自所述第二声道的消除信号加至所述第一声道而不进行头相关传递函数处理。

7.根据权利要求6所述的方法,其中,用于第二声道的消除信号是基于用于播放所述串扰消除信号的设备的预定的物理配置的衰减并且时间延迟的第一声道。

8.根据权利要求4所述的方法,其中,所述识别主要分量和环境分量的步骤还包括:从所述数字音频输入信号的左声道和右声道生成中间信号和侧信号;以及比较所述中间信号和所述侧信号的频谱分析结果以识别在所述中间信号和所述侧信号中的所述主要分量和所述环境分量。

9.根据权利要求8所述的方法,其中,分析所述中间信号和所述侧信号中的每一个以识别对应的信号中相应的主要分量和相应的环境分量。

10.根据权利要求8所述的方法,其中,所述重新校正所述串扰消除信号的所述主要分量的步骤还包括:当所述空间比超过预定感知阈值时将所述中间信号加至所述串扰消除信号的左声道和右声道。

11.根据权利要求4所述的方法,其中,所述空间比表示所述数字音频输入信号内所述主要分量和所述环境分量的能量分布。

12.根据权利要求4所述的方法,其中,所述选择的感知阈值限定可接受的空间比范围,并且当所述空间比在所述可接受的空间比范围之外时调整所述数字音频输入信号。

13.一种计算设备,包括:

一个或多个处理器;

存储器;以及

存储在所述存储器中并由所述一个或多个处理器执行的一个或多个程序模块,其中,所述一个或多个程序模块还包括指令,用以:从数字音频输入信号的右声道和左声道内识别主要分量和环境分量;

从所述数字音频输入信号的所述主要分量和环境分量确定空间比;

通过将所述空间比与选择的感知阈值相比较,以根据所述选择的感知阈值平衡所述主要分量和所述环境分量,从而基于所述空间比调整所述数字音频输入信号来形成预处理信号;

在所述预处理信号上执行递归串扰消除处理以形成串扰消除信号;以及重新校正所述串扰消除信号的所述主要分量。

14.根据权利要求13所述的计算设备,其中,使用所述空间比重新校正所述串扰消除信号的所述主要分量。

15.根据权利要求13所述的计算设备,其中,所述执行递归串扰消除的步骤还包括将来自第一声道的消除信号加至第二声道和将来自所述第二声道的消除信号加至所述第一声道而不进行头相关传递函数处理。

16.根据权利要求15所述的计算设备,其中,用于第二声道的消除信号是基于用于播放所述串扰消除信号的设备的预定的物理配置的衰减并且时间延迟的第一声道。

17.根据权利要求13所述的计算设备,其中,所述识别主要分量和环境分量的步骤还包括:从所述数字音频输入信号的左声道和右声道生成中间信号和侧信号;以及比较所述中间信号和所述侧信号的频谱分析结果以识别在所述中间信号和所述侧信号中的所述主要分量和所述环境分量。

18.根据权利要求17所述的计算设备,其中,分析所述中间信号和所述侧信号中的每一个以识别对应的信号中相应的主要分量和相应的环境分量。

19.根据权利要求17所述的计算设备,其中,所述重新校正所述串扰消除信号的所述主要分量的步骤还包括:当所述空间比超过预定的感知阈值时将所述中间信号加至所述串扰消除信号的左声道和右声道。

20.根据权利要求13所述的计算设备,其中,所述空间比表示所述数字音频输入信号内所述主要分量和所述环境分量的能量分布。

21.根据权利要求13所述的计算设备,其中,所述选择的感知阈值限定可接受的空间比范围,并且当所述空间比在所述可接受的空间比范围之外时调整所述数字音频输入信号。

说明书 :

用于音场增强的设备及方法

[0001] 相关申请的交叉引用
[0002] 本申请要求于2013年12月13日提交的美国临时专利申请序列号 61/916,009及2014年4月22日提交的美国临时专利申请序列号 61/982,778的优先权,其内容通过引用并入本文中。

技术领域

[0003] 本发明大体上涉及数字音频信号的处理。更具体而言,本发明涉及音场增强的技术。

背景技术

[0004] 音场是立体声场景的左侧极限与右侧极限之间感知的距离。立体声图像包括出现的占据音场的幻像图像。为了传达自然的收听环境,需要良好的立体声图像。平而窄的立体声图像使得所有声音被感知为都来自一个方向,且因此声音呈现为单声道的。
[0005] 消费者电子装置(例如,台式计算机、膝上计算机、平板计算机、可穿戴计算机、游戏机、电视机等等)通常包括扬声器。令人遗憾的是,空间限制导致了差的音场性能。已经尝试了使用头相关传递函数 (HRTF)来解决此问题。HRTF用于产生虚拟环绕声扬声器。令人遗憾的是,HRTF基于个人的耳朵和体型。因此,任何其它耳朵会经历具有退化的声定位的空间失真。
[0006] 因此,将期望的是在消费者装置中获得提高的音场性能,而不依靠合成或测量的HRTF。

发明内容

[0007] 一种非瞬态计算机可读储存介质,其具有可由处理器执行的指令,用于分辨数字音频输入信号的右声道和左声道内的中心分量、侧分量和环境分量。空间比由中心分量和侧分量确定。数字音频输入信号基于空间比被调整以形成预处理信号。递归串扰消除处理在预处理信号上执行,以形成串扰消除的信号。该串扰消除的信号的中心分量在后处理操作中被重新校正,以产生数字音频输出。

附图说明

[0008] 本发明结合参照附图的以下详细描述来被更完整的认识到,在附图中:
[0009] 图1示出了根据本发明的实施例配置的消费者电子装置。
[0010] 图2示出了根据本发明的实施例的信号处理。
[0011] 图3示出了根据本发明的实施例配置的声音增强模块。
[0012] 图4示出了与声音增强模块的预处理阶段相关联的处理操作。
[0013] 图5示出了与声音增强模块的后处理阶段相关联的处理操作。
[0014] 相似的参考数字是指贯穿附图的若干视图各处的对应部分。

具体实施方式

[0015] 图1示出了根据本发明的实施例配置的数字消费者电子装置100。装置100包括标准构件,如,中央处理单元110和经由总线114连接的输入/输出装置112。输入/输出装置112可包括键盘、鼠标、触摸显示器、扬声器等等。网络接口电路116也连接至总线114,以提供至网络的连接(未示出)。网络可为有线网络和无线网络的任何组合。
[0016] 存储器120也连接至总线114。存储器120包括包含音频源信号的一个或多个音频源文件122。如下文所述,存储器120还储存声音增强模块124,其包括被中央处理单元110执行的指令,以实施本发明的操作。声音增强模块124还可处理经由网络接口电路116接收到的流式音频信号。
[0017] 图2示出了声音增强模块124可接收音频源文件122(例如,立体声源文件)。声音增强模块124处理音频源文件,以生成增强的音频输出126(例如,具有强中心场和侧分量的增强的立体声)。
[0018] 图3示出了声音增强模块124的实施例。在此情况下,输入为左(L)和右(R)立体声道。预处理阶段300分析空间线索,且基于计算的空间比调整输入。如下文所述,下一阶段302执行递归串扰消除。最后,如下文所述,后处理阶段304执行中心场处理,均衡和水平控制。
[0019] 图4示出了与预处理阶段300相关联的处理操作。在预处理阶段中,分析输入的声音,且一组多尺度特征被加回来使信息处理阶段适合在中央听觉系统中,以便收听者可清楚地感知和解码再现的声音中的信息。在一个实施例中,以总和信号402、差异信号404和频谱信息406的形式分析400空间线索。如图3中所示,总和和差异从左侧输入和右侧输入计算。两个声道的总和表示左声道和右声道中的相关分量或中间信号。总和信号306显示出出现在幻像中心处的信号,通常是电影中的对话或音乐中的声音。两个声道308的差异是硬平移 (hard-panned)的声音,或侧信号。差异信号确定仅处在或朝两个扬声器中的一个出现的信号。差异信号通常是具有出现在侧部上的分量的特殊音效。分析频谱以获得频谱信息。这样做是因为中心和硬移位声音不可充分地描述音频文件或流。例如,人群声音是很随机的;其可位于中心和侧部处,或仅在侧部处。通过分析频谱,人们可判断由总和/差异步骤标记的某信号是否为主要分量(例如,对话、特殊音效) 或更多的是环境声音。在频域中,环境声音作为宽带声音出现,而音效或对话作为包络谱出现。
[0020] 下一个处理操作是从中心和环境信息408确定空间比。"空间比"(r) 被估计为代表中心图像与环境声音之间的能量分布。立体声输入首先发送至混合器310,在该处,左声道由以下计算
[0021]
[0022] 其中LT和HT为可接受的空间比的低阈值和高阈值。α和β两者都是基于r的标量调节因子。更具体而言,α和β通过从r的固定线性变换计算,故所有项彼此相关。G为正增益因子,其确保结果声道的振幅与其输入相同。对于右声道,计算是相同的。
[0023] 空间比计算成代表由三个分析块(总和/差异/频谱信息)标记的中心和/或侧分量的量。如通路314上所示,其用于下一个预处理步骤(混合块312),以及后处理阶段中的混合。LT和HT为预设的感知参数,其可基于独立内容如音乐、影片或游戏优化,以优化其不同的性质。阈值基于内容的类型调整。大体上,介于0.1到0.3之间的任何阈值都是合理的。系统基于标记的特征猜测内容的类型。例如,电影具有强中心、重环境,以及动态声效。相比之下,音乐几乎没有几个环境标记以及不同声源之间的频谱-时间内容中的重叠。
[0024] 感知参数基于感官体验,例如声音。基于公开的感知的技术依靠人脑,以用作解码器来拾取恢复的定位线索。感知阈值仅考虑由人脑/ 听觉系统处理的信息。定位线索从立体声数字音频信号中恢复,以便人听觉系统可有效地识别且解码音频信号。因此,感知上连续的音景可在不产生虚拟扬声器的情况下重建。公开的技术在感知空间中重建声音。即,公开的技术表达用于无意识的认知过程的信息来在人听觉系统中解码。
[0025] 图4的下一个处理操作是基于空间比410调整输入信号,以获得定位关键信息(即,大脑依靠其来定位声音的信息)。环境声音被调整以便其在时间上是相干的,且与主要对象(对话、音效)一致地起作用。环境声音对于认知中心理解环境也很重要。输入信号的不同部分然后基于空间比、其标记数目和内容类型被调整。为了具有清楚的中心图像,一个实施例将最小中心设置为-10.5dB的环境比。
[0026] 混合块312基于计算的空间比与选择的感知阈值的比较来平衡中心图像和环境声音。阈值可通过指定中心声音或侧声音上的重点来选择。简单的图形用户界面可用于允许使用者选择中心声音和侧声音之间的平衡。简单图形用户界面也可用于允许使用者选择音量水平。
[0027] 通过这样做,解决了与现有技术的递归串扰消除相关联的平衡问题。这是有效的自动平衡过程。此外,这还确保了环绕分量可被收听者清楚地听到。
[0028] 基于空间比和来自分析块的信息,原始信号再混合。可能的处理包括升高幻像中心的能量,以便幻像中心锚定在中心处。备选的或另外,侧部处的特殊音效可被强调,以便它们在递归串扰消除期间被有效地扩张。备选的或另外,环境声音或背景声音传播到声场各处,而不影响中心图像。环境声音的量也可跨时间调整,以保持连续的沉浸式环境。
[0029] 回到图3,在预处理300之后,执行递归串扰消除302。串扰在声音到达与各个扬声器的相对侧上的耳朵时发生。由于原始信号与串扰信号之间的建设性和破坏性干扰,造成不期望的光谱染色。此外,产生了冲突的空间线索,其引起空间失真。结果,定位失败,且立体声图像崩溃至扬声器的位置。解决该问题的方案在于串扰消除处理,这牵涉将串扰消除矢量加至相对的扬声器来在听觉上消除收听者的耳膜处的串扰信号。常规途径在于使用HRTF用于串扰消除。在这里使用的简化途径仅将消除信号加回至相对的扬声器。具体而言,反相314、衰减316和延迟318阶段用于形成高阶递归串扰消除器。左声道和右声道可由以下计算:
[0030] Left(n)=Left(n)-AL*Right(n-DL)
[0031] Right(n)=Right(n)-AR*Left(n-DR)
[0032] 其中代表衰减的A为正标量因子,D为延迟因子,且n为时域中的给定样本的索引(index)。在一个实施例中,参数可被优化来匹配硬件的物理配置。例如,对于具有非对称扬声器或不平衡的声音强度的消费者电子装置,在两个声道之间的因子可以不同。衰减和延迟时间可配置成适合任何类型的消费者电子装置扬声器配置。
[0033] 在递归串扰消除302之后,执行后处理304。图5示出了保持中心锚定122、均衡124和水平控制126的形式的后处理操作。对于保持中心锚定122,输出又被调整来保持对于收听者足够强的中心场,因为其为使中心内容可理解的重要特征。人习惯于强中心图像。例如,如果两个扬声器在相同水平下播放相同信号,则幻像中心将由收听者在中心线上感知为升高3dB。因此,如果两个扬声器之间没有更大的干扰,则将不会有更多的声音求和发生,也不会有中心的3dB的升高。另一方面,在递归串扰消除之后,立体声流的深度和房间环境可能被淹没,因此必须恢复。有了此特征,音频内容可能地出现在更远的距离。人工混响或甚至从中心的小平移的使用使得中心图像漂移至侧部。出于这些原因,混合块320确定是否有需要把中心信号加回来。左声道可由以下计算,
[0034]
[0035] 其中r为之前计算过的空间比,且T为感知阈值。阈值的值基于内容类型。例如,电影需要用于对话的强中心图像,但游戏不需要。在一个实施例中,阈值从0.05变至0.95。当Mid信号在播放的音频(例如,主要对话)中起到重要作用时,r大于T。注意,r和T的比较也考虑在预处理状态408中计算得到的原始空间比。a为相对于r的正标量因子。C为另一个增益因子,以确保输出处理信号与原始输入信号为相同的响度。相同的过程也应用于右声道。再次,该过程使得中心图像相较于现有技术更稳定,同时保持了侧分量处的加宽的效果。输出信号的场宽度可人工地调整。前述讨论的中心和侧图形用户界面可用于建立此体验。例如,100%宽度(对100%侧声音偏好)代表整个效果/ 宽度,使得声音可从耳朵后方或正好在耳朵处出现。
[0036] 继混合块320之后,关于收听者头部和电子装置的大小,均衡322 被用于消除通过使用非理想延迟和衰减因子产生的高频带中的可听见的染色。最后,增益控制块324确保了每个信号在适合的幅度范围内,且具有与原始输入信号相同的响度。用户指定的音量偏好也可应用于此处。
[0037] 其它后处理步骤可包括压缩和峰值限制。它们用于保留扬声器的动态范围,且保持声音质量,而不产生不期望的染色。
[0038] 本领域的技术人员将认识到,本发明的技术提供了用于源文件、流内容等等的低成本实时计算过程。技术还可嵌入数字音频信号中 (即,以便不需要解码器)。本发明的技术可应用于条形音箱、立体声扬声器和汽车音频系统。
[0039] 本发明的实施例涉及具有非瞬态计算机可读储存介质的计算机存储产品,介质上具有计算机代码,用于执行各种计算机实施的操作。媒体和计算机代码可为特别设计和构造成用于本发明的目的的那些,或它们可为计算机软件领域的技术人员公知和可用的类型。计算机可读媒体的示例包括但不限于磁媒体、光媒体、磁光媒体和特别配置成储存和执行程序代码的硬件装置,如,专用集成电路("ASIC")、可编程逻辑装置("PLD")和ROM和RAM装置。计算机代码的示例包括如由编译器产生的机器代码,以及含有由计算机使用转译器执行的高水平代码的文件。例如,本发明的实施例可使用 C++或其它编程语言和开发工具实施。本发明的另一个实施例可在硬连线电路中实施,以替代或结合机器可执行的软件指令。
[0040] 以上描述为了阐释的目的使用了特定术语来提供本发明的彻底理解。然而,本领域的技术人员将清楚的是,为了实施本发明,不需要特定细节。因此,提供前文对本发明具体实施例的说明是为了例证和说明。它们不旨在详尽或将本发明限于公开的精确形式;明显地,鉴于以上教导内容,许多改良和变型是可能的。选择和描述实施例以便最佳地阐释本发明及其实际应用的原理,它们因此允许本领域的其它技术人员最佳地使用本发明和各种实施例,其中各种改良适于构想的特定使用。期望的是,以下权利要求和其等同物限定本发明的范围。