会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 用于推迟音频分量的响度调整的方法和系统

用于推迟音频分量的响度调整的方法和系统

申请号 CN202311215265.9 申请日 2023-09-20 公开(公告)号 CN117746873A 公开(公告)日 2024-03-22
申请人 苹果公司; 发明人 F·鲍姆加特; D·森;
摘要 本公开涉及用于推迟音频分量的响度调整的方法和系统。本 发明 公开了一种方法,包括:接收与音频场景相关联的音频分量,该音频分量包括音频 信号 ;基于该 音频信号 来确定该音频分量的响度 水 平;接收该音频分量的目标响度水平;通过对该音频信号进行编码并且包括具有该响度水平和该目标响度水平的元数据来产生具有该音频分量的比特流;以及向 电子 设备传输该比特流。
权利要求

1.一种由编码器侧的已编程处理器执行的方法,所述方法包括:
接收与音频场景相关联的音频分量,所述音频分量包括音频信号
基于所述音频信号来确定所述音频分量的源响度;
接收所述音频分量的目标响度;
通过对所述音频信号进行编码并且包括具有所述源响度和所述目标响度的元数据来产生具有所述音频分量的比特流;以及
电子设备传输所述比特流。
2.根据权利要求1所述的方法,其中所述音频信号是构成所述音频分量的整个音频信号的一部分,其中所述源响度是跨接收的所述整个音频信号的所述部分的平均响度。
3.根据权利要求2所述的方法,其中所述部分是第一部分,并且所述源响度是第一源响度,其中所述方法还包括:
接收在所述第一部分之后接收的所述整个音频信号的第二部分;
基于所述第一部分和所述第二部分来确定第二源响度;以及
传输所述第二源响度作为包括所述整个音频信号的编码第二部分的所述比特流中的元数据。
4.根据权利要求3所述的方法,其中所述第二源响度比所述第一源响度收敛得更接近于或等于所述整个音频信号的总体响度。
5.根据权利要求1所述的方法,还包括基于所述音频分量的所述源响度和所述目标响度来确定所述音频场景的音频场景响度,其中所述音频场景响度被包括在所述元数据中。
6.根据权利要求5所述的方法,其中确定所述音频场景响度包括:
基于所述目标响度和所述源响度之间的差异来确定标量增益;以及
通过将所述标量增益应用于所述音频信号来产生经增益调整的音频信号,其中使用所述经增益调整的音频信号来确定所述音频场景响度。
7.根据权利要求6所述的方法,其中所述音频分量是第一音频分量,所述音频信号是第一音频信号,所述源响度是第一源响度,并且所述目标响度是第一目标响度,其中所述方法还包括:
接收与所述音频场景相关联的第二音频分量,所述第二音频分量包括第二音频信号;
基于所述第二音频信号来确定所述第二音频分量的第二源响度;以及
接收所述第二音频分量的第二目标响度,其中所述比特流通过所述第一音频分量和所述第二音频分量,连同作为所述元数据的所述第一源响度、所述第二源响度、所述第一目标响度和所述第二目标响度来产生。
8.根据权利要求7所述的方法,其中所述标量增益是第一标量增益,其中所述方法还包括:
通过将所述第一标量增益应用于所述第一音频信号来产生第一经增益调整的音频信号,其中所述第一标量增益基于所述第一目标响度和所述第一源响度之间的差异;
通过将第二标量增益应用于所述第二音频信号来产生第二经增益调整的音频信号,其中所述第二标量增益基于所述第二目标响度和所述第二源响度之间的差异;
基于所述第一经增益调整的音频信号和所述第二经增益调整的音频信号来确定所述音频场景的音频场景响度平,以及
将所述音频场景响度水平添加到所述元数据。
9.一种由解码器侧的已编程处理器执行的方法,所述方法包括:
接收由编码器侧产生的比特流,所述比特流包括:
与音频场景相关联的第一音频分量的第一音频信号、所述第一音频分量的第一目标响度、以及由所述编码器侧基于所述第一音频信号来确定的所述第一音频分量的第一源响度,和
与所述音频场景相关联的第二音频分量的第二音频信号、所述第二音频分量的第二目标响度、以及由所述编码器侧基于所述第二音频信号来确定的所述第二音频分量的第二源响度;
基于所述第一源响度和所述第一目标响度来确定第一标量增益;
基于所述第二源响度和所述第二目标响度来确定第二标量增益;
通过将所述第一标量增益应用于所述第一音频信号来产生第一经增益调整的音频信号;
通过将所述第二标量增益应用于所述第二音频信号来产生第二经增益调整的音频信号;以及
通过将所述第一经增益调整的音频信号和所述第二经增益调整的音频信号组合成一组一个或多个信号来产生包括所述第一音频分量和所述第二音频分量的所述音频场景。
10.根据权利要求9所述的方法,其中基于所述第一目标响度和所述第一源响度之间的差异来确定所述第一标量增益,并且基于所述第二目标响度和所述第二源响度之间的差异来确定所述第二标量增益。
11.根据权利要求9所述的方法,其中所述比特流的元数据包括由所述编码器确定的音频场景响度,其中所述方法还包括通过应用所述音频场景响度来产生经增益调整的信号组。
12.根据权利要求11所述的方法,其中所述编码器基于包括所述第一经增益调整的音频信号和所述第二经增益调整的音频信号的混合信号来确定所述音频场景响度。
13.根据权利要求11所述的方法,其中产生所述经增益调整的信号组:
基于场景目标响度和所述音频场景响度之间的差异来产生标准化增益;以及将所述标准化增益应用于所述信号组。
14.根据权利要求9所述的方法,其中所述第一源响度、所述第二源响度、所述第一目标响度和所述第二目标响度各自是所述比特流的元数据内的8位整数。
15.根据权利要求9所述的方法,还包括在空间上渲染所述音频场景以用于通过电子设备的一个或多个扬声器回放。
16.一种音频解码器装置,包括:
处理器;和
存储器,所述存储器在其中存储有指令,所述指令将所述处理器配置为获得比特流,所述比特流包括:
音频场景的多个编码音频分量;
针对所述多个音频分量中的每个音频分量,
由音频编码器装置通过对所述音频分量的音频信号执行响度测量过程来确定的所述音频分量的源响度;
由所述音频编码器装置接收的所述音频分量的目标响度;和
由所述音频编码器装置通过对多个经增益调整的音频信号执行所述响度测量过程来估计的所述音频场景的音频场景响度,其中由所述音频编码器装置通过基于相应音频分量的所述源响度和所述目标响度应用标准化增益来针对所述相应音频分量产生每个经增益调整的音频信号。
17.根据权利要求16所述的音频解码器装置,其中所述音频信号是构成所述音频分量的整个音频信号的一部分,其中所述源响度是跨接收的所述整个音频信号的所述部分的平均响度。
18.根据权利要求17所述的音频解码器装置,其中所述部分是第一部分并且所述源响度是第一源响度,其中所述存储器还具有将所述处理器配置为获得附加比特流的指令,所述附加比特流包括:
所述整个音频信号的第二部分的编码版本;
由所述音频编码器装置通过对所述整个音频信号的所述第一部分和所述第二部分执行响度测量过程来确定的第二源响度,其中所述第二源响度是跨所述第一部分和所述第二部分的平均响度。
19.根据权利要求18所述的音频解码器装置,其中所述第二源响度比所述第一源响度收敛得更接近于所述整个音频信号的总体响度。
20.根据权利要求16所述的音频解码器装置,其中所述比特流包括多个音频通道组,每个音频通道组表示编码音频分量,其中所述比特流包括指示所述比特流内的所述多个音频通道组的数量的8位整数。

说明书全文

用于推迟音频分量的响度调整的方法和系统

[0001] 相关专利申请
[0002] 本申请要求于2022年9月22日提交的美国临时申请号63/376,736的优先权的权益,该美国临时申请以引用方式并入本文。

技术领域

[0003] 本公开的一方面涉及一种包括编码器的系统,该编码器产生比特流,该比特流具有音频场景的编码音频内容,并且包括与音频内容相关联的响度元数据,解码器使用该响
度元数据来控制音频场景的响度。还描述了其他方面。

背景技术

[0004] 如今,许多设备向用户提供在互联网上流式传输媒体内容(诸如可包括音乐、播客、实况录制的短视频片段或正片的声音节目)的能。例如,回放设备(诸如数字媒体播放
器)可电子耦接到诸如扬声器的输出设备(或输出设备的一部分),并且可被配置为流式传
输内容以通过扬声器进行回放。该内容可由用户选择(例如,通过回放设备的图形用户界
面),并且从在订阅基础上提供内容的一个或多个内容提供者流式传输。
发明内容
[0005] 本公开的一方面是一种用于将音频内容和描述该音频内容的一个或多个响度平的元数据编码成一个或多个(例如,音频)比特流的编码器侧方法,其可由电子设备(例
如,媒体内容设备)执行。该编码器侧接收与音频场景相关联的音频分量,该音频分量包括
音频信号;基于该音频信号来确定该音频分量的源响度;接收该音频分量的目标响度;通过
对该音频信号进行编码并且包括具有该源响度和该目标响度的元数据来产生具有该音频
分量的比特流;以及向电子设备传输该比特流。
[0006] 在一个方面,该音频信号是构成该音频分量的整个音频信号的一部分,其中该源响度是跨接收的该整个音频信号的该部分的平均响度。在另一个方面,该部分是第一部分,
并且该源响度是第一源响度,其中该方法还包括:接收在该第一部分之后接收的该整个音
频信号的第二部分;基于该第一部分和该第二部分来确定第二源响度;以及传输该第二源
响度作为包括该整个音频信号的编码第二部分的该比特流中的元数据。在一些方面,该第
二源响度比该第一源响度收敛得更接近于或等于该整个音频信号的总体响度。在一个方
面,确定该源响度包括从存储器检索该源响度,其中该源响度是跨越该音频信号的长度的
总体响度。在另一个方面,确定该音频分量的该源响度包括将该音频信号应用于响度模型。
[0007] 在一个方面,基于该音频分量的该源响度和该目标响度来确定该音频场景的音频场景响度,其中该音频场景响度被包括在该元数据中。在另一个方面,确定该音频场景响度
包括:基于该目标响度和该源响度之间的差异来确定标量增益;以及通过将该标量增益应
用于该音频信号来产生经增益调整的音频信号,其中使用该经增益调整的音频信号来确定
该音频场景响度。
[0008] 在一个方面,该音频分量是第一音频分量,该音频信号是第一音频信号,该源响度是第一源响度,并且该目标响度是第一目标响度,其中该方法还包括:接收与该音频场景相
关联的第二音频分量,该第二音频分量包括第二音频信号;基于该第二音频信号来确定该
第二音频分量的第二源响度;以及接收该第二音频分量的第二目标响度,其中该比特流通
过该第一音频分量和该第二音频分量,连同作为该元数据的该第一源响度、该第二源响度、
该第一目标响度和该第二目标响度来产生。在另一个方面,该第一目标响度不同于该第二
目标响度。在另一个方面,该第一目标响度和该第二目标响度是相同的。在一些方面,该标
量增益是第一标量增益,其中该方法还包括:通过将该第一标量增益应用于该第一音频信
号来产生第一经增益调整的音频信号,其中该第一标量增益基于该第一目标响度和该第一
源响度之间的差异;通过将第二标量增益应用于该第二音频信号来产生第二经增益调整的
音频信号,其中该第二标量增益基于该第二目标响度和该第二源响度之间的差异;基于该
第一经增益调整的音频信号和该第二经增益调整的音频信号来确定该音频场景的音频场
景响度水平,以及将该音频场景响度水平添加到该元数据。
[0009] 在一个方面,产生该比特流包括将该源响度和该目标响度两者转换成相应的8位整数并且将该8位整数中的每一者作为该元数据的一部分存储到该比特流中。在另一个方
面,该比特流包括具有该元数据的编码音频信号,其中该编码音频信号的信号电平与所接
收的音频信号的信号电平相同。在一个方面,该目标响度是第一目标响度,并且该比特流是
第一比特流,其中该方法还包括:在接收该第一目标响度之后接收第二目标响度;以及通过
对该音频信号进行编码并包括具有该源响度和该第二目标响度的新元数据来产生第二比
特流。在一些方面,经由用户输入设备接收该第二目标响度。在另一个方面,该音频分量包
括该音频信号所属的多个音频信号,其中该目标响度与该多个音频信号相关联。在一个方
面,该多个音频信号呈表示该音频场景内的该音频分量的高阶高保真度立体声响复制
(HOA)格式。
[0010] 根据本公开的另一个方面是一种用于对音频内容和描述该音频内容的一个或多个响度水平的元数据进行解码的解码器侧方法,其可由电子设备(例如,音频回放设备)执
行。该解码器侧接收由编码器侧产生的比特流,该比特流包括:1)与音频场景相关联的第一
音频分量的第一音频信号、该第一音频分量的第一目标响度、以及由该编码器侧基于该第
一音频信号来确定的该第一音频分量的第一响度,和2)与该音频场景相关联的第二音频分
量的第二音频信号、该第二音频分量的第二目标响度、以及由该编码器侧基于该第二音频
信号来确定的该第二音频分量的第二响度;基于该第一响度和该第一目标响度来确定第一
标量增益;基于该第二响度和该第二目标响度来确定第二标量增益;通过将该第一标量增
益应用于该第一音频信号来产生第一经增益调整的音频信号;通过将该第二标量增益应用
于该第二音频信号来产生第二经增益调整的音频信号;以及通过将该第一经增益调整的音
频信号和该第二经增益调整的音频信号组合成一组一个或多个信号来产生包括该第一音
频分量和该第二音频分量的该音频场景。
[0011] 在一个方面,基于该第一目标响度和该第一源响度之间的差异来确定该第一标量增益,并且基于该第二目标响度和该第二源响度之间的差异来确定该第二标量增益。在另
一个方面,该第一标量增益不同于该第二标量增益。在一些方面,该第一标量增益和该第二
标量增益相同。在一个方面,该比特流的元数据包括由该编码器确定的音频场景响度,其中
该方法还包括通过应用该音频场景响度来产生经增益调整的信号组。在另一个方面,该编
码器基于包括该第一经增益调整的音频通道和该第二经增益调整的音频通道的混合通道
来确定该音频场景响度。在一些方面,产生该经增益调整的信号组:基于该场景目标响度和
该音频场景响度之间的差异来产生标准化增益;以及将该标准化增益应用于该信号组。在
一个方面,该第一源响度、该第二源响度、该第一目标响度和该第二目标响度各自是该元数
据内的8位整数。在另一个方面,可在空间上渲染该音频场景以用于通过电子设备的一个或
多个扬声器回放。
[0012] 根据本公开的另一个方面,一种音频解码器装置包括:处理器;和存储器,该存储器在其中存储有指令,该指令将该处理器配置为获得比特流,该比特流包括:音频场景的多
个编码音频分量;针对该多个音频分量中的每个音频分量,由音频编码器装置通过对该音
频分量的音频信号执行响度测量过程来确定的该音频分量的源响度;由该音频编码器装置
接收的该音频分量的目标响度;和由该音频编码器装置通过对多个经增益调整的音频信号
执行该响度测量过程来估计的该音频场景的音频场景响度,其中由该音频编码器装置通过
基于相应音频分量的该源响度和该目标响度应用标准化增益来针对该相应音频分量产生
每个经增益调整的音频信号。根据权利要求29所述的音频解码器装置,其中该音频信号是
构成该音频分量的整个音频信号的一部分,其中该源响度是跨接收的该整个音频信号的该
部分的平均响度。
[0013] 在一个方面,该部分是第一部分并且该源响度是第一源响度,其中该存储器还具有将该处理器配置为获得附加比特流的指令,该附加比特流包括:该整个音频信号的第二
部分的编码版本;和由该音频编码器装置通过对该整个音频信号的该第一部分和该第二部
分执行响度测量过程来确定的第二源响度,其中该第二源响度是跨该第一部分和该第二部
分的平均响度。在另一个方面,该第二源响度比该第一源响度收敛得更接近于该整个音频
信号的总体响度。在一些方面,该比特流包括若干音频通道组,每个音频通道组表示编码音
频分量,其中该比特流包括指示该比特流内的该音频通道组的数量的8位整数。
[0014] 以上概述不包括本公开的所有方面的详尽列表。可预期的是,本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书中特别指出的各
个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中
具体阐述的特定优点。
附图说明
[0015] 在附图的图示中通过举例而非限制的方式示出了多个方面,在附图中类似的附图标号指示类似的元件。应当指出的是,在本公开中提到“一”或“一个”方面未必是同一方面,并且其意指至少一个。另外,为了简洁以及减少附图的总数,某个附图可能被用于示出不止
一个方面的特征,并且对于某个方面,可能并不需要该附图中的所有元素。
[0016] 图1示出了在音频调平器设备处使用传统方法来处理的音频分量的响度水平的示例。
[0017] 图2示出了产生包括音频场景的编码音频内容和响度元数据的比特流的系统,该响度元数据用于控制音频场景的响度。
[0018] 图3是根据一个方面的音频编解码器系统的框图,该音频编解码器系统在编码器侧产生编码音频内容和响度元数据的比特流,并且在解码器侧接收比特流且使用元数据来
调整音频内容的响度。
[0019] 图4示出了使用本公开的音频编解码器系统来处理的音频分量的响度水平的示例。
[0020] 图5是根据一个方面的产生编码音频内容和响度元数据的比特流以用于在音频内容的回放期间调整响度的编码器侧的框图。
[0021] 图6是根据一些方面的在回放期间接收比特流并使用响度元数据来调整音频内容的响度的解码器侧的框图。
[0022] 图7示出了根据一些方面的对MPEG‑D DRC的比特流语法的增强的表。
[0023] 图8示出了根据一些方面的对MPEG‑D DRC的比特流语法的增强的另一个表。
[0024] 图9示出了系统硬件的示例。

具体实施方式

[0025] 现在将参考所附附图来解释本公开的各方面。只要在某个方面中描述的部件的形状、相对位置和其他方面未明确限定,这里本公开的范围就不仅仅局限于所示出的部件,所
示出的部件仅用于说明的目的。另外,虽然阐述了许多细节,但应当理解,一些实施方案可
在没有这些细节的情况下被实施。在其他情况下,未详细示出熟知的电路、结构和技术,以
免模糊对该描述的理解。此外,除非该含义明确相反,否则本文示出的所有范围被认为包括
每个范围的端值。
[0026] 如本文所用,扩展现实(XR)环境(或呈现)是指人们经由电子设备感测和/或交互的完全或部分模拟的环境。例如,XR环境可包括增强现实(AR)内容、混合现实(MR)内容、虚
拟现实(VR)内容等。有许多不同类型的电子系统使人能够感测和/或与各种XR环境交互。示
例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡玻璃、集成有显示能力的窗户、被形成为设计用于放置在人的眼睛上的透镜的显示器(例如,类似
于隐形眼镜)、机/听筒、扬声器阵列、输入系统(例如,具有或不具有触觉反馈的可穿戴或手持式控制器)、智能电话、平板电脑、以及台式/膝上型计算机。
[0027] 音频节目(例如,音乐作品、播客、XR环境的音频、电影的音轨等)可包括一个或多个音频场景(例如,作为声音片段),其中每个音频场景包括起源于音频场景内的一个或多
个音频场景分量(例如,声音源)(并且可由其表征)。例如,虚拟起居室的音频场景可包括房
间内的人的对话作为一个音频分量,而犬吠的声音可以是另一个音频分量。因此,当与场景
相关联的音频场景分量被空间渲染以使得收听者将其感知为源自声学(例如,物理)空间内
(例如,围绕收听者)的特定位置时,音频场景可被三维(3D)空间渲染。作为另一个示例,当
音频节目是电影的音轨时,一个音频分量可以是对话,而另一个音频分量可以是电影的配
乐。作为又一示例,当音频节目包括多个音轨(例如,具有音乐专辑的音轨或具有电影系列
的音轨)时,音频分量可以是单独的音轨和/或可表示整组(或专辑)音轨。
[0028] 在一个方面,音频分量(例如,和/或音频场景)可以各种音频格式中的一者来表示,诸如为一个或多个音频通道(在通道组中)。例如,音频分量可包括单声道音频通道或可
呈多音频通道格式(例如,两个立体声通道、六个环绕源通道(呈5.1环绕格式)等)。在另一
个方面,音频分量可被表示为音频对象,其包括一个或多个音频信号(例如,在通道组中)和
位置数据(用于在空间上渲染音频信号),和/或可以高阶高保真度立体声响复制(HOA)音频
格式来表示。当(例如,由内容创建者)产生完整场景时,可在产生时控制与场景相关联的每
个场景分量的响度以便为收听者实现良好(或期望)的总体平衡。
[0029] 响度标准化是将标准化增益应用于音频节目以使平均幅度达到目标响度水平的过程。为了实现响度标准化,对音频节目执行集成响度测量,其类似于均方根RMS,但在人类听觉方面更真实。集成响度可等同于节目(或总体)响度,因为它测量声音节目在其整个持
续时间(或其持续时间的至少一部分)内的响度。从目标响度水平中减去集成响度水平以导
出以分贝(dB)为单位的标准化增益。然后将标准化增益应用于整个音频节目(或其至少一
部分)。
[0030] 可对音频节目离线执行响度标准化(例如,使用所产生的音频节目),这允许确定音频节目的总体响度。然而,可实时地对音频节目执行响度标准化,例如,因为音频节目是
正被编码以及流式传输(例如,通过互联网)到音频回放设备的实况或实时数字音频录音。
传统上,响度标准化调整可由在编码侧的音频调平器设备执行,该编码侧对音频节目进行
编码并将其传输到解码器侧,该音频调平器设备应用该音频节目的标准化增益。为了实现
这一点,当音频调平器设备接收实时音频数据时,其测量所接收的音频数据的实际响度水
平,并且然后使用测量结果以根据目标响度水平来调整所接收的音频数据的响度。然而,由
于音频调平器设备仅接收音频节目的一部分(这导致响度误差),因此所测量的响度可能偏
离音频节目的总体响度水平(例如,在节目的开始部分中)。然而,当音频节目被流式传输
时,所测量的响度水平可最终收敛到音频节目的总体(例如,节目)响度。然而,由于实时约
束(例如,所测量的响度水平偏离总体响度,这是音频节目预先不为音频调平器设备所知的
结果),不期望的音频伪影(例如,作为响度水平的突然增加或减少的音频送伪影)可能由
于响度误差而被包括在流式传输的音频节目(例如,至少其开始)内。
[0031] 图1示出了在音频调平器设备处使用这些传统方法来处理的音频数据的响度水平的示例。具体地,该图示出了预处理音频71的实际(或集成)响度72,其可以是音频数据的总
体响度(例如,其可跨越音频的至少一部分的持续时间),以及音频的目标(例如,期望)响度
73(例如,其可以是回放时的期望响度水平)。在这之下,示出了由音频调平器设备处理的音
频74,其示出了由于音频调平器设备将音频标准化至目标响度73而被减小到目标响度73的
经处理音频74的实际响度82。在经处理音频分量的开始部分处,实际响度具有急剧减小,这
将音频泵送伪影75添加到经处理音频74,这可能是由于由音频调平器设备执行的实际响度
测量到目标响度的收敛。当在解码器侧渲染时,此泵送伪影75可导致不期望的音频效应。除
了具有伪影75之外,经处理音频74是不可逆的,这意味着音频被流式传输并渲染到的回放
设备接收经处理音频并且不能以预处理音频响度水平再现原始音频数据(例如,通过执行
音频信号处理操作),并且经处理音频还包括某个调平器处理延迟。因此,需要一种提供基
于元数据的解决方案的系统,该解决方案推迟对于解码器侧设备调整音频场景的音频分量
的响度以便减小或消除与传统过程相关联的伪影。
[0032] 为了解决该问题,本公开提供了一种音频编解码器系统,该音频编解码器系统基于在编码器侧设备(或编码器侧)处产生的响度元数据(其在本文中可被称为“元数据”)来
调整在解码器侧设备(或解码器侧)处的音频分量的响度水平,该响度元数据包括音频分量
的目标响度(或产生响度)和源响度。具体地,编码器侧(其可由经编程处理器(例如,执行存
储在存储器中作为媒体源设备的一部分的指令或由该指令配置的一个或多个处理器)实
施)接收与(音频节目的)音频场景相关联的音频分量,其中音频分量包括至少一个音频信
号。编码器侧基于音频信号来确定音频分量的源响度(例如,通过执行响度测量过程),并且
接收音频分量的目标响度(例如,其可大于或小于所测量的响度水平)。编码器侧通过对音
频信号进行编码(例如,根据音频编解码器,诸如高级音频编码(AAC))并且包括具有源响度
和目标响度的编码元数据来产生具有音频分量的比特流。编码器侧可将比特流(例如,经由
互联网)传输到电子设备(例如,解码器侧设备或解码器侧)。
[0033] 解码器侧还可被实现为音频回放设备的编程处理器(或由其执行)。解码器侧接收由编码器侧产生的比特流,该比特流包括音频场景的音频分量的音频信号的编码版本,以
及作为与比特流一起接收的元数据的音频信号的响度水平和音频信号的目标响度水平。解
码器侧基于响度水平和目标响度水平(例如,两者之间的差异)来确定标量增益,并且将该
标量增益应用于音频信号。
[0034] 将响度调整推迟到解码器侧具有若干优点。首先,与由于测量响度与目标响度之间的发散(例如,响度误差)而导致音频泵送(例如,在音频节目的开始处)的传统音频调平
器设备不同,本公开的音频编解码器系统可通过利用现有编码延迟来提供对编码器侧处的
响度测量的预测先行来减小或消除效应。具体地,与传统设备能够做的相比,可在所接收的
音频分量的更大部分上测量源响度。较大预测先行使得音频编解码器系统能够减小初始响
度估计误差。此外,编码侧可在实况流式传输期间向解码器侧提供响度测量更新,使得可在
测量收敛到音频分量的总体响度时调整音频分量的响度。由于元数据更新,音频编解码器
系统可由于响度测量与在理想离线过程中生成的响度相同而消除在解码器侧的响度误差。
元数据解决方案具有其他优点,诸如提供音频分量的单次通过编码,由此避免用于响度测
量的单独通过、编码器输出到比特流中的单次通过写入、减小(或消除)在解码之后的响度
误差或泵送伪影、以及减小(或消除)任何附加延迟。
[0035] 图2示出了产生包括音频场景的编码音频内容和响度元数据的比特流的系统76(例如,音频系统),该响度元数据可由系统使用以控制音频场景的响度。具体地,系统包括
回放设备79、音频输出设备70、(例如,计算机)网络78(例如,互联网)和媒体内容设备(或服务器)77。在一个方面,系统可包括更多或更少的元件,诸如具有一个或多个(附加)服务器,或者不包括回放设备。在这种情况下,输出设备可(例如,直接)通信地耦接到媒体内容设
备,如本文所描述。
[0036] 在一个方面,媒体内容设备77可以是被配置为执行数字信号处理的独立电子服务器、计算机(例如,桌面计算机)或服务器计算机群集,如本文所描述。具体地,内容设备可被配置为产生(和/或)接收音频节目(其可包括一个或多个音频分量),并且可被配置为执行
如本文所描述的编码器侧操作以产生具有编码音频节目且具有相关联的响度元数据(或元
数据)的比特流。如图所示,内容设备可通信地耦接(例如,经由网络78)到回放设备79以便
使用编码比特流来提供数字音频数据和元数据。本文描述了关于由内容设备执行的操作的
更多内容。
[0037] 在一个方面,回放设备79可以是能够对音频比特流执行解码操作以对编码音频信号进行解码并且提取与音频信号相关联的元数据,以及根据所提取的元数据对解码音频信
号执行音频信号处理操作的任何电子设备(例如,具有电子部件,诸如处理器、存储器等)。
在另一个方面,回放设备可以能够使用一个或多个空间滤波器(诸如头部相关传递函数
(HRTF))在空间上渲染音频内容以用于音频回放(例如,经由可集成在回放设备内和/或输
出设备70内的一个或多个扬声器,如本文所描述)。例如,回放设备可以是台式计算机、膝上型计算机、数字媒体播放器等。在一个方面中,该设备可以是便携式电子设备(例如,可手持操作),如平板电脑、智能手机等。在另一方面中,该设备可以是头戴设备,如智能眼镜,或可穿戴设备,如智能手表
[0038] 在一个方面,输出设备70可以是包括至少一个扬声器并且被配置为通过驱动扬声器来输出(或回放)声音的任何电子设备。例如,如图所示,设备是无线头戴式耳机(例如,入耳式耳机或无线耳塞),其被设计成定位在用户的耳朵上(或中)并且被设计成将声音输出
到用户的耳道中。在一些方面,耳塞可以是具有柔性耳机末端的密封类型,该柔性耳机末端
用于通过阻挡或闭塞在耳道中来相对于周围环境在声学上密封用户的耳道的入口。如图所
示,输出设备包括用于用户左耳的左耳塞和用于用户右耳的右耳塞。在这种情况下,每个耳
塞可被配置为输出音频内容的至少一个音频通道(例如,右耳机输出立体声录音(诸如音乐
作品)的双通道输入的右音频通道并且左耳机输出左音频通道)。在另一个方面,每个耳塞
可被配置为回放一个或多个空间渲染的音频信号。在这种情况下,输出设备可回放使用一
个或多个HRTF来产生的双耳音频信号,其中左耳塞回放左双耳信号,而右耳塞回放右双耳
信号。在另一方面,输出设备可以是包括至少一个扬声器并且被布置为由用户佩戴并且被
布置为通过用音频信号驱动扬声器来输出声音的任何电子设备。又如,输出设备可以是任
何类型的头戴式耳机,诸如至少部分地覆盖用户耳朵并被布置成将声音引导至用户耳朵中
的包耳式(或耳上)耳机。
[0039] 在一些方面,输出设备70可以是头戴式设备,如本文所例示。在另一方面,音频输出设备可以是被布置为将声音输出到周围环境中的任何电子设备。示例可包括独立扬声
器、智能扬声器、家庭影院系统或集成在车辆内的信息娱乐系统
[0040] 如本文所描述,输出设备70可以是无线头戴式耳机。具体地,输出设备可以是可通信地耦接到回放设备79以便交换数字数据(例如,音频数据)的无线设备。例如,回放设备可
被配置为经由无线通信协议(例如,蓝牙协议或任何其他无线通信协议)与输出设备建立无
线连接。在所建立的无线连接期间,回放设备可以与输出设备交换(例如,传输和接收)数据
分组(例如,互联网协议(IP)分组),该数据分组可包括任何音频格式的音频数字数据。
[0041] 在另一方面,回放设备79可经由其他方法与输出设备70通信地耦接。例如,两个设备均可经由有线连接来耦接。在这种情况下,有线连接的一个端部可以(例如,固定地)连接
到输出设备,而另一个端部可具有插入到回放设备的插口中的连接器,诸如媒体插孔或通
串行总线(USB)连接器。一旦被连接,回放设备就可被配置为经由有线连接利用一个或多
个音频信号来驱动输出设备的一个或多个扬声器。举例来说,回放设备可将音频信号作为
数字音频(例如,PCM数字音频)传输。在另一方面,音频可以模拟格式传输。
[0042] 在一些方面,回放设备79和输出设备70可以是不同的(独立的)电子设备,如本文所示。在另一方面,回放设备可以是输出设备的一部分(或与输出设备集成)。例如,回放设
备的部件中的至少一些部件(诸如一个或多个处理器、存储器等)可以是输出设备的一部
分,并且/或者输出设备的部件中的至少一些部件可以是回放设备的一部分。在这种情况
下,由回放设备执行的操作中的至少一些操作可由输出设备执行。
[0043] 图3是根据一个方面的音频编解码器系统29的框图,该音频编解码器系统在编码器侧产生编码音频内容和增强响度元数据的比特流,并且在解码器侧接收比特流且使用响
度元数据来调整音频内容的响度(例如,为了回放)。系统具有编码器侧10,该编码器侧可由
一个或多个处理器实现,这些处理器执行存储在存储器中的指令或由存储在存储器中的指
令配置,该存储器在这里通常被称为“编程处理器”,例如在一个或多个设备中。例如,编码器侧可由媒体内容设备77来实现和/或可由经由互联网通信地耦接到一个或多个设备的一
个或多个服务器来实现。系统还包括解码器侧20,该解码器侧可由一个或多个设备(诸如系
统76的回放设备79和/或输出设备70)通过编程处理器来实现。
[0044] 在一个方面,音频编解码器系统29可执行用于实时地对音频节目的音频数据进行编码和解码的操作。在此情况下,可对音频节目的音频数据流连续地(例如,周期性地)执行
本文所描述的数字信号处理操作。具体地,可从音频节目的开始(或者音频节目将被流式传
输的开始时间)到音频节目的结束(或者音频节目不再被实时流式传输的停止时间)执行操
作。在一些方面,可周期性地执行操作,使得音频编解码器系统29针对正被接收且流式传输
的音频节目的一个或多个片段执行操作以用于在解码器侧设备处回放。本文描述了关于实
时操作的执行的更多内容。
[0045] 现在将描述编码器侧10。编码器侧10接收(例如,音频节目作为)一个或多个音频分量,其中音频分量可与(音频节目的)音频场景相关联(例如,作为音频场景的一部分或构
成音频场景)。每个音频分量可包括作为一个或多个音频信号(或通道)的音频数据,其包括
与音频节目相关联的音频内容的至少一部分。例如,音频分量可以是包括至少一个音频信
号的音频对象和与该音频对象相关联的空间参数(例如,位置数据)。在一个方面,空间参数
可用于在回放期间在空间上渲染音频对象。音频对象可与音频场景内的(虚拟)声源相关联
(当被渲染以通过一个或多个扬声器输出时)。作为另一个示例,音频分量可包括通道组,其
中每个通道包括音频节目的至少一部分。具体地,音频分量可以是包括两个通道(例如,左
侧通道和右侧通道)的立体声通道组。在该示例中,编码器侧接收两个音频分量(第一音频
分量11a和第二音频分量11b)。编码器侧10还接收第一目标响度12a和第二目标响度12b(例
如,以dB或dBA(A加权)或LKFS(响度K加权水平满标度)为单位),其中每个响度可为特定(或
一个或多个)音频分量的期望响度水平。例如,第一目标响度12a可与第一音频分量11a相关
联,并且第二目标响度12b可与第二音频分量11b相关联。在一个方面,可预定义目标响度水
平。在另一个方面,目标水平可以是用户定义的。例如,编码器侧可经由用户输入设备接收
一个或多个目标水平,该用户输入设备可以是可耦接到正执行编码器侧操作的设备(例如,
媒体内容设备77)的任何类型的输入设备(例如,键盘触摸屏等)。在另一个方面,可在与音频分量相关联的音频节目的产生(或创建)期间定义目标响度水平。
[0046] 如本文所描述,音频分量可包括一个或多个音频信号。在一个方面,编码器侧可接收音频分量的一个或多个目标响度水平,其中每个目标响度水平可针对音频分量的音频信
号中的至少一者。例如,音频分量可包括(音频信号的)通道组,在这种情况下,编码器侧可
接收该组的单个目标响度水平,或者可接收该组的不同音频信号的多个目标响度水平。
[0047] 如图所示,编码器侧包括用于执行本文所述的一个或多个音频信号处理操作的若干操作。例如,编码器侧包括响度测量13a和13b以及编码器15。响度测量中的每一者被配
置为测量(确定或估计)其相应的音频分量的源(或实际)响度。例如,响度测量13a可被配置
为接收第一音频分量11a,或者更具体地接收音频分量的一个或多个音频信号,并且测量音
频信号的响度。在一个方面,响度测量块可收集音频信号(其可包括一个或多个音频)的
一个或多个样本,并且可计算样本中的至少一些样本的响度的测量结果。如本文所描述,由
于提供预测先行的编码器15的编码器延迟,响度测量可以能够收集样本(例如,在一定时间
段内,诸如一秒)。根据样本,响度测量可产生源响度作为在所收集的样本的持续时间(或跨
度)内的平均响度。在一个方面,响度测量可重复这些操作(例如,周期性地)以实际上产生
音频分量的响度的“运行平均”。本文描述了关于运行平均的更多说明。
[0048] 在一个方面,为了确定响度,响度测量13a和/或13b可将其分别接收的音频信号应用于计算或估计响度水平作为输出的(预定义)响度模型中。在另一个方面,响度测量可对
音频信号(例如,所收集的其样本)执行频谱分析以确定响度。在一个方面,当音频分量包括
一组一个或多个音频信号时,响度测量可确定该组信号的至少一个响度水平。在另一个方
面,响度测量可单独地估计该组信号中的每一个信号(或至少一些信号)的响度水平。在另
一个方面,响度测量13a和/或13b可使用任何已知方法来估计响度水平。因此,响度测量13a
可产生音频分量11a的源响度14a,并且响度测量13b可产生音频分量11b的源响度14b。在一
个方面,可存在用于每个接收音频分量的响度测量块。在这种情况下,编码器侧10可对所接
收的音频分量中的每一者或至少一些执行响度测量操作。
[0049] 编码器15可被配置为接收音频分量和响度水平。具体地,编码器15接收音频分量11a和11b、源响度水平14a和14b以及目标响度水平12a和12b,并且可被配置为通过对音频
分量的音频数据进行编码并且将元数据包括(或写入)到具有响度水平的比特流中来产生
包括音频分量及其相应响度水平的比特流16。在一个方面,编码器可将其他数据写入到元
数据中。例如,编码器可添加与音频分量相关联的空间参数(例如,位置数据),解码器侧可
使用该空间参数以在空间上渲染音频分量。在一个方面,编码器可根据任何音频编解码器
(诸如高级音频编码(AAC))对与音频分量相关联的音频信号进行编码。编码器侧可将比特
流16(例如,经由网络78)传输到解码器侧20。具体地,执行编码器操作的电子设备可将比特
流传输到将执行(或正执行)解码器操作(和回放操作)的另一个电子设备。在一个方面,编
码器侧10可将比特流(的至少一部分)存储在(例如,本地或远程)存储器中。
[0050] 解码器侧20接收由编码器侧10产生的比特流16,该比特流可包括与音频场景相关联的音频分量11a和11b(与每个音频分量相关联的一个或多个音频信号)的编码版本以及
与每个音频分量相关联的若干响度水平(作为元数据)。比特流可包括1)音频分量11a的一
个或多个音频信号,以及与音频分量11a相关联的源响度14a和目标响度14b,和2)音频分量
11b的一个或多个音频信号,以及与音频分量11b相关联的源响度14b和目标响度12b。
[0051] 解码器侧20可使用比特流内的元数据(的至少一部分)来调整一个或多个音频分量的响度水平。具体地,与可在编码器侧调整水平的传统方法相比,音频编解码器系统29可
在解码器侧20调整响度水平。因此,在比特流16内传输的音频数据的电平可与在编码器侧
接收的音频数据的电平相同(或类似)。具体地,比特流内的编码音频信号的信号电平(例
如,响度水平)可与在编码器侧接收的音频信号的信号电平相同。如图所示,解码器侧20包
括解码器17、增益调整18a和18b以及组合器19。解码器17可被配置为通过(使用音频编解码
器以用于)对比特流内的音频分量(例如,其编码音频信号)进行解码来撤销编码处理。解码
器还可被配置为从元数据提取响度水平。
[0052] 每个增益调整18a和18b可被配置为接收(至少一个)音频分量并且基于音频分量的响度水平和目标响度水平来调整增益。例如,增益调整18a接收与音频分量11a相关联的
音频信号,并且基于音频分量11a的目标响度12a和源响度14a应用标准化增益(其可以是标
量增益)以产生经增益调整的音频信号。具体地,增益调整18a基于音频分量11a的目标响度
12a与源响度14a之间的差异来确定标量增益。在一个方面,增益调整18b相对于音频分量
11b执行类似操作以产生音频分量11b的经增益调整的音频信号。在一个方面,由增益调整
18a及18b应用的标量增益可为相同的,或其可为不同的。
[0053] 组合器19可被配置为从增益调整18a及18b接收经增益调整的音频分量,并且可被配置为组合音频分量以产生音频场景21。具体地,组合器可从每个增益调整接收经增益调
整的音频信号,并且将信号组合成构成音频场景21的一个或多个信号(例如,在渲染时通过
一个或多个扬声器产生音频场景21的音频数据)。例如,当音频分量呈立体声格式(例如,为
左音频通道和右音频通道)时,组合器可将音频通道组合成信号通道,或可混合类似通道
(例如,将所有右通道混合在一起并且将所有左通道混合在一起)。在一些方面,组合器可执
行矩阵混合操作以产生经增益调整的音频信号中的至少一些的混合作为音频场景21。在另
一个方面,组合器可不将通道混合在一起,而是可替代地将通道分组在一起(其可由音频渲
染器(未示出)使用以在空间上渲染音频场景21)。
[0054] 在一个方面,可将音频场景21传递到音频渲染(渲染器)块(未图示),该音频渲染(渲染器)块可最终在空间上渲染音频场景21以用于通过一个或多个扬声器回放。具体地,
渲染器可产生包括音频场景21的音频的一个或多个换能器(扬声器)驱动器输入信号,其将
组合音频信号转换为由扬声器输出的声音。在一个方面,音频渲染块可被配置为在空间上
渲染构成音频场景21的组合的经增益调整的音频分量以产生一个或多个驱动器输入信号。
例如,渲染块可根据与音频场景的音频分量比特流一起接收的位置数据来在空间上渲染音
频场景。具体地,渲染块可根据与音频分量相关联的位置数据将诸如HRTF的一个或多个空
间滤波器应用于每个音频分量的经增益调整的音频信号,使得声音被收听者感知为源自声
学空间内的特定位置。在另一个方面,组合音频信号可用于驱动一个或多个扬声器以输出
音频场景。
[0055] 如目前所述,音频编解码器系统29接收至少一个音频分量,估计音频分量的源响度,接收音频分量的目标响度,并且产生包括音频分量的编码版本并且包括编码响度水平
(作为元数据)的比特流。如本文所描述,音频编解码器系统可实时地执行这些操作(中的至
少一些),这意味着当音频分量的音频信号正由编码器侧接收以流式传输到解码器侧20时,
系统可连续地(或周期性地)执行这些操作中的至少一些。编码器侧可在接收到音频节目时
针对所接收的音频节目的片段(例如,一个或多个音频帧)周期性地执行响度测量操作,并
且可将响度更新(经由流式传输的比特流)提供给解码器侧,该解码器侧可执行解码器侧操
作以更新音频场景从而用于空间音频回放。
[0056] 在一个方面,编码器侧10可提供源响度更新,其朝向音频分量的总体响度收敛(或收敛在该总体响度)。具体地,响度测量13a可测量由编码器侧接收的音频分量的实况或实
时事件的至少一部分的响度,并且产生将所测量的响度表示为单个集成响度值的单个响度
值(例如,作为源响度14a)。然而,该值可能不表示整个音频节目的总体响度,因为该值直到实况事件已结束(例如,在编码器侧已接收并处理整个音频节目的点处)才可被计算。在此
之前,响度测量可收集实况音频的(至少一些)样本,该样本在比单个音频帧(5至100毫秒)
更长的时间间隔(诸如几秒)内被发送到编码器,并且计算该间隔的响度度量。在一个方面,
响度测量然后可“集成”或收集回到音频节目开始的若干此类度量,例如,对它们求平均值,以计算源响度更新。源响度更新可以是仅针对在该当前更新之前已经播放或流式传输的声
音节目部分的响度的量度。该测量可被重复(例如,周期性地)以实际上产生“运行平均”源
响度,并且因此,编码器侧将最新的源响度更新(其为单个值)传输到解码器侧,该解码器侧
然后使用响度更新来更新本文中所描述的一个或多个解码器侧操作。需注意,这里所用的
术语“运行平均”不需要执行实际平均,只需要基于收集响度测量结果(包括评估所收集的
响度测量结果的统计结果)来执行从节目开始到当前更新的声音节目的响度的一些度量。
可计算更新(运行平均)并且然后将其作为还包含编码声音节目(编码音频信号)的比特流
的一部分来提供,作为源响度更新字段的多个实例,其中该比特流中的相邻实例在声音节
目的持续时间内相隔一至十秒。
[0057] 作为示例,在接收到第一片段时,编码器侧10可确定片段的一个或多个音频分量的响度水平,并且然后在具有相关联的目标响度水平和所测量的源响度水平的比特流中传
输片段。然后,编码器侧可针对随后接收的片段执行这些操作中的至少一些。在这种情况
下,编码器侧可被配置为基于对音频节目的改变来更新至少一些响度水平(例如,由响度测
量块测量的响度水平)。
[0058] 还需注意,术语“源响度更新”也可被称为运行平均响度或“部分源响度”;在声音节目结束时,最后或最终的源响度更新可表示整个声音节目的总体响度(也称为集成响度或节目响度,例如ITU‑R BS.1770‑4(10/2015)建议算法中描述的测量音频节目响度和真实
峰值音频电平的例子)。
[0059] 如目前所述,编码器侧10可通过执行响度测量来实时地确定音频分量的源响度。在另一个方面,编码器侧可通过从存储器中检索水平来确定一个或多个源响度水平。在这
种情况下,源响度可以是预定义的。在一些方面,该预定义源响度可为跨越音频分量的音频
信号的长度(例如,至少其部分持续时间)的总体响度。
[0060] 在一个方面,编码器侧10可产生包括音频分量及其相关联的响度元数据的音频文件,并且将音频文件存储在存储器中。在这种情况下,编码器侧10可实时地处理音频节目
(例如,当其被接收时),但代替(或者除此之外)将音频节目(当响度水平被测量时)传输到
解码器侧20,编码器侧可将音频节目与所接收的目标响度水平和所测量的响度水平一起存
储。这提供了优于传统音频调平方法的若干优点。例如,响度元数据可在音频文件被传输
(经由比特流)到解码器侧之前被替换。例如,一旦已经产生了音频文件,用户可改变(或更
新)一个或多个音频分量的目标响度水平(例如,在使用交互式音频编辑器应用程序的编辑
过程期间)。因此,使用该元数据解决方案来存储(和传输)响度水平不要求再次读取或写入
完整文件(使用传统方法将要求再次读取或写入完整文件),而是仅要求更新至少一些响度
元数据。
[0061] 此外,该元数据解决方案允许在解码器侧20已经接收(或正在接收)包括由编码器侧编码的音频文件的音频比特流之后(或同时)更新响度水平。具体地,由于比特流16内的
音频分量的音频信号没有被修改(例如,没有被增益调整),因此可以基于接收目标响度的
更新来调整在解码器侧的增益调整。例如,当离线重新计算响度元数据(例如,在编码器侧)
时,可传输已更新的目标响度水平(例如,经由相同或不同的比特流),其可用于控制在解码
器侧的增益调整块18。
[0062] 图4示出了使用本公开的音频编解码器系统29来处理的音频分量的响度水平的示例。基于源响度测量结果44(例如,由图3中的响度测量块执行),该图示出了当音频分量的
源响度43收敛到该分量的总体响度42时的该音频分量的源响度。
[0063] 如本文所描述,编码器侧40可能不知道总体响度42,这是因为音频数据被实时地接收和流式传输。因此,顶部曲线示出了音频分量的总体响度42(例如,其可基于音频分量
的整个长度的离线测量来确定),并且示出了具有若干源响度测量结果44的随时间推移的
源响度43(例如,其可以是外推),其在初始时间T0开始,具有初始响度L0。具体地,源响度43可以是在沿着音频分量的特定持续时间处的音频分量的测量响度,其中随着时间继续,测
量结果可开始向总体响度收敛。因此,当进行更多测量时,源响度的后续测量结果44收敛得
更接近于或等于(音频分量的整个音频信号的)总体响度42,这通过从T0开始的第七测量结
果44比第一测量结果44收敛得更接近于总体响度42来示出。如本文所描述,该收敛可归因
于每个测量结果44为跨越音频分量的一部分的响度的运行平均值,其可在音频分量的开始
T0处(例如,在音频分量被流式传输到解码器侧的开始时间处)开始。因此,在这种情况下,
第一测量结果(最接近T0)可以是初始源响度测量结果(例如,L1),其可以是跨在T0处开始
(例如,音频分量的开始)到稍后持续时间(在获取第一测量结果44处或之前)的音频分量的
持续时间(例如,整个持续时间)的平均响度。其他六个测量结果44可随后通过响度测量来
确定,该响度测量考虑了音频分量的较大已知部分,其中与其他五个单独测量结果相比,所
示出的第六测量结果44是跨音频分量的较大部分的运行平均值。因此,每个测量结果表示
整个音频分量(例如,音频分量的一个或多个音频信号)的一部分内的响度测量结果。
[0064] 在一个方面,每个源响度测量结果44可连同测量结果所属的音频分量的编码部分一起在比特流内传输(例如,作为响度元数据)。例如,第一源响度测量结果44可连同音频分
量的开始部分一起传输到解码器侧41。
[0065] 底部曲线示出了在解码器侧41的源响度43。如图所示,解码器侧在T0接收初始源响度,其具有响度值L1'而不是L1。这是由于编码器延迟45。如本文所描述,由于对传入音频数据进行编码,编码器可具有编码器延迟。在编码器侧的响度测量块(例如,如图3所示)可
使用此延迟作为预测先行来测量在一定时间段(例如,编码器延迟的时间)内的源响度。在
这种情况下,响度测量块获取初始源响度测量结果(例如,如图所示,编码器延迟45部分内
的第一源响度测量结果),并且获取后续测量结果,其被编码为元数据并且传输到解码器
侧。解码器侧使用L1'处的源响度,其收敛得比由编码器侧40处的响度测量块在编码器延迟
45期间获取的初始测量结果L1更接近于总体响度。在一个方面,当解码器侧继续从编码器
侧接收音频数据的(例如,后续)部分时,解码器侧还可接收声音响度的新测量结果,该新测
量结果会聚得更接近于(例如,比先前接收的测量结果)总体响度42。
[0066] 因此,本文所描述的音频编解码器系统将误差量从1)L1处的源响度与总体响度42之间减小到2)L1'处的源响度43与解码器侧处的总体响度42之间以便减小或消除在回放期
间的音频泵送伪影。在一个方面,可将每个后续的源响度测量结果作为源响度更新传输到
解码器侧,如本文所描述。
[0067] 图5是根据一个方面的产生编码音频内容和响度元数据的比特流以用于在音频内容的回放期间调整响度的编码器侧10的框图。该图示出了在解码器侧回放音频内容期间的
在编码器侧针对例如通过互联网流式传输到解码器侧的(音频节目的)音频场景的一个或
多个音频分量执行的操作。具体地,当音频分量被流式传输到解码器侧以用于(例如,立即)
回放时,所执行的操作实时地进行。图6是根据一些方面的在回放期间接收比特流并使用响
度元数据来调整音频内容的响度的解码器侧20的框图。
[0068] 如图所示,这些图包括图3中包括的(并且相对于其进行描述的)若干操作块和若干附加操作块。例如,图5包括来自图3的块13a、13b和15,并且包括附加块,诸如增益调整
25a和25b、组合器65和响度测量26。图6包括来自图3的块17、18a、18b和19,并且包括附加
块,诸如增益调整31。为了简洁起见,将不再描述在图3中描述的这些操作块中的至少一些,诸如响度测量13a和13b、增益调整18a和18b以及组合器19。
[0069] 转向图5,附加块可允许编码器侧10确定响度元数据,该响度元数据描述音频分量11a和11b所关联的音频场景的总体响度。具体地,编码器侧10可确定(至少)包括音频分量
11a和11b的音频场景的音频场景响度27。该响度可基于音频场景的音频分量中的至少一者
的源响度和目标响度来确定(计算或估计)。在一个方面,每个增益调整25可被配置为调整
每个相应音频分量的增益。具体地,每个增益调整可被配置为执行与图3所描述的增益调整
18a和18b类似的操作。例如,增益调整25a可接收音频分量11a的音频信号,并且可基于音频
分量11a的目标响度12a和源响度14a之间的差异来应用标量增益。具体地,编码器侧可基于
差异来确定标量增益,其中编码器侧相应地调整增益调整(例如,增益调整25a)。增益调整
25b可相对于音频分量11b、源响度14b和目标响度12b执行类似操作以从音频分量11b的音
频信号产生经增益调整的音频信号。
[0070] 组合器65可从增益调整25a和25b接收经增益调整的音频信号中的每一者,并且可将信号组合成一个或多个信号。响度测量26可使用由增益调整产生的经增益调整的音频信
号来确定音频场景响度27。具体地,响度测量26可从组合器65接收组合信号,并且可测量信
号的响度作为音频场景响度27。在一个方面,音频场景响度27可为组合音频信号的平均值,
其因此提供与音频分量11a和11b相关联的音频场景(例如,其部分)的响度水平(例如,平均
响度水平)。在一个方面,响度27可为组合音频信号的平均电平。编码器15可接收响度水平
和音频分量,并且产生具有编码音频分量11a和11b(其音频信号)的比特流28,并且将其相
应源响度水平和目标响度水平以及音频场景响度水平14a、12a、14b、12b和27作为元数据添
加到比特流中,该比特流被传输到解码器侧20。
[0071] 在一个方面,本文所述的操作可针对音频节目的实况或实时流式传输来执行。因此,当编码器侧传输音频分量时,其可更新所测量的响度水平中的至少一些(例如,实时
地),如本文所描述。例如,响度测量块中的至少一些(例如,13a、13b和/或26)可计算给定间隔(一个或多个音频样本)的响度的测量结果,并且可周期性地更新作为元数据添加到比特
流28中的至少一些响度水平,同时流式传输音频分量的音频数据。
[0072] 转向图6,此图示出了根据一些方面的接收比特流28并使用响度元数据来调整音频内容的响度(这可在回放期间)的解码器侧20的框图。如图所示,解码器侧20通过比特流
28接收音频分量11a和11b以及其相应的响度水平和目标响度水平。解码器还可接收音频场
景响度水平27,其可定义与所接收的音频分量的音频场景相关联的总体音频场景响度水
平。增益调整31可被配置为从组合器19接收组合音频信号,并且通过基于音频场景响度水
平与音频场景目标响度水平30之间的差异应用标量增益来调整组合音频信号的增益。在一
个方面,目标响度水平30可以是预定义的(或用户定义的),其可被存储在解码器侧设备的
存储器中。在一些方面,目标响度水平30可由解码器侧基于执行解码器侧20的电子设备(例
如,如本文所描述的音频回放设备)的动态范围和/或响度净空来确定(选择)。在一个方面,
由增益调整31应用的标量增益可在回放期间将总体音频场景的响度标准化为音频场景目
标响度水平30。因此,增益调整31可产生具有相对于目标响度水平30的准确响度标准化的
音频场景32。
[0073] 本公开的另一个方面是一种用于将响度元数据添加到符合未来运动图像专家组(MPEG)标准(例如,MPEG‑D DRC标准)的比特流中的方式,如本文所描述,该MPEG标准在本文中被扩展以支持将在编码器侧添加以用于传输到解码器侧以便调整响度的响度水平有效
负载。现有MPEG‑DDRC标准(例如,ISO/IEC,“信息技术‑MPEG音频技术‑第4部分:动态范围控制”,ISO/IEC 23003‑4:2020)定义了loudnessInfoSet()有效负载,其承载提供比特流内
的编码音频数据的响度和峰值的loudnessInfo()有效负载。然而,loudnessInfo()有效负
载不被构造为包括音频数据的其他响度水平,诸如本文描述的源响度和目标响度水平。因
此,本公开提供对MPEG‑D DRC的增强,其允许音频编解码器系统将本文所描述的编码比特
流内的响度水平编码为元数据。
[0074] 图7和图8示出了根据一些方面的对MPEG‑D DRC的比特流语法的增强的表。具体地,这些图示出了包括替换现有标准的有效负载的有效负载的语法的表,其中编码器侧根
据增强的语法创建并编码元数据,而解码器侧根据增强的语法从增强的MPEG‑D DRC比特流
提取元数据。
[0075] 转向图7,该图示出了表1,其包括用于替换现有标准的loudnessInfoSet()的新loudnessInfoSetV8()有效负载的语法。新有效负载包括loudnessInfoAlbumCount作为定
义与比特流的编码音频数据相关联的专辑(例如,一组一个或多个音乐作品)的数量的8位
数据结构(或值),并且包括loudnessInfoTrackCount作为定义曲目(例如,单独音乐作品)
的数量的8位数据结构。loundnessInfoSetV8()包括loudnessInfoV8()有效负载,其指示
比特流内的每个专辑和/或曲目的响度测量。例如,对于每个专辑,loudnessInfoV8()指示
测量整个专辑的响度的“专辑响度”,而对于每个曲目,loudnessInfoV8()将“曲目响度”指示为曲目的单独响度。
[0076] loudnessInfoSetV8()有效负载还包括loudnessInfoOfSources()有效负载,其可具有关于比特流内的至少一些编码音频数据(例如,音频分量)的源响度和/或目标响度
的元数据,如本文所描述。具体地,loudnessInfoSetV8()包括指示比特流内是否存在一个
或多个源响度水平和/或一个或多个目标响度水平(例如,与一个或多个音频分量相关联)
的单个位。如果是,则这指示比特流包括loudnessInfoOfSources()有效负载,如本文所描
述,该有效负载可包括源响度水平和/或目标响度水平。
[0077] 转向图8,该图示出了包括loudnessInfoOfSources()有效负载的语法的表2,该有效负载可根据MPEG‑D  DRC标准被添加到loudnesInfoSetV8()有效负载,其中
loudnessInfoOfSources()包括一个或多个音频分量的响度元数据,如本文所描述的。具
体地,该有效负载提供分别用于每个音频分量的响度标准化的响度水平。如本文所描述,语
法字段包括用于使解码器侧提取通道组的源响度水平和目标响度水平的指令,该通道组包
括在比特流内编码的一个或多个音频通道(或信号)。在一个方面,每个通道组可与至少一
个音频分量相关联(或表示至少一个音频分量)。例如,通道组可包括构成音频分量的一个
或多个音频通道。作为另一个示例,通道组的音频通道可构成两个或更多个音频分量。
[0078] 对语法的描述如下。具体地,解码器确定标志是否已被定义为在比特流中具有指示比特流是否仅具有一个通道组的第一值,诸如hasOneChannelGroupWithAllChannels=
=1。如果是这种情况,则解码器确定包含在比特流内的编码音频通道与一个通道组相关
联。在一个方面,当标志为第一值时,这可指示一个通道组与(例如,音频场景的)一个音频
分量相关联。否则,如果存在多于一个通道组,则解码器根据比特流内定义为
channelGroupCount的8位整数来确定比特流内的通道组的数量。
[0079] 对于由channelGroupCount(8位)数据结构定义的每个通道组,解码器确定与该特定通道组(的一部分)相关联的所有通道。具体地,解码器确定标志hasOneChannelGroupWi
thAllChannels是否已被定义为在比特流中具有第二值(例如,hasOneChannelGroupWithA
llChannels==0)。如果是这种情况,则对于通道组,解码器对属于通道组的以
startChannelIndex(例如,第一通道为“0”)开始的连续通道的数量进行计数。解码器通过
应用channelCount来对该通道组中的以startChannelIndex开始的连续通道的数量进行计
数。解码器通过确定比特流是否包括被定义为具有第一值(诸如moreClusters==1)的标
志来确定是否存在属于该通道组的附加通道。具体地,此标志指示通道组的至少一些通道
何时不是连续通道(例如,由于通道组的通道未以连续顺序进行编码)。如果是这种情况,则
解码器通过使用指令additionalClusterCount来确定任何附加通道。再次,对于该集群,解
码器对属于集群的以startChannelIndex开始(集群的第一通道为“0”)的连续通道的数量
进行计数,并且通过应用channelCount来对(例如,连续)通道的数量进行计数。因此,解码
器被配置为针对与每个编码音频分量相关联的每个通道组提取一个或多个音频通道(或信
号)。
[0080] 在一个方面,在比特流内编码的“通道”中的每一者可包括多通道信号的至少一个通道、音频对象的音频信号、或以HOA格式的音频数据的信号分量。“通道组”可包括一个或多个场景分量,如本文所描述。
[0081] 对于每个通道组,解码器通过确定标志是否在比特流内具有高值(例如,if(sourceLoudnessPresent=1)来确定是否存在源响度,并且通过确定另一个标志是否具有
高值(例如,if(productionLoudnessTargetPresent=1)来确定是否存在目标响度。如果
是,则解码器提取包括与通道组相关联的源响度的bsSourceLoudness作为8位整数,并且提
取包括与通道相关联的目标响度的bsProductionLoudnessTarget作为另一个8位整数。
[0082] 如本文所描述,比特流元数据可包括指示特定通道组的源响度和目标响度的8位整数,并且由此将水平定义为与组相关联的一个或多个音频分量。在一些方面,比特流元数
据可包括每个通道组的一个或多个响度水平。
[0083] 在一个方面,编码器侧可通过将响度水平转换成8位整数并且将整数编码(存储)到比特流中作为响度元数据的部分来产生比特流。具体地,编码器侧可通过将例如基于
ITU‑R BS.1770以LKFS为单位测量的浮点响度值转换成8位整数值来对诸如源响度和目标
响度的两个响度值进行编码,诸如:
[0084] bsLoudness=‑(int)4*loudness
[0085] 其中bsLoudness是存储在比特流中的8位整数并且loudness是以LKFS为单位的响度值。所存储的8位整数是uimsbf(无符号整数MSB优先)格式,其表示步长为0.25的‑63至
0LKFS的范围。在另一个方面,比特流内的响度值可以任何格式进行存储。
[0086] 如本文所描述,本文所描述的编码器侧可由电子设备(诸如媒体内容设备77)执行,并且解码器侧可由另一个电子设备(诸如回放设备79)执行。在另一个方面,任何设备可
执行编码器侧和/或解码器侧操作,如本文所描述。例如,音频输出设备70可执行解码器侧
操作。作为另一个示例,一个设备可执行编码器和解码器操作。
[0087] 图9示出了在一个方面中的可与本文所描述的任何方面一起使用的音频处理系统硬件(例如,媒体内容设备77、回放设备79或音频输出设备70)的框图。该音频处理系统可表
示通用计算机系统或专用计算机系统。需注意,虽然图9示出了可被结合到本文所述的设备
中的一者或多者中的音频处理系统的各种部件,但这仅仅是特定具体实施的一个示例并且
仅仅是为了示出可存在于音频处理系统中的部件的类型。图9并不旨在表示使部件互连的
任何特定架构或方式,因为此类细节与本文所述的各方面并无密切关系。还应理解,还可使
用具有比图9所示更少部件或更多部件的其他类型的音频处理系统。因此,本文所述的过程
不限于与图9的硬件和软件一起使用。
[0088] 如图图9所示,音频处理系统(或系统)90(例如,膝上型计算机、台式计算机、移动电话、智能电话、平板计算机、智能扬声器、头戴式显示器(HMD)、耳机装置,或者用于汽车或其他车辆的信息娱乐系统)包括用于将系统的各种部件互连的一条或多条总线98。如本领
域中所公知地,一个或多个处理器97耦接到总线98。一个或多个处理器可以是微处理器
专用处理器、片上系统(SOC)、中央处理单元、图形处理单元、通过专用集成电路(ASIC)创建的处理器或它们的组合。存储器96可包括使用本领域已知的技术来耦接到总线的只读存储
器(ROM)、易失性存储器和非易失性存储器或它们的组合。相机91、麦克风92、扬声器93和显示器94可耦接到总线。
[0089] 存储器96可连接到总线并且可包括DRAM、硬盘驱动器或闪存存储器,或磁性光驱或磁性存储器,或光驱或者是甚至在系统断电之后仍维护数据的其他类型的存储器系统。
在一个方面,处理器97检索存储在机器可读存储介质(存储器)中的计算机程序指令并执行
这些指令以执行本文所述的操作。
[0090] 尽管未示出,但音频硬件可耦接到一条或多条总线98以便接收待由扬声器93处理并输出的音频信号。音频硬件可包括数模转换器和/或模数转换器。音频硬件还可包括音频
放大器和滤波器。音频硬件还可与麦克风92(例如,麦克风阵列)连接以接收音频信号(无论
是模拟的还是数字的),在必要时将其数字化,并且将信号传送到总线98。
[0091] 网络接口95可与一个或多个远程设备和网络通信。例如,接口可通过已知的技术诸如Wi‑Fi、3G、4G、5G、蓝牙、ZigBee或其他等效技术进行通信。接口可包括可与联网设备诸如服务器(例如,端)和/或其他设备诸如远程扬声器和远程麦克风通信(例如,接收和传
输数据)的有线或无线发射器和接收器。
[0092] 应当理解,本文所公开的方面可利用远离系统的存储器,诸如通过网络接口诸如调制解调器或以太网接口耦接到音频处理系统的网络存储设备。如本领域所熟知的,总线
98可通过各种网桥、控制器和/或适配器彼此连接。在一个方面,一个或多个网络设备可以
耦接到总线98。一个或多个网络设备可为有线网络设备(例如,以太网)或无线网络设备(例
如,WI‑FI、蓝牙)。在一些方面,所描述的各种方面(例如,响度测量、编码、解码、增益调整、信号组合、分析、估计、建模等)可由与一个或多个电子设备(诸如回放设备79)通信的联网
服务器执行。
[0093] 在一个方面,本文所描述的音频解码器装置包括:处理器;和存储器,该存储器在其中存储有指令,该指令将该处理器配置为获得比特流,该比特流包括:音频场景的多个编
码音频分量;针对该多个音频分量中的每个音频分量,由音频编码器装置通过对该音频分
量的音频信号执行响度测量过程来确定的该音频分量的源响度;由该音频编码器装置接收
的该音频分量的目标响度;和由该音频编码器装置通过对多个经增益调整的音频信号执行
该响度测量过程来估计的该音频场景的音频场景响度,其中由该音频编码器装置通过基于
相应音频分量的该源响度和该目标响度应用标准化增益来针对该相应音频分量产生每个
经增益调整的音频信号。
[0094] 在一个方面,该编码器侧可通过从存储器检索该源响度来确定该源响度,其中该源响度可以是可跨越音频信号的长度(例如,该音频信号的该音频内容的播放时间)的总体
响度。在另一个方面,确定音频分量的该源响度可包括将该分量的音频信号应用于响度模
型。在一些方面,该编码器侧可针对不同音频分量确定不同目标响度,或可针对一个或多个
音频分量确定相同目标响度。
[0095] 在另一个方面,该编码器侧可通过将源响度和目标响度两者转换成相应的8位整数并且将该8位整数中的每一者作为编码元数据的一部分存储到比特流中来产生该比特
流。在另一个方面,该比特流可包括具有该元数据的编码音频信号,其中该编码音频信号的
信号电平可与所接收的音频信号的信号电平相同。在一个方面,该目标响度可以是第一目
标响度,并且该比特流可以是第一比特流,其中该编码器侧可在接收到该第一目标响度之
后接收第二目标响度;并且通过对该音频信号进行编码并包括具有该源响度和该第二目标
响度的新元数据来产生第二比特流。在另一个方面,经由用户输入设备接收该第二目标响
度。在一个方面,该音频分量可包括该音频信号所属的若干音频信号,其中该目标响度可与
该音频信号中的至少一者相关联。在另一个方面,该音频信号可呈表示该音频场景内的该
音频分量的高阶高保真度立体声响复制(HOA)格式。
[0096] 本文所述的各个方面可至少部分地在软件中体现。也就是说,响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(诸如DRAM或闪存存储器))中包含的指令序列
而可在音频处理系统中实施这些技术。在各个方面中,可将硬连线电路与软件指令结合地
使用来实现本文所述的技术。因此,这些技术不限于硬件电路与软件的任何指定组合,也不
限于由音频处理系统执行的指令的任何特定源。
[0097] 在本说明书中,某些术语用于描述各个方面的特征。例如,在某些情况下,术语“分析器”、“分离器”、“渲染器”、“估计器”、“组合器”、“合成器”、“控制器”、“定位器”、“空间化器”、“部件”、“单元”、“模块”、“逻辑部件”、“提取器”、“减法器”、“生成器”、“优化器”、“处理器”、“混合器”、“检测器”、“取消器”、“模拟器”、“增益调整”、“响度测量”、“编码器”和“解码器”表示被配置为执行一个或多个过程或功能的硬件和/或软件。例如,“硬件”的示例包括但不限于集成电路诸如处理器(例如,数字信号处理器、微处理器、专用集成电路、微控制器等)。因此,如本领域的技术人员所理解的,可以实现硬件和/或软件的不同组合以执行由上述术语描述的过程或功能。当然,硬件可另选地实现为有限状态机或甚至组合逻辑部件。
“软件”的示例包括应用程序、小应用程序、例程甚至一系列指令形式的可执行代码。如上所述,软件可存储在任何类型的机器可读介质中。
[0098] 已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是音频处理领域技术人员所用的方法,而这些方法
也能最有效地将他们的工作实质传达给该领域其他技术人员。算法在这里并通常是指导致
所希望的结果的操作的自相一致的序列。这些操作是需要对物理量进行物理操纵的那些操
作。然而,应当谨记,所有这些以及类似的术语都与适当的物理量相关联,并且只是应用于
这些量的方便标签。除非另外特别说明,否则从上述讨论中显而易见的是,可以理解在整个
说明书中,使用诸如那些在下文权利要求书中给出的术语的讨论涉及音频处理系统或类似
电子设备的动作和过程,其操纵在系统的寄存器和存储器中被表示为物理(电子)量的数据
以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被
表示为物理量的其他数据。
[0099] 本文所述的过程和块不限于所述的特定示例,并且不限于在本文中作为示例使用的特定次序。相反,可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执
行,以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理
器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行,以执行系统
的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如,FPGA(现场可编程
阵列)和/或ASIC(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如
处理器、存储器、可编程逻辑器件逻辑门中至少一者的电子硬件电路来实现。另外,过程
可在任何组合硬件设备和软件部件中实现。
[0100] 虽然已经在附图中描述和示出了某些方面,但是应当理解,这些方面仅仅是对本发明的说明而非限制,并且本发明不限于所示出和所描述的具体结构和布置,因为本领域
的普通技术人员可以想到各种其他修改型式。因此,要将描述视为示例性的而非限制性的。
[0101] 为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书,申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用
35U.S.C.112(f),除非在特定权利要求中明确使用字词“用于......的装置”或“用
于......的步骤”。
[0102] 众所周知,使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地,应管理和处理个人可识别信息数据,以使无意或未经
授权的访问或使用的风险最小化,并应当向用户明确说明授权使用的性质。
[0103] 如前所述,本公开的一个方面可为其上存储有指令的非暂态机器可读介质(诸如微电子存储器),该指令对一个或多个数据处理部件(这里通常称为“处理器”)进行编程以
执行编码和解码操作、网络操作和音频信号处理操作,如本文所描述。在其他方面,可通过
包含硬连线逻辑的特定硬件部件来执行这些操作中的一些操作。另选地,可通过所编程的
数据处理部件和固定硬连线电路部件的任何组合来执行那些操作。
[0104] 虽然已经在附图中描述和示出了某些方面,但是应当理解,此类方面仅仅是对广义公开的说明而非限制,并且本公开不限于所示出和所述的具体结构和布置,因为本领域
的普通技术人员可以想到各种其他修改型式。因此,要将描述视为示例性的而非限制性的。
[0105] 在一些方面,本公开可包括语言例如“[元素A]和[元素B]中的至少一者”。该语言可以是指这些元素中的一者或多者。例如,“A和B中的至少一者”可以是指“A”、“B”、或“A和B”。具体地讲,“A和B中的至少一者”可以是指“A中至少一者和B中至少一者”或者“至少A或B任一者”。在一些方面,本公开可包括语言例如“[元素A]、[元素B]、和/或[元素C]”。该语言可以是指这些元素中任一者或其任何组合。例如,“A、B和/或C”可以是指“A”、“B”、“C”、“A和B”、“A和C”、“B和C”或“A、B和C”。