个性化音频的智能访问转让专利
申请号 : CN201910622219.8
文献号 : CN110364190B
文献日 : 2021-03-12
发明人 : C·费尔奇 , A·格罗舍尔
申请人 : 杜比国际公司
摘要 :
权利要求 :
1.一种用于从编码比特流渲染音频节目的方法,所述编码比特流包括用于所述音频节目的音频节目帧的对应序列的容器的序列,其中所述容器的序列中的第一容器包括用于音频节目帧的呈现数据和用于所述音频节目中包含的多个子流的多个子流实体,并且其中每个子流实体包含对象通道音频数据和对象相关元数据,所述方法包括:从编码比特流的用于音频节目帧的容器提取呈现数据,其中所述呈现数据指示音频节目的呈现,并且其中所述呈现包括得自所述第一容器中包含的多个子流实体的要被同时呈现的子流实体集合;以及
通过基于所述呈现数据从所述比特流中包含的容器序列中的第一容器中的一组对象通道子流实体提取对象通道音频数据和与所述子流实体集合对应的对应对象相关元数据,并渲染所提取的对象通道音频数据和对应对象相关元数据,来渲染所述音频节目,其中,子流实体中的元数据指示呈现环境中的要从其渲染对应的对象通道音频数据的位置,并且其中,所述对象通道音频数据指示音频信号集合中的至少一些音频信号的音频内容。
2.一种用于从编码比特流渲染音频节目的系统,所述编码比特流包括用于所述音频节目的音频节目帧的对应序列的容器的序列,其中所述容器的序列中的第一容器包括用于音频节目帧的呈现数据和用于所述音频节目中包含的多个子流的多个子流实体,并且其中每个子流实体包含对象通道音频数据和对象相关元数据,所述系统包括:解码器,所述解码器用于从用于编码比特流的音频节目帧的容器提取呈现数据,其中所述呈现数据指示音频节目的呈现,并且其中所述呈现包括得自所述第一容器中包含的多个子流实体的要被同时呈现的子流实体集合,其中所述解码器基于所述呈现数据从所述比特流中包含的容器序列中的第一容器中的一组对象通道子流实体提取对象通道音频数据和与所述子流实体集合对应的对应对象相关元数据,其中子流实体中的元数据指示呈现环境中的要从其渲染对应的对象通道音频数据的位置,并且其中,所述对象通道音频数据指示音频信号集合中的至少一些音频信号的音频内容;以及
渲染子系统,所述渲染子系统用于基于所提取的对象通道音频数据和与所述子流实体集合对应的元数据,来渲染所述音频节目。
3.一种非暂时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使得计算机执行根据权利要求1所述的方法。
4.一种用于从编码比特流渲染音频节目的设备,包括:处理器,以及
非暂时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使得处理器执行根据权利要求1所述的方法。
说明书 :
个性化音频的智能访问
技术领域
背景技术
得个性化音频节目不需要的部分不能容易地从包含这样的个性化音频节目的比特流中去
除。
和/或哪些对象通道)是个性化音频节目所需要的。此外,剥离个性化音频节目所不需要的
比特流的部分通常需要显著大量的计算量。特别地,可能需要对于给定的回放场景/给定的
个性化音频节目所不需要的比特流的部分进行解码。然后可能需要在回放期间使比特流的
这些部分静音,以便生成个性化音频节目。此外,可能不能从比特流高效地生成子比特流,
其中子比特流仅包括个性化音频节目所需的数据。
发明内容
一容器包括用于基于对象的音频节目的多个子流的多个子流实体(entity)。此外,第一容
器包括呈现(presentation)部分。该方法包括确定指示一组音频信号中的至少一些音频信
号的音频内容的一组对象通道,其中该组对象通道包括对象通道帧的集合的序列。该方法
还包括提供或确定用于该组对象通道的一组对象相关元数据,其中该组对象相关元数据包
括对象相关元数据帧的集合的序列。基于对象的音频节目的第一音频节目帧包括该组对象
通道帧的第一组对象通道帧和对应的第一组对象相关元数据帧。此外,该方法包括将第一
组对象通道帧和第一组对象相关元数据帧插入到第一容器的多个子流实体的对应的一组
对象通道子流实体中。另外,该方法包括将呈现数据插入呈现部分,其中呈现数据指示至少
一个呈现。该呈现包括得自所述多个子流实体中的要被同时呈现的一组子流实体。
器包括所述基于对象的音频节目的第一音频节目帧。第一音频节目帧包括一组对象通道帧
的第一组对象通道帧和对应的第一组对象相关元数据帧。第一组对象通道帧指示一组音频
信号中的至少一些音频信号的音频内容。第一容器包括用于所述基于对象的音频节目的多
个子流的多个子流实体。多个子流实体分别包括用于所述第一组对象通道帧的一组对象通
道子流实体。第一容器还包括具有呈现数据的呈现部分,其中呈现数据指示所述基于对象
的音频节目的至少一个呈现。呈现包括要被同时呈现的得自所述多个子流实体中的一组子
流实体。
且其中呈现包括要被同时呈现的得自多个子流实体的一组子流实体。此外,该方法包括基
于呈现数据从第一容器的一组对象通道子流实体提取一个或多个对象通道帧和对应的一
个或多个对象相关元数据帧。
列。容器序列中的第一容器包括用于该基于对象的音频节目的多个子流的多个子流实体。
第一容器还包括呈现部分。该系统被配置用于确定指示一组音频信号中的至少一些音频信
号的音频内容的一组对象通道,其中该组对象通道包括对象通道帧的集合的序列。此外,该
系统被配置用于为该组对象通道确定一组对象相关元数据,其中该组对象相关元数据包括
对象相关元数据帧的集合的序列。基于对象的音频节目的第一音频节目帧包括该组对象通
道帧中的第一组对象通道帧和对应的第一组对象相关元数据帧。另外,该系统被配置用于
将所述第一组对象通道帧和所述第一组对象相关元数据帧插入所述第一容器的所述多个
子流实体的相应的一组对象通道子流实体中。此外,该系统被配置用于将呈现数据插入所
述呈现部分中,其中所述呈现数据指示至少一个呈现,并且其中至少一个呈现包括要被同
时呈现的所述多个子流实体中的一组子流实体。
取呈现数据,其中呈现数据指示个性化音频节目的呈现,并且其中呈现包括要被同时呈现
的得自多个子流实体的一组子流实体。此外,该系统被配置用于基于呈现数据从第一容器
的一组对象通道子流实体提取一个或多个对象通道帧和对应的一个或多个对象相关元数
据帧。
所有方面可以任意组合。特别地,权利要求的特征可以以任意方式彼此组合。
附图说明
具体实施方式
生成应当以相对低的计算复杂度来执行。此外,包括通用音频节目的比特流应当展现相对
低的比特率。
解码器7,对象处理子系统9,控制器10和渲染子系统11。在所示系统的变型中,省略了一个
或多个元件,或者包括附加的音频数据处理单元。通常,元件7,9,10和11被包括在回放和/
或解码系统(例如,终端用户的家庭影院系统)中。
广播者操作的制作单元3被配置为接受PCM样本作为输入并且输出指示音频内容的基于对
象的音频节目。该节目通常是或包括指示音频内容和呈现数据的编码(例如,压缩)音频比
特流,该呈现数据允许从比特流中导出不同的个性化音频节目。指示音频内容的编码比特
流的数据在本文中有时被称为“音频数据”。从单元3输出的基于对象的音频节目可指示
(即,可包括)音频数据的多个扬声器通道(扬声器通道的“床”),音频数据的多个对象通道,
以及对象相关的元数据。音频节目可以包括呈现数据,该呈现数据可以用于选择扬声器通
道和/或对象通道的不同组合,以便生成不同的个性化音频节目(其也可以被称为不同的体
验)。作为示例,基于对象的音频节目可以包括主混合,其继而包括指示扬声器通道床的音
频内容,指示至少一个用户可选择对象通道(以及可选的至少一个其他对象通道)的音频内
容,以及与每个对象通道相关联的对象相关元数据。该节目还可以包括至少一个副混合,其
包括指示至少一个其他对象通道(例如,至少一个用户可选择对象通道)的音频内容和/或
对象相关元数据。音频节目可以指示一个或多个扬声器通道床,或不指示床。例如,音频节
目(或特定混合/呈现)可以指示两个或更多个扬声器通道床(例如,5.1通道中立人群噪声
床,2.0通道主队人群噪声床,和2.0通道客队人群噪声床),包括至少一个用户可选择的床
(其可以使用用于用户选择对象通道内容或配置的用户接口而被选择)和默认床(其将在用
户没有选择另一个床的情况下被渲染)。可以通过指示回放系统的扬声器组的配置(例如,
初始配置)的数据来确定默认床,并且可选地,用户可以选择将替代默认床被渲染的另一
床。
多个被接受的元素)。对象处理子系统9被耦合以(从解码器7)接收所传送的音频节目的经
解码的扬声器通道,对象通道和对象相关的元数据。子系统9被耦合和配置为向渲染子系统
11输出由音频节目指示的对象通道的全集的所选子集、以及相应的对象相关元数据。子系
统9通常还被配置为使来自解码器7的经解码的扬声器通道未改变地通过(到达子系统11)。
指示条件和/或约束)来确定。这样的规则可以由音频节目的对象相关元数据和/或由(例
如,从控制器10或另一外部源)赋予子系统9的其他数据(例如,指示回放系统的扬声器阵列
的能力和组织的数据)来确定和/或通过预配置(例如,编程)子系统9来确定。控制器10(经
由由控制器10实现的用户接口)可以向用户提供(例如,在触摸屏上显示)对象和“床”扬声
器通道内容的可选择“预设”混合或呈现的菜单或控制板(palette)。可选择预设混合或呈
现可以由包括在音频节目内的呈现数据确定,并且还可能由子系统9实现的规则(例如,子
系统9已经被预先配置来实现的规则)来确定。用户通过向控制器10输入命令(例如,通过致
动其触摸屏)来从可选择混合/呈现中进行选择,并且作为响应,控制器10将对应的控制数
据赋予子系统9。
所确定的音频对象(例如,默认对象,和/或已经作为使用控制器10的用户交互的结果被选
择的用户选择的对象)通过使用与每个所选对象相关联的从子系统9输出的渲染参数(例
如,空间位置和水平的用户选择值和/或默认值)来映射到可用的扬声器通道。至少一些渲
染参数可以由从子系统9输出的对象相关元数据来确定。渲染系统11还接收子系统9通过的
扬声器通道的床。通常,子系统11是智能混音器,并且被配置为确定可用扬声器的扬声器馈
送,该确定包括将一个或多个选择的(例如,默认选择的)对象映射到多个单独的扬声器通
道中的每一个,并且将对象与由节目的扬声器通道床的每个对应扬声器通道指示的“床”音
频内容进行混合。
101,102和103,被定位为捕获要包括在音频节目中的音频内容,并且它们的输出耦合到音
频控制台104的输入。音频节目可以包括指示观众赛事(例如,足球或橄榄球比赛,汽车或摩
托车比赛或另一个体育比赛)中的或者在该处的气氛和/或对于其的评论的交互音频内容。
音频节目可以包括多个音频对象(包括用户可选择对象或对象集合,并且通常还包括在用
户没有进行对象选择的情况下将被渲染的对象的默认集合)和音频节目的通道扬声器的混
合(或“床”)。扬声器通道的床可以是可以包括在不包括对象通道的传统广播节目中的类型
的扬声器通道的常规混合(例如,5.1通道混合)。
器通道的床)。在操作中,麦克风的另一子集(例如,麦克风102和103,以及可选地、其输出耦
合到音频控制台104的其他麦克风)捕获要被编码和传送作为节目的对象通道的音频(例
如,人群噪声和/或其它“对象”)。例如,图2的系统的麦克风阵列可以包括:被实现为声场麦
克风并且永久地安装在体育场中的至少一个麦克风(例如,麦克风100),指向支持一个队
(例如,主队)的观众的位置的至少一个立体声麦克风(例如,被实现为Sennheiser MKH416
麦克风或另一立体声麦克风的麦克风102),以及指向支持另一队(例如,客队)的观众的位
置的至少一个其他立体声麦克风(被实现为Sennheiser MKH416麦克风或另一立体声麦克
风的麦克风103)。
馈送的第一接收者。赛事车生成基于对象的音频节目(待广播),这包括对来自麦克风的音
频内容进行编码以供作为音频节目的对象通道传送,生成对应的对象相关元数据(例如,指
示每个对象应当在该处被渲染的空间位置),并且将这样的元数据包括在音频节目中,和/
或对来自一些麦克风的音频内容进行编码以便作为音频节目的扬声器通道的床来传送。
音频节目可以与视频内容(例如,来自定位在体育场中的摄像机)组合(例如,在子系统108
中),以生成组合音频和视频信号,该信号然后被编码(例如,通过编码器110),从而生成编
码的音频/视频信号以供广播(例如,通过图1的传送子系统5)。应当理解,解码和渲染这种
编码的音频/视频信号的回放系统将包括用于解析所传送的音频/视频信号的音频内容和
视频内容的子系统(在图中未具体示出),以及用于解码和渲染音频内容的子系统,以及用
于解码和渲染视频内容的另一子系统(图中未具体示出)。
对象通道(标记为“2.0主队”)的音频内容、例如指示来自出席赛事的客队球迷的人群噪声
的立体声对象通道(标记为“2.0客队”)的音频内容、例如指示来自主队的城市的播音员的
评论的对象通道音频内容(标记为“1.0comm1”)、例如指示来自客队的城市的播音员的评论
的对象通道音频内容(标记为“1.0comm2”)、以及例如指示当比赛用球被体育赛事参与者击
中时所产生的声音的对象通道音频内容(标记为“1.0踢球”)。
通道的集合中,以生成指示对象通道(和/或对象通道集合)的对象相关元数据,并且将对象
通道(和/或对象通道集合)、对象相关元数据和扬声器通道床(从来自控制台104的音频流
确定)编码为基于对象的音频节目(例如,编码为AC-4比特流的基于对象的音频节目)。作为
替代,编码器110可以被配置为生成基于对象的音频节目,其可以被编码,例如编码为AC-4
比特流。在这种情况下,对象处理子系统106可以专注于产生音频内容(例如,使用Dolby E+
格式),而编码器110可以专注于产生用于发射或分发的比特流。
示所选择的对象通道和扬声器通道的混合/呈现),使得回放声音可以由控制台104和子系
统106的操作者监视(如图2的“监视路径”所指示的)。
和视频信号。子系统108的输出和子系统110的输入之间的接口可以是高清晰度串行数字接
口(“HD-SDI”)。在操作中,编码器110对子系统108的输出进行编码,从而产生编码音频/视
频信号以用于广播(例如,通过图1的传送子系统5)。
如,所有呈现可以包括公共的扬声器通道床,但是呈现的对象通道(和/或由呈现确定的可
选择对象通道的菜单,和/或用于渲染和混合对象通道的可选或不可选渲染参数)可以根据
呈现而不同。
或条件。例如,DRM层级可以被实现为允许用户对包括在基于对象的音频节目中的一组对象
通道进行分层访问。如果用户支付更多的钱(例如,给广播公司),则用户可以被授权来解
码,选择和渲染音频节目的更多对象通道。
和27,它们如图所示地耦合。在一些实施方式中,图3系统中的元件20,22,24,25,26,27,29,
31和33可以被实现为机顶设备。
器通道的“床”)。音频节目还指示至少一个用户可选择对象通道(以及可选地至少一个其他
对象通道)和对应于每个对象通道的对象相关元数据。每个对象通道指示音频对象,因此为
了方便起见,对象通道在本文中有时被称为“对象”。音频节目可以包括在指示音频对象、对
象相关元数据和/或扬声器通道床的AC-4比特流内。通常,各个音频对象是单声编码或立体
声编码的(即,每个对象通道指示对象的左通道或右通道,或指示对象的单声通道),床可以
是传统的5.1混合,并且解码器20可以被配置为同时解码预定数量(例如16个或更多个)的
音频内容通道(包括例如床的六个扬声器通道,以及例如十个或更多个对象通道)。输入比
特流可以指示特定数量(例如,多于十个)的音频对象,并且并非所有输入比特流可能需要
被解码以实现特定混合/呈现。
流可以包括多个子流,其中子流指示扬声器通道床或一个或多个对象通道。此外,比特流可
以包括(例如,包括在比特流的呈现部分内的)呈现数据,其中呈现数据可以指示一个或多
个不同的呈现。呈现可以定义子流的特定混合。换句话说,呈现可以定义扬声器通道床和/
或一个或多个对象通道,它们要混合在一起以便提供个性化音频节目。
应于音频通道)。作为示例,子流411可以包括扬声器通道421的床,并且子流414可以包括对
象通道424。此外,每个子流411,412,413,414可以包括与音频数据421,424相关联并且可以
用于渲染相关联的音频数据421,424的元数据431,434(例如,默认元数据)。作为示例,子流
411可以包括扬声器相关的元数据(用于扬声器通道421的床),并且子流414可以包括对象
相关的元数据(用于对象通道424)。另外,子流411,412,413,414可以包括替代元数据441,
444,以便提供用于渲染相关联的音频数据421,424的一个或多个替代方式。
401的所选子流411的元数据431,441(例如,默认元数据431或一个替代元数据441)。在所示
示例中,呈现401描述了包括子流411,412,414的个性化音频节目。
可以容易地选择特定呈现401所需的一个或多个子流411,412,413,414,而无需对通用的基
于对象的音频节目的完整比特流进行解码。此外,再复用器(图3中未示出)可以被配置为从
完整比特流中容易地提取一个或多个子流411,412,413,414,以便生成用于特定呈现401的
个性化音频节目的新比特流。换句话说,从具有相对大量的渲染401,402,403的比特流,可
以高效地生成承载减少数量的呈现的新比特流。可能的情况是具有相对大量的呈现的相对
大的比特流到达STB。STB可以专注于个性化(即,选择呈现),并且可以被配置为重新封装单
一呈现比特流(不解码音频数据)。单一呈现比特流(和音频数据)然后可以在适当的远程解
码器,例如,在AVR(音频/视频接收器)内或在诸如平板PC的移动家庭设备内,被解码。
子流411,412,414(扬声器通道,对象通道和相关联的元数据)之后,解码器可以对(例如,仅
仅)所提取的子流411,412,414执行任何必要的解码。
解码器或接收器系统20可以容易地访问比特流的所需部分,而不需要深入解析比特流的其
他部分。这例如还使得能够实现如下的可能性:仅将比特流的所需部分转发到另一设备,而
不需要重新构建整个结构或甚至解码和编码比特流的子流411,412,413,414。特别地,可以
提取从比特流导出的简化结构。
他元件兼容的用户接口(例如,iPad App)的手持处理设备(例如,iPad)。用户接口可以向用
户提供(例如,在触摸屏上显示)对象和/或“床”扬声器通道内容的可选呈现401,402,403的
菜单或控制板(例如“预设”混合)。呈现401,402,403可以与菜单或控制板内的名称标签一
起被提供。可选择的呈现401,402,403可以由比特流的呈现数据确定,并且可能还由子系统
22实现的规则(例如,子系统22已经被预先配置来实现的规则)来确定。用户可以通过向控
制器23输入命令(例如,通过激活其触摸屏)来从可选择的呈现中进行选择,并且作为响应,
控制器23可以向子系统22赋予相应的控制数据。
且向子系统22输出解码扬声器通道。响应于基于对象的音频节目,并且响应于来自控制器
23的指示所选择的呈现401的控制数据,解码器20解码(如果必要的话)所选择的对象通道,
并且向子系统22输出所选择的(例如解码的)对象通道(每个通道可以是脉冲编码调制或
“PCM”比特流),以及与所选择的对象通道相对应的对象相关元数据。
(“评论-1单声”),指示来自客队城市的播音员的评论的对象通道(“评论-2单声”),指示来
自处于体育赛事的主队的球迷的人群噪声的对象通道(“球迷(主队)”),指示当比赛用球被
体育赛事参与者击中时所产生的声音的左和右对象通道(“球声立体声”),以及指示特殊效
果的四个对象通道(“效果4x单声”)。“评论-1单声”,“评论-2单声”,“球迷(主队)”,“球声立
体声”和“效果4x单声”对象通道中的任何一个可被选择作为呈现401的一部分,它们中的每
个所选择的将从子系统22传递到渲染子系统24(在解码器20中经历任何必要的解码之后)。
统22的控制数据所指示的)和/或子系统22已经被编程或以其它方式配置为实现的规则(例
如,指示条件和/或约束)来确定。这样的规则可以由节目的对象相关元数据和/或由(例如,
从控制器23或另一外部源)赋予子系统22的其他数据(例如,指示回放系统的扬声器阵列的
能力和组织的数据)确定,和/或通过预配置(例如,编程)子系统22确定。如上所述,比特流
可以包括提供对象和“床”扬声器通道内容的一组可选“预设”混合(即呈现401,402,403)的
呈现数据。子系统22通常使得来自解码器20的未改变的解码的扬声器通道通过(到子系统
24),并处理被赋予的对象通道中所选的通道。
音频处理子系统25,26和27中的一个或多个可以在子系统24的输出上实现后处理。
值和/或默认值)映射到可用的扬声器通道。空间渲染系统24还接收子系统22通过的解码的
扬声器通道床。通常,子系统24是智能混合器,并且被配置为确定可用扬声器的扬声器馈
送,该确定包括将一个,两个或多于两个的选择的对象通道映射到多个单独的扬声器通道
中的每一个,并且将选择的对象通道与由节目的扬声器通道床的每个对应的扬声器通道指
示的“床”音频内容相混合。
列在任何表观空间位置(在三维体积中)渲染节目的至少一个对象的渲染参数。例如,对象
通道可以具有对应的元数据,该对应的元数据指示要在该处渲染(由对象通道指示的)对象
的视空间位置的三维轨迹。轨迹可以包括“地板”位置的序列(在播放环境的假设位于地板
上的扬声器的子集的平面中或者另一水平平面中),以及“地板上”位置的序列(每个位置通
过驱动假设位于回放环境的至少一个其他水平平面中的扬声器的子集来确定)。在这种情
况下,可以根据本发明执行渲染,使得可以驱动扬声器发出(由相关对象通道确定的)声音,
该声音将被感知为从包含该轨迹的三维空间中的对象位置序列发出,与由“床”音频内容确
定的声音混合。子系统24可以被配置为实现这样的渲染或其步骤,其中渲染的剩余步骤由
下游系统或设备(例如,图3的再现子系统35)执行。
这种处理的示例包括智能均衡或(在立体声输出的情况下)扬声器虚拟化处理。
的7.1阵列的情况下,系统可以输出确定用于该阵列的扬声器的扬声器馈送的PCM比特流
(在子系统24中生成),或者该比特流的后处理版本(在DAP 25生成)。对于另一示例,在用户
的回放系统包括5.1扬声器阵列的情况下,系统可以输出确定用于该阵列的扬声器的扬声
器馈送的PCM比特流(在子系统24中生成),或者该比特流的后处理版本(在DAP 26中生成)。
作为另一示例,在用户的回放系统仅包括左和右扬声器的情况下,系统可以输出确定用于
左和右扬声器的扬声器馈送的PCM比特流(在子系统24中生成),或者该比特流的后处理版
本(在DAP 27中生成)。
流(例如,AC-4或AC-3比特流),并且所得到的编码(压缩)AC-3比特流可以从系统输出。再编
码子系统33被配置为将从DAP 27输出的PCM比特流(指示5.1扬声器阵列的馈送)再编码为
编码比特流(例如,AC-4或AC-3比特流),并且所得到的编码(压缩)比特流可以从系统输出。
混合)、对应的对象相关元数据和扬声器通道床的数据(从子系统22输出),并且被配置为再
编码(和/或格式)这样的数据以供子系统35渲染。可以在AVR或者条形音箱(soundbar)(或
者子系统29下游的其他系统或者设备)中实现的子系统35被配置为响应于子系统29的输出
生成用于可用的回放扬声器(扬声器阵列36)的扬声器馈送(或者确定扬声器馈送的比特
流)。例如,子系统29可以被配置为通过将指示所选(或默认)音频对象、对应元数据和扬声
器通道床的数据再编码为用于在子系统35中渲染的合适格式来生成编码音频,以及以编码
音频(例如,经由HDMI链路)传输到子系统35。响应于由子系统35产生(或由子系统35的输出
确定)的扬声器馈送,可用扬声器36将发出指示扬声器通道床和所选(或默认)对象的混合
的声音,其中对象具有由子系统29的输出的对象相关元数据确定的表观源位置。当包括子
系统29和35时,可选地从系统中省略渲染子系统24。
呈现401的一个或多个子流411,412,413,414,并且重建(通常仅)包括该一个或多个子流
411,412,413,414的新比特流。可以在不需要实际解码和再编码一个或多个子流411,412,
413,414的情况下执行新比特流的提取和重建。因此,可以以资源高效的方式来执行用于特
定呈现401的新比特流的生成。
择,如由图3的系统的子系统22和控制器23执行)在第一子系统(例如,在机顶设备中实现的
图3的元件20,22和23,或机顶设备和手持控制器)实现,并且渲染的另一部分(例如,响应于
第一子系统的输出生成扬声器馈送或确定扬声器馈送的信号的沉浸式渲染)在第二子系统
(例如子系统35,在AVR或条形音箱中实现)中实现。可以提供延迟管理以应对执行音频渲染
(以及对应于正在被渲染的音频的视频的任何处理)的部分的不同时间和不同子系统。
频节目的特定时间段(例如,20毫秒的音频节目)。因此,容器501的序列中的每个容器501可
以携带用于通用音频节目的帧序列的帧的数据。用于帧的数据可以包括在容器501的帧实
体502内。可以使用比特流500的语法元素来识别帧实体。
外,帧实体502可以包括呈现部分510(也称为内容表,TOC,部分)。呈现部分510可以包括TOC
数据511,其可以指示包括在呈现部分510内的多个呈现401,402,403。此外,呈现部分510可
以包括一个或多个呈现实体512,其携带分别用于定义一个或多个呈现401,402,403的数
据。子流实体520可以包括用于携带子流411的帧的音频数据421,424的内容子实体521。此
外,子流实体520可以包括用于携带子流411的帧的对应元数据431,441的元数据子实体
522。
频节目的音频节目帧的对应序列的容器501的序列。换句话说,基于对象的音频节目的每个
帧(即,每个时间段)可以被插入到可以由比特流格式定义的容器序列的容器中。可以使用
比特流格式的特定容器语法元素来定义容器。作为示例,比特流格式可以对应于AC-4比特
流格式。换句话说,要产生的比特流500可以是AC-4比特流。
个子流实体520。如上所述,音频节目可以包括多个子流411,412,413,414,其中每个子流
411,412,413,414可以包括扬声器通道421的床或对象通道424或两者。比特流格式可以为
使得容器501的序列中的每个容器501提供用于对应子流411,412,413,414的专用子流实体
520。具体地,每个子流实体520可以包括与对应子流411,412,413,414的帧相关的数据。子
流411,412,413,414的帧可以是扬声器通道421的床的帧,其在这里被称为扬声器通道帧。
作为替代,子流411,412,413,414的帧可以是对象通道的帧,其在本文中被称为对象通道
帧。子流实体520可以由比特流格式的对应语法元素定义。
以用于为可以从(通用)基于对象的音频节目生成的不同的个性化音频节目定义不同的呈
现401,402,403。
描述的系统捕获的音频内容。该组对象通道424可以包括多个对象通道424。此外,该组对象
通道424包括对象通道帧集合的序列。换句话说,每个对象通道包括一系列对象通道帧。因
此,该组对象通道包括对象通道帧集合的序列,其中在特定时刻的一组对象通道帧包括在
该特定时刻的该组对象通道的对象通道帧。
话说,对象通道的对象相关元数据被分割成对象相关元数据帧的序列。因此,用于对应的对
象通道集合的对象相关元数据的集合包括对象相关元数据帧的集合的序列。
444的不同变体。作为示例,可以提供对象相关元数据434的默认变体和对象相关元数据444
的一个或多个替代变体。通过这样做,可以模拟不同的视角(例如,体育场内的不同位置)。
作为替代或附加地,扬声器通道421的床可以设置有扬声器相关元数据431,441的不同变
体。作为示例,可以提供扬声器相关元数据431的默认变体和扬声器相关元数据441的一个
或多个替代变体。通过这样做,可以限定扬声器通道421的床的不同旋转。类似于对象相关
元数据,扬声器相关元数据也可以是时变的。
集合的序列的对应的第一组对象相关元数据帧。
象的音频节目的每个对象通道421生成子流411,412,413,414。每个子流411,412,413,414
可以在比特流500内经由携带子流411,412,413,414的相应子流实体520被识别。作为其结
果,不同的子流411,412,413,414可以由解码器7,20以资源有效的方式被识别并且可以被
提取,而不需要对完整的比特流500和/或子流411,412进行解码413,414。
一个呈现401可以包括或可以指示得自多个子流实体520的要被同时渲染的一组子流实体
520。这样,呈现401可以指示基于对象的音频节目的子流411,412,413,414中的哪一个或多
个将被选择用于生成个性化音频节目。如上所述,呈现401可以识别子流411,412,413,414
的全集的子集(即,小于子流411,412,413,414的总数)。
5.1通道,5.1.2通道,7.1通道和/或7.1.4通道。扬声器通道421的床可以用于提供个性化音
频节目的基础。此外,一个或多个对象通道424可以用于提供个性化音频节目的个性化变
体。
将第一扬声器通道帧插入到第一容器501的多个子流实体520的扬声器通道子流实体520
中。呈现部分510的呈现401然后可以包括或指示扬声器通道子流实体520。作为替代或附加
地,呈现401可包括或可指示得自该组对象通道子流实体的一个或多个对象通道子流实体
520。
据帧的序列的第一扬声器相关元数据帧插入到扬声器通道子流实体520中。应当注意,扬声
器通道421的多个床可以插入对应的多个扬声器通道子流实体520中。
或多个扬声器通道子流实体520的不同组合、一个或多个对象通道子流实体520和/或元数
据434,444的变体(例如,默认元数据434或替代元数据444)的不同组合。
数据插入呈现部分510。TOC数据可以指示呈现部分510内的不同呈现数据实体512的位置
和/或呈现部分510内包括的不同呈现401,402,403的标识符。因此,TOC数据可以由对应的
解码器7,20使用以高效的方式识别和提取不同的呈现401,402,403。作为替代或者附加地,
用于不同呈现401,402,403的呈现数据实体512可以顺序地包括在呈现部分510内。如果TOC
数据不指示不同的呈现数据实体512的位置,则对应的解码器7,20可以通过顺序地解析不
同的呈现数据实体512来识别和提取不同的呈现401,402,403。这可以是用于用信号通知不
同的呈现401,402,403的比特率高效的方法。
被标识。通过这样做,相应的解码器7,20可以以资源高效的方式识别音频数据和对象通道
或扬声器通道床的对应元数据。
做,可以增加音频节目的个性化程度(例如,收听/观看视角)。
对象通道424的对象相关元数据434,444可以指示呈现环境内的对象通道424将被从其渲染
的位置。对象通道424的位置可以是随时间变化的。作为其结果,用于渲染对象通道424的扬
声器36的组合可以沿着对象通道424的对象通道帧的序列改变,和/或扬声器组合的扬声器
36的平移(panning)可以沿着对象通道424的对象通道帧的序列改变。
以关于扬声器的数量、扬声器的位置和/或关于可以被处理和渲染的音频通道的数量而不
同。示例目标设备配置是具有左扬声器和右扬声器的2.0(立体声)目标设备配置,或者5.1
目标设备配置等。目标设备配置通常包括空间渲染子系统24,如在图3的上下文中所描述
的。
们将用于在特定目标设备配置上渲染呈现401。特别地,目标设备配置数据可以指示用于多
个不同目标设备配置的这样的信息。作为示例,呈现401可以包括具有用于不同目标设备配
置的目标设备配置数据的不同部分。
流组可以用于对诸如大气内容,对话和/或音效的不同音频内容进行分组。呈现401可以指
示子流组。换句话说,呈现401可以通过参考包括要同时渲染的一个、两个或更多个子流的
子流组来识别该一个、两个或更多个子流。因此,子流组提供了用于识别两个或更多个子流
(可能彼此相关联)的高效手段。
示包括在对应子流组内的一个或多个子流411,412,413,414。呈现401(在对应呈现数据实
体512内被定义)可以指示子流组实体,以便将对应的子流组包括到渲染401中。解码器7,20
可以解析呈现数据实体512以识别特定呈现401。如果呈现401参考子流组或子流组实体,则
解码器7,20可以继续解析呈现部分510,以识别包括在呈现部分510的子流组实体内的子流
组的定义。因此,解码器7,20可以通过解析呈现数据实体512并解析呈现部分510的子流组
实体来确定用于特定呈现401的子流411,412,413,414。
用于定义子流组的数据。
考子流组来在呈现401,402,403内高效地识别多个子流411,412,413,414。此外,子流组的
定义可以为内容设计者提供用于控制子流411,412,413,414的组合并且为被控制的子流
411,412,413,414的组合定义子流组的高效手段。
列,其中容器501的序列中的第一容器501包括基于对象的音频节目的第一音频节目帧。第
一音频节目帧包括一组对象通道的第一组对象通道帧和对应的第一组对象相关元数据帧。
该组对象通道可以指示一组音频信号中的至少一些音频信号的音频内容。此外,第一容器
501包括用于基于对象的音频节目的多个子流411,412,413,414的多个子流实体520,其中
多个子流实体520分别包括用于第一组对象通道帧的一组对象通道子流实体520。第一容器
501还包括具有呈现数据的呈现部分510。呈现数据可以指示基于对象的音频节目的至少一
个呈现401,其中至少一个呈现401包括得自多个子流实体520的要被同时呈现的一组子流
实体520。
的多个子流实体520可以包括用于第一扬声器通道帧的扬声器通道子流实体520。
呈现数据可以指示用于个性化音频节目的呈现401。此外,该方法可以包括基于呈现数据从
第一容器501的对象通道子流实体520的集合中提取一个或多个对象通道帧和对应的一个
或多个对象相关元数据帧,以便生成和/或渲染个性化音频节目。取决于比特流的内容,该
方法还可以包括基于呈现数据从第一容器501的扬声器通道子流实体520中提取第一扬声
器通道帧。
特流的部分。作为示例,如果仅需要转发比特流的一部分,则这可以在不转发/处理元数据
的全集和/或音频数据的全集的情况下完成。只有比特流的所需部分需要被处理和转发。可
能仅需要解码器来解析比特流的呈现部分(例如,TOC数据),以便识别包含在比特流内的内
容。此外,比特流可以提供“默认”呈现(例如“标准混合”),其可以由解码器使用以开始渲染
节目而无需进一步解析。另外,解码器仅需要对渲染特定个性化音频节目所需的比特流的
部分进行解码。这是通过将音频数据适当地聚类到子流和子流实体中来实现的。音频节目
可以包括数量可能不受限的子流和子流实体,从而提供具有高度灵活性的比特流格式。
专用集成电路。在所描述的方法和系统中遇到的信号可以存储在诸如随机存取存储器或光
存储介质的介质上。它们可以经由网络(例如无线电网络,卫星网络,无线网络或有线网
络),例如互联网,被传送。使用本公开中描述的方法和系统的典型设备是便携式电子设备
或用于存储和/或渲染音频信号的其他消费设备。
(501)的序列;其中所述容器(501)的序列中的第一容器(501)包括用于该基于对象的音频
节目的多个子流(411,412,413,414)的多个子流实体(520);其中所述第一容器(501)还包
括呈现部分(510);其中所述方法(600)包括
目的第一音频节目帧包括第一组对象通道帧和对应的第一组对象相关元数据帧;
实体(520)。
通道子流实体(520)的不同组合。
频节目的第一音频节目帧包括所述扬声器通道(421)的床中的第一扬声器通道帧;和
包括用于定义子流组的数据。
子流实体(520);和
(501)的序列;其中所述容器(501)的序列中的第一容器(501)包括用于该基于对象的音频
节目的多个子流(411,412,413,414)的多个子流实体(520);其中所述第一容器(501)还包
括呈现部分(510);其中所述系统(3)被配置用于:
第一音频节目帧包括第一组对象通道帧和对应的第一组对象相关元数据帧;
(520)。
子流实体(520);和