用于产生音频元数据质量分数的方法和系统转让专利

申请号 : CN201280057313.X

文献号 : CN103946919B

文献日 : 2016-11-09

一种方法，包括如下步骤：评估与音频比特流(例如，经编码的Dolby Digital(AC‑3)、Dolby Digital Plus、或者Dolby E比特流)关联的至少两个元数据参数，确定各个元数据参数质量值，各个元数据参数质量值中的每一个指示所述至少两个元数据参数中的不同的一个元数据参数的质量(例如，正确性)，以及产生指示元数据分数的数据，其中元数据分数是由各个元数据参数质量值的组合(例如，线性组合或者其它加权组合)确定的值。元数据分数指示所述至少两个元数据参数的总质量(例如，正确性)。另一个方面是一种系统(例如，测试装置或者测量装置，或者另一种测试或者测量产品，或者处理器)，其被配置(例如，编程)为执行所述方法的任何实施例。

1.一种评估音频比特流中包括的至少两个元数据参数的方法，包括如下步骤：接收音频比特流；

评估与音频比特流关联的至少两个元数据参数，包括

对于所述至少两个元数据参数中的每一个元数据参数确定元数据参数质量值，其中所述元数据参数质量值指示对应的元数据参数是否：在编码期间已经由内容创作者正确地设定，或

在音频比特流的编码期间被正确地产生，以及

在音频比特流的分发和传输期间没有改变；以及

基于元数据参数质量值的组合产生元数据分数。

2.根据权利要求1所述的方法，其中所述元数据分数是由各个元数据参数质量值的线性组合确定的值，其中确定元数据参数质量值的步骤包括对元数据参数质量值中的每一个加权以便产生加权的质量值的步骤，并且产生元数据分数的步骤包括对加权的质量值求和以便产生元数据分数的步骤。

3.根据权利要求1所述的方法，其中所述元数据分数是由元数据参数质量值的加权组合确定的值，其中确定元数据参数质量值的步骤包括对元数据参数质量值中的每一个加权以便产生加权的质量值的步骤，并且产生元数据分数的步骤包括对加权的质量值进行组合以便产生元数据分数的步骤。

4.根据权利要求1所述的方法，其中所述元数据分数是从一到五的范围内的数字。

5.根据权利要求1所述的方法，其中所述音频比特流是AC-3比特流、Dolby Digital Plus比特流以及Dolby E比特流之一。

6.根据权利要求5所述的方法，其中所评估的元数据参数之一是与对话的平均水平关联的DIALNORM元数据参数。

7.根据权利要求5所述的方法，其中所评估的元数据参数包括DIALNORM元数据参数以及ACMOD参数。

8.根据权利要求1所述的方法，其中所述音频比特流与整组的所评估的元数据参数关联。

9.根据权利要求1所述的方法，其中

通过广播链递送音频比特流；以及

在所述广播链的至少一级处确定质量值和元数据分数。

10.一种评估音频比特流中包括的至少两个元数据参数的系统，所述系统包括：用于接收音频比特流的输入单元；

子系统，耦接到至少一个输入单元并且被配置为评估至少两个元数据参数，并且包括计算单元，用于对于所述至少两个元数据参数中的每一个元数据参数确定元数据参数质量值，并且用于确定元数据分数，其中所述元数据参数质量值指示对应的元数据参数是否：在编码期间已经由内容创作者正确地设定，或

在音频比特流的编码期间被正确地产生，以及

在音频比特流的分发和传输期间没有改变；其中

所述计算单元被配置为基于元数据参数质量值的组合计算元数据分数。

11.根据权利要求10所述的系统，其中所述元数据分数是由元数据参数质量值的线性组合确定的值，并且所述子系统被配置为对各个元数据参数质量值中的每一个加权以便产生加权的质量值并且对加权的质量值求和以便产生元数据分数。

12.根据权利要求10所述的系统，其中所述元数据分数是由元数据参数质量值的加权组合确定的值，并且所述子系统被配置为对各个元数据参数质量值中的每一个加权以便产生加权的质量值并且对加权的质量值进行组合以便产生元数据分数。

13.根据权利要求10所述的系统，其中所述元数据分数是从一到五的范围内的数字。

14.根据权利要求10所述的系统，其中所述音频比特流是AC-3比特流、Dolby Digital Plus比特流以及Dolby E比特流之一，并且所述元数据参数质量值中的一个元数据参数质量值指示DIALNORM元数据参数的质量，所述DIALNORM元数据参数与对话的平均水平关联。

15.根据权利要求14所述的系统，其中所评估的元数据参数质量值指示DIALNORM元数据参数的质量，并且另一个元数据参数质量值指示ACMOD元数据参数的质量。

用于产生音频元数据质量分数的方法和系统

[0001] 相关申请的交叉引用

[0002] 本申请要求2011年11月22日提交的美国临时申请No.61/562,487的优先权，其整体通过参考被并入于此。

背景技术

[0003] 1、技术领域

[0004] 本发明涉及音频信号处理，并且更特别地涉及与音频数据比特流关联的元数据的评估(assessment)。本发明的一些实施例可用于评估与已经根据被称为Dolby Digital(AC-3)、Dolby Digital Plus和Dolby E的格式之一或者其它编码格式(例如，MPEG-4AAC)被编码的音频数据关联的元数据。Dolby、Dolby Digital、Dolby Digital Plus以及Dolby E是杜比实验室特许公司的商标。

[0005] 2、背景技术

[0006] 典型的音频数据的流(例如，AC-3比特流)包括音频内容(例如，音频内容的一个或更多个通道)以及指示音频内容的至少一个特征的元数据两者。

[0007] 被受让给本发明的受让人且于2009年3月5日公开的Brett G.Crockett的美国专利申请公开No.US2009/0063159A1(“Crockett”)描述了用于检验和校正与AC-3比特流和其它音频数据流关联的元数据的方法和系统。Crockett描述了如下的方法，其用于确定AC-3比特流的“DIALNORM”元数据参数是否正确，(在输出AC-3比特流中)包括指示DIALNORM参数是否正确的验证信息，以及(如果DIALNORM参数不正确)在输出AC-3比特流中包括经校正的版本的DIALNORM参数以及可选地还包括经校正的版本的有关元数据参数(经校正的版本的COMPR和DYNRNG参数)。Crockett(美国专利申请公开No.US2009/0063159A1)的公开内容的整体通过参考被并入于本公开中。

[0008] 出于检测输入音频流中的不正确的元数据并且(在处理器内)校正不正确的元数据使得可以使用如内容创作者所打算的那样的经校正的元数据来回放音频的目的，在Crockett中描述的元数据验证和校正方法意图被实现在处理器(例如，解码器)中。因此将以隐瞒用户的方式执行该方法。用户不会知道输入音频流中的元数据是被确定为正确还是不正确的。相反，本发明(其将典型地被实现在测试或者测量产品中)评估与音频比特流关联的元数据以便产生指示元数据质量的输出(例如，单个数字，被称为“元数据分数”)，以便通知用户(例如，广播员(broadcaster))元数据的质量。根据本发明产生的输出将典型地被用来识别并且解决用来产生和/或传播(disseminate)比特流的系统(例如，广播系统)中的元数据问题。

[0009] 在测试或者测量产品中的典型的实现方式中，本发明的实施例提供指示音频比特流(例如，已经被或者将要被广播或者传播的经编码的音频比特流)中包括的多个元数据参数的质量(例如，正确性(correctness))的输出(例如，指示单个数字的数据)，并且可选地还提供指示关于比特流的两个或更多个元数据参数中的每一个的质量的详细信息的输出。该输出可用于使得用户能够或者帮助用户(例如，广播员)诊断在产生和/或传播比特流的系统(例如，广播链)内何处发生问题。

[0010] 虽然本发明不限于在AC-3编码的音频的情况下使用，但是为了方便起见将在其中它评估AC-3编码的音频比特流的元数据的实施例中描述本发明。AC-3编码的比特流包括元数据以及音频内容的一到六个通道。音频内容是已经使用感知的音频编码被压缩的音频数据。元数据包括意图在改变递送给收听环境的节目的声音中使用的若干音频元数据参数(下面描述)。

[0011] AC-3(也被称为Dolby Digital)编码的细节是公知的并且被陈述在包括以下的许多公开参考文献中：

[0012] ATSC标准A52/A：Digital Audio Compression Standard(AC-3)，Revision A，Advanced Television Systems Committee，2001年8月20日；

[0013] Craig C.Todd等人的“Flexible Perceptual Coding for Audio Transmission thand Storage”，96 Convention of the Audio Engineering Society，1994年2月26日，Preprint3796；

[0014] Steve Vernon的“Design and Implementation of AC-3Coders”，IEEE Trans.Consumer Electronics，Vol.41，No.3，1995年8月；

[0015] Mark Davis的“The AC-3Multichannel Coder”，Audio Engineering Society Preprint3774，95th AES Convention，1993年10月；

[0016] Bosi等人的“High Quality，Low-Rate Audio Transform Coding for Transmission and Multimedia Applications”，Audio Engineering Society Preprint3365，93rd AES Convention，1992年10月；以及

[0017] 美国专利5,583,962、5,632,005、5,633,981、5,727,119和6,021,386。

[0018] Dolby Digital Plus编码的细节被陈述在“Introduction to Dolby Digital Plus，an Enhancement to the Dolby Digital Coding System”，AES Convention Paper6196，117thAES Convention，2004年10月28日中。

[0019] Dolby E编码的细节被陈述在“Efficient Bit Allocation，Quantization，and Coding in an Audio Distribution System”，AES Preprint5068，107th AES Conference，1999年8月以及“Professional Audio Coder Optimized for Use with Video”，AES Preprint5033，107th AES Conference，1999年8月中。

[0020] MPEG-2AAC编码的细节也是公知的并且被陈述在ISO/IEC13818-7：1997(E)“Information technology-Generic coding of moving pictures and associated audio information-，Part7：Advanced Audio Coding(AAC)”，国际标准化组织(1997年4月)；Karlheinz Brandenburg的“MP3and AAC Explained”，AES17th International Conference on High Quality Audio Coding，1999年8月；以及Bosi等人的“ISO/IEC MPEG-2Advanced Audio Coding”，AES preprint 4382，101st AES Convention，1996年10月中。

[0021] AC-3编码的音频比特流的每个帧包含音频内容以及用于数字音频的1536个样本的元数据。对于48kHz的采样率，这代表32毫秒的数字音频或者每秒31.25帧数的速率的音频。

[0022] 每个AC-3帧被分成多个部分，包括：同步信息(SI)部，其包含同步字(SW)以及两个误差校正词中的第一个(CRC1)；比特流信息(BSI)部，其包含大部分元数据；六个音频块(AB0到AB5)，其包含数据压缩的音频内容(并且可以包含元数据)；废弃比特(W)，其包含在音频内容被压缩之后留下的任何未用的比特；辅助(AUX)信息部，其包含更多的元数据；以及两个误差校正词中的第二个(CRC2)。下面更详细地描述AC-3帧以及AC-3帧的多个部分。

[0023] 在AC-3比特流中存在具体地意图在改变递送给收听环境的节目的声音中使用的若干音频元数据参数。元数据参数中的三个元数据参数涉及回放信号水平和动态范围：DIALNORM、COMPR和DYNRNG。

[0024] DIALNORM参数意图指示音频节目中出现的对话的平均水平，并且被用来确定音频回放信号水平。在包括一序列的不同的音频节目片段(每个具有不同的DIALNORM参数)的比特流的回放期间，AC-3解码器使用每个片段的DIALNORM参数以便修改回放水平或者响度(loudness)使得该一序列片段的对话的感知的响度处于一致的水平。一序列经编码的音频项目中的每个经编码的音频片段(项目)(通常)将具有不同的DIALNORM参数，并且解码器将按比例缩放每个项目的水平使得对于每个项目的对话的回放水平或者响度相同或者非常相似，但是这可能要求在回放期间将不同的增益量应用于不同的项目。

[0025] COMPR和DYNRNG参数(有时在下文中被称为“动态范围压缩”或者“动态范围控制”参数)被用来确定音频回放信号的动态范围。COMPR和DYNRNG参数的一个或者两者都不(但是不会是两者)被使用在解码中，这取决于解码模式。

[0026] DIALNORM典型地由用户设定，并且不自动地产生，但是如果用户没有设定值则存在默认DIALNORM值。例如，内容创作者可以利用在AC-3编码器外部的装置进行响度测量并且随后将该结果(指示音频节目的口头对话的响度)传送到编码器以便设定DIALNORM值。因此，存在对内容创作者的依赖来正确地设定DIALNORM参数。COMPR和DYNRNG参数虽然与DIALNORM参数有关但是典型地在编码期间响应于用户设定的DIALNORM参数值以及许多动态范围压缩简档之一(或者没有简档，这导致DIALNORM的应用但是允许再现全动态范围)被自动地计算。

[0027] AC-3比特流的其它元数据参数包括“下混(downmix)”参数(CLEV、CMIXLEV、SLEV、SURMIXLEV、MIXLEVEL和MIXLEVEL2)和指示比特流的音频通道的数量的参数(例如，ACMOD和BSMOD)。下混元数据提供指令给解码器以用于将原始的5.1通道的音频内容下混为更少量的再现通道。

[0028] DIALNORM参数允许在解码AC-3比特流时均匀地再现口头对话，例如，以便在由收听者感知的再现声音中维持口头对话的均匀的主观的水平。再现系统增益变为收听者的对于对话的期望再现声压水平和DIALNORM值两者的函数。AC-3解码器典型地在解码器内在数字域中采用DIALNORM值以便按比例缩放增益，这导致回放增益的调节。

[0029] 存在为什么AC-3比特流中的DIALNORM参数可能不正确的若干不同的原因。首先，如果内容创作者没有设定DIALNORM值，则每个AC-3编码器具有在比特流的产生期间被使用的默认DIALNORM值。这个默认值(通常选作-27dB)可能基本上不同于音频的实际对话响度水平。第二，即使内容创作者测量响度并且相应地设定DIALNORM值，也可能使用不符合推荐的AC-3响度测量方法的响度测量算法或计量器(meter)，导致不正确的DIALNORM值。第三，即使利用由内容创作者正确地测量和设定的DIALNORM值创建了AC-3比特流，它也可能在比特流的传输和/或存储期间变为不正确的值。例如，在电视广播应用中并不罕见的是，要被解码的AC-3比特流被修改并且随后使用不正确的DIALNORM元数据信息被再编码。因此，AC-3比特流中包括的DIALNORM值可能是不正确的或不准确的，并且因此可能对收听体验的质量有负面影响。

[0030] 存在对评估AC-3比特流中的多个参数(例如，DIALNORM值和至少一个其它元数据参数)的质量(例如，评估它们是否已经被正确地设定，以及在分发和传输期间是否没有改变)并且提供指示元数据质量的输出(例如，可由广播员或其它用户用来识别和解决它们的系统中的元数据问题的输出)的方法的需要。更一般地，存在对评估音频比特流中的多个元数据参数是否正确(例如，在编码期间已经被内容创作者正确地设定或正确地产生，以及在分发和传输期间没有改变)以及提供指示元数据参数的质量的输出(例如，可由广播员或其它用户用来识别和解决产生或传播这种比特流的系统中的元数据问题的输出)的方法的需要。

发明内容

[0031] 在一类实施例中，本发明是一种方法，包括如下步骤：(a)评估与音频比特流(例如，经编码的音频比特流)关联的至少两个元数据参数；以及(b)确定各个元数据参数质量值，并且产生指示元数据分数的数据，各个元数据参数质量值中的每一个指示所述至少两个元数据参数中的不同的元数据参数的质量(例如，正确性)，其中元数据分数是由各个元数据参数质量值的组合(例如，线性组合或者其它加权组合)确定的值，并且所述元数据分数指示所述至少两个元数据参数的总质量(例如，正确性)。典型地，元数据参数被包括在音频比特流(例如，经编码的音频比特流)内，所述音频比特流还包括音频数据，并且步骤(a)包括评估所述音频比特流的所述至少两个元数据参数以及所述音频数据的步骤。在一些实施例中，步骤(a)包括评估与音频比特流关联的整组的元数据参数(即，全部元数据参数)的步骤，在步骤(b)中确定的各个元数据参数质量值指示整组中的元数据参数中的每一个的质量，并且元数据分数是由各个元数据参数质量值的加权和(或者其它组合)确定的(并且指示该加权和的)数字。后面的实施例中的每一个测量整组的元数据参数的质量并且产生代表整组的元数据参数的总质量的单个数字(元数据分数)。

[0032] 在一类实施例中，被配置(例如，编程)为执行本发明的方法的一种系统(例如，测试装置或者测量装置，或者其它测试或测量产品，或者处理器)被配置为产生(并且作为输出而断言(assert))指示每个确定的元数据分数(每个元数据分数是作为各个元数据参数质量值的组合(例如，加权组合)的单个数字)的至少一个信号。可选地，该系统被配置为输出指示在执行该方法期间确定的各个元数据参数质量值的至少一个信号。这种系统的输出将可用于向用户(例如，广播员)通知与音频比特流关联的元数据的质量，并且因此帮助用户识别并且解决在产生和/或传播比特流的它们的系统(例如，广播系统)中的元数据问题。典型地，元数据分数指示音频比特流(例如，已经被或者将要被广播或者传播的经编码的音频比特流)中包括的多个元数据参数的质量(例如，正确性)，并且系统的输出可选地还指示关于比特流的两个或更多个元数据参数中的每一个的质量(例如，正确性)的更详细信息(例如，各个元数据参数质量值)。

[0033] 本发明的典型实施例在广播链中的任何级(stage)(或者用于产生和传播比特流的其它系统)处提供用于音频比特流中的多个元数据参数(例如，整组的元数据)的质量的度量。广播员(例如，父母(parent)广播网的操作者)可以使用根据本发明确定的元数据分数(以及可选地还使用各个元数据参数质量值)来诊断产生和传播比特流的系统中的元数据问题。例如，当元数据分数低于预定的可接受的质量阈值水平时可以通知广播员。

[0034] 在本发明的方法的一些实现方式中，在步骤(a)中评估的音频比特流是Dolby Digital(AC-3)编码的比特流，其包括DIALNORM元数据参数、动态范围控制元数据参数以及其它元数据参数，并且元数据分数指示比特流的DIALNORM参数和至少一个其它元数据参数(例如，ACMOD参数)的质量。可替代地，元数据分数指示元数据参数(例如，ACMOD元数据参数和/或至少一个下混元数据参数)的其它一些组合的质量。在方法的其它一些实现方式中，在步骤(a)中评估的音频比特流是其它类型的经编码的比特流，例如，Dolby E编码的比特流或者MPEG-4AAC编码的比特流。

[0035] 除AC-3编码的比特流以外的音频比特流(例如，已经被以Dolby Digital Plus或Dolby E格式之一编码的音频比特流)可以包括AC-3编码的比特流的元数据参数(包括在此具体地提到的那些：DIALNORM、COMPR、DYNRNG、CLEV、CMIXLEV、SLEV、SURMIXLEV、MIXLEVEL和MIXLEVEL2、ACMOD、以及BSMOD)。在本发明的方法的一些实施例中，在步骤(a)中评估的音频比特流是这种比特流，并且确定的元数据分数指示这种元数据参数中的至少两个(例如，全部)元数据参数的总质量。其它音频比特流包括与AC-3、Dolby Digital Plus或Dolby E比特流中包括的元数据参数的组不同的元数据参数的组。在本发明的方法的一些实施例中，在步骤(a)中评估的音频比特流是这种比特流。本发明不限于用于评估与音频数据关联的任何特定的组的元数据参数(并且产生指示对于评估的元数据参数的元数据分数的数据)或者用于评估与具有任何特定格式的音频数据关联的元数据参数(并且产生指示对于评估的元数据参数的元数据分数的数据)的方法和系统。

[0036] 通过重复地执行元数据评估以便评估音频比特流的元数据参数值的组合的序列(例如，实时地、持续地)，方法的一些实施例确定对于音频比特流的不同的元数据分数的序列。

[0037] 本发明的方面包括配置(例如，编程)为执行本发明的方法的任何实施例的系统或装置、以及存储用于实现本发明的方法或其步骤的任何实施例的代码的计算机可读介质(例如，盘)。例如，本发明的系统可以是或包括可编程的通用处理器、数字信号处理器或微处理器，其利用软件或固件编程和/或被配置为对数据执行各种操作中的任意一个，包括本发明的方法或其步骤的实施例。这种通用处理器可以是或包括计算机系统，该计算机系统包括输入装置、存储器和处理电路，其被编程(和/或配置)为响应于被断言到其的数据执行本发明的方法的实施例(或其步骤)。

附图说明

[0038] 图1是被配置为执行本发明的方法的实施例的系统的实施例的框图。

[0039] 图2是本发明的系统的其它实施例的框图。

具体实施方式

[0040] 将参考图1描述被配置为实现本发明的方法的系统的第一实施例。图1的系统包括AC-3编码器70、经编码的音频递送子系统80(其存储和/或递送编码器70的经编码的输出)、AC-3解码器90和处理器100。从编码器70输出的经编码的音频比特流可以由子系统80(例如，以DVD或蓝光盘的形式)存储，或者由子系统80(其可以实现传输链路或网络)传输，或可以由子系统80存储和传输。

[0041] 处理器100被配置为执行本发明的方法的实施例，并且包括元数据评估级102和元数据分数确定级104。级102被配置为评估与音频比特流(即，被断言到解码器90的输入端的经编码的音频比特流)关联的至少两个元数据参数，并且确定各个元数据参数质量值，各个元数据参数质量值中的每一个指示评估的元数据参数中的不同的元数据参数的质量(例如，正确性)。级104被配置为产生指示元数据分数的数据，其中元数据分数是通过由级102确定的各个元数据参数质量值的组合(例如，线性组合或者其它加权组合)确定的值。元数据分数指示评估的元数据参数的总质量(例如，正确性)。

[0042] 例如，当断言到解码器90的输入端的经编码的比特流是Dolby Digital(AC-3)或者Dolby E编码的比特流时，解码器90的输出将包括元数据参数以及PCM音频数据。由解码器90从经解码的比特流提取并且(与经编码的比特流的经解码的音频内容一起)断言到级102的元数据参数将典型地包括DIALNORM、COMPR、DYNRNG、CLEV、CMIXLEV、SLEV、SURMIXLEV、MIXLEVEL和MIXLEVEL2、ACMOD以及BSMOD元数据参数。在典型的实现方式中，元数据评估级
102被配置为实现对话水平测量功能(测量由经解码的音频内容确定的音频节目中出现的对话的平均水平)，并且评估DIALNORM参数正确地指示对话的平均水平的程度(例如，测量的平均对话水平与由DIALNORM参数指示的水平的比值)，或更简单地，评估DIALNORM参数是否正确地指示对话的平均水平)。级102产生指示这个评估的结果的DIALNORM元数据参数质量值。在典型的实现方式中，元数据评估级102还被配置为确定音频内容(从解码器90接收)的通道中的哪一个是“无声(silent)”通道(在它的水平小于预定的阈值水平的意义上)，并且评估ACMOD参数正确地指示音频通道的数量的程度，或者评估ACMOD参数是否正确地指示音频通道的数量。ACMOD参数意图指示在比特流中实际存在多少音频通道。级102可以检查音频通道的内容并且确定存在的音频通道中的多少是有效的(非无声的)，并且因此推断与通道关联的ACMOD参数的正确性。级102还产生指示这个评估的结果的ACMOD元数据参数质量值。

[0043] 可选地，级102还被配置(例如，编程)为评估经解码的音频比特流的元数据参数中的至少一个额外的元数据参数(例如，经解码的音频比特流的整组的元数据参数中的除ACMOD和DIALNORM参数以外的全部元数据参数)，并且对于元数据参数中的所评估的每个额外的元数据参数确定各个元数据参数质量值，使得各个元数据参数质量值中的每一个指示所评估的额外的元数据参数(或多个元数据参数)的不同的一个元数据参数的质量(例如，正确性)。

[0044] 指示所确定的各个元数据参数质量值的信号被从级102断言到元数据分数确定级104。例如，DIALNORM元数据参数质量值(例如，具有值“1”)和ACMOD元数据参数质量值(例如，具有值“0”)可以被从级102断言到级104。级104被配置为响应于各个元数据参数质量值产生指示元数据分数的数据。例如，级104可以被配置为为各个元数据参数质量值中的每一个分配权重，使得对于被认为(例如，被预定)具有相对大的重要性的元数据参数(或多个元数据参数)的质量值(或多个质量值)被分配相对大的权重(或多个权重)，并且对于被认为具有相对低的重要性的元数据参数(或多个元数据参数)的质量值(或多个质量值)被分配相对小的权重(或多个权重)。级104典型地被配置为产生作为通过各个加权的元数据参数质量值的预定的组合(例如，和或者积)确定的值的元数据分数，使得元数据分数指示由级
102评估的各个元数据参数的总质量(例如，正确性)。权重可以被选择为使得元数据分数为小的整数范围(例如，从1到5的范围)内的数字(例如，整数)。在其它一些实施例中，权重被选择为使得元数据分数为预定范围(例如，从1到5的范围或者其它小的范围)内的非整数(例如，2.3、4.4或者3.282693)。用于确定元数据分数的一种示例性的方法是确定作为通过各个加权的元数据参数质量值的组合(例如，和或者积)确定的值的初步分数，并且将该初步分数四舍五入到最接近的整数值以便确定元数据分数。

[0045] 级104可以被配置为将由级102确定的各个元数据参数质量值中的每一个加权以便产生加权的质量值，并且对加权的质量值求和以便产生元数据分数。权重可以被选择为使得元数据分数为小范围(例如，从1到5的范围)内的数字(例如，整数或者非整数)。

[0046] 图1系统的输出是在级104的输出处断言的指示由级104确定的元数据分数的信号(“元数据分数”)，以及在级102的输出处断言的指示由级102确定的各个元数据参数质量值的信号(“元数据质量”)。

[0047] 通过重复地执行元数据评估以便评估音频比特流的元数据参数值的组合的序列(例如，实时地、持续地)，处理器100可以产生指示(由级102确定的)各个元数据参数质量值的组的序列的输出信号以及指示对于音频比特流的(由级104确定的)元数据分数的序列的输出信号。通常，对于音频比特流的元数据分数可以随时间改变，并且监视这种改变可能是有用的。

[0048] 如果本发明的方法对持续的比特流(而不是有限长度比特流)进行操作，则对话响度测量(以及执行为评估各个元数据参数的质量的每个其它测量)可以被持续地更新并且可以代表例如对于比特流的仅仅最后几秒的对话的水平。如果方法对预先存储的有限长度比特流(诸如存储在硬盘上的音频文件)进行操作，则整个节目可以(例如，在级102中)被分析并且对于整个比特流计算单个DIALNORM质量值(以及对于每个其它评估的元数据参数的单个各个元数据参数质量值)以及单个元数据分数。

[0049] 存在用于方便地且容易地测量音频内容中的对话的水平的有用的工具(例如，Dolby LM100响度计量器)。级102可以被实现为包括这种工具(或者执行这种工具的功能)以便测量音频比特流(例如，从解码器90断言到级102的经解码的AC-3比特流)的音频内容的平均对话响度。经解码的AC-3比特流的音频内容是PCM数据。解码器90将响应于从递送子系统80断言到解码器90的AC-3比特流中包括的经编码的(经压缩的)音频输出这种PCM数据。在典型的实现方式中，级102被配置为产生指示经解码的AC-3比特流(从解码器90输出)的DIALNORM值是否已经被正确地设定并且匹配音频的真实平均对话响度值的元数据质量值。这种元数据质量值(以及由级102确定的每个其它各个元数据质量值)将被断言到级104，由级104用来产生指示对于AC-3比特流的元数据分数的数据。

[0050] 在一类实施例中，本发明是用于分析与音频信号关联(例如，音频信号中包括)的元数据并且计算指示与音频信号关联的至少两个元数据参数的总质量(例如，精确性)的度量(“元数据分数”)的方法。例如，可以通过分离地计算对于许多元数据参数中的每一个的度量并且随后计算各个度量的加权平均来计算总度量。典型地，将基于被评估的各个元数据参数的相对重要性确定权重。其总质量可以由元数据分数指示的Dolby Digital(或者Dolby E或者Dolby Digital Plus)音频比特流中的元数据参数的示例是DIALNORM、COMPR、DYNRNG、混合水平等。

[0051] 在一类实施例中，本发明的方法包括如下步骤：(a)通过广播链(例如，包括图1的编码器70和递送子系统80)递送音频比特流，所述音频比特流包括一组元数据参数；(b)在所述广播链的至少一级(例如，图1的递送子系统80的输出端，和/或子系统80内的级)处，评估所述元数据参数中的至少两个元数据参数；以及(c)确定各个元数据参数质量值，并且产生指示元数据分数的数据，所述各个元数据参数质量值中的每一个指示在步骤(b)中评估的所述至少两个元数据参数中的不同的元数据参数的质量，其中所述元数据分数是由所述各个元数据参数质量值的加权组合确定的值，并且所述元数据分数指示在步骤(b)中评估的所述至少两个元数据参数的总质量。

[0052] 通常，本发明的方法的各个实施例可以在广播链的一个或更多个级处被实现以便评估(并且，必要时，便于校正)与特定音频信号关联的元数据。例如，具有“良好的”元数据质量的音频信号(例如，如由比预定的阈值大的元数据分数所指示的，例如，值“3”，其中分数的范围从1到5)可以被未修改地传递到该链的后续级。具有“较差的”元数据质量的信号(例如，如由小于或等于预定的阈值的元数据分数所指示的)可以在传递到该链的后续级之前被校正。可替代地，具有“较差的”元数据质量的信号可以未修改地被传递到该链的后续级，但是被标记以用于在该链的后续级处校正。

[0053] 作为本发明的方法的实现方式的特定的示例，考虑由许可的编码器创建的Dolby Digital流，其被确定为在广播链的第一级处包括“良好的”质量元数据(即，具有良好的元数据分数)。假设，在广播链的后续级处，DIALNORM元数据参数以及关联的压缩元数据参数被修改以便提高回放响度。在链中的最后一级处，根据本发明实施例来评估元数据质量，并且该元数据质量被确定为具有“较差的”元数据分数。响应于“较差的”元数据分数，DIALNORM参数可以(例如，由Dolby DP600节目优化器装置)被校正从而使得回放响度返回到适当的水平。

[0054] 如果级102被实现为测量音频数据(例如，从解码器90输出的经解码的AC-3比特流的音频内容)的真实平均对话响度，则该测量可以包括隔离(isolate)主要包含讲话的音频内容的片段的步骤。这种方法被描述在Vinton等人的题为“Controlling Loudness of Speech in Signals That Contain Speech and Other Types of Audio Information”的3月4日公开为US2004/0044525A1的美国专利申请No.10/233,073中。可替代地，可以使用其它隔离方法。主要是讲话的音频片段然后根据响度测量算法被处理。对于从AC-3比特流解码的音频数据，这个算法可以是标准K加权的响度测量(根据国际标准ITU-R BS.1770)。可替代地，可以使用其它响度测量(例如，基于响度的心理声学模型(psychoacoustic models)的那些)。

[0055] 讲话片段的隔离对于测量音频数据的平均对话响度而言不是必不可少的。然而，它改善测量的精度并且典型地提供从收听者的视角来看更令人满意的结果。因为不是所有音频内容都包含讲话，所以整个音频内容的响度测量可以提供音频的对话水平的充分近似(sufficient approximation)，如同存在讲话一样。

[0056] 图2是本发明的系统的其它实施例的框图。图2的系统包括音频比特流源2、处理器3、以及被配置为显示指示处理器3的输出的图像的显示装置8。处理器3被耦接为从源2接收音频比特流(包括音频内容以及要评估的元数据参数)。音频比特流可以是经编码的(例如，经压缩的)或非经编码的比特流。

[0057] 处理器3包括耦接为接收来自源2的输入比特流的至少一个输入端3A、至少一个输出端3B、以及耦接在输入端3A和输出端3B之间并且配置(例如，编程)为根据本发明的方法的实施例对输入比特流(包括经解码的元数据和经解码的音频的任何需要的解码和提取)执行需要的处理以便产生指示元数据分数(并且可选地还指示各个元数据参数质量值)的输出数据的处理子系统(其可以是处理器3的除输入端3A和输出端3B以外的全部)。指示输出数据的信号在输出端3B处被断言，以用于驱动装置8的显示屏幕的像素。观看由装置8响应于输出信号产生的显示的用户可以学习由处理器3根据本发明确定的元数据分数，并且可选地还学习各个元数据参数质量值。处理器3可以是通用处理器(编程为执行本发明的方法的实施例)，或数字信号处理器(编程和/或配置为执行本发明的方法的实施例)，或者微处理器或其它处理器(编程和/或配置为执行本发明的方法的实施例)。

[0058] 本发明可以以硬件、固件或软件或者两者组合的方式(例如，作为可编程逻辑阵列)被实现。除非另有规定，否则被包括作为本发明的一部分的算法或者处理不是固有地与任何特定计算机或者其它设备有关。特别是，可以利用根据在此的教导写的程序来使用各种通用机器，或者构造更专业的设备(例如，集成电路)以便执行所要求的方法步骤可能更方便。因此，本发明可以以在一个或更多个可编程计算机系统(例如，图1的处理器100或者图2的处理器3的实现方式)上执行的一个或更多个计算机程序方式实现，每个可编程计算机系统包括至少一个处理器(例如，图1的处理器100的实现方式)、至少一个数据存储系统(包括易失性的和非易失性的存储器和/或存储元件)、至少一个输入装置或者端口、以及至少一个输出装置或者端口。程序代码被应用于输入数据以便执行在此描述的功能并且产生输出信息。输出信息以已知的方式被应用于一个或更多个输出装置。

[0059] 每个这种程序可以以任何期望的计算机语言(包括机器语言、汇编语言或者高层次的程序上的、逻辑的或者面向对象的编程语言)被实现以便与计算机系统通信。在任何情况下，该语言可以是编译的或者解释的语言。

[0060] 例如，当由计算机软件指令序列实现时，本发明的实施例的各种功能和步骤可以由在合适的数字信号处理硬件中运行的多线程软件指令序列实现，在该情况下实施例的各种装置、步骤与功能可以对应于软件指令的部分。

[0061] 每个这种计算机程序优选地被存储在可由通用的或者专用的可编程计算机读取的存储介质或装置(例如，固态存储器或者介质，或者磁性的或光学的介质)上或者被下载到该存储介质或装置，用于当存储介质或装置由计算机系统读取时配置和操作计算机以便执行在此描述的过程。本发明的系统也可以被实现作为计算机可读的存储介质，配置具有(即，存储)计算机程序，其中存储介质被配置为使得计算机系统以特定的和预定义的方式操作以便执行在此描述的功能。

[0062] 已经描述了本发明的许多实施例。然而，应当理解，可以在不脱离本发明精神和范围的情况下进行各种修改。考虑到上述教导本发明的许多的修改和变化是可能的。应当理解，在所附权利要求的范围内，本发明可以除如在这里具体地描述的那样之外被实践。

用于产生音频元数据质量分数的方法和系统转让专利

申请号 : CN201280057313.X

文献号 : CN103946919B

文献日 : 2016-11-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : M·J·格兰特 , M·D·霍夫曼 , S·南达

申请人 : 杜比实验室特许公司

摘要 :

权利要求 :

说明书 :

用于产生音频元数据质量分数的方法和系统

背景技术

发明内容

附图说明

具体实施方式