处理音频数据的设备和方法转让专利

申请号 : CN200580040171.6

文献号 : CN101065988B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : D·肖本M·卢恩M·麦克金尼

申请人 : 皇家飞利浦电子股份有限公司

摘要 :

一种音频数据处理设备(100)包括适合于基于第二数量的音频数据输入信号(103;x1...xN)产生第一数量的音频数据输出信号(102;z1...zM)的音频再分配器(101),和适合于以逐步可调整的方式取决于音频内容的类型产生用于控制音频再分配器(101)的逐步可调整控制信号(P)的音频分类器(104),音频再分配器(101)从第二数量的音频数据输入信号(103;x1...xN)产生第一数量的音频数据输出信号(102;z1...zM),第二数量的音频数据输入信号(103;x1...xN)按照音频内容的类型被分类。

权利要求 :

1.一种音频数据处理设备(100),包括

音频再分配器(101),适合于基于第二数量的音频数据输入信号(103;x1...xN)产生第一数量的音频数据输出信号(102;z1...zM);和音频分类器(104),适合于以渐变可调整的方式取决于音频内容的类型产生渐变可调整控制信号(P),该控制信号用于控制从第二数量的音频数据输入信号(103;x1...xN)产生第一数量的音频数据输出信号(102;z1...zM)的音频再分配器(101),第二数量的音频数据输入信号(103;x1...xN)按照所述音频内容的类型被分类。

2.按照权利要求1的音频数据处理设备(100),其中音频分类器(104)是自适应音频分类器,它在用于区分不同类型的音频内容之前进行训练,其中音频分类器(104)预先输送有参考音频数据。

3.按照权利要求1的音频数据处理设备(100),其中音频分类器(104)是自适应音频分类器,它在用于区分不同类型的音频内容期间通过给音频分类器(104)输送音频数据输入信号来进行训练。

4.按照权利要求1的音频数据处理设备(100),其中第一数量和/或第二数量大于一。

5.按照权利要求1的音频数据处理设备(100),其中第一数量大于第二数量。

6.按照权利要求1的音频数据处理设备(100),其中音频分类器(104)适合于以依赖于时间的方式产生渐变可调整的控制信号(P)。

7.按照权利要求1的音频数据处理设备(100),其中音频分类器(104)适合于逐帧或逐块地产生渐变可调整的控制信号(P)。

8.按照权利要求1的音频数据处理设备(100),其中音频分类器(104)适合于以渐变可调整的方式依赖于音频数据输入信号(103;

x1...xN)的物理含义产生渐变可调整的控制信号(P)。

9.按照权利要求1的音频数据处理设备(100),其中不同类型的音频内容对应于不同的音频流派。

10.按照权利要求1的音频数据处理设备(100),其中音频分类器(104)适合于产生作为控制信号(P)的一个或多个概率,它们可以具有在零和一之间的任意值,其中每个概率反映音频数据输入信号(103;x1...xN)属于对应类型的音频内容的似然性。

11.按照权利要求1的音频数据处理设备(100),其中音频再分配器(101)适合于基于概率的线性组合产生音频数据输出信号(102;

z1...zM)。

12.按照权利要求1的音频数据处理设备(100),其中音频分类器(104)适合于以有效矩阵的形式产生渐变可调整的控制信号。

13.按照权利要求12的音频数据处理设备(100),其中矩阵的元素取决于一个或多个概率,其中每个概率反映音频数据输入信号(103;

x1...xN)属于对应类型的音频内容的似然性。

14.按照权利要求12的音频数据处理设备(100),其中矩阵的元素取决于音频数据输入信号(103;x1...xN)。

15.按照权利要求1的音频数据处理设备(100),其中音频再分配器(101)包括第一子单元(202)和第二子单元(203),其中第一子单元(202)适合于与音频分类器(104)的控制信号(P)无关地基于第二数量的音频数据输入信号(x1...xN)产生第一数量的音频数据中间信号(y1...yM);并且其中第二子单元(203)适合于根据音频分类器(104)的控制信号(P)基于第一数量的音频数据中间信号(y1...yN)产生第一数量的音频数据输出信号(z1...xN)。

16.按照权利要求1的音频数据处理设备(100),实现为集成电路。

17.按照权利要求1的音频数据处理设备(100),实现为便携音频播放器或DVD播放器或MP3播放器或因特网无线电设备。

18.一种处理音频数据的方法,该方法包括以下步骤:通过基于第二数量的音频数据输入信号(103;x1...xN)产生第一数量的音频数据输出信号(102;z1...zM)来再分配音频数据输入信号;

将音频数据输入信号分类从而以渐变可调整的方式取决于音频内容的类型产生渐变可调整的控制信号(P),该控制信号用于控制从第二数量的音频数据输入信号(103;

x1...xN)产生第一数量的音频数据输出信号(102;z1...zM)的再分配,音频数据输入信号按照音频内容的类型被分类。

说明书 :

处理音频数据的设备和方法

技术领域

[0001] 本发明涉及一种音频数据处理设备。
[0002] 本发明还涉及一种处理音频数据的方法。
[0003] 而且,本发明涉及一种程序单元。
[0004] 本发明还涉及一种计算机可读介质。

背景技术

[0005] 当前很多音频记录能够以立体声或以所谓的5.1-环绕声格式获得。为了重放这些记录,在立体声的情况下需要两个扬声器,在5.1-环绕声的情况下需要六个扬声器,除此之外还需要特定的标准扬声器设置(set-up)。
[0006] 但是,在很多实际情况下,扬声器的数量或设置不符合实现高质量音频重放的要求。由于上述原因,已经开发了音频再分配系统。这样的音频再分配系统具有N个输入通道和M个输出通道。这样,就可能有三种情况:
[0007] 在第一种情况下,M大于N。这意味着使用比保存的音频通道更多的扬声器来重放。
[0008] 在第二种情况下,M等于N。在这种情况下,存在相同数量的输入和输出通道。但是,用于重放输出的扬声器设置与作为输入提供的数据不一致,这时需要再分配。
[0009] 按照第三种情形,M小于N。在这种情况下,可获得的音频通道比重放通道更多。
[0010] 第一种情况的一个例子是从立体声转换到5.1-环绕声。已知的这种类型的系统TM是Dolby Pro Logic (见Gundry,Kenneth“A new active matrix decoder for surround th
sound”,In Proc.AES,19 International Conference on Surround Sound,2001年6月)TM
和Circle Surround (见US6,198,827:5-2-5矩阵系统)。另一个这种类型的技术在
US6,496,584中公开。
[0011] 第二种情况的一个例子是在5.1-系统中通过把中央信号加入到左和右通道中提TM高对中央扬声器的宽度。这在Dolby Pro Logic II 的音乐模式中实现。另一个例子是立TM
体声-加宽,其中使用了小的扬声器基数(例如在电视系统中)。为此,在Philips 公司TM
内,已经开发了一种称为Incredible Stereo 的技术。
[0012] 在第三种情况下,应用了所谓的下-混合。这种下-混合能够以一种智能的方TM式完成以尽可能地保持原始空间图像。这种技术的一个例子是来自Philips 公司的
TM
Incredible Surround Sound ,其中在两个扬声器上重放5.1-环绕声音频。
[0013] 对于上述例子中提到的再分配已知两种不同的方案。第一,再分配可以基于固定的矩阵。第二,再分配可以由诸如相关性的通道间特性来控制。
[0014] 像Incredible StereoTM的技术是第一种情况的一个例子。这种方案的缺点是像语音信号这种在中央上扫调(pan)的某种音频信号受到负面影响,即从而再现音频的质量可能不够。为了防止音频质量的这种恶化,开发了一种基于两个通道之间的相关性的新技术(见WO03/049497A2)。这项技术假定在中央上扫调的语音在左和右通道之间具有强相关性。
[0015] Dolby Pro Logic IITM基于通道间特性再分配输入信号。但是,DolbyPro Logic TMII 具有两种不同的模式,电影和音乐。取决于用户选择了哪种设置提供不同的再分配。可以使用这些不同的模式,因为不同的音频内容具有不同的优化设置。例如,对于电影,通常希望只在中央通道具有语音,但是对于音乐,不希望只在中央通道有声乐(vocal);这里最好有一个错觉上的中央声源。
[0016] 这样看来,涉及再分配技术的论述的现有技术受到以下缺点的损害,即不同的设置对不同的音频内容各有优势。
[0017] JP-08037700公开了一种声场校正电路,它具有指定音乐信号的音乐类别的音乐类别区分部分。基于指定的音乐类别,一模式-设置微控制器设置对应的仿真模式。
[0018] US 2003/0210794 A1公开了一种具有确定立体声源的类型的微型计算机的矩阵环绕声解码系统,该微型计算机的输出输入到一矩阵环绕声解码器,用于将矩阵环绕声解码器的输出模式切换到对应于这样确定的立体音响源的模式。
[0019] 但是,按照JP-08037700和US 2003/0210794 A1,通过一种二元型判定(“是”或“否”)评估一种音频内容的类别,即考虑是否存在来自多个音频流派中特定的一种,甚至在一个音频剪辑具有来自不同音乐流派的元素的情况下也是这样。这可能造成按照JP-08037700和US 2003/0210794 A1中任一个处理的音频数据具有较差的再现质量。

发明内容

[0020] 本发明的一个目的是提供一种具有较高灵活性的音频数据处理。
[0021] 为了实现以上确定的目标,提供了根据独立权利要求的一种音频数据处理设备,一种处理音频数据的方法,一种程序单元,和一种计算机可读介质。
[0022] 音频数据处理设备包括适合于基于第二数量的音频数据输入信号产生第一数量的音频数据输出信号的音频再分配器。而且,音频数据处理设备包括适合于以渐变可调整(gradually sliding)取决于音频内容的类型的方式产生渐变可调整控制信号的音频分类器,该控制信号用于控制音频再分配器从第二数量的音频数据输入信号产生第一数量的音频数据输出信号,第二数量的音频数据输入信号按照上述音频内容的类型分类。
[0023] 而且,本发明提供一种处理音频数据的方法,包括以下步骤,通过基于第二数量的音频数据输入信号产生第一数量的音频数据输出信号来再分配音频数据输入信号,以及将音频数据输入信号分类从而以渐变可调整取决于音频内容的类型的方式产生渐变可调整的控制信号,用于控制从第二数量的音频数据输入信号产生第一数量的音频数据输出信号的再分配,音频数据输入信号按照上述音频内容的类型分类。
[0024] 除此之外,还提供一种程序单元,当由处理器执行该程序单元时,适合于执行包括以上提到的方法步骤的处理音频数据的方法。
[0025] 而且,提供一种其中保存了计算机程序的计算机可读介质,当由处理器执行计算机程序时,适合于执行具有以上提到的方法步骤的处理音频数据的方法。
[0026] 按照本发明的音频处理能够通过计算机程序,即通过软件,或通过使用一个或多个特殊的电子优化电路,即用硬件,或以混合的方式,即借助于软件和硬件成分实现。
[0027] 本发明的典型特征尤其具有以下优点,即按照本发明的音频再分配通过消除对特定的音频剪辑(audio excerpt)是否具有这种分类(例如,“古典”音乐,“爵士乐”“流行音乐”,“语音”)的不精确的二元类型“是”-“否”判定,与现有技术相比较有很大的改善。代替它的是,音频再分配器借助于渐变可调整控制信号来控制,该渐变可调整控制信号取决于音频数据输入信号精细的分类。按照本发明的设备和方法不把音频剪辑概括地分类为多个固定类型的音频内容(例如,流派)中最符合的精确的一种,而是考虑到音频信号的不同方面和特性,例如古典音乐特点和流行音乐特点的贡献。
[0028] 因而,一个音频剪辑可以分类为多种不同类型的音频内容(即不同的音频分类),其中加权因子可以限定该多种类型的音频内容中每一个的定量贡献。因而,一个音频剪辑能够按比例分配为多个音频分类。
[0029] 从而控制信号反映出不同类型的音频内容的两个或多个这种贡献并且也依赖于音频信号属于不同类型内容(例如不同的音频流派)的程度。按照本发明,控制信号连续地/无限地可变,从而音频输入特性中的轻微变化总是造成控制信号值的小的改变。
[0030] 换句话说,本发明不采用粗略的二元判定,二元判定中特定的内容类型或流派指定给现存的音频数据输入信号。代之以,在控制信号中渐变地考虑音频输入信号的不同特点。因此,具有“爵士”元素和“流行”元素的贡献的音乐剪辑将不看作纯“爵士”音乐或纯“流行”音乐,而是,取决于“流行”音乐元素贡献和“爵士乐”音乐元素贡献的程度,用于控制音频再分配器的控制信号将同时反映输入信号的“爵士”和“流行”音乐特点。拥有这种措施,控制信号将对应于输入音频信号的特点,从而音频再分配器能够精确地处理这些音频信号。渐变衡量的控制信号的提供使得有可能把音频再分配器的功能与将被处理的音频输入数据的详细特点相匹配,这种匹配导致更好的控制灵敏度,甚至对于音频信号特点中很小的变化也是如此。从而,按照本发明的措施提供了音频输入数据的很灵敏的实时分类,其中用于特征化音频内容的类型的概率、百分比、加权因子或其他参数作为控制信息提供给音频再分配器,从而音频数据的再分配能够对该类型音频数据定制。
[0031] 分类器可以自动分析音频输入信号(例如执行频谱分析)以确定目前的音频剪辑的典型特征。预先确定的(例如基于一个工程师的专有知识)或者特别的规则(例如行业内规则)可以引入到音频分类器作为对音频剪辑如何分类,即该音频剪辑将分类为哪种类型的音频内容的判定基础。
[0032] 由于一段音频的特点能够在单个剪辑内快速变化,因此渐变可调整控制信号能够在音频数据传输或流动过程中连续地调整或更新,从而音乐特点中的变化导致控制信号的变化。按照本发明的系统不采用对音乐是否已经分类为流派A、流派B或流派C的明显的选择判定。取而代之的是,按照本发明评估概率值,该概率值反映了目前的音频数据能够分类为特定流派(例如,“流行”音乐、“爵士”音乐、“古典”音乐、“语音”等)的程度。从而,控制信号能够在“按比例”的基础上产生,其中从一段音频的不同特点中得出不同的贡献。
[0033] 因而,本发明提供了一种由音频分类器控制的音频再分配系统,其中不同的音频内容产生不同的设置,从而音频分类器按照音频内容中的区别来优化音频再分配器的功能。
[0034] 由音频分类器,例如由McKinney、Martin、Breebaart、Jeroen在2003年Izmirth的4 International Conference on Music Infoemation Retrieval的“Features for Audio and Music Classification”中公开的音频分类器控制。这样的分类器可以借助于(在使用之前和/或在使用期间)参考音频信号或音频数据输入信号进行训练来区分不同类型的音频内容。这样的分类例如包括“流行”音乐、“古典”音乐、“语音”等。换句话说,按照本发明的分类器确定一个剪辑属于不同类型的概率。
[0035] 这样分类器能够执行再分配使得对音频数据输入信号的内容类型为最优。这是与按照相关技术的方案不同的,相关技术基于通道间特征和算法设计者的特别的选择。这些特点是低等级特征的例子。按照本发明的分类器也可以确定这些种类的特征,但是它可以使用在分类之间进行区分的这些特征,针对大范围各种内容进行训练。
[0036] 发现本发明的一个方面在于提供一种音频再分配器,它具有N输入信号(该输入信号可能是压缩的,像MP3数据),在M个输出上把这些输入信号再分配,其中再分配取决于对音频进行分类的音频分类器。该分类应当以渐变可调整的方式执行,从而避免对特定类型内容的不精确并且有时不正确的分配。代替的是,用于控制再分配器的控制信号渐变产生,在音频内容的不同特点之间进行区分。这样的音频分类器是依赖于音频分类(例如,音乐,语音)之间的关系的系统,这可以以自适应的方式从内容分析中学到。
[0037] 可以构造按照本发明的音频分类器用于从N个音频输入中产生分类信息P,并且该N个音频输入在M个音频输出上的再分配取决于这样的分类信息P,其中分类信息P可能是概率。
[0038] 按照本发明的音频再分配器可以适合于灵活地执行转换使得M>N、M<N或M=N。再分配器可能是有效矩阵系统,并且再分配器可能是一个音频解码器。本发明可以进一步实现为使用现有再分配器的下行数据流的改型单元。
[0039] 例如,本发明的示例应用涉及现有的像Dolby Pro LogicTM和Circle SurroundTM这样的现有上-混合系统升级。按照本发明的系统能够加入到现有系统以提高音频数据处理能力和功能性。本发明的另一种应用涉及与图像屏幕组合使用的新的上-混合(up-mix)TM算法。另一种应用涉及像Incredible Surround Sound 这样的现有的下-混合(down-mix)系统的改进。除此之外,可以执行本发明以改善现有的立体声-加宽(stereo-widening)算法。
[0040] 结果,音频再分配能够以对当前内容类型最优化的方式完成。
[0041] 本发明的一个重要方面涉及系统的行为能够依赖于时间的事实,因为例如基于日复一日的内容和元数据(例如图文电视),它能够继续对它本身最优化。音频剪辑的不同部分(例如不同的数据帧)能够单独分类用于以依赖于时间的方式更新控制信号。具有这样的功能的音频数据处理设备对每个用户最优化,并且新内容能够以优化的方式处理。
[0042] 本发明的另一重要方面涉及这样的事实,那就是本发明的系统使用音频内容的分类或类型,例如以控制一个通道上-变换器,每个音频内容具有特定的物理或心理声学(paychoaconstic)含义或特性(比如流派)。这样的分类可以包括例如音乐和语音之间的区别,或者甚至更精细的例如“流行”音乐、“古典”音乐、“爵士”音乐、“民间”音乐等之间的区别。
[0043] 本发明的一个方面涉及执行帧方式或块方式分析的多通道音频再现系统。由音频分类器产生的用于控制音频再分配器的控制信息基于内容类型产生。这允许由音频分类/流派信息控制的音频的自动、优化和特定分类再分配。
[0044] 参照从属权利要求,以下将描述本发明的其他优选实施例。
[0045] 接着,将描述按照本发明的音频数据处理设备的优选实施例。这些实施例也用于处理音频数据的方法、程序单元和计算机可读介质。
[0046] 第一数量的音频数据输出信号和/或第二数量的音频数据输入信号可以大于一。换句话说,音频数据处理设备可以执行多通道输入和/或多通道输出处理。
[0047] 按照一个实施例,第一数量可以大于或小于或等于第二数量。把第一数量表示为N,并且把第二数量表示为M,覆盖所有三种情况M>N、M=N和M<N。在M>N的情况下,用于重放的输出通道的数量大于输入通道的数量。这种情形的一种例子是从立体声转换到5.1环绕声。在M=N的情况下,存在相同数量的输入和输出通道。但是,在这种情况下,提供的内容在各个通道之间再分配。在M<N的情况下,可获得比重放通道更多的输入通道。例如,5.1环绕声音频可以在两个扬声器上重放。
[0048] 音频分类器可以适合于以依赖于时间的方式产生渐变可调整的控制信号。按照该实施例,在音频数据输入信号传输期间,响应于考虑中的音频剪辑的不同部分的特点或特性中可能的变化控制信号能够连续更新,或以步进的方式更新。控制信号的这种依赖于时间的估计使得能够进行音频再分配器更加精细的控制,这提高了处理和再现的音频数据的质量。而且,系统的行为通常可以依赖于时间来执行,例如基于日复一日的内容/或元数据(像图文电视),从而它保持本身最优化。
[0049] 音频分类器可以适合于逐帧或逐块地产生渐变可调整的控制信号。从而,在它们(部分)涉及的音频内容的类型特点方面,音频输入数据的不同的连续块或不同的连续帧可以分开地对待,从而对音频再分配器的控制进行细化。
[0050] 而且,音频数据处理设备可以包括一加法单元,它适合于通过把音频数据输入信号相加产生一个输入和信号,并且它被连接以向音频分类器提供输入和信号。加法单元可以简单地把来自不同音频数据输入通道的所有音频输入数据相加以产生一个具有平均音频特性的信号,从而分类能够在统计特性上更宽的基础上以低计算负担来进行。或者,每个音频数据输入通道可以单独或联合分类,导致高分辨率控制信号。
[0051] 音频分类器可以适合于以渐变可调整的方式,依赖于音频数据输入信号的物理含义产生渐变可调整的控制信号。特别是,不同类型的音频内容可以对应于不同音频流派。
[0052] 按照这些实施例,能够考虑音频数据输入信号的物理含义或心理声学特征。可以预先选择预定数量的音频内容类型。基于那些不同的音频内容类型(例如“音乐或语音”或“流行”音乐,“爵士”音乐,“古典”音乐),例如能够计算音频剪辑中这些类型的各个贡献,从而例如能够基于当前音频剪辑具有60%“古典”音乐,30%“爵士”和10%“语音”贡献的信息来控制音频再分配器。例如,可以执行以下两种示例类型的分类中的一种,一种类型基于一组五个总体音频分类,并且第二种类型基于一组流行音乐流派。总体音乐分类是“古典”音乐、“流行”音乐(非古典流派),“语音”(男性或女性,英语,荷兰语,德语和法语),“喧哗噪声”(掌声和欢呼声)和“噪声”(包括交通、风扇、饭店、自然界的背景噪声)。流行音乐分类可以包含来自七种流派的音乐:“爵士”,“民间”,“电子”,“R&B”,“摇滚”,“雷盖(reggae)”和“声乐”。
[0053] 物理含义或特性可以对应于音频数据输入信号所属于的不同类型的音频内容,特别对应于不同音频流派。
[0054] 音频分类器可以适合于产生作为控制信号的一个或更多的概率,这个概率可以具有在零和一之间的范围内的任意(无级)值,其中每个值反映了音频数据输入信号属于对应类型的音频内容的概率。与现有技术相反,其中只采用100%或0%的判定(例如音频内容涉及纯“古典”音乐),按照本发明的系统更精确,因为它在不同类型的音频内容之间进行区分(例如“当前音频剪辑以60%的概率涉及“古典”音乐和以40%的概率”涉及“爵士”音乐)。
[0055] 音频分类器可以适合于基于这些概率的线性组合来控制音频数据输出信号的产生。如果音频分类器已经确定例如音频内容以概率P涉及第一流派和以1-p的概率涉及第二流派,则音频再分配器以p和1-p的相应概率线性组合第一和第二流派进行控制。
[0056] 音频分类器可以适合于产生渐变可调整控制信号作为矩阵,尤其是作为有效矩阵的。该矩阵的单元可以依赖于一个或多个概率值,它们是预先估计的。矩阵的单元也能够直接依赖于音频数据输入信号。每个矩阵单元能够单独调整或计算以用作控制音频分配器的控制信号。
[0057] 音频分类器可以是自适应音频分类器,在用于区分不同类型的音频内容之前进行训练,其中它已经输入了参考音频数据。按照该实施例,在音频数据处理设备投入市场之前,音频分类器输入了足够大量的参考音频信号(例如来自不同流派的100小时的音频内容)。在输入大量音频数据期间,音频分类器学习怎样例如通过检测音频数据特定(频谱)特征来区分不同种类的音频内容,这些音频数据已知(或变成)为特定种类内容类型的特性。该训练处理造成许多获得的系数,这些系数可以用于精确地区分和确定,即分类音频内容。
[0058] 另外的或者替换的,音频分类器可以是自适应音频分类器,该分类器在使用期间进行训练以通过馈入音频数据输入信号区分不同类型的音频内容。这意味着由音频数据处理设备处理的音频数据也用于在该音频数据处理设备作为产品实际使用期间进一步训练音频分类器,从而进一步使它的分类能力更精细。元数据(例如来自图文电视)可以用于此,以例如支持自学。当内容已知为电影内容时,伴奏的多通道音频能够用于进一步训练分类器。
[0059] 按照音频数据处理设备的音频再分配器可以包括第一子单元和第二子单元。第一子单元可以适合于独立于音频分类器的控制信号基于第二数量的音频数据输入信号产生第一数量的音频数据中间信号。第二子单元可以适合于依赖于音频分类器的控制信号基于第一数量的音频数据中间信号产生第一数量的音频数据输出信号。这种设置使得有可能将为传统音频再分配器的已经存在的第一子单元与第二子单元组合使用作为考虑到用于再分配音频数据的控制信号的后处理单元。
[0060] 按照本发明的音频数据处理设备可以实现为集成电路,特别是实现为半导体集成电路。特别是,系统可以实现为能够用硅技术生产的单片IC。
[0061] 按照本发明的音频数据处理设备可以实现为虚拟装置(virtualizer)或便携式音频播放器或DVD播放器或MP3播放器或作为一个因特网无线电设备。
[0062] 作为依赖于音频内容类型产生控制信号的音频分类器的替换方式,其中音频数据输入信号基于符合以下特别规则的音频信号的解释(其间接依赖于工程师的知识或经验)被分类,也可以通过引入一系统行为全自动地(不需要解释或引入工程师的知识)产生用于控制音频再分配器的控制信号,该系统行为可以是机器学习的而不是由工程师设计的,该控制信号全自动地分析从一个声音特征映射到该音频属于某一类型的概率的很多参数的数量。为此,音频分类器可以提供有一些种类的自适应功能(例如神经系统网络,神经模糊机械(neuro-fuzzy machine)等),它们可以预先(例如几百小时)用参考音频音乐进行训练以允许音频分类器自动找到优化参数作为控制信号的基础用于控制音频再分配器。可以用作控制信号基础的参数能够从进入音频数据输入信号学到,该音频数据输入信号可以在使用之前和/或使用期间提供给系统。从而,音频分类器可以由它自身基于可以执行哪种涉及其音频内容的音频输入数据的分类得到分析信息。例如,可以预先训练用于把音频数据输入信号转换到音频数据输出信号的转换矩阵的矩阵系数。作为一个例子,DVD通常包含立体声和5.1通道音频混合。尽管从二到5.1通道的优选转换将通常不存在,但是当一算法用于独立在几个频带工作时它被非常好地限定。对二和5.1通道音频混合的分析揭示了这些关系。这些关系接着从二通道音频的特性自动学习。
[0063] 从而,音频数据输入信号能够不需要包括任意解释步骤地自动分类。
[0064] 例如,这样的训练能够在音频数据处理设备投入市场之前在实验室中预先进行。这意味着最终产品已经具有组合多个使得音频分类器以精确的方式分类进入音频数据的参数的训练过的音频分类器。但是,作为替代或附加地,包括在作为一现成产品投入市场的音频数据处理设备的音频分类器中的参数已经能够通过在使用期间用音频数据输入信号进行训练来改善。
[0065] 这样的训练可以包括音频数据输入信号的多个频谱特征的分析,像光谱粗糙度/光谱平坦性,即波纹等的出现。从而,可以找到不同类型内容的特征特性,并且能够在这些特征的基础上表征当前音频段。
[0066] 本发明的上述和其他方面将通过以下描述的实施例变得明显并且参照这些实施例来解释。

附图说明

[0067] 现在将参照实施方式的示例更详细地描述本发明,但是本发明决不限于此。
[0068] 图1示出了按照本发明的第一实施例的音频数据处理设备,
[0069] 图2A示出了按照本发明的第二实施例的音频数据处理设备,
[0070] 图2B示出了按照第二实施例基于音频数据输入信号并基于控制信号计算音频数据输出信号的基于矩阵的计算方案,
[0071] 图3A示出了按照本发明的第三实施例的音频数据处理设备,
[0072] 图3B示出了按照第三实施例基于音频数据输入信号并基于控制信号计算音频数据输出信号的基于矩阵的计算方案,
[0073] 图4A示出了按照第四实施例的音频数据处理设备,
[0074] 图3B示出了按照第四实施例基于音频数据输入信号并基于控制信号计算音频数据输出信号的基于矩阵的计算方案。

具体实施方式

[0075] 附图中的说明是示意性的。在不同的图中,类似或相同的元件提供以相同的参考标记。
[0076] 接下来,参照图1,将描述按照本发明的第一实施例的音频数据处理设备100。
[0077] 图1示出了音频数据处理设备100,包括适合于基于六个音频数据输入信号产生两个音频数据输出信号的音频再分配器101。音频数据输入信号在六个音频输入通道103提供,它们耦合到音频再分配器101的六个数据信号输入端105。音频再分配器101的两个数据信号输出109与两个音频数据输出通道102耦合以提供它们的音频数据输出信号。
[0078] 而且,示出了音频分类器104,它适合于以渐变可调整的方式依赖于音频内容的类型,在从六个音频数据输入信号产生两个音频数据输出信号方面,来产生用于控制音频再分配器101的渐变可调整控制信号P,音频数据输入信号(通过耦合到六个音频数据输入通道103的六个数据信号输入端106提供到音频分类器104)按照音频内容的类型进行分类。从而,在不同类型的音频内容方面,音频分类器104确定进入音频输入信号将被分类到什么程度。
[0079] 音频分类器104适合于以依赖于时间的方式产生渐变可调整的控制信号P,即作为函数P(t),其中t是时间。当音频信号的帧序列(每帧由块构成)在音频数据输入通道103应用到系统100,输入数据中变化的音频特性导致变化的控制信号p。从而,系统100灵活地响应于通过音频数据输入通道103提供的音频内容类型中的变化。换句话说,在音频数据输入通道103提供的不同的帧或块由音频分类器单独对待,从而产生单独的并且依赖于时间的音频数据分类控制信号P以控制音频再分配器101来把在六个输入通道103提供的音频信号转换为在两个输出通道102的音频信号。音频分类器104适合于按照音频数据输入信号的不同类型的音频内容(例如物理/心理声学含义)以渐变可调整的方式产生渐变可调整的控制信号P。换句话说,用于区分不同类型的音频内容,特别是不同的音频流派的一组区分规则预先存储在音频分类器104中。基于这些区分规则(特别规则或专家规则),音频分类器104估计该音频数据输入信号属于音频内容的每种不同流派到什么程度。
[0080] 下面,将参照图2A描述按照本发明的第二实施例的音频数据处理设备200。
[0081] 音频数据处理设备200包括一个用于把N音频数据输入信号x1,...,xN转换为M音频数据输出信号z1,...,zM的音频再分配器201。音频再分配器201包括N-到-M再分配单元202和后处理单元203。N-到-M再分配单元适合于独立于音频分类器104的控制信号,基于N音频数据输入信号x1,...,xN产生M音频数据中间信号y1,...,yM。后处理单元203适合于依赖于由音频分类器产生的控制信号P,基于音频数据输入信号x1,...,xN的分析从中间信号y1,...,yM产生M音频数据输出信号z1,...,zM。
[0082] 音频数据处理设备200包括一个加法单元204,它适合于通过把音频数据输入信号x1,......,xN加在一起产生的输入和信号从而提供用于音频分类器104的输入和信号。
[0083] 图2A、2B示出的实现方式使用了用分类器104和后处理单元203升级的现存的再分配系统,该后处理单元203能够由分类器104中执行的计算的结果来控制。从而,音频数据处理设备200用于升级现有的再分配系统202。
[0084] 块“N-到-M”202是现有的再分配系统,例如Dolby Pro Logic IITM(在这种情况下N=2并且M=6)。N输入通道由加法单元204相加并输送到音频分类器104,该音频分类器104被训练以区分音频内容的理想分类。分类器104的输出是音频数据输入信号x1,...,xN属于音频内容某一分类的概率P。这些概率用于修整“M-到-M”块203,它是一个后处理块。
[0085] 这种情形的一种感兴趣应用能够是以下的情况:Dolby Pro LogicIITM具有两种不同的模式,即电影和音乐,它们具有不同的设置并进行手工选择。一个主要的区别是中央图像的宽度。在电影模式中,在中央扫调的(音频)源完全输送到中央扬声器。在音乐模式中,中央信号也输送到左和右扬声器以加宽立体声图像。但是,这必须是人为改变的。当例如她或他正在观看电视并且她或他从像MTV这样的音乐频道切换到像CNN这样的新闻频道时,这是不方便的。这样。在电影包含音乐部分的情况下,电影/音乐模式的手动选择是不适宜的。MTV上的音乐视频将需要一个音乐模式,但是CNN上的语音将需要一个电影设置。本发明应用到这种情形时将自动调整设置。
[0086] 这样,图2A示出了用音频分类器104升级现有的再分配单元202的框图。
[0087] 具有传统的N-到-M再分配单元202的本发明实现方式在所述实施例中执行以下步骤。
[0088] N-到-M块202包含电影模式的Dolby Pro Logic IITM解码器。分类器104包含两种类型,即音乐和电影。参数P是输入音频x1,...,xN是音乐的概率(P在[0;1]的整个范围上连续可变)。
[0089] N-到-M块203现在能够实现以执行图2B所示的函数。
[0090] 在图2B中,Lf是左前信号,Rf是右前信号,C是中央信号,Ls是左环绕信号,Rs是右环绕信号并且LFE是低频效果信号(子低音扬声器)。参数α是一个常数,具有例如0.5的值。参数α定义在音乐模式中的中央源宽度。
[0091] 参数P以帧确定,所以它随时间变化。当音频内容随着时间变化时,中央信号的重放按照P来变化。从而,音频分类器104适合于以依赖于时间的方式产生渐变可调整的控制信号,特别是参数P。而且,音频分类器104适合于一帧接一帧地或一块接一块地产生渐变可调整控制信号。这样,音频分类器适合于产生概率P作为它的控制信号,该概率P可以具有在零和一范围内的任意值,反映音频数据输入信号属于音乐的似然性和音频数据输入信号属于电影分类的似然性1-P。
[0092] 从图2B中看更加明显,音频分类器104适合于基于概率P和1-P的线性组合来控制音频数据输出信号的产生。
[0093] 接下来,将参照图3A和图3B描述按照本发明的第三实施例的音频数据处理设备300。
[0094] 音频数据处理设备300具有集成到一个构建块中的再分配单元202和后处理单元203,即N-到-M再分配器301。从而,音频数据处理设备300集成了再分配和分类。
[0095] N-到-M再分配器301能够以如下方式实现。M输出通道102是N输入通道103的线性组合。矩阵 (P)中的参数是来自于分类器302的概率P的函数。这能够在帧(它是信号采样的块)中实现,因为概率P也在描述的实施例中在帧中确定。
[0096] 图3A所示的系统的实际应用是立体声到5.1环绕声转换系统。当应用这样的系统时获得高质量的结果,因为音频混合是依赖于内容的。例如,语音送到中央扬声器。声音扫调到中央并分到左右扬声器。声乐扫调到后扬声器。输入信号x1,...,xN到输出信号y1,...,yM的这种转换在转换矩阵 的基础上执行,这种转换又依赖于概率P。
[0097] 接着,将参照图4A和图4B描述按照第四实施例的音频数据处理设备400。
[0098] 图4A、图4B示出了一种设置,其中由音频分类器401产生的矩阵 用作N-到-M再分配器301的控制信号的源。这样,在音频数据处理设备400的情况下,矩阵的元素依赖于音频数据输入信号xi,其中i=1,...,N,所以是x1,...,xN。因此,没有概率P(用作矩阵元素的随后计算的基础)必须在第四实施例中计算。取而代之的是,按照第四实施例的音频分类器401实现为一个自适应的音频分类器401,它们必须预先训练以自动并直接来自于音频数据输入信号xi得到转换矩阵 的元素。于是,可以从
音频数据输入信号xi推出音频特性。接着,可以学习映射函数,它提供有效矩阵系数作为这些特征的(学习)函数。换句话说,按照第四实施例,有源转换矩阵的元素直接依赖于输入信号,而不是基于单独确定的概率值P产生的。
[0099] 应当注意到,术语“包括”不排除于那些规定的单元或步骤之外的单元或步骤并且词语“一”或“一个”不排除多个。与不同实施例相关联描述的单元可以组合。也应当注意到权利要求中的参考标记不应当解释为对权利要求范围的限制。