基于音频关注度的音频质量评价系统及方法转让专利

申请号 : CN201110126684.6

文献号 : CN102184733B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 胡瑞敏杨玉红高丽杨裕才曾琦赵云

申请人 : 武汉大学

摘要 :

本发明涉及音频评测领域,尤其涉及基于音频关注度的音频质量评价系统及方法。本发明提出了基于场景分类的评价方案,引入人类听觉自底向上和自顶向下的听觉机制,跟据测听声音进行划分场景的归类,依照不同的场景进行主观评测,对每个测听序列经行分项属性打分,然后融合得到一个最终的总得分,克服了现有主观评价不准确和不稳定的问题。

权利要求 :

1.一种基于音频关注度的音频质量评价系统,其特征在于:包括关注音及背景音特征分离提取模块、主观评价分项得分模块和关注音主观评分模块,所述关注音及背景音特征分离提取模块,用于根据输入的场景背景音类型信息和关注音类型信息,分别提取场景背景音的特征属性和关注音的特征属性,输出给主观评价分项得分模块;

所述主观评价分项得分模块,用于根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性,从场景背景音的各项特征属性分别给出分项主观得分,从关注音的各项特征属性分别给出分项主观得分,并输出到关注音主观评分模块;

所述关注音主观评分模块,用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分,并对最终主观得分进行数据统计处理;所述由主观评价分项得分模块输入的分项主观得分,包括从场景背景音的各项特征属性分别给出的分项主观得分和从关注音的各项特征属性分别给出的分项主观得分。

2.一种基于音频关注度的音频质量评价方法,其特征在于,包括以下步骤:

步骤1,根据场景选取作为参考的原始音频测试序列集,记为原始测试集A;

步骤2,对步骤1所得原始测试集A中的序列进行多种不同失真处理,得到失真音频序列集,记为失真序列集B,失真处理的种数记为n,原始测试集A中每一个序列分别对应失真序列集B中的n种失真序列;

步骤3,从原始测试集A当中选取一个序列ai,同时从失真序列集B中挑出所有由序列ai得到的失真序列b1(ai),b2(ai),.......,bn(ai);

步骤4,确定序列ai的场景背景音类型信息和关注音类型信息,场景背景音的类型记为br,关注音的类型记为attention;

步骤5,提取场景背景音和关注音的各自特征属性并分离,场景背景音的特征属性记为feature(br),关注音的特征属性记为feature(attention);

步骤6,根据步骤5获得的特征属性feature(br)和feature(attention),对失真序列b1(ai),b2(ai),.......,bn(ai)分别给出分项主观得分;

步骤7,根据对每一个失真序列bj(ai)的分项主观得分,得出最终主观得分sdg[bj(ai)],j取1~n;

步骤8,返回步骤3,从原始测试集A当中选取下一个序列,重复执行步骤3~7,直到对原始测试集A中所有序列处理完,对每次执行步骤7所得最终主观得分sdg[bj(ai)]进行数据统计处理。

说明书 :

基于音频关注度的音频质量评价系统及方法

技术领域

[0001] 本发明涉及音频质量评价领域,尤其涉及基于音频关注度的音频质量评价系统及方法。

背景技术

[0002] 随着音频信号应用领域的扩大和音频信号在人们生活中占据越来越重要的地位,对音频信号评价方法也是不断的发展,目前国际上的音频质量评价主要分为主观评价和客观评价两类,由于人作为音频信号的最终接受者,所以主观评价能最真实的反映失真音频信号的好坏,可以作为最终的评价结果,但是主观评价的结果容易受听音者的生理和心理状况以及听音场景信息不同而影响最终的评价结果,导致测评者的打分结果不稳定。
[0003] 目前的主观评价方法设计基本都涵盖了人类自底向上的生理反应特性,心理学研究表明人类听觉具有自底向上和自顶向下两种关注机制。对于不同的声音场景,人类选择关注声音以及关注程度会有所不同,并且在有先验知识与无先验知识情况下的关注结果也会不同。现有的音频质量评测体系虽然有较准确的评价方法,但现有方法主要基于人耳的听觉掩蔽模型,没有考虑与应用场景相关的心理选择关注机制,从而不能真实、准确地反映人类听觉效应;另一方面现有方法一定程度上受听音者的情绪、偏好等因素影响,致使评价结果不稳定。因此为了保证音频质量主观评价方法与人类听觉效应相一致,并使评价结果更加准确与稳定,需将心理关注选择机制引入主观质量评价,建立一种基于场景分类的分角度音频主观质量评价方法,以此反映人类真实的听觉特性,进而保证听觉关注度客观评价模型准确地建立。

发明内容

[0004] 本发明的目的是提供基于音频关注度的音频质量评价技术方案,以解决目前主观评价测试结果不稳定的问题。
[0005] 为达到上述目的,本发明提供一种基于音频关注度的音频质量评价系统,包括关注音及背景音特征分离提取模块、主观评价分项得分模块及关注音主观评分模块,[0006] 所述关注音及背景音特征分离提取模块,用于根据输入的场景背景音类型信息和关注音类型信息,分别提取场景背景音的特征属性和关注音的特征属性,输出给主观评价分项得分模块;
[0007] 所述主观评价分项得分模块,用于根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性,从场景背景音的各项特征属性分别给出分项主观得分,从关注音的各项特征属性分别给出分项主观得分,并输出到关注音主观评分模块;
[0008] 所述关注音主观评分模块,用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分,并对最终主观得分进行数据统计处理。
[0009] 本发明还提供相应基于音频关注度的音频质量评价方法,包括以下步骤: [0010] 步骤1,根据场景选取作为参考的原始音频测试序列集,记为原始测试集A;
[0011] 步骤2,对步骤1所得原始测试集A中的序列进行多种不同失真处理,得到失真音频序列集,记为失真序列集B,失真处理的种数记为n,原始测试集A中每一个序列分别对应失真序列集B中的n种失真序列;
[0012] 步 骤 3, 从 原 始 测 试 集 A 当 中 选 取 一 个 序 列,同时从失真序列集B中挑出所有由序列 得到的失真序列 ;
[0013] 步骤4,确定序列 的场景背景音类型信息和关注音类型信息,场景背景音的类型记为br,关注音的类型记为attention;
[0014] 步骤5,提取场景背景音和关注音的各自特征属性并分离,场景背景音的特征属性记为feature(br), 关注音的特征属性记为feature(attention);
[0015] 步骤6,根据步骤5获得的特征属性feature(br)和feature(attention),对失真序列 分别给出分项主观得分;
[0016] 步骤7,根据对每一个失真序列 的分项主观得分,得出最终主观得分,j取1~n;
[0017] 步骤8,返回步骤3,从原始测试集A当中选取下一个序列,重复执行步骤3~7,直到对原始测试集A中所有序列处理完,对每次执行步骤7所得最终主观得分 进行数据统计处理。
[0018] 本发明根据音频关注度模型,提出基于场景信息的关注度评价方案,克服了现有主观评价不准确和不稳定的问题;首创通过结合场景信息进行主观评价,更符合人类主观评价的心理打分原则。本发明的系统结构简单,实施便捷。

附图说明

[0019] 图1是本发明的方法流程图。

具体实施方式

[0020] 下面结合实施例对本发明作进一步说明:
[0021] 本发明实施例所提供基于音频关注度的音频质量评价系统,具体包括以下部分,具体实施时可以采用软件固化技术实现各模块。
[0022] 关注音及背景音特征分离提取模块:根据输入的场景背景音类型信息和关注音类型信息,分别提取场景背景音的特征属性和关注音的特征属性,输出给主观评价分项得分模块。本模块的输入是场景要义信息,包括场景背景音类型信息和关注音类型信息。场景要义信息在作为关注音及背景音特征分割提取模块的输入同时,还可以用来告知测听者,作为测听者的先验测听知识。例如,输入信息包括:场景背景音类型为语音,关注音类型为音乐。从而将表征语音的特征属性——基音周期和带宽确定为场景背景音的特征属性,将表征音乐的特征属性——谐波和带宽确定为关注音的特征属性,然后输出到主观评价分项得分模块。
[0023] 主观评价分项得分模块:主观评价分项得分模块,根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性,从场景背景音的各项特征属性分别给出分项主观得分,从关注音的各项特征属性分别给出分项主观得分,并输出到关注音主观评分模块。可以采用现有的原始音频测试序列集、失真音频序列集,直接作为本模块输入。也可以如方法中的步骤1和2,自行制作原始音频测试序列集、失真音频序列集,作为本模块输入。一般从声音的谐波、带宽圆润度、清晰度、真实感、空间感等方面分别给出分项主观得分,能够说明声音质量。本模块则是根据关注音及背景音特征分离提取模块确定的特征属性进行评价。例如场景背景音的特征属性为基音周期和带宽,则分别从基音周期和带宽这两个方面给出分项主观得分;关注音的特征属性为谐波和带宽,则分别从谐波和带宽这两个方面给出分项主观得分。
[0024] 关注音主观评分模块:用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分,并对主观得分数据进行统计处理。最终主观得分是融合分项主观得分后,体现音频质量主观评价的分数。具体融合方式可以采用现有的多元线性回归分析技术或者人工神经网络模型技术。本发明建议采用人工神经网络模型实现,人工神经网络模型的建立可以通过预先根据场景要义建立相应的训练集序列,以分项主观得分加权逼近最终主观得分,就能训练出一系列基于场景的加权值。
[0025] 参见附图1,本发明提供的基于关注度的主观评价方法,可以采用计算机软件技术手段自动实现流程,具体包括以下步骤:
[0026] 步骤1,根据场景选取作为参考的原始音频测试序列集,记为原始测试集A。具体制作原始音频测试序列集时,序列集的选取依赖于场景,对场景中应包含的典型声音类型进行混合,记为原始测试集A。
[0027] 步骤2,对步骤1所得原始测试集A中的序列进行多种不同失真处理,得到失真音频序列集,记为失真序列集B,失真处理的种数记为n,原始测试集A中每一个序列分别对应失真序列集B中的n种失真序列。原始音频测试序列集作为参考,失真音频序列集就是待测目标。具体实施时,失真处理可以选用现有测试编码器实现,失真种类根据编码器跨度范围不同。因此n值根据具体采用的编码器或者其他音频系统的情况而定。
[0028] 步骤3,从原始测试集A当中选取一个序列 ,同时从失真序列集B中挑出所有由序列 得到的失真序列 。
[0029] 步骤4,确定序列 的场景要义信息,包括场景背景音类型信息和关注音类型信息,场景背景音的类型记为br,关注音的类型记为attention。例如,场景背景音的类型br为语音,关注音的类型attention为音乐。
[0030] 步骤5,提取场景背景音和关注音的各自特征属性并分离,场景背景音的特征属性记为feature(br), 关注音的特征属性记为feature(attention) 。例如,场景背景音的特征属性为基音周期和带宽,采用属性数组feature(br)记载,将关注音的特征属性为谐波和带宽,采用属性数组feature(attention)记载。
[0031] 步骤6,根据步骤5获得的特征属性feature(br)和feature(attention),对失真序列 分别给出分项主观得分。
[0032] 例如,根 据场 景背景 音的特 征属性 之一 基音周 期,对失 真序 列分别给出场景背景音的分项主观得分,根据场景背景音的特征属性之一带宽,对失真序列 分别给出场景背景音的分项主观得分;根据
关注音的特征属性之一谐波,对失真序列 分别给出关注音的分项主
观得分,根据关注音的特征属性之一带宽,对失真序列 分别给出关
注音的分项主观得分。
[0033] 具体实施时可以采用这种方式给出分项主观得分:首先选取12个专业测听者,然后进行训练测试,告知测听者场景信息,让测听者听完序列 和后,对每一个失真序列 从声音的各项特征属性分别给出分项主
观得分。该训练测试步骤的评分不作最后统计,目的是让测听者熟悉场景和测听序列。最后进行评分测试,过程为在训练测试步骤完之后,让测听者回到测试主界面,在被告知场景信息的情况下,让测听者听完序列 和 后,对失真序列
依次从声音的各项特征属性分别给出分项主观得分,该评分测试步
骤给出的评分为有效评分。
[0034] 步骤7,根据对每一个失真序列 的分项主观得分,得出最终主观得分,j取1~n。具体融合方式可以采用现有的多元线性回归分析技术或者人工神经网络模型技术。
[0035] 步骤8,返回步骤3,从原始测试集A当中选取下一个序列,重复执行步骤3~7,直到对原始测试集A中所有序列处理完,对每次执行步骤7所得最终主观得分 进行数据统计处理。具体统计处理的方式可由用户根据需要指定。
[0036] 下面进一步以具体实施例对本发明的方法技术方案作进一步说明:
[0037] 步骤一,选取交通路边场景信息的一组12个序列,这12个序列包含路边的一些典型声音,包括汽车喇叭声和语音,其中关注音为语音,这12个序列构成的原始测试集记为A。
[0038] 步骤二,对步骤一所得12个序列分别进行不同失真的处理,处理编码器选择AMR-WB+编码器。
[0039] 实施例中对于每一个序列分别在12kbps、16kbps、24kbps和48kbps码率下进行这四种失真处理,得到的失真序列分别记为 ,共同构成失真序列集B。
[0040] 步骤三,从原始测试集A当中选取一个序列 ,同时从失真序列集B中挑出所有由得到的失真序列 。可以将原始测试集A的序列记为 ,其中任一序列记为 ,i取1~12。由于是每次从原始测试集A当中选取一个序列进行处理,直到原始测试集A中所有序列处理完,可以从序列 开始执行步骤三~七,然后取序列开始执行步骤三~七…直到取序列 执行步骤三~七完成。
[0041] 步骤四,按照选取的序列 ,确定 的场景信息,在此实施例中场景背景音的类型br为汽车喇叭声,关注音的类型attention为语音。
[0042] 步骤五,根据步骤四所确定场景背景音的类型br和关注音的类型attention,提取场景背景音和关注音各自的属性特征并分离,场景背景音的特征属性记为feature(br) ,关注音的特征属性记为feature(attention)。汽车喇叭声的特征属性为带宽和白噪声,在数组feature(br)中记载;语音的特征属性为基音周期和带宽,在数组feature(attention)中记载。
[0043] 步骤六,根据步骤五获得的各项特征属性,对失真序列 分别给出分项主观得分。实施例的主观评价平台选取ITU-T标准的MUSHRA主观测试平台。
[0044] 实 施 例 根 据 场 景 背 景 音 的 特 征 属 性 之 一 带 宽,对 失 真 序 列分别给出场景背景音的分项主观得分,根据场景背景音的特征属性之一白噪声,对失真序列 分别给出场景背景音的分项主观
得分;然后根据关注音的特征属性之一基音周期,对失真序列
分别给出关注音的分项主观得分,根据关注音的特征属性之一带宽,对失真序列分别给出关注音的分项主观得分。因此对每一个失真序列 总
共得到4个分项主观得分。
[0045] 步骤七,根据对每一个失真序列 的分项主观得分,得出最终主观得分,j取1~4。
[0046] 实施例通过运用人工神经网络模型实现融合,具体实施可参见相关现有技术,基本过程如下:
[0047] 建立人工神经网络模型,入口函数为
[0048] ,其中e 为数学常数,x为该函数的输入。
[0049] 该模型包含M个输入,并且神经网络模型的隐层中有N个节点。预先建立基于场景要义的序列集,对模型映射过程中输入层的两个限制因子 和 、输入层的加权系数 、输出层的加权系数 以及输出层的两个限制因子 和 进行训练,得到一系列基于场景的系数集合。
[0050] 将步骤五所得分项主观得分作为神经网络模型的输入 输入给神经网络模型,根据预先建立序列集训练出来的相对应的一组系数,映射到一个索引(Distortion Index,DI)值:
[0051] ,
[0052] 其中 取0~M-1, 取0~N-1。因为对每一个失真序列 得到4个分项主观得分,M取值为4。N作为隐藏节点数,可以设为4。
[0053] 利用索引DI,最终计算出音频质量主观质量评价分数:
[0054] 。
[0055] 该分数为失真序列的最终主观得分。
[0056] 步骤八:返回步骤三,从原始测试集A当中选取下一个序列,重复执行步骤三~七,直到对原始测试集A中所有序列 处理完,对每次执行步骤七所得最终主观得分 进行数据统计处理。
[0057] 实施例处理对原始测试集A中所有12条序列分别得到的最终主观得分,以平均值等级和标准偏差实现统计。
[0058] MUSHRA代表平均意见分,DMUSHRA代表损伤平均意见分。95%置信区间用上下限表示。条件C的MUSHRA分等于该条件下所有听音人对所有语料评分的平均值,即:
[0059]
[0060] 其中 代表第t名听音人对条件C下的第l条语料的最终主观评分,i取1~12,j取1~4。公式中L代表测听语料中个数,原始测试集A中有12条序列,因此L=12,l 取1~12。公式中T代表测听人数,T=12,t 取1~12。条件C的得分标准差可以用下式计算:
[0061]
[0062] 条件C下, 个评分的95%置信区间为:
[0063] [0064] 其中 表示 服从t分布,查统计学当中的t分布表得结果, =0.05。
[0065] 以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变换或变型,因此所有等同的技术方案,都落入本发明的保护范围。