一种基于定位修正的虚拟声像重建方法转让专利

申请号 : CN201910392966.7

文献号 : CN110166927B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 涂卫平翟双星郑佳玺余智勇万言

申请人 : 武汉大学

摘要 :

本发明提供了一种基于定位修正的虚拟声像重建方法,其中的方法包括:首先确定扬声器的方位和目标重建声像方位,然后基于矢量的幅度平移方法分配扬声器增益,进一步合成双耳信号并提取耳间线索,接着基于虚拟声像估计模型估计虚拟声像的方位,估计方位与目标方位对比,采用二分法调整扬声器的增益值,进而使估计方位与目标方位的偏差小于最小可听角,输出调整后的扬声器增益,以此来修正基于矢量的幅度平移方法。本发明实现了基于矢量的幅度平移重建的声像方位与目标方位一致的效果。

权利要求 :

1.一种基于定位修正的虚拟声像重建方法,其特征在于,包括以下步骤:步骤1:确定扬声器方位和目标方位,其中,所述扬声器的数量为2个或者3个,所述目标方位为期望重建的虚拟声像方位;

步骤2:根据所述的扬声器方位和目标方位,采用基于矢量的幅度平移方法为每个扬声器分配初始增益;

步骤3:根据扬声器增益值,通过求和定位准则合成初始的虚拟声像对应的双耳信号,提取耳间线索;

步骤4:将步骤3中提取的耳间线索输入到虚拟声像方位估计模型中,其中,所述的估计模型用来估计双耳信号表示的方位;

步骤5:判断虚拟声像方位估计模型的估计方位与目标方位是否一致,其中,所述的一致指的是估计方位与目标方位的差值在目标方位的最小可听角范围内,若上述估计方位与目标方位一致,则将当前扬声器增益作为基于矢量的幅度平移的修正增益;

步骤6:若上述估计方位与目标方位不一致,计算扬声器增益比,并对增益比区间进行划分,根据二分法确定中值增益比,并计算扬声器增益,重复步骤3~步骤6,其中所述的增益比为右扬声器增益与左扬声器增益的比值。

2.根据权利要求1所述方法,其特征在于,步骤3中所述提取耳间线索,具体包括:步骤3.1:根据每个扬声器的方位和目标方位选择对应的HRTF数据,其中,所述HRTF数据存储于HRTF数据库中,所述数据库中记录有每个空间位置对应的左右耳的HRTF数据;

步骤3.2:各扬声器增益作用于声源信号后得到各扬声器信号,各扬声器信号分别与左、右耳HRTF数据卷积后求和得到左、右耳信号;

步骤3.3:从左、右耳信号中提取耳间线索,所述耳间线索是用于声源位置定位的线索,包括双耳线索和单耳线索。

3.根据权利要求1所述的方法,其特征在于,步骤6中所述根据二分法确定中值增益比为采用二分法逐次逼近扬声器的修正增益,具体包括:步骤6.1:根据扬声器增益计算增益比,以增益比为临界点将原始增益区间划分为左右两个区间;

步骤6.2:根据目标方位与估计方位的偏差从步骤6.1所述的两个区间中选择一个增益比变化区间;

步骤6.3:根据增益比区间的左极限值和右极限值计算中值增益比,并根据增益归一化方式求解左右扬声器增益。

说明书 :

一种基于定位修正的虚拟声像重建方法

技术领域

[0001] 本发明涉及音频技术领域,特别是涉及一种基于定位修正的虚拟声像重建方法。

背景技术

[0002] 在虚拟现实中,实现逼真的声像空间感知体验,依赖于虚拟声像的感知无失真重建,所以如何提高虚拟声像重建的准确度成为国内外多媒体领域的研究热点之一。虚拟声像重建方法中应用最广泛的是幅度平移(Amplitude Panning,AP)技术。AP技术包括正弦定律平移技术、正切定律平移技术、基于矢量的幅度平移(Vector Base Amplitude Panning,基于矢量的幅度平移)和多声源的幅度平移技术(Multiple Base Amplitude Panning,MDAP)等。基于AP技术的虚拟声像重建采用简单的几何模型,通过建立听音点到各扬声器的方向矢量,基于矢量合成的方法为各扬声器分配增益,从而合成目标方位的声像。
[0003] AP技术虽然计算简单,主要基于扬声器与听音点构成简单几何模型,但是其未考虑到人头、躯干等在声音到双耳传输过程中滤波作用,导致估计方位与听者感知方位产生偏差,进一步导致合成的虚拟声像偏离目标声像。基于此,基于矢量的幅度平移技术需要进行修正研究。

发明内容

[0004] 本发明提供了一种基于定位修正的虚拟声像重建方法,用来修正基于矢量的幅度平移方法,使基于矢量的幅度平移重建的虚拟声像更加准确;该方法包括以下步骤:
[0005] 步骤1:确定扬声器方位和目标方位,其中,所述扬声器的数量为2个或者3个,所述目标方位为理想的期望重建的虚拟声像方位;
[0006] 步骤2:根据所述的扬声器方位和目标方位,采用基于矢量的幅度平移方法为每个扬声器分配初始增益;
[0007] 步骤3:根据扬声器增益值,通过求和定位准则合成初始的虚拟声像对应的双耳信号,提取耳间线索;
[0008] 步骤4:将步骤3中提取的耳间线索输入到现有的虚拟声像方位估计模型中,其中,所述的估计模型用来估计双耳信号表示的方位;
[0009] 步骤5:判断虚拟声像方位估计模型的估计方位与目标方位是否一致,其中,所述的“一致”指的是估计方位与目标方位的差值在目标方位的最小可听角范围内,若上述估计方位与目标方位一致,则将当前扬声器增益作为基于矢量的幅度平移的修正增益;
[0010] 步骤6:若上述估计方位与目标方位不一致,计算扬声器增益比,并对增益比区间进行划分,根据二分法确定中值增益比,并计算扬声器增益,重复步骤3~步骤6,其中所述的增益比为右扬声器增益与左扬声器增益的比值;
[0011] 作为优选,步骤3中所述提取耳间线索,具体包括:
[0012] 步骤3.1:根据每个扬声器的方位和目标方位选择对应的HRTF数据,其中,所述HRTF数据存储于HRTF数据库中,所述数据库中记录有每个空间位置对应的左右耳的HRTF数据;
[0013] 步骤3.2:各扬声器增益作用于声源信号后得到各扬声器信号,各扬声器信号分别与左、右耳HRTF数据卷积后求和得到左、右耳信号;
[0014] 步骤3.3:从左、右耳信号中提取耳间线索,所述耳间线索是用于声源位置定位的线索,包括双耳线索和单耳线索。
[0015] 作为优选,步骤6中所述根据二分法确定中值增益比为采用二分法逐次逼近扬声器的修正增益,具体包括:
[0016] 步骤6.1:根据扬声器增益计算增益比,以增益比为临界点将原始增益区间划分为左右两个区间;
[0017] 步骤6.2:根据目标方位与预测方位的偏差从步骤6.1所述的两个区间中选择一个增益比变化区间;
[0018] 步骤6.3:根据增益比区间的左极限值和右极限值计算中值增益比,并根据增益归一化方式求解左右扬声器增益。

附图说明

[0019] 图1:为本发明实施例的扬声器与人头空间位置图;
[0020] 图2:为左右扬声器合成双耳信号图;
[0021] 图3:为神经网络的结构图;
[0022] 图4:为本发明实施例的基于矢量的幅度平移修正流程图;
[0023] 图5:为本发明实施例的扬声器增益的调整方法图;
[0024] 图6:为三个扬声器的空间位置图;
[0025] 图7:为估计声像在扬声器1与扬声器2平面的映射图;
[0026] 图8:为估计声像在扬声器2与扬声器3平面的映射图。

具体实施方式

[0027] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0028] 本发明提供了一种基于定位修正的虚拟声像重建方法,用以改善现有的基于矢量的幅度平移技术由于忽略了听者的声场扰动作用而导致重建的虚拟声像方位偏离了目标方位的问题。
[0029] 本申请实施例中的技术方案,总体思路如下:
[0030] 首先确定扬声器的方位和目标方位,然后采用基于矢量的幅度平移方法为各个扬声器分配相应的增益值,之后基于HRTF数据库合成虚拟声像并提取耳间线索,接着通过虚拟声像方位估计模型估计当前合成的虚拟声像的方位,接下来根据目标方位与估计方位的差异对扬声器增益进行二分法调整,之后不断迭代调整扬声器增益,直到目标方位与估计方位的差异小于最小可听角时,记录当前的扬声器增益,即为最终修正的扬声器增益。
[0031] 通过本发明提供的上述方法可知,本发明实时预测虚拟声像的方位,并采用二分法不断地调整扬声器增益从而实时改变虚拟声像方位,直到预测方位与目标方位的差值小于最小可听角时才终止。因此当虚拟声像方位估计模型的预测误差较小时,本发明提供的方法可有效地改善基于矢量的幅度平移定位偏差问题。而目前大多数的虚拟声像方位估计模型都有较优的预测性能。
[0032] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0033] 以下结合附图和实施例详细说明本发明技术方案。
[0034] 本发明提供一种基于定位修正的虚拟声像合成方法及装置,用以改善基于矢量的幅度平移方法合成的虚拟声像方位偏差较大的问题。实施例的实现流程包含以下步骤:
[0035] 步骤1:确定扬声器方位和目标方位,其中,所述扬声器的数量为2个或者3个,所述目标方位为期望重建的虚拟声像方位;
[0036] 步骤1中所述确定扬声器方位和目标方位具体为:
[0037] 基于矢量的幅度平移方法适用于两个或三个扬声器情况,以2个扬声器的情况为例,建立坐标系以人头为原点,2个扬声器位于以听音点(人头)为圆心的圆上,设人头正前方为0°,左右耳对应的方位分别为-90°和90°;2个扬声器的角度分别为-θ和θ,目标声像的方位为
[0038] 步骤2:根据所述的扬声器方位和目标方位(期望重建的虚拟声像方位),采用基于矢量的幅度平移计算每个扬声器的初始增益值;
[0039] 步骤2中所述根据所述的扬声器方位和目标方位采用基于矢量的幅度平移计算每个扬声器的初始增益值g1、g2为:
[0040] 具体来说,基于矢量的幅度平移方法的工作原理是给定2个或者3个扬声器距离听音点半径相同,假定虚拟声像与扬声器位于距离中心点半径相同的球面上,扬声器所在位置与中心点构成单位矢量,矢量合成出虚拟声像的单位矢量。
[0041] 在具体实施过程中,所述扬声器为2个,按扬声器的相对方位,可将扬声器称为左扬声器和右扬声器,则扬声器的初始增益可根据由基于矢量的幅度平移方法推导的公式如下:
[0042]
[0043]
[0044] 步骤3:根据扬声器增益值,通过求和定位准则合成初始的虚拟声像对应的双耳信号,提取耳间线索;
[0045] 步骤3中所述根据扬声器增益值,通过求和定位准则合成初始的虚拟声像对应的双耳信号,提取耳间线索为:
[0046] 根据每个扬声器的方位,确定对应的头相关传输函数(Head-Related Transfer Function,HRTF)其中,所述HRTF存储于HRTF数据库中,所述数据库中记录有每个空间位置对应的左右耳的HRTF,根据所述的扬声器方位得到对应的HRTF,并结合步骤2得到的扬声器的初始增益值,计算双扬声器在人耳处合成的双耳信号,并提取耳间线索;
[0047] 具体来说,是一种音效定位算法,利用脉冲信号,将自由场声波从声源到听音者双耳的传输过程,包括听音者的头部、耳廓和躯干等对声波的综合滤波记录下来,保存为HRTF数据库。不同的方位对应不同的HRTF,且HRTF与个体特征相关,HRTF数据库有CIPIC数据库、ARI数据库、PKU数据库、SADIE数据库等,每个库的数据量和采样精度不一样,可根据需要选择HRTF数据库。
[0048] 作为一种可选实施方式,扬声器包括左扬声器和右扬声器,选用的数据库为CIPIC数据库,步骤3中,在左右扬声器配置下,基于HRTF数据库合成虚拟声像并提取耳间线索,具体包括:
[0049] 步骤3.1:根据每个扬声器的方位和目标方位从CIPIC中选择对应的HRTF,其中,CIPIC库中记录有每个空间位置对应的左右耳的HRTF数据,共包含M=1250个空间位置;
[0050] 步骤3.2:根据左右扬声器方位对应的左右耳HRTF,并结合左右扬声器增益可计算得到左右扬声器合成的虚拟声像对应的双耳信号;
[0051] 具体来说,采用CIPIC HRTF数据库,设s为声源信号、左扬声器的增益为g1,右扬声器的增益为g2,因此,左扬声器信号为sl=s·g1,右扬声器信号为sr=s·g2;扬声器信号卷积左耳的HRTF可得到左耳信号,扬声器信号卷积右耳的HRTF可得到右耳信号;如图2所示,左耳信号为左右扬声器分别传输到左耳的信号al和bl的和;右耳信号为左右扬声器分别传输到右耳的信号ar和br的和。则左右耳信号可根据如下公式求得:
[0052] xl=s·g1·hrtfll+s·g2·hrtfrl
[0053] xr=s·g1·hrtflr+s·g2·hrtfrr
[0054] 其中定义xl为左耳信号,定义xr为右耳信号;定义hrtfll为左扬声器对应的左耳hrtf,定义hrtfrl为右扬声器对应的左耳hrtf,定义hrtflr为左扬声器对应的右耳hrtf,定义hrtfrr为右扬声器对应的右耳hrtf。
[0055] 步骤3.3:从双耳信号中提取耳间线索,所述耳间线索是人耳用于判断声源位置的线索,包括双耳线索和单耳线索等;
[0056] 具体来说,耳间线索包括双耳时间差(Interaural Time Difference,ITD)、双耳强度差(Interaural Level Difference,ILD)、双耳互相关函数(Cross Correlation Function,CCF)、单耳线索等。单耳线索是指单耳谱线索,这里用左右耳信号通过Gammatone滤波器后的能量值(Gammatone Filter Energy,GFE)来表示单耳谱线索。耳间线索的选取可根据需要选择。
[0057] 在具体实施过程中,将步骤3.1中取得的双耳信号分帧,取其中一帧的信号进行运算。
[0058] ILD的计算公式如下:
[0059]
[0060] 其中,Xl定义为左耳信号,Xr定义为右耳信号。
[0061] CCF的计算公式如下:
[0062]
[0063] 其中,xl(n)定义为左耳信号,xr(n)定义为右耳信号,n定义为第n时刻,τ定义为右耳信号相对左耳信号的时延,N定义为信号的总长度。
[0064] ITD值为CCF峰值处的时延差;GFE的取值为左右耳信号能量分别通过具有20个通道的gammatone滤波器组,最终可得到40个GFE值。
[0065] 步骤4:采用虚拟声像估计模型,对双耳信号所表示的声像方位进行估计,得到估计方位。
[0066] 具体来说,虚拟声像估计模型采用的是基于BP的神经网络模型的声像估计方法,所述的神经网络模型的输入是耳间线索、输出是对应的声像方位;网络结构如图3所示,包含一个输入层、两个隐藏层、一个输出层;输入层包含75个节点,隐藏层均包含151个节点,输出层为2个节点。在训练神经网络时,设置隐藏层的激活函数为sigmoid函数、学习率为0.001、迭代次数为350。经验证,神经网络估计的声像方位的平均误差小于最小可听角的平均值,认为神经网络模型定位是精准的。
[0067] 在具体实施过程中,将步骤3中提取的耳间线索输入到神经网络模型中,进一步得到估计方位。
[0068] 步骤5:判断虚拟声像方位估计模型的估计方位与目标方位是否一致,上述的“一致”指的是估计方位与目标方位的差值小于目标方位的最小可听角,若上述估计方位与目标方位一致,则将当前扬声器增益作为基于矢量的幅度平移的修正增益。
[0069] 具体来说,定义目标方位 减去估计方位 的差值为 若估计方位与目标方位差值 小于最小可听角(Minimum Audible Angle,MAA),则 满足如下公式时,输出当前扬声器增益。
[0070]
[0071] 步骤6:若上述估计方位与目标方位不一致,计算扬声器增益比,并对增益比区间进行划分,根据二分法确定中值增益比,并计算扬声器增益,重复步骤3~6,其中所述的增益比为右扬声器增益与左扬声器增益的比值。
[0072] 具体来说,通过二分法不断地调整扬声器的增益值,直到神经网络系统输出的估计方位与目标方位一致时,记录当前的扬声器增益,将其作为基于矢量的幅度平移的修正增益。
[0073] 在具体实施过程中,由于估计方位与目标方位不一致,即 大于MAA,调整扬声器增益的大致流程如图5所示。具体包括以下步骤:
[0074] 步骤6.1:首先计算当前扬声器的增益比值g,设置增益比的调整区间为[a,b],将增益比区间划分为两个区间,即[a,g]与[g,b];
[0075] 步骤6.2:若 则选择增益比区间为[a,g],若 则选择增益比区间为[g,b];
[0076] 步骤6.3:基于上述的增益比区间计算中值增益比,即计算增益比区间的左极限值和右极限值的平均值,将其作为中值增益比,之后根据增益归一化方式求解左右扬声器增益,重复重复步骤3~步骤6。
[0077] 在具体实施过程中,当扬声器为三个时,结合附图6至附图8所示,首先定义目标方位 在听音点与扬声器1和扬声器2构成的平面上映射的方位为 在听音点与扬声器2和扬声器3构成的平面上映射的方位为 估计方位 在听音点与扬声器1和扬声器2构成的平面上映射的方位为 在听音点与扬声器2和扬声器3构成的平面上映射的方位为扬声器调整步骤如下:
[0078] 定义 为 具体调节方式可按照扬声器为两个时所采用的二分法来调节,调节方法与步骤6.1~步骤6.3相同;使扬声器1与扬声器2合成的虚拟声像的方位 与 一致。
[0079] 定义 为 具体调节方式可按照扬声器为两个时所采用的二分法来调节,调节方法与步骤6.1~步骤6.3相同;使扬声器2与扬声器3合成的虚拟声像的方位 与一致。
[0080] 应当理解的是,本说明书未详细阐述的部分均属于现有技术。
[0081] 应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。