对人类头部的声学效应进行建模的方法转让专利

申请号 : CN202080015819.9

文献号 : CN113491136B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 海伦妮·巴乌大卫·E·罗博隆姆

申请人 : 谷歌有限责任公司

摘要 :

提供了一种对人类头部建模的方法。人类头部模型具有宽度和纵横比。纵横比定义独立于人类头部模型的大小的不同头部形状。所述方法包括以下步骤:基于射线追踪和多个半平面部分来形成高频头部模型;将高频头部模型与远场阴影滤波器结合;将远场阴影滤波器与近场补偿滤波器结合,以补偿远场和近场区域之间的声学变化;以及修改人类头部模型的纵横比,以配置从近乎球形变动到非常窄的实施方式的人类头部的可变几何模型。

权利要求 :

1.一种对人类头部的声学效应进行建模的方法,人类头部模型具有宽度和纵横比,所述纵横比定义独立于所述人类头部模型的大小的不同头部形状,其中,所述人类头部模型被分割为多个半平面,其中所述多个半平面中的每个半平面在径向方向上从耳间轴延伸,所述方法包括以下步骤:基于射线追踪和所述多个半平面部分来形成高频头部模型;

将所述高频头部模型与远场阴影滤波器结合;

将所述远场阴影滤波器与近场补偿滤波器结合,以补偿远场区域和近场区域之间的声学变化;以及修改所述人类头部模型的所述纵横比,以配置从近乎球形变动到非常窄的实施方式的所述人类头部的可变几何模型。

2.根据权利要求1所述的方法,其中,所述人类头部的所述模型的所述宽度对应于所述人类头部的人体测量宽度。

3.根据权利要求1所述的方法,其中,所述半平面部分中的每个半平面部分与在Y轴方向上定向的前额半平面形成极角。

4.根据权利要求1所述的方法,其中,在考虑了内插之后,在从侧面查看时,所述人类头部的产生的几何模型具有大致卵形的形状。

5.根据权利要求1所述的方法,其中,所述半平面部分中的每个半平面部分是使用与半圆形形状结合的矩形形状形成的。

6.根据权利要求5所述的方法,其中,所述矩形形状具有宽度和高度,并且所述半圆形形状具有半径,并且其中,所述半圆形形状的半径等于所述矩形形状的宽度的一半。

7.根据权利要求1所述的方法,其中,所述半平面部分中的每个半平面部分是使用与半圆形形状结合的等腰梯形形状形成的。

8.根据权利要求7所述的方法,其中,所述等腰梯形形状具有宽度和高度,并且所述半圆形形状具有半径,并且其中,所述半圆形形状的半径大于所述等腰梯形形状的宽度的一半。

9.根据权利要求1所述的方法,其中,所述远场阴影滤波器考虑了所述人类头部模型的所述形状的可变性。

10.根据权利要求1所述的方法,其中,所述近场补偿滤波器被配置为考虑随着虚拟源接近所述人类头部时耳间水平差的大变化,尤其是在低频和针对单侧源时。

11.一种对人类头部的声学效应进行建模的方法,所述人类头部具有宽度和纵横比,所述纵横比定义了独立于人类头部模型的大小的不同头部形状,其中,所述人类头部模型被分割为多个半平面,其中所述多个半平面中的每个半平面在径向方向上从耳间轴延伸,所述方法包括以下步骤:基于射线追踪和所述多个半平面部分来形成高频头部模型;

将所述高频头部模型与远场阴影滤波器结合;以及

将所述远场阴影滤波器与近场补偿滤波器结合,以补偿远场区域和近场区域之间的声学变化;

其中,所述人类头部的所述模型的宽度对应于所述人类头部的人体测量宽度。

12.根据权利要求11所述的方法,其中,人类头部模型能够从近乎球形变化到非常窄的实施方式。

13.根据权利要求11所述的方法,其中,所述半平面部分中的每个半平面部分与在Y轴方向上定向的前额半平面形成极角。

14.根据权利要求11所述的方法,其中,在考虑了内插之后,在从侧面查看时,所述人类头部的产生的几何模型具有大致卵形的形状。

15.根据权利要求11所述的方法,其中,所述半平面部分中的每个半平面部分是使用与半圆形形状结合的矩形形状形成的。

16.根据权利要求15所述的方法,其中,所述矩形形状具有宽度和高度,并且所述半圆形形状具有半径,并且其中,所述半圆形形状的半径等于所述矩形形状的宽度的1/2。

17.根据权利要求11所述的方法,其中,所述半平面部分中的每个半平面部分是使用与半圆形形状结合的等腰梯形形状形成的。

18.根据权利要求17所述的方法,其中,所述等腰梯形形状具有宽度和高度,并且所述半圆形形状具有半径,并且其中,所述半圆形形状的半径大于所述等腰梯形形状的宽度的一半。

19.根据权利要求11所述的方法,其中,所述远场阴影滤波器考虑所述人类头部模型的所述形状的可变性。

20.根据权利要求11所述的方法,其中,所述近场补偿滤波器被配置为考虑随着虚拟源接近所述人类头部时耳间水平差的大变化,尤其是在低频和针对单侧源时。

说明书 :

对人类头部的声学效应进行建模的方法

[0001] 相关申请
[0002] 本申请要求于2019年3月1日提交的美国临时专利申请号62/812,485的权益,其公开内容通过引用全部并入本文。

背景技术

[0003] 头部相关传递函数(以下称为“HRTF”)是声波从声源传播到人耳时与人体相互作用的测量。这种相互作用的非限制性示例包括头部的声影、肩部的声音反射或者由耳朵外部的耳廓引起的共振和凹陷(notch)。
[0004] HRTF可以随着声源的方向、距声源的距离、声源的频率和收听者的形态而变化。HRTF可以被用于虚拟听觉环境中,以通过耳机对声源进行空间化。
[0005] 常规测量的HRTF可以被认为是包含与不同身体部位联系的所有组成声学过程的“黑匣子”。在其他实例中,HRTF的结构模型试图分解这些声学过程,并使用数字滤波器和延迟对它们进行单独建模。当测量不可用时,结构模型可以被用于合成收听者的HRTF。
[0006] 人类头部的声学效应可以包括延迟到达时间和声波在对侧耳朵的阴影,从而创建耳间时间差(以下称为“ITD”)和耳间水平差(以下称为“ILD”)。ITD和ILD的量可以随着声源的方向、距离和频率以及人类头部的大小和形状而变化。作为HRTF结构模型的一个非限制性部分,人类头部的建模旨在相对于声源的位置和频率以及人类头部的形态准确地估计ITD和ILD的量。
[0007] 如果对人类头部的声学效应进行建模的方法可以被改进,那将是有利的。

发明内容

[0008] 应该了解的是,此发明内容被提供来以简化的形式介绍对概念的选择,这些概念在下面在详细描述中进一步描述。此发明内容不旨在标识本公开的关键特征或基本特征,也不旨在限制对人类头部的声学效应进行建模的方法的范围。
[0009] 以上目的以及未具体枚举的其他目的是通过对人类头部进行建模的方法来实现的。人类头部模型具有宽度和纵横比。纵横比定义了独立于人类头部模型的大小的不同头部形状。该方法包括以下步骤:基于射线追踪和多个半平面部分来形成高频头部模型;将高频头部模型与远场阴影滤波器结合;将远场阴影滤波器与近场补偿滤波器结合,以补偿远场和近场区域之间的声学变化;以及修改人类头部模型的纵横比,以配置从近乎球形到非常窄的实施方式的人类头部的可变几何模型。
[0010] 以上目的以及未具体枚举的其他目的也是通过对人类头部进行建模的方法来实现的。人类头部模型具有宽度和纵横比。纵横比定义了独立于人类头部模型的大小的不同头部形状。该方法包括以下步骤:基于射线追踪和多个半平面部分来形成高频头部模型;将高频头部模型与远场阴影滤波器结合;将远场阴影滤波器与近场补偿滤波器结合,以补偿远场和近场区域之间的声学变化。人类头部模型的宽度对应于人类头部的人体测量宽度。
[0011] 对本领域技术人员而言,当鉴于附图阅读时,对人类头部的声学效应进行建模的方法的各种目的和优点将通过以下详细描述而变得显而易见。

附图说明

[0012] 专利或申请文件包含以彩色执行的至少一个附图。本专利或专利申请公开的具有彩色附图的副本将在请求和支付必要费用后由专利局提供。
[0013] 图1是图示了在对人类头部进行建模的方法中使用的元素的图表。
[0014] 图2是人类头部的几何模型的前视图。
[0015] 图3A是图示了图2的人类头部的几何模型的侧视图和多个叠加的半平面的图表。
[0016] 图3B是图2的人类头部的几何模型的透视图,其图示了由单独的半平面形成的极角。
[0017] 图3C是图示了考虑内插后图2的人类头部的几何模型的图表,该几何模型在从侧面查看时具有卵形形状。
[0018] 图4A是图3B的人类头部的几何模型的透视图,其图示了由与半圆形形状结合的矩形形状形成的半平面16a的第一实施方式。
[0019] 图4B是半平面16a的第二实施方式的前视图,该半平面16a由与半圆形形状结合的等腰梯形形状形成。
[0020] 图5A是描绘了在不同频率下的耳间时间差(ITD)的模型和测量值的彩色图。
[0021] 图5B是描绘了针对水平平面中的不同方位具有躯干的人体模型头部的头部相关传递函数(HRTF)的测量幅度的彩色图。
[0022] 图5C是描绘了针对水平平面中的不同方位的头部模型的声学参考的头部相关传递函数(HRTF)的幅度的彩色图。
[0023] 图5D是描绘了针对水平平面中的不同方位的头部相关传递函数(HRTF)的模型幅度的彩色图。
[0024] 图5E是描绘了根据仰角和方位角的阿尔法分布的彩色图。

具体实施方式

[0025] 对人类头部的声学效应进行建模的方法现在将偶尔参照具体实施方式来描述。然而,对人类头部的声学效应进行建模的方法可以以不同的形式实施,并且不应被解释为限于本文陈述的实施方式。相反,这些实施方式被提供,使得本公开将是彻底且完整的,并且将向本领域技术人员充分传达对人类头部的声学效应进行建模的方法的范围。
[0026] 除非另外定义,否则本文使用的所有技术和科学术语具有与对人类头部的声学效应进行建模的方法所属领域的普通技术人员通常理解的相同的含义。本文在对人类头部的声学效应进行建模的方法的描述中使用的术语仅用于描述特定实施方式,并且不旨在限制对人类头部的声学效应进行建模的方法。如在对人类头部的声学效应进行建模的方法的方法描述和所附权利要求中使用的,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另外清晰地指示。
[0027] 除非另外指示,否则在说明书和权利要求中使用的表达诸如长度、宽度、高度等尺寸的量的所有数字应被理解为在所有实例中都被词项“大约”修饰。因此,除非另外指示,否则在说明书和权利要求中陈述的数值特性是近似值,其可以取决于在对人类头部的声学效应进行建模的方法的实施方式中寻求获得的期望特性而变化。尽管陈述对人类头部的声学效应进行建模的方法的广泛范围的数值范围和参数是近似值,但在具体示例中陈述的数值被尽可能精确地报告。然而,任何数值都固有地包含某些误差,这些误差必然由存在于其相应测量中的误差产生。
[0028] 现在参照图1,描述和附图公开了对人类头部的声学效应进行建模以用于向人耳传送双耳信号的新颖方法2。通常,对人类头部的声学效应进行建模的新颖方法2包含三个分立元素:1)基于射线追踪和半平面部分的高频头部模型4(以下称为“高频模型”),2)基于三维(以下称为“3D”)头部模型的声学测量或3D头部模型的数值模拟(以下称为“头部模型的声学参考”)的远场阴影滤波器6,以及3)基于头部模型的声学参考并且被配置为补偿远场和近场区域之间的声学变化的近场补偿滤波器8。如本文使用的,术语“远场区域”被定义为表示位于距头部模型中心一米或更远距离的源。如本文使用的,术语“近场区域”被定义为表示位于距头部模型中心小于一米距离的源。
[0029] 再次参照图1并且就高频头部模型4而言,常规的射线追踪方法假设到耳朵的几何路径相当于声波到达同一耳朵的时间。基于射线追踪的常规头部建模方法可以采用简单的形状,诸如球体或椭圆体。已经确定,这种方法在大约2kHz以上对于人类头部大小的对象是有效的,并且可以被用于预测高频耳间时间差(ITD)。
[0030] 再次参照图1,在其他常规头部建模方法中,球形和椭圆形头部模型的几何形状被优化,以适合声学测量的高频耳间时间差(ITD)。示出了当向耳间轴向后和向上位移时,球形模型最适合声学测量。这会导致测量参考(耳间轴)和模型原点之间存在差异。类似的性能是从椭圆头部模型获得的。尽管椭圆头部模型仅被定义为高频模型,但球形头部模型包含上述三个分立元素。然而,球形头部模型并不能充分地近似人类头部形状。因此,球形头部模型不能准确地对人类头部的ITD进行建模,并且所得尺寸无法容易地与拟人化的人类头部尺寸相关。
[0031] 现在参照图2,人类头部10的几何模型被示出。人类头部10的几何模型可以被用于预测到单耳的高频到达时间。人类头部10的几何模型包括耳道的左右入口12a、12b,每个入口位于头部的相对的左侧14a和右侧14b。人类头部10的几何模型包括耳间轴A‑‑A。如本文使用的,术语“耳间轴”被定义为在耳道的左右入口12a、12b之间延伸的轴。
[0032] 现在参照图3A,人类头部10、耳道入口12a和耳间轴A‑‑A的几何模型被图示。与常规的球形或椭圆形模型相比,人类头部10的几何模型被分割为期望的多个半平面16a至16∞,其中半平面16a至16∞中的每个半平面在径向方向上从耳间轴A‑‑A延伸。半平面16a至
16∞的累积定义了人类头部的形状。
[0033] 现在参照图3B,半平面16a至16∞中的每个半平面形成不同的极角αa至α∞。如本文使用的,术语“极角”被定义为在半平面和沿着Y轴方向定向并从耳间轴A‑‑A径向延伸的前额半平面16fp之间形成的角度。
[0034] 现在参照图3C,在没有半平面16a至16∞并且考虑了内插之后,所得的人类头部10的几何模型被图示。当从侧面查看时,所得的人类头部的几何模型具有大致卵形的形状。
[0035] 现在参照图4A,半平面16a的第一实施方式被图示。半平面16a的到达时间使用与半圆形形状22结合的矩形形状20建模。矩形形状具有宽度a和高度b。半圆形形状22具有半径c,其中半径c等于矩形20的宽度a的一半(1/2)。在某些实例中,半径c可以大于宽度a的一半(1/2),在这种情况下,矩形形状20可以具有其他形状,诸如等腰梯形形状的非限制性示例,如图4B所示并在下面描述的。宽度a、高度b和半径c的尺寸组合旨在非常近似拟人化的人类头部测量。在所图示的实施方式中,宽度a在约12.0cm至约17.0cm的范围内,高度b在约0.0cm至约13.0cm的范围内,并且半径c在约6.0cm至约10cm的范围内。然而,在其他实施方式中,宽度a可以小于约12.0cm或大于约17.0cm,高度b可以大于约13.0cm,并且半径c可以小于约6.0cm或大于约10.0cm,足以使所得的形状非常近似拟人化的人类头部测量。
[0036] 现在参照图4B,半平面116a的第二实施方式被图示。半平面116a的形状不同于图4A所示的半平面16a。不拘泥于理论,相信半平面116a可以适应特定的头部大小,并且可以更好地匹配耳朵上方和后面的人类头部形状。在该实施方式中,半平面116a使用与半圆形形状122结合的等腰梯形形状120建模。等腰梯形形状120具有底宽a、高度b和腰(leg)高b’。
等腰梯形形状120的底宽a等于矩形形状20的底宽a,如图4A所示并在上面描述的。半圆形形状122具有半径c,其中半径c大于等腰梯形形状120的底宽a的一半(1/2)。底宽a、高度b、腰高b’和半径c的尺寸组合旨在非常近似拟人化的人类头部测量。在所图示的实施方式中,腰高b’在约0.0cm至约13.0cm的范围内。然而,在其他实施方式中,腰高b’可以大于约13.0cm,足以使所得形状非常近似拟人化的人类头部测量。
[0037] 再次参照图2,拟人化的头部宽度hw将人类头部10的几何模型的宽度定义为耳道的左右入口12a、12b之间的耳间轴的长度。应该了解的是,拟人化的头部宽度hw不包括耳廓。
[0038] 再次参照图3A,所有的半平面16a至16∞都具有相同的宽度但是不同的长度。如本文使用的,术语“半平面的长度”被定义为表示矩形或梯形高度b与半圆22、122的半径c之和。考虑到内插,半平面16a至16∞定义了人类头部模型的形状。独立于人类头部模型的宽度,人类头部模型的纵横比可以被修改。如本文使用的,术语“纵横比”被定义为半平面长度与人类头部模型宽度的一半的比率。修改人类头部模型的纵横比允许从近乎球形到非常窄的实施方式的人类头部10的可配置几何模型。人类头部10的几何模型的原点是耳道入口12a、12b之间在耳间轴A‑‑A上的中间点,导致与声学测量一致的参考。
[0039] 特别注意定义对应于物理形状的人类头部10的几何模型。在理想情况下,该物理形状将对应于人类头部,并且有利地允许对射线追踪不预测的现象进行声学测量或数值模拟。这种现象的非限制性示例是低频相位特性、声影和近场阴影表现。
[0040] 类似于常规模型,本头部模型几何形状被优化,以适合声学测量的高频ITD。为了更好地与测量保持一致并确保所得的最优形状类似于人类头部,对预测的高频到达时间的修改被引入,以考虑影响传播路径的三个分量:1)由于耳廓的存在而产生的附加传播路径,2)头部周围的多个传播路径,以及3)耳朵上方和后面的附加人类头部宽度。
[0041] 一旦头部模型几何形状被定义,头部模型的声学测量和/或数值模拟就可以针对多个源位置进行。声学测量和/或数值模拟可以针对多个头部模型大小、头部模型形状、头部模型宽度和头部模型纵横比以可以充分近似头部连续体的方式重复。进一步设想,头部模型基于拟人化的人类头部测量可以适用于特定的人类头部。
[0042] 再次参照图1和3A以及上面讨论的,高频头部模型4基于半平面16a至16∞和射线追踪公式,该公式预测相对于头部中心耳朵处的到达时间。射线追踪公式使用以下等式:
[0043] 如果 则
[0044] 或者
[0045] 如果 则
[0046] 其中θ是源和耳朵之间相对于头部中心的角度,a是矩形或梯形形状的宽度,b是矩形或梯形形状的高度,b’是等腰梯形的腰高,c是半圆的半径,并且Co是音速。在半平面由矩形和半圆组成的某些实例中,那么b’等于b。
[0047] 接下来,再次参照图1并且关于基于头部模型的声学参考的远场阴影滤波器6(以下称为“阴影滤波器”),已经发现刚性球体的常规射线追踪公式在大约2kHz以上可以提供准确的纯延迟。为了对人类头部的声影进行建模以及低频双耳时间差的增加,常规方法定义了1极点1零点阴影滤波器来增强常规的射线追踪公式。1极点1零点阴影滤波器由以下常规等式描述:
[0048]
[0049] 其中
[0050] 其中r是随头部大小变化的量。
[0051] 后续方法通过将滤波器特性与本领域已知的那些特性(以下称为“球形瑞利近似”)进行比较来修改这项工作,并匹配阴影特性、低频耳间时间差和空间变化。在所提出的方法中,相同的1极点1零点滤波器设计方法被并入;然而,α相对于声源位置的可变性被重新定义,以考虑人类头部10的新颖模型的形状。
[0052] 接下来,关于基于头部模型的声学测量的近场补偿滤波器8(以下称为“近场滤波器”),常规方法定义了补偿测量的远场HRTF的近场模型。在稍后的相关工作中,再次使用球形瑞利近似开发涉及这些方法的1极点1零点近似的方法。在这些现有技术实例中,当虚拟源接近刚性球体时,球形瑞利近似被用于预测近场响应。通过将这些谱变化与参考距离(1m)处的谱进行比较,“差分滤波器”可以被组成。在人类头部变化类似的假设下,这些差分滤波器可以被用于补偿测量的HRTF。
[0053] 所提出的近场滤波器8被配置为考虑随着虚拟源接近人类头部时的耳间水平差的大变化,尤其是在低频和单侧源时。以类似于上面讨论的以上远场滤波器的方式,所提出的近场滤波器8基于人类头部10的声学参考,如上面讨论的。近场滤波器8可以是本领域已知的任何期望和合适的配置。
[0054] 对人类头部的声学效应进行建模2以用于向人耳传送双耳信号的新颖方法2旨在准确地估计耳间时间差(ITD)和耳间水平差(ILD)的量。现在参照图5A至5E,方法2的结果被图示。首先参照图5A,描绘在不同频率下的耳间时间差(ITD)的图形被呈现在200中。图5A的图形200具有耳间时间差的竖直轴222(以μs为单位)和频率的水平轴224(以Hz为单位)。针对源位置(az,el)=(‑80.0),模型耳间时间差230(ITD)与测量的耳间时间差232(ITD)进行比较。类似地,针对源位置(az,el)=(‑45.0),模型耳间时间差234(ITD)与测量的耳间时间差236(ITD)进行比较。以类似方式,针对源位置(az,el)=(0.0),模型耳间时间差238(ITD)与测量的耳间时间差240(ITD)进行比较。进一步地,针对源位置(az,el)=(45.0),模型耳间时间差242(ITD)与测量的耳间时间差244(ITD)进行比较。最终,针对源位置(az,el)=(80.0),模型耳间时间差246(ITD)与测量的耳间时间差248(ITD)进行比较。如图5A中清晰地示出的,与人体模型头部(没有耳廓和躯干)的声学测量相比,对人类头部建模的新颖方法提供了在频率上的耳间时间差的准确预测。
[0055] 现在参照图5B,描绘针对水平平面(仰角0.0度)中的不同源方位具有躯干的人体模型头部的头部相关传递函数(HRTF)的测量幅度的图形被呈现在300中。
[0056] 现在参照图5C,描绘针对水平平面(仰角0.0度)中的不同源方位的头部模型的声学参考的头部相关传递函数(HRTF)的幅度的图形被呈现在400中。
[0057] 现在参照图5D,描绘针对水平平面(仰角0.0度)中的不同源方位的头部相关传递函数(HRTF)的模型幅度的图形被呈现在500中。
[0058] 现在参照图5B、5C和5D,图形300、400和500分别具有源方位角的竖直轴322、422和522(以度为单位)和分别具有频率的水平轴324、424和524(以Hz为单位)。对应于图形300、
400和500所图示的颜色的头部相关传递函数(HRTF)幅度(以dB为单位)是在位于图形300、
400和500右侧的竖直条330、430和530中指定的。
[0059] 如图5B、5C和5D中清晰地示出的,与没有耳廓但有躯干的人体模型头部的声学测量相比,对人类头部建模的新颖方法有利地提供了频率中的头部相关传递函数(HRTF)幅度的准确预测。在不拘泥于理论的情况下,相信的是,图形300所图示的测量与图形400所示的模型头部的声学参考之间的差异可以追溯到由于躯干的存在和肩部反射而在测量中观察到的波纹。进一步地,在不拘泥于理论的情况下,相信的是,图形500与图形400中所示的头部模型的声学参考之间的差异可以追溯到通过使用1极点1零点阴影滤波器进行的近似。
[0060] 现在参照图5E,根据声源位置(在方位和仰角上),描绘了考虑人类头部的新颖模型的形状的阿尔法分布的图形被呈现在600中。图形600具有源仰角的竖直轴622(以度为单位)和源方位角的水平轴624(以度为单位)。对应于以彩色呈现的图形600的阿尔法值(无单位)是在图形600右侧的竖直条630中指定的。
[0061] 与常规方法的偏离旨在有利地捕获人类头部的非球形特性。因此,该新颖方法对人类头部进行了更准确的建模,并且可以基于拟人化的头部测量来适用于特定的人类头部。
[0062] 根据专利法规的规定,对人类头部的声学效应建模的方法的原理和操作模式已经在某些实施方式中进行了解释和说明。然而,必须理解的是,在不偏离其精神或范围的情况下,对人类头部的声学效应建模的方法可以以不同于具体解释和说明的方式来实践。