用于在音频系统中进行声音增强的系统和方法转让专利
申请号 : CN201910779629.3
文献号 : CN110858941B
文献日 : 2021-07-09
发明人 : 尼古拉斯·R·克拉克
申请人 : MIMI听力技术有限责任公司
摘要 :
权利要求 :
1.一种音频处理方法,其包括:从一个或多个用户接收适于导出所述一个或多个用户的听觉能力指示的信息;
基于所接收的信息,生成用于所述一个或多个用户的代表性听觉能力指示;
计算用于所述代表性听觉能力指示的多频带压缩音频处理参数集,所述计算包括:基于所述代表性听觉能力指示,确定至少第一锚定听觉能力指示和第二锚定听觉能力指示;
获得分别用于所述第一锚定听觉能力指示和所述第二锚定听觉能力指示的第一多频带压缩音频处理参数集和第二多频带压缩音频处理参数集;并且在所述第一多频带压缩音频处理参数集和所述第二多频带压缩音频处理参数集之间进行内插,所述内插基于所述代表性听觉能力指示、所述第一锚定听觉能力指示和所述第二锚定听觉能力指示;
基于经内插的多频带压缩音频处理参数集来配置声音个性化多频带压缩算法;
在娱乐系统上接收音频信号;
使用所配置的声音个性化多频带压缩算法来处理所述音频信号;并且从所述娱乐系统输出经处理的音频信号。
2.根据权利要求1所述的方法,其中适于导出听觉能力指示的所述信息包括所述一个或多个用户的人口统计信息,并且从所述人口统计信息确定所述代表性听觉能力指示。
3.根据权利要求2所述的方法,其中所述一个或多个用户的所述人口统计信息包括所述一个或多个用户的性别、年龄和出生日期中的至少一者。
4.根据权利要求1所述的方法,其中适于导出听觉能力指示的所述信息包括以下中的一个或多个:
所述一个或多个用户的音乐偏好;以及所述一个或多个用户的听觉测试结果。
5.根据权利要求2所述的方法,其中所述人口统计信息由所述一个或多个用户手动输入。
6.根据权利要求2所述的方法,其中从所述一个或多个用户的社交媒体帐户或从所述一个或多个用户的支持视频、照片、音乐回放、视频记录功能的个人帐户检索所述人口统计信息。
7.根据权利要求2所述的方法,其中使用语音识别算法或面部识别算法来探知所述一个或多个用户的所述人口统计信息。
8.根据权利要求1所述的方法,其中基于经内插的多频带压缩音频处理参数配置所述声音个性化多频带压缩算法包括调节以下中的一个或多个:在所述多频带压缩算法的每个子带中提供的动态范围压缩器的阈值、在所述多频带压缩算法的每个子带中提供的动态范围压缩器的比率值、以及在所述多频带压缩算法的每个子带中提供的增益值。
9.根据权利要求1所述的方法,其中接收所述音频信号包括:从存储设备或从发射器接收所述音频信号。
10.根据权利要求1所述的方法,其中计算用于所述代表性听觉能力指示的多频带压缩音频处理参数集包括:从用于不同锚定听觉能力指示的一个或多个多频带压缩音频处理参数中导出多频带压缩音频处理参数集。
11.根据权利要求1所述的方法,其中基于所述一个或多个用户的听觉测试结果,通过将所述听觉测试结果与用于不同听觉能力指示的代表性听觉测试结果进行比较并确定最接近的匹配,来确定所述代表性听觉能力指示。
12.根据权利要求11所述的方法,其中计算多频带压缩音频处理参数集包括:通过基于所述听觉测试结果而优化用于所述一个或多个用户的感知相关信息来确定多频带压缩音频处理参数集。
13.根据权利要求1所述的方法,其中在服务器处接收适于导出听觉能力指示的所述信息,在所述服务器处确定所述代表性听觉能力指示和所述音频处理参数集。
14.根据权利要求13所述的方法,还包括:将经内插的多频带压缩音频处理参数集从所述服务器传输到所述娱乐系统。
15.根据权利要求1所述的方法,其中所述娱乐系统包括控制单元和耳机,使得所述音频信号在所述控制单元或所述耳机上处理并从所述耳机输出。
16.根据权利要求1所述的方法,其中接收适合用以导出用于多个用户的听觉能力指示的信息,并且通过选择所述多个用户的最年轻的听觉能力指示来确定用于所述多个用户的所述代表性听觉能力指示。
17.一种音频处理系统,其包括:至少一个处理器;以及
至少一个存储器,其存储指令,所述指令在被执行时使所述至少一个处理器执行包括以下的动作:
从一个或多个用户接收适于导出所述一个或多个用户的听觉能力指示的信息;
基于所接收的信息,生成用于所述一个或多个用户的代表性听觉能力指示;
计算用于所述代表性听觉能力指示的多频带压缩音频处理参数集,所述计算包括:基于所述代表性听觉能力指示,确定至少第一锚定听觉能力指示和第二锚定听觉能力指示;
获得分别用于所述第一锚定听觉能力指示和所述第二锚定听觉能力指示的第一多频带压缩音频处理参数集和第二多频带压缩音频处理参数集;并且在所述第一多频带压缩音频处理参数集和所述第二多频带压缩音频处理参数集之间进行内插,所述内插基于所述代表性听觉能力指示、所述第一锚定听觉能力指示和所述第二锚定听觉能力指示;
基于经内插的多频带压缩音频处理参数集配置声音个性化多频带压缩算法;
在娱乐系统上接收音频信号;
使用所配置的声音个性化信号多频带压缩来处理所述音频信号;并且从所述娱乐系统输出经处理的音频信号。
18.一种非暂时性计算机可读存储介质,其存储包含指令的程序,所述指令在音频输出设备的处理器上被执行时使所述处理器执行包括以下的动作:从一个或多个用户接收适于导出所述一个或多个用户的听觉能力指示的信息;
基于所接收的信息,生成用于所述一个或多个用户的代表性听觉能力指示;
计算用于所述代表性听觉能力指示的多频带压缩音频处理参数集,所述计算包括:基于所述代表性听觉能力指示,确定至少第一锚定听觉能力指示和第二锚定听觉能力指示;
获得分别用于所述第一锚定听觉能力指示和所述第二锚定听觉能力指示的第一多频带压缩音频处理参数集和第二多频带压缩音频处理参数集;并且在所述第一多频带压缩音频处理参数集和所述第二多频带压缩音频处理参数集之间进行内插,所述内插基于所述代表性听觉能力指示、所述第一锚定听觉能力指示和所述第二锚定听觉能力指示;
基于经内插的多频带压缩音频处理参数集配置声音个性化多频带压缩算法;
在娱乐系统上接收音频信号;
使用所配置的声音个性化多频带压缩算法来处理所述音频信号;并且从所述娱乐系统输出经处理的音频信号。
说明书 :
用于在音频系统中进行声音增强的系统和方法
临时专利申请第62/721,417号和2019年3月19日提交的题为“SYSTEMS AND METHODS FOR
SOUND ENHANCEMENT IN AUDIO SYSTEMS(用于在音频系统中进行声音增强的系统和方法)”
的欧洲专利申请第19163624.0号的优先权,上述申请的公开内容均通过引用以其整体并入
本文。
技术领域
的用户)提供增强的听觉体验的系统和方法。
背景技术
多样性与报告听觉问题的个人的比例增加一同使得通用或默认音频信号将不太可能提供
最佳声音质量并且将不太可能在其充分潜力下被所有用户(甚至大多数用户)感知到。该问
题在一般音频内容的广泛环境下是明显的,并且在音乐内容和言语内容的环境下(例如,在
电影或音频书籍中)通常更加特别明显。
使用的技术,以便因此提供更有效的言语清晰度、更好的声音质量,并最终使给定用户更好
地享受声音内容。
发明内容
权利要求的特征可以以任何技术上有意义的方式组合,并且可以考虑来自以下说明书的解
释以及示出本公开技术的附加实施例的附图中的特征。
过音频系统个性化为一个或多个用户提供增强的听觉体验。
用户的代表性听觉能力指示;确定用于代表性听觉能力指示的音频处理参数集;以及基于
该音频处理参数集配置声音个性化信号处理算法。用于一个或多个用户的代表性听觉能力
指示可以是用于一个或多个用户的代表性听觉年龄。音频处理方法还可以包括:在娱乐系
统上接收音频信号;使用声音个性化信号处理算法来处理音频信号;并且从娱乐系统输出
经处理的音频信号。这允许基于一个或多个用户的听觉能力的个性化音频信号处理以及用
于一个或多个用户的增强的听觉体验。
觉年龄的指示。
访问可以自动提取和检索的人口统计信息。
觉年龄)来个性化。也可以使用其他参数化信号处理算法,例如,频率相关均衡器。
或有线通信系统(诸如无线电波、单播、多播或广播传输、线缆系统、互联网等)接收音频信
号。
中,该表存储用于不同听觉年龄的音频处理参数。
频处理参数集。
配,来确定代表性听觉能力指示。参考或代表性听觉测试结果可以是对应于特定的一个或
多个年龄的标准听觉测试结果。通过收集大型数据集,可以确定主要年龄趋势,从而允许对
个性化DSP算法的准确参数化。听觉测试结果可以基于超阈值测试、心理物理调谐曲线、掩
蔽阈值测试或涉及掩蔽范例、阈值测试和听力图的进一步测试中的至少一者。也可以使用
允许驱动听觉能力指示(例如听觉年龄)的其他听觉测试。
能力指示而对音频样本的感知熵进行的优化来确定音频处理参数。
到娱乐系统。
模块以配置信号处理算法,然后该信号处理算法处理该音频信号。
来确定用于多个用户的代表性听觉能力指示。如平均听觉年龄的其他方法也是可能的。
听觉谱的心理物理调谐曲线)导出。
计算的用户的听觉简况进行参数化的均衡技术。
关。个人的听觉能力可能与个人的生物性别相关:通常,男性个人的听觉可能比女性个人稍
差。
电器、将个人计算机的能力与支持视频、照片、音乐回放、视频记录功能、Hi‑Fi系统和扬声
器系统的软件应用程序相结合的设备。音频娱乐系统还可以指汽车中的娱乐系统、后座中
的机上娱乐系统,或者一般地指输出音频信号的任何设备,诸如智能手机、平板电脑、可听
设备、智能扬声器或计算机。
附图说明
解,这些附图仅描绘了本公开的示例性实施例,并且因此不应视为对其范围的限制,通过使
用附图进行的附加特征和细节来描述和解释本文的原理,其中:
具体实施方式
的情况下可以使用其他组件和配置。因此,以下描述和附图是说明性的,并且不应被解释为
限制本文描述的实施例的范围。描述了许多具体细节以提供对本公开的透彻理解。然而,在
某些情况下,没有描述众所周知的或常规细节以避免使描述模糊。对本公开中的一个或一
实施例的引用可以是对相同实施例或任何实施例的引用;并且,此类引用意味着实施例中
的至少一者。
例中”不一定都指代相同的实施例,也不是与其他实施例互斥的单独或替代实施例。此外,
描述了可以由一些实施例展示但不由其他实施例展示的各种特征。
任何一个或多个,并且对于是否在本文中详述或讨论术语,不应给予特别重要的意义。在某
些情况下,提供了某些术语的同义词。一个或多个同义词的叙述不排除使用其他同义词。本
说明书中任何地方的示例(包括本文所讨论的任何术语的示例)的使用仅是说明性的,并且
不旨在进一步限制本公开或任何示例术语的范围和含义。同样地,本公开不限于本说明书
中给出的多种实施例。
不应限制本公开的范围。除非另外定义,否则本文使用的技术和科学术语具有本公开所属
领域的普通技术人员通常理解的含义。在发生冲突的情况下,本文件(包括定义)将进行控
制。
组合,可以实现和获得本公开的特征和优点。根据以下描述和所附权利要求,本公开的这些
和其他特征将变得更加明显,或者可以通过实践本文阐述的原理来学习本公开的这些和其
他特征。
的情况下可以使用其他组件和配置。
的生物性别、年龄、出生日期或出生年份。适于导出听觉能力指示的信息还可以包括一个或
多个用户的音乐偏好。此外,适于导出听觉能力指示的信息可以包括一个或多个用户的听
觉测试结果。听觉测试结果可以包括超阈值测试结果,诸如涉及掩蔽范例(诸如掩蔽阈值测
试或心理声学测试)的测试结果、听力图或其他听觉测试结果。
出用户的听觉能力指示的信息。该信息也可以存储在设备的存储器中。该信息还可以从一
个或多个用户的社交媒体帐户或从一个或多个用户的支持视频、照片、音乐回放或视频记
录功能的个人帐户获得。接收适于导出听觉能力指示的信息的其他方式是通过语音识别算
法、面部识别算法、用户的生理参数、用户的音乐偏好或访问用户的时间和位置。步骤101可
以发生在服务器上或发生在位于诸如智能电话、平板电脑或任何娱乐设备的用户设备上的
离线模块上。
户相比反映用户的听觉能力的年龄。可以假设听觉年龄对应于用户的实际年龄。即,可以通
过将用户的出生日期减去当天的日期来计算用户的实际年龄。听觉年龄也可以从一个或多
个听觉测试结果来确定。在这种情况下,听觉年龄可以与用户的实际年龄相似或不同。在一
个实施例中,可以计算用户的听觉年龄和实际年龄的平均值,以便获得用户的听觉能力指
示。听觉能力指示可以是静态的,即生成一次然后保存,或者可以是动态的,即,生成并且然
后每当接收到与给定听觉能力指示(例如听觉简况)及其相关联的用户相关的新信息时更
新。在使用预先构建的听觉能力指示的情况下,该指示可以远程存储(例如,存储在服务器
上)、本地存储(例如,存储在位于设备上(例如在娱乐系统上)的离线模块上),或者以两者
的某种组合存储。
听觉能力指示可以是听觉年龄的选择,每个听觉年龄具有其相关联的音频处理参数集。具
体地,可以基于此类预先存储的音频处理参数的表来内插音频处理参数集。例如,如果用户
的听觉能力指示不对应于锚定听觉能力指示(例如,锚定听觉年龄),则可以从相邻的听觉
能力指示内插该音频处理参数集。在一个实施例中,内插可以是线性内插。在一个实施例
中,可以将用户的听觉测试结果与用于不同听觉能力指示(例如听觉年龄)的参考或代表性
听觉测试结果进行比较,以便确定最接近的匹配。听觉测试结果可以基于超阈值测试、心理
物理调谐曲线、掩蔽阈值测试或涉及掩蔽范例、阈值测试和听力图的进一步测试中的至少
一者。也可以使用允许驱动听觉能力指示(例如听觉年龄)的其他听觉测试。通过收集大型
数据集,可以探知主要年龄趋势,从而允许对个性化DSP算法的准确参数化。然后可以使用
匹配最接近的参考或代表性听觉测试结果来确定用于用户的听觉能力指示。例如,参考或
代表性听觉测试结果用相应的听觉年龄标记,并且匹配最接近的参考/代表性听觉测试结
果的听觉年龄被指定为用于用户的听觉年龄。可以通过对与最接近的匹配相对应的音频参
数集的内插来导出该音频处理参数集。该音频参数集也可以从用户的听觉测试结果中导
出。例如,掩蔽轮廓曲线数据(诸如掩蔽阈值数据或心理声学调谐曲线数据)可以用于计算
用于给定频率子带的比率和阈值参数,而听力图数据可以用于计算给定频率子带内的增
益。在一个实施例中,基于以下方式来确定该音频处理参数集:基于听觉测试结果优化用于
一个或多个用户的感知相关信息。
制功能、Hi‑Fi系统和扬声器系统的软件应用相结合的设备、汽车中的娱乐系统、后座中的
机上娱乐系统、智能手机、平板电脑、可听设备、智能扬声器或计算机。应当注意,音频娱乐
系统不是实时拾取声音并且经由入耳设备将经处理的声音播放给用户的助听器。
输路径从外部发射器接收音频信号。通常,音频信号不是由娱乐系统实时记录的,而是从存
储音频信号的本地或远程存储设备接收的。
觉体验。在实施例中,声音个性化信号处理算法是多频带动态范围压缩算法。
性别。用户设备可以是娱乐系统207的一部分,或者可以是单独的设备。
生年份或出生日期来计算用户的年龄。
在拟合模块203上。
将输入的信息或来自个人用户简况201的信息传输到拟合模块203。拟合模块位于服务器
210上。服务器210访问来自用户的数据,例如他/她的年龄、出生日期、生物性别和/或听觉
测试结果。
合模块203上确定音频处理参数204。在步骤205中,将音频处理参数204传递到处理模块
206。处理模块位于娱乐系统207上。
50或60岁左右出现言语频谱中的明显下降。然而,这些纯音听力测试的检查结果掩蔽了一
个更复杂的问题,因为人类理解言语的能力实际上可能早就开始下降了。尽管听觉损失通
常始于较高频率,但是意识到他们有听觉损失的用户通常不会抱怨没有高频率声音。相反,
他们报告在嘈杂的环境中聆听困难以及在复杂的声音混合中(诸如在电话中)听出细节。本
质上,截止频率的声音更容易掩蔽听觉受损个人感兴趣的频率——曾经清晰且细节丰富的
对话变得混乱。随着听觉退化,耳朵的信号调节能力开始下降,并且因此听觉受损的用户需
要花费更多的心理努力来理解复杂声学场景中的感兴趣的声音(或完全错过信息)。听力图
中提高的阈值不仅仅是听觉灵敏度的降低,而且是听力系统内某些深层过程失灵的结果,
该深层过程具有超出微弱声音检测的意义。在这个意义上,言语清晰度问题相当普遍。
别探测音调(或脉冲信号音调)的能力。例如,这里,在存在用于频率在500Hz和4kHz之间并
且声级在20dB SL和40dB SL之间的信号音调的从该信号音调频率的50%扫描到该信号音
调频率的150%的掩蔽信号的情况下,可以针对该信号音调测量心理物理调谐曲线测试。通
过收集大型数据集,诸如图4B中所示的数据集,可以探知主要年龄趋势,从而允许对个性化
DSP算法的准确参数化。例如,在多频带压缩系统中,可以修改每个子带信号动态范围压缩
器(DRC)的阈值和比率值,以减少频率掩蔽的问题区域,同时可以在相关区域进一步应用压
缩后的子带信号增益。掩蔽阈值曲线202表示用于测量掩蔽阈值的类似范例。在这种情况
202下,约4kHz的窄带噪声被固定,而探测音调从噪声带中心频率的50%扫描到噪声带中心
频率的150%。同样,可以从大型MT数据集的集合中探知主要年龄趋势。在一些实施例中,可
以预处理或以其他方式分析和修改诸如图4C中所描绘的数据集的数据集,从而准备原始输
入数据以用于上述对个性化DSP算法的参数化。例如,在一些实施例中,可以分析数据集以
检测和移除各种异常值数据条目,其中异常值数据条目是被确定为构成无效测试结果的条
目。可以基于统计因素来识别或以其他方式检测无效测试结果,诸如测试的长度(例如,非
常长或非常短的测试时段更可能是无效测试)、从被测试的用户接收的按钮或UI输入(例
如,不成比例地大或小数量的按钮按压或UI输入)等都可以在该分析中使用。
开的范围的情况下,这些输入源中的一个或多个可以单独地或协作地组合使用。在一个实
施例501中,可以通过使用言语识别算法来处理用户的语音以获得一个或多个用户的年龄
和性别人口统计信息。这种言语识别算法可以基本上实时地应用,可以应用于先前记录的
用户说话的样本,或两者。更具体地,可以根据声道长度(vtl)和音高的组合来估计给定用
户的年龄和性别,声道长度和音高都可以从用户的言语样本中的元音声音中提取。例如,儿
童通常具有短的vtl和高的音高,成年男性通常具有低的音高和长的vtl,并且成年女性通
常具有相当长的声道长度和更高的音高(参见例如Metze,F.、Ajmera,J.、Englert,R.、Bub,
U.、Burkhardt,F.、Stegmann,J.、...&Little,B.,“电话应用年龄和性别识别四种方法的比
较”,2007IEEE国际会议声学,语音和信号处理,ICASSP'07第4卷,第IV‑1089页(Metze,F.,
Ajmera,J.,Englert,R.,Bub,U.,Burkhardt,F.,Stegmann,J.,...&Littel,B.,
‘Comparison of Four Approaches to Age and Gender Recognition for Telephone
Applications’,2007IEEE International Conference on Acoustics,Speech and
Signal Processing,ICASSP'07Vol.4,pp.IV‑1089))。
系人卡片、联系人列表、日历条目等相关联的出生日期检索用户的年龄数据。在一些实施例
503中,可以在使用娱乐系统之前,由预期用户手动输入用户的年龄和性别人口统计信息。
在一些实施例504中,可以通过面部识别技术(诸如从移动电话的相机或娱乐系统)获得预
期用户的年龄和性别人口统计信息。在一些实施例505中,可以使用生理测量,诸如心率、血
压和/或手的颤抖。在一些实施例506中,可以使用阈值和超阈值听觉测试结果。在一些实施
例507中,可以从服务器(例如,无线网络连接)(例如,从用户或预期用户的社交媒体帐户
(Facebook、Twitter、LinkedIn等))获得用户或预期用户的人口统计信息。在一些实施例
508中,用户的时间和位置可以用于确定DSP参数化,例如,如果个人处于嘈杂的位置,则应
用更多的增益。在一些实施例509中,用户的人口统计信息可以从他的音乐偏好中导出。这
可以基于音乐类型和某个音乐类型的听众的平均人口统计信息(即年龄)。其还可以基于关
于艺术家、专辑或曲目的听众的平均人口统计信息(即年龄)的统计数据。
供一个或多个音频信号(独立的或者从诸如视频、电视广播、电影等的多媒体内容导出)的
声音个性化。如图所示,用户界面可以提示用户创建新的简况,即“创建新的米米(Mimi)简
况”。在第一输入字段601中,给定用户输入他或她的姓名,并且在第二输入字段602中,给定
用户输入他或她的出生年份。在一些实施例中,用户界面可以提供提示和/或阐明信息,例
如,提供“你的出生年份作为用于你的独特声音的标准”的保证。以这种方式,通过提供保证
并阐明将以适当的方式使用该个人信息(或给定用户的其他人口统计信息),可以增加用户
顺应性。在一些实施例中,输入字段601、602中的一个或多个可以由给定用户使用硬件输入
设备(电视遥控器、智能电话、专用控制器)或软件输入机构(语音识别等)手动填充。
以用于仅选择单个用户的简况(对应于“谁正在看电视?-只有我”的选项)。在一些实施例
中,用户界面可用于选择多用户用户简况或多用户聆听体验(对应于“谁正在看电视?-更
多人”的选项)。用户的数量可以手动输入,或者可以例如通过联接到本公开的电视和/或声
音个性化系统的相机系统或其他(一个或多个)外部传感器自动导出。
个另外的选项。在第一选项(示出为两者中最左侧选项)中,用户可以选择快速群组预设,其
为标准群组预设集中的一个。该选项可以最适合新的、未知的或以其他方式未注册的(使用
声音个性化系统)个人的大群组。在第二选项(示出为两者中最右侧的选项)中,用户可以选
择添加新的简况,即,使得存在用于该群组中的所有个人(或大多数个人)的简况。该选项可
以最适合群组的成员通常将一起观看或聆听的群组观看和聆听场景,例如,该群组主要由
同一家庭中共同生活的家庭成员或个人组成。实现群组个性化的一种方式是创建对应于群
组的成员或群组的大多数成员出生的年代(七十年代、八十年代、九十年代等)的群组预设。
在一个实施例中,用于该群组的参考听觉年龄可以对应于该年代的中间(即用于七十年代
的1975年、用于八十年代的1985年等)。在用户出生在不同的年代中的另一个实施例中,最
佳预设将是导致最少处理的预设,以避免任何过多的可能破坏任何一个用户的信号质量的
处理。通常,这些将是最近一年出生的预设。在一个实施例中,用户的听觉简况(听力图或掩
蔽曲线)是已知的,并且计算两个或更多个简况的平均值。
用)设置听觉简况。该示例方法可以提供先前关于图3描述的过程的特定实施例。返回图9,
如图所示,伴随应用程序在智能手机上运行。在第一步骤901中,输入关于用户的基本信息
(诸如年龄、姓名)、联系信息、关于用户听觉的信息(预测试)。在进一步的步骤902中,用户
有可能进行听觉测试。可以对双耳进行测试。在进一步的步骤903中,验证听觉数据,并且用
户接收他的简况被更新的信息。生成音频处理参数集,然后在步骤904中将音频处理参数传
递到娱乐系统905。
参数的一种方式(例如,在步骤103处)。图10组合了在中心频率1008下的恒定音调或噪声
1005的用户掩蔽轮廓曲线1006和目标掩蔽轮廓曲线1007的可视化(x轴1001是频率、y轴
1002是以dB SPL或HL为单位的声级)和示出声音信号的输入水平1003对输出水平1004的输
入/输出曲线图(以相对于满量程的分贝(dB FS)为单位)。输入/输出曲线图中的二等分线
表示具有增益1的输入信号的1:1(未处理)输出。频带1010中的多频带压缩系统的参数是阈
值1011和增益1012。这两个参数是从用于用户的人口统计估计的掩蔽轮廓曲线1006和目标
掩蔽轮廓曲线1007确定的。
频率处于与讨论中的频带相邻的频带中。
音调或噪声1005来进行心理声学测试,从而获得用户掩蔽轮廓曲线1006。用户掩蔽轮廓曲
线的至少一部分应该在应当为之获得参数集的频带1010中。用户掩蔽轮廓曲线1006也可以
被存储并可从数据库或服务器访问,并且基于统计平均值与个人的听觉年龄匹配。目标掩
蔽轮廓曲线1007通常比具有轻度、中度、重度或深度听觉损失的用户的掩蔽轮廓曲线“更锐
利”,并且因此对应于个人的听觉能力的改善。
如上所述,优选的是给定频率1009处于与中心频率1008不同的另一频带1010中。在该给定
频率1009处确定用户和目标掩蔽轮廓曲线的对应声级。可以在y轴1002上以图形方式确定
这些声级的值。
曲线的SNR 1022匹配。SNR在本文中定义为信号音调相对于(即除以)掩蔽噪声水平的水平。
因此,曲线“越尖锐”,噪声值越高,而信号值保持不变。
声水平越低(宽PTC的情况),SNR将越高。换句话说,曲线将越宽,SNR越高。噪声水平固定并
且信号音调变化的反向配置也是可能的配置。在这种情况下,掩蔽轮廓曲线应围绕中心点
旋转180°。
在相同的给定频率1009下匹配用户掩蔽轮廓曲线1006,即,他的声级1042基本上等于在给
定频率1009下的用户掩蔽轮廓曲线的以dB为单位的声级。该条件允许导出阈值1011(其必
须低于输入声级,如果不是,则当低于压缩机的阈值时没有变化,系统是线性的)和比率
1012。换句话说,输入声级1041和输出声级1042确定压缩曲线的参考点。必须将阈值1011选
择为低于输入声级1041。一旦选择了阈值,就可以从阈值和参考点确定比率1012。
1041的输入声音信号进入压缩系统。声音信号应由DRC以一定方式处理,使得输出的声级是
在给定频率1009下的用户掩蔽轮廓曲线1006的声级。阈值1011不应超过输入声级1041,否
则压缩将不会发生。多个阈值和比率参数集是可能的。可以根据拟合算法和/或客观拟合数
据来选择优选集,该拟合算法和/或客观拟合数据已被证明在声音质量方面显示出最大益
处。例如,可以选择阈值1011和比率1012中的任何一个具有默认值,然后可以通过施加上述
条件来确定相应的另一个参数。选择优选集的另一种方式是在信道或频带中的一个或多个
其他给定频率下重复步骤103(见图1)。对于输入的声级具有两个或更多个输出的声级值集
可以允许更准确地确定参数集(阈值和比率,例如阈值1011和比率1012)。
线的信号水平和在给定频率1009下的目标掩蔽轮廓曲线的信号水平中较高的一个产生在
给定频率1009下的用户掩蔽轮廓曲线的信号水平和在给定频率1009下的目标掩蔽轮廓曲
线的水平中的较低的一个。
参数(参见共同拥有的申请US16/206,376和EP18208020.0)。简而言之,为了通过感知相关
信息对多频带动态处理器进行最佳参数化,音频样本1101或音频样本的主体首先由参数化
多频带动态处理器1102处理,并且根据人口统计学估计阈值和超阈值信息1107计算1103文
件的感知熵。在计算之后,根据从优化导出的给定的参数启发法集重新参数化1111多频带
动态处理器,并且由此‑(一个或多个)音频样本被重新处理1102并且进行PRI计算1103。换
句话说,考虑到个人用户的人口统计估计的阈值和超阈值信息1107,多频带动态处理器被
配置为处理音频样本,使得其具有用于特定用户的较高PRI值。为此,参数化多频带动态处
理器适用于相对于未经处理的音频样本增加经处理的音频样本的PRI。多频带动态处理器
的参数由使用PRI作为其优化标准的优化过程确定。
临界频带分析使用心理声学规则来获得掩蔽阈值,确定音频信号的类似噪声或类似音调的
区域,应用信号的阈值规则,并且然后考虑绝对听觉阈值。在此之后,确定在不引入可感知
的量化误差的情况下量化频谱所需的比特数。例如,Painter&Spanias公开了以比特/秒为
单位的感知熵的公式,这与ISO/IEC MPEG‑1心理声学模型2密切相关[Painter&Spanias,数
字音频的感知编码,IEEE,第88卷,No.4(2000)(Painter&Spanias,Perceptual Coding of
Digital Audio,Proc.Of IEEE,Vol.88,No.4(2000));通常还参见移动图像专家组(Moving
Picture Expert Group)标准https://mpeg.chiariglione.org/standards;这两份文件都
包含在参考文献中]。
起音时间、增益和压缩比率来参数化,并且这些参数可以由优化过程确定。在某些情况下,
多频带动态处理器对音频信号的影响是非线性的,并且需要适当的优化技术,诸如梯度下
降。需要确定的参数的数量可能变大,例如,如果在许多子带中处理音频信号且需要为每个
子带确定多个参数。在这种情况下,同时优化所有参数可能是不切实际的,并且可以应用用
于参数优化的顺序方法。尽管顺序优化过程不一定导致最佳参数,但是获得的参数值导致
相对于未处理的音频样本的PRI增加,从而改善了用户的聆听体验。
多个子带信号。随后,每个子带信号被传输到动态范围压缩器(DRC)1203。如图所示,存在为
每个子带信号提供的DRC,然而在不脱离本公开的范围的情况下,可以根据需要相对于子带
信号的数量提供更多或更少数量的DRC 1203。取决于配置或以其他方式期望的特定声音个
性化,DRC 1203中的一个或多个可以是相同的、相似的或不同的。在一些实施例中,对于每
个子带信号,DRC 1203中的对应的一个的特征在于阈值变量tx(即,DRC压缩启动时的阈值)
和比率变量rx(即,由高于阈值tx的DRC提供的增益减少量)。随后,在DRC 1203处压缩之后,
每个子带信号可以经受可变增益gx 1204。对于每个子带信号,变量可以根据接收器的人口
统计信息而不同。
年龄为20岁且为男性的预期用户,包括可听频率范围上的阈值和超阈值信息的听觉数据
1301用于计算1302参数预设1303。然后将该预设存储在根据特定人口统计群组的数据库
1304中。在另一示例中,从70岁男性的模型的听觉数据1305计算1306预设1307并将预设存
储在预设数据库1308中。因此,当探知1301、1305用户的人口统计信息时,然后可以从数据
库1304、1308检索1303、1307这些预设1304、1308。如该示例所示,这些参数预设1304、1308
包括针对x的多个值的tx、rx和gx值,其中每个单独的值也通过年龄参数化,例如,{t1,20岁年龄、
r1,20岁年龄、g1,20岁年龄}和{t1,70岁年龄、r1,70岁年龄、g1,70岁年龄}。
不脱离本公开的范围的情况下,多频带压缩系统的其他配置是可能的(参见例如共同拥有
的美国专利第10,19,9047号和美国申请第16/244,727号),具有相关的相关联的参数。
分,为可能遭受已知或未确诊的听觉缺陷的个人的电视、视频或多媒体消费品提供增加的
清晰度。应理解,本公开考虑了许多变化、可选项和替代方案。为了解释清楚,在一些实例
中,本技术可以被呈现为包括独立功能块,这些功能块包括包含以下的功能块:设备、设备
组件、在软件中体现的方法中的步骤或例程、或者硬件和软件的组合。
配置通用计算机、专用计算机或专用处理设备以执行特定功能或功能群组的指令和数据。
使用的计算机资源的一部分可以通过网络可访问。计算机可执行指令可以是例如二进制文
件、中间格式指令(诸如汇编语言)、固件或源代码。可以用于存储指令、所使用的信息和/或
在根据所述示例的方法期间创建的信息的计算机可读介质的示例包括磁盘或光盘、闪存、
提供有非易失性存储器的USB设备、网络存储设备,等等。
计算机、个人数字助理、机架设备、独立设备等。本文描述的功能也可以体现在外围设备或
附加卡中。作为另一示例,此类功能还可以在不同芯片之间的电路板上或在单个设备中执
行的不同处理上实现。指令、用于传送这些指令的介质、用于执行它们的计算资源以及用于
支持这种计算资源的其他结构是用于提供这些公开中描述的功能的装置。
些示例来导出各种各样的实施方式。此外,尽管可能已经用对结构特征和/或方法步骤的示
例特有的语言描述了一些主题,但是应该理解,所附权利要求中限定的主题不必限于这些
描述的特征或动作。例如,这种功能可以不同地分布或者在除了本文标识的那些之外的组
件中执行。相反,所描述的特征和步骤被公开为所附权利要求的范围内的系统和方法的组
件的示例。