使用频率变换通过移动包络对声音感知的改进转让专利

申请号 : CN201110129758.1

文献号 : CN102354497A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马克斯·霍姆伯格托马斯·考尔伯格扬马克·德哈恩

申请人 : 奥迪康有限公司

摘要 :

本发明涉及一种改进用户对输入声音感知的方法。进一步涉及一种音频处理设备及其应用。本申请的目标在于提高用户感知的声音信号的音质,例如听力损伤的用户。所述方法包括:a)定义低频范围和高频范围之间的临界频率fcrit;b)分析在低于和高于所述临界频率的多个频带中的输入声音;c)定义低于所述临界频率fcrit的截止频率fcut;d)识别高于所述截止频率fcut的源频带;e)提取所述源频带的包络;f)识别低于所述临界频率fcrit的相应目标频带;g)提取所述目标频带的相位;h)将所述源频带的包络于所述目标频带的相位组合。这具有以下优点:提高音质,并能潜在地进一步提高频率变换中的清晰度,例如频率降低系统。本发明能够,例如用于通信设备中,例如电话或听力设备中,例如助听器,头戴式受话器、头戴耳机、主动听力保护设备或其组合。

权利要求 :

1.一种提高输入声音的用户感知的方法,所述方法包括:a)定义低频范围和高频范围之间的临界频率fcrit;

b)分析在低于和高于所述临界频率的多个频带中的输入声音;

c)定义低于所述临界频率fcrit的截止频率fcut;

d)识别高于所述截止频率fcut的源频带;

e)提取所述源频带的包络;

f)识别低于所述临界频率fcrit的相应目标频带;

g)提取所述目标频带的相位;

h)将所述源频带的包络于所述目标频带的相位组合。

2.如权利要求1所述的方法,其中所述目标频带位于所述截止频率fcut和所述临界频率fcrit之间。

3.如权利要求1所述的方法,其中所述源频带位于所述截止频率fcut和最大源频带频率fmax-s之间。

4.如权利要求1所述的方法,其中临界频率fcrit定义为与用户的听力能力相关,例如在该频率之上用户听力能力显著降低的频率。

5.如权利要求1所述的方法,其中临界频率fcrit定义为取决于将要在传输信道中传输的带宽的上限频率,例如等于这种上限频率。

6.如权利要求1所述的方法,其中所述方法依赖于当前考虑的信号类型自动地切换开闭,当信号是噪声或音乐信号时关闭,当信号是语音信号时打开。

7.如权利要求1所述的方法,其中依赖于当前考虑的输入信号类型自动地选择合适的压缩或扩展机制。

8.如权利要求7所述的方法,其中信号的类型通过信噪比定义,或定义为主要语音、主要音乐、主要噪声、包括主要高频成分、包括主要低频成分。

9.如权利要求1所述的方法,其中一个或多个源频带在它/它们的包络被提取前进行预处理,其中预处理包括对一个或多个源频带的求和或加权或平均或最大/最小识别。

10.如权利要求1所述的方法,其中在源频带包络与目标频带相位混合前执行已提取的源频带包络值的后处理,其中后处理包括平滑时域,例如包括生成先前时间扩展中包络值的加权和,例如在多个先前帧中。

11.如权利要求10所述的方法,其中后处理包括线性或非线性滤波处理,例如实施不同起声和释放次数和/或实施依赖于输入等级的起声和释放次数。

12.一种音频处理设备,包括:

a)用于提供电输入声音信号的输入信号单元;

b)用于提供多个频带中的电输入信号的时到时频变换单元;

c)用于在低于和高于临界频率fcrit的多个频带中分析电输入声音信号的频率分析单元;

d)包括用于识别高于截止频率fcut并低于所述临界频率fcrit的源频带以及用于识别低于所述临界频率fcrit的相应目标频带的频率变换机制的信号处理单元;

e)用于提取所述源频带包络的包络提取单元;

f)用于提取所述目标频带相位的相位提取单元;

g)用于组合所述源频带的提取包络和所述目标频带的提取相位的组合单元。

13.如权利要求12所述的音频处理设备,其中用于提供多个频带中的电输入信号的时到时频变换单元是滤波器组,例如复数子带分析滤波器组。

14.一种存储计算机程序的实体计算机可读介质,所述计算机程序包括用于当所述计算机程序在数据处理系统上执行时使得数据处理系统执行至少部分,例如大部分或全部,权利要求1方法的步骤的程序代码。

15.一种数据处理系统,包括处理器和程序代码,所述程序代码用于使得处理器执行至少部分,例如大部分或全部权利要求1方法的步骤。

说明书 :

使用频率变换通过移动包络对声音感知的改进

技术领域

[0001] 本发明涉及声音感知的改进,例如语音清晰度,特别地涉及对人对声音的感知的改进,例如听觉受损的人。本发明特别地涉及改进用户感知输入声音的方法。
[0002] 本申请还涉及一种音频处理设备及其使用。
[0003] 本申请进一步涉及一种包括处理器的数据处理系统以及用于使处理器执行至少方法的部分步骤的程序编码方式,还涉及一种存储程序编码的计算机可读介质。
[0004] 本发明在一些应用中是有用的,例如在诸如电话的通信设备、或诸如助听器、头戴式受话器、头戴式耳机、主动防声设备的听力设备,或其组合中。

背景技术

[0005] 下述现有技术涉及本申请的一个应用领域,助听器。
[0006] 频率压缩或频率变换的基本思想通常是通过变换使用传统放大对于某人无法听到的频率使其可被听到。事实是这是不可能的——通过传统助听器——在某些频率补偿听觉损伤可能有多种原因。两个最可能的原因是1)由于反馈振荡问题放大不可能变得很高;或者2)病人有“死区”,此处听力能力严重下降或不存在。死区理论上指其中感觉细胞(内毛细胞)不工作的基底膜区域。然后极强的方法不能帮助该基底膜位置。频率降低或变换在这些情况下可能是一种解决方式,其中在不可听频率的信息被变换到可听的范围。
[0007] 非线性频率压缩(NFC)目前在不同频率降低技术中给出了最好的结果(参见[Simpon;2009]不同信号处理方法的综述)。NFC在一些情况下示出对听力受损用户的语音清晰度的提升。在NFC中,将频率轴分成线性部分和压缩部分(例如图1a示出了分别在低于和高于预定截止频率fcut的非压缩部分(线性fin=fout)和压缩部分(fin>fout))。
[0008] WO2005/015952(Vast Audio)描述了一种旨在改进听力受损对象的空间听力能力的系统。提出的系统丢弃了每第n个频率分析带并将剩下的部分推到一起,从而应用频率压缩。由此,假设空间凸出高频线索在较低频率再现。
[0009] EP1686566A2(Phonak)涉及一种信号处理设备,其包括将至少部分输入信号的频谱表达变换成变换的输出频率的装置,频率变换装置被配置为处理部分输入信号频谱表达使得存在于输入信号的频谱表达中的相位关系在频谱表达的变换部分中基本上保持不变。
[0010] EP2091266A1(Oticon)涉及一种将临时精细的基于结构的信息变换为临时基于包络的信息的变换,其中以将(低频)临时精细的结构线索移动到较高频率范围的方式将低频源频带变换到高频目标频带。因此提高了听力受损用户获得临时精细的基于结构线索的能力。

发明内容

[0011] 本发明的概念能够,例如用于具有如图1a所示的压缩机制的系统,或者压缩整个频率范围、或者一些其他频率变换原理的系统(参见图3中压缩/扩展机制的例子)。
[0012] 在本发明中使用术语“频率变换”、“频率降低”、“频率压缩”以及“频率扩展”。术语“频率变换”意指改变信号频谱的多种不同方法,例如“频率降低”或“频率压缩”或甚至“频率扩展”。术语“频率压缩”指的是将相对较宽的源频率范围压缩到相对较窄的目标频率范围的过程,例如通过丢弃每第n个频率分析频带并在频域中将剩余的频带“推”到一起。相应地,术语“频率扩展”指的是将相对较窄的源频率范围扩展到相对较宽的目标频率范围的过程,例如通过在变换到目标频带时使源频带变宽和/或创建多个合成目标频带以填充额外的频率范围。术语“频率降低”指的是将高频源范围移动到较低频目标范围的过程。在某些现有技术应用中,其出现而无需丢弃任何包含在变换高频频带中的频谱信息(即变换的较高频率或者以较低频率完全替代或者与较低频率混合)。然而,这并非本发明的情况。
本发明典型地通过频率降低应用频率压缩,其中(较高频率)源频带的包络与(较低频率)源频带的相位相混合。
[0013] 通常,一个或多个相对较高频率源频带向下变换到一个或多个较低频率目标频带。通常,一个或多个甚至更低的频带保持不受该变换影响。进一步,一个或多个甚至更高的频带可能不被认为是源频带。
[0014] 在现有技术的频率降低设备或机制中,包络和精细结构(相位)信息都被移动。这导致声音质量劣化并严重限制系统的灵活性。例如,人听觉系统对低频相位信息十分敏感(例如,低于1.5kHz的频率),并且当前在低频处不采用频率降低。
[0015] 本申请的目标在于增加用户、例如听力受损用户感知的声音信号的声音质量。进一步的目标在于提高清晰度,例如在频率降低系统中。进一步的目标在于增加提供用于不同类型听力损伤的适配的可能性。进一步的目标在于改进通过传输信道发送和接收的音频信号的声音清晰度。
[0016] 本发明的目标通过所附权利要求描述并如下描述的发明来实现。
[0017] 本发明的主要元素是变换输入声音信号的包络信息,而不变换其相位信息。
[0018] 提高输入声音的用户感知的方法:
[0019] 本发明的一个目标通过提高输入声音的用户感知的方法来实现。该方法包括,[0020] a)定义低频范围和高频范围之间的临界频率fcrit;
[0021] b)在多个低于和高于所述临界频带的频带中分析输入声音;
[0022] c)定义低于所述临界频率fcrit的截止频率fcut;
[0023] d)识别高于所述截止频率fcut的源频带;
[0024] e)提取所述源频带的包络;
[0025] f)识别低于所述临界频率fcrit的相应目标频带;
[0026] g)提取所述目标频带的相位
[0027] h)将所述源频带的包络和所述目标频带的相位组合。
[0028] 这具有提高声音质量的优点,并具有进一步提高频率变换,例如频率降低系统中语音清晰度的可能。
[0029] 该术语“输入声音的感知”用来包括听觉和语音清晰度。
[0030] 在一个实施例中,临界频率小于8kHz,例如小于5kHz,例如小于3kHz,例如小于2.5kHz,例如小于2kHz,例如小于1.5kHz。
[0031] 在一个实施例中,目标频带位于所述截止频率fcut和临界频率fcrit之间。
[0032] 在一个实施例中,截止频率位于从0.01kHz到5kHz的范围中,例如小于4kHz,例如小于2.5kHz,例如小于2kHz,例如小于1.5kHz,例如小于1kHz,例如小于0.5kHz,例如小于0.02kHz。
[0033] 在一个实施例中,源频带位于所述截止频率fcut和最大源频带频率fmax-s之间。
[0034] 在一个实施例中,最大源频带频率fmax-s小于12kHz,例如小于10kHz,例如小于8kHz,例如小于6kHz,例如小于3kHz,例如小于2kHz,例如小于1.5kHz。
[0035] 在一个实施例中,最大源频带频率fmax-s小于输入声音信号的最大输入频率fmax-i。
[0036] 在一个实施例中,临界频率fcrit定义为与用户的听力能力相关,例如作为用户具有退化听力能力之上的频率。给定频率范围中的退化听力能力在本文中指的是比在该频率范围内平均普通听觉听众的听力阈值低多于10dB SPL(SPL=声音压力等级(Sound Pressure Level))(例如低多于20dB)。
[0037] 在一个实施例中,临界频率fcrit定义为依赖于用户的听觉能力和可用增益。可用增益依赖于给定的听觉设备(例如,专用助听器),专门适用于用户,声反馈条件等。
[0038] 在一个实施例中,临界频率fcrit定义为依赖于将要在传输信道中传输的带宽的上限频率,fcrit例如等于该上限频率。
[0039] 在一个实施例中,(输出)频率范围低于截止频率fcut(fin=fout)不被压缩或扩展(参见例如图3b)。在一个实施例中,输出频率范围在低于截止频率fcut的频率处被压缩(参见例如图3c,标记为g2(fin)的曲线)。替代地,输出频率范围可在低于截止频率fcut的频率处被扩展(参见例如图3b,标记为1∶3的曲线)。
[0040] 给出临界频率fcrit,则截止频率fcut的值,一方面优选地相对大以提供可接受的声音质量,例如提供可接受的语音清晰度(例如避免元音混淆),另一方面,fcut优选地相对小以避免太大的压缩比。换句话说,必须在声音质量/语音清晰度和压缩比之间进行平衡。
[0041] 在一个实施例中,频率变换机制自动地被开闭切换,取决于当前考虑的信号的类型(例如噪声(关),话音(开),音乐(关))。
[0042] 在一个实施例中,根据当前考虑的输入信号类型选择合适的压缩或扩展机制(类型例如是语音、音乐、噪声、元音、辅音、辅音类型、高频分量支配、低频分量支配,信噪比等)。在一个实施例中,元音和辅音和不同辅音之间的区分基于自动语音识别算法。
[0043] 在一个实施例中,方法包括一个或多个频带在其包络被提取前进行预处理。在一个实施例中方法包括与处理包括在提取结果包络前求和或加权或平均或最大/最小识别一个或多个源频带。
[0044] 在一个实施例中,方法包括在源频带包络与目标频带相位混合前执行提取源频带包络值的后处理。在一个实施例中,方法包括后处理包括时域平滑,例如包括在之前的时间跨度中生成包络值的加权和,例如在多个先前帧中。在一个实施例中,方法包括后处理包括线性或非线性滤波处理,例如实现不同起声(attack)和释放次数和/或实现依赖于输入等级的起声和释放次数。
[0045] 在一个实施例中,方法包括通过适配于特定传输信道的预定义压缩功能(例如预定义压缩比)在截止频率之上压缩声音信号的频率范围并通过传输信道传输压缩信号。在一个实施例中,方法进一步包括接收传输的信号并通过于压缩功能对应(例如是相反的)的预定义扩展功能(例如预定义压缩比)扩展接收的信号。在扩展过程中,信号的压缩部分可通过扩大每个压缩频带以填充原始信号的整个频率范围来扩展,压缩信号的每个幅度值因此表示扩展频带的幅度。压缩频带的相位值也可进行类似地扩展。替代地,扩展频带的相位值可被合成(例如,以提供随机分布,或不变相位)。替代地,原始信号(压缩前)的相位信息被编码并在传输信道(低带宽)上传输,用于再生扩展信号的相位。该方法能够,例如用于在具有降低带宽的传输信道上传输全带宽音频信号,从而节省了传输带宽(和功率)或者改善了在固定带宽信道,例如电话信道上传输的信号的声音感知。这可能改善声音质量,和在语音信号情况下的语音清晰度(例如,电话交谈)。
[0046] 音频处理设备:
[0047] 本发明进一步提供一种音频处理设备。该音频处理设备包括
[0048] a)用于提供电输入声音信号的输入信号单元;
[0049] b)用于提供在多个频带中的电输入信号的时到时频变换单元;
[0050] c)用于在低于和高于临界频率fcrit的多个频带中分析电输入声音信号的频率分析单元;
[0051] d)包括频率变换机制的信号处理单元,用于识别高于截止频率fcut并低于所述临界频率fcrit的源频带和识别低于所述临界频率fcrit的相应目标频带;
[0052] e)用于提取所述源频带包络的包络提取单元;
[0053] f)用于提取所述目标频带相位的相位提取单元;
[0054] g)用于组合所述源频带的提取包络和所述目标频带的提取相位的组合单元。
[0055] 在一个实施例中,音频处理设备进一步包括预处理单元,用于在提取其包络前预处理一个或多个源频带。这种预处理能够,例如包括在提取结果包络前求和或加权或平均或最大/最小识别一个或多个源频带。
[0056] 在一个实施例中,音频处理设备进一步包括后处理单元,用于后处理一个或多个提取的目标频带包络值。这种后处理能够,例如包括时域平滑(例如,包括在先前时间跨度中信号值的加权和,例如在多个先前时间帧中)。后处理可替代或进一步包括线性或非线性滤波过程。非线性滤波过程能够,例如包括在增加和减少输入级之间信号的区分,即例如实现不同起声和释放次数。其可进一步包括实现依赖于输入等级的起声和释放次数。
[0057] 在一个实施例中,音频处理设备适于提供依赖于频率的增益以补偿用户的听力损伤。
[0058] 在一个实施例中,音频处理设备包括指向性麦克风系统,其适于在佩戴音频处理设备的用户的本地环境中分离两个或多个听觉源。在一个实施例中,指向性系统适于从麦克风信号发出的特定部分检测(例如自适应检测)。
[0059] 在一个实施例中,信号处理单元适于增强输入信号并提供处理的输出信号。
[0060] 在一个实施例中,音频处理设备包括输出转换器,用于将电信号变换为用户作为听觉信号感知的激励。在一个实施例中,输出转换器包括多个耳蜗植入物的电极或骨传导听力设备的振动器。在一个实施中,输出转换器包括接收器(扬声器),用于向用户提供作为听觉信号的激励。
[0061] 在一个实施例中,音频处理设备进一步包括用于考虑中引用的其他相关功能,例如听觉反馈抑制等。
[0062] 在一个实施例中,音频处理设备包括输入转换器(麦克风系统和/或指向电输入(例如无线接收器))和输出转换器之间的前向路径。在一个实施例中,信号处理单元位于前向路径中。在一个实施例中,信号处理单元适于根据用户的特定需要提供依赖于频率的增益。
[0063] 在一个实施例中,音频处理设备包括用于接收指向电输入信号的天线和收发机电路,指向电输入信号包括音频信号(例如根据本发明公开机制的压缩音频信号,包括提取源频带包络,以及将该包络与目标频带的相位混合)。在一个实施例中,音频处理设备包括用于传输电信号的天线和收发机电路,该电信号包括音频信号(例如根据本发明公开机制的压缩音频信号,包括提取源频带包络,以及将该包络与目标频带的相位混合)。在一个实施例中,音频处理设备包括用于接收有线指向电输入信号的(可能是标准的)电接口(例如以连接器的形式)。在一个实施例中,音频处理设备包括用于解调接收指向电输入以提供表示音频信号的指向电输入信号的解调电路。在一个实施例中,音频处理设备包括用于调制表示将要传输的(可能是频率压缩的)音频信号的电信号的调制电路。
[0064] 在一个实施例中,音频处理设备包括用于将模拟电信号变换成数字电信号的AD转换器。在一个实施例中,音频处理设备包括用于将数字电信号变换成模拟电信号的DA转换器。在一个实施例中,AD转换器的采样率fs在5kHz到50kHz的范围中。
[0065] 在一个实施例中,音频处理设备包括提供时变输入信号的时频表示的TF变换单元。在一个实施例中,时频表示包括在特定时频范围中的考虑中的信号的相应复数或者实部值的序列或映射。在一个实施例中,TF变换单元包括滤波器组,用于滤波(时变)输入信号并提供多个(时变)输出信号,每个包括输入信号的不同频率范围。在一个实施例中,TF变换单元包括傅立叶变换单元,用于将时变输入信号变换成频域(时变)信号。在一个实施中,为听力设备所考虑的频率范围从最小频率fmin到最大频率fmax包括典型人可听频率范围从20Hz到20kHz的一部分,例如从20Hz到12kHz范围的一部分。在一个实施例中,听力设备考虑的频率范围fmin-fmax分为K个频带,其中K,例如大于5,例如大于10,例如大于50,例如大于100,至少其中部分独立地处理。在一个实施例中,信号处理单元适于处理在多个不同范围或频带中的输入信号。频带宽度上是均匀或者不均匀的(例如,随着频率宽度增加),参见例如图1b。
[0066] 在一个实施例中,用于提供多个频带中的电输入信号的时到时频变换单元时滤波器组,例如复杂子带分析滤波器组。
[0067] 在一个实施例中,音频处理设备包括用于在音频信号(在给定时间点处)中检测人话音存储的话音检测器。在一个实施例中,音频处理设备包括用于在音频信号(在给定时间点处)中检测噪声信号的噪声检测器。在一个实施例中,音频处理设备包括用于确定音频输入信号的基础频率和/或一个或多个共振峰频率的频率分析器。在一个实施例中,音频处理设备适于利用来自语音检测器和/或从噪声检测器和/或从频率分析器的信息为当前输入音频信号选择合适的压缩(或扩展)机制。
[0068] 当通过相应结构特征进行合适替换时,“具体实施方式”和权利要求的详细描述中如上描述的特征能够组合到音频处理设备(反之亦然)。设备的实施例具有与相应方法相同的优点。
[0069] 音频处理设备的用途:
[0070] “具体实施方式”和权利要求的详细描述中如上所述的音频处理设备的用途由本申请进一步提供。在一个实施例中,提供了在通信系统中的用途,例如包括电话和/或诸如助听器或头戴式耳机的听力设备的系统。
[0071] 音频通信系统:
[0072] 在“具体实施方式”的详细描述中,以及在权利要求中进一步提供了一种包括至少一个如上所述的音频处理设备的音频通信系统。在一个实施例中,系统包括第一和第二音频处理设备,其中至少一个是如上所述的音频处理设备,在“具体实施方式”的详细描述中。在一个实施例中,第一音频处理设备用于压缩选择的音频信号(例如,其中信号处理单元包括用于如本发明描述的压缩电输入信号的频率变换机制(包括提取源频带的包络,以及将包络与目标频带的相位混合)),第一音频处理设备进一步用于(可能调制并)通过传输信道(例如有线或无线连接)传输所述压缩信号。在一个实施例中,第二音频处理设备用于从所述第一音频处理单元接收通过传输信道传输的音频信号并(可能调制并)扩展接收的音频信号(例如,其中信号处理单元包括用于扩展电输入信号的频率变换机制)以基本上重建所述选择音频信号。在一个实施例中,所述第一和/或第二音频处理设备包括用于传输信号并从其他音频处理设备接收信号的收发机(至少传输的信号如本发明中所述的压缩(包括提取源频带的包络,以及将包络与目标频带的相位混合))。在一个实施例中,所述音频处理设备包括从一组音频设备中选择的一个设备,所述音频设备包括电话,例如蜂窝电话,听力设备,例如助听器,头戴式耳机,头戴式受话器,主动听力防护设备,音频网关,音频传输设备,娱乐设备或其组合。
[0073] 计算机可读介质:
[0074] 在“具体实施方式”的详细描述中,以及在权利要求中,本发明进一步提供了一种存储了计算机程序的实体计算机可读介质,所述计算机程序包括当所述计算机程序在数据处理系统上执行时使得数据处理系统执行上述方法的至少部分(例如大部分或全部)步骤的传输代码手段。除了存储在实体介质,例如磁带、CD-ROM-、DVD-、或硬盘媒体、或任何其他机器可读介质,计算机程序还能够通过传输介质,例如有线或无线链路或诸如因特网的网络传输,并载入数据处理系统以载所述实体介质不同的位置被执行。
[0075] 数据处理系统:
[0076] 在“具体实施方式”的详细描述中,以及在权利要求中,本发明进一步提供了一种包括处理器和程序代码手段的数据处理系统,所述程序代码手段使得处理器执行至少上述方法的部分步骤(例如大部分或全部)。
[0077] 通过从属权利要求和发明详细描述中定义的实施例来实现本申请的进一步目标。
[0078] 如这里使用的,单数形式“一”、“一个(泛指)”和“所述(特指)”意图于还包括复数形式(即具有“至少一个”的意思),除非另有表述。能够进一步理解的是术语“包含”、“包括”、“含有”和/或“具有”,当在本说明书中使用时,指出存在陈述的特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或更多其他特征、整体、步骤、操作、元件、组件和/或其组合。能够理解的是当一个元件被称为“连接”或“耦合”到另一个元件时,其能够直接连接或耦合到其他元件,或者可能存在中间元件,除非另有表述。此外,这里使用的“连接”或“耦合”可包括无线连接或耦合。如在此使用的,术语“和/或”包括一个或多个相关列出项目的任何和所有组合。这里公开的任何方法无需以公开的准确顺序执行,除非另有表述。

附图说明

[0079] 下面通过优选实施例并参考下面的附图更充分地阐述本发明:
[0080] 附图1a-1b示出频率压缩曲线的示例,频率压缩曲线解释输入频和输出频率之间的关系(图1a),例如通过频率变换单元实现,以及解释均匀和非均匀频带的信号的时频映射(图1b);
[0081] 附图2a-2c示出现有技术频率变换方法(图2a)和根据本发明的频率变换方法的第一和第二实施例(图2b、2c);
[0082] 附图3a-3c示出能够在本发明中使用的各种频率压缩/扩展机制;
[0083] 附图4a-4c示出图2b或2c中示出的频率变换方法的实施例,图4a使用复数子带滤波器组,图4b使用实数子带滤波器组,图4c使用复数子带滤波器组和包络提取前源信号的预处理以及提取包络的后处理;
[0084] 附图5示出在给定时间单元中划分为多个均匀频带的音频信号的幅度(MAG)的示意图,阐明沿频率轴f在最小频率fmin和最大源频带频率fmax-s之间源和目标频带的相对位置;
[0085] 附图6a-6b示出本发明提出的在给定时间单元(或多个时间单元的平均)中应用于音频信号的第一频率压缩机制,图6a示意性地说明原始和变换信号的幅度(MAG),并且图6b示意性地说明原始和变换信号的相位(PHA);
[0086] 附图7a-7b示出本发明提出的在给定时间单元中应用于音频信号的第二频率压缩机制,图7a示意性地说明原始和变换信号的幅度(MAG),并且图7b示意性地说明原始和变换信号的相位(PHA);
[0087] 附图8示出本发明提出的在给定时间单元中应用于音频信号的第三频率压缩机制,示意性地说明原始和变换信号的幅度(MAG),并且
[0088] 附图9a-9c示出根据本发明的音频处理设备的各种实施例,图9a示出包括从环境拾取声音信号的麦克风系统的音频处理设备,图9b示出包括从另一个设备接收音频信号的无线接收器的音频处理设备,图9c示出包括听力设备和音频网关设备的音频通信系统,音频网关设备构成听力设备和例如蜂窝电话的音频传输设备之间的中间中继站。
[0089] 附图是示意性和清楚简要的,它们仅示出对理解发明重要的细节,而其他细节被忽略。
[0090] 本发明的进一步应用从此处给出的详细描述中是显而易见的。然而,应当理解详细描述和特定示例,指出发明的优选实施例的同时,仅以示例的方式给出,因此从本详细描述中,本发明精神和范围内的各种变形和改进对本领域技术人员是显而易见的。

具体实施方式

[0091] 图1a示出音频信号的简单频率压缩机制,音频信号用于将输入频率范围(这里0.1kHz到10kHz)变换为(压缩的)输出频率范围(这里0.1kHz到大约2.5kHz)。频率压缩机制包括分别频率在预定截止频率fcut-i(这里大约是1.5kHz并等于fcut-o)之上和之下的非压缩部分(线性,fin=fout)和压缩部分(fin>fout)。
[0092] 在特定实施例中,信号s(n)的时频表达s(k,m)包括在多个通过索引(index)(k,m)定义的DFT块(DFT=直接傅立叶变换)中的信号的幅度和相位值,其中k=1,...,K表示K个频率值并且m=1,...,M表示M个时间帧,时间帧通过特定时间索引m和相应K DFT-bin定义。这对应于均匀频带表示,每个频带包括对应于特定频率和时间的信号的单一值,频率单元是等距的(均匀)。这在图1b中示出并且可以是例如在时间帧内的数字信号的离散傅立叶变换的结果,每个时间帧包括多个时间tq=q*(1/fs)中连续点处输入信号(振幅)数字时间采样sq,q是采样索引,例如整数q=1,2,..指示采样数,fs是模数转换器的采样率。这种配置还能够例如通过均匀滤波器组实现。在一个实施例中,采样率在10kHz到40kHz的范围中,例如大于15kHz或大于20kHz。
[0093] 在特定实施例中,定义了具有子带索引j=1,2,...,J的J个非均匀频率子带,每个子带包括一个或多个DFT-bin,第j个子带例如包括分别具有较低和较高索引k1(j)和k2(j)的DFT-bin,分别定义了第j个子带的低和高截止频率,通过特定时间索引和所述DFT-bin索引k1(j)-k2(j)定义特定时频单元(j,m),参见例如图1b。在图1b示出的非均匀频率子带的配置中,子带可包括多于一个频率单元(DFT-bin)。在另一个实施例中,每个非均匀频率子带仅包括信号的一个(复数)值(反映非均匀频率单元)。也可例如通过非均匀滤波器组实现这种配置。
[0094] 在现有技术的解决方案中幅度和相位信息被移动。本发明人提出将一个或多个源子带的瞬时包络移动到一个或多个相应目标子带,同时保持目标子带的精细结构(相位信息)(参见图2a-2c)。图2a-2c示出现有技术的频率变换方法(图2a)和根据本发明的频率变换方法的第一和第二实施例。(图2b和2c)。在图2a中示意性阐述的现有技术方法中选择源子带并且其(复数)内容变换到目标子带如从输入/源子带块到输出/目标子带块的箭头所示。未使用原始(输入)目标子带(参见输入/目标子带块)和原始(输出)源子带(参见输出/源子带块)的内容如分别在图2a标为结束和零信号块处结束和发出的箭头所示。
[0095] 图2b示意性地示出根据本发明的频率变换方法,其中选择源子带(参见输入/源子带),提取其包络(幅度)(参见提取包络块)并将其变换到(输出)目标子带,与从(参见提取相位块)选择目标频带(参见输入/目标子带)提取的相位组合,如从组合包络和相位块到输出/目标子带块的箭头所示。原始(输出)源子带(参见输出/源子带块)的内容被过滤(参见滤波器块),例如根据预定义机制(例如,线性对数)从最大的目标子带值减弱(参见图6-8中的示意性例子)。
[0096] 图2c示意性地示出图2b所示的频率变换方法,其中过滤步骤提供输出/源子带作为零-滤波器实现(使得输出源子带强制为零),如图2c从标为零信号块出来并在输出/源子带块结束的箭头所示。
[0097] 在最简单的实现中,瞬时幅度被移动,但更详尽的包络提取方法也是可能的。另一种可能性不是在子带中保持相位信息,而是以带限噪声替代它。
[0098] 图3a-3c示出与本发明一起使用的各种频压缩/扩展机制。
[0099] 图3a示出多种线性压缩和扩展机制,从输入频率fin到输出频率fout并分别具有整数(例如2∶1,3∶1,4∶1,1∶3)或者非整数(例如1.5∶1,4.5∶1)压缩和扩展比。窄实线表示全输入频率范围Δfin=fmax-i-fmin-i到较窄(压缩)输出频率范围Δfout=fmax-ox-fmin-o的映射(其中fmax-ox是给定压缩机制的最大输出频率,fmax-o4指例如4∶1压缩机制的最大输出频率。在一个实施例中,最大输出频率fmax-ox等于临界频率fcrit(参见例如图3b和图5-8)。加粗实线(标为1∶3)表示部分输入频率范围Δfin=fmax-i3-fmin-i到更广(扩展的)输出频率范围的映射,这里全输出范围Δfout=fmax-o-fmin-o。虚线表示输入频率范围到输出频率范围的部分映射。从输入频率轴fin上偏移频率foff-i处发出的虚线仅将在偏移频率foff-i以上的输入频率(并考虑低于最大输入频率fmax-i)映射到(可能压缩的或扩展的)输出频率范围(具有示例压缩比1∶1和4.5∶1)。在最小输入频率fmin-i和偏移频率foff-i之间的输入频率范围不考虑是例如包含噪声的频率范围或者此外不是用户感兴趣的。从输出频率轴fout上偏移频率foff-o处发出的虚线仅将输入频率映射到在偏移频率foff-o以上的输出频率(并考虑在最大输出频率fmax-ox以下,例如fmax-o2)。全输入频率范围能够通过合适的压缩比(在最小比值以上)压缩(窄虚线指示2∶1)到部分输出频率范围。粗虚线(标为1∶3)表示部分输入频率范围Δfin=fmax-io3-fmin-i到较宽(扩展的)输出频率范围的映射,这里部分输出范围是Δfout=fmax-o-foff-o。最小输出频fmin-o和偏移频率foff-o之间的输出频率范围不考虑例如是用户没有听觉能力的频率范围,或者不考虑通过传输信道的频率范围。
[0100] 图3a示出的频率扩展机制能力例如与相应频率压缩机制组合,例如与从第一设备(例如音频传输设备或通信设备)到第二设备(例如通信设备和/或听力设备,例如助听器)的频率压缩音频信号(例如根据压缩线3∶1)组合,其中接收的压缩信号相应地扩展(例如根据扩展线1∶3)到(基本上)“再生”原始信号。因此位于传输信道带宽上限之上的频率信息能够从第一设备传输到第二设备。在一个实施例中,能够实现改进的声音感知(和/或改进的语音清晰度)。在一个实施例中,通过有线连接进行第一到第二设备的传输,例如根据电话标准信道。在一个实施例中,通过无线连接进行第一到第二设备的传输,例如根据专有机制或标准协议。在一个实施例中,无线链路基于近场通信,例如使用第一和第二设备中各线圈之间的感应耦合。
[0101] 通常使用整数压缩比。然而,也能够替代地使用非整数压缩比。
[0102] 能够获得固定机制(其中例如以给定顺序变换每两个或每三个频带,如图6a-6b所示)的一种替代策略,其中识别源频带幅度频谱的最高值和最低值(例如保证信号极值包含在变换后(目标)信号中)。图7a-7b中示出这样的例子。在这种机制中根据特定顺序源频带可能不被选择,但仍可应用总频率压缩比。
[0103] 在当前上下文中,压缩比可定义为Δfsource/Δftarget,其中Δfsource是源频带(组合)覆盖的输入频率范围以及Δftarget是源频带映射其上的目标频带覆盖的输出频率范围。在一个实施例中,压缩比定义为与临界频率fcrit(例如定义为在其上用户具有显著听力损害的频率)和在其上执行频率压缩的截止频率fcut相关。参考图3c,通过压缩曲线定义的压缩机制的压缩比(例如线性4∶1或3∶1曲线)可表达为(fmax-i-fcut-i)/(fcrit-fcut-o)。
[0104] 图3b示出分别具有整数压缩比2∶1和4∶1的两个不同压缩曲线。范围为从fmin-i到fcut的输入频率(fin)直接映射(无需压缩或扩展)到范围为fmin-o到fcut的相应输出频率(fout)。在一个实施例中,fmin-i=fmin-o并且(因此)fcut-i=fcut-o=fcut,如图3b所示。然而,也可以不是这种情形。范围从fcut到fmax-i的输入频率被分别压缩到范围为fcut到fcrit(2∶1压缩)或fcut到fcrit’(4∶1压缩)的输出频率。
[0105] 图3c示出多种不同扩展/压缩曲线,其能够与本方法一起使用。扩展以粗曲线示出。
[0106] 1∶3和3∶1标识的曲线表示范围从fmin-i到fcut-i2的输入频率到范围从fmin-o到fcut-o2的输出频率的扩展(1∶3)以及范围从fcut-i2到fmax-i的输入频率到范围从fcut-o2到fcrit,2的输出频率的压缩(3∶1)。
[0107] 1∶1和4∶1标识的线性曲线表示范围从fmin-i到fcut-i1的输入频率到范围从fmin-o到fcut-o1的输出频率的一对一映射以及范围从fcut-i1到fmax-i的输入频率到范围从fcut-o1到fcrit,1的输出频率的压缩(4∶1)。每个曲线g1(fin)和g2(fin)将范围从fmin-i到fmax-i的输入映射到范围从fmin-o到fcrit,1的输出频率,与1∶1和4∶1标识的分段线性压缩曲线类似,但在非线性情况中(例如按照对数或幂函数,至少在部分频率范围上)。曲线g1(fin)具有初始部分(在低频),在该处执行扩展(如曲线粗体部分所示),而曲线的其他部分实现压缩。另一方面曲线g2(fin),在整个输入频率范围实现压缩。
[0108] 虚线g3(fin)实现在输出频率foff-o开始的非线性压缩机制(例如在其之下用户没有听力能力或听力能力降低)并且将范围从fmin-i到fmax-i的输入频率映射到范围从foff-o到fcrit,3的输出频率。
[0109] 在本发明的实施例中,提供实数或复数值子带信号的子带滤波器组用于根据选择的压缩机制将源子带包络移动到目标子带包络。通过使用合成滤波器组从子带信号重构全频带信号来获得输出信号。当在分析滤波器组中不使用下采样时,子带信号和子带信号的简单相加足以重构输出信号。否则可以使用具有上采样的合成滤波器组。
[0110] 图4a-4c示出图2b或2c中示出的频率变换方法的实施示例,图4a使用复数子带滤波器组,图4b使用实数子带滤波器组,图4c使用复数子带滤波器组和包络提取前的源信号与处理和提取包络的后处理。可以在复数子带信号上使用绝对值操作来提取包络(如图4a和4c所示)。复数子带分析滤波器组单元提供多个源频带(n=1,2,...,Ns)中的源频带信号 和多个目标频带(p=1,2,...,Nt)中的目标频带信号 标为1/
Abs(·)的单元(图4a-4c中)提供输入信号的绝对值(幅度)的倒数作为输出(例如1/Asn)。在一个实施例中,1/Abs(·)单元包括后处理机制,例如非线性、取决于输入的后处理,例如保证当前Abs(·)值是否在特定低值以下(指出该频带中信号的频率内容接近零),所述单元为该频带输出1/Abs(·)的零值(那里信号相位被丢弃)。标为Abs(·)的单元提供输入信号的绝对值作为输出(例如幅度Atp)。乘法单元(X)提供三个输入信号(例如1/Asn,Atp and )的乘积作为输出,提供期望的输出信号 如果子带信号是实数
值,在绝对值操作前使用Hilbert变换(参见图4b中的HT单元)(如图4b所示)。图4c示出一个实施例(基于图4a的实施例(但可类似地组合到图4b的实施例中)),其中在用于目标频带中的包络值被提取前执行一个或多个源子带的可选预处理。预处理能够例如包括过滤和/或求和两个或更多信号(例如相邻信道),例如包括平均和/或最小/最大计算。
预处理能够,例如实现用于源频带选择的选择策略(参见图6a-8中的示例)。否则,子带分析滤波器组能够实现这种策略,可选地通过信号处理单元控制。进一步,可执行将在目标子带中使用的包络值的可选后处理。后处理能够,例如包括过滤(例如时间平滑),和/或非线性,例如取决于输入等级的,滤波。图4a和4c的实施例中使用的复数子带分析滤波器组能够以各种方式实现,例如均匀DFT滤波器组(参见例如[Vaidyanathan,1993],p.116)或者使用标准交叠相加(OLA)方法,例如窗交叠相加(WOLA)方法。
[0111] 在一个实施例中,复数滤波器组用于将子带划分为瞬时幅度和相位。均匀DFT滤波器组是这种复数子带滤波器组的一个示例。
[0112] 图5示出音频信号的幅度(MAG)的示意表示,所述音频信号在给定时间单元中被划分为多个均匀频带,示出沿频率轴f在最小频率fmin和最大源频带fmax-s之间源和目标频带的相对位置。上图示出源频带的组合位于截止频率fcut和最大源频带频率fmax-s之间。下图示出目标频带位于截止频率fcut和临界频率fcrit之间。如连接图5上部和下部的箭头所示,Ns个源频带的幅度(MAG)被映射以构成Nt个目标频带(这里示出具有压缩比Nt/Ns的压缩机制(Nt<Ns))。
[0113] 图6a-6b示出本申请提出的、在给定时间单元中(或者对多个时间单元的平均)应用到音频信号的第一频率压缩机制,图6a示意性地示出原始和变换信号的幅度(MAG),并且图6b示意性地示出原始和变换信号的相位(PHA)。图6a-6b示出高于截止频率fcut的(源)频带(并且低于最大源频带频率fmax-s)到在截止频率fcut和临界频率fcrit之间的目标频带的幅度的3∶1压缩机制。幅度变换到目标频带的源频带通过实箭头标识(从源到目标频带)。连接目标频带幅度值的粗曲线延续到源频带(标为压缩/滤波信号),示出剩余源频带的滤波(衰减)的例子(参见图2b)。目标频带的相位未变化(即变换幅度值于目标频带的原始相位组合),如图6b中环箭头所示。低于fcut的频带的幅度和相位未变化。
[0114] 图7a-7b示出本申请提出的、在给定时间单元中应用于音频信号的第二频率压缩机制,图7a示意性地示出原始和变换信号的幅度(MAG)并且图7b示意性地示出原始和变换信号的相位(PHA)。图7a-7b与图6a-6b相似,仅表示不同压缩机制,即识别源频带极值(通过标为源频带.选择极值的大箭头标识)。在图7a-7b示出的机制中,独立地分别为位于fcut和fcrit之间的源频带组和位于fcrit和fmax-s之间的源频带组搜寻极值。也可以实现其他最大/最小策略,例如保证预定义压缩比的最大/最小策略。
[0115] 图8示出本申请提出的、在给定时间单元中应用于音频信号的第三频率压缩机制,示意性地示出源频带(上曲线)和变换的目标频带(下曲线)的幅度(MAG)。图8的压缩策略包括平均三个相邻源频带的幅度(通过不同剖面线指示每三个一组)。源到目标频带的变换通过连接上下图的箭头示出(标为文字“单个相邻频带的平均值”)指示源频带选择策略(或与图4c一同讨论的预处理策略)。源和目标频带的相位关系未变化(例如图6b和7b中所示)。
[0116] 本发明变换机制的期望用户益处与传统频率压缩相同,即主要是可听度和语音清晰度。然而,本机制可导致声音质量显著改善并甚至可能导致语音清晰度的进一步改进。进一步可以为更多用户使用这种频率降低原则,特别是具有轻微听力损失的用户。本方法不限于仅频率压缩,还能够用于任何种类的频率降低原则[Simpson;2009]并甚至包括频率扩展。
[0117] 图9a和9b示出听力设备,包括提供时变音频输入信号的输入转换器,用于将时变音频输入信号变换为时频域信号的时到时频变换单元T-TF,用于如本发明描述的实施压缩和/或扩展机制(k->k’)的信号处理单元SP,用于应用取决于频率的增益,以及可能执行其他信号处理功能,例如噪声降低、反馈消除等的可选增益单元G(k’,m)(例如根据用户的听力损害),用于将时频域信号变换成时变音频输出信号的时频到时变换单元,以及用于将时变音频输出信号变换为呈现给用户的输出声音z’(t)的扬声器单元LS。在图9a的实施例中,输入转换器包括用于拾取时变输入声音信号z(t)并将其变换成电时变音频输入信号的麦克风系统MICS。在图9b的实施例中,输入转换器包括用于接收无线传输信号zm和用于提取电时变音频输入声音信号的无线接收机ANT和Rx单元。
[0118] 在一个实施例中,听力设备包括两类输入转换器(可能进一步或替代地包括直接有线电音频输入),其中通过选择器或混合单元选择一个或多个输入。在一个实施例中,根据从其中输入信号被选择的输入转换器的类型选择合适的压缩或扩展机制(例如信号处理器配置为自动选择合适机制)。
[0119] 在一个实施例中,根据通过考虑中设备所接收的输入信号的类型(类型例如是语音、音乐、噪声、例如女性或男性语音或孩童的语音)选择合适的压缩或扩展机制(例如信号处理器配置为自动地选择合适机制),例如基于各种检测器或分析单元。在一个实施例中,音频处理设备包括用于在音频信号中检测人类声音存在的语音检测器。在一个实施例中,音频处理设备包括用于确定音频输入信号的一个或多个共振峰频率的频率分析器,例如基础频率(参见例如EP2081405A1和其参考)。在一个实施例中,音频处理设备包括用于在音频信号中检测噪声存在的噪声检测器。
[0120] 图9c示出一种音频通信系统,其包括助听器LI形式的第一音频处理设备和佩戴设备形式的第二音频处理设备,这里用于选择多个接收音频信号并将选择的音频信号转发给助听器LI的脖戴式音频网关设备AG。两个设备用于通过有线或(如这里示出的)无线链路WLS2互相无线地通信。音频网关设备AG,例如用于在领带NL中佩戴在用户U的脖子上。音频网关设备AG包括信号处理单元SP,麦克风MIC和至少一个用于从音频传输设备接收音频信号的接收机Rx-Tx。音频网关设备包括例如分别用于接收和可能解调无线接收信号(例如如图9c所示从电话CP)以及用于可能调制传输信号(例如通过音频网关AG的麦克风MIC拾取)并传输(调制)信号(例如到电话CP)的天线和收发机电路(参见图9c中的链路WLS1和Rx-Tx单元)。助听器LI和音频网关设备AG通过无线链路WLS2连接,例如感应链路(例如双向或如图9c所示单向链路),音频信号通过音频网关设备AG的感应传输器I-Tx被传输到助听器LI的感应接收机I-Rx。在本实施例中,无线传输基于两个设备中线圈之间或绕脖天线之间的感应耦合(例如包含在领带NL中),例如分布在来自音频网关设备中的线圈(或产生场本身)和助听器的线圈(例如助听器)的场。音频网关设备AG可与助听器LI一同构成音频通信系统。音频网关设备AG可构成或形成另一个设备的部分,例如用于助听器LI的移动电话或遥控。助听器LI用于佩戴在用户U的头上,例如在用户U的耳朵处或耳朵内(例如以耳后(BTE)或耳中(ITE)助听器的形式)。音频网关设备AG的麦克风MIC能够,例如用于拾取在电话交谈期间的用户声音和/或用户环境中的其他声音。麦克风MIC能够,例如通过用户U手动关闭。
[0121] 第一和第二音频处理设备,每个包括信号处理器(参见例如音图9c中频网关AG的信号处理单元SP(com/exp),以及助听器LI中的相应单元,SP(com/exp)),用于实施如本发明描述的压缩和/或扩展机制,用于增强通过有线带宽的传输信道接收的音频信号的音质或语音清晰度。音频网关AG用于压缩选择的音频信号,例如来自蜂窝电话CT的接收信号(或来自连接到音频网关设备的另一个音频传输设备)在音频网关设备的信号处理单元SP中包括用于如本发明描述的压缩接收音频信号的(参见例如图3a)频率变换机制(包括提取源幅度以及将其与目标频带的相位组合)。音频网关设备进一步用于(可能调制并)通过无线传输信道WLS2将所述压缩信号传输到助听器LI。助听器LI用于接收通过传输信道WLS2从音频网关设备传输的音频信号并(可能调制并)扩展接收的音频信号,助听器的信号处理单元包括用于扩展接收的压缩音频信号以重建选择音频信号的频率变换机制。替代地,助听器LI用于使用接收并调制(压缩)的音频信号,或者为通过输出转换器向用户直接呈现信号,或者为了进一步在这种向用户的呈现之前在信号处理单元中处理压缩信号(例如实施取决于频率的增益和/或噪声降低算法等)。
[0122] 应用场合能够,例如包括电话交谈,其中为听力系统所接收的语音信号来自的设备是电话(如图9c中CT所示)。蜂窝电话可替代地或附加地包括如本发明所述的音频处理设备,因此蜂窝电话和音频网关(或替代地蜂窝电话和助听器)构成了本发明所述的音频通信系统。蜂窝电话可替换地是任何其他音频传输设备,例如娱乐设备(例如TV或音乐播放器或PC或其组合)。
[0123] 助听器LI能够,例如是头戴式耳机或助听器或电话耳机或主动听力保护设备或其组合。
[0124] 音频选择设备或音频网关AG,其能够依据本发明改进和使用是例如在EP1460769A1和EP1981253A1或WO2008/125291A2描述的。
[0125] 总之,本发明的实施例能够提供一个或多个如下优点:
[0126] 为用户改进(感知的)音质。
[0127] 为用户改进语音清晰度。
[0128] 补偿大多数不同种类的听力损害的改进可能。
[0129] 降低音频传输信道的带宽要求。
[0130] 本发明通过独立权利要求的特征定义。优选实施例在从属权利要求中定义。权利要求中的任何参考数字不限制其范围。
[0131] 前面已示出了一些优选实施例,但应当强调发明不限于此,但可在所附权利要求定义的主题内包含其他方式,例如光谱频带复制、带宽扩展、声音合成器原理等技术的各种相互作用。
[0132] 引用资料
[0133] [Simpson;2009]Andrea Simpson,用于管理高频的频率降低设备,听力损失:放大综述和趋势,Vol.13;No.2,2009年6月,pp.87-106
[0134] EP1686566A2(PHONAK)02-08-2006
[0135] EP2091266A1(OTICON)19-08-2009
[0136] [Vaidyanathan,1993]P.P.Vaidyanathan,多速率系统和滤波器组,Prentice Hall,1993.
[0137] EP2081405A1(BERNAFON)22-07-2009.
[0138] EP1460769A1(PHONAK)22-09-2004.
[0139] EP1981253A1(OTICON)15-10-2008.
[0140] WO2008/125291A2(OTICON)23-10-2008.