一种基于频率调制信息的人工耳蜗语音处理方法及处理器转让专利

申请号 : CN200810239725.0

文献号 : CN101642399B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨琳张建平颜永红

申请人 : 中国科学院声学研究所北京中科信利技术有限公司

摘要 :

本发明提供一种基于频率调制信息的人工耳蜗语音处理方法及处理器,将语音信号进行预加重之后,经所述分析滤波器组分解为几个子频带,然后提取各个子带信号的时域包络信息,采用希尔伯特变换的方法提取低频部分的频率调制信息,与时域包络相乘,得到包含频率调制信息的合成时域包络,接着通过所述脉冲发生器,利用所得到的各个子带时域包络调制脉冲序列,再将各子带的调制脉冲相加得到最终合成的刺激信号,发送到电极产生电脉冲刺激听觉神经。本发明的人工耳蜗语音处理器适合母语为汉语的耳聋患者在噪声环境下进行言语识别并具有噪声鲁棒性,使得耳聋患者感受到更多精细的语音结构信息,增强耳聋患者在噪声下的言语识别能力,有助于声调的辨识。

权利要求 :

1.一种基于频率调制信息的人工耳蜗语音处理方法,包括如下步骤:

1)将语音信号进行预加重之后,经过一组分析滤波器组分解为几个子频带;

2)提取各个子带信号的时域包络信息,采用希尔伯特变换的方法提取低频部分的频率调制信息,与时域包络相乘,得到包含频率调制信息的合成时域包络,具体的提取过程包括如下步骤:

a)将子带信号经过半波整流和低通滤波后,得到一个时域包络信号;

b)将子带信号经过希尔伯特变换,得到其对应的解析信号,并求取解析信号的相位部分,得到子带信号的频率调制信息;

c)对所述解析信号的相位信息进行求导,移除中心频率,再经过积分和三角变换后得到在耳聋患者感知范围内的几百赫兹的较低频率的频率调制信息;

d)将所述步骤a)中得到的包络与所述步骤c)中得到的频率调制信息相乘,再经过一个低通滤波器进行频率限制,得到含有频率调制信息的子带时域包络;

3)利用所述步骤2)得到的各个子带时域包络调制脉冲序列,再将各子带的调制脉冲相加得到最终合成的刺激信号,发送到电极。

2.根据权利要求1所述的基于频率调制信息的人工耳蜗语音处理方法,其特征在于,所述步骤1)中所述分析滤波器组的中心频率的选择采用Greenwood频率-位置函数,

0.06×d

f=165.4*(10 -0.88)

其中,f表示距离耳蜗基膜底端d毫米处对应的特征频率。

3.根据权利要求1所述的基于频率调制信息的人工耳蜗语音处理方法,其特征在于,所述步骤2)的a)步骤中,通过半波整流和低通滤波提取子带信号的时域包络,其中低通滤波器采用的是截止频率为500Hz的4阶Butterworth低通滤波器;

所述步骤2)的b)步骤中,对每个子带的子带信号Si(t)求取希尔伯特变换:对应的解析信号为:

式中 是解析信号的幅度信息, 是解析

信号的相位信息,包含了子带信号更多精细的结构信息;

所述步骤2)的c)步骤中的频率调制gi(t),可以通过φi(t)求导、并移除对应子带的中心频率后计算得出:接着,对瞬时频率在时间轴上求取积分,再经过三角变换,可以得到包含精细结构信息的频率调制信息:所述步骤2)的d)步骤中,与步骤a)中的普通包络相结合,得到提取的包含精细结构信息的包络最后重构后的子带信号表示为:

4.一种基于频率调制信息的人工耳蜗语音处理器,包括:分析滤波器组、包络检测器、脉冲发生器,其特征在于,首先,将语音信号进行预加重之后,经所述分析滤波器组分解为几个子频带,然后,通过所述包络检测器提取各个子带信号的时域包络信息,采用希尔伯特变换的方法提取低频部分的频率调制信息,与时域包络相乘,得到包含频率调制信息的合成时域包络,其中,所述包络检测器采用半波整流和低通滤波提取子带时域包络信号,并通过希尔伯特变换技术提取子带信号的相位信息,得到子带信号的频率调制信息,再对解析信号的相位信息进行求导,移除中心频率,再经过积分和三角变换后得到较低频率的频率调制信息,将半波整流和低通滤波提取得到的包络与频率调制信息相乘,再经过一个低通滤波器进行频率限制,得到含有频率调制信息的子带时域包络,接着,通过所述脉冲发生器,利用所得到的各个子带时域包络调制脉冲序列,再将各子带的调制脉冲相加,得到最终合成的刺激信号,发送到电极,产生电脉冲以刺激听觉神经。

5.根据权利要求4所述的基于频率调制信息的人工耳蜗语音处理器,其特征在于,所述分析滤波器组的中心频率的选择采用Greenwood频率-位置函数,

0.06×d

f=165.4*(10 -0.88)

其中,f表示距离耳蜗基膜底端d毫米处对应的特征频率。

6.根据权利要求4所述的基于频率调制信息的人工耳蜗语音处理器,其特征在于,所述包络检测器通过半波整流和低通滤波提取子带信号的时域包络时,其低通滤波器采用的是截止频率为500Hz的4阶Butterworth低通滤波器;

提取子带信号的相位信息时,对每个子带的子带信号Si(t)求取希尔伯特变换:对应的解析信号为:

式中 是解析信号的幅度信息, 是解析

信号的相位信息,包含了子带信号更多精细的结构信息;

在获取耳聋患者感知范围内的几百赫兹的较低频率的频率调制信息时,对于频率调制gi(t),可以通过φi(t)求导、并移除对应子带的中心频率后计算得出:接着,对瞬时频率在时间轴上求取积分,再经过三角变换,可以得到包含精细结构信息的频率调制信息:为了得到含有频率调制信息的子带时域包络,将半波整流和低通滤波提取得到的包络与上述频率调制信息相乘,得到提取的包含精细结构信息的包络最后重构后的子带信号表示为:

说明书 :

一种基于频率调制信息的人工耳蜗语音处理方法及处理器

技术领域

[0001] 本发明涉及一种人工耳蜗语音处理方法及处理器,具体地说,涉及一种利用语音信号中的频率调制信息实现一种适合母语为汉语的耳聋患者在噪声环境下进行言语识别的基于频率调制信息的人工耳蜗语音处理方法及处理器。

背景技术

[0002] 人工耳蜗是目前唯一能够使全聋患者恢复部分听力的有效方法。它是在病人的耳蜗内植入电极阵列,根据输入声信号产生电极刺激信号,以电信号刺激听觉神经的方式为深度耳聋的病人恢复部分听力,它起到了模拟和替代从外耳到内耳整体听觉功能的作用。语音信号处理器是人工耳蜗中最重要的部分,它提取某些特定的声学特征,通过编码和射频传输来控制电刺激的参数,如脉冲幅度、发放速率等。植入耳蜗皮下的电极在这些电信号的作用下刺激听觉神经,这些听觉神经又与中枢神经相连,电脉冲在那里被解读成言语信息。
[0003] 目前在人工耳蜗中,最主流的语音处理算法是连续交叠采样算法(CIS,Continuous Interleaved Sampling),语音信号首先经过一组分析滤波器组,然后采用半波整流和低通滤波的方法提取各个子带信号的时域包络,再对从各个子带中提取出时域包络信息进行编码传输,激励皮下电极。CIS算法按照耳蜗的拓扑结构,将语音信号从低频到高频被分解为几个频带,模拟声音频率沿耳蜗基膜的分布情况,即:耳蜗顶端编码声音的低频信息,底端编码高频信息,其中子带数目通常选择4-22个不等。
[0004] 虽然在当前的语音处理策略中,仅依靠3-4个频带的时域包络信息,在安静的环境下可以使耳聋患者获得90%以上的语音可懂度,但是在嘈杂的噪声环境下并不能取得良好的效果。而且,对于母语为汉语的患者,其言语可懂度明显不及前者,特别是在声调识别方面,佩戴人工耳蜗的耳聋患者汉语四声的声调识别率很低。这是因为与西方语言不同,汉语普通话与英语在声学和语音学层次上有着明显不同,最显著的特点在于汉语普通话中声调具有表义作用,而当前的人工耳蜗技术却无法体现出语音的声调变化。

发明内容

[0005] 本发明的目的是提供一种基于频率调制信息的人工耳蜗语音处理方法及处理器,是一种适合母语为汉语的耳聋患者的、具有噪声鲁棒性的人工耳蜗语音处理算法及处理器,使得耳聋患者感受到更多精细的语音结构信息,增强耳聋患者在噪声下的言语识别能力,以及有助于声调的辨识。
[0006] 为了实现上述目的,本发明提供的基于频率调制信息的语音处理方法,包括如下步骤:
[0007] 1)将语音信号进行预加重之后,经过一组分析滤波器组,分解为几个子频带;
[0008] 2)提取各个子带信号的时域包络信息,采用希尔伯特变换的方法提取低频部分的频率调制信息,与时域包络相乘,得到包含频率调制信息的合成时域包络,[0009] 其中,所述时域包络提取方法采用的是传统的低通滤波器方法,频率调制信息的提取方法采用的是希尔伯特变换的方法,为得到包含频率调制信息的包络,步骤如下:
[0010] a)将子带信号经过半波整流和低通滤波后,得到一个时域包络信号;
[0011] b)同时,将子带信号经过希尔伯特(Hilbert)变换,得到其对应的解析信号,并求取解析信号的相位部分,即得到子带信号的频率调制信息;
[0012] c)对解析信号的相位信息进行求导,移除中心频率,再经过积分和三角变换后得到耳聋患者感知范围内的几百赫兹的较低频率的频率调制信息;
[0013] d)将步骤a)中得到的包络与步骤c)中得到的频率调制信息相乘,为了防止产生过高频虑的信号,使耳聋患者无法感知,再经过一个低通滤波器进行频率限制,得到的信号就是含有频率调制信息的子带时域包络;
[0014] 3)利用步骤2)得到的各个子带时域包络调制脉冲序列,再将各子带的调制脉冲相加,得到最终合成的刺激信号,发送到电极。
[0015] 本发明的方法中,用各个子带中包络检测器提取出的子带包络调制各个子带对应的脉冲信号,脉冲信号的频率与当前子带采用的分析滤波器的中心频率相同,最后将电脉冲发送到植入耳蜗的对应电极上,以此电信号刺激残余的神经细胞,使耳聋患者感受到声音。
[0016] 上述技术方案中,所述步骤1)中采用的分析滤波器组是一组6阶Butterworth带通滤波器,该分析滤波器组的中心频率的选择采用Greenwood频率-位置函数,[0017] f=165.4*(100.06×d-0.88)
[0018] 其中,f表示距离耳蜗基膜底端d毫米处对应的特征频率。
[0019] 各个带通滤波器的中心频率和截止频率的设计符合人耳的频率拓扑结构。
[0020] 另外,本发明的一种基于频率调制信息的人工耳蜗语音处理器,包括:分析滤波器组、包络检测器、脉冲发生器,其特征在于,将语音信号进行预加重之后,经所述分析滤波器组分解为几个子频带,然后提取各个子带信号的时域包络信息,采用希尔伯特变换的方法提取低频部分的频率调制信息,与时域包络相乘,得到包含频率调制信息的合成时域包络,接着通过所述脉冲发生器,利用所得到的各个子带时域包络调制脉冲序列,再将各子带的调制脉冲相加,得到最终合成的刺激信号,发送到电极,产生电脉冲以刺激听觉神经。
[0021] 所述分析滤波器组的中心频率的选择采用Greenwood频率-位置函数,[0022] f=165.4*(100.06×d-0.88)
[0023] 其中,f表示距离耳蜗基膜底端d毫米处对应的特征频率。
[0024] 所述包络检测器采用半波整流和低通滤波提取子带时域包络信号,并通过希尔伯特变换技术提取子带信号的相位信息,得到子带信号的频率调制信息,再对解析信号的相位信息进行求导,移除中心频率,再经过积分和三角变换后得到较低频率的频率调制信息,将半波整流和低通滤波提取得到的包络与频率调制信息相乘,再经过一个低通滤波器进行频率限制,得到含有频率调制信息的子带时域包络。
[0025] 本发明相对于现有人工耳蜗语音处理算法,有以下技术效果:
[0026] 1、传统的CIS算法只采用了低通处理后的时域包络信息,这种方法只能够在安静环境下获得良好的效果,难以使耳聋患者获得噪声情况下的语音识别能力;本发明采用的包含频率调制信息的人工耳蜗语音处理器,在传统的包络中引入了语音中更加精细的结构信息,从而可以增强人工耳蜗佩戴者在噪声下的言语识别能力。
[0027] 2、以往的人工耳蜗语音处理策略虽然可以使讲英语和德语的患者获得良好的言语可懂度,但是对于母语为汉语的患者,其言语可懂度明显下降,特别是在声调识别方面,佩戴采用传统语音处理算法的人工耳蜗的耳聋患者汉语四声的声调识别率很低,本发明采用的语音处理方法由于引入了语音中和更加精细的结构信息,可以使得耳聋患者获得更多有助于声调感知的信息,从而更加适用于母语为汉语的人工耳蜗佩戴者。
[0028] 3、本发明提出的改进的时域包络信息,虽然引入了语音中更加精细的结构成分,但并没有增加高频信息,依然在耳聋患者可感知的范围内。
[0029] 4、本发明的提出的改进算法在实现时没有增加工艺复杂性,依然可以在传统语音处理器的硬件设备上实现。

附图说明

[0030] 图1是本发明的基于频率调制信息的语音处理方法及处理器中所采用的连续交叠采样语音处理算法的流程图。
[0031] 图2是本发明基于频率调制信息的人工耳蜗语音处理方法及处理器中采用的包络检测器处理流程框图。
[0032] 图3是本发明基于频率调制信息的人工耳蜗语音处理方法中采用的包络与普通包络的时域对比图。
[0033] 图4是本发明基于频率调制信息的人工耳蜗语音处理方法中采用的包络与普通包络的频域对比图。

具体实施方式

[0034] 下面结合附图和具体实施例对本发明的基于频率调制信息的语音处理方法及处理器进行详细的说明。
[0035] 参照图1,是本发明一个四通道连续交叠采样算法的实施例,语音信号处理的具体流程如下。
[0036] 1)语音信号经预加重后,经过一组分析滤波器组,分解为几个子频带;
[0037] 在现有的人工耳蜗语音处理器中,通常选择子带的数目为4~22个不等,在具体验配过程中根据耳聋患者个体差异不同而不同。
[0038] 本发明的基于频率调制信息的语音处理方法及处理器采用的分析滤波器组为四个6阶Butterworth带通滤波器。为了模拟人耳对频率的选择特性,带通滤波器的中心频率根据Greenwood频率-位置函数计算得出,公式如下:
[0039] f=165.4*(100.06×d-0.88)
[0040] 式中,f表示距离耳蜗基膜底端d毫米处对应的特征频率(Hz)。本实施例中分析滤波器组各个子带对应的上限、下限截止频率为:100,404,1083,2602,6000Hz。
[0041] 2)提取各个子带信号的时域包络和频率调制信息,合成包含频率调制信息的时域包络;
[0042] 经过分析滤波器之后,提取各个子带信号的包络。
[0043] 普通的CIS语音处理器是将语音信号近似为一组正弦信号之和:
[0044]
[0045] 式中,S(t)表示中枢神经接收到的语音信号,N是分析频带的个数,Ai(t)表示第i个子带的包络信号,fci是第i个子带的中心频率。采用半波整流和低通滤波技术提取子带信号的时域包络。
[0046] 与普通CIS语音处理器不同,本发明除了采用半波整流和低通滤波提取子带时域包络信号,还通过希尔伯特变换技术提取了子带信号的相位信息,即频率调制信息,合成一种新的含有更多精细结构信息的包络信号。参照图2,为本发明采用的包络检测器的处理流程框图,步骤如下:
[0047] a)通过半波整流和低通滤波提取子带信号的时域包络,其中低通滤波器采用的是截止频率为500Hz的4阶Butterworth低通滤波器。
[0048] b)对每个子带的子带信号Si(t)求取希尔伯特变换:
[0049]
[0050] 对应的解析信号为:
[0051]
[0052] 式中 是解析信号的幅度信息, 是解析信号的相位信息,包含了子带信号更多精细的结构信息。
[0053] c)频率调制gi(t),即瞬时频率,可以通过φi(t)求导、并移除对应子带的中心频率后计算得出:
[0054]
[0055] 接着,对瞬时频率在时间轴上求取积分,再经过三角变换,可以得到包含部分精细结构信息的频率调制信息:
[0056]
[0057] d)与步骤a)中的普通包络相结合,得到本发明提出的包含精细结构信息的包络[0058]
[0059] 另外,因为耳聋患者无法感知过高的频率信息,因此本发明还对新合成的包络进行频率限制,采用的低通滤波器是截止频率为500Hz的四阶Butterworth低通滤波器。最后重构后的子带信号可以表示为:
[0060]
[0061] 3)用步骤2)得到的各个子带时域包络调制脉冲序列,再将各子带的调制脉冲相加,得到最终合成的刺激信号,发送到电极,产生电脉冲刺激听觉神经。
[0062] 本发明的方法中,用各个子带中包络检测器提取出的子带包络调制各个子带对应的脉冲信号,脉冲信号的频率,与当前子带采用的分析滤波器的中心频率相同。最后将电脉冲发送到植入耳蜗的对应电极上,以此电信号刺激残余的神经细胞,使耳聋患者感受到声音。
[0063] 另外,图3和图4分别是本发明基于频率调制信息的人工耳蜗语音处理方法中采用的包络与普通包络的时域和频域对比图。参照图3和图4,本发明采用的包含频率信息的包络和普通人工耳蜗处理器中采用的包络在时域上具有相似的变化趋势;在频域,本发明采用的包络仍然只保持在几百赫兹的范围内,只是由于调频信息的引入,使得各子带频谱能量有所增加,也正是这些新引入的更加精细的结构信息,使得人工耳蜗性能大大提高。
[0064] 本发明采用的包络Ai′(t)和普通时域包络的利用方式相同,因此,不需要更改人工耳蜗中的硬件设备,实现简易。
[0065] 本发明特别适合于在噪声环境下耳聋患者的语音识别,以及有助于母语为汉语的耳聋患者提高言语可懂度。通过对6个汉语为母语的被试进行主观听辨实验,发现本发明提出的这种含有频率调制信息的包络能够大大改善噪声环境下的语音识别,相对于普通方法提取的包络,依靠本发明提取的包络信息可以使汉语元音和声调的可懂度提高20%以上,辅音和句子的可懂度提高10%以上。
[0066] 最后,所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。