基音搜索方法及装置转让专利

申请号 : CN200810247031.1

文献号 : CN101599272B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张德军许剑峰苗磊齐峰岩张清李立雄马付伟高扬

申请人 : 华为技术有限公司

摘要 :

本发明实施例涉及一种基音搜索方法及装置,其中一种方法包括:获取残差信号的特征函数值,所述残差信号是根据输入语音信号去掉长时预测贡献信号而得到的;根据所述残差信号的特征函数值,获得基音。另一种方法包括:在输入语音信号中,查找幅度或幅值最大的脉冲;根据所述幅度或幅值最大的脉冲的位置,对所述输入语音信号设置目标窗;滑动所述目标窗得到滑动窗,计算所述滑动窗内的输入语音信号与所述目标窗内的输入语音信号的相关系数,获得所述相关系数最大值;根据所述相关系数最大值,获取基音。本发明实施例通过设置目标窗,不需要计算整帧信号的相关函数值,大大降低了基音搜索的复杂度。

权利要求 :

1.一种基音搜索方法,其特征在于包括:

获取残差信号的特征函数值,所述残差信号根据输入语音信号去掉长时预测贡献信号获得,其中所述长时预测贡献信号是根据长时预测激励信号和基音增益确定的;所述基音增益为一固定值,或者,所述基音增益为根据预先设定的基音范围中的基音自适应确定的值;

根据所述残差信号的特征函数值,获得基音。

2.根据权利要求1所述的基音搜索方法,其特征在于,所述获取残差信号的特征函数值包括:获取整帧残差信号的特征函数值;

或者,对所述输入语音信号设置目标窗,获取所述目标窗中残差信号的特征值。

3.根据权利要求2所述的基音搜索方法,其特征在于,所述对输入语音信号设置目标窗具体为:查找所述输入语音信号幅度或幅值最大的脉冲;根据所述输入语音信号幅度或幅值最大的脉冲的位置,设置所述目标窗。

4.根据权利要求1或2或3所述的基音搜索方法,其特征在于:所述获取残差信号的特征函数值包括:在预先设定的基音范围内,计算与每个基音对应的残差信号;计算与每个基音对应的残差信号的特征函数值;

所述根据残差信号的特征函数值,获得基音包括:在所述与每个基音对应的残差信号的特征函数值中,查找特征函数值的最值;将所述最值对应的基音作为所述基音。

5.根据权利要求4所述的基音搜索方法,其特征在于:所述残差信号的特征函数值为残差信号能量,所述特征函数值的最值为残差信号能量最小值;

或者,所述残差信号的特征函数值为残差信号绝对值之和,所述特征函数值的最值为残差信号绝对值之和最小值。

6.根据权利要求1所述的基音搜索方法,其特征在于,在获取残差信号的特征函数值之前还包括:对所述输入语音信号进行低通滤波处理或下采样处理。

7.一种基音搜索装置,其特征在于包括:

特征值获取模块,用于获取残差信号的特征函数值,所述残差信号是根据输入语音信号去掉长时预测贡献信号而得到的,其中所述长时预测贡献信号是根据长时预测激励信号和基音增益确定的;所述基音增益为一固定值,或者,所述基音增益为根据预先设定的基音范围中的基音自适应确定的值;

基音获取模块,用于根据所述残差信号的特征函数值,获得基音。

8.根据权利要求7所述的基音搜索装置,其特征在于:所述特征值获取模块具体用于获取整帧残差信号的特征函数值;

或者,所述特征值获取模块包括:

目标窗单元,用于对所述输入语音信号设置目标窗;

特征值获取单元,用于获取所述目标窗中残差信号的特征值。

9.根据权利要求8所述的基音搜索装置,其特征在于还包括:查找模块,用于查找所述输入语音信号幅度或幅值最大的脉冲;

所述目标窗单元具体用于根据所述输入语音信号幅度或幅值最大的脉冲的位置,设置所述目标窗。

10.根据权利要求7或8或9所述的基音搜索装置,其特征在于,所述特征值获取模块包括:第一计算单元,用于在预先设定的基音范围内,计算与每个基音对应的残差信号;第二计算单元,用于计算与每个基音对应的残差信号的特征函数值,并获取特征函数值的最值;

所述基音获取模块具体用于将特征函数值的最值对应的基音作为所获得的基音。

11.根据权利要求7所述的基音搜索装置,其特征在于还包括:预处理模块,用于将所述输入语音信号进行低通滤波处理或下采样处理。

说明书 :

基音搜索方法及装置

技术领域

[0001] 本发明实施例涉及语音编解码领域,涉及一种基音搜索方法及装置。

背景技术

[0002] 通常语音频信号具有一定的周期性特征,采用长时预测(Long TermPrediction,以下简称:LTP)方法可以去掉语音频信号中的长时周期性。在进行LTP预测时,需要预先搜索基音。现有技术提供了一种利用自相关函数的基音搜索方法,在运动图像专家组音频无损编码(Moving Pictures ExpertsGroup Audio Lossless Coding,以下简称:MPEG ALS)装置中,利用历史缓冲区的数据作为激励信号来预测当前帧信号。下面以开环基因分析为例进行介绍。
[0003] 首先通过将原始语音信号输入感知加权滤波器中得到加权语音信号sw(n),感知加权滤波器的表达式为:W(z)=A(z/γ1)Hde-emph(z),其中 β1=0.68。对于每一子帧,子帧长为L=64,加权语音信号sw(n)表达式为:
[0004]
[0005] 其中s(n)为原始语音信号,ai为线性预测系数,γ1i为感知加权因子。
[0006] 对于该加权语音信号,采用一个四阶FIR滤波器Hdecim2(z)进行2倍下采样,得到swd(n);根据swd(n),采用对相关函数加权的方式得到:
[0007]
[0008] 所求的基音即为使C(d)最大的基音延迟d,其中w(d)是一个加权函数,包括低延迟加权函数wl(d)和前一帧延迟加权函数wn(d),见式(3):
[0009] w(d)=wl(d)wn(d) (3)
[0010] 低延迟加权函数wl(d)的表达式为:
[0011] wl(d)=cw(d) (4)
[0012] 其中cw(d)存在于程序的tab文件中,前一帧延迟加权函数wn(d)取决于前面帧的基音延迟,其表达式为:
[0013]
[0014] 其中Told表示前面5帧中基音延迟的平均值,v是自适应因子。当开环基音增益g>0.6时,该帧定义为浊音,则下一帧的v设为1;否则v=0.9v。开环基音增益g的表达式为:
[0015]
[0016] 使C(d)最大的基音延迟。中值滤波器仅在浊音帧时更新。如果前一帧包含清音或静音,加权函数将受到参数v的衰减。
[0017] 由以上描述可以看出,在现有技术中,为了解决长时周期性的问题,采用对一帧输入语音信号计算自相关函数的方法进行处理,来获得基音。

发明内容

[0018] 本发明实施例提供了一种基音搜索方法及装置,不需要计算整帧输入语音信号的相关函数值。
[0019] 本发明实施例提供了一种基音搜索方法,包括:
[0020] 获取残差信号的特征函数值,所述残差信号根据输入语音信号去掉长时预测贡献信号获得;
[0021] 根据所述残差信号的特征函数值,获得基音。
[0022] 本发明实施例提供了另一种基音搜索方法,包括:
[0023] 在输入语音信号中,查找幅度或幅值最大的脉冲;
[0024] 根据所述幅度或幅值最大的脉冲的位置,对所述输入语音信号设置目标窗;
[0025] 滑动所述目标窗得到滑动窗,计算所述滑动窗内的输入语音信号与所述目标窗内的输入语音信号的相关系数,获得所述相关系数最大值;
[0026] 根据所述相关系数最大值,获取基音。
[0027] 本发明实施例提供了一种基音搜索装置,包括:
[0028] 特征值获取模块,用于获取残差信号的特征函数值,所述残差信号是根据输入语音信号去掉长时预测贡献信号而得到的;
[0029] 基音获取模块,用于根据所述残差信号的特征函数值,获得基音。
[0030] 本发明实施例提供了另一种基音搜索装置,包括:
[0031] 查找模块,用于在输入语音信号中,查找幅度或幅值最大的脉冲;
[0032] 目标窗模块,用于根据所述幅度或幅值最大的脉冲的位置,对所述输入语音信号设置目标窗;
[0033] 计算模块,用于滑动所述目标窗得到滑动窗,计算所述滑动窗内的输入语音信号与所述目标窗内的输入语音信号的相关系数,获得所述相关系数最大值;
[0034] 基音获取模块,用于根据所述相关系数最大值,获取基音。
[0035] 本发明实施例提供的一种基音搜索方法及装置,获取残差信号的特征函数值,根据该残差信号的特征函数值,获得基音,不需要计算整帧输入语音信号的相关函数值。

附图说明

[0036] 图1为本发明提供的一种基音搜索方法实施例一的流程图;
[0037] 图2为本发明提供的一种基音搜索方法实施例二的流程图;
[0038] 图3为本发明提供的一种基音搜索方法实施例三的流程图;
[0039] 图4为本发明提供的另一种基音搜索方法实施例一的流程图;
[0040] 图5为本发明提供的另一种基音搜索方法实施例二的流程图;
[0041] 图6为本发明提供的一种基音搜索装置实施例的结构示意图;
[0042] 图7为本发明提供的另一种基音搜索装置实施例的结构示意图。

具体实施方式

[0043] 下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。
[0044] 如图1所示,为本发明提供的一种基音搜索方法实施例一的流程图,具体包括如下步骤:
[0045] 步骤101、获取残差信号的特征函数值,该残差信号是根据输入语音信号去掉长时预测贡献信号而得到的;
[0046] 步骤102、根据残差信号的特征函数值,获得基音。
[0047] 本实施例获取残差信号的特征函数值,根据该残差信号的特征函数值,获得基音,不需要计算整帧输入语音信号的相关函数值。
[0048] 如图2所示,为本发明提供的一种基音搜索方法实施例二的流程图,具体包括如下步骤:
[0049] 步骤201、将输入语音信号进行预处理;
[0050] 该预处理的操作可以为低通滤波处理,也可以为下采样处理,还可以为先进行低通滤波处理,再进行下采样处理;具体地低通滤波处理可以为均值滤波。以PCM信号为例,用y(n)表示输入语音信号,设输入语音信号的帧长L=160,即一帧包括160个样点;用y2(n)表示经过下采样处理的输入语音信号,以下称为下采用信号;本实施例以2倍下采样为例,则有:
[0051]
[0052] M是中值滤波器的阶数;y2(n)的样点范围为[0,79]。
[0053] 本步骤为可选步骤,也可以不经过预处理直接执行步骤202。
[0054] 步骤202、查找输入语音信号幅度或幅值最大的脉冲;
[0055] 本实施例可以在整帧信号范围内查找该脉冲,也可以在一帧信号中的设定范围内查找脉冲。以在一帧信号中的设定范围内查找该脉冲为例,可具体说明如下:
[0056] 首先,对于输入语音信号y(n),根据帧长,预先设定其基音范围,在设定其基音范围时,应参照帧长,并考虑到基音不能过大,若基音过大,则导致一帧信号中较少的样点参与LTP计算,降低了LTP的性能。举例来说,针对帧长L=160,本实施例设定y(n)基音范围为[20,83]。由于本实施例步骤202中采用2倍下采样,则下采样信号y2(n)的基音范围[PMIN,PMAX]为[10,41],即PMIN=10,PMAX=41,为了保证在基音最大时,依然能够搜索到基音,将搜索脉冲的样点范围设置为[41,79]。
[0057] 然后,在样点范围[41,79]内,查找y2(n)幅度或幅值最大的脉冲,设该幅度或幅值最大的脉冲对应的样点为p0,41≤p0≤79,则有:
[0058]
[0059] 在本实施例中,y2(n)的幅度可以为实数;y2(n)的幅值表示幅度的绝对值,为非负数。
[0060] 步骤203、根据输入语音信号幅度或幅值最大的脉冲样点p0的位置,设置目标窗;
[0061] 具体地说,在样点p0周围加一个目标窗,选取一部分信号,该目标窗覆盖样点p0;其中,该目标窗的范围为[smin,smax],目标窗的长度len=smax-smin,目标窗的长度len的范围为1-L,也就是说,目标窗可以覆盖整帧信号。
[0062] 举例来说,smin=s_max(p0-d,41),smax=s_min(p0+d,79),其中d用于限制目标窗的长度,本实施例中d=15,s_max(p0-d,41)表示取p0-d和41两者的较大值,s_min(p0+d,79)表示取p0+d和79两者的较小值。
[0063] 步骤204、分别计算与预先设定的基音范围内的每一个基音对应的输入语音信号(本实施例为下采样信号)的残差信号;该残差信号为输入语音信号去掉长时预测贡献信号后的残差信号,该长时预测贡献信号是根据长时预测激励信号和基音增益确定的;
[0064]
[0065] 其中,k表示基音,g表示基音增益,g可以为一固定的经验值,也可以为根据预先设定的基音范围内的基音自适应确定的值,也就是说,对于不同的基音k,g可以为相同的值;也可以预先建立基音k与基音增益g的映射表,g为随k而改变的值。
[0066] 步骤205、计算与每个基音对应的残差信号能量;
[0067]
[0068] 其中,[k1,k2]表示基音范围,本实施例中,k1=10,k2=41,Ek(i)表示与k对应的残差信号能量。
[0069] 步骤206、在计算得到的残差信号能量中选择最小值,得到残差信号能量最小值EP(i),也就是说,在[k1,k2]范围中,与基音P对应的下采样信号y2(n)的残差信号能量EP(i)最小;
[0070] 步骤207、由于y2(n)为y(n)经过2倍下采样处理而得到的,因此对于y(n)来说,获得的基音为2P。
[0071] 进一步的,为了避免将基音的倍频误认为基音,本实施例在获得基音2P之后,还可以包括如下处理过程:
[0072] 在语音信号域,计算所获得基音的相关函数,以及所获得的基音的倍频的相关函数;本步骤根据下式计算2P的相关函数nor_cor[2P],以及2P的倍频P的相关函数nor_cor[P]:
[0073]
[0074] 将计算得到的相关函数最大值对应的基音作为最终获得的基音;也就是说,比较nor_cor[2P]和nor_cor[P]的值,若nor_cor[2P]>nor_cor[P],则将2P作为语音信号的最终获得的基音;nor_cor[2P]≤nor_cor[P],则将P作为语音信号的最终获得的基音。
[0075] 本实施例通过设置目标窗,对一帧信号中残差信号能量进行计算,不需要计算整帧信号的相关函数值,大大降低了基音搜索的复杂度;同时,通过比较基音和基音倍频的相关函数,避免了将基音的倍频误认为基音,保证了基音搜索的准确性。
[0076] 如图3所示,为本发明提供的一种基音搜索方法实施例三的流程图,本实施例与上述实施例二的区别在于:将步骤205和206替换为步骤305和306,本实施例中残差信号的特征函数值为残差信号绝对值之和,具体介绍如下:
[0077] 步骤305、计算与基音范围内的每一个基音对应的下采样信号的残差信号绝对值之和;
[0078]
[0079] Ek(i)表示与k对应的残差信号绝对值之和;
[0080] 步骤306、在计算得到的残差信号绝对值之和中选择最小值,得到残差信号绝对值之和最小值EP(i),也就是说,在[k1,k2]范围中,与基音P对应的下采样信号的残差信号绝对值之和EP(i)最小。
[0081] 本实施例通过设置目标窗,对一帧信号中残差信号绝对值之和进行计算,不需要计算整帧信号的相关函数值,大大降低了基音搜索的复杂度。
[0082] 上述实施例二和三适用于采用一帧信号中前一部分信号预测后一部分信号的情况,本发明实施例不仅限于应用于该情况,还可以应用于采用过去帧信号预测当前帧信号的情况,在这种情况下,可以获取整帧残差信号的特征函数值,根据整帧残差信号的特征函数值,获得基音。
[0083] 如图4所示,为本发明提供的另一种基音搜索方法实施例一的流程图,具体包括如下步骤:
[0084] 步骤401、在输入语音信号中,查找幅度或幅值最大的脉冲;
[0085] 步骤402、根据幅度或幅值最大的脉冲的位置,对输入语音信号设置目标窗;
[0086] 步骤403、滑动目标窗得到滑动窗,计算滑动窗内的输入语音信号与目标窗内的输入语音信号的相关系数,获得相关系数最大值;
[0087] 步骤404、根据相关系数最大值,获取基音。
[0088] 本实施例通过设置目标窗,并滑动该目标窗,计算滑动窗内的信号与目标窗内的信号的相关系数,根据相关系数最大值,获取基音,不需要计算整帧输入语音信号的相关函数值,大大降低了基音搜索的复杂度。
[0089] 如图5所示,为本发明提供的另一种基音搜索方法实施例二的流程图,具体包括如下步骤:
[0090] 步骤501、将输入语音信号进行预处理;
[0091] 进一步的,该预处理的操作可以为低通滤波处理,也可以为下采样处理,还可以为先进行低通滤波处理,再进行下采样处理;具体地低通滤波处理可以为均值滤波。以PCM信号为例,用y(n)表示输入的语音信号,设输入的语音信号的帧长L=160,即一帧包括160个样点;用y2(n)表示经过下采样处理的输入语音信号,以下称为下采用信号;本实施例以2倍下采样为例,则有:
[0092]
[0093] M是中值滤波器的阶数;y2(n)的样点范围为[0,79]。
[0094] 本步骤为可选步骤,也可以不经过预处理直接执行步骤502。
[0095] 步骤502、在输入语音信号中,查找幅度或幅值最大的脉冲;
[0096] 本实施例可以在整帧信号范围内查找该脉冲,也可以在一帧信号中设定范围内查找脉冲。以在一帧信号中设定范围内查找该脉冲为例,可具体说明如下:
[0097] 首先,对于输入语音信号y(n),根据帧长,预先设定其基音范围,在设定其基音范围时,应参照帧长,并考虑到基音不能过大,若基音过大,则导致一帧信号中较少的样点参与LTP计算,降低了LTP的性能。举例来说,针对帧长L=160,本实施例设定y(n)基音范围为[20,83]。由于本实施例步骤202中采用2倍下采样,则下采样信号y2(n)的基音范围[PMIN,PMAX]为[10,41],即PMIN=10,PMAX=41,为了保证在基音最大时,依然能够搜索到基音,将搜索脉冲的样点设置为[41,79]。
[0098] 然后,在样点范围[41,79]内,查找y2(n)幅度或幅值最大的脉冲,设该幅度或幅值最大的脉冲对应的样点为p0,41≤p0≤79,则有:
[0099]
[0100] 在本实施例中,y2(n)的幅度可以为实数;y2(n)的幅值表示幅度的绝对值,为非负数。
[0101] 步骤503、根据输入语音信号幅度或幅值最大的脉冲样点p0的位置,对输入语音信号设置目标窗;
[0102] 具体地说,在样点p0周围加一个目标窗,选取一部分信号,该目标窗覆盖样点p0;其中,该目标窗的范围为[smin,smax],目标窗的长度len=smax-smin,目标窗的长度len的范围为1-L,也就是说,目标窗可以覆盖整帧信号。
[0103] 举例来说,smin=s_max(p0-d,41),smax=s_min(p0+d,79),其中d用于限制目标窗的长度,本实施例中d=15,s_max(p0-d,41)表示取p0-d和41两者的较大值,s_min(p0+d,79)表示取p0+d和79两者的较小值。
[0104] 步骤504、滑动目标窗得到滑动窗,计算滑动窗内的信号与目标窗内的信号的相关系数;
[0105]
[0106] 其中,k表示基音,[k1,k2]表示基音范围,本实施例中,k1=10,k2=41,corr[k]表示与k对应的相关系数。
[0107] 步骤505、在计算得到的相关系数中选择相关系数最大值corr[P];也就是说,在[k1,k2]范围中,与基音P对应的下采样信号的相关系数corr[P]最大;
[0108] 步骤506、由于y2(n)为y(n)经过2倍下采样处理而得到的,因此对于y(n)来说,所获得的基音为2P。
[0109] 进一步的,为了避免将基音的倍频误认为基音,本实施例在获得基音2P之后,还可以包括如下处理过程:
[0110] 在语音信号域,计算所获得基音的相关函数,以及所获得的基音的倍频的相关函数;本步骤根据下式计算2P的相关函数nor_cor[2P],以及2P的倍频P的相关函数nor_cor[P]:
[0111]
[0112] 将计算得到的相关函数最大值对应的基音作为最终获得的基音;也就是说,比较nor_cor[2P]和nor_cor[P]的值,若nor_cor[2P]>nor_cor[P],则将2P作为语音信号的最终获得的基音;nor_cor[2P]≤nor_cor[P],则将P作为语音信号的最终获得的基音。
[0113] 本实施例通过设置目标窗,并滑动该目标窗,计算滑动窗内的信号与目标窗内的信号的相关系数,根据相关系数最大值,获取基音,不需要计算整帧信号的相关函数值,大大降低了基音搜索的复杂度;同时,通过比较基音和基音倍频的相关函数,避免了将基音的倍频误认为基音,保证了基音搜索的准确性。
[0114] 如图6所示,为本发明提供的一种基音搜索装置实施例的结构示意图,本实施例具体包括:特征值获取模块11和基音获取模块12;其中,特征值获取模块11获取残差信号的特征函数值,该残差信号是根据输入语音信号去掉长时预测贡献信号而得到的;基音获取模块12根据特征函数值,获得基音。
[0115] 具体地说,上述特征值获取模块11可以计算整帧残差信号的特征函数值;特征值获取模块11也可以包括目标窗单元13和特征值获取单元14,其中目标窗单元13对输入语音信号设置目标窗,特征值获取单元14获取目标窗中残差信号的特征值。
[0116] 进一步的,本实施例可以包括查找模块15,该查找模块15查找输入语音信号幅度或幅值最大的脉冲;目标窗单元13根据输入语音信号幅度或幅值最大的脉冲的位置,设置目标窗。
[0117] 本实施例还可以包括预处理模块16,该预处理模块16将输入语音信号进行预处理,具体为进行低通滤波处理或下采样处理;将预处理后的输入语音信号传输给目标窗单元13和特征值获取单元14。
[0118] 上述特征值获取模块11还可以包括第一计算单元和第二计算单元,其中第一计算单元在预先设定的基音范围内,计算与每个基音对应的残差信号;第二计算单元计算与每个基音对应的残差信号的特征函数值,并获取特征函数值的最值,基音获取模块12将特征函数值的最值对应的基音作为所获得的基音。
[0119] 本实施例通过设置目标窗,对一帧信号中残差信号的特征函数值进行计算,不需要计算整帧信号的相关函数值,大大降低了基音搜索的复杂度。
[0120] 如图7所示,为本发明提供的另一种基音搜索装置实施例的结构示意图,本实施例具体包括:查找模块21、目标窗模块22、计算模块23及基音获取模块24;查找模块21在输入语音信号中,查找幅度或幅值最大的脉冲;目标窗模块22根据幅度或幅值最大的脉冲的位置,对输入语音信号设置目标窗;在滑动目标窗的同时,计算模块23计算滑动窗内的输入语音信号与目标窗内的输入语音信号的相关系数,获得相关系数最大值;基音获取模块24根据相关系数最大值,获取基音。
[0121] 本实施例还可以包括预处理模块25,该预处理模块25将输入语音信号进行预处理,具体为进行低通滤波处理或下采样处理;将预处理后的输入语音信号传输给查找模块21、目标窗模块22和计算模块23。
[0122] 本实施例通过设置目标窗,并滑动该目标窗,计算滑动窗内的信号与目标窗内的信号的相关系数,根据相关系数最大值,获取基音,不需要计算整帧信号的相关函数值,大大降低了基音搜索的复杂度。
[0123] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤,而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0124] 最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。