子带清浊音模糊判决的方法转让专利

申请号 : CN200610165246.X

文献号 : CN101009096B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 崔慧娟唐昆李晔洪侃

申请人 : 清华大学

摘要 :

子带清浊音模糊判决方法,属于低速率语音压缩编码技术领域。其特征在于,在利用目前通用的带通浊音度参数提取方法得到除第一子带以外的其余四个子带的浊音隶属度后,将第一个子带滤波后信号的自相关函数在基音周期参数处的值乘以一个设定的增益因子,作为第一个子带的浊音隶属度,如果结果超过1,则令其等于1;将各子带的浊音隶属度一起进行矢量量化,得到量化后各子带的浊音隶属度,和基音周期参数等一起合成激励信号。这种方法可以提高合成语音的自然度。该方法适合低速率参数语音编码。

权利要求 :

1.子带清浊音模糊判决的方法,其特征在于该方法包括以下步骤:(1)对输入语音信号样点按时间顺序分帧;

(2)对当前帧提取基音周期参数;

(3)对当前帧提取余量谱幅度参数;

(4)将当前帧语音信号经过5个6阶的巴特沃思滤波器进行滤波,得到通带分别为

0-500,500-1000,1000-2000,2000-3000和3000-4000Hz的5个子带信号;

(5)根据第一个子带的语音信号对步骤(2)中求取的基音周期参数进一步改善,改善后的基音周期参数为(6)求取第一个子带语音信号的自相关函数在步骤(5)中求取的基音周期参数 位置上的值Vbpn,1;

(7)求取其余4个子带语音信号的自相关函数以及其时间包络的自相关函数在步骤(5)中求取的基音周期参数 位置上的值,并分别对每个子带取两者中的较大值:Vbpn,i=max{Vbp′n,i,Vbp″n,i} i=2,3,4,5其中,Vbp′n,i表示当前帧,即第n帧的第i子带的自相关函数在 位置上的值;Vbp″n,i表示当前帧,即第n帧的第i子带的时间包络的自相关函数在 位置上的值;

(8)如果步骤(6)中求取的值Vbpn,1小于0.6,则将步骤(7)中的值全部修改为0,即Vbpn,i=0 i=2,3,4,5,否则保持不变;

(9)将步骤(6)中求取的值Vbpn,1乘以一个设定的增益因子,该增益因子设定为1.2,如果相乘后结果大于1,则令其等于1,即:(10)将步骤(8)与步骤(9)中求取的值作为各子带的浊音隶属度,合并成为一个矢量一起进行矢量量化;矢量量化采用对码本中的码字进行全搜索的方法获得最优量化码字:

其中 表示待量化的输入矢量, 表示码本中的码字矢量,C表示码本,i是码字矢量在码本中的索引值,Er()函数表示特定的失真测度,这里采用最小加权均方误差,即其中Vbpk为待量化矢量的第k个分量,Vbpi,k为码本中第i个码字矢量的第k个分量,W为加权因子向量,这里取W=[16,8,4,2,1],即W1=16,W2=8,W3=4,W4=2,W5=1;量化后得到量化的各子带的浊音隶属度 (11)将步骤(10)中得到量化的各子带的浊音隶属度、步骤(3)中的余量谱幅度参数以及步骤(5)中的基音周期参数一起用来合成激励信号。

2.按权利要求1所述的子带清浊音模糊判决方法,其特征在于,所述步骤(1)中每一帧包含180个或200个语音样点。

说明书 :

子带清浊音模糊判决的方法

技术领域

[0001] 本发明属于语音编码技术领域,特别涉及低速率参数语音编码技术。

背景技术

[0002] 语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、一些区域组织和一些国家相继制定了一系列语音压缩编码标准,在编码速率为1.2kb/s到16kb/s上得到了令人满意的语音质量。目前国内外的研究主要集中在1.2kb/s速率以下高质量语音压缩编码上,主要用于无线通信、保密通信、大容量语音存储回放等。低速率语音编码中激励信号的合成非常重要,而多带激励信号合成是目前激励信号合成的重要手段。多带激励信号合成主要依靠于带通浊音度参数,目前带通浊音度参数求取的主要步骤如下:
[0003] (1)对输入语音信号样点按时间顺序分帧;
[0004] (2)对当前帧提取基音周期参数;
[0005] (3)对当前帧提取余量谱幅度参数;
[0006] (4)将当前帧语音信号经过5个6阶的巴特沃思滤波器进行滤波,其通带分别为0-500,500-1000,1000-2000,2000-3000和3000-4000Hz;
[0007] (5)根据第一个子带滤波后的语音信号对步骤(2)中求取的基音周期参数进一步改善,改善后的基因周期值为
[0008] (6)求取第一个子带滤波后语音信号的自相关函数在步骤(5)中求取的基音周期参数位置上的值Vbpn,1;
[0009] (7)求取其余4个子带滤波后语音信号的自相关函数以及其时间包络的自相关函数在步骤(5)中求取的基音周期参数 位置上的值,并对每个子带取两者中的较大值;
[0010] Vbpn,j=max{Vbpn,j′,Vbpn,j″}i=2,3,4,5 [0011] 其中,Vbpn,i′表示当前帧(第n帧)的第i子带的自相关函数在 位置上的值;Vbpn,i″表示当前帧(第n帧)的第i子带的时间包络的自相关函数在 位置上的值。
[0012] (8)如果步骤(6)中求取的值Vbpn,1小于0.6,则将步骤(7)中的值全部修改为0,即,Vbpn,j=0 i=2,3,4,5,否则保持不变;
[0013] (9)将步骤(7)与步骤(8)中求取的值做二值化,即分别与阈值0.6作比较,如果大于0.6,则认为当前子带为浊音,用1表示其带通浊音度,否则为清音,用0表示其带通浊音度,即:
[0014] i=1,2,3,4,5
[0015] (10)将步骤(9)中得到的各子带的带通浊音度、步骤(3)中的余量谱幅度参数以及步骤(5)中的基音周期参数一起用来合成激励信号。
[0016] 上述已有技术对于子带浊音度的表示采用了0、1判决,即当前子带不是浊音就是清音。实际上子带的浊音性与清音性之间并没有明确的分界,简单的将子带划分为清音或者浊音会导致语音帧过渡的不自然。
[0017] 如图1所示,在表示带通浊音度时,原有技术采用简单的0、1判决,这会使低码率参数语音编码合成感增强,自然度下降。

发明内容

[0018] 本发明的目的是为克服已有技术的不足之处,改变旧有的不是清音就是浊音的简单判决方法,提出带通清浊音模糊判决的方法,增强语音的自然度。
[0019] 本发明提出的子带清浊音模糊判决的方法,包括以下步骤:
[0020] (1)对输入语音信号样点按时间顺序分帧;
[0021] (2)对当前帧提取基音周期参数;
[0022] (3)对当前帧提取余量谱幅度参数;
[0023] (4)将当前帧语音信号经过5个6阶的巴特沃思滤波器进行滤波,得到通带分别为0-500,500-1000,1000-2000,2000-3000和3000-4000Hz的5个子带信号;
[0024] (5)根据第一个子带的语音信号对步骤(2)中求取的基音周期参数进一步改善,改善后的基因周期值为
[0025] (6)求取第一个子带语音信号的自相关函数在步骤(5)中求取的基音周期参数位置上的值Vbpn,1;
[0026] (7)求取其余4个子带语音信号的自相关函数以及其时间包络的自相关函数在步骤(5)中求取的基音周期参数 位置上的值,并分别对每个子带取两者中的较大值:
[0027] Vbpn,i=max{Vbpn,i′,Vbpn,i″) i=2,3,4,5
[0028] 其中,Vbpn,i′表示当前帧,即第n帧的第i子带的自相关函数在 位置上的值;Vbpn,i″表示当前帧,即第n帧的第i子带的时间包络的自相关函数在 位置上的值;
[0029] (8)如果步骤(6)中求取的值Vbpn,1小于0.6,则将步骤(7)中的值全部修改为0,即Vbpn,i=0 i=2,3,4,5,否则保持不变;
[0030] (9)将步骤(6)中求取的值Vbpn,1乘以一个设定的增益因子,该增益因子设定为1.2,如果相乘后结果大于1,则令其等于1,即:
[0031]
[0032] (10)将步骤(8)与步骤(9)中求取的值作为各子带的浊音隶属度,合并成为一个矢量 一起进行矢量量化;矢量量化采用对码本中的码字进行全搜索的方法获得最优量化码字:
[0033]
[0034] 其中 表示待量化的输入矢量, 表示码本中的码字矢量,C表示码本,i是码字矢量在码本中的索引值,Er()函数表示特定的失真测度,这里采用最小加权均方误差,即其中Vbpk为待量化矢量的第k个分量,Vbpi,k为码本中第i个码字矢量的第k个分量,W为加权因子向量,这里取W=[16,8,4,2,1];量化后得到量化的各子带的浊音隶属度
[0035] (11)将步骤(10)中得到的各子带的浊音隶属度、步骤(3)中的余量谱幅度参数以及步骤(5)中的基音周期参数一起用来合成激励信号。
[0036] 本发明的特点是对低速率参数语音编码中的带通浊音度参数采用了模糊判决的方法。原有的技术对带通浊音度参数采用了0、1判决,增加了语音的合成感,降低了自然度。本发明采用模糊数学的相关原理,用自相关函数来决定当前子带的浊音隶属度。并考虑到第一个子带往往受噪声的影响比较大,因此其浊音隶属度要乘上一个增益因子,更精确合理地描述了各个子带的浊音度。
[0037] 本方法可以提高合成语音的自然度。该方法最适合600~800b/s低速率参数语音编码,将在信号处理器芯片DSP上实现。

附图说明

[0038] 图1为已有技术的带通浊音度判决方法流程框图。
[0039] 图2为本发明提出的带通浊音度模糊判决方法流程框图。

具体实施方式

[0040] 本发明提出的带通浊音度模糊判决方法结合附图及实施例进一步说明如下:
[0041] 本发明的方法流程如图2所示,包括以下步骤:
[0042] (1)对输入语音信号样点按时间顺序分帧;
[0043] (2)对当前帧提取基音周期参数;
[0044] (3)对当前帧提取余量谱幅度参数;
[0045] (4)将当前帧语音信号经过5个6阶的巴特沃思滤波器进行滤波,得到通带分别为0-500,500-1000,1000-2000,2000-3000和3000-4000Hz的5个子带信号;
[0046] (5)根据第一个子带的语音信号对步骤(2)中求取的基音周期参数进一步改善,改善后的基因周期值为
[0047] (6)求取第一个子带语音信号的自相关函数在步骤(5)中求取的基音周期参数位置上的值Vbpn,1;
[0048] (7)求取其余4个子带语音信号的自相关函数以及其时间包络的自相关函数在步骤(5)中求取的基音周期参数 位置上的值,并分别对每个子带取两者中的较大值:
[0049] Vbpn,j=max{Vbpn,j′,Vbpn,j″}i=2,3,4,5
[0050] 其中,Vbpn,i′表示当前帧,即第n帧的第i子带的自相关函数在 位置上的值;Vbpn,i″表示当前帧,即第n帧的第i子带的时间包络的自相关函数在 位置上的值;
[0051] (8)如果步骤(6)中求取的值Vbpn,1小于0.6,则将步骤(7)中的值全部修改为0,即Vbpn,i=0 i=2,3,4,5,否则保持不变;
[0052] (9)将步骤(6)中求取的值Vbpn,1乘以一个设定的增益因子,该增益因子设定为1.2,如果相乘后结果大于1,则令其等于1,即:
[0053]
[0054] (10)将步骤(8)与步骤(9)中求取的值作为各子带的浊音隶属度,合并成为一个矢量 一起进行矢量量化;矢量量化采用对码本中的码字进行全搜索的方法获得最优量化码字:
[0055]
[0056] 其中 表示待量化的输入矢量, 表示码本中的码字矢量,C表示码本,i是码字矢量在码本中的索引值,Er()函数表示特定的失真测度,这里采用最小加权均方误差,即,其中Vbpk为待量化矢量的第k个分量,Vbpi,k为码本中第i个码字矢量的第k个分量,W为加权因子向量,这里取W=[16,8,4,2,1];量化后得到量化的各子带的浊音隶属度
[0057] (11)将步骤(10)中得到的各子带的浊音隶属度、步骤(3)中的余量谱幅度参数以及步骤(5)中的基音周期参数一起用来合成激励信号。
[0058] 本发明上述方法各步骤的具体实施例分别详细说明如下:
[0059] 上述方法步骤(1)对输入语音信号样点按时间顺序分帧的实施例是按8kHz频率采样、已经过高通滤波去除工频干扰的语音样点。每25ms,也就是200个语音样点构成一帧;
[0060] 上述方法步骤(2)的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求取当前帧的基音周期参数pn;
[0061] 上述方法步骤(3)的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求当前帧的余量谱幅度参数,记为矢量R,其维数为k,R=[r1,r2,...,rk] k=10;
[0062] 上述方法步骤(4)的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法对当前帧语音信号进行带通滤波;
[0063] 上述方法步骤(5)中的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法对当前帧语音信号的基音周期参数进行进一步改善,改善后的基音周期参数为
[0064] 述方法步骤(6)的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求取当前帧语音信号第一个子带语音信号自相关函数及其在 处的值,作为该子带的浊音隶属度Vbp1;
[0065] 上述方法步骤(7)的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求取当前帧语音信号后4个子带滤波信号以及包络信号自相关函数在 处的值,并取两者中的较大值作为该子带的浊音隶属度Vbpi;
[0066] 上述方法步骤(8)的实施例为:若Vbp1<0.6,则Vbpi=0,i=2,3,4,5;
[0067] 上述方法步骤(9)的实施例为:Vbp1=Vbp1×1.2,如果Vbp1>1,则令Vbp1=1;
[0068] 上述方法步骤(10)的实施例的具体做法为:对带通浊音度参数 进行矢量量化, 。矢量量化的码本需要单独训练,训练算法采用LBG算法迭代生成。码字训练与搜索时,失真测度采用最小加权均方误差,加权因子W,即,其中,Er为失真测度,Vbpi为训练矢量或者待量化矢量的第i个分
量, 为码本中矢量的第i个分量,W为加权因子向量,W=[16,8,4,2,1];码字搜索采用全搜索的方法获得最优量化码字,即遍历码本中所有的码字取失真最小的码字作为最后量化的结果。
[0069] 上述方法步骤(11)的实施例的具体做法为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法,利用带通浊音度参数、基音周期参数、余量谱幅度参数进行激励信号合成。