一种减少文本无关说话人识别系统误识率的方法转让专利

申请号 : CN201110233341.X

文献号 : CN102237089B

文献日 : 2012-11-14

一种减少文本无关说话人识别系统误识率的方法，它涉及一种减少说话人识别系统误识率的方法。本发明解决了现有的文本无关说话人识别系统在开集测试中误识率增大的问题。本方法：利用基准说话人识别系统得到闭集中已知说话人的识别阈值，将闭集中说话人分成男女两组，再将每组用阈值分段的形式把男女两组都再分为多个小组，再找到每个小组的中心分布；在基准说话人识别系统的前端加入粗筛选模块，判定测试语音的性别之后，将待测语音与同性别的小组的中心分布比较，得到待测语音的概率阈值；再用该概率阈值的语音帧进行识别。本方法的识别正确率比原系统提高2％～3％，本方法可用于文本无关说话人识别系统。

1.一种减少文本无关说话人识别系统误识率的方法，其特征在于减少文本无关说话人识别系统误识率的方法按以下步骤进行：步骤一、利用基准说话人识别系统闭集的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值；

步骤二、将闭集中的说话人按男性和女性分为两组，将每组的正确识别时的阈值按大小排列后，将阈值分段，每段做为一个小组；

步骤三、将步骤二得到的每个小组中包含的说话人用一个高斯混合模型来代替，得到男性组的每个小组的中心分布和女性组的每个小组的中心分布；

步骤四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的加权求和作为该小组的阈值；

步骤五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块，判定出待测语音为男性或者女性声音后，将待测语音与同性别的小组的中心分布比较求出似然得分，再进行概率阈值的计算；

步骤六、用步骤五得到的概率阈值更新待测语音的阈值，得到新的语音帧，进入识别系统进行识别。

2.根据权利要求1所述的一种减少文本无关说话人识别系统误识率的方法，其特征在于步骤三中高斯混合模型的计算按以下步骤进行：步骤a、小组中包含的说话人为R个，小组中第i个说话人的高斯分布为N(μi，∑i)，其中μi表示第i个说话人的高斯分布的均值矢量，∑i表示第i个说话人的高斯分布的对2

角协方差矩阵，其中i＝1，2，......，R，用μi(k)表示μi的第k维分量，用σi(k)表示∑i的第k个对角元，wi为高斯分布的权重，步骤b、按计算小组中在所有高斯分布上的权重之和wc；

步骤c、按计算小组的混合高斯模型的中心分布的均值矢量μc的第k维分量：

步骤d、按 (k)计算小组的混合高斯模型的中心分布的对角协方差矩阵∑C的第k个对角元；

步骤e、确定该小组的高斯混合模型为N(μc，∑c)，得到该小组的中心分布。

3.根据权利要求1或2所述的一种减少文本无关说话人识别系统误识率的方法，其特征在于步骤四中小组的阈值的计算方法如下：小组中有L个高斯模型，每个高斯模型正确识别时的阈值分别为λ1，λ2，...，λL，则该小组混合高斯模型的阈值λ为：或者λ为：

4.根据权利要求1或2所述的一种减少文本无关说话人识别系统误识率的方法，其特征在于步骤五中待测语音的概率阈值λx计算方法如下：与待测语音性别相同的组中的小组数为N，各小组的混合高斯模型的阈值为λ1，λ2，...，λN，待测语音的特征矢量序列与N个小组中心分布的似然得分分别为C1，C2，...，CN，按计算该待测语音的概率阈值λx。

一种减少文本无关说话人识别系统误识率的方法

技术领域

[0001] 本发明涉及一种减少说话人识别系统误识率的方法。

背景技术

[0002] 说话人识别是利用包含在说话人语音波形中特有的个体信息来自动识别说话人身份的过程。说话人识别按照对说话内容的要求不同可以分为文本无关，文本有关和文本提示三种。文本无关是指用户在系统注册时不要求特定的语言和内容，而且验证和注册时也不需要相同内容的语音；文本相关则要求验证语料与注册时提供的语料内容相一致；文本提示中用户按照系统指定的内容进行。文本无关的说话人识别由于其安全性和灵活性更加受到人们的重视，应用也更为广泛。目前的文本无关说话人识别系统主要是利用说话人的训练语音训练得到一个描述其语音特征分布的混合高斯模型，用测试语音在各个说话人模型上的得分来判定说话人的身份。随着开集的识别中，集外用户规模的增大，误识率从原来的2.9％也相继增大到5.5％，而误识的多少严重影响说话人识别系统的实用性，因此需要研究减少说话人误识率的方法。

发明内容

[0003] 本发明是要解决现有的文本无关说话人识别系统在开集测试中，随着集外用户增多，误识率增大的问题，而提供一种减少文本无关说话人识别系统误识率的方法。

[0004] 本发明的一种减少文本无关说话人识别系统误识率的方法按以下步骤进行：

[0005] 步骤一、利用基准说话人识别系统闭集的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值；

[0006] 步骤二、将闭集中的说话人按男性和女性分为两组，将每组的正确识别时的阈值按大小排列后，将阈值分段，每段做为一个小组；

[0007] 步骤三、将步骤二得到的每个小组中包含的说话人用一个高斯混合模型来代替，得到男性组的每个小组的中心分布和女性组的每个小组的中心分布；

[0008] 步骤四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的加权求和作为该小组的阈值；

[0009] 步骤五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块，判定出待测语音为男性或者女性声音后，将待测语音与同性别的小组的中心分布比较求出似然得分，再进行概率阈值的计算；

[0010] 步骤六、用步骤五得到的概率阈值更新待测语音的阈值，得到新的语音帧，进入识别系统进行识别。

[0011] 现有的说话人识别系统对所有的测试语音，都直接在提取特征矢量并计算在每个说话人模型上打分后直接通过固定阈值来进行识别结果接受或者拒绝的判定，而本发明是将闭集中的男生和女生分成两组，对每组按阈值进行分段，每段为一个小组，对小组进行计算，找到代表小组的高斯混合模型，得到小组的中心分布，对待测试语声音，先判定男女声，然后对待测试语音与各小组的中心分布的似然得分计算，求得概率阈值后再进行识别，这样降低了集外语音规模增大时带来的高误识率，本发明的新系统在集外语音规模增大时，识别效果确实高于原系统，统计得出在虚警率为5％时，新系统的识别率比原系统提高了2％～3％，本发明在原有的说话人系统上进行改进，与原说话人识别系统很好的结合，并且有效的降低了系统在开集情况下的误识率。

[0012] 本发明的一种减少说话人识别系统误识率的方法可用于文本无关说话人识别系统。

附图说明

[0013] 图1是具体实施方式一中步骤五的概率阈值计算的框图；图2是具体实施方式五的测试的虚警率与正确率关系曲线图，其中a为原系统的正确率与虚警率的关系；b为具体实施方式五的方法的正确率与虚警率的关系。

具体实施方式

[0014] 具体实施方式一：本实施方式的一种减少文本无关说话人识别系统误识率的方法按以下步骤进行：

[0015] 步骤一、利用基准说话人识别系统闭集的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值；

[0016] 步骤二、将闭集中的说话人按男性和女性分为两组，将每组的正确识别时的阈值按大小排列后，将阈值分段，每段做为一个小组；

[0017] 步骤三、将步骤二得到的每个小组中包含的说话人用一个高斯混合模型来代替，得到男性组的每个小组的中心分布和女性组的每个小组的中心分布；

[0018] 步骤四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的加权求和作为该小组的阈值；

[0019] 步骤五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块，判定出待测语音为男性或者女性声音后，将待测语音与同性别的小组的中心分布比较求出似然得分，再进行概率阈值的计算；

[0020] 步骤六、用步骤五得到的概率阈值更新待测语音的阈值，得到新的语音帧，进入识别系统进行识别。

[0021] 本实施方式中步骤一中高斯混合模型与正确识别时的阈值的计算方法为现有技术。

[0022] 本实施方式将闭集中的男生和女生分成两组，对每组按阈值进行分段，每段为一个小组，对小组进行计算，找到代表小组的高斯混合模型，得到小组的中心分布，对待测试语声音，先判定男女声，然后对待测试语音与各小组的中心分布的似然得分计算，求得概率阈值后再进行识别，这样降低了集外语音规模增大时带来的高误识率，本实施方式的新系统在集外语音规模增大时，识别效果确实高于原系统，统计得出在虚警率为5％时，新系统的识别率比原系统提高了2％～3％，本实施方式的方法在原有的说话人系统上进行改进，与原说话人识别系统很好的结合，并且有效的降低了系统在开集情况下的误识率。

[0023] 具体实施方式二：本实施方式与具体实施方式一不同的是步骤三中高斯混合模型的计算按以下步骤进行：

[0024] a、小组中包含的说话人为R个，小组中第i个说话人的高斯分布为N(μi，∑i)，其中μi表示第i个说话人的高斯分布的均值矢量，∑i表示第i个说话人的高斯分布的对角2
协方差矩阵，其中i＝1，2，......，R，用μi(k)表示μi的第k维分量，用σi(k)表示∑i的第k个对角元，wi为高斯分布的权重，

[0025] b、按计算小组中在所有高斯分布上的权重之和wc；

[0026] c、按计算小组的混合高斯模型的中心分布的均值矢量μc的第k维分量：

[0027] d、按计算小组的混合高斯模型的中心分布的对角协方差矩阵∑C的第k个对角元；

[0028] e、确定该小组的高斯混合模型为N(μc，∑c)，得到该小组的中心分布。

[0029] 其它与具体实施方式一相同。

[0030] 具体实施方式三：本实施方式与具体实施方式一或二不同的是步骤四中小组的阈值的计算方法如下：

[0031] 小组中有L个高斯模型，每个高斯模型正确识别时的阈值分别为λ1，λ2，...，λL，则该小组混合高斯模型的阈值λ为：

[0032]

[0033] 或者λ为：

[0034]

[0035] 其它与具体实施方式一或二相同。

[0036] 具体实施方式四：本实施方式与具体实施方式一至三之一不同的是步骤五中待测语音的概率阈值λx计算方法如下：与待测语音性别相同的组中的小组数为N，各小组的混合高斯模型的阈值为λ1，λ2，...，λN，待测语音的特征矢量序列与N个小组中心分布的似然得分分别为C1，C2，...，CN，按计算该待测语音的概率阈值λx。其它与具体实施方式一至三之一相同。

[0037] 具体实施方式五：本实施方式的一种减少文本无关说话人识别系统误识率的方法按以下步骤进行：

[0038] 一、利用基准说话人识别系统男女各为500人的闭集中的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值；

[0039] 二、将闭集中的说话人按男性和女性分为两组，将每组的正确识别时的阈值按大小排列后，再通过阈值分段的形式将男性组分为20个小组，将女组分为18个小组，其中每段的最大阈值与最小阈值的差为2；

[0040] 三、将步骤二得到的每个小组中包含的说话人用一个符合高斯分布的模型来代替，男性组得到20个高斯混合模型，女性组得到18个高斯混合模型；

[0041] 其中小组高斯混合模型的计算按以下步骤进行：

[0042] a、小组中包含的说话人为R个，小组中第i个说话人的高斯分布为N(μi，∑i)，其中μi表示第i个说话人的高斯分布的均值矢量，∑i表示第i个说话人的高斯分布的对角2
协方差矩阵，其中i＝1，2，......，R，用μi(k)表示μi的第k维分量，用σi(k)表示∑i的第k个对角元，wi为高斯分布的权重，

[0043] b、按计算小组中在所有高斯分布上的权重之和wc；

[0044] c、按计算小组的混合高斯模型的中心分布的均值矢量μc的第k维分量：

[0045] d、按计算小组的混合高斯模型的中心分布的对角协方差矩阵∑C的第k个对角元；

[0046] e、确定该小组的高斯混合模型为N(μc，∑c)，得到该小组的中心分布；

[0047] 四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的调和平均数作为该小组的阈值；计算小组的阈值方法如下：

[0048] 第n小组中包含的高斯混合模型为L个，每个高斯混合模型正确识别时的阈值分别为λ1，λ2，...，λL，则计算该小组的阈值λn；

[0049] 五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块，判定出待测语音为男性或者女性声音后，将待测语音与同性别的组相比较，进行概率阈值λx的计算；概率阈值λx的计算方法如下：

[0050] 与待测语音性别相同的组中的小组数为N，各小组的混合高斯模型的阈值为λ1，λ2，...，λN，先计算待测语音的特征矢量序列与步骤三中的女N个小组中心分布的似然得分分别为C1，C2，...，CN，按计算该待测语音的概率阈值λx：

[0051] 六、用步骤五得到的概率阈值λx更新待测语音的阈值，得到新的语音帧，进入识别系统进行识别。

[0052] 本实施方式的步骤五的概率阈值计算的框图如图1所示。

[0053] 本实施方式的测试数据为NIST2003的部分数据，集内为男女各500人，集外为男女各300人。测试的虚警率与正确率关系曲线如图2所示，其中a为原系统的正确率与虚警率的关系；b为本实施方式的方法的正确率与虚警率的关系。从图2可以看出本实施方式的方法在集外语音规模增大时，识别效果确实高于原系统，统计得出在虚警率为5％时，新系统的识别率比原系统提高了2.5％。

一种减少文本无关说话人识别系统误识率的方法转让专利

申请号 : CN201110233341.X

文献号 : CN102237089B

文献日 : 2012-11-14

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 韩纪庆 , 王秋雯

申请人 : 哈尔滨工业大学

摘要 :

权利要求 :

说明书 :