一种能够同时辨认英语及汉语的辨认方法转让专利

申请号 : CN200810167599.2

文献号 : CN101540168B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黎自奋李台珍黎世聪黎世宏廖丽娟

申请人 : 黎自奋李台珍廖丽娟

摘要 :

本发明能够同时辨认英语及汉语的辨认方法,本发明最重要技术是将所有英语单字的特征完全由汉语单音的特征来抽取;对每一个英文单字及每一个汉语单音用相同数目弹性框,抽取英语单字和汉语单音特征;再用贝氏分类法的贝氏距离对每个已知英语单字或汉语单音选择K个最好样本计算该已知单字或单音的真正特征;一个未知句子分成D个英语单字或汉语单音;用贝氏分类法对每个单字或单音找F个最相似的已知单字及单音;最后本发明用筛选方法从D×F矩阵相似单字及单音找出该未知句子或名称,几乎所有中英语句子及名称均能辨认正确。本发明的方法可以同时能够辨认英语及汉语,同理亦可辨认其它外国语言,利用弹性框不管发音快慢,均能够辨认正确。

权利要求 :

1.一种能够同时辨认英语及汉语的辨认方法,所述辨认方法包括以下步骤:(1)一个先前处理器删去不具语音的音波信号点或杂音;

(2)一个已知英语单字或汉语单音音波正常化及抽取特征步骤:用E个弹性框将已知英语单字或汉语单音音波正常化并转换成大小相等的线性预估编码倒频谱LPCC特征矩阵,并将相同英语单字或汉语单音音波转换成大小相同的特征矩阵,相同英语单字或汉语单音音波在相同时间位置上有相同特征;

(3)在数据库中,对每个已知英语单字或汉语单音,选择K个最好样本;

(4)将一个已知英语单字或汉语单音的K个最好样本转换成一个标准模型,存储在数据库中,标准模型含有该已知英语单字或汉语单音特征矩阵的K个最好样本平均值及全部样本变异数;

(5)一个未知英语单字或汉语单音音波正常化及抽取特征步骤:将未知英语单字或汉语单音音波正常化并转换成大小与已知标准模型大小相等的线性预估编码倒频谱LPCC特征矩阵,作为未知英语单字或汉语单音分类模型;

(6)一个简化贝氏分类步骤:将未知英语单字或汉语单音分类模型与数据库所有已知英语单字及汉语单音标准模型比较,将和未知英语单字或汉语单音的贝氏距离达最小的已知英语单字或汉语单音辨认为未知英语单字或汉语单音;

(7)建立没有样本英语单字或汉语单音特征及改进英语单字或汉语单音特征的步骤,包括:(a)如果一个英语单字或汉语单音没有样本,用贝氏距离在英语单字及汉语单音数据库找N个最相似的英语单字及汉语单音,其中可能同时包含英语及汉语,求N个最相似的英语单字及汉语单音的特征的平均值或依顺序加权,表示该没有样本英语单字或汉语单音的特征;

(b)如果一个未知英语单字或汉语单音辨认不对或辨认一个新的英语单字或汉语单音,用最小贝氏距离选择一个错的英语单字或汉语单音,从选择的错的英语单字或汉语单音的样本为未知或新的英语单字或汉语单音寻找K个最好样本求平均值,再用选择的错的英语单字或汉语单音所有样本求变异数,求出的平均值及变异数代表该未知或新的英语单字或汉语单音的特征;

(c)在(a)中以测试者发音的LPCC矩阵作为平均值,以未知或新的英语单字或汉语单音的N个最相似英语单字或汉语单音的变异数平均值作为未知或新的英语单字或汉语单音的变异数;

(8)将一个未知句子或名称切成D个未知英语单字或D个未知汉语单音的步骤;

(9)一个简化贝氏分类步骤,在D个未知英语单字或D个未知汉语单音中,为每一个未知英语单字或汉语单音选F个最相似的已知英语单字或汉语单音,其中可能同时包含英语及汉语,一个未知句子或名称用D×F矩阵的已知相似英语单字或汉语单音表示;

(10)用D×F矩阵的已知相似英语单字或汉语单音,比对英语及汉语句子及名称数据库的全部句子及名称,找寻一个最可能已知句子或名称;

(11)一个建立及修正英语单字或汉语单音特征的步骤,务使讲话者的句子或名称辨认正确;

其中,英语单字没有样本,其特征由汉语单音特征计算。

2.如权利要求1所述的辨认方法,其中,步骤(1)删去不具语音的音波信号点或杂音,包括二种方法:(a)计算一小时段内信号点的变异数及一般杂音的变异数,如前者小于后者,则删去该时段;

(b)计算一小时段内相邻两信号点距离总和和一般杂音相邻两信号点距离总和,如前者小于后者,则删去该时段。

3.如权利要求1所述的辨认方法,其中,步骤(2)包括:

(a)一个均等分一个已知英语单字或汉语单音音波信号点步骤,将音波信号点全长分成E个等时段,每时段形成一个弹性框,一个英语单字或汉语单音共有E个等长弹性框,其中弹性框没有滤波器,不重迭,自由伸缩含盖全长音波信号点;

(b)每框内,用一随时间作线性变化的回归模式估计随时间作非线性变化的音波;

信号点S(n)可由前面信号点估计,其估计值S′(n)由下列回归模式表示:在(1)式中,ak,k=1,...,P,是回归未知系数估计值,P是前面信号点数目;

以E1表示信号点S(n)及其估计值S′(n)之间平方差总和:求回归未知系数使平方差总和E1达最小;对每个回归未知系数估计值ai,i=1,...,P,求(2)式的偏微分,并使偏微分为0,得到P组正常方程式:展开(2)式后,以(3)式代入,得最小总平方差EP

(3)式及(4)式转换为

在(5)及(6)式中,用N表示框内信号点数;

用Durbin′s循环计算线性预估编码LPC向量:

E0=R(0)(8)

(8)-(12)公式循环计算,得到回归系数最小平方估计值aj,j=1,...,P,作为线性预估编码LPC向量:将LPC向量转换为线性预估编码倒频谱LPCC向量a′j,j=1,...,P,(c)用E个线性预估编码倒频谱LPCC向量表示一个已知英语单字或汉语单音的E×P LPCC特征矩阵。

4.如权利要求3所述的辨认方法,其中,步骤(3)包括:

(a)找一个发音清楚者对每个英语单字或汉语单音ci发音一次;

(b)在数据库中,对该已知英语单字或汉语单音ci的全部样本 对发音者所发的英语单字或汉语单音的E×P LPCC特征矩阵x={xjl}计算贝氏距离其中 以已知英语单字或汉语单音ci全部样本变异数代替,而 表示已知英语单字或汉语单音ci全部样本;

(c)在已知单音ci全部样本中,选择K个最小的 值,来选择K个对发音者最接近的样本,作为已知英语单字或汉语单音ci最好的K个样本。

5.如权利要求1所述的辨认方法,其中,步骤(5)包括:

(a)将未知英语单字或汉语单音音波信号点分成E个等时段,每时段组成一个弹性框,一个未知英语单字或汉语单音音波信号点有E个等长弹性框,其中弹性框没有滤波器,不重迭,自由伸缩含盖全部音波信号点;

(b)每个弹性框内,用一个随时间作线性变化的回归模式估计随时间作非线性变化的音波;

信号点S(n)可由前面信号点估计,其估计值S′(n)由下列回归模式表示:在(1)式中,ak,k=1,...,P,是回归未知系数估计值,P是前面信号点数目;

以E1表示信号点S(n)及其估计值S′(n)之间平方差总和:求回归系数使平方差总和E1达最小;对每个回归未知系数估计值ai,i=1,...,P,求(2)式的偏微分,并使偏微分为0,得到P组正常方程式:展开(2)式后,以(3)式代入,得最小总平方差EP

(3)式及(4)式转换为

在(5)及(6)式中,用N表示框内信号点数;

用Durbin′s循环计算线性预估编码LPC向量:

E0=R(0)(8)

(8)-(12)公式循环计算,得到回归系数最小平方估计值aj,j=1,...,P,作为线性预估编码LPC向量:(c)将LPC向量转换为线性预估编码倒频谱LPCC向量a′j,j=1,...,P,;

(d)用E个线性预估编码倒频谱LPCC向量构成E×P LPCC矩阵,作为该未知英语单字或汉语单音的分类模型。

6.如权利要求5所述的辨认方法,其中,步骤(6)包括:

(a)一个未知英语单字或汉语单音的分类模型,用一个E×P LPCC矩阵X={Xjl},j=

1,...,E,l=1,...,P,表示,在未知英语单字或汉语单音和一个已知英语单字或汉语单音ci比对时,其中i=1,...,m,,m是所有英语单字及汉语单音总数,{Xjl}的平均值及变异数 用该已知英语单字或汉语单音标准模型内最好K个样本平均值及全部样本变异数估计,那么X的条件密度函数是X={Xjl}是未知英语单字或汉语单音的分类模型的线性预估编码倒频谱;

(b)用对数化简(a)中条件密度函数f(x|ci),并删去不必计算的常数,得贝氏距离(c)对每一个已知英语单字及汉语单音ci,i=1,...,m,计算(b)式中贝氏距离l(ci)值;

(d)在数据库中,选择一个已知英语单字或汉语单音c′i,它的贝氏距离l(c′i)值是最小,判为该未知英语单字或汉语单音;

其中E=12,P=12,K=4-8。

7.如权利要求6所述的辨认方法,其中,步骤(8)包括:

(a)计算每单位时段相邻二个信号点落差距离总和,如太小,则该时段是静音或杂音,没有英语单字或汉语单音信号;

(b)若静音或杂音相邻单位时段累积时间长度大于英语单字内两个音节之间时间长度,该时段应是两英语单字或两汉语单音的分界线,进行切割,一个未知句子或名称切割成D个未知英语单字或D个未知汉语单音;

(c)再将每个未知英语单字或汉语单音计算线性预估编码倒频谱LPCC向量,构成E×P LPCC矩阵,一句子或名称以D个LPCC矩阵表示。

8.如权利要求7所述的辨认方法,其中,步骤(9)包含下列:

(a)一个未知句子或名称切割成D个未知英语单字或汉语单音后,每一个未知英语单字或汉语单音用简化贝氏分类法,在英语单字或汉语单音数据库中,计算每个已知英语单字及汉语单音 和该未知英语单字或汉语单音{Xjl}的贝氏距离l(ci),寻找最近的F个已知英语单字或汉语单音,其中可能同时包含英语及汉语,一个未知英语单字或汉语单音用该F个已知英语单字或汉语单音表示;

(b)一个未知句子或名称有D列F个已知相似英语单字或汉语单音表示。

9.如权利要求8所述的辨认方法,其中,步骤(10)包括:

(a)在英语及汉语句子及名称数据库中,挑选D±1个已知英语单字或汉语单音的比对句子和名称;

(b)如果挑选的比对句子或名称和讲话者的句子或名称等长,则将D个每列F个已知相似英语单字及汉语单音和被挑选的比对句子或名称的D个已知英语单字或汉语单音依顺序比对,如每列F个已知相似英语单字及汉语单音都包含比对句子或名称内一个已知英语单字或汉语单音,则该比对句子或名称就是讲话者的句子或名称;

(c)如果比对句子或名称内已知英语单字或汉语单音的辨认正确数不是D个,则用

3×F窗口筛选,用D个每列F个已知相似英语单字及汉语单音中前后三列已知相似英语单字及汉语单音依顺序比对D个或D±1个比对句子或名称中每一个已知英语单字或汉语单音,计算比对句子或名称的已知英语单字或汉语单音落在D个每列F个已知相似英语单字及汉语单音中的数量,再除以总数D或D±1,作为比对句子或名称的机率,在数据库中选择一个机率最大的比对句子或名称作为讲话者的句子或名称。

10.如权利要求9所述的辨认方法,其中,步骤(11)包括:

(a)假如某句子或名称辨认错误,表示D个未知英语单字或汉语单音中,有一个或多个不在它们的F个已知相似英语单字及汉语单音中,假定c表示其中一个未知英语单字或汉语单音不在它的F个已知相似英语单字及汉语单音中,用贝氏距离l(ci)寻找前面N个最相似的已知英语单字及汉语单音,其中N<F,求N个已知英语单字及汉语单音特征的平均值或依顺序加权,其中i=1,...,N,j=1,...,E,l=1,...,P,此平均值 代表该未知英语单字或汉语单音c的特征;

(b)如果一个未知英语单字或汉语单音c辨认不对,用贝氏距离l(c′)选择一个错的英语单字或汉语单音c′,在选择的错的英语单字或汉语单音c′内为未知英语单字或汉语单c找K个最好样本求平均值,再用c′i所有样本求变异数,所求得的平均值及变异数的E×P矩阵代表该未知英语单字或汉语单音特征;

(c)在(a)中以测试发音者的E×PLPCC矩阵作为平均值μjl,以N个最相似已知英语单字及汉语单音的变异数平均值作为未知英语单字或汉语单音的变异数 用 j=1,...,E,l=1,...,P代表未知英语单字或汉语单音特征。

说明书 :

一种能够同时辨认英语及汉语的辨认方法

技术领域

[0001] 本发明涉及一种能够同时辨认英语及汉语的辨认方法。
[0002] 众所周知,一个英语单字包含一个或多个音节(单音)。以下单字表示英语单字,单音表示汉语单音。我们日常通用的汉语及英语发音,其相同或相似的英语单字及汉语单音非常多,造成辨认的困难,尤其男女发音及发音时生理、心理状态不同,同一单字(单音),发出声音,变化差异很大,还有因省籍及各地人发音的声调不同,即使同一单字(单音),也会发出很多不同相似单字(单音)。
[0003] 本发明是用一个清晰发音者在数据库中,先对每个英语单字和汉语单音找K个”最好”样本求平均值及变异数代表该单字(单音)。使该单字(单音)的E×P=144个特征范围,很明确表现出来,不会和其它单字及单音范围重迭。贝式分类法很明确地比对未知单字(单音)的特征和已知单字(单音)的特征,提高本发明辨识能力。如果辨认一个没有样本的单字(单音)或句子,在英语单字及汉语单音数据库内找N最相似的单字及单音,求特征平均值代表该没有样本的单字或单音特征,下次测试一定成功。
[0004] 详细地说,本发明语音辨认方法包含E个等长的弹性框,没有滤波器,不重迭,框住长短不等的单字或单音音波,尤其是英语单字,长短不同,将音波正常化并转换成E个线性预估编码倒频谱(LPCC)向量。用简易贝氏分类法(Bayes decision rule)于单字及单音数据库中,在每个已知单字(单音)明确范围内,找出和未知单字(单音)最相似的已知单字(单音)。语音计算机辨认最终目的是能辨认一个人所表达的句子或名称,将句子或名称切割成一组(D个)未知单字(单音),然后用上述方法对D个中每一个未知单字(单音)找出F个最相似的已知单字及单音,再从句子或名称数据库中找出最可能句子或名称。如果句子或名称辨认不出来,用上述方法找N个最相似的单字及单音改进句中单字(单音)特征,下次辨认一定成功。

背景技术

[0005] 单字(单音)发音时,它的发音是用音波表示。音波是一种随时间作非线性变化的系统,一个单字(单音)音波内含有一种动态特性,也随时间作非线性连续变化。相同单字(单音)发音时,有一连串相同动态特性,随时间作非线性伸展及收缩,但相同动态特性依时间排列秩序一样,但时间不同。相同单字(单音)发音时,将相同的动态特性排列在同一时间位置上非常困难。更因相似单字或单音特多,造成辨认更难。
[0006] 一个计算机化语言辨认系统,首先要抽取声波有关语言信息,也即动态特性,过滤和语言无关的杂音,如人的音色、音调,说话时心理、生理及情绪和语音辨认无关先删去。然后再将相同单字或单音的相同特征排列在相同的时间位置上。此一连串的特征用一等长系列特征向量表示,称为一个单字(单音)的特征模型。目前语音辨认系统要产生大小一致的特征模型太复杂,且费时,因为相同单字(单音)的相同特征很难排列在同一时间位置上,尤其是英语单字,导致比对辨认困难。
[0007] 一般句子或名称辨认方法有下列一连串五个主要工作:未知句子或名称切割成D个未知汉语单音或D个未知英语单字、抽取特征、特征正常化(特征模型大小一致,且相同单字(单音)的相同特征排列在同一时间位置)、未知单字(单音)辨认、及在句子或名称数据库找适合句子或名称。一个单字(单音)声波特征常用有下列几种:能量(energy),零横过点数(zero crossings),极值数目(extreme count),颠峰(formants),线性预估编码倒频谱(LPCC)及梅尔频率倒频谱(MFCC),其中以线性预估编码倒频谱(LPCC)及梅尔频率倒频谱(MFCC)是最有效,并普遍使用。线性预估编码倒频谱(LPCC)是代表一个单音最可靠,稳定又准确的语言特征。它用线性回归模式代表单音音波,以最小平方估计法计算回归系数,其估计值再转换成倒频谱,就成为线性预估编码倒频谱(LPCC)。而梅尔频率倒频谱(MFCC)是将音波用傅氏转换法转换成频率。再根据梅尔频率比例去估计听觉系统。根据学者S.B.Davis and P.Mermelstein于1980年出版在IEEE Transactions on Acoustics,Speech Signal Processing,Vol.28,No.4发表的论文Comparison of parametric representations formonosyllabic word recognition in continuously spoken sentences中用动态时间扭曲法(DTW),梅尔频率倒频谱(MFCC)特征比线性预估编码倒频谱(LPCC)特征辨认率要高。但经过多次语音辨认实验(包含本人前发明),用贝氏分类法,线性预估编码倒频谱(LPCC)特征辨认率比梅尔频率倒频谱(MFCC)特征要高,且省时。
[0008] 至于语言辨认,已有很多方法采用。有动态时间扭曲法(dynamictime-warping),向量量化法(vector quantization)及隐藏式马可夫模式法(HMM)。如果相同的发音在时间上的变化有差异,一面比对,一面将相同特征拉到同一时间位置。辨认率会很好,但将相同特征拉到同一位置很困难并扭曲时间太长,不能应用。向量量化法如辨认大量单字(单音),不但不准确,且费时。最近隐藏式马可夫模式法(HMM)辨认方法不错,但方法繁杂,太多未知参数需估计,计算估计值及辨认费时。最近T.F.Li(黎自奋)于2003年出版在PatternRecognition,vol.36发表的论文Speech recognition of mandarinmonosyllables中用贝氏分类法,以相同数据库,将各种长短一系列LPCC向量压缩成相同大小的分类模型,辨认结果比Y.K.Chen,C.Y.Liu,G.H.Chiang,M.T.Lin于1990年出版在Proceedings ofTelecommunication Symposium,Taiwan发表的论文The recognition ofmandarin monosyllables based on the discrete hidden Markov model中用隐藏式马可夫模式法HMM方法要好。但压缩过程复杂费时,且相同单字(单音)很难将相同特征压缩到相同时间位置,对于相似英语单字,很难辨认。
[0009] 本发明语音辨认方法针对上述缺点,从学理方面,根据音波有一种语音特征,随时间作非线性变化,自然导出一套抽取语音特征方法。将一个单字(单音)音波先正常化再转换成一个足以代表该单字(单音)的大小相等特征模型,并且相同单字(单音)在它们特征模型内相同时间位置有相同特征。不需要人为或实验调节本发明内的未知参数及门坎。用简易贝氏分类法,即可将未知单字(单音)分类模型和单字及单音数据库内已知单字及单音标准模型比对,不需要再压缩,扭曲或寻找相同的特征来比对。所以本发明语音辨认方法,能快速完成特征抽取,特征正常化及辨认。本发明的方法为了提高单字(单音)辨认率,先将数据库每个单字(单音),用贝式分类法选择最好K个样本,来计算该单字(单音)特征,大大提高整体英语单字及汉语单音辨识率。辨认率高,应用广,用弹性框可以辨认极短或极长单字(单音)音波。至于对句子及名称的计算机辨认,因单字(单音)辨认在本发明之前未曾突破,文献中很少有句子及名称辨认方法,但本发明用3×F窗口(对句子中每一已知单字(单音)用前后三列相似已知单字及单音比对)找出该未知句子或名称的方法极为有效,最重要的是本发明提供三项修正单字及单音特征技术及建立新单字(单音)的特征,不需样本,本发明认为汉语单音是一个一个音节的英语单字,都是用E×P矩阵表示特征,所以本发明可以同时辨认英语及汉语,使辨认成功。

发明内容

[0010] 本发明提供了一种能够同时辨认英语及汉语的辨认方法,所述辨认方法包括以下步骤:
[0011] (1)一个先前处理器(pre-processor)删去不具语音音波信号点(sampled points)或杂音;
[0012] (2)一个已知英语单字或汉语单音音波正常化及抽取特征方法:用E个弹性框将音波正常化并转换成大小相等的线性预估编码倒频谱(LPCC)特征矩阵,并将相同英语单字或汉语单音音波转换成大小相同的特征矩阵,相同单字(单音)音波的特征模型在相同时间位置上有相同特征;
[0013] (3)在数据库中,对每个已知英语单字或汉语单音,选择K个最好样本;
[0014] (4)一个已知英语单字或汉语单音特征矩阵的K个最好样本转换成一个标准模型,储藏在数据库,标准模型含有该已知英语单字或汉语单音特征矩阵的K个最好样本平均数及全部样本变异数;
[0015] (5)一个未知英语单字或汉语单音音波正常化及抽取特征方法:将音波正常化并转换成大小与已知标准模型大小相等的特征矩阵,称为未知英语单字或汉语单音分类模型,内含有线性预估编码倒频谱(LPCC);
[0016] (6)一个简化贝氏(Bayesian)分类法:将未知英语单字或汉语单音分类模型与数据库所有已知英语单字及汉语单音标准模型比较,找一个已知英语单字或汉语单音,它和未知英语单字或汉语单音贝式距离达最小,辨认为未知英语单字或汉语单音;
[0017] (7)建立没有样本英语单字或汉语单音特征及改进英语单字或汉语单音特征的方法;
[0018] (8)将一个未知句子或名称切成D个未知英语单字或D个未知汉语单音方法;
[0019] (9)一个简化贝式分类法在D个未知英语单字或D个未知汉语单音中,为每一个未知英语单字或汉语单音选F个最相似的已知英语单字及汉语单音(可能同时包含英语及汉语),一个未知句子或名称用D×F矩阵的已知最相似英语单字及汉语单音表示;
[0020] (10)用D×F矩阵的已知最相似英语单字及汉语单音,比对英语及汉语句子及名称数据库全部句子及名称,找寻一个最可能已知句子或名称;
[0021] (11)一个建立及修正英语单字及汉语单音特征的方法,务使讲话者的句子或名称辨认正确;
[0022] (12)在本发明内,英语单字没有样本,它的特征完全由中文单音特征计算,因此本发明也可以用中文单音特征计算其它任何语言特征,也即本发明可以辨认任何其它语言,如德文、法文、俄文、日文、韩文等等。
[0023] 其中,步骤(1)删去不具语音的音波或杂音,其包括二种方法:
[0024] (a)在一小时段内信号点,计算信号点的变异数及一般杂音的变异数,如信号点的变异数小于杂音变异数,则删去该时段;
[0025] (b)在一小时段内信号点,计算相邻两信号点距离总和和一般杂音相邻两信号点距离总和,如前者小于后者则删去该时段。
[0026] 其中,步骤(2)包含已知单字或单音音波正常化及抽取大小一致的特征矩阵,步骤如下:
[0027] (a)一个均等分一个已知英语单字或汉语单音音波信号点方法,为了用线性变化的回归模式密切估计非线性变化的音波,将音波全长分成E等时段,每时段形成一个弹性框,一个英语单字或汉语单音共有E个等长弹性框,没有滤波器(Filter),不重迭,可以自由伸缩含盖全长音波,不是固定长度的汉明(Hamming)窗;
[0028] (b)每框内,用一随时间作线性变化的回归模式估计随时间作非线性变化的音波;
[0029] (c)用Durbin′s循环方式
[0030]
[0031] E0=R(0)
[0032]
[0033]
[0034]
[0035]
[0036]
[0037] 求回归系数最小平方估计值aj,1≤j≤P,叫做线性预估编码(LPC)向量,再用[0038]
[0039]
[0040] 转换线性预估编码(LPC)向量为稳定的线性预估编码倒频谱(LPCC)向量a′i,1≤i≤P;
[0041] (d)用E个线性预估编码倒频谱(LPCC)向量表示一个英语单字或汉语单音的E×P LPCC特征矩阵。
[0042] 其中,步骤(3)又包含一个,在样本数据库中,对每一个已知英语单字或汉语单音选择最好的K个样本的方法,步骤如下:
[0043] (a)找一个发音清楚者对每个英语单字或汉语单音ci发音一次;
[0044] (b)在数据库中,对该已知英语单字或汉语单音ci的全部样本 用贝式距离对发音者所发的英语单字或汉语单音的E×P LPCC特征矩阵x={xjl}计算
[0045]
[0046] 这里 以已知英语单字或汉语单音ci全部样本变异数代替,而 表示已知英语单字或汉语单音ci全部样本;
[0047] (c)在已知单音ci全部样本中,以K个最小的 值,来选择K个对发音者最接近的样本,叫做已知英语单字或汉语单音ci最好的K个样本
[0048] 其中,步骤(5)又包含一个计算未知英语单字或汉语单音的分类模型方法,其步骤如下:
[0049] (a)将未知英语单字或汉语单音音波分成E等时段,每时段组成一个弹性框,一个未知英语单字或汉语单音有E个等长弹性框,没有滤波器,不重迭,自由伸缩含盖全部音波信号点;
[0050] (b)每个弹性框内,用一个随时间作线性变化的回归模式估计随时间作非线性变化的音波;
[0051] (c)用Durbin′s循环方式
[0052]
[0053] E0=R(0)
[0054]
[0055]
[0056]
[0057]
[0058]
[0059] 计算回归系数最小平方估计值aj,1≤j≤P(LPC向量);
[0060] (d)再将LPC向量用公式
[0061]
[0062]
[0063] 转换成稳定LPC倒频谱(LPCC)向量a′i,1≤i≤P;
[0064] (e)用E个LPCC向量,(E×P LPCC矩阵),作为该未知英语单字或汉语单音的分类模型。
[0065] 其中,步骤(6)包含一个简易贝氏(Bayesian)辨认未知英语单字或汉语单音方法,其步骤如下:
[0066] (a)一个未知英语单字或汉语单音的特征是分类模型,用一个E×PLPCC矩阵X={Xjl},j=1,...,E,l=1,...,P,表示,为了快速辨认,E×P个LPCC{Xjl}假定是E×P个独立随机变量,有正常分配,如果未知英语单字或汉语单音和一个已知英语单字或汉语单音ci,i=1,...,m,(m是所有英语单字及汉语单音总数),比对时,则{Xjl}的平均数及变异数 用该已知英语单字或汉语单音标准模型内最好K个样本平均数及全部样本变异数估计,那么X的条件密度函数是
[0067]
[0068] X={Xjl}是未知英语单字或汉语单音的分类模型的线性预估编码倒频谱(LPCC),但 可用已知英语单字或汉语单音ci标准模型内的样本平均数(以K个最好样本计算)及所有样本变异数估计;
[0069] (b)简易贝氏分类法是针对英语单字及汉语单音数据库中找一个已知英语单字或汉语单音 最像此未知英语单字或汉语单音X={Xjl},一个已知英语单字或汉语单音ci对未知英语单字或汉语单音X={Xjl}相似度以下式中f(x|ci)表示[0070]
[0071] (c)为快速辨认,用对数化简(b)中条件密度函数f(x|ci),并删去不必计算的常数,得贝式距离
[0072]
[0073] (d)对每一个已知英语单字及汉语单音ci,i=1,...,m,计算(c)式中贝式距离l(ci)值;
[0074] (e)在数据库中,选择一个已知英语单字或汉语单音c′i,它的贝式距离 值是最小,判为该未知英语单字或汉语单音;
[0075] (f)由辨认测试结果,E=12,P=12,K=4-8为最好(最省时,辨认率最高),这是因为弹性框不重迭,E=12弹性框能充分抽取一个英语单字及汉语单音特征。
[0076] 其中,步骤(7)更包含下列三种技术建立新英语单字及汉语单音的特征及修正未知单字(单音)的特征:
[0077] (a)如果一个英语单字或汉语单音c没有样本,用贝氏分类法的贝式距离l(ci)在英语单字及汉语单音数据库找N个最相似的英语单字及汉语单音 (N个同时可能包含英语及汉语),i=1,2,...,N,
[0078] 求N个特征平均值(或依顺序加权),
[0079] 此平均值 j=1,...,E,l=1,...,P,表示该没有样本英语单字或汉语单音的特征,如果未知单字(单音)辨不出,依顺位用前面N个相似单字及单音特征求平均值(或加权),此平均值矩阵代表该单字或单音新的特征,再测试一定成功;
[0080] (b)如果一个未知单字(单音)c辨认不对或辨认一个新的单字(单音)c,贝氏分类法用最小贝氏距离l(c′)选择一个错的单字(单音)c′,也即最好K个样本不在c内(新的单字(单音),根本没有样本),而在错单字(单音)c′内,要从c′的样本为未知或新的单字(单音)c找K个最好样本求平均值,再用c′所有样本求变异数,此平均值及变异数E×P矩阵代表该未知或新的单字(单音)c的特征;
[0081] (c)在(a)项中以测试者发音的E×P LPCC矩阵作为平均值μjl,以未知或新的单字(单音)N个最相似单字(单音)的变异数平均值作为未知或新的单字(单音)的变异数 用 j=1,...,E,l=1,...,P,代表未知或新的单字(单音)特征。
[0082] 其中,步骤(8)更包含下列:
[0083] (a)每单位时段计算相邻二个信号点落差距离总和,如太小,该时段则是静音或杂音,没有英语单字或汉语单音讯号;
[0084] (b)静音或杂音相邻单位时段累积太多(比英语单字内两个音节之间要长),该时段应是两英语单字或两汉语单音分界线,应切割,一个未知句子或名称切割成D个未知英语单字或D个未知汉语单音;
[0085] (c)再将每个未知英语单字或汉语单音除去静音及杂音,弹性框正常化,最小平方法线性预估编码(LPC)倒频谱向量,代表一个未知英语单字或汉语单音,一句子或名称一共有D个线性预估编码倒频谱(LPCC)矩阵表示。
[0086] 其中,步骤(9)更包含下列:
[0087] (a)一个未知句子或名称切割成D个未知英语单字和汉语单音后,每一个未知英语单字或汉语单音用简化贝式分类法,在英语单字和汉语单音数据库中,计算每个已知英语单字及汉语单音 和该未知英语单字或汉语单音{xjl}贝式距离l(ci),[0088]
[0089] 找最近的F个已知英语单字及汉语单音(F个可能同时包含英语及汉语),一个未知英语单字或汉语单音用该F个已知相似英语单字及汉语单音表示;
[0090] (b)因此一个未知句子或名称有D列F个已知相似英语单字及汉语单音表示,也即该句子或名称在D×F矩阵的已知相似英语单字及汉语单音机率非常高。
[0091] 其中,步骤(10)更包含下列一个句子及名称辨认方法:
[0092] (a)在英语及汉语句子及名称数据库中,挑选和讲话者的句子或名称长度大约相等的句子或名称(即有D±1个已知英语单字或汉语单音的句子和名称);
[0093] (b)如果在英语及汉语句子及名称数据库中,挑选比对的句子或名称,它的长度刚好和讲话者的句子或名称等长(D个未知英语单字或汉语单音)时,那么将D个每列F个相似已知英语单字及汉语单音和被挑选的比对句子或名称的D个已知英语单字或汉语单音依顺序比对,看看F个相似英语单字及汉语单音中有没有比对句子或名称内的已知英语单字或汉语单音,如每列F相似英语单字及汉语单音依次都包含比对句子或名称内一个已知英语单字或汉语单音,一共会有全部D个未知英语单字或汉语单音辨认正确,该比对句子或名称就是讲话者的句子或名称;
[0094] (c)如果英语及汉语句子及名称数据库中的比对句子或名称有D个已知英语单字或汉语单音,但比对讲话者,D个单字(单音)没有完全辨认正确(不在F个相似单字及单音内)或比对句子或名称不是D个长度,本发明则用3×F窗口筛选,用D×F矩阵相似英语单字及汉语音中前后三列相似已知单字及单音依顺序比对英语及汉语句子及名称数据库中,有D个或D±1个已知英语单字或汉语单音的比对句子或名称中每一个已知英语单字或汉语单音,在句子及名称数据库中选择一个机率最大的比对句子或名称为讲话者的句子或名称,机率以多少比对句子或名称的已知单字(单音)落在3×F窗口内除以全长(D或D±1)。
[0095] 其中,步骤(11)更包含一个修正英语单字或汉语单音特征方法务使句子或名称辨认正确:
[0096] (a)假如某句子或名称辨认错误,一定是在D个未知英语单字或汉语单音中,有一个或多个不在它们的F个相似单字(单音)中,假定c表示其中一个未知单字(单音)不在它的F个相似单字(单音)中,用贝式距离l(ci)找前面N
[0097]
[0098] 此平均值 代表该未知英语单字或汉语单音c的特征,再测试一定成功;
[0099] (b)如果一个未知单字(单音)c辨认不对,贝氏分类法贝式距离l(c′)选择一个错的单字(单音)c′,c的最好K个样本不在c内(而在错单字(单音)c′内),因此在错单字(单音)c′内为未知单字(单音)c找K个最好样本求平均值,再用 所有样本求变异数,此平均值及变异数E×P矩阵代表该未知单字(单音)特征;
[0100] (c)在(a)项中以测试发音者的E×PLPCC矩阵作为平均值μjl,以N个最相似单字(单音)的变异数平均值作为未知单字(单音)的变异数 用 j=1,...,E,l=1,...,P代表未知单字(单音)特征。
[0101] 本发明具有如下有益效果和优点:
[0102] (1)本发明提供一种语音辨认方法。它能将不具语音音波删除。
[0103] (2)本发明提供一种英语单字及汉语单音音波正常化及抽取特征方法。它使用E个相等弹性框,不重迭,没有滤波器,能依单字或单音音波长短自由调节含盖全部波长,能将单字(单音)音波内一系列随时间作非线性变化的动态特性转换成一个大小相等的特征模型,并且相同单字(单音)音波的特征模型在相同时间位置上有相同特征。可以及时辨认,达到计算机实时辨认效果。
[0104] (3)本发明提供一种简易有效贝氏辨认未知单字(单音)方法,认错机率达到最小,计算少、辨认快及辨识率高。
[0105] (4)本发明提供一种抽取单字(单音)音特征方法,单字(单音)音波有一种随时间作非线性变化的动态特性。本发明用随时间作线性变化的回归模型估计随时间作非线性变化的音波,产生的回归未知系数的最小平方估计值(LPC向量)。
[0106] (5)本发明使用所有具有语音音波(音波信号点)。用较少数E=12个相等弹性框,没有滤波器,不重迭含盖所有信号点特征。不因为一个单音音波太短,删去该单字(单音),也不因为太长,删去或压缩部分信号点。只要人类听觉能辨别此单字(单音),本发明即可将该单字(单音)抽取特征。所以本发明语音辨认方法应用每一个具有语音的信号点,可以尽量抽取语音特征。因E=12个弹性框不重迭,框数少,大大减少特征抽取及计算线性预估编码倒频谱(LPCC)时间。
[0107] (6)本发明单字(单音)及句子辨认方法可以辨认讲话太快或讲话太慢的单字(单音)。讲话太快时,单字(单音)音波很短,尤其对于英语单字发音,本发明的弹性框长度可以缩小,仍然用相同数E个等长的弹性框含盖短音波。产生E个线性预估编码倒频谱(LPCC)向量。只要该短音人类可辨别,那么该E个线性预估编码倒频谱(LPCC)向量可以有效代表该短音的特征模型。讲太慢所发出单字(单音)音波较长。弹性框会伸长。所产生E个线性预估编码倒频谱(LPCC)向量也能有效代表该长音。
[0108] (7)本发明包含一套语音辨认方法。首先由多人发出相同的已知单字(单音),产生多种长短不一的声波。然后用E个相同的弹性框,没有滤波器,不重迭,含盖全部声波,产生一个已知单字(单音)的E个线性预估编码倒频谱(LPCC)向量多个样本,也即有多个特征模型代表该已知单音。多个特征模型内在相同时间位置上含有相同特征向量,也即每个样本的E个线性预估编码倒频谱(LPCC)向量依顺序线性预估编码倒频谱(LPCC)向量大致相同。
[0109] (8)本发明最主要的技术,是先用一个发音清晰者对该已知单字(单音)发音,用贝式距离(其它距离效果比较差),在该单字(单音)多个样本中,找K个最好样品。再将该K个样本求线性预估编码倒频谱(LPCC)平均值及变异数,得到大小一致含有平均值及变异数的矩阵,叫做该已知单字(单音)的标准模型,存在英语单字及汉语单音数据库中。再用同样方法,将一个未知单字(单音)的音波,用E个等长弹性框,没有滤波器,不重迭包含全部音波,产生E个线性预估编码倒频谱(LPCC)向量。该E个线性预估编码倒频谱(LPCC)向量称为一个未知单字(单音)的分类模型。当用简易的贝氏分类法比对未知单字(单音)及单字及单音数据库内一个已知单字及单音时,将分类模型内所有线性预估编码倒频谱(LPCC)假设为有独立正常分配的随机变量,它的平均值及变异数用已知单字(单音)标准模型内的样本平均数及全部样本的变异数代替。在单字及单音数据库内计算每一个已知单字(单音)标准模型内的平均数(用K个最好样品计算)与未知单字(单音)的分类模型内的线性预估编码倒频谱(LPCC)距离,再以已知单字(单音)的变异数调整。选择一个已知单字(单音),辨认为未知单字(单音)。
[0110] (9)当单字(单音)没有样本时,本发明提供三个方法。其中一个用贝氏分类法在有样本的单字及单音数据库内找N个最相似单字及单音,求N个标准模型平均值(或加权),代表该没有样本单字或单音的标准模型。
[0111] (10)辨认一个句子或名称时,先将未知句子或名称切割成D个未知单字(单音),本发明将每个未知单字(单音)用贝氏法在英语单字及汉语单音数据库,选择最相似F个已知单字和单音。一个句子用D×F个最相似已知单字及单音表示,因切割困难可能切成比较多或比较少未知单字(单音)个数,本发明以每个未知单字(单音)前后三列最相似已知单字及单音比对句子或名称中一个已知单字(单音),也即在句子及名称数据库中,对每一句子或名称用3×F窗口的已知相似单字及单音筛选一个已知单字(单音),再从句子及名称数据库找一个最可能句子或名称,方法简单,成功率很高(辨认70英语句子及名称和407汉语句子及名称)。
[0112] (11)假如某句子或名称辨认错误,一定是在D个未知单字(单音)中,有一个或多个不在它们的F个相似单字及单音中,假如该未知单字(单音)是c,将它的F个相似单字及单音,用前N
[0113] (12)本发明将一个汉语单音当作一个只有一个音节的英语单字,所有英语单字及汉语单音的特征都由同样大小矩阵表示。因此本发明可以同时辨认英语及汉语。

附图说明

[0114] 图1表示英语单字及汉语单音和句子及名称两个数据库建立流程,以及建立新英语单字及与汉语单音的特征。
[0115] 图2表示一个未知句子或名称辨认方法流程。
[0116] 图3A和图3B表示同时辨认英语及汉语句子、名称方法。
[0117] 主要组件符号说明:
[0118] 输入已知英语单字或汉语单音1;输入一未知句子或名称2;英语单字及汉语单音连续音波10;一组未知英语单字或汉语单音连续音波11;接收器20;音波数字转换器30;将一个句子或名称切成D个未知英语单字或D个未知汉语单音40;除去杂音45;E弹性框正常化音波50;最小平方法计算线性预估编码倒频谱(LPCC)向量60;一个发音清晰者对每个英语单字或汉语单音发音一次,在数据库中,对该已知单字或单音用贝式距离为发音者找K个最接近样品计算平均值及变异数70;如果英语单字或汉语单音没有样本,用贝氏分类法在单字及单音数据库中找N个最相似的单字及单音,用N个单字及单音特征平均值代表该没有样本的单字或单音的特征,此平均值为该单字或单音标准模型,放在单字及单音数据库内75;英语单字及汉语单音数据库包含所有平均值及变异数的标准模型80;用英语单字及汉语单音数据库的单字及单音建立要辨认的句子及名称(任意一组单字(单音))的句子及名称数据库85;D个未知英语单字或汉语单音的线性预估编码倒频谱(LPCC)向量代表D个未知英语单字或D个未知汉语单音分类模型90;比较每一个已知英语单字及汉语单音单音标准模型与未知单字(单音)分类模型100;如果句子或名称辨错,再用N个最相似的英语单字及汉语单音改进句子或名称中的单字或单音特征,再测试105;一句子或名称中为每一个未知英语单字或汉语单音找最相近的F个已知单字(单音),一句子或名称一共有D×F个已知最相似单字及单音表示110;在句子和名称数据库中,用3×F窗口的相似单字及单音筛选所有句子及名称中的每个已知英语单字或汉语单音120;在句子及名称数据库中找一个最可能的句子或名称130。

具体实施方式

[0119] 用图1及图2说明发明执行程序。图1是表示英语单字及汉语单音和句子及名称两个数据库建立流程,以及建立新英语单字(汉语单音)的特征。英语单字及汉语单音数据库包含所有已知单字及单音的标准模型,表示已知单字及单音的特征。输入一个已知单字(单音)1以一个连续音波10形式进入接收器20。数字转换器30将连续音波转为一序列音波数字的信号点。先前处理器45有两种删去方法:(1)计算一小时段内信号点的变异数及一般杂音变异数。如前者小于后者,则该小时段不具语音,应删去。(2)计算一小时段内连续两信号点距离总和及一般杂音的总和,如前者小于后者,则该小时段不具语音,应删去。经过先前处理器45之后,得到一序列具有该已知单字(单音)信号点。先将音波正常化再抽取特征,将已知单字(单音)的全部信号点分成E等时段,每时段组成一个框。一个单字(单音)一共有E个等长框50,没有滤波器,不重迭,根据单音全部信号点的长度,E个框长度自由调整含盖全部信号点。所以该框称为弹性框,长度自由伸缩,但E个弹性框长度一样。不像汉明(Hamming)窗,有滤波器、半重迭、固定长度、不能随波长自由调整。因单字或单音音波随时间作非线性变化,音波含有一个语音动态特征,也随时间作非线性变化。因为不重迭,所以本发明使用较少(E=12)个弹性框,涵盖全部单字(单音)音波,因信号点可由前面信号点估计,用随时间作线性变化的回归模式来密切估计非线性变化的音波,用最小平方法估计回归未知系数。每框内产生一组未知系数最小平方估计值,叫做线性预估编码(LPC向量)。再将线性预估编码(LPC)向量转换为较稳定线性预估编码倒频谱(LPCC)。一个单字(单音)音波内含有一序列随时间作非线性变化的语音动态特征,在本发明内转换成大小相等E个线性预估编码倒频谱(LPCC)向量60。为了建立英语单字及汉语单音数据库,一个已知单字(单音),由多人发音,以同样转换方法,将多人发音音波转成大小相等的E个线性预估编码倒频谱(LPCC)向量多个样本。多个样本的E个线性预估编码倒频谱(LPCC)向量代表一个相同已知单字(单音),因此E个线性预估编码倒频谱(LPCC)向量依顺序,多个样本的线性预估编码倒频谱(LPCC)向量应大致相同,也即在同一时间位置上,多个样本线性预估编码倒频谱(LPCC)向量大致一样。本发明最重要的贡献是为每一个单字及单音找最好样本,需一个发音清晰者发音一次,在单字(单音)所有样本中找该单字(单音)K个最好的样品,也即K个样本对发音者的已知单字(单音)有最短的K个贝式距离。再用此K个样品的线性预估编码倒频谱(LPCC)计算平均值及变异数(用该字(音)全部样品计算变异数也可)70,本发明主要是找最好最真实的平均值,使E×P个的线性预估编码倒频谱(LPCC)平均值真正能代表该单字(单音)E×P特征。使单字及单音数据库中每个已知单字或单音有明确位置及范围,不会互相重迭,为方便贝式分类法辨认。这E个线性预估编码倒频谱(LPCC)平均值及变异数向量代表一个已知单字或单音的标准特征矩阵,称为该已知单字(单音)的标准模型。此含有K个样本平均数及变异数的标准模型代表一个已知单字(单音),储存在英语单字及汉语单音数据库中80。如果一个单字(单音)没有样本,用贝氏分类法在单字及单音数据库中找和没有样本的单字(单音)N个最相似单字及单音的N个特征的平均值(或加权平均值)代表该没有样本的单字(单音)特征75,放在单字及单音数据库内80。再用单字及单音数据库的单字及单音(155英语单字+388汉语单音)建立要辨认的中英文句子或名称数据库(85)。
[0120] 图2表示一个未知句子或名称辨认方法流程。当输入一个未知句子或名称2到本发明语音辨认方法后,以一组未知单字(单音)连续音波11进入接收器20,由数字转换器30转为一系列音波信号点。将一个未知句子或名称的音波切成D个未知英语单字(或D个未知汉语单音)的音波40,再以图1先前处理器45删去不具语音的音波。再将每个未知单字(单音)音波正常化,抽取特征,将句子每个未知单字(单音)全部具有语音的信号点分成E等时段,每时段形成一个弹性框50。每个单字(单音)一共有E个弹性框,没有滤波器,不重迭,自由伸缩含盖全部信号点。在每框内,因信号点可由前面信号估计,用最小平方法求回归未知系数的估计值。每框内所产生的一组最小平方估计值叫做线性预估编码(LPC)向量,线性预估编码(LPC)向量有正常分配,再将线性预估编码(LPC)向量转换较稳定线性预估编码倒频谱(LPCC)向量60。一个未知单音以E个线性预估编码倒频谱(LPCC)向量代表特征模型,称为分类模型90,和已知单字(单音)标准模型大小一样。一个句子一共有D个分类模型代表D个未知英语单字或D个未知汉语单音90,如果一个已知单字(单音)是此未知单字(单音),它的标准模型的平均值最靠近未知单字(单音)分类模型的线性预估编码倒频谱(LPCC)。所以本发明的简易贝氏辨认法,以未知单字(单音)的分类模型和单字及单音数据库80每一个已知单字及单音的标准模型比较100。如果一个已知单字(单音)是该未知单字(单音),为了计算省时,假定未知单字(单音)的分类模型内所有线性预估编码倒频谱(LPCC)有独立正常分配,它们的平均数及变异数以已知单字(单音)标准模型样本平均值及样本变异数估计。简易贝氏法是计算未知单字(单音)的线性预估编码倒频谱(LPCC)与已知单字(单音)的平均数的距离,再以已知单字(单音)变异数调整,所得的值代表该未知单字(单音)与一个已知单字(单音)相似度。选择与未知单字(单音)F个相似度最高已知单字及单音代表为未知单字(单音),因此一个未知句子或名称用D×F个已知相似单字及单音来表示110。一个未知句子或名称切割成D个未知单字(单音)后,很难刚好切成一个未知句子或名称所包含的单字(单音)及个数,有时一个单字(单音)切成两个,有时两个单字(单音)念的很近,计算机切成一个,因此,D个未知单字(单音)并不一定是讲话者真正单字(单音)数,所以某一列F个已知相似单字及单音不一定包含讲话者的单字(单音)。在辨认一个未知句子或名称时,在句子和名称数据库85,测试每一个句子及名称,在测试一个句子或名称是否是讲话者的句子或名称,将该句子或名称从头一个已知单字(单音)比对D×F矩阵相似单字及单音的前后三列相似单字及单音(当然第一个比对只能比对中后两列相似单字及单音),再移动3×F窗口(前后三列相似单字及单音)120找句子第二个已知单字(单音),直到测试句子全部已知单字(单音)。在数据库中,以最高机率的句子或名称为讲话者的句子或名称(测试句子或名称中单字(单音)在3×F窗口数目除以测试句子或名称中单字(单音)数)130。当然可在句子及名称数据库中选择和未知句子或名称(D个未知单字(单音))长度大约相等的句子或名称比对,节省时间。如果句子或名称不能辨认,用贝氏分类法在单字及单音数据库中找N个最相似单字及单音改进句中的单字(单音)特征,一定会辨认成功105。本发明详述于后。
[0121] (1)一个单字(单音)输入语音辨认方法后,将单字(单音)连续音波转换一系列数化音波信号点(signal sampled points)。再删去不具语音音波信号点。本发明提供二种方法:一是计算一小时段内信号点的变异数。二是计算该时段内相邻二信号点距离的总和。理论上,第一种方法比较好,因信号点的变异数大于杂音变异数,表示有语音存在。但在本发明辨认单音时,两种方法辨认率一样,但第二种省时。
[0122] (2)不具有语音信号点删去后,剩下信号点代表一个单字(单音)全部信号点。先将音波正常化再抽取特征,将全部信号点分成E等时段,每时段形成一个框。一个单字(单音)共有E个等长的弹性框,没有滤波器、不重迭、自由伸缩,涵盖全部信号点。弹性框内信号点随时间作非线性变化,很难用数学模型表示。因为J.Markhoul于1975年出版在Proceedings of IEEE,Vol.63,No.4发表论文Linear Prediction:Atutorial review中说明信号点与前面信号点有线性关系,可用随时间作线性变化的回归的模型估计此非线性变化的信号点。信号点S(n)可由前面信号点估计,其估计值S′(n)由下列回归模式表示:
[0123]
[0124] 在(1)式中,ak,k=1,...,P,是回归未知系数估计值,P是前面信号点数目。用L.Rabiner及B.H.Juang于1993年著作书Fundamentals ofSpeech Recognition,Prentice Hall PTR,Englewood Cliffs,New Jersey中Durbin的循环公式求最小平方估计值,此组估计值叫做线性预估编码(LPC)向量。求框内信号点的线性预估编码(LPC)向量方法详述如下:
[0125] 以E1表示信号点S(n)及其估计值S′(n)之间平方差总和:
[0126]
[0127] 求回归系数使平方总和E1达最小。对每个未知回归系数ai,i=1,...,P,求(2)式的偏微分,并使偏微分为0,得到P组正常方程式:
[0128]
[0129] 展开(2)式后,以(3)式代入,得最小总平方差EP
[0130]
[0131] (3)式及(4)式转换为
[0132]
[0133]
[0134] 在(5)及(6)式中,用N表示框内信号点数,
[0135]
[0136] 用Durbin的循环快速计算线性预估编码(LPC)向量如下:
[0137] E0=R(0) (8)
[0138]
[0139]
[0140]
[0141]
[0142] (8-12)公式循环计算,得到回归系数最小平方估计值aj,j=1,...,P,(线性预估编码(LPC)向量)如下:
[0143]
[0144] 再用下列公式将LPC向量转换较稳定线性预估编码倒频谱(LPCC)向量a′j,j=1,...,P,
[0145]
[0146]
[0147] 一个弹性框产生一个线性预估编码倒频谱(LPCC)向量(a′1,...,a′P)。根据本发明语音辨认方法,用P=12,因最后的线性预估编码倒频谱(LPCC)几乎为0。一个英语单字或汉语单音以E个线性预估编码倒频谱(LPCC)向量表示特征,也即一个含E×P个线性预估编码倒频谱(LPCC)的矩阵表示一个英语单字或汉语单音特征。
[0148] (3)一个已知单字(单音)由多人发音,产生多个样本的E×P LPCC矩阵,同时代表该已知单字(单音),求K个最好样本线性预估编码倒频谱(LPCC)的样本平均值及变异数,得到一个E×P矩阵内含线性预估编码倒频谱(LPCC)K个样本平均值及全部样本变异数。该矩阵称为该已知英语单字或汉语单音的标准特征,或标准模型。
[0149] (4)同样方法以(8-15)式计算出一个未知单字(单音)音波的E个线性预估编码倒频谱(LPCC)向量,有同样大小E×P个LPCC的矩阵,叫做未知英语单字(汉语单音)的分类模型。
[0150] (5)在图2中,语音辨认器100,收到一个未知英语单字(汉语单音)的分类模型,一个E×P LPCC的矩阵。用X={Xjl},j=1,...,E,l=1,...,P,表示未知英语单字(汉语单音)分类模型。在与一个已知单字(单音)ci,i=1,...,m(m表示所有英语单字及汉语单音总数),比对时,为了快速计算比对值,假定{Xjl}有E×P个独立正常分配,它的平均数及变异数 ,以已知单字(单音)标准模型内的样本平均值及样本变异数估计。以f(x|ci)表示X的条件密度函数。以T.F.Li(黎自奋)于2003年出版在Pattern Recognition,Vol.36发表论文Speechrecognition of mandarin monosyllables中的决策理论说明贝氏分类法如下:假设数据库一共有m个已知单字及单音的标准模型。以θi,i=1,...,m,表示单字或单音ci,i=1,...,m,出现的机率,也即先前机率,则以d表示一个决策方法。定义一个简单损失函数(lossfunction),也即d的判错机率(misclassification probability):如决策方法d判错一个未知单字(单音)d(x)≠ci,则损失函数L(ci,d(x))=1。如果d判对一个未知单字(单音)d(x)=ci,则无损失L(ci,d(x))=0。辨认方法如下:以Гi,i=1,...,m,表示X=x矩阵值属于已知单字(单音)ci的范围。也即X在Гi,d判未知单字(单音)属于已知单字(单音)ci。d判错平均机率为
[0151]
[0152]
[0153] 在(16)中,τ=(θ1,...,θm), 是Гi以外范围。以D表示所有语音辨认方法,也即划分m个已知单字及单音的范围所有方法。在D中找一个辨认方法dτ使它的平均认错机率(16)达到最小,以R(τ,dτ)表示
[0154]
[0155] 满足(17)式的辨认方法dτ叫做与先前机率τ有关的贝氏分类法。可用下列表示:
[0156] dτ(x)=ciifθif(x|ci)>θjf(x|cj) (18)
[0157] 在(18)式中,j=1,...,m,j≠i,也即属于已知单音ci的范围是对所有j≠i,Гi={x|θif(x|ci)>θjf(x|cj)}。如所有已知单字及单音出现机率一样,则贝氏分类法和最大机率法一样。
[0158] 贝氏分类法(18)辨认一个未知单字或单音时,先计算所有X的条件密度函数f(x|ci),i=1,...,m,
[0159]
[0160] 在(19)中,i=1,...,m,(已知单字及单音总数)。为了计算方便,将(19)式取对数,并删去常数,得贝氏距离
[0161]
[0162] 贝氏分类法(18)变成对每个已知单字(单音)ci,计算l(ci)值(20),l(ci)也称为未知单字(单音)和已知单字(单音)ci的相似度,或贝氏距离(mis-categorization risk)。在(20)式中,x={xjl},j=1,...,E,l=1,...,P,是未知单字(单音)分类模型内线性预估编码倒频谱(LPCC)值, 用已知单字(单音)的标准模型内的K个样本平均数及全部样本变异数估计。本发明最重要的贡献是在数据库中,为每一个已知单字(单音)ci找到真实的中心点ci={μijl}及明确不重迭的范围
[0163] Гi={x|θif(x|ci)>θjf(x|ci)},j≠i. (21)
[0164] 这里x={xijl}是表示单字(单音)ci的E×P LPCC矩阵范围。
[0165] 先找一个发音清晰者对每个单字及单音ci发音,用x={xjl}表示该清晰者对ci的发音的单字或单音E×P LPCC,用 表示数据库内第i个已知单字(单音)ci第k个样品的E×P LPCC矩阵。再以下列计算,发音者的单字(单音)与第k个样本贝式距离[0166]
[0167] 这里 用已知单字(单音)ci的全部样本变异数取代。用此贝式距离(22)在数据库中第i个单字(单音)ci的全部样本,找K个最接近发音者发第i个单字或单音ci的样品,再用此K个最接近样品计算单字(单音)ci平均值及变异数(变异数也可由全部样品变异数代替,比较准)。叫做单字(单音)ci的标准模型,此标准模型大大提高本发明辨认率。(经实验结果,用K=4-8最好)。贝式分类法辨认一个未知单字(单音)的分类模型x={xjl}是在数据库内选择一个已知单字或单音 ,它的 值达最小,判为该未知单字(单音)。
[0168] (6)如果辨认一个没有样本的单字(单音)c,也即不在原来单字及单音数据库内,或要修正单字(单音)的特征,本发明提供三种技术建立新特征及修正旧特征:
[0169] (a)用贝氏分类法(20)在原来单字及单音数据库内找N个和没有样本的单字(单音)c最相似的单字(单音) i=1,2,...,N,此N个可能同时包含英语单字及汉语单音,再求平均值(或加权平均值)
[0170]
[0171] 用 j=1,...,E,l=1,...,P,代表该没有样本单字(单音)标准模型,存在单字及单音数据库中,再测试该单字(单音)一定成功。同样此方法也可修正一个单字(单音)特征,使该单字(单音)辨认正确。
[0172] (b)如果一个未知单字(单音)c辨认不对或辨认一个新的单字(单音)c,贝氏分类法(20)用l( )选择一个错的单字(单音)c′。那么最好K个样本不在c内(新的单字(单音),根本没有样本),而在错单字(单音)c′内。所以在c′内为未知或新的单字(单音)c找K个最好样本求平均值,再用c′所有样本求变异数,此平均值及变异数E×P矩阵代表该未知或新的单字(单音)特征。
[0173] (c)在(a)项中以测试发音的E×P LPCC矩阵作平均值μjl,以N个最相似单字(单音)的变异数平均值作为未知或新的单字(单音)的变异数 (23),用 ,j=1,...,E,l=1,...,P,代表未知或新的单字(单音)特征。
[0174] (7)为了证实本发明能够同时辨认英语单字及汉语单音,适用范围广,抽取特征及辨认方法快速且省时,本发明执行多个语音辨认实验。
[0175] (a)首先建立一个日常用的汉语单音数据库。本单音数据库是从台湾的中央研究院购买。数据库一共有388个汉语单音(表一),全是女性发音,样本从6个到99个不等,很多单音的发音几乎一样。
[0176] (b)从(2)节中方法将所有样本转成E×P LPCC矩阵,一共有12400个矩阵。
[0177] (c)在388汉语单音中,对每个单音用贝氏距离(22)找最好K样本求平均值,用全部样本求变异数,代表该单音标准模型。
[0178] (d)建立155英语常用单字,完全没有样本。用贝氏分类法(20)从388个汉语单音的标准模型找N=10个最相似的汉语单音求平均值(23)代表一个英语单字的新特征(表二)。
[0179] (e)另外再加上270个没有样本的汉语单音(表三),在原来388单音中,用贝氏分类法(20)找N=10个最相似单音(前10顺位),求N个单音特征平均值(23)代表一个没有样本的汉语单音。
[0180] 本发明执行下列英语单字及汉语单音辨认,辨认率依人而定,因相似太多,入围前三名就算对:
[0181] ①辨认388有样本汉语单音(辨认率非常好)
[0182] ②辨认155没有样本英语单字(辨认率非常好)
[0183] ③同时辨认155没有样本英语单字及388有样本汉语单音(辨认率非常好)[0184] ④辨认388有样本及270没有样本汉语单音(辨认率好,没有前三者好)[0185] 表一、388汉语单音样本从中央研究院购得
[0186] 一七三上下不且丢并中乃之九也乱了二五些亚人仍他代但住佛你来便系促修俩个们做停侧僧元光内全两八六共冷列别到刷则剖创勤区千半卡却参及反受口另可台吃同名向否吕呢周和品哈喔喷囊四因国图团在均坑坤垂堂报场塞坏外多梦大天套奥女如娘娟嫩孙学宅定家宁将尊对小少届层屯山岑崔崖崩差平年度库康廖庙张强彭很后得从忙快怒怕性怪恩您爱赶应成我或戳所才批找抓抽拉拖捏挂推揆提揣搜撇据擦扩挛数文新方旁日昂春是暖更曾最会月有朝木本李村东林某查栓案桌桑条棒森杨业荣楼桥横款正此岁段杀每比民水决况法波洪洽派混港凑准灭滚满漂润滨炸为然热片牛特率王瑞琼瓦甚产用略当百的盘省看砸福空窘窜站第等算管筛米组给经县总罗群翁老考肉肯能自与船艘若茂草庄莫华万藏苏兰虐处号行冲表被要言讯设许该说谁调谈请诺谬让赞丰贵买贼购赛赃走跌跑跟跨跩路车较轮转农追送这连运遭选还那邱郎都配金错镇铁钻开间阿陈雄双非面顺顿头额类饶马腾高闹鸟黄黑点容
[0187] 表二、155个英语单字没有样本,155英语单字特征全部用(6a)方法从前10名汉语单音特征平均值(23)取得
[0188] one two three four five six seve neight nine tenchicken turkey egg duck goose swan cow sheeppanda bear cat dog rabbit horse peacock bird fishpork beef snake bee fly mosquito flower red whiteblack green blue water wine vegetable tiger bearlion deer happy rice bread wheat soybean I likeyou is can catch swim in China has diner andrun fast full sky cloud many eat grass are yourgood animal breakfast tea bite beautiful house thankfather call we study English made a mistake heknock at my door she girl listen to me writeletter buy new car work hard celebrate birthdaydrink coke student mathematics tomorrow New York don′tbridge safe for automobile gasoline too expensive pricego high much granddaughter agree with opinion cleanprofessor coffee drive smart meet help from afterfood American sorry bother who rain will tonightam smile be careful about health medicine have it
[0189] 附注:new York,granddaughter及panda bear被认为是一个英语单字用12×12平均值及变异数矩阵表示。
[0190] 表三、270汉语单音没有样本,特征全部用388个前10名汉语单音特征的平均值(6a)取得
[0191] 妻辨明师联飞英久酒真料力立利加像象弱药仁几机量京饲忽呼弹麦劳速食店托儿巨游览地里出火脱轨行驶司太公危险坡手煞急刑证院好生病道史丹游泳拿技术流破神没德心湾夏北冬杭州市功救笔帐付诈骗集孩愈聪主倒退办欣亮母亲节父认什么涨油汽青菜鬼活见斗干入质保永远银服务差嫁龙星凤胎济再吸烟美读书教科电脑听奇单打独斗分工合作兴信着瞧十变恶匪抗俄避免脂食物过累责任发奋饭饱念统计难痛苦夫吵架育命注语花香狗叫减肥敢坐吗飞安钢琴萧长董秀莲时流黎幅画值钱脚去白痴迷肩战赢婆假钞珍惜血压升量细雨暴弃嘴甜懂话校长事池河祝喜欢梅梁伯傻瓜怎办歌宝贝喝笑蓝忘古皇帝残怀扁搞拼交航
[0192] (8)对一个讲话者的句子或名称辨认,我们先建立一个英语及汉语句子及名称数据库,每个句子或名称内的单字(单音)全部由单字及单音数据库内(388+155)已知单字及单音任意组成,由155英语单字组成70英语句子及名称,388汉语单字组成407个汉语句子及名称,(表四)。辨认方法如下:
[0193] (a)切割一个未知句子或名称成为D个未知英语单字或D个未知汉语单音,每单位时段计算相邻二信号点落差距离总和,如太小,该时段为杂音或静音,没有单字(单音)讯号的相邻单位时段累积太多(比英语单字两音节时间还多),表示全是杂音或静音,应该是两单字(单音)分界线就应切割,一共切成D个未知单字(单音),再用图2中45,50,60及90流程转成E×PLPCC矩阵。对每一个未知单字(单音),用贝氏分类法(20)在英语单字及汉语单音数据库中选择最相似F个已知单字及单音(可能同时包含英语及汉语(图3A及图3B),一未知句子或名称以D×F最相似单字及单音表示。
[0194] (b)在句子及名称数据库寻找讲话者的句子或名称,在477英语及汉语句子和名称中,挑选长度有(D±1)个已知单字(单音)句子和名称。
[0195] (c)如果数据库的选择比对的句子或名称和讲话者的句子或名称等长(D个未知单字(单音))时,那么将D个每列F个相似已知单字及单音和比对句子或名称的D个已知单字(单音)依顺序比对,看看F个相似单字及单音有没有比对句子或名称内的已知单字(单音)。如每列相似单字及单音内都含一个测试句子或名称内的已知单字(单音),辨认正确单字(单音)是D个,则该比对的句子或名称就是讲话者的句子或名称。
[0196] (d)如果数据库比对句子和名称内已知单字(单音)数不是D或(c)的辨认正确单字(单音)不是D个,本发明则用3×F窗口筛选。在比对句子或名称(数据库内)中,第i个已知单字(单音),用D×F矩阵中前后三列相似单字及单音(即第i-1,i,i+1列)比对第i个已知单字(单音),计算D×F矩阵有多少比对句子或名称内的已知单字(单音),再除以总数D或D±1得到该比对句子或名称的机率,在数据库选择一个机率最大句子或名称为讲话者的发音。
[0197] (e)假如某句子或名称辨认错误,一定是在D个未知单字(单音)中,有一个或多个不在它们的F个相似单字及单音中,用贝氏分类法(20)在(155+388)已知单字及单音中寻找前N=10顺位已知单字(单音),求N个相似单字及单音特征平均值改进该未知单字(单音),务使D个未知单字(单音)在它们F个相似单字及单音内,再测试一定成功。
[0198] 本发明执行下列英语及汉语句子及名称辨认,辨认几乎全部正确,依人而异:
[0199] 辨认70英语句子及名称(非常好)。
[0200] ②辨认407汉语句子及名称(非常好)
[0201] ③辨认70英语句子及名称与407汉语句子及名称(非常好)。
[0202] ④辨认407汉语句子、名称(从388单音组成)及152汉语句子、名称(从270单音组成)(较上述差一点)。
[0203] *附二张Visual Basic辨认图3A和图3B表示同时辨认英语及汉语句子、名称方法。
[0204] 表四、70英语句子、名称由155英语单字组成,407汉语句子、名称由388汉语单音组成
[0205] 1 I like beef 2you like chicken 3flower is red 4bird can fly5black cat catch fish 6duck swim in water 7China has panda bear8dinner has vegetable and pork 9horse run fast 10bread has fullwheat 11blue sky and white cloud12many cow eat grass 13China has rice 14are you happy 15tiger and lion are animal 16breakfast has egg and bread 17you like green tea and black coffee
18many mosquito bite you 19peacock is beautiful 20deer run fast21your father call you 22we study English 23he write a letter24you made a mistake 25he knock at my door 26she is a girl27listen to me 28you work hard 29you buy a new car
30wecelebrate your birthday 31you drink wine and I drink coke 32studentstudy mathematics 33tomorrow I fly to New York 34I don′t likemathematics 35bridge is safefor automobile 36gasoline is tooexpensive 37gasoline price go high
38my granddaughter is beautiful39I agree with your opinion 40I clean my house
41mygranddaughter eat breakfast 42don′t drink wine you have to drive 43panda bear eat vegetable 44professor like to run 45mathematicsprofessor is smart
46cow eat grass 47peacock is a bird 48I amhappy to meet you 49thank youfor your help 50sheep eat grass anddrink water 51I eat bread and eggfor breakfast 52duck can swim andfly 53professor and student work hard 54beef is made from cow55a new car is expensive 56New York has many car 57you eat toomuch 58a horse run after car 59a cat run after rabbit 60vegetable and soybean are good food 61you are American 62I amsorry to bother you 63I don′t like fast food 64who are you
65it will rain tonight 66I am good in mathematics 67she smile to me68be careful about your health 69medicine is hard to study 70thankyou for your food 71一半
72一二三 73一元 74一个 75一人一个 76一口77一台 78一千元 79一别六年 80七上八下 81一周七天 82一年有多少天 83上楼 84上面 85上中下 86下台 87上学 88不是你 89不要来 90不可能 91不用了92不能做 93不会 94不错 95不应该 96一岁97并且
98中间 99中华民国 100中学 101中国102六六大顺 103乱来 104乱成一团 105七八九
106人家 107人类 108你们 109你家 110你来了111你很忙 112你是坏人 113三代同堂 114一二三四五六七 115四五六 116但是 117住家 118有住人 119佛光山 120你很不错 121你很坏 122不要你来 123人人怕你 124你是木头人 125你来了 126来的方向
127方便 128修桥 129修面130修车 131修水管 132修路 133俩个人 134俩个少女 135个个很怪 136你们是一家人 137做做看 138停车 139停水了 140侧所 141你从侧们走
142元朝 143僧住在庙内 144一百元 145光说不做 146用光了 147你很内向 148你是我的内人 149全是我的 150一两要多少 151八口人家152共住一间 153很冷 154冷到八度 155第一列156别说了 157别的我不要 158不要管我 159船到了 160此路到台中
161我马上到 162你可刷卡163马上滚 164创下第一名 165勤快 166创下新高 167区区小款 168区别不同 169千年不坏 170千山万水 171一人一半 172一半也不错 173卡住
174刷卡 175金卡 176参赛 177来不及 178是谁要你来 179是谁反对你 180反面 181反对 182谁反对中华民国 183一口一口的吃 184一家四口185另外还有 186你是另类
187可大可小 188牛肉可口 189台东 190全台很冷 191有吃的 192有牛肉吃 193有米吃 194同名 195我们是同学196一同上学 197方向不对 198性向不同 199否定 200否决提案 201很周全 202很周到 203和平 204和你在一个国家 205和不来 206跟我和得来 207一品大人 208品学都不错 209哈哈我第一210台东米库 211高雄金库 212囊中有金 213四千金 214四对新人 215因为他很忙 216有家才有国 217国民所得 218不要看这个图 219团比连大220我们在车上 221我们在轮船上 222他们在忙223平均是多少
224均等 225一个坑有多大 226路上有坑 227铁垂 228堂堂正正的人 229中山堂230我不看报 231你会有报应 232场外都是人和车233场内场外都是人 234塞住了 235你很坏
236车坏了 237你个性外向 238有多少算多少 239很多呢 240梦中人 241你做梦 242天天开们 243天下我最大 244说一套做一套 245奥们不是这个奥246你如来我不饶你 247老娘不饶你 248我的孙女是娟娟 249肉有点嫩 250我的孙女漂漂 251学区很坏 252不要学坏 253住宅区很坏 254一定要来255一家八口 256山将会崩 257您尊大人 258对我比较洽当 259你上小学 260我吃少一点 261我是第一届 262我住第四层大楼 263崖很高 264和平算了 265第六学年 266chicken American大学 267热水一百度 268车库很小
269我家小康 270庙内有一个和上 271张开口 272第一是强棒 273后来赶上 274得到一张卡 275忙中有错 276快下来 277有我在不要怕 278性别有错 279不会才怪 280你对我有恩 281您老人家 282赶来开会 283他应该会来 284或许不要来 285戳开一点 286批平别人不对 287孙女找你娘 288抓贼 289抽水 290下一堂抽考 291你拉开他们 292拖到九点 293捏一下 294挂号 295推下来 296谁提这个案 297揣侧不是这个侧 298搜家 299撇开 300用扩张方法301他的数学不错 302文法有错 303我爱国文 304你是新人
305新方法 306旁人抓住的 307日月光308米昂贵 309金更昂贵 310春天不热 311是不是你 312暖和多了 313你们更棒 314开车你会不会 315一月多少天 316总有一天你被抓 317朝代不同 318你我本是一家人 319李台是我内人 320我住在村庄 321我东家不是他 322我学森林 323某行号米库 324查看有错否 325你吃案 326桌面有多少 327一条黄金 328你很光荣喔 329不要横到走 330此款有一点少 331正当性 332岁月不饶人
333拉成两段 334杀人是不对的 335每一个人都要来 336比一比谁高 337人民才是头家
338用热水 339我决定你来 340况且他不能来 341一波一波的来 342洪水来了 343不洽当 344派你来345不要将坏人混和 346港口不停轮船 347你凑了多少黄金 348你算不准
349开水滚了 350水满了351人漂走了 352本月是润月 353车被炸开 354天然水 355一片天空 356一片瓦 357你吃牛肉358你很特别 359你是小王 360你是本国人瑞 361本国产黄金 362用处不当 363你我个性略同 364百家性 365一盘多少 366省一点 367看谁来了368不要砸坏了 369你有福了 370不要空说371你从那调来 372不怕窘 373黑马窜来 374站旁一点 375一定等你 376天算不如人算 377管他的378找人一定要筛选 379一组多少人 380不给你381高雄县 382总是你不来 383你张罗多少 384一群马跑走 385老翁走了 386不考数学 387少吃肉类 388你不肯说 389还是不能说 390自灭 391鸟与马不同类 392轮船停开 393三艘船 394若是你来不来 395草不茂 396莫非是你 397千错万错不该来 398也苏 399贼窜到我家来 400不要旁人来说 401自修 402也苏不是这个也
403小兰你在那 404你有自虐性向 405农业处 406处方错了407你乱设行号 408车冲向我来 409图表比较自然410我被你追赶 411你要不要来 412一言堂 413送讯号给我 414设学堂 415我不容许你做 416请你将小女许配 417该说的我都说了 418你不该来419谁说的算 420他民调很高 421不谈这个人 422不能谈 423请自便 424你的诺言有用 425让我走426让他一下 427台方言是赞 428丰是很多 429你是我的贵人 430买米送人 431贼不要跑 432购买报表 433比赛 434赃是不法 435车冲向走路人436金下跌了 437你跟我来 438跨台 439不要跩我 440跑比较快 441车转方向 442农人产米 443你追不到我
444送金给你 445这是那446连我都要说 447用船运马 448哈birthday滨在中国 449这是头一遭 450马遭人虐 451民调高要选你 452还是我做 453邱一郎是谁 454你不配 455镇代表是谁 456铁口乱言 457车是铁做的 458钻比金贵459开张了 460楼上这一间 461阿李阿郎找你 462陈言谬谈 463高雄是我家 464我有一对孙女 465俩个是一双 466非也非也 467一面之言 468一天吃三顿 469我是头一个来 470名额不多 471人马不同类 472你饶了我 473一腾上天 474不要闹475小黄鸟不能站 476黑人很高 477给我一点水