会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~

语音识别

阅读:719发布:2020-05-12

IPRDB可以提供语音识别专利检索,专利查询,专利分析的服务。并且在识别分离字词语音或连续语音的语音识别器中,借助于用动态分量扩充增强未知语音的普通频谱表示,使识别精确度得到了提高,在与语音的频谱表示相比较的样型音中,可提供相应的动态分量。在最佳实施方案中,表示为■耳-频率方式的侧谱,并且各动态分量包含有若干对一次参数侧谱之间的矢量差。每对一次参数倒谱之间的时间间隔最好为50ms。并且与各动态参数一起计算动态听觉响度分量也是最为可取的。,下面是语音识别专利的具体信息内容。

1、一种识别取样的语音信号中的未知语音的方法,该方法包括如下步骤:i)将所说的未知语音表示为一第一参数帧序列,每一参数帧表示所说的语音的一个相应的时间帧;

ii)提供许多个基准样型音,每一样型音包含有一第二参数帧序列,后者用与第一参数帧序列的同样参数类型来表示;

上述第一和第二参数帧序列的每一个参数帧均包括一组一次参数和一组二次参数,每个二次参数表示为了各不同帧导出的各个对应参数帧中各相应一次参数之间带符号的差数;该方法其特征在于还包括:(iii)计算动态响量分量ΔCi,O,该分量为第二参数,代表来自上述未知语音的连续样本间的幅度变化;并在每一个上述第二参数帧中提供一相应的动态响度分量ΔT.,0;和(iv)将未知语音的参数帧序列的参数帧序列中的每个一次参数和两次参数与每一基准样型音相比较,从而判定哪个基准样型音与未知语音最为相似。

2、如权利要求1的方法,其特征在于各不同时间帧的中心之间的时间间隔在20在200ms范围内。

3、如权利要求2的方法,其特征在于所述时间间隔为50ms。

4、如权利要求1的方法,其特征在于所述第二参数根据下式计算:当1≤i<d+1时,

△Ci,j=Ci+c,j-Ci,j;

和下式:

当M-C<i≤M时,

Ci,j=Cm,j-Ci-d,j;

其中i,j为二次参数值△C的矩陈的相应时间和系数指数,M是时间指数i的最大数,C为超前帧的序号,两者都与确定动态参数的那一帧有关。

5、如权利要求4的方法,其特征在于所述二次参数是根据下式进行计算:当1≤i<d+1时

△Ci,j=Ci+c,j-Ci,j;

和根据下式计算:

当M-c<i≤M时

Ci,j=Cm,j-Ci-d,j

6、一种用于识别取样的语音信号中的未知语音的设备,该设备包括:(ⅰ)用于将未知语音表示为第一参数帧序列的装置,每一参数帧代表一相应的所述语音的时间帧;(ⅱ)用于提供许多个基准样型音的装置,每个样型音包括有第二参数帧序列,该参数帧序列用与第一参数帧序列同类型的参数表示;上述第一和第二参数序列的每个参数帧包括有一组一次参数和一组二次参数;每个二次参数表示在相对应的各参数帧(即导出各不同时间帧的各参数帧)内各相应的一次参数之间带符号的差数;该设备其特征在于还包括:

(ⅲ)一装置,用于根据上述未知语音计算动态响量△Ci,0,该分量代表第一参数帧序列的连续样本之间的幅度变化;和一用于为第二参数帧序列提供动态响量分量△T.,0的装置,每个分量为一个上述二次参数。

(ⅳ)一装置,用于将语音的一次和二次参数序列中的每一个与每一基准样型音相比较,而判定哪一个基准样型音与未知语音最为相似。

7、如权利要求6的设备,其特征在于所述用于提供基准样型音的装置提供每个上述二次参数,以表示为时间帧导出的相应参数帧中的一次参数之间的带符号的差数,该时间帧之间间隔范围为20到200ms。

8、如权利要求7的设备,其特征在于所述的时间帧之间中心至中心间隔为大约50ms。

9、如权利要求6的装置,其特征在于所述用于提供基准样型音的装置包括有一用于计算二次参数△Ci,j的装置,该装置根据下式计算:当d+1≤i≤M-c≤j≤7时

△Ci,j=Ci+c,j-Ci-d,j其中i,j为二次参数值△C矩阵的时间和系数指数,M为时间坐标i的最大值,c是超前帧的距离,d为滞后帧距离,二者都与确定动态参数的那一帧相关。

10、如权利要求9的设备,其特征在于所述用于计算二次参数的装置根据下式进行计算:当1≤i≤d+1时,

△Ci,j=Ci+c,j-Ci,j

并根据下式进行计算:

当M-c<i≤M

Ci,j=Cm,j-Ci-d,j。

说明书全文

本发明是关于语音识别方面的一项发明。

在已知的各种语音识别器中,语音一般经过脉冲编码调制(PCM)的格式编码后,再经过预处理,使之变换为一种与人类听觉系统领悟语音的方式有更为密切关系的样式。例如,可以将语音加以处理,给出滤波器组的各通道能量、倒谱、唛耳(mel)一频率倒谱或线性预测系数。将各个识别单元,如字语或音节,与一系列代表各有效单元的各基准样型音中的每一个样型音进行比较,判认最相匹配的那一个样型音为未知的单元,並在输出端送出相应于该样型音的单元标志。

虽然这类识别器对于一些应用来说是合适的,但是,由于在于某些应用方面,特别是在要求与说话人无关、进行电话交谈或具有大词汇量的应用方面,这类识别器会产生令人不能接受的差错率,因而效果並不完全令人满意。其原因据认为是普通的表示法並不足以准确地模仿人类听觉系统的响应特性。

因此,本发明的目的是提供一种识别未知语音的方法,该方法具有一般可接受的错误率。

本发明的另一目的是提供一种具有一般可接受错误率的用于识别在语音信号中未知语音的设备。

根据本发明,用以识别语音的设备包括:

(ⅰ)用于将未知的语言发音表示为一个参数帧序列的装置,每一参数帧代表上述语音的一个相应的时间帧;

(ⅱ)用于提供许多基准样型音的装置,每一样型音包含有一个参数帧序列,並用与第一点提及的参数帧相同的各种参数予以表示。

第一点提及的一个参数帧序列(未知的)和第二点提及的一个参 数帧序列(基准的)中的每一参数帧均包含一组一次参数和一组二次参数。每一个二次参数表示在相对应的各参数帧(即导出各不同时间帧的各参数帧)内各相应一次参数之间带符号的差数;以及

(ⅲ)用于将一个未知语言的参数帧序列与每个基准样型音相比较,並确定哪个基准样型音与之最相匹配的装置。

每一参数帧包含有一组根据所用的表示类型加以选定的参数,例如各滤波器组的各通道的能量、倒谱、唛耳-频率方式倒谱或线性预测系数。

所说的各不同时间帧的中心之间的时间差应优选为20ms至200ms,最好选为50ms左右。二次参数通常由前面和后面的一次参数导出,例如由±25ms或者±两帧的一次参数导出。

最好再引入一个表示幅度变化或听觉响度变化的分量,该分量既作为未知语音又作为基准样型音的一个二次参数。这样的响度分量通常不用于一次参数,因为绝对幅度或绝对响度对于区分各种字词语音是不起作用的。

因此,本发明一般来说包括用一组动态二次参数扩充增强的一组通常用以识别语音的一次短时间静态参数,其中一次参数用于语音识别,其中二次参数表示每个一次参数在一段短的时间间隔(例如20至200ms)中的变化。除了一次参数之外,述采用动态二次参数,这正与其他诸如非相关性、听觉差别等参数相反,会使可用以区别讲话声音的距离测量或概率密度函数变得对语音差别更加灵敏。

任何一种短时间谱的表示都可以用作一组一次参数。这类表示的例子有滤波器组各通道能量、倒谱、唛耳-频率倒谱、线性预测系数等等。这些表示的每一种均是借助于少数的参数(一般取为3到80 之间)在一个时间帧(一般为2到50ms)中估算音量大小或功率谱。

若Pt是在时间t时计算得到的各一次参数的矢量,则时间编移a和b应选为:

20ms≤a+b≤200ms

並且动态参数矢量△Pt定义为矢量差:

△Pt=Pt+a-Pt-b

本发明是利用各参数Pt与△Pt一起的合成效果表示时间t附近的语音信号。于是,概率密度函数和间距是利用同时包含静态(一次)和动态(二次)参数的这一扩增的参数组予以定义的。

另一方面上面的推导可以用帧数来表示。若△t=相邻帧间的时间差,並若Pi=第i帧内的一次参数矢量,则动态矢量△Pi可以定义为矢量差:

△Pi=Pi+〔a/△t〕-Pi-〔b/△t〕

选用的参数最好是唛耳频率方式的倒谱系数,在这种情况下,各一次参数C1……,Cn表示功率谱的形状而各二次参数△C1……,△Cn表示在规定时间间隔内的功率谱的形状的变化。此外,在这组二次参数中可以包含有△Co,用以表示响度或幅度的变化。

下面仅以一个例子,並参照附图,对本发明的一个实施方案进行描述,在附图中:

图1是一种语音识别器的一般原理方框图;

图2是表示该语音识别器的滤波器装置特性的图形。

在图1所示的语音识别系统中,信号Sn表示一种线性的脉冲编 码调制(PCM)语言信号,这个信号是未知信号或要进行识别的“输入”语言信号。将信号Sn送到汉明窗口(Hammig    Window)装置10,在汉明窗口装置10中,信号Sn被分割成为若干时间帧,每帧为25.6ms或204个取样的持续时间。在运行中,使每一帧均超前12.8ms或102个取样持续时间,因而也使相继的各帧互相重迭50%。而后用上升余弦函数对每一时间帧进行逐点相乘,並将结果送到滤波器装置12。这种汉明窗口可以衰减功率谱的各个旁瓣。

对每一时间帧进行256点的快速富利叶变换(Fast    Fourier    Transform),结果形成128点的实功率谱F1,……,FN,其中N=128。

滤波器装置12实际上是由二十个三角形滤波器所组成的滤波器组。二十个三角形滤波器组可确定各相应组的二十个通道的能量。对于取样频率Fs为8KHz的PCM方式而言,二十个通道的频率范围大约为从100Hz到4000Hz。正如图2所表示的那样,各通道为唛耳排列方式,其中各通道的中心频率以100Hz为间隔,线性地排列在100Hz到1000Hz范围内,而其对数分布范围是1100Hz到4000Hz。

对于每一时间帧而言,每个滤波器通道的输出是根据下面表达式所导出而加权的Bj:

Bj= ΣI=1nWij Fi

其中Bj为第j个唛耳频率通道的输出能量;Fi为根据i取值 为1≤i≤N的快速富利叶变换求得的第i个功率谱的量值;Wij为所规定的加权系数,定义如下:

当1≤i≤N且1≤j≤20时

其中△f=fs/2N

当1≤j≤20时,其lj、kj、hj分别为每个滤波器通道的最低频率、中心频率和最高频率,並由表1给定。

信号Bj的二十个对数通道的能量在装置14中根据下面的表达式进行计算:

Lj=Log10Bj 当l≤j≤20时

滤波器装置的输出和装置14的输出都被送到装置16,分别用来计算听觉响度C0和前七个唛耳频率方式的倒谱系数C1、C2……C7。

听觉响度C0为各通道能量的听觉加权总和Bj的对数值,並用下式求出:

C0=600Log10 ΣJ=120Vj Bj

其中Vj≥0,可以选得与听觉主观感觉的重要程度相符合。Vj的各种合适的取值示于下面的表1中

用以得到各个倒谱系数Ci的装置16,Ci是通过对各对数能 量进行余弦变换的方法而实现的。于是,

Ci= ΣJ=120Lj Cos〔i(j-1/2)π/20〕

其中l≤i≤7

对于有关计算各个系数的更详细的资料,这里仅向读者推荐S.B.Davis和P.Mermelstein撰写的一篇论文,题为“Compari    son    of    Parametric    Representations    for    Monosyllabic    Word    Recognition    in    Continu-ously    Spoken    Sentences”(关于连续发音语句中单音节字词识别方面各种参量表示的比较),请参阅IEEE    Transac    tions    on    Acoustics    and    Signal    Processing,卷号为ASSP28第4期,第357-366页,1980年8月出版。

滤波器号    lj    kj    hj    响度加权值

No.(j)    Hz    Hz    Hj    Vj

1    0.,    100.,    200.    .0016

2    100.,    200.,    300.    .0256

3    200.,    300.,    400.    .1296

4    300.,    400.,    500.    .4096

5    400.,    500.,    600.    1.

6    500.,    600.,    700.    1.

7    600.,    700.,    800.    1.

8    700.,    800.,    900.    1.

9    800.,    900.,    1000.    1.

10    900.,    1000.,    1150.    1.

11    1000.,    1150.,    1320.    1.

12    1150.,    1320.,    1520.    1.

13    1320.,    1520.,    1750.    1.

14    1520.,    1750.,    2000.    1.

15    1750.,    2000.,    2300.    1.

16    2000.,    2300.,    2640.    1.

17    2300.,    2640.,    3040.    1.

18    2640.,    3040.,    3500.    1.

19    3040.,    3500.,    4000.    1.

20    3500.,    4000.,    4600.    1.

装置16的输出,其中包括一组一次参数C1、……,C7和听觉加权的响度参数C0,每隔12.8ms传送给发音边界点检测器18,借助于把听觉响度C0的最小必要持续时间和最小幅值查询为时间帧号函数的方法将字词的各语音边界点检测出来。边界点的检测可以采用各种已知方法中的一种来实现,例如在“An Improved Endpoint Detector for Isolated Word Recognition”(分离字词识别中的一种改进的边界检测器)论文中所公开的方法,作者为L.F.Lamel,L.R.Rabiner,A.E.Rosenberg和J.G.Wilpon,刊在IEEE Trans.on Acaustics,Speech and Signal Processing,卷号为Assp-29,第4期,1981年8月出版,第777-785页。

此后,在语音处理中,字词间的时间间隔或寂静时间都被删除,即仅仅传送介入的语音。每一语音参数帧的数目M,可以有选择地通过线性地隔开删除帧或重复帧实现标准化,例如M=32。

边界点检测器18的输出是M个唛耳频率方式的倒谱序列,並用下面的矩阵来表示:

这一输出信号或识别单元表示或U被传送给动态参数计算装置20,装置20依照下式计算动态参数如下:

△Ci,j=Ci+c,j-Ci-d,j

当d+1≤i≤M-c,0≤j≤7时,

其中C为超前帧序号,d为滞后帧序号。在特定情况下,C=d=2。

当1≤i<d+1时

△Ci,j=Ci+c,j-Ci,j;

当M-c<i≤M时

△Ci,j=CM,j-Ci-d,j

这些动态参数可以计及人类听觉系统感知输入语音激励信号变化的习性。

M个参数帧的序列U′包含有一次(静态)参数和二次(动态)参数,可用下面的矩阵表示:

並从动态计算装置20传送到动态时间卷曲装置22。

应当注意到,与语音的静态响度相联系的矢量C0並没有利用上。

包含各动态参数和一个动态响度分量△Ti,O的一组相应的样型音,以下面的形式由装置24导出:

用于样型音的各参数序列,同时也送到动态时间卷曲装置22上。

使“未知”的参数表示式U′与每一基准样型音T′依次进行比较,並在每一种情况下计算出时间卷曲距离,从而将未知的语音判认为相应于具有最小卷曲间距的样型音的基准语音。

在由D.Sankoff和J.B.Kruska编辑,1983年由Addison-Wesly(Reading    MA)出版的版本,书名为《时间卷曲,条纹编纂和宏观分子:序列比较的理论与实践》(“Time    Warps,String    Edits,and    Macro-molecules:The    Theory    and    Practice    of    Soquence    Comparison”)中第163-187页中,由Hunt,Lenning和Mermelstein所撰写的题为《在以音节为基础的连续语音中使用动态编程》(“Use    of    Dynamic    Programming    in    a    Syllable-Based    Continuous    Speech”)一章中所介绍的方法可以用作动态时间卷曲计算。

现已发现,通过在参数表示式中包含有若干个动态参数的方法,识别准确度可以得到很大提高。同时还发现,当动态参数表示在大约50ms间隔排列的各时间帧之间语音信号的变化时,可以达到特别良好的结果。

尽管仅描述了应用于分离的字词语音的识别器,但本发明也同时适用于连续字词语音的识别器。並且不论是识别经专门训练的讲话人的识别器,还是识别与讲话人无关的识别器,本发明都是很适用的。

如上所述,使用以动态参数扩充增强的参数集组合,其中一次参数为前七个唛耳-频率倒谱的系数,在公用电话交换网上进行与讲话人无关的连续数字语音识别的试验结果表明,识别差错大约减少了 20%。除使用相应于前七个唛耳-频率倒谱系数的动态参数之外,同时采用了相应于总响度变化的第八个动态参数,进一步减少了大约10%的识别差错。

高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用