会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~

语音识别

阅读:998发布:2020-05-11

IPRDB可以提供语音识别专利检索,专利查询,专利分析的服务。并且本发明披露了一种结合时间编码及隐藏式马尔可夫处理方式的语音识别方法。此语音为输入(1)以及,使用如TESPAR之类的时间编码系统(5)来编码。一种隐藏式马尔可夫模型产生(3)分数,该分数用于确定(7)语音元素;以及结果输出(9)。,下面是语音识别专利的具体信息内容。

1.一种语音识别方法,该方法包含以下步骤输入要被识别的语音(31,41,51),使用时间编码将输入语音编码(32,43,53),使用一隐藏式马尔可夫模型(36,44,56,57),来确定用以指明该 输入语音与多个语音元素的部分或全部匹配的分数,若匹配的话,则使用该时间编码语音以及该马尔可夫分数来确定 (36,44,55)哪一个语音元素最符合该输入语音,以及若符合的话,则输出(37,45,58)所确定的语音元素。

2.如权利要求1的语音识别方法,其中该时间编码步骤包含:识别(71)出现与一给定值交叉的输入参数之间的间隔,以及将此间 隔长度量化,识别(73)在该间隔内的输入参数的复数零值的数目,直到一个预定 等级,以及记录(75)此间隔的量化长度,并量测该复数零值直到一个预定等 级,做为输入参数变化的代表。

3.如权利要求2的方法,其中预定等级为1。

4.如权利要求3的方法,其中编码方法为TESPAR方法。

5.如上述任一权利要求的方法,进一步包含产生一代码数的步骤 (77),获取一组预定值代表间隔的持续期间以及至少部分所述间隔的最 大值与最小值的数。

6.如上述任一权利要求的方法,其中确定最符合语音元素的步 骤,使用的是对先前输出语音元素的语言分析。

7.一种语音识别系统,包含:

语音捕获系统(13),用来输入要被识别的语音,一隐藏式马尔可夫语音识别系统(15),用来确定用以指明输入语音 与多个语音元素的部分或全部匹配的分数,一时间编码语音系统(15)用来将输入语音编码,以及一确定系统(15),如果匹配的话,则使用该时间编码的语音与该马 尔可夫分数来确定哪一个语音元素最符合输入语音。

8.一种记录在一数据载体上的计算机程序,该计算机程序用于控 制具有一处理单元、一语音输入及一输出系统的计算机系统,该程序可 用来控制计算机系统来实施以下的方法:输入要被识别的语音(31、41、51),使用时间编码将输入语音编码(32,43,53),使用一隐藏式马尔可夫模型(36,44,56,57)来确定用以指明输入 语音与多个语音元素的部分或全部匹配的分数,如匹配的话,则使用时间编码语音以及马尔可夫分数来确定(36, 44,55)哪一个语音元素最能符合输入语音,以及如符合的话,将确定的语音元素输出(37,45,58)。

9.如权利要求8的计算机程序,其中该时间编码步骤包含:识别(71)出现与一给定值交叉的输入参数之间的间隔,以及将此间 隔长度量化,识别(73)在该间隔内的输入参数复数零值的数目,直到一个预定等 级,以及记录(75)此间隔的量化长度,并量测该复数零值直到一个预定等 级,做为输入参数变化的代表。

说明书全文

                      技术领域

本发明涉及一种语音识别的方法,以及一种实施该方法的系统。

                      背景技术

已知有一些语音识别系统的已有技术。大部分商业处理方式为使用 一种隐藏式马尔可夫模型(hidden Markov model)(HMM)。在此模型中, 语音的短暂间隔使用一种产生一个给定的输出的任一个给定的字或子 字的似然性的概率统计(probabilistic)模型来处理。语音的短间隔可 能会重叠,并且可能藉由频谱参数来将其参数化,该频谱参数例如是滤 波器组的输出、一个离散傅立叶变换,或是输入语音的线性预测编码分 析的参数。然后确定输入语音与模型的最佳匹配。在模型中使用的概率 值是由一个训练阶段(training phase)所产生。这种方式是常规的处理 方式,对该技术的标准,本文不作进一步说明。

许多商业用的套装软件使用此种处理方式与一语言引擎,其使用的 有关口头语言的信息减低了可能的概率。此处理方式已经使得几个套装 软件能够达到97%的命中率。然而,这个数还是有必要再增加。

一种已知的时间编码语音(TES)或TESPAR处理方式已在GB 2020517、GB 2084433、GB 2162024、GB 2162025、GB 2187586、GB 2179183、 WO 92/15089、WO 97/31368、WO 97/45831以及WO 98/08188中说明。 在此处理方式中,语音被编码成为少量的符号。使用这种方式编码语音 的语音识别系统在WO 97/45831与GB 2187586中已披露。然而,此方 法显然并没有被广泛地应用;其原因是使用此种方法的识别率并不高。

                        发明内容

本发明提供了一种语音识别的方法,该方法包含:

输入要被识别的语音,

使用时间编码系统对该输入语进行编码,

使用一隐藏式的马尔可夫模型来确定其分数(score),用以指明该 输入语音是否与多个语音元素的部分或者全部匹配,

如果匹配,则使用该时间编码语音及马尔可夫分数来确定那个语音 元素最符合该输入语音,以及

如果符合,则输出确定的语音元素。

该语音波形的特征在于在一平均值附近的压力波动,基于时间编码 的目的,此平均值可以被视为“零”值,如下文所述。因此,此输入函 数为一单值函数,其在有限频率范围内在零值附近震荡。此种限制频带 型函数非常适合TESPAR分析。

一旦输入装置记录了语音波形,通常按序进行某种形式的预处理。 该处理可以包含过滤该信号以除去在语音频宽之外的频率。针对使用隐 藏式马尔可夫模型(HMM)方法的频率分析,该信号被分成短时间段(如10 毫秒)。

TESPAR可在该信号已分成任何时间长度的情况下使用。因此,可 以使用与隐藏式马尔可夫模型(HMM)类似的方式,将信号分成短时间 段。或者,该信号可以被分成分开的单字、词组甚至句子。根据一些准 则,可直接使用TESPAR来将信号分段。一个例子是寻找发音的尾点。 如何实现此方法的一个例子是采用短时间段,并将每个时间段编码成 ‘S’矩阵。如果计算出每个时间段矩阵元素的和,其结果为指明在每 个时间段中存在有多少声音的数向量。随后便可用来查寻声音与静音间 的转变,因而找到发音的尾点。

在许多方法中的语音信号可能属于时间编码。现在将说明时间编码 程序的一个例子。第一步骤是将要编码的信号在其信号通过零线处分 段,被分割的这些段被称为时期(epochs)。每一时期根据其持续期间、 在此持续期间内所出现的复数零值(complex zero)数以及该信号的 最大幅度来分类。然后将清单中的时期指定给特定群组,并使用不同群 组中的时期分配结果来描述被编码信号的特征。在一简单的例子中,这 可以意味着将每一时期指定给群组是由其形状、持续期间以及大小来确 定。然后使用每一群组中时期数量的简单一维直方图来描述信号的特 征。

隐藏式的马尔可夫模型(HMM)可以接受输入信号的短时间段并对其 进行傅里叶变换。然后,所得结果的频谱可用来将该时间段指定给一特 定的次单音。这些声音的顺序可以馈送给此模型,并考虑每一个单字的 可能输出。因此产生了单字的等级(ranking),其指出哪一个字与所观 察的语音波形最相似。一个可能的加强识别过程的方法是使用经时间编 码的信号来提供额外的输入参数给隐藏式的马尔可夫模型(HMM)。使用 已经过时间编码的信号来确定讲话者是谁,从而修正隐藏式的马尔可夫 模型(HMM)参数。

HMM与TESPAR系统两者都产生输入语音与系统字汇中的语音元素 之间匹配的概率。此外,TESPAR非常适合辨别预定选择的声音。因此, 如果有一个模型能够比其他模型对应输入语音来缩小相似单字的数 目,就是最可能中选的模型。此举可以加强语音识别系统的总准确性, 包含将在时间域的信息(其以TESPAR编码的形式),以及频率域的信息。

有各种方法用于使用TESPAR方法导出不同语音元素的分数。例 如,可以在由输入信号所产生的矩阵以及每一语音元素的原型矩阵间求 得关联分数。使用已知的范例,最常见的是可训练一个神经网络来区分 不同的语音元素。

时间编码可包含下列步骤:

识别出现与一给定值交叉的输入参数的间隔,以及将此间隔长度量 化,

识别在该间隔内的输入参数复数零值的数目,直到一个预定等级, 以及

记录此间隔的量化长度,并量测该复数零值直到一个预定等级,做 为输入参数变化的代表。

预定等级1经证实有很好的结果。在此例中,此方法记录第一等级 零值数目,即正最小值或是负最大值。此信息可以提供充分的细节来做 为有用的特性,而不须过度的计算。

因此,此方法可将输入的参数函数的形状参数化。如果参数平滑地 升至一最大值,然后又平滑地降至下一个零值,便没有正最小值,该数 目为零。

如果此函数为字母“M”的形状,升至最大值,降至最小值,然后 在经过零之前又到达另一个最大值,那么就会有一个正值的最小值,该 数目为1。

因此,该数将在零之间(即是在每一时期)的输入参数的震荡数参数 化。

正最小值或负最大值之所以为函数的复数零值的原因是,它们对函 数的复数输入的函数零值有关。第一等级的零值发生在当此函数有一个 值为零时的复数的实数值处。

此编码方法可以是TESPAR方法。

此方法可进一步包括将一组代表间隔持续期间的预定的数值中的 一个值以及对至少一些该间隔的最大值与最小值数目产生编码数的步 骤。

编码数可进一步被参数化。在一个处理方式中,可以计算一个S矩 阵。此S矩阵记录每一个编码数在输入参数所记录的变化示例的数目, 另外一个A矩阵可以被计算,此A矩阵记录第一编码示例的数目,接着 为一第二编码数,其以一预定的延迟在后。进一步的另一选择是计算一 DZ矩阵,记录幅度示例的数目、间隔长度和最大值与最小值其在下一个 时期增加、减少或维持不变的数目。

此S、A及/或DZ矩阵可以被存储或是被评价。

以上的处理方式可以用来记录至少两个输入参数。输入参数可从x 与y座标、速率、一个或多个速度轴(即速度与角度,或是x座标与y 座标)、角速度、或是弧度半径来做选择。

间隔的长度可以用时间为单位来量测,即是说所记录的长度代表连 续与给定值交叉的时间。然而,其他的参数也可使用,如x座标。后者 所记录的长度为距离。TESPAR只工作在变数为单值函数。

该给定值最好为一预置值。此值可以为零值,特别是经过零的垂直 (y)速度分量的座标。此给定值也可以为一对应于手写(handwriting)的 中间值的值。此处理方式可以被用来将y座标位置参数化,例如,在值 可以是为手写的中心线时,亦即该中间y座标假设此手写是写在x方向 上。

本发明是根据时间编码语音引擎可以将现存系统的性能大大地改 善而得到的,这是因为其语音编码实质上与使用在常规的语音处理的参 数正交。还有,时间语音编码可以有效地施行,因此此方法可以用很小 计算力来进行。因为TESPAR时间语音编码处理可以只用26个符号来描 述一个单字,其加入现存的语音处理系统使得它们的性能增加,而没有 太多的处理缺点。

最好是,确定最佳的对应的语音元素的步骤,同时也使用先前输出 语音元素的语言分析。

此时间编码的方法最好是根据经过零值间的间隔以及在每一间隔 内最大值与最小值的数目来编码语音系统。最好是,减少所选择的编码 该间隔及最大值与最小值数目的字符的数目。此编码方法可以是在如上 已公开的专利中所描述的TESPAR方法。

本发明的第二方面提供一种语音识别系统,其包括

语音捕获系统,用来输入要被识别的语音,

一隐藏式马尔可夫语音识别系统,用来确定用以指明输入语音与多 个语音元素的部分或全部匹配的分数,

一时间编码语音系统,用来将输入语音编码,以及

一确定系统,如果匹配的话,则使用时间编码的语音与马尔可夫分 数来确定哪一个语音元素最符合输入语音。

其第三方面,本发明提供一种记录在数据载体上的计算机程序,该 计算机程序用来控制具有一处理单元、一语音输入及一输出系统的计算 机系统,此程序可用来控制计算机系统来实施以下的方法:

输入要被识别的语音,

使用时间编码将输入语音编码,

使用一隐藏式马尔可夫模型来确定用以指明输入语音与多个语音 元素的部分或全部匹配的分数,

若匹配的话,则使用时间编码语音以及马尔可夫分数来确定哪一个 语音元素最能符合输入语音,以及

若符合的话,则输出所确定的语音元素。

                   附图说明

为对本发明有更清楚的了解,在此以举例的方式参考附图给出了一 个具体实施例,其中:

图1示出了根据本发明的一般语音识别系统的流程图,

图2示出了根据本发明的一系统,

图3示出了根据本发明方法的一特定实施例的流程图,

图4示出了根据本发明方法进一步的实施例的流程图,

图5示出了根据本发明方法另一实施例的流程图,

图6示出了使用根据本发明方法的位置查寻,

图7为示范时间编码的流程图。

                  具体实施方式

参考图1与2,在步骤1中,使用一麦克风13将语音输入语音识 别系统11。或者,语音可以记录在一载体上,并且直接装入该系统中, 或甚至经由网路连接至系统11来传送。

在步骤3中,常规的马尔可夫语音处理(使用隐藏式的马尔可夫模 型)是在系统11的一处理单元15中进行的,该系统为已知的系统,因 此不做进一步的描述。该输出为多个分数,其指明输入语音与每一个可 能候选的语音元素间符合的程度。

同时,在步骤5中,进行TESPAR编码,如前述的专利中所描述的 那样。此步骤可以在软件中进行,也可以在硬件中进行,因为其方法易 于在硬件中施行。

在图7中示出了时间编码。首先,在步骤71中,信号被分成多个 间隔。接着,在步骤73中识别第一等级零值的数目。在步骤75中记录 间隔被量化的长度与量化的零值数目。最后,在步骤77中存储一代表 信号的编码数。

在特定的例子中,使用所谓“TESPAR”的方法。一种熟知的TESPAR 语音编码器从专利GB2162024中得知。本发明的方法可以使用TESPAR 方法以及特定的适应实施此方法的硬件来实施编码。现在来描述此 TESPAR方法。

任何频带限制的信号可以使用其实数与复数的零来精确地表示,使 得

   f(t)=∏(t-τi)                                 (1) 其中τi为函数的零。实数零对应于函数f(t)与零线交叉的时间。

复数值出现在实函数的共轭对中,可以用对时间的微分效应的考虑 来分类。一复数零值等级的定义为,需要产生实数零与复数零值在相同 的时间纵座标所需的微分次数。因此波形的正最小值(正值的最小值)与 负最大值(负值中的最大值)对应第一等级复数零值,因为当波形被微分 一次之后,这些静止点变成零的交点。

TESPAR的波形可以使用实数零作为区段之间的边界点而被分成多 个区段,每两个零之间的间隔被称为一个时期。这不是唯一可用的方 法,但是简单并且通常很有效。

一旦定义时期后,一些相关的信息必须要记录下来。这通常包含时 期间隔的长度(持续期间);其最大幅度以及第一等级零的数目。在此 时,持续期间通常以波形样本最接近的整数来表示,而不是精确的时间 持续期间。其结果为包括一些波形所含的信息的一尺寸值(3x时期数) 的矩阵。

值得注意的是在此时,原波形的近似值仍可重新产生。其不会是精 确之值,因为每一时期的持续期间被量化,并且只有第一等级的零被记 载下来。零的位置以及较高零的存在并没有被记录下来。然而,已存储 有足够的信息而允许产生良好的原波形近似值,以便容易了解重新产生 的语音信号。

一旦时期被定义,而且其参数被记录下来,时间编码便可完成。一 旦信号以上述的时期形式(称为自然的TESPAR流)存储起来,便有许多 将信号编码的方案。然而一般的想法为轮流获取每一时期,或是一次获 取几个时期,并且根据存储于时期中的信息来产生一个编码数。一般的 编码方案要考虑持续期间和第一等级零的数目,并且根据这几项值而返 回在1与28范围的一个编码数。

当这些时期都被编码,有一些信息已然流失,但信号仍可以被重新 产生。然而,此时的目标通常不是重新产生信号,而是产生一小型格式 (compact format),使得波形可以被特征化,并且可以与其他波形比 较。到此时,每一时期的编码数与各种可能的矩阵合并为一。在下描述 各种的矩阵。

矩阵实际上为一向量,其长度等于TESPAR编码用来描述所有不同 时期类型的数目。每一向量元素包含一具有此编码的时期在信号中出现 的次数。所得结果的向量包含有关信号内容的信息,但是没有有关时期 次序的信息,这意味着此信号若无有其他信息的话,便不能被重新产 生。

‘S’矩阵可以进一步地定义。除了将具有合适编码的每一时期的 向量元素增加一之外,利用该时期的某一特性的量其元素可被增加。这 导致了持续期间加权的‘S’矩阵,其中元素增加的量视每一时期的持 续期间而定,而幅度加权的‘S’矩阵,其中用时期最大幅度加权。除 此之外,最后矩阵本身可以被修改。例如‘S’矩阵每一元素的数可以 倍增,来产生一个出现在波形中的时期数更重地加权的矩阵。

‘A’矩阵为依次考虑时期对而产生的二维空间的矩阵。这些时期 对可以为相邻的时期,或是其有一定隔间(称为延迟)的时期。每一对中 的时期将有一与与给出的两个纵座标相关的TESPAR编码,两个纵座标 指定哪一个矩阵元素需要增加。‘A’矩阵与‘S’矩阵类似,但是如时 期的次序的某系些信息被保持下来。这种矩阵的一个例子示于图2中。 和‘S’矩阵一样的是,‘A’矩阵的元素可以根据时期参数的某个组合 来加权。

如要扩充‘A’矩阵,可考虑一次将三个时期作为一组来产生三维 的矩阵。这样确实可以扩展在信号中的时期数,此时在具有与在波形中 的时期相同的(空间)维数的矩阵中有一个非零元素。

通过考虑时期对并且视其如何变化而产生矩阵‘DZ’。特别是在每 一时期中,检验最大幅度、持续期间与复数第一等级零的数目。这些参 数的每一个都可以增加、减少或维持不变,其有27种可能的组合,从 而有一个27元素的向量。因此,‘DZ’矩阵看起来类似‘S’矩阵。因 为持续期间与幅度近乎是连续的,为了编码‘DZ’矩阵的缘故,它通常 特别指定这些值改变的范围都一样。

为了说明端点查寻方式,考虑以静音来分隔各单字的语音波形。信 号因此被分成短时间段(譬如20毫秒),并且每一个时间段被编码成一 ‘S’矩阵。这些‘S’矩阵的每一个元素随后被相加,以便每一时间段 给出一个反应在每一时间段中有多少时期出现的数。注意该静音可能包 含许多小幅度的时期,这是无法避免的背景杂音。此时,需要某种抑 制的方式,譬如说忽略所有最大幅度小于某些值的时期。为了使得单字 的尾端可以被估计,在静音区域为低值,在说话时为高值。

一旦找出波形的适合段落,并且以某种矩阵的形式被编码,通常必 须被分类为先前熟知信号的一个范例。所使用的两个最普通的处理方式 为原型矩阵或神经网络。

对一特定信号的一组范例而言,其原型矩阵可以简单地将矩阵加起 来,然后除以使用的矩阵数来产生。为了测试信号是否与原型相同,此 信号必须要以与原型相同的矩阵格式编码,并且随后进行比较,以查寻 关联分数。这种方式可以包含许多原型,并且以用那一个与信号与其最 接近来排列其等级。

如果有需要比使用原型矩阵更好的方式的话,可以使用神经网络。 因为任何长度的信号,当时间编码(假设使用相同的矩阵)后,总是会产 生相同尺寸的矩阵,一神经网络可以设计为具有对应矩阵的元素数的一 固定的输入数。只要使用充分的训练范例,神经网络可以被训练来识别 几个标准信号。

回到图1的步骤7,处理单元15根据TESPAR输出与常规的马尔可 夫分数的组合,从候选语音元素中确定最相似的输入语音元素,此确定 也可以根据一语音的语言分析,即根据跟随前面语音元素(当做已知)的 相似的语音元素。

在步骤9中,系统11输出已确定的语音元素,此输出可以提供给 数据载体、屏幕17或其他部件。

参考图3,一根据本发明方法的特定的具体实施例有两个语音输 入。第一个为一测试字符串(如“计算机,识别我的声音。”)在主语音 输入之前提供(31)。此测试字符串鉴定语句使用以上所描述的TESPAR 方法来编码(32)以产生一矩阵,接著此矩阵被用来在一组已知的人当中 选择(33)最相似的讲话者。或者,主语音的第一部分可以用来识别讲话 者。当使用者已被识别,HMM的参数可以被调整(34)至先前以那人的声 音来训练时所找到的参数。然后HMM获取(36)主语音输入,并使用新配 置的状态将概率分配给不同的语音元素,然后以所要求的方式输出 (37)。在此方法中,可将讲话者从属识别系统变成讲话者独立识别系 统。

另一个改进语音识别率的处理方式在图4中示出。在此方式中, HMM获取(41)输入语音,并将概率分配(42)给不同的语音元素。该输出 包含不同的语音元素的概率,以及相关的语音信号的段落。然后这些都 被馈送到下一个区段,其信号为时间编码(43),而从由HMM找到的语音 元素中选择(44)最相似的语音元素。用此方法,HMM的选择过程被TESPAR 系统改进来提供更准确的识别系统。

进一步将TESPAR并入HMM语音识别系统的方案在图5中示出。

在此,语音信号输入(51)被分成(52)短时间段,并以两种方式处 理。第一种是常规的HMM方式,在其中信号被转换成频率域(56)来产生 (57)一光谱图。第二种是将每一个时间段时间编码(53),来产生TESPAR 矩阵。此矩阵的元素然后被以光谱图中不同频率bins值的相同方式重 新安排。此便产生(54)所谓的“Tesgram”。有两种不同的输入参数组用 做HMM的输入。此HMM输入中的额外信息随后可以用来提供加强的识别 性能。HMM然后计算(55)最相似的语音输入,并输出(58)结果。

现在说明位置查寻的一应用。在此例子中,语音信号输入(61)首先 被分成短时间段,并使用TESPAR方法将之时间编码(63)。接著被编码 的时间段的顺序被分析(65)来查寻其特定的特性,如单字之间静音的周 期。然后这些特性的时间位置与原始信号一起被送进HMM,使得该系统 可以用对特定的特性的了解来分析(67)语音。

高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用