用于标识至少一个语音单元的方法转让专利

申请号 : CN200510109924.6

文献号 : CN1760974B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : A·阿赛罗A·J·古纳瓦德纳M·V·马哈詹

申请人 : 微软公司

摘要 :

提供了用于训练和使用隐藏条件随机场模型用于语音识别和语音分类的方法和装置。该隐藏条件随机场模型使用特征,至少一个特征是基于在语音单元中的隐藏状态。特征的值是从一语音片段来确定的,且这些值被用来标识该语音片段的语音单元。

权利要求 :

1.一种用于标识语音单元的方法,所述方法包括:

接收一语音信号;

从所述语音信号确定观察值序列;

对多个语音单元中的每一个语音单元形成一独立的约束格状结构,每个约束格状结构包括多个时间点上的隐藏状态;

从所述语音信号中确定为一隐藏条件随机场模型定义的特征值,每一个特征值基于前一隐藏状态、当前隐藏状态、所述观察值序列以及当前时间;

对于每个约束格状结构计算前向递归得分,每个递归得分基于一指数函数,其中指数e升幂到经加权的特征值的和,其中确定一特征值包括确定当前隐藏状态与一特定隐藏状态相匹配并将该特征值设置成等于所述语音信号中一共振峰的值;

将与提供最高得分的约束格状结构相关联的语音单元标识为所述语音信号的语音单元。

2.一种用于标识语音单元的方法,所述方法包括:

接收一语音信号;

从所述语音信号确定观察值序列;

对多个语音单元中的每一个语音单元形成一独立的约束格状结构,每个约束格状结构包括多个时间点上的隐藏状态;

从所述语音信号中确定为一隐藏条件随机场模型定义的特征值,每一个特征值基于前一隐藏状态、当前隐藏状态、所述观察值序列以及当前时间;

对于每个约束格状结构计算前向递归得分,每个递归得分基于一指数函数,其中指数e升幂到经加权的特征值的和,其中确定一特征值包括确定当前隐藏状态与一特定隐藏状态相匹配并将该特征值设为等于一观察向量中的一个元素;

将与提供最高得分的约束格状结构相关联的语音单元标识为所述语音信号的语音单元。

3.一种用于标识语音单元的方法,所述方法包括:

接收一语音信号;

从所述语音信号确定观察值序列;

对多个语音单元中的每一个语音单元形成一独立的约束格状结构,每个约束格状结构包括多个时间点上的隐藏状态;

从所述语音信号中确定为一隐藏条件随机场模型定义的特征值,每一个特征值基于前一隐藏状态、当前隐藏状态、所述观察值序列以及当前时间;

对于每个约束格状结构计算前向递归得分,每个递归得分基于一指数函数,其中指数e升幂到经加权的特征值的和,其中确定一特征值包括确定当前隐藏状态与一特定隐藏状态相匹配并将该特征值设为等于一观察向量中的一个元素的平方;

将与提供最高得分的约束格状结构相关联的语音单元标识为所述语音信号的语音单元。

4.一种用于标识语音单元的方法,所述方法包括:

接收一语音信号;

从所述语音信号确定观察值序列;

对多个语音单元中的每一个语音单元形成一独立的约束格状结构,每个约束格状结构包括多个时间点上的隐藏状态;

从所述语音信号中确定为一隐藏条件随机场模型定义的特征值,每一个特征值基于前一隐藏状态、当前隐藏状态、所述观察值序列以及当前时间;

对于每个约束格状结构计算前向递归得分,每个递归得分基于一指数函数,其中指数e升幂到经加权的特征值的和,其中确定一特征值包括确定当前隐藏状态与一特定隐藏状态相匹配,并且如果所述语音信号是有声的,则将该特征值设为等于1,如果所述语音信号是无声的,则将该特征值设为等于0;

将与提供最高得分的约束格状结构相关联的语音单元标识为所述语音信号的语音单元。

5.如权利要求4所述的方法,其特征在于,确定一特征值包括确定当前隐藏状态与一特定隐藏状态不匹配并将该特征值设为等于0。

6.如权利要求1至4中任一项所述的方法,其特征在于,所述隐藏条件随机场模型是使用隐藏状态的约束格状结构来训练的,所述格状结构在多个时间点的每一个上包括一组单独的隐藏状态,每一组包括少于所有可能隐藏状态的隐藏状态。

7.如权利要求6所述的方法,其特征在于,所述隐藏条件随机场模型进一步是使用一非约束格状结构来训练的。

8.如权利要求1至4中任一项所述的方法,其特征在于,所述隐藏条件随机场模型是通过确定一条件对数似然性和所述条件对数似然性的梯度来训练的。

说明书 :

用于标识至少一个语音单元的方法

技术领域

[0001] 本发明涉及语音分类和语音识别,尤其涉及用于实现自动语音分类和语音识别的模型。

背景技术

[0002] 在语音分类和语音识别中,隐藏马尔可夫模型(HMM)被广泛用于对语音的声学建模。HMM是使用隐藏状态序列的概念来对来自标签的观测数据的生成的非平稳性建模的再生模型。在输入信号的每一帧上,HMM确定从每一可能的隐藏状态生成该状态的概率。该概率是通过将从语音帧导出的特征向量应用于与该状态相关联的一组概率分布来确定的。另外,HMM确定从前一状态转移到隐藏马尔可夫模型中的每一状态的概率。使用组合的转移概率和观测概率,隐藏马尔可夫模型选择最可能生成该帧的状态。
[0003] 隐藏马尔可夫模型的一个局限是,每一状态的概率是通过使用相同的特征向量来确定的,从而对每一状态使用同样的特征集合。该局限是使不合需要的,因为不同的特征对某些语音要比其它语音更为重要。例如,当将元音声彼此区分时,共振峰的值是重要的。然而,当区分摩擦音时,关于该语音是有声还是无声的信息是有益的。这样,可能需要能够对于与不同语音相关联的状态使用不同的特征。但是,HMM系统不允许这一能力。
[0004] 另外,HMM模型不允许特征的帧间相关性的长度的变化。从而,在每一帧上,特征提供了关于先前帧的固定量的信息。为有助于区分语音,可能需要允许对与不同语音相关联的状态有不同长度的帧相关性。
[0005] 在序列标签领域,使用了条件随机场模型,它消除了隐藏马尔可夫模型的某些局限。具体地,条件随机场模型允许在确定每一帧中标签的概率时在该帧上使用整段话语上进行的观测。另外,不同的标签可以与不同的特征相关联,从而允许对每一标签作更好的特征选择。
[0006] CRF模型的一个问题是CRF要求标签在训练时是已知的。同样,CRF模型不能够为隐藏状态建模,因为隐藏状态在训练时是未知的。同样,CRF模型没有在语音识别和语音分类中使用。
[0007] 最近,提出了一种条件随机场模型的扩展,它结合了隐藏状态。然而,并没有提出或显示该条件随机场模型的扩展能够用于语音识别和语音分类。具体地,在该扩展中示出的隐藏状态不对应于传统上用于语音识别的、与特定语音单位相关联的隐藏状态。

发明内容

[0008] 提供了一种用于训练和使用隐藏条件随机场模型用于语音识别和语音分类的方法和装置。该隐藏条件随机场模型使用了特征,特征中的至少一个是基于一语音单位上的隐藏状态。特征的值由一段语音来确定,且这些值用于为这段语音标识语音单位。
[0009] 根据本发明第一方面,提供了一种用于标识至少一个语音单元的方法,所述方法包括:接收一语音信号;从所述语音信号中确定为一隐藏条件随机场模型定义的特征值,至少一个所述特征是基于语音单元中的一隐藏状态;以及使用所述隐藏条件随机场模型中的特征值来标识至少一个语音单元。
[0010] 根据本发明第二方面,提供了一种对语音信号解码以标识至少一个语音单元的方法,所述方法包括:使用所述语音信号的一个片段来标识一时间点上的第一隐藏状态的特征的第一值;使用所述语音信号的片段来标识所述时间点上的第二隐藏状态的特征的第二值;在一模型中使用所述特征的第一值和所述特征的第二值来标识所述语音片段的一语音单元,其中在一模型中使用所述特征的第一值和所述特征的第二值包括,使用所述第一值和所述第二值确定所述第一状态的得分。

附图说明

[0011] 图1是可在其中实现本发明的一计算环境的框图。
[0012] 图2是可在其中实现本发明的一替换计算环境的框图。
[0013] 图3是在本发明的一实施例中的语音识别/语音分类器训练和解码系统的框图。
[0014] 图4是在本发明中训练隐藏条件随机场的流程图。
[0015] 图5是在本发明的实施例中用于训练隐藏条件随机场模型的约束格状结构图,其中语音单位的边界是已知的。
[0016] 图6是在本发明的实施例中用于训练隐藏条件随机场模型的约束格状结构图,其中语音单位的边界是未知的。
[0017] 图7是在本发明的实施例中用于训练和解码的非约束格状结构。

具体实施方式

[0018] 图1示出了可在其上实现本发明的合适的计算系统环境100的示例。计算环境100仅仅是合适的计算环境的一个示例,且不意于对于本发明的使用范围或功能的提出任何限制。也不应该把计算环境100解释为对在示例性操作环境100中示出的任一组件或其组合有任何依赖或要求。
[0019] 本发明可与众多其它通用或专用计算系统环境或配置一起操作。适合在本发明中使用的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型机、大型机、电话系统、包含上述系统或设备中的任一个的分布式计算机环境等。
[0020] 本发明可在诸如由计算机执行的程序模块等的计算机可执行指令通用语境下描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等,它们执行特定任务或实现特定抽象数据类型。本发明被设计成可以在分布式计算环境中实现,其中任务由通过通信网络连接的远程处理设备执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。
[0021] 参考图1,用于实现本发明的示例性系统100包括计算机110形式的通用计算设备。计算机110的组件包括,但不限于,处理单元120、系统存储器130和将包括系统存储器在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是任何类型的总线结构中的任一种,包括存储器总线或存储器控制器、外部总线和使用多种总线体系结构中的任一种的局部总线。作为示例,而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、扩展ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连接口(PCI)总线(也被称为Mezzanine总线)。
[0022] 计算机110通常包括各种计算机可读介质。计算机可读介质可以是能够被计算机110访问到的任何可用介质,且包括易失性的和非易失性介质、可移动的和不可移动介质。
作为示例,而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的易失性和非易失性、可移动的和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术,CD-ROM、数字化多功能盘(DVD)或其它光学存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机
110访问的任何其它介质。通信介质通常具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,且包含任何信息传递介质。术语“已调制数据信号”指的是一种信号,其一个或多个特征以在信号中编码信息的方式被设定或更改。作为示例,而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,和无线介质,诸如声学、射频、红外线和其它无线介质。上述中任何的结合也应包含在计算机可读介质范围之内。
[0023] 系统存储器130包括易失性或非易失性存储器形式的计算机存储介质,诸如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS),包含有助于诸如启动时在计算机110的元件之间传递信息的基本例程,通常存储在ROM 131中。RAM132通常包含处理单元120可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例,而非限制,图2示出了操作系统134、应用程序135、其它程序模块136和程序数据
137。
[0024] 计算机110也可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图1示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器141,从可移动、非易失性磁盘152中读取或向其写入的磁盘驱动器151,和从诸如CD ROM或其它光学介质等可移动、非易失性光盘156中读取或向其写入的光盘驱动器155。可以在示例性操作环境下使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括,但不限于,盒式磁带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器
141通常由不可移动存储器接口,诸如接口140连接至系统总线121,磁盘驱动器151和光盘驱动器155通常由可移动存储器接口,诸如接口150连接至系统总线121。
[0025] 以上描述和在图1中示出的驱动器及其相关联的计算机存储介质为计算机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。在图1中,例如,硬盘驱动器141被描述为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意到这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被标注了不同的编号是为了说明至少它们是不同的副本。
[0026] 用户可以通过输入设备,诸如键盘162、麦克风163和定点设备161(通常指鼠标、跟踪球或触摸垫)向计算机110输入命令和信息。其它输入设备(未示出)可以包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合至系统总线的用户输入接口160连接至处理单元120,但也可以由其它接口或总线结构,诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器191或其它类型的显示设备也经由一接口,诸如视频接口190,连接至系统总线121。除监视器以外,计算机也可以包括其它外围输出设备,诸如扬声器197和打印机196,它们可以通过输出外围接口195连接。
[0027] 计算机110可使用至一个或多个远程计算机,诸如远程计算机180的逻辑连接在网络化环境下运行。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它常见网络节点,且通常包括上文关于计算机110描述的许多或所有元件。图1中所示逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其它网络。这样的网络环境在办公室、企业范围计算机网络、企业内部互联网和因特网中是常见的。
[0028] 当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至局域网171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或通过诸如因特网等WAN 173建立通信的其它装置。调制解调器172可以是内部或外部的,它可以通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,相对于计算机110所描述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例,而非限制,图1示出了远程应用程序185驻留在存储器设备181上。可以理解,所示的网络连接是示例性的,且可以使用在计算机之间建立通信链路的其它手段。
[0029] 图2是移动设备200的框图,它是一个示例性计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动设备通信的通信接口208。在一实施例中,上述组件为相互通信而通过合适的总线210耦合在一起。
[0030] 存储器204被实现为非易失性电子存储器,诸如带有备用电池模块(未示出)的随机存取存储器(RAM),这样当移动设备200的总电源被关闭时,存储在存储器204中的信息也不会丢失。存储器204的一部分较佳地被分配为用于程序执行的可寻址存储器,而存储器204的另一部分较佳地用于存储,诸如模拟硬盘驱动器上的存储。
[0031] 存储器204包括操作系统212、应用程序214和对象存储216。在操作过程中,操作系统212较佳地由处理器202从存储器204执行。在一较佳实施例中,操作系统212是可从微软公司购买的WINDOWS CE操作系统。操作系统212较佳地是为移动设备所设计的,且实现能够由应用程序214通过一组所展示的应用程序编程接口和方法所使用的数据库特征。对象存储216中的对象由应用程序214和操作系统212至少部分地响应于对所展示的应用程序编程接口和方法的调用来维护。
[0032] 通信接口208表示允许移动设备200发送和接收信息的众多设备和技术。仅举几个示例,这些设备包括有线的和无线调制解调器、卫星接收器和广播调谐器。移动设备200也能够被直接连接至计算机以与其交换数据。在这些情况下,通信接口208能够是红外线收发器或者串行或并行通信连接,上述所有都能够传输流信息。
[0033] 输入/输出组件206包括各种数据设备,诸如触敏屏幕、按钮、滚轮和麦克风,并包括多个输出设备,包括音频发生器、振动器和显示器。以上列出的设备仅作为示例,且不需在移动设备200上全部存在。另外,其它输入/输出设备可以在本发明的范围内被连接至移动设备200或与其一同出现。
[0034] 在本发明中,语音识别和语音分类是使用带有隐藏状态的条件随机场模型来实现,该模型被称为隐藏条件随机场模型。隐藏条件随机场模型提供了给定一观察结果序列和一组参数时诸如音位身份等标签,或诸如单词序列等标签序列的概率。具体地,隐藏条件随机场模型如下定义了这些概率:
[0035] 公式1
[0036] 公式2τ τ
[0037] 其中,p(l|o1 ;λ)是给定从时间t=1到t=τ的观察值序列o1 和一组加权n τ τ值(参数)λ时标签l的概率;p(l1|o1 ;λ)是给定从t=1到t=τ的观察值序列o1n (t-1) (t) τ
和一组加权值(参数)λ时n个标签的标签序列l1 的概率;fk(s ,s ,o1 ,t)是从前一(t-1) (t) τ
隐藏状态s 、当前状态s 、观察值序列o1 和时间值t的值导出的特征值;λk是第k个特征的加权值; 指出求和是在所有与标签l相一致的隐藏状态序列上进行的;
指出求和是在所有与标签序列l1n相一致的隐藏状态序列上进行的; 是
归一化值。
[0038] 使用公式1和2,不同标签的概率能够从一组观察值和特征权重中确定,即使特征本身是依赖于隐藏变量的。
[0039] 图3提供了用于训练本发明的隐藏条件随机场模型的参数λk和用于使用隐藏条件随机场模型来实现语音分类和语音识别的系统的框图。
[0040] 在图3中,说话者300向麦克风304发声,麦克风304将音频信号转换成电信号。将该电信号提供给模数(A/D)转换器306。
[0041] A/D转换器306将从麦克风304得到的模拟信号转换成一连串数字值。在一实施例中,A/D转换器306以16千赫和每样值16比特对模拟信号采样,从而创建每秒32千字节的语音数据。将这些数字值提供给帧构造器307,在一实施例中,帧构造器307将这些值组合成25毫秒的帧,这些帧间隔10毫秒开始。在某些实施例中,帧构造器307能够构造不同大小的多种帧。
[0042] 由帧构造器307创建的数据帧被提供给特征提取器308,特征提取器308从每一帧中提取一组特征。特征提取模块的示例包括用于实现线性预测编码、LPC导出倒谱、感知线性预测(PLP)听觉模型特征提取和梅尔频率倒谱系数(MFCC)特征提取的模块。另外,特征提取器308也能够提取特征,诸如一帧是有声还是无声的,以及关于该帧中的共振峰的值的信息。注意,本发明不限于这些特征提取模块,且可以在本发明的环境中使用其它模块和其它特征。
[0043] 在本发明的隐藏条件随机场模型能够被使用前,它必须由训练器324来训练。训练器324基于来自特征提取器308的特征和训练文本326为隐藏条件随机场(CRF)模型327确定模型参数。具体地,训练器324使用一条件最大似然性方法来为隐藏CRF模型327选择参数,该参数最大化了当说话者300念出训练文本326中的文本时,给定由特征提取器
308提供的特征使在训练文本326中找到的标签的概率。
[0044] 图4提供了在本发明的一个实施例中用于训练隐藏CRF模型327的方法的流程图。在步骤400处,训练器324从训练文本326的训练标签中生成一约束格状结构。
[0045] 对于序列识别,该约束格状结构能够采用图5或图6所示的格状结构的形式。图5提供分别代表音位|p|、|e|和|t|的一组有界语音标签506、508和510的约束格状结构
500的示例,其中训练数据中的音位的边界是已知的。图6提供了一组同样的有界语音标签
506、508和510的约束格状结构600的示例,但没有已知音位边界。
[0046] 在图5和6中,时间分别沿着水平轴502和602显示,而隐藏状态分别沿着垂直轴504和604显示。诸如语音标签506、508和510的每一语音标签在上述两张图中各有三个可能的状态。
[0047] 因为在每一时间点上,只有与单个语音标签相关联的那些状态可以被占用,因此格状结构500被认为是受约束的。从而,其它语音标签的状态在该时间点上是无效的。尽管该格状结构是受约束的,但是存在能够基于从特征提取器308所生成的观察值通过该格状结构所遵循的多个不同的状态序列。因为格600将状态之间的转移限于仅与训练文本中的音位序列相一致的那些转移,所以格状结构600也是受约束的。以图6为例,仅允许音位序列/p//e//t/的状态之间的转移。
[0048] 对于分类,使用了多个单独的约束格状结构,其中每一格状结构限用于单个音位的状态。在训练过程中,在一时刻说出单个音位,并选择适当的约束格状结构,且在图4的方法中使用该约束格状结构。
[0049] 因为语音标签的状态被隐藏了,因此图4的方法通过约束格状结构中的所有状态执行前向—后向递归,从而对与公式1中的每一标签相关联的状态进行了求和。前向和后向递归定义如下:
[0050] 公式3
[0051] 公式4
[0052] 其中,α(s′,t-1)表示在时刻t-1时前一状态s′处的前向递归得分,其中可能的状态限于在约束格状结构中找到的那些,而β(s′,t+1)表示在时刻t+1时状态s′处的后向递归得分。
[0053] 在公式3和4中,特征fk(s′,s,o1τ,t)能够是任何所需的特征。在一实施例中,特征包括:当当前状态与一状态值相匹配且前一状态与另一状态值相匹配时值为1的指示函数特征;当前一状态与当前状态相匹配时值为1的指示函数;当前一状态与当前状态相匹配时分别具有特征向量各自的独立元素的值的一组实值特征;以及当前一状态与当前状态相匹配时表示特征向量各自的独立元素的平方的一组特征。其它特征包括当当前状态与诸如与元音声相关联的状态等特定状态值相匹配时,具有共振峰的值的实值特征;以及当当前状态与诸如与摩擦音相关联的状态等特定状态相匹配时,如果语音信号为有声则值为1,如果语音信号为无声则值为0的二元特征。
[0054] 当在步骤402处执行了约束格状结构上的前向—后向递归后,图4的方法在步骤404处继续执行非约束格状结构上的前向—后向递归。
[0055] 图7示出了一非约束格状结构700的示例。在图7中,只显示了与语音单元702、704和706相关联的状态的非约束格状结构。正如图5和6中所示,时间沿着图7的水平轴示出,而可用状态沿着图7的垂直轴示出。尽管没有示出,但是非约束格状结构含有在每一时间点上每一可能的语音单元的状态。
[0056] 除了将前向—后向递归应用于非约束格状结构而不是约束格状结构之外,前向—后向递归计算与公式3和4中的一样。在众多实施例中,在步骤404处的前向—后向递归中,使用了定向搜索,其中,在前向递归和后向递归中具有低得分的状态被剪除不作进一步考虑。这样减少了在每一时间点上必须进行的计算的次数。
[0057] 在步骤406处,应用于约束格状结构和非约束格状结构的前向—后向递归被用来确定条件对数似然性和该条件对数似然性的梯度。在一实施例中,该条件对数似然性被确定为:
[0058] 公式5
[0059] 其中α(sF,τ+1)是在时刻τ+1最终单个状态sF上使用约束格状结构的前向递归得分,而α′(sF,τ+1)是在时刻τ+1最终状态sF上使用非约束格状结构的前向递归得分。
[0060] 该条件对数似然性的梯度被确定为:
[0061] 公式6
[0062] 其中
[0063] 公式7
[0064] 公式8
[0065] 其中
[0066] 公式9
[0067] 公式10
[0068] 公式11
[0069] 公式12
[0070] 且其中 表示从升到单次幂或平方,或者值为1的函数的观察特征向量的个别元素中导出的特征。公式5-12为单个话语示例提供了对数似然性和梯度。一个更完整的对数似然性和梯度是通过将来自多个训练示例的各个对数似然性和梯度值相加来构成的。
[0071] 一旦在步骤406处确定了条件对数似然性和该条件对数似然性的梯度,它们被使用在优化算法中,以在步骤408处为每一特征fk选择新的λk值。在一个实施例中,在步骤408处,使用有限存储器BFGS优化算法(limited memory-BFGS)来选择下一λk值。在步骤410处,该方法判定优化是否完成。如果没有完成,该方法回到步骤402处,并且使用新的λk值重复步骤402、404和406。当在步骤410处完成了优化,过程在412处结束。
[0072] 一旦隐藏CRF模型327的模型参数由训练器324使用图4所示的过程训练后,解码器/语音分类器312可以进行语音分类和语音识别。
[0073] 在语音识别过程中,说话者300念出一单词序列。该音频信号由麦克风304、A/D转换器306、帧构造器307和特征提取器308使用与训练信号相同的方式来处理,以生成一组特征。这些特征被提供给解码器312。在语音分类的情况下,该特征序列限于与单个音位的帧相关联的那些序列。在语音识别的情况下,该特征序列用于整个话语上的帧。
[0074] 为实现语音分类,为每一语音单元构成一独立的约束格状结构。在每一格状结构上进行前向递归,以确定公式5中的条件对数似然性的分子。与提供分子最大值的格状结构相关联的语音单元而后被选择作为话语的语音单元。
[0075] 当存在将被识别的可能语音序列的有限组,在语音识别中能够使用同样的技术。在这种情况下,能够为每一可能的语音序列构造诸如图6所示的格状结构的约束格状结构。而后在每一格状结构上执行前向递归,以确定公式5中的条件对数似然性的分子。与提供最大值的格状结构相关联的语音单元序列而后被选择作为该话语的语音单元序列。
[0076] 为实现语音识别,构造了类似于图6所示的格状结构的非约束格状结构。而后使用下列公式执行前向递归:
[0077] 公式13
[0078] 其中,公式13除了前向递归是在非约束格状结构上进行的而不是在先前状态s′上求和得到的以外,与公式3类似,最大化α(s,t)值得先前状态s′被选择且被用于计算α(s,t)的值。当前向途径完成后,通过选择在每一时间点上提供最大得分的状态,来标识通过该非约束格状结构的单条路径。通过折回该路径,可标识与输入语音信号相关联的状态序列。在本发明的实施例中,每一状态只被分配给单个标签。由此,状态序列能够被容易地转化为标签序列,从而提供了所识别的输出或语音分类。
[0079] 在某些实施例中,剪除是通过消除在α(s,t)值为低的每一时间帧上的状态在前向递归的过程中进行的。
[0080] 在某些语音识别的实施例中,用于解码的格状结构被约束于在词典314中找到的容许语音单元序列,词典314包含该语言中单词的发音。在其它实施例中,多个可能的语音单元序列通过使用隐藏条件随机场模型来标识。由隐藏条件随机场模型为每一序列确定的得分与由语音单元序列表示的单词序列的语言模型得分组合在一起。这样的语言模型得分是由语言模型316生成的。提供最高组合得分的语音单元序列被解码器312选择作为语音片段的语音单元序列。
[0081] 在其它的语音识别实施例中,语言模型和词典与隐藏条件随机场模型集成在一起。在这样的实施例中,语言模型是使用忽略声学而着眼于不同单词之间的转移的特征来实现的。类似地,词典是由只允许对应于有效发音的状态序列的转移特征来实现的。该语言模型特征和该词典特征的参数可以在隐藏条件随机场模型训练中被重新训练,或可以使用一独立训练过程来设定。
[0082] 注意到,如果在隐藏条件随机场模型训练的过程中,语言模型是可用的,那么该隐藏条件随机场模型的权重会被训练来仅区分语言模型看来等可能的那些单词序列。通过使用这种方式训练,声学模型中的建模能力不被浪费在对语言模型能够解决的区别进行建模上。
[0083] 尽管本发明是参考具体实施例而描述的,然而本领域的技术人员可以认识到,可以在形式和细节上进行修改而不背离本发明的精神和范围。