用于音调语言的分段音调建模转让专利

申请号 : CN200510009402.9

文献号 : CN1645478B

文献日 : 2012-03-21

相似专利: 请登录后查看

一种在诸如语音识别或文本-语音转换等语音处理中使用的音素集用于建模或形成具有多个不同音调的音调语言的音节。每一音节包括一可以与滑音相关的声母部分和一韵母部分。韵母部分包括多个音素。每一音素携带部分音调信息，使得联合在一起的音素隐含且联合地表示不同的音调。

1.一种语音处理系统，接收与语音和文本之一有关的输入，并处理所述输入以提供与语音和文本之一有关的输出，其特征在于，所述语音处理系统包括从具有音调语言的多个音素的音素集中导出的模块，所述音素用于对所述模块中使用的音节建模，所述音节具有声母和韵母部分，其中，所述韵母部分包括多个分段，每一分段携带分类音调信息，使得联系在一起的分段隐含地且联合地表示不同的音调。

2.如权利要求1所述的语音处理系统，其特征在于，所述韵母部分的多个分段中的每一分段包括关于所述音调的部分信息。

3.如权利要求1所述的语音处理系统，其特征在于，所述音调语言包括具有不同音节水平的多个不同音调。

4.如权利要求3所述的语音处理系统，其特征在于，所述不同音节水平包括两个分类水平，并且所述韵母部分的多个分段中的每一分段具有与该分段相关联的分类水平。

5.如权利要求3所述的语音处理系统，其特征在于，所述不同音节水平包括三个分类水平，并且所述韵母部分的多个分段中的每一分段具有与该分段相关联的分类水平。

6.如权利要求3所述的语音处理系统，其特征在于，所述不同音节水平包括五个分类水平，并且所述韵母部分的多个分段中的每一分段具有与该分段相关联的分类水平。

7.如权利要求1所述的语音处理系统，其特征在于，每一音节包括具有所述声母和所述韵母的相同形式，所述韵母具有两个音素，其中每一个音素都携带部分音调信息。

8.如权利要求1所述的语音处理系统，其特征在于，所述音调语言的至少一些音节包括滑音，所述滑音包含在所述声母中。

9.如权利要求1所述的语音处理系统，其特征在于，所述语音处理系统包括语音识别系统和文本-语音转换器之一。

10.如权利要求9所述的语音处理系统，其特征在于，所述韵母部分的多个分段中的每一分段包括关于所述音调的部分信息。

11.如权利要求9所述的语音处理系统，其特征在于，所述音调语言包括具有不同音节水平的多个不同音调。

12.如权利要求11所述的语音处理系统，其特征在于，所述不同音节水平包括两个分类水平，并且所述韵母部分的多个分段中的每一分段具有与该分段相关联的分类水平。

13.如权利要求11所述的语音处理系统，其特征在于，所述不同音节水平包括三个分类水平，并且所述韵母部分的多个分段中的每一分段具有与该分段相关联的分类水平。

14.如权利要求11所述的语音处理系统，其特征在于，所述不同音节水平包括五个分类水平，并且所述韵母部分的多个分段中的每一分段具有与该分段相关联的分类水平。

15.如权利要求9所述的语音处理系统，其特征在于，每一音节包括具有所述声母和所述韵母的相同形式，所述韵母具有携带部分音调信息的两个音素。

16.如权利要求9所述的语音处理系统，其特征在于，所述音调语言的至少一些音节包括滑音，所述滑音包含在所述声母中。

17.如权利要求16所述的语音处理系统，其特征在于，所述音调语言包括中文或中文的方言。

18.如权利要求16所述的语音处理系统，其特征在于，所述音调语言包括泰语或泰语的音调方言。

19.如权利要求16所述的语音处理系统，其特征在于，所述音调语言包括越南语或越南语的音调方言。

20.一种语音处理系统，接收与语音和文本之一有关的输入，并处理所述输入来执行语音识别和文本-语音转换之一，以提供与语音和文本之一有关的输出，其特征在于，所述语音处理系统包括从具有音调语言的多个音素的音素集中导出的模块，所述音调语言包括具有不同音节水平的多个不同的音调，所述音素用于对所述模块中使用的音节建模，至少一些音节具有声母和韵母部分，其中，所述多个音素的第一组用于描述滑音相关声母，所述多个音素的第二组用于描述所述韵母部分，其中，所述韵母部分包括多个分段，每一分段携带分类音调信息，使得联系在一起的分段隐含地且联合地表示不同的音调。

21.如权利要求20所述的语音处理系统，其特征在于，所述不同音节水平包括两个分类水平，并且所述韵母部分的多个分段中的每一分段具有与该分段相关联的分类水平。

22.如权利要求20所述的语音处理系统，其特征在于，所述不同音节水平包括三个分类水平，并所述韵母部分的多个分段中的且每一分段具有与该分段相关联的分类水平。

23.如权利要求20所述的语音处理系统，其特征在于，所述不同音节水平包括五个分类水平，并且所述韵母部分的多个分段中的每一分段具有与该分段相关联的分类水平。

24.如权利要求20所述的语音处理系统，其特征在于，至少一个音节仅包括具有两个音素的韵母，其中每一个音素都携带部分音调信息。

25.如权利要求20所述的语音处理系统，其特征在于，每一音节包括具有所述声母和所述韵母的相同形式，所述韵母具有两个音素，其中每一个音素都携带部分音调信息。

26.如权利要求20所述的语音处理系统，其特征在于，所述音调语言包括中文或中文的方言。

27.如权利要求26所述的语音处理系统，其特征在于，所述中文的方言为广东话。

28.如权利要求20所述的语音处理系统，其特征在于，所述音调语言包括泰语或泰语的音调方言。

29.如权利要求20所述的语音处理系统，其特征在于，所述音调语言包括越南语或越南语的音调方言。

30.一种语音处理方法，其特征在于，包括：

访问具有包括音调语言的多个音素的音素集，所述音素用于对音节建模，所述音节具有声母和韵母部分，其中，所述韵母部分包括多个分段，每一分段携带分类音调信息，使得联系在一起的分段隐含地且联合地表示不同的音调；

使用所述音素集来识别对应于输入的音节，以执行语音识别和文本-语音转换之一；

以及

提供对应于语音识别和文本-语音转换之一的输出。

用于音调语言的分段音调建模

技术领域

[0001] 本发明一般涉及诸如语音识别器和文本一语音转换器等语音处理系统领域。更为具体地，本发明涉及这类系统中使用的建模单元或集合设计。

背景技术

[0002] 选择最合适的单元，即建模单元，来表示语言的显著的声音和语音信息是设计诸如语音识别器或文本一语音转换器等可使用的语音处理系统中的一个重要的问题。用于选择适当的建模单元的一些重要的准则包括：建模单元可以如何准确地表示单词，尤其是在不同的单词上下文中；所得的模型可训练到何种程度以及是否可用足够的数据来可靠地估算单元的参数；以及是否可从预定义的单元库存中容易地导出新单词，即，所得的模型是否是可推广的。

[0003] 除上述的要考虑的总体因素之外，还需考虑若干层单元：音素(phone)、音节和单词。它们在上述准则方面的表现是非常不同的。基于单词的单元对于域特定(domain specific)应当是好的选择，如被设计成用于数字的语音识别器。然而，对于LVCSR(大词汇量、连续语音识别器)，基于音素的单元更好，因为它们更可训练并且更可推广。

[0004] 许多语音处理系统现在使用状态共享技术(如隐型马尔可夫模型)的上下文中的上下文相关的音素，如三音素。所得的系统产生了良好的性能，尤其是对于诸如英语等西方语言更是如此。这部分地是由于西方语言具有较小的音素集(如，英语仅包括约50个音素)，当被模型化为上下文相关音素时，如三音素，尽管理论上会需要503个不同的三音素，但是实际上这些系统使用更少的音素，并且被认为是可训练且可推广的。

[0005] 尽管显示出诸如基于三音素的隐型马尔可夫建模的系统等的基于音素的系统对英语之类的西方语言能起较好的作用，然而用于中文之类的音调语言的语音处理系统一般使用音节作为建模单元的基础。与大多数西方语言比较，诸如中文普通话等的音调语言有若干不同的特征或差异。首先，单词的数量是无限的，而特征和音节的数量是固定的。具体来说，一个中文字符对应于一个音节。总体上，有大约420个基础音节，以及1200以上个音调音节。

[0006] 由于中文是音调语言，因此对于每一音节，通常有从音调1到音调5的五种音调类型，如{/ma1//ma2//ma3//ma4//ma5/}。在这五种音调中，前四个是正常音调，其形状为高、升、低和降。第五个音调是其它四个的中和。尽管音素是相同的，由于不同的音调类型，实际的声学实现是不同的。

[0007] 除特征和音节之间的一对一映射之外，在音节中存在定义的结构。具体来说，每一基础音节可以用以下形式表示：

[0008] (C)+(G)V(V，N)。

[0009] 依照中文音韵学，“+”之前的第一部分被称为声母，它主要由辅音构成。在中文中有22个声母，并且其中一个是零声母，表示缺少声母的情况。在“+”之后的部分被称为韵母。在普通话中文中有大约38个韵母。此处，(G)、(V)和(V，N)分别被称为韵母的头部(滑音)、体部(主元音)和尾部(尾音)。括号中的单元在构成有效音节中是可任选的。

[0010] 如上所述，音节一般形成了诸如普通话中文等音调语言的建模单元的基础。这一系统一般尚未用于西方语言，因为存在数千个可能的音节。然而，这种表示对普通话中文是非常准确的，并且单元的数量也是可接受的。但是，三音节的数量是非常大的，并且音调音节令情况变得更坏。因此，用于普通话中文的大多数现有的建模策略基于音节的分解。在它们之中，音节通常被分解成声母和韵母部分，而音调信息被单独建模或与韵母部分一起建模。尽管如此，这些系统仍存在缺点，无疑需要一种改进的建模单元集。

发明内容

[0011] 使用了一种用于诸如语音识别或文本一语音转换等语音处理的音素集，来模型化或形成具有多个不同音调的音调语言的音节。在一个实施例中，每一音节包括一可以与滑音相关的声母部分和一韵母部分。韵母部分包括多个分段或音素。每一分段携带分类音调信息，使得联系在一起的分段隐含地且联合地表示不同的音调。由于音调包含两个分段，一个音素仅具有部分音调信息，并且韵母中的两个音素共同起作用以表示整个音调信息。换言之，多个音素中的第一组用于描述声母，而第二组用于描述韵母。

[0012] 作为语音处理系统或语音处理方法来实施，访问并利用音素集来识别输入中的音节，以执行语音处理和文本一语音转换之一。然后提供对应于语音识别和文本一语音转换之一的输出。

附图说明

[0013] 图1是可在其中使用本发明的通用计算环境的框图。

[0014] 图2是语音处理系统的框图。

[0015] 图3是文本一语音转换器的框图。

[0016] 图4是语音识别系统的框图。

[0017] 图5是普通话中文中的音调类型的图。

具体实施方式

[0018] 在更详细地讨论本发明之前，将讨论可使用本发明的说明性环境的一个实施例。图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例，并非暗示对本发明的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。

[0019] 本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。

[0020] 本发明可在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言，程序模块包括例程、程序、对象、组件、数据结构等等，它们执行特定的任务或实现特定的抽象数据类型。本领域的技术人员可将此处的描述和/或附图实现为计算机可执行指令，它可以在下文讨论的任何形式的计算机可读媒质上实施。

[0021] 本发明也可以在分布式计算环境中实施，其中，任务由通过通信网络链接的远程处理设备来执行。在分布式计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机存储媒质中。

[0022] 参考图1，用于实现本发明的示例系统包括采用计算机110形式的通用计算装置。计算机110的组件可包括但不限于：处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种，包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的中的任一种的局部总线。作为示例而非局限，这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线，也称为夹层(Mezzanine)总线。

[0023] 计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质，包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限，计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失、可移动和不可移动媒质。计算机存储媒质包括但不限于：RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中嵌入计算机可读指令、数据结构、程序模块或其它数据，并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限，通信媒质包括有线媒质，如有线网络或直接线缆连接，以及无线媒质，如声音、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。

[0024] 系统存储器130包括采用易失和/或非易失存储器形式的计算机存储媒质，如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程，通常储存在ROM131中。RAM132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限，图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。

[0025] 计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例，图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141；对可移动、非易失磁盘152进行读写的磁盘驱动器151；以及对可移动、非易失光盘156，如CD ROM或其它光媒质，进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口，如接口140，连接到系统总线121，磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口，如接口150，连接到系统总线121。

[0026] 图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图1中，示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同，也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。

[0027] 用户可以通过输入设备，如键盘162、话筒163和定点设备161(如鼠标、轨迹球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120，但是也可以通过其它接口和总线结构连接，如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口，如视频接口190，连接至系统总线121。除监视器之外，计算机也可包括其它外围输出设备，如扬声器197和打印机196，它们可通过输出外围接口195连接。

[0028] 计算机110可以在使用到一个或多个远程计算机(如远程计算机180)的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公共网络节点，并通常包括许多或所有上述与计算机110相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。

[0029] 当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接至LAN171。当在WAN网络环境中使用时，计算机110通常包括调制解调器172或其它装置，用于通过WAN173(如因特网)建立通信。调制解调器172可以是内置或外置的，通过用户输入接口160或其它适当的机制连接至系统总线121。在网络化环境中，描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限，图1示出远程应用程序185驻留在远程计算机180上。可以理解，示出的网络连接是示例性的，也可以使用在计算机之间建立通信链路的其它手段。

[0030] 图2一般地示出了接收输入202以提供部分地从下文描述的音素集中得出的输出204的语音处理系统200。例如，语音处理系统200可被实施为语音识别器，例如通过话筒
163接收口语单词或短语作为输入，以提供例如储存在任一计算机可读媒质存储设备中的包括文本的输出。在另一实施例中，语音处理系统200可以被实施为文本一语音转换器，它接收例如包含在计算机可读媒质上的文本，并提供可通过扬声器197向用户呈现的语音作为输出。应当理解，这些组件可以在其它系统中提供，并且由此，被进一步认为是此处所使用的语音处理系统。

[0031] 在处理过程中，语音处理系统200访问从下文讨论的音素集中得到的模块206，以处理输入202并提供输出204。模块206可采用许多形式，例如模型、数据库等等，比如语音识别中使用的声学模型，或串接文本一语音转换器中使用的单元库存。形成模块206的音素集是音调语言的分段音调模型，这些音调语言诸如但不限于：中文(普通话，在下文作为示例来描述)、越南语和泰语等等，包括其方言。

[0032] 图3中示出了用于将文本转换成语音的一个示例性文本一语音转换器300。一般而言，转换器300包括文本分析器302和单元串接模块304。要被转换成合成语音的文本作为输入306被提供给文本分析器302。文本分析器302执行文本标准化，它可包括将缩写扩展成其正式形式，以及将数字、货币量、标点符号和其它非字母字符扩展成其完整的单词等效物。文本分析器302然后通过已知的技术将标准化的文本输入转换成子单词元素(如音素)的串。然后将音素串提供给单元串接模块304。如有需要，文本分析器302可使用语调模板(prosodic template)(未示出)向音素串分配重音参数。

[0033] 单元串接模块304接收音素串，并构造合成语音输入，它作为输入信号308被提供给数一模转换器310，后者进而向扬声器197提供模拟信号312。基于来自文本分析器302的串输入，单元串接模块304在完成了储存在318的对应的决策树之后，从单元库存316中选择代表性实例。单元库存316是实际声音数据的上下文相关的单元的存储，比如在决策树中存储。在一个实施例中，三音素(具有其一个直接前导音素和后续音素作为上下文的音素)用于上下文相关的单元。其它形式的单元包括五音素和双音素。访问决策树318以确定哪一单元要由单元串接模块304使用。在一个实施例中，对下文讨论的音素集的每一音素，单元是一个音素。

[0034] 音素决策树318是一种二叉树，它通过与每一节点相关联的语言问题分裂根节点和每一后续的节点来生长，每一问题询问左(前导)音素或右(后续)音素的类别。关于音素的作或右上下文的语言问题一般由语言专家在设计时生成，以基于下文讨论的音素集捕捉语境作用的语言类别。在一个实施例中，对每一唯一的上下文相关的、基于音素的单元创建隐型马尔可夫模型。通常使用聚类来提供可在给定其性能时有效地运行在计算机上的系统。

[0035] 如上所述，单元串接模块304在完成了决策树318之后从单元库存316中选择代表性实例。在运行时，单元串接模块304可串接最佳的预选择的基于音素的单元，或从多个实例中动态地选择将联合失真函数最小化的最佳的基于音素的单元。在一个实施例中，联合失真函数是HMM得分、基于音素的单元串接失真和语调失配失真的组合。系统300可在计算机110中实现，其中，文本分析器302和单元串接模块304是硬件或软件模块，单元库存316和决策树318可使用关于计算机110所描述的存储设备的任一个来储存。

[0036] 如本领域的技术人员所理解的，也可使用其它形式的文本一语音转换器。除上述串接合成器304之外，也可使用扩音器(articulator)合成器和共振峰合成器来提供文本一语音转换。

[0037] 在又一实施例中，语音处理系统200可包括语音识别模块或语音识别系统，其一个示例性实施例在图4中以400示出。语音识别系统400在402处从用户接收输入语音，并将输入语音转换成文本404。语音识别系统400包括话筒403、模数(A/D)转换器403、训练模块405、特征提取模块406、词典存储模块410、声音模块412、搜索引擎414和语言模型415。应当注意，整个系统400或语音识别系统400的一部分可在图1所示的环境中实现。
例如，话筒163较佳地可作为输入设备通过适当的接口并通过A/D转换器403提供给计算机110。训练模块405和特征提取模块406可以是计算机110中的硬件模块，或储存在图1所揭示的任一信息存储设备中并可由处理单元120或另一合适的处理器访问的软件模块。
另外，词典存储模块410、声音(acoustic)模型412和语言模型415也较佳地储存在图1所示的任一存储器设备中。此外，搜索引擎414在处理单元120(可包括一个或多个处理器)中实现，或可以由个人计算机110所采用的专用语音识别处理器执行。

[0038] 在所示的实施例中，在语音识别的过程中，语音作为到系统400的输入以可由用户听见的话音信号的形式提供给话筒163。话筒163将可听见的语音信号转换成提供给A/D转换器403的模拟信号。A/D转换器403将模拟语音信号转换成数字信号序列，它被提供给特征提取模块406。在一个实施例中，特征提取模块406是常规数组处理器，它在数字信号上执行谱分析，并对频谱的每一频段计算幅度值。在一个说明性实施例中，信号由A/D转换器403以大约16kHz的采样率提供给特征提取模块406，但也可以使用其它采样率。

[0039] 特征提取模块406将从A/D转换器403接收的数字信号划分成包括多个数字样值的帧。每一帧的持续时间大约为10毫秒。然后由特征提取模块406将帧编码成反映多个频段的谱特征的特征矢量。在离散和半连续隐型马尔可夫模型的情况下，特征提取模块406也使用矢量量化技术和从训练数据中得出的码本，将特征矢量编码成一个或多个码字。由此，特征提取模块406在其输出提供每一口语话语的特征矢量(或码字)。特征提取模块406以大约每10毫秒一个特征矢量(或码字)的速率提供特征矢量(或码字)。

[0040] 然后对照隐型马尔可夫模型使用被分析的特定帧的特征矢量(或码字)来计算输出概率分布。这些概率分布稍后用于执行维特比(Viterbi)或相似类型的处理技术。

[0041] 在从特征提取模块406接收了码字之后，搜索引擎414访问储存在声音模型412中的信息。模型412储存声音模型，如隐型马尔可夫模型，它表示要由语音识别系统400检测的语音单元。在一个实施例中，声音模型412包括与隐型马尔可夫模型中的每一马尔可夫状态相关联的聚类结果(senone)树。隐型马尔可夫模型表示以下讨论的音素集。根据声音模型412中的聚类结果，搜索引擎414确定由从特征提取模块406接收的特征矢量(或码字)表示的最可能的音素，并因此表示了从系统用户接收的话语。

[0042] 搜索引擎414也访问储存在模块410中的词典。由搜索引擎414根据其对声音模型412的访问接收的信息用于搜索词典存储模块410，以确定最可能表示从特征提取模块406接收的码字或特征矢量的单词。搜索引擎414还访问语言模型415，语言模型415可采用许多不同的形式，如采用N元语法(N-grams)、无上下文的语法或其组合的那些形式。语言模型415也用于识别由输入语音表示的最可能的单词。提供最可能的单词作为输出文本
404。

[0043] 如本领域的技术人员所理解的，可使用其它形式的语音识别系统。除上述隐型马尔可夫建模识别器之外，分别基于人工神经网络(ANN)、动态时间重叠(dynamic time wrapping：DTW)或其组合(如混合ANN-HMM系统)等的识别器也可得益于从下文描述的音素集中导出的模块。

[0044] 如在背景技术部分中讨论的，中文中的基础音节可用以下形式来表示：

[0045] (C)+(G)V(V，N)，

[0046] 其中，“+”之前的第一部分被称为声母，它主要由辅音构成，而“+”之后的部分被称为韵母，其中(G)、V和(V，N)分别被称为韵母的头部(滑音)、体部(主音)和尾部(尾音)，括号中的单元在构成有效音节时是可任选的。

[0047] 在这一点上，应当注意，上文提供的形式在此处用于解释本发明的各方面的目的；然而，这一形式不应当被认为是要求或限制。换言之，应当理解，可使用不同的形式作为用于描述中文和其它音调语言中的音节的替换结构，并且除以下讨论的那些以外，关于这些形式的具体细节本质上与此处所描述的音素集无关。

[0048] 一般而言，一个新的音素集一此处称为分段音调建模一对于每一音节包括三个部分，其形式为：

[0049] CG V1 V2。

[0050] 其中，CG对应于上述形式中的(C)(G)，但是包括滑音，由此产生了滑音相关声母。然而，词语“声母”的使用不应当与上文所使用的“声母”混淆，这是因为被认为是韵母的一部分的滑音现在与该第一部分相关联。将滑音分配到声母或第一部分从第一形式扩展了单元库存。

[0051] 对于中文普通话，只有三个有效滑音/u/、/ü/(为简化标签，用/v/来表示/ü/)和／i/，因此每一声母辅音最多被分类成四个类别。实际上，它们中的大多数只有2个或3个类别，因为某些辅音一滑音组合在普通话中是无效的。例如，对于辅音／t/，有／t/、/ti／和／tu/，而对于辅音／j/，只有／ji/和／jv/。

[0052] 本发明形式的V1和V2共同提供了包括音调信息的剩余的音节信息(在本发明中被称为主韵母)。V1可以被认为表示主韵母信息的第一部分，在某些音节中，如果主韵母包含两个音素，可表示第一元音，而在某些音节中，如果主韵母只有一个音素，则表示该音素的第一部分，并且也携带或包括音调信息的第一部分。V2可以被认为表示主韵母信息的第二部分，在某些音节中，当主韵母包含两个音素时，表示第二音素，在某些音节中，当主韵母只有一个音素时，表示该音素的第二部分，并且携带或包括音调信息的第二部分。换言之，作为直接对音调类型建模的替代，由多个部分，如都携带音调信息的两个部分或分段(此处也称为“分段调素(toneme)”)，隐含并联合地实现音调。

[0053] 与V1和V2的每一个相关联的是音调信息。如普通话中文中已知的，有五个不同的音调，其中四个在图5中示出。第五个音调是其它四个音调的中和模式。在这里所描述的实施例中，不同的音调类型依照其相对音节(pitch)区域由三个分类音节水平(此处示出为高(H)、中(M)和低(L))的组合来描述，即，图5所示的音调类型以分类水平被分类成高-高(HH)(对音调1)、低-高(LH)或中-高(MH)(对音调2)、低-低(对音调3)和高-低(HL)(对音调4)。中和音调，即音调5，可以依照前述的音调类型共享音调4或音调3的模式，或被单独建模为中-中(MM)。音调模式中的第一标记被附加到V1，而第二部分被附加到V2。

[0054] 在这一点上，一个示例可能是有帮助的。下表1提供了音调音节/的zhuang$分解，其中，$＝{1，2，3，4，5}，表示音节的五个不同的音调。

[0055] 表1

[0056]音调音节 CG V1 V2
/zhuang1/ /ZHU/ /aaH/ /ngH/
/zhuang2/ /aaL/或/aaM/ /ngH/
/zhuang3/ /aaL/ /ngL/
/zhuang4/ /aaH/ /ngL/
/zhuang5/ /aaM/ /ngM/

[0057] 在本发明的形式中，{zhu}和{aaH，aaM，aaL，ngH，nhM，ngL}成为韵母音素集的一部分。如上所述，作为将5个音调附加到韵母部分(/uang/)的替代，滑音/u/被分配给声母部分/zh/，形成/zhu/。音节的剩余部分/ang$被分割成两个音素/a/+/ng/，并基于音韵被标记为/aa/+/ng/，然后，由H/L/M的组合实现音调l～5，它最终被附加到对应的音素(如/aa/和/ng/)。

[0058] 在某些音节中，韵母部分仅包含一个音素，如/zha/。然而，韵母部分被分割成两部分(用于V1的/aa/和用于V2的/aa)，以达到音节分解中的一致性。表2示出了使用本发明的形式对/ /的分解。

[0059] 表2

[0060]音调音节 CG V1 V2
/zha1/ /ZH/ /aH/ /aH/
/zha2/ /aL/或/aM/ /aH/
/zha3/ /aL/ /aL/
/zha4/ /aH/ /aL/
/zha5/ /aM/ /aM/

[0061] 使用上述技术，可实现具有97个单元的音素集(加上静音的/si1/)，其中，57个用于描述滑音相关声母，剩余的39个用于描述韵母部分(V1和V2)。表3提供了包括97个单元(加上/si1/)的音素列表，其中，左列是声母相关的，而右列提供了对应于主韵母部分的分段调素。应当注意，为对所有有效音节保持一致分解结构，对没有声母辅音的音节，即所谓的零声母情况明确地创建了若干音素单元，在表3中被表示为/ga/、/ge/和/go/。它们中的第二个符号由韵母部分的第一音素来决定。例如，音节/an1/的CG是/ga/，音节/en1/的CG是/ge/。然而，如果语音处理系统不在所有时刻都要求相同的音节结构，则这不是必要的。在某些实现中，这三个可被合并成一个。

[0062] 表3

[0063]B bi bu aaM aaH aaL
C cu aM aH aL
Ch chu ehM ehH ehL
D di du elM elH elL
F fu erM erH erL
g gu ibM ibH ibL
/ga/ge/go(零声母) ifM ifH ifL
H hu iM iH iL
ji jv ngM ngH ngL
K ku nnM nnH nnL
L li lu lv oM oH oL
M mi mu uM uH uL
N ni nu nv vM vH vL
P pi pu sil
qi qv
R ru
S su
Sh shu
T ti tu
Wu
xi xv
yi yv
z zu
Zh zhu

[0064] 以下指出了详细的音素列表和音节一音素集映射。然而，应当注意，在表4中/ang/和/an/中的音素/a/由不同的符号(音素)/a/和/aa/来表示，因为这两个音素的清晰度地位明显不同。如果需要更小的音素集或没有足够的训练数据量，则这些音素可被合并来形成一个单元。可合并的另一对是/el/和/eh/。

[0065] 音节和音素库存之间的映射的完整列表可从表3和表4中推导出。如在背景技术部分所提到的，有420个以上基础音节和1200个以上音调音节。为节省空间，作为列出所有映射对的替代，在表4中仅列出了标准韵母(38个)和库存中的音素之间的映射。音节和音素之间的完整列表可以依照上文和表4中介绍的分解方法来容易地提取。例如，对于音节/tiao4/，它由声母t和韵母/iao/以及音调4构成，表4指示/iao/→/i/+/aa/+/o/。基于上述分解策略，滑音/i/将与声母合并，并形成滑音相关声母/ti/，而音调4将被分解成HL，因此，音调音节/tiao4/的映射变成/tiao4/→/ti/+/aaH/+/oL/。另外，基础上，本发明形式的V1和V2应当都具有音调标签，如H、M和L，而在表4中示出的V1和V2只是没有音调标签的音素的基本形式。

[0066] 表4

[0067] 对所有没有音调的标准韵母的分解表

[0068]韵母滑音 V1 V2
A - a a
ai - a eh
an - a nn
ang - aa ng
ao - aa o
e - el el
ei - eh i
en - el nn
eng - el ng
er - er
i i i i
ia i a a
ian i a nn
iang i aa ng
iao i aa o
ib(对于/zhi/中的/i/) i ib ib
le i eh eh
if(对于/zi/中的/i/) i if if
in i i nn
ing i el ng
iong i u ng
iu i o u
o u u o
ong u u ng
ou - o u
u u u u
ua u a a
uai u a eh
uan u a nn
uang u aa ng
ui u eh i
un u el nn
uo u o o
v v v v
van v eh nn
ve v eh eh
vn v el nn

[0069] 上述音素集构造的使用可提供若干显著的优点，包括减少了用于诸如中文等音调语言的音素集，而同时维持了语音识别和文本-语音转换的准确度的必要的区别。另外，音节构造也与诸如中文音调等音调上的音韵的发现和描述相一致。使用上述构造创建的音节也是一致的，不论是否存在可任选部分。另外，被实施为三个部分(声母和两部分的韵母)的音节更适用于现有技术的搜索框架，并因此在语音识别的输出扩展过程中比普通的两部分音节分解产生更高的效率。此外，每一音调音节具有固定的分段结构(如，三个分段)，它可以作为约束被潜在地应用于解码，以提高搜索效率。最后，通过构建滑音相关声母对声母进行详细建模，可有助于将每一声母彼此区分开来。

[0070] 尽管参考具体实施例描述了本发明，然而本领域的技术人员将认识到，可以在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。

[0071] 例如，在用分段调素表示典型音调类型的基本思想下，如有需要，这一概念可容易地将音节水平的2值(高/低)量化扩展成更详细的水平，如3值(如，高/中/低)或甚至是5值(如1～5)，以详细地描述典型音调类型的模式。如果对普通话中文音调使用了五值，则可使用以下表示：5-5用于音调1，3-5或2-5用于音调2，2-1用于音调3，以及5-1、5-2或4-1用于音调4。然而，这对于具有更多音调类型的音调语言更有意义，如，广东话，它具有大约9种音调类型。广东话是中文的一种非常重要的方言，通常由香港、中国南方、海外华人等使用。

用于音调语言的分段音调建模转让专利

申请号 : CN200510009402.9

文献号 : CN1645478B

文献日 : 2012-03-21

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : C·黄 , M·楚

申请人 : 微软公司

摘要 :

权利要求 :

说明书 :