基于VoiceXML移动终端语音交互方法及移动终端转让专利

申请号 : CN200910130320.8

文献号 : CN101527755B

文献日 : 2011-07-13

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

本发明公开了一种基于VoiceXML移动终端语音交互方法及移动终端，在上述方法中，将接收的语音信息转换为VoiceXML文档，根据预先配置的VoiceXML文档框架解析VoiceXML文档，查找VoiceXML文档对应的语音信息需要实现的功能信息；将查找到的功能信息映射为人机接口的具体功能对应的功能，并将映射后的功能通知给人机接口；对来自人机接口的回应信息进行VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放。根据本发明提供的技术方案，能够实现高智能化的复杂语音交互，并可以提高语音交互的可移植性。

1.一种基于语音可扩展标记语言VoiceXML移动终端语音交互方法，其特征在于，包括：将接收的语音信息转换为VoiceXML文档，根据预先配置的VoiceXML文档框架解析所述VoiceXML文档，查找所述VoiceXML文档对应的所述语音信息需要实现的功能信息，其中，所述VoiceXML文档框架中包括至少一个功能信息以及对应的VoiceXML文档；

将查找到的所述功能信息映射为人机接口的具体功能对应的功能，并将映射后的功能通知给所述人机接口；

对来自所述人机接口的回应信息进行VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放。

2.根据权利要求1所述的方法，其特征在于，将接收的语音信息转换为VoiceXML文档包括：通过基于VoiceXML的语音识别提取所述语音信息中的识别的文本，将提取的所述文本组合为所述VoiceXML文档。

3.根据权利要求2所述的方法，其特征在于，根据预先配置的VoiceXML文档框架解析所述VoiceXML文档包括：确定所述VoiceXML文档的关键节点，在所述VoiceXML文档框架中查找相应的关键节点，并将查找到的所述关键节点对应的有效数据作为所述语音信息需要实现的功能信息。

4.根据权利要求3所述的方法，其特征在于，将查找到的所述功能信息映射为所述人机接口的具体功能对应的功能包括：将查找到的所述功能信息映射为所述人机接口能够执行的相应功能函数和函数参数信息，并将映射后的所述功能函数和所述函数参数信息作为映射后的所述功能。

5.根据权利要求4所述的方法，其特征在于，对来自所述人机接口的回应信息进行VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放包括：将来自所述人机接口的所述回应信息转换为所述VoiceXML回应文档；

提取所述VoiceXML回应文档中的语音信息，通过基于VoiceXML的语音合成合成为所述语音信息进行播放。

6.一种移动终端，包括人机接口功能模块，其特征在于，还包括：

交互功能界面模块，用于将接收的语音信息转换为VoiceXML文档，并将VoiceXML回应文档的转换结果通过相应的语音信息进行播放；

功能映射模块，用于根据预先配置的VoiceXML文档框架解析所述VoiceXML文档，查找所述VoiceXML文档对应的所述语音信息需要实现的功能信息，将查找到的所述功能信息映射为人机接口功能模块的具体功能对应的功能，并将映射后的功能通知给所述人机接口功能模块，还用于对来自所述人机接口功能模块的回应信息进行VoiceXML回应文档转换处理，并将转换结果发送至所述交互功能界面模块。

7.根据权利要求6所述的移动终端，其特征在于，所述交互功能界面模块包括：交互界面，用于接收来自用户的所述语音信息，将该语音信息发送至语音识别模块，并播放来自语音合成模块的语音信息；

所述语音识别模块，用于通过基于VoiceXML的语音识别提取来自所述交互界面的语音信息中的识别的文本，将提取的所述文本组合为所述VoiceXML文档；

所述语音合成模块，用于提取来自所述功能映射模块的所述VoiceXML回应文档中的语音信息，通过基于VoiceXML的语音合成合成所述语音信息。

8.根据权利要求7所述的移动终端，其特征在于，所述功能映射模块包括：

配置模块，用于配置所述VoiceXML文档框架，其中，所述VoiceXML文档框架中包括至少一个功能信息以及对应的VoiceXML文档；

VoiceXML解析器，用于确定来自所述语音识别模块的所述VoiceXML文档的关键节点，在所述VoiceXML文档框架中查找相应的关键节点，并将查找到的所述关键节点对应的有效数据作为所述语音信息需要实现的功能信息，还用于将来自功能交互模块的回应信息进行VoiceXML回应文档转换处理；

所述功能交互模块，用于将查找到的所述功能信息映射为人机接口功能模块对应的功能，将映射后的功能通知给所述人机接口功能模块，并接收来自所述人机接口功能模块的回应信息。

9.根据权利要求8所述的移动终端，其特征在于，所述功能交互模块映射的所述人机接口功能模块对应的功能，为所述人机接口功能模块能够执行的相应功能函数和函数参数信息。

基于VoiceXML移动终端语音交互方法及移动终端

技术领域

[0001] 本发明涉及通信领域，具体而言，涉及一种基于VoiceXML移动终端语音交互方法及移动终端。

背景技术

[0002] 随着手机等移动终端越来越智能化，人机交互成为发展的趋势，用户希望自己的手机就像一个小秘书，可以通过简单的人机交互来代替具体复杂的操作。

[0003] 目前，已经存在简单的人机交互形式，即，利用对话“告诉”手机要拨号通话，这种方式语音交互生硬，并且必须按既定流程对话，智能性较差，缺乏跨平台移植的灵活性。

[0004] 基于可扩展标记语言(Extensible Markup Language，简称为XML)的特殊文档结构VoiceXML(语音XML)，是一种应用于语音浏览的标记语言，能够将用户交互作用的代码从服务逻辑中分离出来，利用VoiceXML文档，可以开发更加接近于人类语言的交互系统，增加语音交互的智能化，并且开发出的交互系统能够适用于多种应用平台。

[0005] 但是，针对语音交互技术智能性差且不能够跨平台移植的问题，相关技术中尚未提出有效的技术方案。

发明内容

[0006] 考虑到相关技术中语音交互技术智能性差且不能够跨平台移植的问题而提出本发明，为此，本发明的主要目的在于提供一种基于VoiceXML的移动终端语音交互方法及移动终端，以解决相关技术中存在的上述问题至少之一。

[0007] 为了实现上述目的，根据本发明的一个方面，提供了一种基于VoiceXML移动终端语音交互方法。

[0008] 根据本发明的基于VoiceXML的移动终端语音交互方法包括：将接收的语音信息转换为VoiceXML文档，根据预先配置的VoiceXML文档框架解析VoiceXML文档，查找VoiceXML文档对应的语音信息需要实现的功能信息，其中，VoiceXML文档框架中包括至少一个功能信息以及对应的VoiceXML文档；将查找到的功能信息映射为人机接口的具体功能对应的功能，并将映射后的功能通知给人机接口；对来自人机接口的回应信息进行VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放。

[0009] 优选地，将接收的语音信息转换为VoiceXML文档包括：通过基于VoiceXML的语音识别提取语音信息中的识别的文本，将提取的文本组合为VoiceXML文档。

[0010] 优选地，根据预先配置的VoiceXML文档框架解析VoiceXML文档包括：确定VoiceXML文档的关键节点，在VoiceXML文档框架中查找相应的关键节点，并将查找到的关键节点对应的有效数据作为语音信息需要实现的功能信息。

[0011] 优选地，将查找到的功能信息映射为人机接口的具体功能对应的功能包括：将查找到的功能信息映射为人机接口能够执行的相应功能函数和函数参数信息，并将映射后的功能函数和函数参数信息作为映射后的功能。

[0012] 优选地，对来自人机接口的回应信息进行VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放包括：将来自人机接口的回应信息转换为VoiceXML回应文档；提取VoiceXML回应文档中的语音信息，通过基于VoiceXML的语音合成合成为语音信息进行播放。

[0013] 根据本发明的另一方面，还提供了一种移动终端。

[0014] 根据本发明的移动终端包括人机接口功能模块，并且，该移动终端还包括：交互功能界面模块，用于将接收的语音信息转换为VoiceXML文档，并将VoiceXML回应文档的转换结果通过相应的语音信息进行播放；功能映射模块，用于根据预先配置的VoiceXML文档框架解析VoiceXML文档，查找VoiceXML文档对应的语音信息需要实现的功能信息，将查找到的功能信息映射为人机接口功能模块的具体功能对应的功能，并将映射后的功能通知给人机接口功能模块，还用于对来自人机接口功能模块的回应信息进行VoiceXML回应文档转换处理，并将转换结果发送至交互功能界面模块。

[0015] 优选地，交互功能界面模块包括：交互界面，用于接收来自用户的语音信息，将该语音信息发送至语音识别模块，并播放来自语音合成模块的语音信息；语音识别模块，用于通过基于VoiceXML的语音识别提取来自交互界面的语音信息，并转换为对应的文本信息，将对应的文本信息组合为VoiceXML文档；语音合成模块，用于提取来自功能映射模块的VoiceXML回应文档中的语音信息，通过基于VoiceXML的语音合成合成语音信息。

[0016] 优选地，功能映射模块包括：配置模块，用于配置VoiceXML文档框架，其中，VoiceXML文档框架中包括至少一个功能信息以及对应的VoiceXML文档；VoiceXML解析器，用于确定来自语音识别模块的VoiceXML文档的关键节点，在VoiceXML文档框架中查找相应的关键节点，并将查找到的关键节点对应的有效数据作为语音信息需要实现的功能信息，还用于将来自功能交互模块的回应信息进行VoiceXML回应文档转换处理；功能交互模块，用于将查找到的功能信息映射为人机接口功能模块对应的功能，将映射后的功能通知给人机接口功能模块，并接收来自人机接口功能模块的回应信息。

[0017] 优选地，功能交互模块映射的人机接口功能模块对应的功能，为人机接口功能模块能够执行的相应功能函数和函数参数信息。

[0018] 借助于本发明的上述技术方案，通过在移动终端的软件MMI层增加交互功能界面模块和功能映射模块，解决了相关技术中语音交互技术智能性差且不能够跨平台移植的问题，能够实现高智能化的复杂语音交互，并且，根据本发明实施例的技术方案适用于多种平台，提高了语音交互的可移植性。

附图说明

[0019] 此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

[0020] 图1是根据本发明实施例的移动终端的框图；

[0021] 图2是根据本发明实施例的一个优选结构的框图；

[0022] 图3是根据本发明实施例的另一优选结构的框图；

[0023] 图4是根据本发明实施例的基于VoiceXML的移动终端语音交互方法的流程图；

[0024] 图5是根据本发明实施例的基于VoiceXML的移动终端语音交互方法的优选处理方案的流程图。

具体实施方式

[0025] 功能概述

[0026] 本发明的主要思想是：将接收的语音信息转换为VoiceXML文档，根据预先配置的VoiceXML文档框架解析VoiceXML文档，查找VoiceXML文档对应的语音信息需要实现的功能信息；将查找到的功能信息映射为人机接口的具体功能对应的功能，并将映射后的功能通知给人机接口；对来自人机接口的回应信息进行VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放。通过本发明，能够实现高智能化的复杂语音交互，并且，根据本发明实施例的技术方案适用于多种平台，提高了语音交互的可移植性。

[0027] 以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。如果不冲突，本发明实施例及实施例中特征可以相互组合。

[0028] 装置实施例

[0029] 根据本发明实施例，提供了一种移动终端。

[0030] 图1是根据本发明实施例的移动终端的框图。如图1所示，该移动终端包括：交互功能界面模块10和功能映射模块20。

[0031] 下面详细描述移动终端中各个模块的功能。

[0032] 交互功能界面模块10，用于将接收的语音信息转换为VoiceXML文档，并将VoiceXML回应文档的转换结果通过相应的语音信息进行播放；

[0033] 功能映射模块20，连接至交互功能界面模块10，用于根据预先配置的VoiceXML文档框架解析VoiceXML文档，查找VoiceXML文档对应的语音信息需要实现的功能信息，将查找到的功能信息映射为人机接口功能模块的具体功能对应的功能，并将映射后的功能通知给人机接口功能模块，还用于对来自人机接口功能模块的回应信息进行VoiceXML回应文档转换处理，并将转换结果发送至交互功能界面模块。

[0034] 图2示出了根据本发明实施例的交互功能界面模块10和功能映射模块20在移动终端中的相应位置，如图2所示，移动终端的人机接口(Man Machine Interface，简称为MMI)层包括MMI功能模块，根据本发明实施例，在移动终端的MMI层增加了交互功能界面模块10和功能映射模块20。

[0035] 图3是根据本发明实施例的另一优选结构的框图。如图3所示，在图1所示结构的基础上，根据本发明实施例的交互功能界面模块10进一步包括：交互界面110，语音识别模块120，语音合成模块130，其中：

[0036] 交互界面110，用于接收来自用户的语音信息，将该语音信息发送至语音识别模块，并播放来自语音合成模块的语音信息；

[0037] 语音识别模块120，连接至交互界面110，用于通过基于VoiceXML的语音识别提取来自交互界面的语音信息中的识别的文本，将提取的述文本组合为VoiceXML文档；

[0038] 语音合成模块130，连接至交互界面110，用于提取来自功能映射模块的VoiceXML回应文档中的语音信息，通过基于VoiceXML的语音合成合成语音信息。

[0039] 并且，功能映射模块20进一步包括：配置模块210，VoiceXML解析器220，功能交互模块230，其中：

[0040] 配置模块210，用于配置VoiceXML文档框架，其中，VoiceXML文档框架中包括至少一个功能信息以及对应的VoiceXML文档；

[0041] VoiceXML解析器220，连接至配置模块210，用于确定来自语音识别模块的VoiceXML文档的关键节点，在VoiceXML文档框架中查找相应的关键节点，并将查找到的关键节点对应的有效数据作为语音信息需要实现的功能信息，还用于将来自功能交互模块的回应信息进行VoiceXML回应文档转换处理；

[0042] 功能交互模块230，连接至VoiceXML解析器220，用于将查找到的功能信息映射为MMI功能模块对应的功能，将映射后的功能通知给MMI功能模块，并接收来自MMI功能模块的回应信息。优选地，功能交互模块映射的MMI功能模块对应的功能，为MMI功能模块能够执行的相应功能函数和函数参数信息。

[0043] 根据本发明的上述实施例，通过在移动终端的MMI层增加交互功能界面模块和功能映射模块，实现了高智能化的复杂语音交互，能够实现正常的呼叫、发送短信、操作名片夹等操作功能；并且，根据本发明实施例提供的模块可以跨平台移植，语音交互开发人员只需编写各种各样的VoiceXML文档框架，就能实现不同的通信逻辑交互，提高了语音交互的可移植性。

[0044] 根据本发明的上述实施例，通过在移动终端增加交互功能界面模块和功能映射模块，实现了基于VoiceXML的人机交互，能够提高语音交互的智能化以及语音交互的可移植性。

[0045] 方法实施例

[0046] 图4是根据本发明实施例的基于VoiceXML的移动终端语音交互方法的流程图。该方法可以实现上述装置实施例所提供的移动终端。

[0047] 需要说明的是，在以下方法中描述的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在图4中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。如图4所示，该方法包括以下处理(步骤S402-步骤S406)：

[0048] 步骤S402，将接收的语音信息转换为VoiceXML文档，根据预先配置的VoiceXML文档框架解析VoiceXML文档，查找VoiceXML文档对应的语音信息需要实现的功能信息，其中，VoiceXML文档框架中包括至少一个功能信息以及对应的VoiceXML文档。

[0049] 通过基于VoiceXML的语音识别提取接收的语音信息中的识别的文本，将提取的文本组合为VoiceXML文档，确定VoiceXML文档的关键节点，在VoiceXML文档框架中查找相应的关键节点，并将查找到的关键节点对应的有效数据作为语音信息需要实现的功能信息。

[0050] 步骤S404，将查找到的功能信息映射为人机接口的具体功能对应的功能，并将映射后的功能通知给人机接口。

[0051] 将查找到的功能信息映射为人机接口能够执行的相应功能函数和函数参数信息，并将映射后的功能函数和函数参数信息作为映射后的功能。

[0052] 步骤S406，对来自人机接口的回应信息进行VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放。

[0053] 将映射后的功能通知给人机接口后，人机接口根据该功能进行相应的操作，可以通过交互界面显示操作的结果，之后，人机接口返回操作的回应信息，将该回应信息转换为VoiceXML回应文档，提取VoiceXML回应文档中的语音信息，通过基于VoiceXML的语音合成合成为语音信息进行播放。

[0054] 下面以按姓名拨号为例详细描述根据本发明实施例的技术方案。图5是根据本发明实施例的基于VoiceXML的移动终端语音交互方法的优选处理方案的流程图。如图5所示，具体包括以下步骤：

[0055] 步骤S502，移动终端已经正常开机，并进入待机状态，此时语音交互模块已经正常启动，等待用户“说出”需要的通讯功能。

[0056] 步骤S504，用户告诉移动终端对某个姓名拨号，MMI层交互界面模块获取话音提示，通过基于VoiceXML的语音识别提取识别的文本，组合成对应的VoiceXML文档。

[0057] 步骤S506，VoiceXML解析器解析该VoiceXML文档，根据预先配置的VoiceXML文档框架提取VoiceXML文档的实现功能信息，将VoiceXML文档框架中各节点对应功能，节点内信息对应操作的内容，作为一个整体的结构传递到功能交互模块。

[0058] 步骤S508，功能交互模块根据解析器传递过来的结构映射为对应的功能函数及函数入参信息；实现将具体功能映射到对应MMI功能实现模块，完成功能实现。

[0059] 步骤S510，MMI功能模块完成功能实现之后，发送回应给功能交互模块，功能交互模块打包为对应的回应结构，传递到解析器。

[0060] 步骤S512，解析器作为桥梁，将回应结构转换为VoiceXML格式的统一回应文档，传递到语音合成模块。

[0061] 步骤S514，语音合成模块根据VoiceXML文档的结构性特点，提取语音信息；将语音信息合成为语音(根据文档结构特点，可以进行相应的语音、语调及语速和停顿的处理，使交互更加流畅)，通过交互界面播放给用户，同时终端界面按功能显示相应状态。

[0062] 图5示出了根据本发明实施例的正常情况下的一次完整的语音交互操作。

[0063] 综上所述，借助于本发明的上述技术方案，通过在移动终端的软件MMI层增加交互功能界面模块和功能映射模块，能够实现高智能化的复杂语音交互，并且，根据本发明实施例的技术方案适用于多种平台，提高了语音交互的可移植性。

[0064] 显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

[0065] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。