用于语音门户服务器的方法和装置转让专利

申请号 : CN200610126533.X

文献号 : CN1937674B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马修·詹姆斯·庞斯福德戴维·西格·伦肖威廉·约翰·伊泽德戴尔·鲁滨逊·休伊特塞缪尔·乔纳森·史密斯

申请人 : 国际商业机器公司

摘要 :

本发明涉及一种用于服务于环球网门户应用的语音门户服务器的方法和装置。描述了为门户组件集合建立语音提示菜单的方法、系统和计算机程序产品,包括:获得门户组件列表;建立包括语音菜单项的语音菜单,以激活每个门户组件;获得包含定制信息的门户组件特征文件;以及利用门户组件特征文件中的定制信息调整语音菜单。本发明实施方式的特征是环球网门户组件可以针对语音聚集器考虑的事项例如在语音门户菜单的层次结构中针对其菜单项的位置处定义用户特性。

权利要求 :

1.一种为门户组件集合建立语音提示菜单的方法,包括:获得门户组件列表;

建立包括语音菜单项的语音菜单,以激活每个所述门户组件;

获得包含定制信息的门户组件特征文件,其中所述门户组件特征文件限定了聚集器将在语音菜单聚集中遵循并使用的特性列表;以及利用所述门户组件特征文件中的所述定制信息调整所述语音菜单。

2.根据权利要求1的方法,其中所述调整步骤增加用于激活门户组件内功能的语音菜单项。

3.根据权利要求1的方法,其中所述定制信息定义所述语音菜单中菜单项的位置。

4.根据权利要求1、2或3的方法,其中所述调整步骤将用于激活特定菜单项的缺省DTMF键替代为所述特征文件中指定的DTMF键。

5.根据前述任一权利要求的方法,其中所述调整步骤向所述语音菜单增加语音识别语法词语。

6.一种为门户组件集合建立语音提示菜单的系统,包括:门户组件控制器,用于获得门户组件列表并获得包含定制信息的门户组件特征文件,其中所述门户组件特征文件限定了聚集器将在语音菜单聚集中遵循并使用的特性列表;

语音菜单建立器,用于建立包括语音菜单项的语音菜单,以激活每个所述门户组件;以及剖析器,用于利用所述门户组件特征文件中的所述定制信息调整所述语音菜单。

7.根据权利要求6的系统,其中所述剖析器增加用于激活门户组件内功能的语音菜单项。

8.根据权利要求7的系统,其中所述剖析器向所述语音菜单增加所述语音菜单项以作为另一选项。

9.根据权利要求6、7或8的系统,其中所述剖析器将用于激活特定菜单项的缺省DTMF键替代为所述特征文件中指定的DTMF键。

10.根据权利要求6-9中任一项的系统,其中所述剖析器向所述语音菜单增加语音识别语法词语。

说明书 :

技术领域

本发明涉及用于语音门户服务器的方法和装置。其特别涉及服务于环球网门户应用的语音门户服务器的方法和装置。

背景技术

许多移动的雇员在汽车内或者诸如下列其他地点花费了相当多的时间,在上述地点语音电话(有线的或者蜂窝的)是唯一可行的通信手段和唯一的访问远程信息源的方法。随着越来越多的工作必须对商务应用进行自助访问,自动语音访问成为关键之需。据估计,大约一半的蜂窝电话呼叫来源于汽车。对于职业劳动者中的相当一部分来说,移动电话已经开发了每周上下班交通时间的数个小时以用于高效的商务目的。提供电话访问的公司相对于那些没有提供电话访问的公司获得了竞争的优势。当新的移动计算设备提供远程访问时,它们小的可视化显示器和受限的输入能力常常会带来令人沮丧和厌烦的体验。例如,利用语音从长列表或菜单中进行项目的选择就要高效得多,其简化了诸如在地址簿中查找姓名、在日历中选择日期或查找具有特定主题行的记录的动作。
有些具有残疾的雇员无法使用可视化界面的设备,而另一些雇员无法使用依赖完好的手控制的输入设备。对于这些个人,语音访问不仅具有竞争优势;它还是完成他们的工作的基本需要。如果语音访问不仅是支持语音可视化界面;它就需要对用于谈话交互的应用进行根本上的重新设计。
语音界面的主要障碍是计算机生成的语音具有不自然和难于理解的性质。近来在文本到话音连接技术的利用中的突破已经消除了这种限制并使得语音质量可以与人类的话音相比。话音识别的准确性也继续得到改进,使得日常生活中成百万的人们使用他们的语音通过说出一个人的名称来“拨打”电话号码、管理他们的投资证券,以及访问天气信息、体育比分或者其他信息。除了技术上的改进,对交谈对话设计的持续细化也带来了比早期语音激活系统所提供的体验高效得多并且愉快得多的用户体验。硬件上的进步也使得能够部署对大量同时的呼叫者的自动支持而无需大量资本的投入。特别是CPU处理能力、存储器和电话接口卡的成本已经通过摩尔定律的法则大大降低。
接着出现的最重要的一部分是VoiceXML的可利用性,VoiceXML是由所有主要的话音技术提供者支持的基于开放标准的语音应用设计协议。该标准被设计为允许语音应用在所有企业质量的计算机硬件和操作系统平台上运行。这些公司能够确信它们在VoiceXML应用基础架构上的投资不会将它们锁定到对于关键系统组件的单一提供商。语音应用开发通常需要各种技能、知识和编程技术,包括:专用集成语音响应(IVR)应用开发环境;专用IVR环境和中间件应用之间的接口连接;利用话音识别和话音合成技术;谈话设计以及中间件设计。
特别将VoiceXML引入用于消除对私有IVR应用设计环境的需要,以便利用环球网应用设计的基于视图和表单(view-and-form)的模型而自动提供中间件的集成,并创建到话音识别和话音合成技术的标准接口。VoiceXML使得语音应用服务器能够以与环球网应用服务器集成HTML接口能力相同的方式集成语音接口能力。该协议利用在全部访问形态中可共享的通用组件提供模块化的应用设计环境。
不仅仅是语音技术得到了发展,环球网门户形式的用户界面技术也得到了发展。门户用作为针对数个环球网应用的简单的、同步统一的访问点。门户提供了一种运行时间平台和工具,它们给出多页面间一致的展示视图、对访问应用的导航控制以及个性化的选择和用户定制内容。IBM WebSphere门户服务器基础架构通过提供以下功能完成上述这些:提供对全体范围内的用户、设备和用户定制选项的信息进行访问;整合商务流程并使其自动化;建立、连接并管理应用。提供广泛存在的门户是新一代应用的一部分,新一代应用被设计用于从各种远程访问设备中获得信息并执行事务。此外,门户平台理想地用于通过通用个性化存储并共享的商务逻辑支持语音和可视化访问。
大多数现有的自动的语音方案都是利用与到后端商务逻辑和数据的客户界面相结合的私有语音应用环境创建的。这些客户界面难以与常规的GUI环球网访问方案相集成。然而,IBM WebSphere语音应用访问(WVAA)将IBM WebSphere门户服务器的模块化应用设计与VoiceXML相结合,以便将语音访问添加到由WebSphere门户服务器支持的其他形态中。通过建立在VoiceXML之上,不仅语音应用开发者不断扩大的社区可以直接操控WVAA平台,而且平台客户也应该能够在指引话音识别和文本到话音提供之间进行选择。
语音界面,如利用WVAA提供的那些语音界面和门户中纯可视化环球网应用相比具有显著的优势。图形用户界面(GUI)趋向于在每一屏上具有大量能够饱和用户的文本。相对于写出的指令,大多数人都会更容易地遵循所说的对话。也许最大的优势是对话焦点——通过一步一步地谈话提示引导用户。另一方面,在自然的谈话中,人们可以以各种方式回答即使是非常简单的问题,经常超出问题的范围之外。例如,他们可以回答问题并然后解释他们的答案。设计一个自动系统,使之能够“理解”这些任意的输入中的大部分通常是相当复杂和不可行的。因此,重要的是引导人们所说的输入,使之与计算机语音识别强度相匹配。
基于多个应用部署的体验,为电话访问所设计的语音界面在过去的数年间已经有了显著的发展。所获得的最重要的方面中的一些包括:谈话流必须是高效的、一致的和直观的。使用自信分值避免确认每个条目;确认导航命令在门户中的所有应用中一致;谈话流应该对大多数用户都是“有意义的”。提示必须经过仔细推敲,短而明确。大多数用户都应该清楚到底要对系统说什么。帮助提示必须短。对于每个提示,用户可以简单地不必记住比一条信息还多得多的信息。该系统应该在适当的时候向用户“披露自己”。可以在谈话陷于困境时使用依赖于上下文的帮助,并在事情顺利时提供快捷方式以帮助用户逐渐掌握系统。
可视化和语音界面之间的另一不同是门户导航。可视化门户设计是基于在一个单独的可看见的页面中展示顶级视图的概念,但大多数用户并不关心页面上的组件来自不同的门户组件。可视化门户组件的导航问题是寻找包含正确应用的页面。为了支持大量应用,门户可以将相似的页面划分为一个页面组。这些可视化概念对于语音界面没有用。尽管这里会有些重叠,例如主要的类型在可视化和语音之间可以是相同的,语音的导航菜单结构很可能非常不同,这是出于以下几点原因:会存在一些只能是可视化的门户组件和一些只能是语音的门户组件;应用可以被放在页面上,因为它们可视化地放在一起很适合,而在语音菜单中不同的组织将更具有意义;并且许多语音目标可以作为快捷方式而不是普通菜单选择实现,以便将提示保持为短提示。换句话说,语音界面决不仅仅是可视化界面简单的语音支持。
语音应用的大多数都将是指导性对话设计,因为这些创建起来最简单,并且在很多情况下也是最易于使用的。自动系统控制指导性的对话设计,提供一组特定的选择。这一范例(也已知为系统主动(systeminitiative))对于用户是最易学的,但是对于复杂的应用,它可能是低效的和令人厌烦的。混合主动对话设计允许系统和用户在适当时对对话进行控制。因为大多数语音访问应用都将是指导性对话,因此IBMWebSphere语音应用访问为指导性对话应用提供了高级应用设计环境。重点放在利用针对谈话对话的最佳实现促使迭代实现、调试和加强设计的工具上。
图1示出环球网浏览器提供的示例性环球网门户20,在该门户的页面1上具有两个门户组件24和26。环球网聚集器提供标题行,左侧的页面菜单,为每个门户组件提供了标题栏(“皮肤”),并要求每个门户组件对自己进行呈现。没有选择页面2和3,则其以灰色显示。门户24是电子邮件门户,菜单项24A、24B和24C分别为“查电子邮件”、“写信”以及“移动到文件夹”。门户26是日历门户,菜单项26A、26B和26C分别包括“新条目”;“新环球网会议”以及“编辑”。图上可以看到其他菜单项,但并没有被引用。功能性的和示例性的语音应用门户组件可以在系统安装时包括进来或者通过下载获得。关键的功能性门户组件的例子是:对电子邮件和日历的Lotus Notes R5访问。其它门户组件的例子是对联系信息的Lotus Notes R5访问;以及Microsoft Exchange 2000的访问。
图2示出用于例如环球网门户20的各个单元的层次结构,环球网门户20具有图1中的页面1、2和3。页面1包括两个门户24和26。这两个门户包括至少三个菜单项24A、24B、24C和26A、26B、26C。其他门户组件27和28以及对应的菜单项没有详细示出,但是在许多组合中可以存在。现有的环球网门户的语音聚集将生成一个遵循相同层次结构的语音门户菜单,例如让电话用户首先选择门户页面1、2或3。在例如页面1被选择后,让用户其次选择门户组件21、22或23。之后,例如门户组件21被选择,让用户第三选择门户组件中的哪个菜单项,例如26A、26B或26C。在具有三个连续的菜单选择组的语音环境中,选择正确的菜单项十分令人厌烦。

发明内容

根据本发明的第一方面,提供了一种为门户组件的集合建立语音提示菜单的方法,其包括:获得门户组件的列表;建立包括语音菜单项的语音菜单以激活每个门户组件;获得包含定制信息的门户组件特征文件;以及利用门户组件特征文件中的定制信息调整语音菜单。
该实施方式的特征是环球网门户组件可以针对语音聚集器考虑的事项例如在语音门户菜单的层次结构中针对其菜单项的位置处定义用户特性。
该实施方式扩展了门户体系结构,允许门户组件限定影响整个页面如何呈现的特性。门户组件优选的特性列表被称为“门户组件特征文件”。视图聚集器基于门户组件优选的特性创建标记,并处理门户组件之间任何的冲突特性。
优选地,调整步骤增加了用于激活门户组件中的功能的语音菜单项。例如,门户组件包括菜单项的层次结构,在前建立的语音菜单可以包括所有门户组件的顶级菜单项列表,并且附加菜单项是用于一个或多个门户组件中处于较低级的菜单项。
有利地,向语音菜单增加语音菜单项的步骤向语音菜单增加了另一选项。另一可选方案是替代门户组件的选项,使得门户组件的顶级菜单不能再被访问。
适当地,调整步骤用特征文件中指定的DTMF键替代了用于激活特定的菜单项的缺省DTMF键。该调整步骤可以向语音菜单增加语音识别语法词语。

附图说明

现在将参照附图仅以示例的方式描述本发明的实施方式。在附图中:
图1示出来自示例门户的环球网浏览器生成的环球网门户页面,其包括两个门户组件;
图2示出示例环球网门户中单元的层次结构;
图3是包括语音门户服务器的本发明优选实施方式的装置的示意图;以及
图4是优选实施方式的方法的更详细系统图。

具体实施方式

图3示出优选实施方式的主要组件,包括:语音门户服务器10、语音服务器12、电话服务器14和电话16。HTTP VoiceXML标记1l被传送到包括VoiceXML浏览器和基础自动话音识别和文本到话音(ASR/TTS 62)技术的语音服务器12。话音服务器12是基于IBM语音服务器5.0版本的。电话服务器14(基于IBM WebSphere语音响应3.1版本(WVR))通过电话网络18提供与用户电话16的连通性。电话网络18是PSTN或VoIP。
语音门户服务器10是基于IBM WebSphere语音应用访问2.0版本(WVAA)的。语音门户服务器10包括:门户组件24、26、27、28和语音聚集器46。门户组件传送VoiceXML标记,并且语音聚集器合并来自所有的门户组件的VoiceXML标记并且创建包括对全局主菜单的支持的单独的完整VoiceXML文档。门户组件24、26和27具有相关联的portlet.xml文件54A、54B和54C以及特征文件56A、56B和56C,所有的文件都包含在语音应用服务器10内的门户组件容器58中。
门户服务器是可以将由数个小应用(门户组件)产生的内容聚集到一个单独的视图中的应用服务器。语音门户服务器将内容聚集到一个单独的语音表现中。在门户服务器内部,门户组件容器控制每个门户组件的生命周期。门户组件可以被放置在页面上。可以赋予用户对页面和门户组件的访问许可。门户组件容器确保页面和门户组件仅对于那些具有正确的许可的用户是可访问的。
标准门户组件规范(JSR168)已经说明,每个门户组件具有称为portlet.xml的部署描述符文件(见54A、54B和54C)。这些文件向门户组件容器提供了有关门户组件的信息,如:门户组件类型名称、门户组件标题,以及所支持的模式。该实施方式引入了语音门户的另一资源,“门户组件特征文件”(profile.xml),其向聚集器提供了有关门户组件的信息。门户组件特征文件限定了聚集器将在语音菜单聚集中遵循并使用的特性列表。该聚集器将根据这些特性改变其输出。
聚集器46是负责基于页面和门户组件呈现单独门户语音界面的组件。不同的聚集器可以为不同的标记话言(例如html、wml、vxml)呈现视图。语音聚集器46是运行时间模块,其使得当前用户可以支持语音应用并实现了导航到特定应用所需的语音菜单。在该实施方式中,语音聚集器46包括:特征文件控制器48、VoiceXML建立器50和剖析器(profiler)52。
特征文件控制器48获取对于每个门户组件的特征文件信息。
VoiceXML建立器50针对每个门户组件定义缺省值并生成缺省VoiceXML。
剖析器52根据由特征文件控制器48获得的特征文件中的信息调整缺省VoiceXML应用。
语音服务器12包括:浏览器60;自动话音识别(ASR)62和文本到话音引擎(TTS)63。语音服务器12通过电话服务器14连接到用户电话66。
电话服务器14提供连接到电话网络(如PSDN或VoIP)的技术,并基于根据IBM WebSphere语音响应3.1版本的电话接口。
VoiceXML标记由聚集器46利用标准HTTP连接发送到顺应性VoiceXML浏览器60。VoiceXML浏览器60与ASR 62/TTS 63一起工作以便解释话音输入,并生成语音输出。浏览器60也可以接受DTMF(电话小键盘)作为输入,并使用预先录制的音频文件作为输出。为了解释语音输入,ASR 62使用标识可识别词语的活跃的词汇。这些词汇还限定了允许的词语序列;词汇和特定词语排序的组合被称为话音识别语法。语法中的每个词语通过拼写表示,但它实际为ASR 62所使用的词语的读音。尽管ASR 62和TTS 63话音技术具有词语读音的大词典,但是应用会经常使用该词典之外的词语或缩写,这就需要对新读音进行定义。
通过缺省值,聚集器46使用门户组件的标题作为激活语法。在本实施方式中,语音门户聚集器支持由每个门户组件的特征文件所包含的“激活语法”特性。激活语法限定用户可以说什么来激活门户组件。除了接受缺省以外,电子邮件门户组件可以限定其激活语法为“消息”或“邮件”。聚集器将使得这些存储在每个门户组件的特征文件中的语法能够激活电子邮件门户组件。
需要工具促成建立语法和读音,并创建良好质量的谈话呼叫流。语音工具包70是基于IBM语音应用访问工具包70的。语音工具包70是用于创建并调试语音聚集、语音门户组件并且用于定制WVS话音技术的工具的集合。
图4利用正在进行的例子示出了聚集器的方法。
在步骤101,聚集器46获取待聚集的门户组件,并取回任何相关联的特征文件56A和56B。在此情况下,取回了电子邮件门户组件24和日历门户组件26。取回了电子邮件门户组件特征文件56A(在此例中,日历门户组件特征文件被视为空)。
电子邮件门户组件特征文件56A识别由标志“menu.email”指定的缺省顶级菜单项24,并将两个偏好与该菜单项相关联。第一偏好是将顶级菜单项与DTMF键“3”而不是缺省DTMF键相关联。第二偏好是将附加语法“消息”与顶层菜单项相关联。
电子邮件门户组件特征文件56A还识别由标志“menu.email.get_email”指定的顶级菜单之下的菜单项24A,并将两个偏好与该菜单项相关联。第一偏好是将菜单项24A与DTMF键“4”而不是缺省DTMF键相关联。第二偏好是将语法“获取邮件”与该菜单项相关联。注意从名称“获取邮件”得到的缺省语法与特征文件语法“获取邮件”之间的区别。
在步骤102,聚集器基于门户信息建立缺省VoiceXML菜单110。在本例中,缺省VoiceXML菜单110以表格形式示出而不是纯XML。聚集器46选择第一门户,在本例中是电子邮件门户44A,并向顶级菜单项24分配第一DTMF键,在本例中是“1”。聚集器46进一步将由名称确定的语法分配给菜单项24,在本例中为“电子邮件”。聚集器46之后选择第二门户,在本例中为日历门户44B,向顶级菜单项26分配第二DTMF键,在本例中为“2”。聚集器46进一步将由名称确定的语法分配给菜单项26,在本例中为“日历”。
在步骤103,聚集器将特征文件56A与缺省VoiceXML菜单110合并以便创建所剖析的VoiceXML菜单120。对于菜单项24,缺省DTMF键“1”变为所剖析的DTMF键“3”并将“消息”加入到语法中。菜单项26没有变化。具有标志为“menu.email.get_email”的附加菜单项24A被加入菜单120,并给出与名称对应的一个缺省DTMF键4(下一可用键)和一个缺省语法“获取电子邮件”。根据特征文件,增加另一语法“获取邮件”。
将出现这样的情况,网页上的两个门户组件具有相互冲突的特征文件特性。例如:两个语音门户组件都需要“3”的热键特性,两者都希望通过dtmf键3来激活。在此情况下,优先权根据环球网页上门户组件的位置确定。优先权从左至右,而后从上到下进行。
在本实施方式中,由特征文件已修改的或添加的门户组件特性包括DTMF热键,激活语法以及菜单项的层次结构。可以修改或增加其他特性,诸如菜单项结束的顺序。
本领域的技术人员将很清楚本发明的方法可以适当地实现为不同于图3中示出的逻辑安排。
本领域的技术人员也将很清楚本发明的逻辑安排也可以适当地在如下逻辑装置中实现,该装置包括用于执行该方法的步骤的逻辑装置,这样的逻辑装置可以包括诸如在例如可编程逻辑阵列中的逻辑门之类的部件。这种逻辑安排可以进一步在如下使能装置中实现,该装置用于临时地或永久地在这种阵列中利用例如虚拟硬件描述符语言建立逻辑结构,其可利用固定的或可传输的承载介质进行存储。
将会理解,上述方法也适于在一个或多个处理器(未示出)上运行的软件中全部或部分地执行,并且该软件可以作为在任何适当的数据载体(未示出)(如磁或光计算机盘上)执行的计算机程序单元来提供。用于传输数据的信道也可以包括存储所有描述符的存储介质以及信号承载介质,如有线或无线信号介质。
本发明可以适当地实现为与计算机系统一起使用的计算机程序产品。这种实现可以包括一系列计算机可读指令,其或者固定在有形介质,如计算机可读介质(例如磁盘、CD-ROM、ROM或硬盘)上或者也可以经由调制解调器或其他接口设备通过有形介质(包括但不限于光或模拟通信线路)或无形地利用无线技术(包括但不限于微波、红外或其他传输技术)传输给计算机系统。这一系列计算机可读指令实现了这里前述的所有功能或部分功能。
本领域的技术人员将会理解,这种计算机可读指令可以写成多种编程语言,以用于利用多种计算机体系结构或操作系统的。此外,这些指令可以利用当前或将来的任何存储技术进行存储,或利用当前或将来的任何通信技术进行传输,上述存储技术包括但不限于半导体、磁或光技术,上述通信技术包括但不限于光、红外或微波技术。应当理解,这种计算机程序产品可以被发布为具有附带打印的或电子的文档的可移动介质(例如用收缩性薄膜包装的软件)、被预装载到计算机系统(例如,在系统ROM或固定盘上),或者经由网络(例如因特网或万维网)从服务器或者电子公告牌进行发布。
还应当理解,本发明的实施方式可以以代表客户部署的服务的形式进行提供,以提供随需服务。
还应当理解,上述优选实施方式的各种进一步修改对于本领域的技术人员将是明显的。