基于自然语言的人机对话系统转让专利

申请号 : CN200910040170.1

文献号 : CN101923539B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 谢明

申请人 : 珠海市智汽电子科技有限公司

摘要 :

本发明公开了基于自然语言的人机对话系统,包括基于特别设计的意义知识库(4),以及特别设计的自然语言文字学习和理解模块(5),提出一套完整的基于自然语言的人机对话智能技术和方案。本发明由以下几部分组成:语音感应器(1)、语音识别模块(3)、意义知识库(4)、自然语言文字学习和理解模块(5)、故事情节重构模块(6)以及故事描述和提问模块(7);它既提供了如何让机器理解自然语言的方法,又提供了如何让机器表述知识和存贮知识的设计蓝图;基于本发明开发设计的产品,可以实现人与汽车、人与机器人、人与手机以及人与计算机的对话和交谈。

权利要求 :

1.一种基于自然语言的人机对话系统,其特征是:所述人机对话系统包括语音识别模块(3)、意义知识库(4)、自然语言文字学习和理解模块(5)、故事情节重构模块(6)以及故事描述和提问模块(7);

所述意义知识库(4)把外部世界分成物理世界和概念世界,其中,概念世界是对物理世界的一种描述或投影,这种描述或投影是通过任何一种自然语言来实现的;

所述自然语言文字学习和理解模块(5)包含对自然语言文字的认知和识别两个相辅相成的部分;它的认知部分主要基于学习,它对自然语言文字的学习既包含对文字的概念知识的学习,同时也包含对文字所指的物理知识的学习;

所述故事情节重构模块(6)首先读取自然语言文字学习和理解模块(5)中的识别句子(31)输出;然后,它根据识别句子的物理知识,提取有关地点、时间、人物、物件和原因的故事要素;

所述故事描述和提问模块(7)的输入来自两个渠道,一是故事情节重构模块(6)中的故事要素,根据这些故事要素,本模块重述听懂的故事,或对不明白之处提问;二是机器自身产生的故事要素,它包括机器自身的视觉系统所看到的场景和其中的故事要素;在这种情况下,本模块自述故事,或对不明白之处提问;本模块首先以适当的方式,把故事要素转换成概念世界中的相对应单字和词组。

2.根据权利要求1所述的基于自然语言的人机对话系统,其特征是:所述意义知识库(4)由物理知识和概念知识两大类组成;根据这个设计方案,知识库(4)中的每个自然实物(8)都由一对物理实体(9)和单字实体(10)构成;物理实体(9)的意义指物理特征(11)和物理约束(12);单字实体(10)的意义指单字特征(14)和单字约束(13);它们用计算机编程语言的类来实现。

3.根据权利要求2所述的基于自然语言的人机对话系统,其特征是:所述每个实体的物理知识由基础知识构成,基础知识的有机结合构成物理世界的综合知识;其中,每个物理实体(9)由该物理实体的物理特征(11)和它的物理约束(12)构成,它们定义了一个物理实体(9)的基础知识;

所述物理实体的物理特征(11)包括尺寸、形状、体状、质量、硬度、传导性;它们用适当的数据结构来实现;所述物理实体的物理约束(12)包括运动约束、动力约束、电力约束、化学约束、热力约束;它们用适当的方程和函数来实现;

所述物理世界的综合知识由以下设计的关系矩阵构成:

(a)实体关系矩阵(15),它是一个三维矩阵T(oi,oj,fk),该矩阵描述一对实体oi和实体oj在特征关系fk下的逻辑值或一般函数;特征关系fk包括前后关系,左右关系,上下关系,内外关系,远近关系,大小关系,主次关系,轻重关系,冷热关系,色彩关系,明暗关系;

(b)行为关系矩阵(16),它是一个三维矩阵A(oi,oj,ck),该矩阵描述一对实体oi和实体oj在约束关系ck下的逻辑值或时间函数;同时,它描述一对实体oi和实体oj的一种互动作用或基本行为;约束关系ck包括运动约束,动力约束,电力约束,化学约束,热力约束;因此,一对实体(oi,oj)对应于每个约束关系ck的互动作用组合A(oi,oj,ck),就代表这对实体可能产生的所有基本行为;

(c)事件关系矩阵(17)描述一个事件,它概括一组相关的基本行为或综合行为,它用一个三维矩阵B(ai,aj,rk)来实现,该矩阵描述一对基本行为(ai,aj)在原因关系rk下的逻辑约束;原因关系rk包括习惯取向,价值取向,期望取向,常识取向,信仰取向;逻辑约束B(ai,aj,rk)的选项包括:如果-则,如果-则不,如果-可能,同时发生;因此,基于每个基本行为ai和对应于所有原因关系rk的组合B(ai,aj,rk),就代表一种与基本行为ai有关的事件或综合行为;

(d)情节关系矩阵(18)描述一个情节,它由一组相关的综合行为组成,它用一个三维矩阵E(bi,bj,rk)来描述,该矩阵表示综合行为bi和综合行为bj在原因关系rk下的逻辑约束;

原因关系rk包括习惯取向,价值取向,期望取向,常识取向,信仰取向;逻辑约束E(bi,bj,rk)的选项包括:如果-则,如果-则不,如果-可能,同时发生;因此,基于每个综合行为bi和对应于所有原因关系rk的组合E(bi,bj,rk)就代表一种与综合行为bi有关的情节;

(e)故事关系矩阵(19)描述一个故事,它由一组相关的情节组成,同样地,它用一个三维矩阵S(ei,ej,rk)来描述,该矩阵表示情节ei和情节ej在原因关系rk下的逻辑约束;原因关系rk包括习惯取向,价值取向,期望取向,常识取向,信仰取向;逻辑约束S(ei,ej,rk)的选项包括:如果-则,如果-则不,如果-可能,同时发生;因此,基于每个情节ei和对应于所有原因关系rk的组合S(ei,ej,rk)就代表一种与情节ei有关的故事。

4.根据权利要求2所述的基于自然语言的人机对话系统,其特征是:所述每个单字实体(10)的设计,包含了该单字实体的特征(14)和它的约束(13);它们定义了关于一个单字实体(10)的基础知识,基础知识的有机结合构成概念世界的综合知识;单字特征(14)包括任何一种自然语言中一个单字的属性,属性包括:名词,动词,形容词,介词;它们用适当的数据结构来实现;单字约束(13)包括任何一种自然语言的语法,语法包括:名词前加形容词,名词后带动词;单字特征(14)和单字约束(13)用适当的表格来实现;

所述概念世界的综合知识由以下设计的关系矩阵构成:

(a)单字关系矩阵(20),在任何一种自然语言中,单字之间的有机结合构成了词组;这种有机结合的约束来自物理世界和概念世界;这种约束关系用单词关系矩阵(20)来表示;

它是一个三维矩阵Q(wi,wj,wck),该矩阵表示单字wi和单字wj在约束wck下构成的关系,该关系定义一个词组;单字间的约束wck包括:形容词-名词,名词-动词,介词-名词,动名词-名词;因此,基于单字wi和对应于所有约束关系wck的组合Q(wi,wj,wck)就代表所有与单字wi有关的词组;因此,所述概念世界中的每个单字,对应于物理世界中的实物的物理特征或约束;所述概念世界中的词组,对应于物理世界中的基本行为;

(b)词组关系矩阵(21)描述词组的属性,它决定了词组间的前后排列顺序关系,这种排列关系用三维矩阵M(qi,qj,qck)来实现,该矩阵表示词组qi和词组qj在约束qck的排列顺序;约束qck包括:左右顺排列和左右逆排列;以词组qi为中心,所有左侧的左右逆排列和所有右侧的左右顺排列的任何一个组合定义了一个与词组qi有关的句子;因此,概念世界中的每个句子,对应于物理世界中的一种行为;

(c)句子关系矩阵(22)描述句子之间有序地排列;这种排列顺序背后也存在一种约束;这种句子之间的约束关系用三维矩阵N(mi,mj,mck)来实现,该矩阵表示句子mi和句子mj在约束mck下的排列关系;约束mck包括:前因-后果,假设-结果,列举,切换,互补;任选一个关健单字为输入,首先找出所有与它相关的词组;然后,针对每一个词组找出所有与它相关的句子;最后,在所有约束mck下,这些句子的所有排列组合就定义了与该关健单字有关的段落;因此,概念世界中的每个段落,对应于物理世界中的一种事件;

(d)段落关系矩阵(23)描述段落之间也存在着有序的排列关系,它也用三维矩阵Y(ni,nj,yck)来实现,该矩阵表示段落ni和段落nj在约束yck下的排列关系;约束yck包括:逻辑与,逻辑和,逻辑否,时间先后,数量列举,空间列举,互补;因此,基于段落ni和对应于所有约束关系yck的组合Y(ni,nj,yck)就代表所有与段落ni有关的章节;同时,概念世界中的每个章节,对应于物理世界中的一种情节;

(e)章节关系矩阵(24)描述章节之间也存在着有序的排列关系,它用三维矩阵Z(yi,yj,zck)来实现,该矩阵表示章节yi和章节yj在约束zck下的排列关系;约束zck包括:逻辑与,逻辑和,逻辑否,时间先后,数量列举,空间列举,互补;因此,基于章节yi和对应于所有约束关系zck的组合Z(yi,yj,zck)就代表所有与章节yi有关的文章;同时,概念世界中的每个文章,对应于物理世界中的一个故事。

5.根据权利要求1所述的基于自然语言的人机对话系统,其特征是:所述自然语言文字学习和理解模块(5)中的识别部分主要由句子分割模块(28)、合成句子模块(30)和识别句子(31)三功能块组成;识别部分的输出是与意义知识库(4)相容的有物理意义的句子。

6.根据权利要求5所述的基于自然语言的人机对话系统,其特征是:所述对自然语言文字的识别主要基于合成与匹配的原理;该原理的具体实现由下列功能模块的组合来完成:(a)单字分割模块(25),本模块的输入来自所述语音识别模块(3),在输入字符中,它找出空格间的字符串,对某些自然语言,一个字符就对应一个单字;然后,它将每个字符串和意义知识库中的单字匹配,匹配成功,就输出一个分割好的单字到下一模块(26),否则,它进行学习一个新的单字(27);

(b)识别已知单字模块(26),根据输入的每一个单字,它找出意义知识库中的匹配的单字;然后,它提取该单字所指的所有物理意义和所有概念意义;

(c)句子分割模块(28),根据一串输入单字,它确定一个句子的开头和结尾,并将一串输入单字分割成一组句子;在简单会话的情形下,一串输入单字中只含一个完整的句子;

(d)合成词组模块(29),它的输入是对应于一个句子的一串单字;它根据单字的约束,形成所有可能的词组组合;

(e)合成句子模块(30),它的输入来自合成词组模块(29),它根据词组的约束,形成所有可能的句子;然后,它把不符合物理意义的句子删除掉,剩下的是一组完整的和有物理意义的句子;

(f)识别句子模块(31),它的输入来自合成句子模块(30)和句子分割模块(28);句子分割模块(28)输出听到的句子;合成句子模块(30)输出合成的句子;然后,把听到的句子和合成的句子进行匹配,最佳匹配结果就是识别出的句子。

7.根据权利要求5所述的基于自然语言的人机对话系统,其特征是:所述对自然语言文字的认知,既包含学习概念知识模块(32),也包括学习物理知识模块(36);它的作用是通过对话的形式获取一个新单字或单词的概念知识以及该单字或单词所指的物理知识;为不失一般性,对自然语言文字的认知,通过按一定方式设计的图形界面来获取;

所述学习概念知识模块(32)通过对话的形式,由以下功能模块的组合来实现:

(a)概念知识提问合成模块(33),它首先提问,针对单字或单词,它根据一种自然语言的特性,预编好一系列提问;根据学习到的特征自动确定一个新单字的约束,所述约束包括:名词前加冠词,名词后带动词;任何一个单词都包含有前置词约束和后置词约束;

(b)提问和语音合成模块(35),它的输入来自概念知识提问合成模块(33),它通过商用语音合成器把提问的文字符号转成音频信号;

(c)语音识别模块(3),交流对象(2)听到提问后,做出相应的回答;交流对象(2)的回答包括:新单词的特征,新单词的常用案例;然后,该模块对交流对象(2)的音频信号进行识别,得到的输出是理解了的回答;

(d)概念知识回答识别模块(34),它的输入来自语音识别模块(3),它从理解了的回答中,提取出关于一个新单字的特征,以及常用的使用案例;并把这些概念知识存贮到适当的数据结构中;

所述学习物理知识模块(36)通过对话的形式,由以下功能的组合来实现:

(e)物理知识提问合成模块(37),它首先提问,一个新单字泛指实体或符号;然后,针对实体,它预编好一系列与特征和约束有关的提问,它包括:体积?重量?物态?材料?颜色?用途?导电性?导热性?防水性?强度?硬度?气味?;

(f)提问和语音合成模块(35),它的输入来自物理知识提问合成模块(37),它通过商用语音器合成,把提问的文字符号转成音频信号;

(g)语音识别模块(3),交流对象(2)听到提问后,做出相应的回答;交流对象(2)的回答包括:新单词所指实体的特征,新单词所指实体的约束;然后,该模块对交流对象(2)的音频信号进行识别,得到的输出是理解了的回答;

(h)物理知识回答识别模块(38),它的输入来自语音识别模块(3),它从理解了的回答中,提取出关于一个新单字所指实体的物理特征和约束;并把这些物理知识,存贮到适当的数据结构中。

8.根据权利要求1所述的基于自然语言的人机对话系统,其特征是:所述故事情节重构模块(6)包括下列功能模块,

(a)地点重构模块(39)是把输入文字或听到的语言文字中的地点要素记录下来,并以适当的数据结构存贮;

(b)时间重构模块(40)是把输入文字或听到的语言文字中的时间点和时间段记录下来,并以适当的数据结构存贮;

(c)人物重构模块(41)是把输入文字或听到的语言文字中的人物记录下来,并以适当的数据结构存贮;

(d)物件重构模块(42)是把输入文字或听到的语言文字中的物体,物件和东西记录下来,并以适当的数据结构存贮;

(e)原因重构(43)模块是把输入文字或听到的语言文字中的前因后果关系记录下来,并以适当的数据结构存贮;前因后果关系包括:动作约束,行为约束,事件约束,和情节约束;

根据上述故事要素,故事情节重构模块(6)通过三维场景合成(44)和动画图像合成(45),把这些故事要素制成各个时间点的场景和图片;这些图片在时间段的合成,则形成动画;最后,它用商用软件工具,把动画转化成视频信号输出。

9.根据权利要求1所述的基于自然语言的人机对话系统,其特征是:所述故事描述和提问模块(7)包括下列功能模块,

(a)地点描述模块(46)是把故事要素中的地点要素以适当的数据结构存贮,然后,在意义知识库中,将每个地点要素的相对应单字和词组取出;地点要素包括:地上,天上,桌上,左边,右边,前方,后方;

(b)时间描述模块(47)是把故事要素中的时间点和时间段以适当的数据结构存贮,然后,在意义知识库中,将每个时间要素的相对应单字和词组取出;时间要素包括:某时,某日,某月,某年;

(c)人物描述模块(48)是把故事要素中的人物以适当的数据结构存贮,然后,在意义知识库中,将每个人物要素的相对应单字和词组取出;人物要素包括:某人,某飞禽,某走畜,某昆虫,某爬虫;

(d)物件描述模块(49)是把故事要素中的物件以适当的数据结构存贮,然后,在意义知识库中,将每个物件要素的相对应单字和词组取出;物件要素包括:桌子,椅子,杯子,汽车,水果,衣物,门窗,灯具,文具,书本,电器,工具;

(e)原因描述模块(50)是把故事要素中的前因后果以适当的数据结构存贮,然后,在意义知识库中,将每个原因要素的相对应单字和词组取出;原因要素包括:因为-所以,先-后,引发,导致;

根据上述故事要素,所述故事描述和提问模块(7)以适当的方式把故事要素转换成概念世界中的句子;首先,在同一时间点上,把人物和物件的空间关系用句子和段落表述出来,或根据人物和物件的空间关系进行提问;其次,在不同时间点上,把人物和物件的相互作用和行为用句子和段落表述出来,或根据人物和物件的相互作用和行为进行提问;最后,本模块通过商用语音合成器,把文字转换成音频信号输出,或通过显示和打印的方式输出文字。

说明书 :

基于自然语言的人机对话系统

技术领域

[0001] 本发明涉及基于自然语言的人机对话系统,尤其是一种实现机器对自然语言的理解,可用于实现人与汽车、人与机器人、人与手机以及人与计算机的对话和交谈。

背景技术

[0002] 当今社会己进入到了一个科技日新月异的时代。其中,一个最明显的标志是高科技产品大量涌入消费市场。它们为人们的工作,生活,交流,学习和交通带来了很大的便利和享受。另一方面,高科技产品的普及也为高科技产品自身的提升带来很大的挑战。其中,一大瓶颈是基于自然语言的人机对话。
[0003] 要实现基于自然语言的人机对话,有两大问题需要解决。一是把语音信号转换成文字符号;二是把文字符号转换成物理意义,即本发明所述的“知识”。目前,第一个问题己得到较好解决,它就是人们通常所说的语音识别技术。但是,当今的语音识别技术没有解决语言文字理解这个问题。现有的人机对话系统和信息搜索产品都使用查表算法。从根本上说,它们都没有解决机器对自然语言文字的理解。这一缺陷导致很多高科技产品,无法实现一些非常有用的功能。现列举如下例子:
[0004] 大家知道,汽车是大家喜爱的大众消费品。但是,汽车的功能主要局限在交通或代步工具,和娱乐两个方面。由于汽车自身不会使用自然语言和人交流,汽车作为移动信息平台的功能受到很大制约。
[0005] 其次,电脑也是非常普及的消费品,但是,电脑的消费群体要有一定的专业知识才能自如地使用电脑。由于人们还无法以对话的形式和电脑交流,这一局限使得电脑难在非专业人士中普及。例如,为了使用电脑开发运用软件,人们必需学会机器语言。这是因为世界上没有一台电脑能懂得人们日常用的自然语言,包括中文或英文。也就是说,人们还无法通过自然语言去告诉电脑要去做什么,或回答人们的提问。
[0006] 如今,手提数字电话的普及率非常高。手提电话把人们交流的时空大大地缩小了。但是,人们使用手提电话交流的前题是,双方要说同一种自然语言。这是因为,目前的手提电话不具备实时同步翻译自然语言的有效技术。这一技术瓶颈,限制了不同语种群体之间进行跨越时空的实时会话。
[0007] 展望未来,在日本等国家的推动下,家用机器人将成为普及率很高的消费品之一。为了实现这个商业目标,目前急待要解决的一大技术难题是,基于自然语言的人机对话。
至今,人们还没有找到解决这个难题的锁匙。

发明内容

[0008] 本发明的目的是提供一种可以用于实现人与汽车、人与机器人、人与手机以及人与计算机的对话和交谈,基于自然语言的人机对话系统,该系统包含系统硬件和系统软件两部分。
[0009] 本发明的目的是通过采用以下技术方案来实现的:
[0010] 基于自然语言的人机对话系统中的系统硬件包含依次连接的输入装置、中央处理器单元和输出装置;所述人机对话系统输入装置包括语音感应器;所述语音感应器可以将语音信号釆集并数字化;数字语言信号输入到中央处理器单元处理并被理解;所述中央处理器单元通过其专门设计的系统软件处理并理解数字语言信号后,将被理解的语言文字输出到输出装置,并由输出装置将被理解的语言文字以视频、音频或打印方式输出。
[0011] 基于自然语言的人机对话系统中的系统软件包括语音识别模块、意义知识库、自然语言文字学习和理解模块、故事情节重构模块以及故事描述和提问模块;
[0012] 作为本发明的优选技术方案,所述意义知识库把外部世界分成物理世界和概念世界,其中,概念世界是对物理世界的一种描述或投影,这种描述或投影是通过任何一种自然语言来实现的,在此定义的基础上,本发明中的意义知识库的设计包含物理知识和概念知识两大类;根据这个设计方案,知识库中的每个自然实物都由一对物理实体和单字实体构成;物理实体的意义指物理特征和物理约束;单字实体的意义指单字特征和单字约束;它们可以用计算机编程语言的类(即Class)来实现。
[0013] 作为本发明的优选技术方案,所述每个实体的物理知识由基础知识构成,基础知识的有机结合构成综合知识;按照所述每个物理实体的设计包含该物理实体的物理特征和它的物理约束,它们定义了一个物理实体的基础知识;所述物理特征包括尺寸、形状、体状、质量、硬度、传导性等等;它们可用适当的数据结构来实现;物理约束包括运动约束、动力约束、电力约束、化学约束、热力约束;它们可用适当的方程和函数来实现;
[0014] 按照本发明所述,物理世界的综合知识由以下设计的关系矩阵构成:
[0015] (a)实体关系矩阵,它是一个三维矩阵T(oi,oj,fk)。它描述一对实体oi和实体oj在特征关系fk下的逻辑值或一般函数;特征关系fk包括前后关系,左右关系,上下关系,内外关系,远近关系,大小关系,主次关系,轻重关系,冷热关系,色彩关系,明暗关系;
[0016] (b)行为关系矩阵,它是一个三维矩阵A(oi,oj,ck)。它描述一对实体oi和实体oj在约束关系ck下的逻辑值或时间函数,它描述一对实体oi和实体oj的一种互动作用或基本行为;约束关系ck包括运动约束,动力约束,电力约束,化学约束,热力约束;因此,一对实体oi和实体oj对应于每个约束关系ck的互动作用组合A(oi,oj,ck),就代表该对实体可能产生的所有基本行为;
[0017] (c)事件关系矩阵描述一个事件。它概括一组相关的基本行为或综合行为,它可用一个三维矩阵B(ai,aj,rk)来实现。该矩阵描述一对基本行为ai和基本行为aj在原因关系rk下的逻辑约束;原因关系rk包括习惯取向,价值取向,期望取向,常识取向,信仰取向;逻辑约束B(ai,aj,rk)的选项包括:如果-则,如果-则不,如果-可能,同时发生;因此,基于每个基本行为ai和对应于所有原因关系rk的组合B(ai,aj,rk),就代表一种与基本行为ai有关的事件或综合行为;
[0018] (d)情节关系矩阵描述一个情节。它由一组相关的综合行为组成,它也可以用一个三维矩阵E(bi,bj,rk)来描述。该矩阵表示综合行为bi和综合行为bj在原因关系rk下的逻辑约束;原因关系rk包括习惯取向,价值取向,期望取向,常识取向,信仰取向;逻辑约束E(bi,bj,rk)的选项包括:如果-则,如果-则不,如果-可能,同时发生;因此,基于每个综合行为bi和对应于所有原因关系rk的组合E(bi,bj,rk)就代表一种与综合行为bi有关的情节;
[0019] (e)故事关系矩阵描述一个故事。它由一组相关的情节组成。同样地,它可以用一个三维矩阵S(ei,ej,rk)来描述。该矩阵表示情节ei和情节ej在原因关系rk下的逻辑约束;原因关系rk包括习惯取向,价值取向,期望取向,常识取向,信仰取向;逻辑约束S(ei,ej,rk)的选项包括:如果-则,如果-则不,如果-可能,同时发生;因此,基于每个情节ei和对应于所有原因关系rk的组合S(ei,ej,rk)就代表一种与情节ei有关的故事。
[0020] 作为本发明的优选技术方案,所述每个单字可以是简单单字或复合单字;每个单字实体的设计,包含了该单字实体的特征和它的约束;它们定义了关于一个单字实体的基础知识,基础知识的有机结合构成综合知识;所述单字的特征包括任何一种自然语言中一个单字的属性;属性包括:名词,动词,形容词,介词;它们可以用适当的数据结构来实现;单字约束包括任何一种自然语言的语法,语法包括:名词前可以加形容词,名词后可以带动词;单字特征和单字约束可以用适当的表格来实现;
[0021] 按照本发明的描述,概念世界的综合知识由以下设计的关系矩阵构成:
[0022] (a)单字关系矩阵,在任何一种自然语言中,单字之间的有机结合构成了词组;这种有机结合的约束来自物理世界和概念世界;这种约束关系可以用单词关系矩阵来表示;它是一个三维矩阵Q(wi,wj,wck)。该矩阵表示单字wi和单字wj在约束wck下构成的关系,该关系定义一个词组;所述单字间的约束wck包括:形容词-名词,名词-动词,介词-名词,动名词-名词;因此,基于单字wi和对应于所有约束关系wck的组合Q(wi,wj,wck)就代表所有与单字wi有关的词组;所以,概念世界中的每个单字,对应于物理世界中的实物的物理特征或约来;概念世界中的词组,对应于物理世界中的基本行为;
[0023] (b)词组关系矩阵描述词组的属性。它决定了词组间的前后排列顺序关系;这种排列关系可用三维矩阵M(qi,qj,qck)来实现。该矩阵表示词组qi和词组qj在约束qck的排列顺序;约束qck包括:左右顺排列和左右逆排列;以词组qi为中心,所有左侧的左右逆排列和所有右侧的左右顺排列的任何一个组合定义了一个与词组qi有关的句子;因此,概念世界中的每个句子,对应于物理世界中的一种行为;
[0024] (c)句子关系矩阵描述句子之间可以有序地排列;这种排列顺序背后也存在一种约束;这种句子之间的约束关系可以用三维矩阵N(mi,mj,mck)来实现。该矩阵表示句子mi和句子mj在约束mck下的排列关系;约束mck包括:前因-后果,假设-结果,列举,切换,互补;因此,任选一个关健单字为输入,首先找出所有与它相关的词组;然后,针对每一个词组找出所有与它相关的句子;最后,在所有约束mck下,这些句子的所有排列组合就定义了与该关健单字有关的段落;同时,概念世界中的每个段落,对应于物理世界中的一种事件;
[0025] (d)段落关系矩阵描述段落之间也存在着有序的排列关系;它可以用三维矩阵Y(ni,nj,yck)来实现。该矩阵表示段落ni和段落nj在约束yck下的排列关系;约束yck包括:逻辑与,逻辑和,逻辑否,时间先后,数量列举,空间列举,互补;因此,基于段落ni和对应于所有约束关系yck的组合Y(ni,nj,yck)就代表所有与段落ni有关的章节;按照本发明的描述,概念世界中的每个章节,对应于物理世界中的一种情节;
[0026] (e)章节关系矩阵描述章节之间也存在着有序的排列关系;它可以用三维矩阵Z(yi,yj,zck)来实现。该矩阵表示章节yi和章节yj在约束zck下的排列关系;约束zck包括:逻辑与,逻辑和,逻辑否,时间先后,数量列举,空间列举,互补;因此,基于章节yi和对应于所有约束关系zck的组合Z(yi,yj,zck)就代表所有与章节yi有关的文章;同时,概念世界中的每个文章,对应于物理世界中的一个故事。
[0027] 作为本发明的优选技术方案,所述自然语言文字学习和理解模块包含对自然语言文字的认知和识别两个相辅相成的部分;它的认知部分主要基于学习,它对自然语言文字的学习既包含对文字的概念知识的学习,同时也包含对文字所指的物理知识的学习;自然语言文字学习和理解中的识别部分主要由句子分割、合成句子和识别句子三功能块组成;识别部分的输出是与意义知识库相容的有物理意义的句子。
[0028] 作为本发明的优选技术方案,所述对自然语言文字的识别主要基于合成与匹配的原理;该原理的具体实现由下列功能模块的组合来完成:
[0029] (a)单字分割,本模块的输入来自语音识别模块,在输入字符中,它找出空格间的字符串,对某些自然语言,比如中文,一个字符就对应一个单字;然后,它将每个字符串和意义知识库中的单字匹配,匹配成功,就输出一个分割好的单字到下一模块,否则,它进行学习一个新的单字;
[0030] (b)识别己知单字,根据输入的每一个单字,它找出意义知识库中的匹配的单字;然后,它提取该单字所指的所有物理意义和所有概念意义;
[0031] (c)句子分割,根据一串输入单字,它确定一个句子的开头和结尾,并将一串输入单字分割成一组句子;在简单会话的情形下,一串输入单字中只含一个完整的句子;
[0032] (d)合成词组,它的输入是对应于一个句子的一串单字;它根据单字的约束,形成所有可能的词组组合;
[0033] (e)合成句子,它的输入来自合成词组,它根据词组的约束,形成所有可能的句子;然后,它把不符合物理意义的句子删除掉,剩下的是一组完整的和有物理意义的句子;
[0034] (f)识别句子,它的输入来自合成句子和句子分割,它把听到的句子和合成的句子匹配,最佳匹配结果就是识别了的句子。
[0035] 作为本发明的优选技术方案,所述对自然语言文字的认知,既包含学习概念知识,也包括学习物理知识;它的作用是通过对话的形式获取一个新单字或单词的概念知识以及该单字或单词所指的物理知识;为不失一般性,对自然语言文字的认知,也可以通过按一定方式设计的图形界面获取;
[0036] 按照本发明的描述,学习概念知识通过对话的形式,由以下功能的组合来实现:
[0037] (a)概念知识提问合成,它首先提问,一个新单字泛指单字,单词或符号;针对单字或单词,它根据一种自然语言的特性,预编好一系列提问,它包括:是名词吗?是动词吗?能给出一个常用案例吗?;根据学习到的特征,它自动地确定一个新单字的约束,它包括:名词前可以加冠词,名词后可以带动词;按照本发明的描述,任何一个单词有前置词约束和后置词约束;
[0038] (b)提问和语音合成,它的输入来自概念知识提问合成,它通过商用语音合成器把提问的文字符号转成音频信号;
[0039] (c)语音识别模块,交流对象听到提问后,做出相应的回答;按照本发明的描述,交流对象的回答包括:新单词的特征,新单词的常用案例;然后,该模块对交流对象的音频信号进行识别,得到的输出是理解了的回答;
[0040] (d)概念知识回答识别,它的输入来自语音识别模块,它从理解了的回答中,提取出关于一个新单字的特征,以及常用的使用案例;并把这些概念知识存贮到适当的数据结构中;
[0041] 按照本发明的描述,学习物理知识通过对话的形式,由以下功能的组合来实现:
[0042] (e)物理知识提问合成,它首先提问,一个新单字泛指实体或符号,然后,针对实体,它预编好一系列与特征和约束有关的提问,提问包括:体积?重量?物态?材料?颜色?用途?导电性?导热性?防水性?强度?硬度?气味?;
[0043] (f)提问和语音合成,它的输入来自物理知识提问合成,它通过商用语音器合成,把提问的文字符号转成音频信号;
[0044] (g)语音识别模块,交流对象听到提问后,做出相应的回答;交流对象的回答包括:新单词所指实体的特征,新单词所指实体的约束;然后,该模块对交流对象的音频信号进行识别,得到的输出是理解了的回答;
[0045] (h)物理知识回答识别,它的输入来自语音识别模块,它从理解了的回答中,提取出关于一个新单字所指实体的特征和约束;并把这些物理知识,存贮到适当的数据结构中。
[0046] 作为本发明的优选技术方案,所述故事情节重构模块首先读取,自然语言文字学习和理解模块中的识别句子输出;然后,它根据识别句子的物理知识,提取有关地点、时间、人物、物件和原因的故事要素,其中,
[0047] (a)地点重构是把输入文字或听到的语言文字中的地点要素记录下来,并以适当的数据结构存贮;
[0048] (b)时间重构(40)是把输入文字或听到的语言文字中的时间点和时间段记录下来,并以适当的数据结构存贮;
[0049] (c)人物重构是把输入文字或听到的语言文字中的人物记录下来,并以适当的数据结构存贮;
[0050] (d)物件重构是把输入文字或听到的语言文字中的物体,物件和东西记录下来,并以适当的数据结构存贮;
[0051] (e)原因重构是把输入文字或听到的语言文字中的前因后果关系记录下来,并以适当的数据结构存贮;前因后果关系包括:动作约束,行为约束,事件约束,和情节约束。
[0052] 根据上述故事要素,故事情节重构模块通过三维场景合成和动画图像合成,把这些故事要素制成各个时间点的场景和图片;这些图片在时间段的合成,则形成动画;最后,它用商用软件工具,把动画转化成视频信号输出。
[0053] 作为本发明的优选技术方案,所述故事描述和提问模块的输入来自两个渠道,一是故事情节重构模块中的故事要素,根据这些故事要素,本模块重述听懂的故事,或对不明白之处提问;二是机器自身产生的故事要素,它包括机器自身的视觉系统所看到的场景和其中的故事要素;在这种情况下,本模块自述故事,或对不明白之处提问;按照本发明的描述,本模块首先以适当的方式,把故事要素转换成概念世界中的相对应单字和词组;其中,[0054] (a)地点描述是把故事要素中的地点要素以适当的数据结构存贮,然后,在意义知识库中,将每个地点要素的相对应单字和词组取出;地点要素包括:地上,天上,桌上,左边,右边,前方,后方;
[0055] (b)时间描述是把故事要素中的时间点和时间段以适当的数据结构存贮,然后,在意义知识库中,将每个时间要素的相对应单字和词组取出;时间要素包括:某时,某日,某月,某年;
[0056] (c)人物描述是把故事要素中的人物以适当的数据结构存贮,然后,在意义知识库中,将每个人物要素的相对应单字和词组取出;人物要素包括:某人,某飞禽,某走畜,某昆虫,某爬虫;
[0057] (d)物件描述是把故事要素中的物件以适当的数据结构存贮,然后,在意义知识库中,将每个物件要素的相对应单字和词组取出;物件要素包括:桌子,椅子,杯子,汽车,水果,衣物,门窗,灯具,文具,书本,电器,工具;
[0058] (e)原因描述是把故事要素中的前因后果以适当的数据结构存贮,然后,在意义知识库中,将每个原因要素的相对应单字和词组取出,比如,因为-所以,先-后,引发,导致;
[0059] 根据上述故事要素,故事描述和提问模块以适当的方式,把故事要素转换成概念世界中的句子;首先,在同一时间点上,把人物和物件的空间关系用句子和段落表述出来,或根据人物和物件的空间关系进行提问;其次,在不同时间点上,把人物和物件的相互作用和行为用句子和段落表述出来,或根据人物和物件的相互作用和行为进行提问;最后,本模块通过商用语音合成器,把文字转换成音频信号输出,或通过显示和打印的方式输出文字。
[0060] 本发明的有益效果是:相对于现有技术,本发明设计出一套完整的智能技术和方案,它既提供了如何让机器理解自然语言的方法。同时,本发明还提供了如何让机器表述知识和存贮知识的设计蓝图,基于本发明开发的产品,可以实现人与汽车、人与机器人、人与手机、以及人与计算机的对话和交谈。

附图说明

[0061] 下面结合附图与具体实施例对本发明作进一步说明:
[0062] 图1:本发明的总设计方框图;
[0063] 图2:本发明意义知识库的设计方框图;
[0064] 图3:本发明自然语言文字学习和理解的功能流程图;
[0065] 图4:本发明学习未知单词的功能流程图;
[0066] 图5:本发明故事情节重构的设计方框图;
[0067] 图6:本发明故事描述和提问的设计方框图。

具体实施方式

[0068] 基于自然语言的人机对话系统,本发明设计出一套完整智能技术和方案。它既提供了如何让机器理解自然语言的方法,同时,本发明还提供了如何让机器表述知识和存贮知识的设计蓝图。本发明可用于实现人与汽车、人与计算机、人与手机、和人与机器人的对话和交谈。本发明的智能人机对话系统由以下模块构成:
[0069] 参照图1,本发明基于特别设计的知识库(4),以及特别设计的自然语言的学习和理解模块(5),提出一套完整的基于自然语言的人机对话智能技术和方案。本发明由以下几部分组成:语音感应器(1),语音识别模块(3),意义知识库(4),自然语言文字学习和理解模块(5),故事情节重构模块(6)和故事描述和提问模块(7)。
[0070] 具体实施细节如下所述:
[0071] 1.语音感应器(1)。它的作用是把来自交流对象(2)的音频信号转换成电子信号。它可以选用常规的麦克风,或特制的音频信号采集器件。按照本发明的描述,交流对象包括自然人,具有会话能力的汽车,具有会话能力的计算机,具有会话能力的机器人,等等。
[0072] 2.语音识别模块(3)。它的作用是把音频电子信号转换成某一自然语言的文字符号。它可以选用商用产品,或自行开发的语言识别系统来完成这个功能。
[0073] 3.意义知识库模块(4)。按照本发明的描述,外部世界可分成物理世界和概念世界。其中,概念世界是对物理世界的一种描述,或投影。这种描述或投影是通过任何一种自然语言来实现的。在此定义的基础上,本模块把每个自然实物(8)的知识分成两部分:一是物理世界中的物理知识,二是概念世界中的概念知识。按照本发明的描述,它把每种知识划分为,基础知识和综合知识。其中,基础知识由特征和约束的组合来定义。综合知识则由不同等级的关系矩阵组成。在此基础上,本模块以特定的数据结构,来实现知识在物理世界和概念世界之间的有机结合。
[0074] 4.自然语言文字学习和理解模块(5)。它包含对自然语言文字的认知和识别两个相辅相成的部分。按照本发明的描述,它的认知部分主要基于学习。按照本发明的描述,自然语言文字的学习既包含对文字的概念知识的学习,同时也包含对文字所指的物理知识的学习。按照本发明的描述,本模块的识别部分主要基于句子分割(28)、合成句子(30)和识别句子(31)三功能块组成。识别部分的输出,是与意义知识库(4)相容的有物理意义的句子。
[0075] 5.故事情节重构模块(6)。按照本发明的描述,它首先读取,自然语言文字学习和理解模块(5)中的识别句子(31)输出。然后,它根据识别句子的物理知识,提取有关地点、时间、人物、事物和原因的故事要素。最后,它通过三维场景合成(44)和动画图像合成(45),把这些故事要素制成视频信号输出。按照本发明的描述,这些故事要素同时输出到下一模块,即故事描述和提问模块(7)。
[0076] 6.故事描述和提问模块(7)。按照本发明的描述,它的输入是来自上一模块的故事要素。首先,它以适当的方式,把故事要素转换成概念世界中的相对应单字和词组。然后,它再以适当的方式,把故事要素转换成概念世界中的句子。根据需要,这些句子可以是描述或提问。最后,它通过商用语音合成器,把文字转换成音频信号输出,或通过显示和打印的方式输出文字。
[0077] 参照图1。本发明中涉及的语音感应器(1)可以选用一般商用的麦克风,或特制的音频信号采集器件来实现。
[0078] 参照图1。本发明中涉及的交流对象(2)通常指有会话能力的自然人。为不失一般性,交流对象(2)也可以包括具有会话能力的计算机,具有会话能力的机器人,等等。
[0079] 参照图1。本发明中涉及的语音识别模块(3)可以选用市场上的语音识别产品来实现。
[0080] 参照图1和图2。本发明把外部世界分成物理世界和概念世界。其中,概念世界是对物理世界的一种描述或投影。这种描述或投影是通过任何一种自然语言来实现的。在此定义的基础上,本发明中的意义知识库(4)的设计包含,物理知识和概念知识两大类。根据这个设计方案,意义知识库(4)中的每个自然实物(8)都由一对物理实体(9)和单字实体(10)构成。物理实体(9)的意义指,物理特征(11)和物理约束(12)。单字实体(10)的意义指,单字特征(14)和单字约束(13)。它们可以用计算机编程语言的类(即Class)来实现。
[0081] 参照图2。按照本发明的描述,每个实体的知识由基础知识构成。然而,基础知识的有机结合,则构成综合知识。每个物理实体(9)的设计包含该物理实体的物理特征(11)和它的物理约束(12)。它们定义了一个物理实体(9)的基础知识。按照本发明的描述,物理特征(11)包括尺寸,形状,体状,质量,硬度,传导性。它们可用适当的数据结构来实现。物理约束(12)包括运动约束,动力约束,电力约束,化学约束,热力约束。它们可用适当的方程和函数来实现。
[0082] 按照本发明的描述,物理世界的综合知识由以下设计的关系矩阵构成:
[0083] 1.实体关系矩阵(15)。它是一个三维矩阵T(oi,oj,fk)。该矩阵描述一对实体oi和实体oj在特征关系fk下的逻辑值或一般函数。按照本发明的描述,特征关系fk包括前后关系,左右关系,上下关系,内外关系,远近关系,大小关系,主次关系,轻重关系,冷热关系,色彩关系,明暗关系。
[0084] 2.行为关系矩阵(16)。它是一个三维矩阵A(oi,oj,ck)。该矩阵描述一对实体oi和实体oj在约束关系ck下的逻辑值或时间函数。它描述一对实体oi和实体oj的一种互动作用,或基本行为。按照本发明的描述,约束关系ck包括运动约束,动力约束,电力约束,化学约束,热力约束。按照本发明的描述,一对实体oi和实体oj对应于每个约束关系ck的互动作用组合A(oi,oj,ck),就代表该对实体可能产生的所有基本行为。
[0085] 3.事件关系矩阵(17)描述一个事件。它概括一组相关的基本行为或综合行为。它可用一个三维矩阵B(ai,aj,rk)来实现。该矩阵描述一对基本行为ai和基本行为aj在原因关系rk下的逻辑约束。按照本发明的描述,原因关系rk包括习惯取向,价值取向,期望取向,常识取向,信仰取向。按照本发明的描述,逻辑约束B(ai,aj,rk)的选项包括:如果-则,如果-则不,如果-可能,同时发生。按照本发明的描述,基于每个基本行为ai和对应于所有原因关系rk的组合B(ai,aj,rk),就代表一种与基本行为ai有关的事件(即综合行为)。
[0086] 4.情节关系矩阵(18)描述一个情节。它由一组相关的综合行为组成。它也可以用一个三维矩阵E(bi,bj,rk)来描述。该矩阵表示综合行为bi和综合行为bj在原因关系rk下的逻辑约束。按照本发明的描述,原因关系rk包括习惯取向,价值取向,期望取向,常识取向,信仰取向。按照本发明的描述,逻辑约束E(bi,bj,rk)的选项包括:如果-则,如果-则不,如果-可能,同时发生。按照本发明的描述,基于每个综合行为bi和对应于所有原因关系rk的组合E(bi,bj,rk)就代表一种与综合行为bi有关的情节。
[0087] 5.故事关系矩阵(19)描述一个故事。它由一组相关的情节组成。同样地,它可以用一个三维矩阵S(ei,ej,rk)来描述。该矩阵表示情节ei和情节ej在原因关系rk下的逻辑约束。按照本发明的描述,原因关系rk包括习惯取向,价值取向,期望取向,常识取向,信仰取向。按照本发明的描述,逻辑约束S(ei,ej,rk)的选项包括:如果-则,如果-则不,如果-可能,同时发生,等等。按照本发明的描述,基于每个情节ei和对应于所有原因关系rk的组合S(ei,ej,rk)就代表一种与情节ei有关的故事。
[0088] 参照图2。按照本发明的描述,每个单字可以是简单单字或复合单字。每个单字实体(10)的设计,包含了该单字实体的特征(14)和它的约束(13)。它们定义了关于一个单字实体(10)的基础知识,基础知识的有机结合构成综合知识。按照本发明的描述,单字特征(14)包括任何一种自然语言中一个单字的属性。属性包括:名词,动词,形容词,介词。它们可用适当的数据结构来实现。单字约束(13)包括任何一种自然语言的语法。语法包括:名词前可以加形容词,名词后可以带动词,等等。单字特征(14)和单字约束(13)可用适当的表格来实现。
[0089] 按照本发明的描述,概念世界的综合知识由以下设计的关系矩阵构成:
[0090] 1.单字关系矩阵(20)。在任何一种自然语言中,单字之间的有机结合构成了词组。这种有机结合的约束来自物理世界和概念世界。这种约束关系可以用单词关系矩阵(20)来表示。它是一个三维矩阵Q(wi,wj,wck)。该矩阵表示单字wi和单字wj在约束wck下构成的关系。该关系定义一个词组。按照本发明的描述,单字间的约束wck包括:形容词-名词,名词-动词,介词-名词,动名词-名词。按照本发明的描述,基于单字wi,和对应于所有约束关系wck的组合Q(wi,wj,wck)就代表所有与单字wi有关的词组。按照本发明的描述,概念世界中的每个单字,对应于物理世界中的实物特征或约来。概念世界中的词组,对应于物理世界中的基本行为。
[0091] 2.词组关系矩阵(21)描述词组的属性。它决定了词组间的前后排列顺序关系。这种排列关系可用三维矩阵M(qi,qj,qck)来实现。该矩阵表示词组qi和词组qj在约束qck的排列顺序。按照本发明的描述,约束qck包括:左右顺排列和左右逆排列。按照本发明的描述,以词组qi为中心,所有左侧的左右逆排列和所有右侧的左右顺排列的任何一个组合定义了一个与词组qi有关的句子。按照本发明的描述,概念世界中的每个句子,对应于物理世界中的一种行为。
[0092] 3.句子关系矩阵(22)描述句子之间可以有序地排列。这种排列顺序背后也存在一种约束。这种句子之间的约束关系可以用三维矩阵N(mi,mj,mck)来实现。该矩阵表示句子mi和句子mj在约束mck下的排列关系。按照本发明的描述,约束mck包括:前因-后果,假设-结果,列举,切换,互补。按照本发明的描述,任选一个关健单字为输入,首先找出所有与它相关的词组。然后,针对每一个词组找出所有与它相关的句子。最后,在所有约束mck下,这些句子的所有排列组合就定义了,与该关健单字有关的段落。按照本发明的描述,概念世界中的每个段落,对应于物理世界中的一种事件。
[0093] 4.段落关系矩阵(23)描述段落之间也存在着有序的排列关系。它也可以用三维矩阵来实现Y(ni,nj,yck)来实现。该矩阵表示段落ni和段落nj在约束yck下的排列关系。按照本发明的描述,约束yck包括:逻辑与,逻辑和,逻辑否,时间先后,数量列举,空间列举,互补。按照本发明的描述,基于段落ni,和对应于所有约束关系yck的组合Y(ni,nj,yck)就代表所有与段落ni有关的章节。按照本发明的描述,概念世界中的每个章节,对应于物理世界中的一种情节。
[0094] 5.章节关系矩阵(24)描述章节之间也存在着有序的排列关系。它也可以用三维矩阵Z(yi,yj,zck)来实现。该矩阵表示章节yi和章节yj在约束zck下的排列关系。按照本发明的描述,约束zck包括:逻辑与,逻辑和,逻辑否,时间先后,数量列举,空间列举,互补。按照本发明的描述,基于章节yi,和对应于所有约束关系zck的组合Z(yi,yj,zck)就代表所有与章节yi有关的文章。按照本发明的描述,概念世界中的每个文章,对应于物理世界中的一个故事。
[0095] 参照图1,图3和图4,本发明中的自然语言文字学习和理解模块(5)包含对自然语言文字的认知和识别两个相辅相成的部分。它的认知部分主要基于学习。它对自然语言文字的学习既包含对文字的概念知识的学习,同时也包含对文字所指的物理知识的学习。自然语言文字学习和理解模块(5)中的识别部分主要由句子分割(28)、合成句子(30)和识别句子(31)三功能块组成。识别部分的输出是与意义知识库(4)相容的有物理意义的句子。
[0096] 参照图3。本发明中的对自然语言文字的识别主要基于合成与匹配的原理。该原理的具体实现由下列功能模块的组合来完成:
[0097] 1.单字分割(25)。本模块的输入来自语言识别模块(3)。在输入字符中,它找出空格间的字符串。对某些自然语言,一个字符就对应一个单字。然后,它将每个字符串和意义知识库中的单字匹配。匹配成功,就输出一个分割好的单字到下一模块(26)。否则,它进行学习一个新的单字(27)。
[0098] 2.识别己知单字(26)。根据输入的每一个单字,它找出意义知识库中的匹配的单字。然后,它提取该单字所指的所有物理意义,和所有概念意义。
[0099] 3.句子分割(28)。根据一串输入单字,它确定一个句子的开头和结尾。并将一串输入单字,分割成一组句子。在简单会话的情形下,一串输入单字中只含一个完整的句子。
[0100] 4.合成词组(29)。它的输入是对应于一个句子的一串单字。它根据单字的约束,形成所有可能的词组组合。
[0101] 5.合成句子(30)。它的输入来自合成词组(29)。它根据词组的约束,形成所有可能的句子。然后,它把不符合物理意义的句子删除掉。剩下的是一组完整的,和有物理意义的句子。
[0102] 6.识别句子(31)。它的输入来自合成句子(30)和句子分割(28)。句子分割(28)输出听到的句子;合成句子(30)输出合成的句子;然后,把听到的句子和合成的句子进行匹配。最佳匹配结果,就是识别了的句子。
[0103] 参照图4,本发明中的对自然语言文字的认知,既包含学习概念知识(32),也包括学习物理知识(36)。它的作用是通过对话的形式获取一个新单字(词)的概念知识以及该单字(词)所指的物理知识。为不失一般性,对自然语言文字的认知,也可以通过按一定方式设计的图形界面获取。按照本发明的描述,通过对话的形式学习概念知识(32)由以下功能的组合来实现:
[0104] 1.概念知识提问合成(33)。它首先提问,一个新单字泛指单字或符号。针对单字或单词,它根据一种自然语言的特性,预编好一系列提问。提问包括:是名词吗?是动词吗?能给出一个常用案例吗?。根据学习到的特征,它自动地确定一个新单字的约束。约束包括:名词前可以加冠词,名词后可以带动词。按照本发明的描述,任何一个单词有前置词约束,和后置词约束。
[0105] 2.提问和语音合成(35)。它的输入来自概念知识提问合成(33)。它通过商用语音合成,把提问的文字符号转成音频信号。
[0106] 3.语音识别模块(3)。交流对象(2)听到提问后,做出相应的回答。按照本发明的描述,交流对象(2)的回答包括:新单词的特征,新单词的常用案例,等等。然后,该模块对交流对象(2)的音频信号进行识别。得到的输出是,理解了的回答。
[0107] 4.概念知识回答识别(34)。它的输入来自语音识别模块(3)。它从理解了的回答中,提取出关于一个新单字的特征,以及常用的使用案例,等等。并把这些概念知识,存贮到适当的数据结构中。
[0108] 按照本发明的描述,通过对话的形式学习物理知识(36)由以下功能的组合来实现:
[0109] 1.物理知识提问合成(37)。它首先提问,一个新单字泛指实体或符号。然后,针对实体,它预编好一系列与特征和约束有关的提问。提问包括:体积?重量?物态?材料?颜色?用途?导电性?导热性?防水性?强度?硬度?气味?。
[0110] 2.提问和语音合成(35)。它的输入来自物理知识提问合成(37)。它通过商用语音合成,把提问的文字符号转成音频信号。
[0111] 3.语音识别模块(3)。交流对象(2)听到提问后,做出相应的回答。按照本发明的描述,交流对象(2)的回答包括:新单词所指实体的特征,新单词所指实体的约束。然后,该模块对交流对象(2)的音频信号进行识别。得到的输出是,理解了的回答。
[0112] 4.物理知识回答识别(38)。它的输入来自语音识别模块(3)。它从理解了的回答中,提取出关于一个新单字所指实体的特征和约束。并把这些物理知识,存贮到适当的数据结构中。
[0113] 参照图3和图5,本发明中的故事情节重构模块(6)首先读取,自然语言文字学习和理解模块(5)中的识别句子(31)输出。然后,它根据识别句子的物理知识,提取有关地点、时间、人物、物件和原因的故事要素。其中,
[0114] 1.地点重构(39)是把输入文字或听到的语言文字中的地点要素记录下来,并以适当的数据结构存贮。
[0115] 2.时间重构(40)是把输入文字或听到的语言文字中的时间点和时间段记录下来,并以适当的数据结构存贮。
[0116] 3.人物重构(41)是把输入文字或听到的语言文字中的人物记录下来,并以适当的数据结构存贮。
[0117] 4.物件重构(42)是把输入文字或听到的语言文字中的物体,物件和东西记录下来,并以适当的数据结构存贮。
[0118] 5.原因重构(43)是把输入文字或听到的语言文字中的前因后果关系记录下来,并以适当的数据结构存贮。前因后果关系包括:动作约束,行为约束,事件约束,和情节约束。
[0119] 根据上述故事要素,故事情节重构模块(6)通过三维场景合成(44)和动画图像合成(45),把这些故事要素制成各个时间点的场景和图片。这些图片在时间段的合成,则形成动画。最后,它用商用软件工具,把动画转化成视频信号输出。
[0120] 参照图3,本发明中的故事描述和提问模块(7)的输入来自两个渠道。一是故事情节重构模块(6)中的故事要素。根据这些故事要素,本模块重述听懂的故事,或对不明白之处提问。二是机器自身产生的故事要素,它包括机器自身的视觉系统所着到的场景和其中的故事要素。在这种情况下,本模块自述故事,或对不明白之处提问。按照本发明的描述,本模块首先以适当的方式,把故事要素,转换成概念世界中的相对应单字和词组。其中:
[0121] 1.地点描述(46)是把故事要素中的地点要素以适当的数据结构存贮。然后,在意义知识库中,将每个地点要素的相对应单字和词组取出。地点要素包括:地上,天上,桌上,左边,右边,前方,后方。
[0122] 2.时间描述(47)是把故事要素中的时间点和时间段以适当的数据结构存贮。然后,在意义知识库中,将每个时间要素的相对应单字和词组取出。时间要素包括:某时,某日,某月,某年。
[0123] 3.人物描述(48)是把故事要素中的人物以适当的数据结构存贮。然后,在意义知识库中,将每个人物要素的相对应单字和词组取出。人物要素包括:某人,某飞禽,某走畜,某昆虫,某爬虫。
[0124] 4.物件描述(49)是把故事要素中的物件以适当的数据结构存贮。然后,在意义知识库中,将每个物件要素的相对应单字和词组取出。物件要素包括:桌子,椅子,杯子,汽车,水果,衣物,门窗,灯具,文具,书本,电器,工具。
[0125] 5.原因描述(50)是把故事要素中的前因后果以适当的数据结构存贮。然后,在意义知识库中,将每个原因要素的相对应单字和词组取出。比如,因为-所以,先-后,引发,导致。
[0126] 根据上述故事要素,故事描述和提问模块(7)以适当的方式,把故事要素转换成概念世界中的句子。首先,在同一时间点上,把人物和物件的空间关系用句子和段落表述出来,或根据人物和物件的空间关系进行提问。其次,在不同时间点上,把人物和物件的相互作用和行为用句子和段落表述出来,或根据人物和物件的相互作用和行为进行提问。最后,本模块通过商用语音合成器,把文字转换成音频信号输出,或通过显示器显示,以及通过打印机以打印的方式输出文字。