用于文本语义处理的方法、装置及产品转让专利

申请号 : CN201380013771.8

文献号 : CN104169948B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : F·E·德苏萨韦博

申请人 : 皮层IO有限公司

摘要 :

本发明涉及产生用于将文本翻译成神经网络可读形式的计算机可读词典的计算机实施方法,包括:利用每个都含有语义上下文中一个或多个关键词(7)的第一文本文档(3)的第一组(2)来训练自组织映射类型的第一神经网络(4),以便通过语义聚类将每个文本文档(3)都映射至自组织映射(5)内的一个点(Xi/Yj);为在第一组(2)中出现的每个关键词(7),将含有所述关键词(7)的文本文档(3)被映射至的自组织映射(5)内的所有点(Xi/Yj)确定作为与所述关键词(7)相关联的点(Xi/Yj)的模式(6);以及储存所有关键词(7)和关联模式(6)作为计算机可读模式词典(9)。本发明进一步涉及训练神经网络的计算机实施方法和基于神经网络的分类器、预测器及翻译器。

权利要求 :

1.一种产生用于将文本翻译成神经网络可读形式的计算机可读词典的计算机实施方法,包括:利用每个都含有语义上下文中一个或多个关键词(7)的第一文本文档(3)的第一组(2)来训练自组织映射类型的第一神经网络(4)以便通过语义聚类将每个文本文档(3)都映射至所述自组织映射(5)内的一个点(Xi/Yj);

为在所述第一组(2)中出现的每个关键词(7),将含有所述关键词(7)的文本文档(3)被映射至的所述自组织映射(5)内的所有点(Xi/Yj)确定作为与所述关键词(7)相关联的点(Xi/Yj)的模式(6);以及储存所有关键词(7)和关联模式(6)作为计算机可读模式词典(9),

由每个都含有语义上下文中一个或多个关键词(7)的第二文本文档(13)的第二组(12)形成关键词(7)的至少一个序列(11);

通过使用所述模式词典(9)将关键词(7)的所述至少一个序列(11)翻译成模式(6)的至少一个序列(14);以及利用模式(6)的所述至少一个序列(14)训练第二神经网络(15)。

2.根据权利要求1所述的方法,其中所述第二神经网络(15)是分层的和至少部分递归的。

3.根据权利要求1所述的方法,其中所述第二神经网络(15)是记忆预测框架。

4.根据权利要求1所述的方法,其中所述第二神经网络(15)是分层时间记忆。

5.根据权利要求1至4中的任一项所述的方法,其中所述第一神经网络(4)是科荷伦自组织映射。

6.根据权利要求1至4中的任一项所述的方法,其中对于所述第二组(12)的所述第二文档(13)的每一个,关键词(7)的单独序列(11)被形成并且被翻译成模式(6)的单独序列(14),并且利用模式(6)的每一个所述单独序列(11)连续训练所述第二神经网络(15)。

7.根据权利要求6所述的方法,其中所述第二文档(13)被排序,并且当训练所述第二神经网络(15)时,模式(6)的所述单独序列(14)按照所述第二文档(13)的排序顺序被馈送至所述第二神经网络(15)内,模式(6)的所述单独序列(14)已经每个都由所述第二文档(13)形成和翻译。

8.根据权利要求7所述的方法,其中通过提高复杂性排序所述第二文档,其中在下列中的一个或多个的基础上确定第二文档(13)的所述复杂性:所述第二文档(13)中不同关键词(7)的数量、所述第二文档(13)中语句的平均长度、所述第二文档(13)中所述第一组的一个或多个关键词(7)的频率、所述第一组(2)或另一个文本语料库中所述第二文档(13)的一个或多个关键词(7)的频率。

9.根据权利要求1至4中的任一项所述的方法,所述方法用于处理含有至少一个关键词的文本,所述方法包括:借助于模式词典(9)将所述至少一个关键词(7)翻译成至少一种模式(6);

将作为输入模式的所述至少一种模式(6)馈送至所述训练第二神经网络(15)内;

从所述训练第二神经网络中获得至少一种输出模式(6);以及

借助于所述模式词典(9)将所述至少输出模式(6)翻译成至少一个关键词(7)。

10.根据权利要求9所述的方法,所述方法用于文本语义分类,其中所述第二神经网络(15)是分层的,所述至少一种输入模式(6)被馈送至层次的至少一个较低层内并且所述至少一种输出模式(6)从所述层次的至少一个较高层中获得。

11.根据权利要求9所述的方法,所述方法用于文本语义预测,其中所述第二神经网络(15)是分层的,所述至少一种输入模式(6)被馈送至层次的至少一个较高层内并且所述至少一种输出模式(6)从所述层次的至少一个较低层中获得。

12.一种在计算机可读介质上实施的计算机可读词典,利用根据权利要求1所述的方法而产生。

13.一种分类器或预测器,包括利用根据权利要求1至8中的任一项所述的方法已经被训练成所述第二神经网络(15)的分层类型的神经网络。

14.一种翻译器,包括:

根据权利要求13所述的分类器,其所述第二神经网络(15)已经通过使用第一语言中的第一和第二文本文档(3、13)利用根据权利要求1至8中的任一项所述的方法而被训练;和根据权利要求13所述的预测器,其第三神经网络(19)已经通过使用第二语言中的第一和第二文本文档(3、13)利用根据权利要求1至8中的任一项所述的方法而被训练;

其中所述分类器的所述第二神经网络(15)的节点(15′)被连接至所述预测器的所述第三神经网络(19)的节点(19′)。

说明书 :

用于文本语义处理的方法、装置及产品

技术领域

[0001] 本发明涉及神经网络训练方法,尤其是用于文本的语义处理、分类及预测的方法。本发明进一步涉及计算机可读介质和基于神经网络的分类器、预测器及翻译器。

背景技术

[0002] 在本公开的上下文中,术语“神经网络”指计算机实施的、人工神经网络。在例如1995/2010年纽约牛津大学出版社的Bishop C.M.(毕晓普·克里斯托夫M.)的”Neural Networks for Pattern Recognition(用于模式识别的神经网络)”;或2011年伯尔尼的霍夫格雷夫股份公司的Hans Huber(汉斯·胡伯)第二版的Rey,G.D.(雷伊G.D.)、Wender K.F.(文德尔K.F.)的”Neurale Netze(神经网络)”中给出了神经网络的理论、类型及实施细节的概述。
[0003] 本发明尤其涉及通过神经网络的文本语义处理,即,通过集中关注文本的词及它们在现实世界和在它们上下文中所代表的含义之间的关系来分析文本的意义。在下文中,文本的“词”(记号(token))包含语言常用术语中的词以及诸如符号和标记的能够组合以形成文本的任何语言单位。从这些词中,我们忽略具有很少语义相关性的诸如“该”、“他”、“在”等的一组极普通的词以便留下我们称作文本“关键词”的词。
[0004] 语义文本处理的应用非常广泛并且包含例如出于相关性排序、归档、数据挖掘及信息检索的目的将文本分类成某些关键词。理解文本中关键词的意义并且预测将在文本中出现的“有意义的”另一些关键词,例如,对于搜索引擎中的语义查询扩展是有用的。最后但同样重要的是,当在较大的语义上下文中考虑源程序文本的词时通过解决源程序文本的歧义,语义文本处理增强机器翻译的质量。
[0005] 迄今,语义文本处理的现有方法,尤其是用于搜索引擎中查询扩展的方法,会有用于关键词、它们的词目(词汇根)及关键词之间统计关系的大量统计指标的工作,以便建立用于关系分析的大型同义词库文件、统计及词典。然而,当考虑更长和更多的复杂词序列时,统计方法在语义分析的深度方面受限。
[0006] 另一方面,神经网络主要用于在复杂多样的数据中识别模式,诸如图像中的目标识别或语音、音乐或测量数据中的信号识别。必须利用海量训练数据正确“训练”神经网络以便提供将被分析的“现场的”采样时能够完成它们的识别任务。训练神经网络与配置它的网络节点(“神经元”)之间它的内部连接和权值是等效的。训练的结果是神经网络内通常加权连接的具体配置。
[0007] 训练神经网络就其本身是一项复杂的任务并且涉及利用例如迭代或自适应算法设定大量参数。用于神经网络的训练算法因此能够被视为用于建立(构建,build)用于具体应用的神经网络的技术手段。
[0008] 虽然神经网络目前广泛用于大量数值数据中的模式识别,但是它们用于文本处理的应用当前受到文本能够以机器可读形式被提供给神经网络的形式的限制。

发明内容

[0009] 本发明的一个目的是改善一方面文本和另一方面神经网络之间的接口以便更好地开发用于语义文本处理的神经网络的分析能力。
[0010] 在本发明的第一个方面,提供了一种训练神经网络的计算机实施方法,包括:
[0011] 利用每个都含有语义上下文中一个或多个关键词的第一文本文档的第一组训练自组织映射类型的第一神经网络以便通过语义聚类将每个文档都映射至自组织映射内的一个点;
[0012] 为在第一组中出现的每个关键词,将含有所述关键词的第一文档被映射至的自组织映射内的所有点确定作为一种模式并且将用于所述关键词的所述模式储存在模式词典内;
[0013] 由每个都含有语义上下文中一个或多个关键词的第二文本文档的第二组形成关键词的至少一个序列;
[0014] 通过使用所述模式词典将关键词的所述至少一个序列翻译成模式的至少一个序列;以及
[0015] 利用模式的所述至少一个序列训练第二神经网络。
[0016] 利用创新方法训练的第二神经网络被配置成用于并且准备用于包括下列应用的各种应用:
[0017] i)处理含有至少一个关键词的文本,包含:
[0018] 借助于模式词典将所述至少一个关键词翻译成至少一种模式,
[0019] 将作为输入模式的所述至少一种模式馈送至所述训练第二神经网络内,[0020] 从所述训练第二神经网络中获得至少一种输出模式,以及
[0021] 借助于模式词典将所述至少输出模式翻译成至少一个关键词;
[0022] ii)文本的语义分类,当使用分层类型的第二神经网络时,其中所述至少一种输入模式被馈送至层次的至少一个较低层内并且从层次的至少一个较高层中获得所述至少一种输出模式;以及
[0023] iii)文本的语义预测,当使用分层类型的第二神经网络时,其中所述至少一种输入模式被馈送至层次的至少一个较高层内并且从层次的至少一个较低层中获得所述至少一种输出模式。
[0024] 在本发明的另一个方面,提供产生用于将文本翻译成神经网络可读形式的计算机可读词典的方法,包括:
[0025] 利用每个都含有语义上下文中一个或多个关键词的文本文档训练自组织映射类型的神经网络以便通过语义聚类将每个文本文档都映射至自组织映射内的一个点;
[0026] 对于在第一组中出现的每个关键词,将含有所述关键词的文本文档被映射至的自组织映射内的所有点确定作为与所述关键词相关联的点的模式;以及
[0027] 将所有关键词和关联模式储存为计算机可读词典。
[0028] 本发明还提供在计算机可读介质上实施的这种类型的计算机可读词典。
[0029] 本发明的另外方面是:
[0030] -分类器,包括利用根据本发明第一个方面的方法已经被训练成所述第二神经网络的分层时间记忆类型的神经网络;
[0031] -预测器,包括利用根据本发明第一个方面的方法已经被训练成所述第二神经网络的分层时间记忆类型的神经网络;
[0032] -翻译器,包括这种分类器,即,其中的神经网络已经通过使用第一语言中第一和第二文本文档而被训练,及预测器,其中的神经网络已经通过使用第二语言中第一和第二文本文档而被训练,其中分类器的神经网络的节点被连接至预测器的神经网络的节点。
[0033] 在所有方面,本发明以一种全新的方式将三种不同技术组合在一起,即,自组织映射(SOM)、SOM中关键词的反向索引、以及暴露给被翻译成模式流的文本的目标神经网络。
[0034] 本发明的一个原理是产生含有关键词和二(或多)维模式之间关联的新型“关键词vs.模式”词典(简称:“模式词典”)。这种模式表示第一文档组上下文内关键词的语义。通过选择语义上下文的适当集合作为第一文档组,例如,正如稍后所描述的百科全书的文章,每种模式都反映语义上下文并因此反映关键词的意义。
[0035] 通过SOM神经网络,尤其是通过“科荷伦自组织映射”(“科荷伦特征映射”)产生模式。关于SOM的详细说明,请参见例如Kohonen,T.,“The  Self-Organizing Map”,Proceedings of the IEEE,78(9),1464-1480,1990;Kohonen,T.,Somervuo,P.,“Self-Organizing Maps of Symbol Strings”,Neurocomputing,21(1-3),19-30,1998;Kaski,S.,Honkela,T.,Lagus,K.,Kohonen,T.,,,Websom-Self-Organizing Maps of Document Collections”,Neurocomputing,21(1-3),101-117,1998;Merkl,D.,“Text Classification  with  Self-Organizing Maps:Some Lessons Learned”,Neurocomputing,21(1-3),61-77,1998;Vesanto,J.,Alhoniemi,E.,“Clustering of the Self-Organizing Map”,IEEE Transactions on Neural Networks,11(3),586-600,2000;G.,Dittenbach M.,Rauber A.,“Advanced Visualization of Self-
Organizing Maps with Vector Fields”,IEEE Transactions on Neural Networks 19,
911-922,2006;通过引入将论文的公开内容并入本文。
[0036] SOM产生的模式随后用于将关键词序列从文本文档的第二(训练)组翻译成将被馈送至(fed into)用于模式识别的第二(目标)神经网络的模式序列。模式识别是神经网络的核心能力之一。因为每种模式都表示关键词的内在意义,并且模式的一个序列表示关键词的上下文意义,所以在参考第一文档组上下文中关键词内在意义的情况下,并且在第一文档组上下文中关键词内在意义背景下,通过目标神经网络分析第二文档组中关键词的语义。因此,目标神经网络能够高效并且有意义地分析文本的语义。
[0037] 本发明的方法和装置适用于训练各种目标神经网络。优选应用是分层和至少部分递归的神经网络的训练,尤其是记忆预测框架(MPF)或分层时间记忆(HTM)类型的神经网络的训练。对于MPF和HTM的理论和实施细节,参见例如Hawkins,J.,George,D.,Niemasik,J.,“Sequence Memory for Prediction,Inference and Behaviour”,Philosophical Transactions of the Royal Society of London,Series B,Biological Sciences,364(1521),1203-9,2009;Starzyk,J.A.,He,H.,“Spatio-Temporal Memories for Machine Learning:A Long-Term Memory Organization”,IEEE Transactions on Neural Networks,20(5),768-80,2009;Numenta,Inc.,“Hierarchical Temporal Memory Including HTM Cortical Learning Algorithms”,Whitepaper of Numenta,Inc.,Version 0.2.1,September 12,2011;Rodriguez A.,Whitson J.,Granger R.,”Derivation and Analysis of Basic Computational Operations of Thalamocortical Circuits”,Journal of Cognitive Neuroscience,16:5,856-877,2004;Rodriguez,R.J.,Cannady,J.A.,“Towards a Hierarchical Temporal Memory Based Self-Managed Dynamic Trust Replication Mechanism in Cognitive Mobile Ad-hoc Networks”,Proceedings of the 10th WSEAS international conference on artificial intelligence,knowledge engineering and data bases,2011;以及专利(申请)号US 2007/0276774 A1、US 2008/0059389 A1、US 7 739 208 B2、US 7 937 342 B2、US 2011/
0225108 A1、US 8 037 010 B2及US 8 103 603 B2;通过引入将论文和申请的公开内容并入本文。
[0038] MPF和HTM神经网络储存输入模式流的分层和时序表示并且特别适用于抓取文本的时间跨度和分层语义。它们在不同分层的层上的节点(神经元)表示关键词的分层抽取(类别)本身;当输入从层次的底部被馈送至顶部时分类(抽取)是这种网络的内在工作原理,而当输入从层次的顶部被馈送至底部时预测(详细描述(detailing))是内在工作原理。
[0039] 在本发明的另一个方面,表示关键词全部类别(抽取(abstraction)、分类(category))的节点的概念用于建立翻译器作为被映射至分类器节点输出的预测器。
[0040] 根据本发明的另一个方面,数个第二文档能够被使用并且被翻译成训练模式流以便对第二文档的具体组训练第二神经网络。
[0041] 在本发明的一些实施例中,通过提高复杂性排序第二文档,并且当训练第二神经网络时,模式的单独序列按照第二文档的排序顺序被馈送至第二神经网络内,它们每个都已经由第二文档形成和翻译。这导致第二神经网络的更快训练。
[0042] 在本发明的一些其它方面,在下列的一个或多个的基础上确定第二文档的复杂性:该第二文档中不同关键词的数量、该第二文档中语句的平均长度、及该第二文档中第一组的一个或多个关键词的频率。

附图说明

[0043] 参考附图进一步详细描述本发明,其中:
[0044] 图1是本发明方法的概述流程图,包括根据本发明的第一和第二神经网络、模式词典、以及分类器、预测器及翻译器的框图;
[0045] 图2是作为图1中第一神经网络的输入矢量的用于第一文档的矢量处理阶段的流程图;
[0046] 图3是作为图1中第一神经网络的输出而产生的示例性自组织映射(SOM);
[0047] 图4是反向索引阶段的流程图,从矢量处理阶段和SOM接收输入以便产生图1中模式词典;
[0048] 图5示出具有用于SOM内两个不同关键词的示例性模式的反向索引SOM的表示;
[0049] 图6示出用于停用词(非关键词)的一些预定模式的实例;
[0050] 图7是用于图1中第二文档的第二组的关键词序列提取阶段的流程图;
[0051] 图8示出用于第二组的第二文档的可选文档排序步骤的结果;
[0052] 图9是将关键词序列翻译成图1中模式序列的步骤的流程图;及
[0053] 图10示出用作图1中第二神经网络的MPF的示例性分层(hierarchical)节点结构。

具体实施方式

[0054] 在总体概述中,图1示出语义文本处理方法和系统1,其使用第一文本文档3的第一组2来训练第一神经网络4。第一神经网络4是自组织映射(self organizing map)(SOM)类型并且产生自组织映射(SOM)5。从SOM 5中,通过反向索引阶段8产生表示在第一文档组2中出现的关键词7的模式6并且进入模式词典9。
[0055] 模式词典9用于翻译阶段10以便将从第二文档13的第二组12中提取的关键词序列11翻译成模式序列14。利用模式序列14训练第二神经网络15。第二神经网络15优选(尽管不一定)是记忆预测框架(MPF)或分层时间记忆(HTM)类型。参见路径16,训练的第二神经网络
15随后能够用于对利用模式词典9所翻译的文本进行语义分类,或参见路径17,对利用模式词典9所翻译的文本进行语义预测。参见路径18,训练的第二神经网络15的另一个可选应用是分层映射至可选第三神经网络19,其在结构上类似于第二神经网络15,但是已经以不同于第二神经网络15的语言被训练;节点映射18随后表示第一语言网络的语义节点15′与第二语言网络的语义节点19′之间的语义重合。
[0056] 现在参考图2至10详细描述图1所示组件的过程和功能。
[0057] 图2示出给第一文档3的第一组2编索引并且进行矢量化的预处理和矢量化步骤20。在步骤20中由第一组2中产生输入矢量21的一个序列,为每个第一文档3产生一个矢量
21,作为被施加至第一神经网络(SOM)4的输入层23的输入训练矢量组或矩阵(表)22。如本领域技术人员已知的,SOM神经网络4通常只包含两层,通过连接25互相连接的神经元(节点)的输入层23和输出层24,连接25的权值能够由加权矩阵表示。利用无监督学习算法能够训练SOM神经网络,其中加权矩阵的权值对输入矢量是自适应的,以便将输入层23的节点具体映射至输出层24的节点,同时考虑二(或多)维映射5中输出层24的节点的空间关系。这导致映射5,其对输入矢量21关于它们的相似性进行聚类,利用高度相似的输入矢量21在映射
5内产生区26。对于SOM神经网络的详细说明,参见上面所引用的文献参考。
[0058] 其中按照例如单个文档3长度的这种数量和粒度选择第一组2和第一文档3,例如,每一个文档3都含有语义上下文中数量为1至10个、1至20个、1至100个、1至1000个或更多的、优选约250至500个关键词7。除关键词7外,第一文档3还可以含有语义相关性很小的词(诸如冠词“一个”、“该”等等),其通常被称作停止词,在此为非关键词。
[0059] 选择组2中文档3的数量以便获得用于关键词7的语义上下文的代表性语料库,例如,数千或数百万的文档3。在一个示例性实施例中,每个都包含约250至500个关键词7的约1.000.000个文档3被用作第一文档组2。
[0060] 文档3的长度(关键词数)应当在全部组2上相当一致,关键词7应当在组2中的文档3上均匀稀疏地分配,并且每个文档3都应当含有多种多样的关键词7。
[0061] 关键词7还能够是词的根(词目),使得例如对于单数和复数形式(一只猫(cat)/多只猫(cats))或不同动词形式(进行(go)/正在进行(going))只考虑一个关键词7。因此,关键词7能够是具体的词形式和/或词根。去掉诸如停止词的不能建立重要关键词的词后,每个文档3都能够被视为关键词7的“词袋”。
[0062] 在一个实用实施例中,适当的第一组2能够例如由来自百科全书中的文章产生,诸如在维基百科 项目的“Creative Commons Attribution Licence(知识共享署名许可协议)”或“GNU Free Documentation Licence(GUN自由文档许可协议)”下获得的维基百科文章。根据章节、段等等能够将这种百科全书文章、或条目分别解析成长度相当均匀的文档3,使得每个文档3都含有语义即有意义的上下文中的关键词7。
[0063] 为了产生矢量21,产生在全部组2内出现的所有关键词7的索引并且水平扩展成矩阵(表)22的列标题27。反之亦然,全部组2中所有文档3的文档身份(“id”)垂直扩展成矩阵22中的行标题。随后,对于具体文档3中具体关键词7的每一次出现,标志或二进制“1”进入矩阵22的各自单元。因此,在矩阵22中一个水平行表示用于一个文档3的标准化“关键词-出现”矢量21,其中具体关键词位置(列位置)上的二进制“1”指出这个关键词7被包含在这个文档3的“词袋”中;而二进制“0”指出这个文档3中不存在这个关键词7。或者,相反地,对于具体关键词7,矩阵22中的每个列都示出利用含有该关键词7的二进制“1”所标记的所有那些文档3。
[0064] 输入矢量21,即表示文档3和它们关键词含量的矩阵22的行随后被连续供应给SOM神经网络4的输入层23以便对它进行训练。这意味着,如果使用例如1.000.000个第一文档3的第一组2,则1.000.000个矢量输入的训练运行被供应给第一神经网络4。
[0065] 作为这个训练运行的结果,SOM神经网络4的输出层已经产生了映射(图,map)5,其中文档3(矢量21)已经被映射至通过类似性被聚类的映射5的单个点(“像素”)Xi/Yi。图3示出映射5的一个实例。具有其关键词7袋的一个或多个文档(3)已经被映射至每个映射点X1/Y1、X2/Y2、...、Xi/Yj、...、零。文档3(矢量21)例如通过来自行标题28的它们的文档id在映射5中被识别。通过该SOM聚类过程,含有例如它们80%或90%的关键词一致的高度类似的关键词7的不同文档3以密切的空间关系被映射至彼此,因此在映射5中形成语义“区”26a、26b、
26c、26d等等。
[0066] 接着,在图4的反向索引阶段8中,在用于来自关键词索引27中的指定关键词7的矩阵22的基础上,识别含有该关键词7的所有那些文档3。例如,这通过检索矩阵22中指定关键词7的具体列中的所有二进制“1”并且查找行标题28中列出的文档3的id能够容易地实现。
[0067] 对于已经被确定成含有该指定关键词7的那些文档3,从映射5中确定参考该具体文档id的所有映射点Xi/Yj。映射点的这个组{Xi/Yj}表示模式6。模式6表示语义上下文,其中第一组2中出现的该给定关键词7:模式6中点Xi/Yj的空间(即,二维或多维)分布反映出现在第一组2中的关键词7的上下文中的那些具体语义区26a、26b、...。
[0068] 参见图4,模式6能够被编码成二进制映射31,并且还被认为是诸如第一组2的文档集合中关键词7的语义意义的二进制“指纹”或“脚印”。如果第一组2涵盖具体语言中的各种各样的有意义文本,则模式6是关键词7的高语义意义。
[0069] 模式6的空间分辨率能够等于或低于SOM神经网络4和/或映射5的空间分辨率。能够根据所需分析性能选择后者的空间分辨率:例如,映射5能够由例如1000×1000个点的百万个映射点Xi/Yj组成,并且模式6能够具有用于高精度的相同分辨率或用于较低记忆要求的较粗分辨率。
[0070] 为了便于理解,图5示出叠加在映射5上的两个不同模式6(被描述成黑点)的一个实例。在这个实例中,利用诸如“捕食者(Predator)”、“猫科(Fecines)”、“我的宠物(My Pet)”及“犬属(Canis)”的语义类别已经人工标记区26a、26b、26c、26d。这只是出于示例性目的;应当注意到,对于正确行使本方法、过程及算法的功能(这只需要映射点Xi/Yj的空间SOM分布),这种标记不是必需的。
[0071] 在图5的左表示中,利用点已经标记其中出现关键词“猫(cat)”的所有文档3。在图5的右表示中,利用点已经标记含有关键词“狗(dog)”的所有文档3。能够容易地发现,“猫”文档主要分成或被聚类成区26b(“我的宠物”)和26d(“猫科”),但是“狗”文档3主要被聚类成区26b(“我的宠物”)和26c(“犬属”)。
[0072] 返回图1,对于在第一组2中出现的每个关键词7,各自的模式6以双向映射形式,即关键词7和它的模式6之间关联,储存在模式词典9内。模式词典9组成图1中的方法和系统1的第一中间产品。模式词典9能够储存(“实施”)在例如诸如硬盘、只读光盘存储器(CD-Rom)、数字只读光盘存储器(DVD)、存储芯片、因特网服务器、因特网中的云存储等等的数据载体的计算机可读介质上。
[0073] 应当注意到,模式词典9的产生可以涉及用于训练第一神经网络4和反向索引映射5的海量处理能力的使用。因此,模式词典9被优选地预计算一次并且能够随后重复用于图1中过程和机器的另一些阶段和模块。
[0074] 基于例如能够被选择的第一文档3的不同第一组2,选定应用程序和/或及特定语言、不同模式词典9能够被预计算并且在计算机可读介质上被分配至那些实体,其执行后续阶段并且实施现在将详细描述的过程和机器的后续模块。
[0075] 在这些后续阶段和模块中,在第二文档13的第二组12基础上为了语义文本处理而训练第二(目标)神经网络15。虽然第二组12能与第一组2相同,但是在实践中第二组12可以包含第一组2的子集或确实完全不同的特定应用的第二文档13。例如,虽然第一组2包含大量通用(“百科全书的”)文档3,但是第二组12能够是用户文档13的特定应用程序的用户数据组(集合,set),其例如需要通过语义查询(关键词)扩展被搜索,通过语义分类被分类或排序,或通过语义翻译被翻译。模式词典9随后反映关于关键词7的通用语义意义的背景语义知识,同时第二神经网络15执行用户文档13的用户数据组12的深度分析。
[0076] 例如,能够从将通过第二神经网络15分析的产品数据库、网页、专利文档、医疗记录或各种数据集合来记录用户文档13。第二组12的一个先决条件是,它已经以相同语言被写成第一组2,因为否则模式词典9不能被有意义地施加至第二组12。此外,虽然不是强制性的,但是优选地,在第二组12的第二文档13中出现的关键词7包含在全部组即第一组2中关键词7的索引27内,使得第二组12的关键词7被列出并且能够在模式词典9中被查找到。
[0077] 在模式词典9中,停止词或非关键词能够被忽略或被合并成诸如图6所示的那些预定的或预配置的符号模式。
[0078] 为了训练第二神经网络15,在第一阶段32中从第二组12中提取关键词7的序列11。图1、7及8详细示出这个提取阶段。基本上如果只有一个或几个第二文档(13)按照标准读取顺序33逐词、逐行、逐段、逐章节、逐文档按顺序读取就足够了。停止词或非关键词能被跳过(或如图6所述单独处理),结果是关键词7的一个序列11。然而,优选地,第二组12被分成许多个第二文档13,并且为一个文档13产生关键词7的一个序列11。随后例如按照文档13的顺序使用序列11,它们来源于或作为用于第二神经网络15的训练输入。
[0079] 如果在提取阶段32中执行文档13和/或序列11的可选排序,则能够加速第二神经网络15的训练。对于这种可选排序,在用于第二组12的每个文档13的过程34中计算出“复杂度系数(complexity factor)”CompF。在文档13的一个或多个下列参数的基础上能够计算出复杂度系数CompF:
[0080] -文档13中不同关键词7的数量;
[0081] -文档13中语句或段的平均词数;
[0082] -例如文档13中第一组2的所有关键词7的一个或多个关键词7的频率或多样性;
[0083] -例如全部第一组2或表示例如报纸收集的通俗语的另一个文本语料库中文档13的所有关键词7的一个或多个关键词7的频率。
[0084] 参见图8,在提取阶段32中根据提高的复杂度系数CompF能够随后对文档13进行排序(分等级)。这样,给第二神经网络15提供增加复杂性的序列11,例如,原始或简单序列11或具有关键词7的适度多样性的序列11首先用于训练第二神经网络15,而具有复杂语义和语言结构的序列11则最后用于训练第二神经网络15。
[0085] 在被馈送至第二神经网络15前,关键词7的序列11在模式词典9的基础上在翻译阶段10中被翻译。在模式词典9中查找序列11中的每个关键词7,检索关联模式6,结果是模式6的序列14,对于每个文档13一个模式序列14。每个模式序列14都能够被视为表示第一文档组2的全局语义上下文内文档13中关键词7的语义上下文的模式6的时间系列或“影片剪辑”。
[0086] 应当注意到,在简单实施例中只使用模式6的一个长序列14来训练第二神经网络15就足够了。优选使用大量模式序列14(“各序列中的一个序列”),每个模式序列14都表示用于第二神经网络15的限时训练矢量(矩阵)。图9示出将关键词序列11翻译成模式序列14的翻译阶段10的一个实例。
[0087] 在训练阶段(图1中箭头35)中给第二神经网络15连续提供模式序列14以便随时间学习模式6和它们的序列。如开始时所讨论的,能够使用适合于模式的时间系列处理的所有类型的神经网络,例如,利用滑动窗口处理神经网络的前馈模式。可选地并且优选地,有或无延迟循环的递归或至少部分递归的神经网络能够用于学习并且记忆时间序列,例如,自联想或自动联想神经网络。
[0088] 在有利的实施例中,第二神经网络15还是分层的,其中层次的上层包含少于层次的下层的节点(神经元)。图10示出这种分层网络的一个实例,尤其是还含有用于学习时间序列的水平(层内,参见图1)和垂直(跨层)反馈连接的记忆预测框架(MPF)。这种MPF架构的优选形式是分层时间记忆(HTM)类型的神经网络。在上面所引用的论文中描述了MPF和HTM神经网络的理论和实施细节,通过引入将其公开内容并入本文。
[0089] 在训练配置中MPF和HTM网络发展层次内的神经元(节点),其代表层次下层中神经元(节点)的放电模式的抽取(分类)。通过使用训练的递归(反馈)层内和跨层连接,尤其是“柱状”子层结构的节点之间的连接,它们能够对放电模式的全部时间流的时间行为进行建模。这样,MPF和HTM网络能够学习、记忆及对模式流进行分类,并且识别模式序列以及从过去模式序列中预测可能的未来模式序列。
[0090] 一旦利用模式序列14已经训练神经网络,参见路径16,新模式6或新模式序列14就能够被应用成为至网络的较低层次级上的“分类”输入的新输入,以便获得作为来自较高层次级上的节点的输出的模式的语义分类/抽取;或参见路径17,新模式6或新模式序列14能够被馈送至较高层次级上的“预测”输入并且预测模式(语义预测)能够从层次中的较低级中获得。
[0091] 从图1能够看出,在路径16、17上使用模式词典9以便将关键词7的任何新“查询”序列翻译成“查询”序列14,并且将神经网络的输出模式转译成“生成的”分类或预测关键词7。
[0092] 分类路径16因此能够用于通过使用网络输入和输出接口上模式词典9的训练神经网络对查询文本进行分类;而预测路径17能够用于预测来自查询文本的关键词,例如,以便将查询关键词短语“扩展”成另一些(预测的)关键词7,其在语义上与使用神经网络的输入和输出接口二者上的模式词典9的查询短语相匹配。
[0093] 图1的虚线中示出训练神经网络的另一种应用。如果第二神经网络网络15和第三神经网络19内对应的分类节点15′、19′能够被识别,则利用不同于已经被训练的第二神经网络15的不同语言的文档3、13的组2、12训练的第三神经网络19被节点式(nodewise)映射至第二神经网络15。在第三神经网络19的输入和输出38、39上使用从第三神经网络19语言中的文档组2中产生的另一个模式词典9。这样,通过两个训练MPF或HTM网络的语义映射能够获得两个语言之间的语义翻译。
[0094] 虽然已经通过参考二维映射5和模式6描述了本发明,但是应当注意到,第一神经网络4还能产生三维或多维映射5,因此导致模式词典9中的三维或多维模式6,随后导致三维或多维模式序列14及在三维或多维中工作的第二和第三神经网络15、19。
[0095] 本发明决不被限制成详细描述成实例的具体实施例,而是包含所附权利要求书的范围所包含的所有变体、修改及其组合。