一种用于语义理解的文本序列迭代方法转让专利

申请号 : CN201510861689.1

文献号 : CN105260488B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 秦兵刘挺张牧宇郑茂李家琦

申请人 : 哈尔滨工业大学

摘要 :

一种用于语义理解的文本序列迭代方法,本发明涉及语义理解的文本序列迭代方法。本发明的目的是为了解决现有技术在语义相似度计算方面采用爬取搜索引擎检索数的方法,导致效率较低和重现代价过大,以及依赖于本体库和语义资源,需要人工校对或者纯人工构建,可扩展性方面有待提高,一定程度上限制了实际应用的问题。通过以下技术方案实现的:一、抽取原文三元组和背景知识库三元组;二、计算原文三元组的实数向量和背景知识库三元组的实数向量;三、计算语义相似度;四、计算背景知识库三元组的实数向量的权重值;五、构成序列迭代模型;六、采用支持向量机对原文进行文本分类,并对分类性能进行评估。本发明应用于计算机领域。

权利要求 :

1.一种用于语义理解的文本序列迭代方法,具体是按照以下步骤制备的:

步骤一、抽取原文三元组和背景知识库三元组;

步骤二、计算原文三元组的实数向量和背景知识库三元组的实数向量;

步骤三、设置原文三元组的权重值为1,将原文三元组作为搜索起始点,通过Cosine similarity计算原文三元组的实数向量与背景知识库三元组的实数向量语义相似度;

Cosine similarity为余弦相似度;

步骤四、根据原文三元组的实数向量与背景知识库三元组的实数向量的语义相似度的大小,对背景知识库三元组的实数向量按照语义相似度从大到小进行排序,得到从大到小排序的背景知识库三元组,计算背景知识库三元组的实数向量的权重值;具体过程为:根据原文三元组的实数向量与背景知识库三元组的实数向量的语义相似度的大小,对背景知识库三元组的实数向量按照语义相似度从大到小进行排序,得到从大到小排序的背景知识库三元组,通过 计算背景知识库三元组的权重值;

式中,N为背景知识库中的三元组数量,N为正整数,Si,j为第i次迭代、第j条背景知识库三元组的权重值,Bk为背景知识库中第k条三元组,Ti为原文中的第i条原文三元组,Wi为原文中第i条原文三元组的权重值,k为正整数,i为正整数,j为正整数,Bj为背景知识库中第j条背景知识库三元组,*为乘法,Si-1,k为第i-1次迭代、第k条背景三元组的权重;

步骤五、将原文三元组按照T1、T2……TM进行排序,M为正整数,将排序后的原文三元组按T1、T2……TM的顺序依次对步骤四得到的从大到小排序的背景知识库三元组进行激发,重复执行步骤四,直至计算完所有原文三元组,构成序列迭代模型;

步骤六、将序列迭代模型中计算出的背景知识库三元组的实数向量的权重值从高到低进行排序,前N个背景知识库三元组作为原文的外部特征加入到原文的实数向量中,N为正整数,采用支持向量机对原文进行文本分类,并对分类性能进行评估。

2.根据权利要求1所述一种用于语义理解的文本序列迭代方法,其特征在于:所述步骤一中抽取原文三元组和背景知识库三元组;具体过程为:实验数据集来自搜狗实验室提供的互联网文本分类语料库,可用文本数量为17199篇,采用互联网文本分类语料库中9个类别文本,分别是财经、IT、健康、体育、旅游、教育、招聘、文化和军事,每类文本随机抽取200篇作为测试语料,共1800篇原文,抽取工具采用哈尔滨工业大学社会计算与信息检索研究中心LTP语言技术平台,利用该平台的语义角色标注工具抽取三元组;

对互联网文本分类语料库中其余文本抽取背景三元组,随机选取2664条背景三元组,组成背景知识库,抽取工具采用哈尔滨工业大学社会计算与信息检索研究中心LTP语言技术平台,利用该平台的语义角色标注工具抽取三元组。

3.根据权利要求2所述一种用于语义理解的文本序列迭代方法,其特征在于:所述步骤三中设置原文三元组的权重值为1,将原文三元组作为搜索起始点,通过Cosine similarity计算原文三元组的实数向量与背景知识库三元组的实数向量语义相似度;具体过程为:原文三元组的实数向量与背景知识库三元组的实数向量语义相似度公式为:

式中,A为原文三元组的实数向量,B为背景知识库三元组的实数向量,θ为A与B的夹角,·为向量的内积,*为乘法,n为向量的维数,为正整数,||A||为A的范数,||B||为B的范数,Ai为第i个原文三元组的实数向量,Bi为第i个背景知识库三元组的实数向量,i为正整数。

说明书 :

一种用于语义理解的文本序列迭代方法

技术领域

[0001] 本发明涉及语义理解的文本序列迭代方法。

背景技术

[0002] 在传统的自然语言和文本挖掘[1](Kao A,Poteet S R.Natural language processing and text mining[M].Springer Science&Business Media,2007.)的研究中,将主要精力集中于词汇、短语和句子级别,但是随着应用场景逐渐复杂和技术的推陈出新,近年来篇章语义分析受到越来越多的关注并且逐渐成为当下的研究热点。
[0003] 篇章语义分析将篇章作为研究对象,研究目标是分析文字背后的语义。在已有的语义分析研究中,大部分工作着眼于文本本身,忽略了与文本内容有关的背景信息。然而,在作者写文本时,为了更好地突出主体内容,通常会省略一些相关的背景信息,这样使得文章较为简洁的同时也导致了一定程度的信息缺失。可见,文本中某些信息的省略或缺失不会影响人类的阅读理解,然而对机器而言,由于缺少必要的背景知识,这些省略或缺失的信息则有可能影响整篇文章的语义分析结果。
[0004] 目前来看,篇章语义分析的研究尚处于起步阶段,大部分研究人员侧重于文本内部信息的研究。在篇章结构分析方面,Carlson L等[2](Carlson L,Marcu D,Okurowski M E.Building a discourse-tagged corpus in the framework of rhetorical structure theory[M].Springer Netherlands,2003.)提出基RST理论的修辞结构理论树库(Rhetorical Structure Theory Discourse Treebank),Prasad R等[3](Prasad R,Dinesh N,Lee A,et al.The Penn Discourse TreeBank 2.0[C]//LREC.2008.)提出基于PDTB体系的宾州篇章树库(Penn Discourse TreeBank)。以上这些工作均取得了显著地成功,但是他们忽略了文本外部信息对文本挖掘的积极作用。
[0005] 近年来,将文本外部信息引入文本内部的相关研究鲜有成果,其中具有代表性的研究是2014年Zhang等[4](Zhang M,Qin B,Liu T,et al.Triple based Background Knowledge Ranking for Document Enrichment[J].)提出用图模型计算外部知识与文本内容的语义关联,将外部知识作为文本内容的补充。该研究在英文上开展,分别将YAGO知识库和Reverb抽取结果作为外部知识库,利用了搜索引擎计算外部知识之间的语义相似度,通过图模型的迭代,计算出外部知识与文本的语义相关度,取得了较好的结果。但是该研究在语义相似度计算方面采用爬取搜索引擎检索数的方法,导致效率较低和重现代价过大等问题,并且该研究将外部知识引入文本后没有给出具体的应用场景和相关实验结果。
[0006] 此外,引入外部知识还有两个研究方向。一是以维基百科、百度百科等大型公开百科型知识库为资源,将百科页面中的内容作为外部信息引入到文本中,辅助文本挖掘的相关任务。Cucerzan将维基百科中相关页面的信息应用于命名实体消岐的研究中[5](Cucerzan S.Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//EMNLP-CoNLL.2007,7:708-716.),之后,Zhengyan He等在此基础上用维基百科的文本信息学习命名实体的实数向量表示[6](He Z,Liu S,Li M,et al.Learning Entity Representation for Entity Disambiguation[C]//ACL(2).2013:30-34.),进而对命名实体进行消岐。2010年Zhicheng Zheng等将维基百科作为知识库[7](Zheng Z,Li F,Huang M,et al.Learning to link entities with knowledge base[C]//Human Language Technologies:The 2010Annual Conference of the North American Chapter of the Association for Computational Linguistics.Association for Computational Linguistics,2010:483-491.),结合排序学习算法在实体链指任务上取得了突出的结果。Kataria等利用知识库的非结构化文本信息和页面的类别信息训练层次化主题模型[8]
(Wikipedia-based Pachinko Allocation Model) (Kataria S S,Kumar K S,Rastogi R R,et al.Entity disambiguation with hierarchical topic models[C]//Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2011:1037-1045.),在命名实体识别中大幅度超过state-of-the-art。
上述工作利用百科知识库的非结构化文本信息和结构化信息计算语义相似度,不过均存在实体的覆盖率较高,准确率较低的情况。
[0007] 第二个相关研究是将本体库和WordNet[9](Fellbaum,C.,ed.(1998),WordNet:an electronic lexical database,MIT Press.)等外部语义资源用于自动文摘或者词汇和短语级别的语义相似度计算。Li等开发了Ontology-enriched  Multi-Document Summarization(OMS)系统进行多文档自动文摘[10](Li L,Wang D,Shen C,et al.Ontology-enriched multi-document summarization in disaster management[C]//Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval.ACM,2010:819-820.);Wu和Liu人工构建限定领域的本体库[11](Ontology-based text summarization for business news articles[J].2003.),根据本体库中的树形结构抽取句子特征,完成自动文摘。Meng等总结了在WordNet上的语义相似度计算方法[12](Meng L,Huang R,Gu J.A review of semantic similarity measures in wordnet[J].International Journal of Hybrid Information Technology,2013,6(1):1-12.)。此一类的相关工作依赖于本体库和语义资源,这些资源目前大多需要人工校对或者纯人工构建,可扩展性方面有待提高,一定程度上限制了这方面研究的实际应用。
[0008] 参考已有研究的相关优势和劣势,本文抽取结构化信息构建外部知识库,通过利用自动抽取技术规避了可扩展性方面的问题,提出序列迭代模型并优化算法效率。
[0009] 语义分析的首要步骤是将文本中的主要信息合理、全面的呈现出来。传统的表示方式通常用Bag-of-words模型,该模型忽略了文本内容的顺序,对篇章分析不利。从语义理解的角度来看,文本表示方式的合理性取决于其是否接近人脑对文本的建模方式。也就是说,如果能近似的刻画出人脑对文本的建模结构,就找到了文本表示的较好形式化模型。为此,我们查找了相关文献和书籍,从中找到了一些宝贵的可借鉴信息。自然语言处理作为语言学、心理学和计算科学交叉的学科,我们从认知心理学中找到了相关研究成果。认知心理学[13](Groome D.An introduction to cognitive psychology:Processes and disorders[M].Psychology Press,2013.)中一个重要的分支是人类对知识的加工和贮存,该领域的研究在18世纪就已经开展并一直延续至今。认知心理学家们通过一系列语义提示测试,构建起了形式模型来描述人脑中的知识结构并模拟出知识提取的过程。一类广泛使用的形式模型是符号网络模型[14](Posner M I,Rothbart M K.Research on attention networks as a model for the integration of psychological science[J].Annu.Rev.Psychol.,2007,58:1-23.),如图2所示。
[0010] 在图2中可能会造成一个假象:知识的成分就是词的组合,其实不然,经过心理学家多年的研究发现,严格来讲,知识的成分是概念。在符号网络中,概念通常用结点来表示,结点通过箭头与另一个结点联结,表明概念之间存在某种联系。在该模型中,知识的激发过程称为“记忆搜索”活动[15](Thorndyke P W.Cognitive structures in comprehension and memory of narrative discourse[J].Cognitive psychology,1977,9(1):77-110.),类似于网络结点之间的搜索过程。该搜索过程是逐个结点进行,如果搜索过的知识可以回答我们一个特定的问题,那么搜索停止,否则该过程将继续直到发现答案或者放弃。Hannigan等心理学家的研究成果进一步表明[16](Origitano T,Hannigan J,Collins M A.Rat brain salsolinol and blood-brain barrier[J].Brain research,1981,224(2):
446-451.),在知识的提取活动中需要动用情景记忆和语义记忆,通俗来讲就是情景知识和常识性知识。例如,“自行车是交通工具”和“自行车有车轮”都是常识性知识,“我的自行车是蓝色”显然是情景知识。
[0011] 除了知识的来源和搜索机制,知识的组织形式也早有研究成果出现。R.Quillian(1968)的博士论文中,最早提出了可教的语言理解者(Teachable-Language Comprehender,简称TLC)这一模型[17](Collins A M,Quillian M R.Retrieval time from semantic memory[J].Journal of verbal learning and verbal behavior,1969,8(2):240-247.),该模型提供了一个良好的开端,其假设已被应用与许多模型中。TLC假设指出语义知识通过图3所示的方式来表述,并且知识的检索是由交叉搜索(intersection search)来完成。该搜索开始于特点节点,然后同一时间扫描与开始结点相联结的所有节点,这种搜索假设没有能量的限制也就是没有扫描数量限制。
[0012] 根据上述的认知心理学相关研究,确定了知识的组织形式和激发方式,下面讨论什么方式可以合理的将知识呈现出来。词汇来表达知识有其不可回避的问题,例如词汇的一词多义情况,较难准确表达概念意义,如果用短语表达虽然一定程度上弥补了这一问题,但是短语的语义依然会受到不同情境的影响。本文中采用三元组的形式表示知识的概念,减少了在应用场景中一词多义带来的影响,该表示形式也是目前语义知识库的主流表示方案[18](Hoffart J,Suchanek F M,Berberich K,et al.YAGO2:A spatially and temporally enhanced knowledge base from Wikipedia[C]//Proceedings of the Twenty-Third international joint conference on Artificial Intelligence.AAAI Press,2013:3161-3165.)。
[0013] 隐含狄利克雷(LDA)模型是近年来研究较多的一种主题模型,由Blei等于2003年提出[20](Blei D M,Ng AY,Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003,3:993-1022.)。其主要特点是能够计算出文本的潜在语义信息,可将不定长度的文本映射到固定维度的潜在语义空间中。该模型是无监督的机器学习技术,可以抽象为三层贝叶斯模型,且假设文本是由多个潜在的主题生成。模型的输入为生文本语料,输出为每篇文本的主题分布θm和各主题下的词汇分布Φk。

发明内容

[0014] 本发明的目的是为了解决现有技术在语义相似度计算方面采用爬取搜索引擎检索数的方法,导致效率较低和重现代价过大,以及依赖于本体库和语义资源,需要人工校对或者纯人工构建,可扩展性方面有待提高,一定程度上限制了实际应用的问题,而提出的一种用于语义理解的文本序列迭代方法。
[0015] 上述的发明目的是通过以下技术方案实现的:
[0016] 步骤一、抽取原文三元组和背景知识库三元组;
[0017] 步骤二、计算原文三元组的实数向量和背景知识库三元组的实数向量;
[0018] 步骤三、设置原文三元组的权重值为1,将原文三元组作为搜索起始点,通过Cosine similarity计算原文三元组的实数向量与背景知识库三元组的实数向量语义相似度;Cosine similarity为余弦相似度;
[0019] 步骤四、根据原文三元组的实数向量与背景知识库三元组的实数向量的语义相似度的大小,对背景知识库三元组的实数向量按照语义相似度从大到小进行排序,得到从大到小排序的背景知识库三元组,计算背景知识库三元组的实数向量的权重值;
[0020] 步骤五、将原文三元组按照T1、T2……TM进行排序,M为正整数,将排序后的原文三元组按T1、T2……TM的顺序依次对步骤四得到的从大到小排序的背景知识库三元组进行激发,重复执行步骤四,直至计算完所有原文三元组,构成序列迭代模型;
[0021] 步骤六、将序列迭代模型中计算出的背景知识库三元组的实数向量的权重值从高到低进行排序,前N个背景知识库三元组作为原文的外部特征加入到原文的实数向量中,N为正整数,采用支持向量机对原文进行文本分类,并对分类性能进行评估。
[0022] 发明效果
[0023] 采用本发明的一种基于文本序列迭代模型的篇章语义理解方法,结合外部知识库,提出一种文本表示模型,并在该模型上设计一种高效算法,将外部知识库中的信息引入文本。首先将文本内部的信息与外部知识库中的信息抽象表示在一个序列模型中,随后模拟人的阅读和认知习惯,迭代的计算外部知识库中的信息与文本的语义相关性,根据最后一次迭代计算出的语义相关性对外部知识进行排序,并采用P@N和MAP这两个排序评价指标进行评价。
[0024] 1、针对某些研究在语义相似度计算方面采用爬取搜索引擎检索数的方法,导致效率较低和重现代价过大等问题,本文通过将三元组转换成实数向量,并通过余弦相似度来表示语义相似度。该方法效率较高,便于重现。
[0025] 2、某些相关工作依赖于本体库和语义资源,这些资源目前大多需要人工校对或者纯人工构建,可扩展性方面有待提高,一定程度上限制了这方面研究的实际应用。本文中采用了一种自动抽取三元组来构建背景知识库的方法,不需要人工构建知识库,也不需要人工校对,大大节省人力。
[0026] 3、背景三元组排序对比实验表明,本文提出的序列迭代模型排序性能明显优于其他方法,在P@5、MAP(5)、MAP(10)等指标均超过现有方法10%,P@10超过7%。
[0027] 4、同时为了验证引入外部知识的效果,将该模型应用在文本分类任务上,把引入的外部知识作为文本特征的补充,并与未引入外部知识的分类方法进行对比,实验结果显示,引入外部知识的情况下,文本分类的F值提高1.5%,也说明了外部知识确实对文本信息的理解有帮助。

附图说明

[0028] 图1为本发明流程图;
[0029] 图2为符号网络模型图;
[0030] 图3为TLC模型图;
[0031] 图4为序列迭代模型图,T1~TM表示文本中的三元组,Si,j表示第i次迭代、第j条背景知识库三元组的权重值(具体的计算方法在4.3中详述),箭头表示激发过程,且每条文本中的三元组(Ti)均存在指向背景知识库中所有三元组的箭头,i和j为正整数,从1开始;
[0032] 图5为P@5、P@10随L不同取值的变化趋势图,P@5为单次搜索结果中前5条的准确率,P@10为单次搜索结果中前10条的准确率,L用于表示所选取的权重值最高的前L条背景三元组,L和N为正整数;
[0033] 图6为MAP(5)、MAP(10)随L不同取值的变化趋势图,MAP(5)为单次搜索结果中前5条的平均准确率,MAP(10)为单次搜索结果中前10条的平均准确率,L用于表示所选取的权重值最高的前L条背景三元组。

具体实施方式

[0034] 具体实施方式一:结合图1说明本实施方式,本实施方式的一种用于语义理解的文本序列迭代方法,具体是按照以下步骤制备的:
[0035] 步骤一、抽取背景知识库三元组和原文三元组,原文用于验证模型;
[0036] 知识概念顾名思义是表达一个完整概念信息的单元,如4.2所述,在该模型中用三元组的形式表达。为了使三元组能充分表达文本中的语义信息,我们利用语义角色标注(SRL)对文本中的句子进行主干信息抽取[19](Liu T,Che W,Li S,et al.Semantic role lableing system using maximum entropy classifier[C]//Proceedings of the Ninth Conference on Computational Natural Language Learning.Association for Computational Linguistics,2005:189-192.),主要是抽取A0-谓词-A1这样的三元组,通俗来讲可以认为是抽取句子的主、谓、宾信息。抽取结果举例如下,“我国航空工业-实现-跨越式发展”,“伊朗海军-试射-新型鱼雷”;
[0037] 步骤二、计算原文三元组的实数向量和背景知识库三元组的实数向量(采用LDA、VSM、word2vec等模型);
[0038] 步骤三、设置原文三元组的权重值为1,将原文三元组作为搜索起始点,通过Cosine similarity计算原文三元组的实数向量与背景知识库三元组的实数向量语义相似度;Cosine similarity为余弦相似度;
[0039] 步骤四、根据原文三元组的实数向量与背景知识库三元组的实数向量的语义相似度的大小,对背景知识库三元组的实数向量按照语义相似度从大到小进行排序,得到从大到小排序的背景知识库三元组,计算背景知识库三元组的实数向量的权重值;
[0040] 步骤五、将原文三元组按照T1、T2……TM进行排序,M为正整数,将排序后的原文三元组由T1、T2……TM的顺序依次对步骤四得到的从大到小排序的背景知识库三元组进行激发,重复执行步骤四,直至计算完所有原文三元组,构成序列迭代模型;
[0041] 步骤六、将序列迭代模型中计算出的背景知识库三元组的实数向量的权重值从高到低进行排序,前N个(例如,权重值最高的前20个)背景知识库三元组作为原文的外部特征加入到原文的实数向量(可以通过VSM、LDA、tf-idf等模型得到文本实数向量)中,N为正整数,采用支持向量机(SVM)对原文进行文本分类,并对分类性能进行评估(计算precision、recall、F-measure)。
[0042] 具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一中抽取背景知识库三元组和原文三元组;具体过程为:
[0043] 实验数据集来自搜狗实验室提供的互联网文本分类语料库,经过初步过滤(人为设置对其进行过滤,过滤掉文章中的非法字符,以及文字长度过段的文章,)可用文本数量为17,199篇,采用互联网文本分类语料库中9个类别文本,分别是财经、IT、健康、体育、旅游、教育、招聘、文化和军事,每类文本随机抽取200篇作为测试语料,共1800篇原文,抽取工具采用哈尔滨工业大学社会计算与信息检索研究中心LTP语言技术平台,利用该平台的语义角色标注工具抽取三元组;
[0044] 对互联网文本分类语料库中其余文本(17199-1800)抽取背景三元组,随机选取2664条背景三元组,组成背景知识库,抽取工具采用哈尔滨工业大学社会计算与信息检索研究中心LTP语言技术平台,利用该平台的语义角色标注工具抽取三元组。
[0045] 其它步骤及参数与具体实施方式一相同。
[0046] 具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤三中设置原文三元组的权重值为1,将原文三元组作为搜索起始点,通过Cosine similarity(余弦相似度)计算原文三元组的实数向量与背景知识库三元组的实数向量语义相似度;具体过程为:
[0047] 原文三元组的实数向量与背景知识库三元组的实数向量语义相似度公式为:
[0048]
[0049] 式中,A为原文三元组的实数向量,B为背景知识库三元组的实数向量,θ为A与B的夹角,·为向量的内积,*为乘法,n为向量的维数,为正整数,||A||为A的范数,||B||为B的范数,Ai为第i个原文三元组的实数向量,Bi为第i个背景知识库三元组的实数向量,i为正整数。
[0050] 其它步骤及参数与具体实施方式一或二相同。
[0051] 具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述步骤四中根据原文三元组的实数向量与背景知识库三元组的实数向量的语义相似度的大小,对背景知识库三元组的实数向量按照语义相似度从大到小进行排序,得到从大到小排序的背景知识库三元组,计算背景知识库三元组的权重值;具体过程为:
[0052] 根据原文三元组的实数向量与背景知识库三元组的实数向量的语义相似度的大小,对背景知识库三元组的实数向量按照语义相似度从大到小进行排序,得到从大到小排序的背景知识库三元组,通过 计算背景知识库三元组的权重值;
[0053] 式中,N为背景知识库中的三元组数量,N为正整数,Si,j为第i次迭代、第j条背景知识库三元组的权重值,Bk为背景知识库中第k条三元组,Ti为原文中的第i条原文三元组,Wi为原文中第i条原文三元组的权重值,k为正整数,i为正整数,j为正整数,Bj为背景知识库中第j条背景知识库三元组,*为乘法,Si-1,k为第i-1次迭代、第k条背景三元组的权重。
[0054] 其它步骤及参数与具体实施方式一至三之一相同。
[0055] 采用以下实施例验证本发明的有益效果:
[0056] 实施例一:
[0057] 本实施例一种用于语义理解的文本序列迭代方法,具体是按照以下步骤制备的:
[0058] 步骤一、抽取背景知识库和原文的三元组,原文用于验证模型;
[0059] 实验数据集来自搜狗实验室提供的互联网文本分类语料库,经过初步过滤,可用文本数量为17,199篇。采用语料库中的9个类别的文本,分别是财经、IT、健康、体育、旅游、教育、招聘、文化、军事。每类文本随机抽取200篇作为测试语料,共1800篇原文。对语料库中其余文本抽取三元组,从抽取结果中随机选取2664条背景三元组,组成背景知识库。抽取工具采用哈尔滨工业大学社会计算与信息检索研究中心LTP语言技术平台,利用该平台的语义角色标注工具抽取三元组。
[0060] 步骤二、计算原文三元组的实数向量和背景知识库三元组的实数向量(采用LDA、VSM、word2vec等模型);
[0061] 选择向量空间模型(VSM)、词向量模型(Word Embedding)和隐含狄利克雷模型(LDA)作为baseline。这里的LDA模型仅用作将本发明和三元组向量化表示,并不应用到层次化联想模型中。
[0062] 步骤三、设置原文三元组的权重值为1,将原文三元组作为搜索起始点,通过Cosine similarity计算原文三元组的实数向量与背景知识库三元组的实数向量语义相似度;Cosine similarity为余弦相似度;
[0063] 在VSM模型中,原文三元组与背景知识库中的三元组均用tf-idf表示,计算文本与三元组的Cosine similarity,将该值作为三元组的权重值。在Word Embedding模型和LDA模型中,分别用词向量,按照三元组向量表示法将词向量合成文本和三元组向量,计算文本与三元组的Cosine similarity,将该值作为三元组的权重值。
[0064] 三元组向量表示法为通过LDA模型,可以得到词在不同主题下的生成概率(Φk),将这些概率表示成一个向量的形式,可以将该向量看成是词在潜在语义空间中的表示。三元组是由多个词组合而成,这里我们假设三元组的语义是词语义的叠加。例如,三元组由N个词构成,每个词表示成K维向量V,那么三元组向量T也有K维,且每一维计算方法如下[0065]
[0066] 式中,Vi,j为第i个词的实数向量的第j维,Tj为三元组的第j维;
[0067] 步骤四、根据与原文三元组语义相似度的大小,对背景知识库三元组按照语义相似度从大大小进行排序,计算背景知识库三元组的权重值;
[0068] 步骤五、根据原文三元组的顺序(T1、T2……TM,M为正整数),按次序对背景知识库的三元组依次进行激发(T1分别按从大到小排序的背景知识库三元组的次序对背景知识库三元组依次进行激发,然后T2分别按从大到小排序的背景知识库三元组的次序对背景知识库三元组依次进行激发,……,然后TM分别按从大到小排序的背景知识库三元组的次序对背景知识库三元组依次进行激发),重复执行步骤四,直至计算完所有原文三元组,构成序列迭代模型;如图4;
[0069] Our Model:在序列迭代模型中,Wi表示文本中三元组的语义重要程度,在实验中将Wi均设为1。此外,为了更加直观证明本模型的有效性,我们去掉层次网络模型,将文本中的三元组全部抽取出来,每个背景知识库中的三元组与文本中所有的三元组的Cosine similarity加和作为该背景三元组的权重值,记为Ours-B,将层次联想模型记为Ours-A。
[0070] 评价方案:在构建背景知识库的过程中,从已经有类别标签的文本抽取,记录每个背景知识库中的三元组出自哪个类别的文本。通过这样类似自动标注的方法得到了每个背景三元组的类别信息。假设文本类别为财经类,那么对于每一条背景三元组来说,如果它属于财经类,将其标为正例(1)称为相关三元组,否则标为负例(0),称为不相关三元组。
[0071] 表1 L不同取值下的排序结果
[0072] Tab.1 The ranking results under different values of L
[0073]
[0074] 表1中可见当L值为5时P@5、P@10的指标最高,L值为7时MAP(5)、MAP(10)的指标最高,但是L为5、7时,其他指标相差很小。这说明L为5时在top5和top10中,相关三元组数量最多,L为7时在top5和top10中,相关三元组数量相对L为5时有所减少,但是相关三元组的排名更加靠前。
[0075] 再分析下四个指标的变化趋势,如图5和图6。图4为P@5、P@10随L不同取值的变化趋势图,P@N本身是Precision@N的简称,指的是对特定的查询,考虑位置因素,检测前N条结果的准确率,P@5为单次搜索结果中前5条的准确率,P@10为单次搜索结果中前10条的准确率,L用于表示所选取的权重值最高的前L条背景三元组,L和N为正整数;图5为MAP(5)、MAP(10)随L不同取值的变化趋势图,MAP方法是Mean Average Precison,即平均准确率的简称,MAP(5)为单次搜索结果中前5条的平均准确率,MAP(10)为单次搜索结果中前10条的平均准确率,L用于表示所选取的权重值最高的前L条背景三元组。
[0076] 从趋势可以看出,随着L的增大(从1开始),P@5、P@10、MAP(5)、MAP(10)的结果均为先上升后下降。经过分析认为,导致该现象的原因主要是每个三元组所属的类别不一定只有一个,也就是每个三元组可能出现在不同的类别中。通过统计发现,仅在2664条背景三元组中,就有513条三元组属于多个类别,占到19.3%,由此可见,每个文本中的三元组和背景知识库中的三元组均有可能对应多个类别,那么对于一个三元组来说,与其同类别三元组之间的Cosine similarity值不一定为最高,也就导致了非同一个类别的背景三元组也有可能排在同类别背景三元组之前。
[0077] 表2 背景三元组排序对比实验结果
[0078] Tab.2 Comparison of ranking results
[0079]
[0080] 表2中可见,Ours-A的各项指标均为最高,并且在P@5、MAP(5)、P@10、MAP(10)四个指标上分别高于LDA模型0.14、0.12、0.06、0.1,高于Ours-B模型0.25、0.12、0.06、0.1。
[0081] 从实验结果可以看出,本文提出的模型排序性能明显优于其他baseline,也就是层次联想模型可以将与文本信息更相关的外部知识通过排序的形式找出。
[0082] 实施例二:
[0083] 该部分实验采用的语料为上部分5.1实验中的1800篇文本分类语料,每类200篇共9类。训练语料与测试语料比例为2:1,即每个类别的200篇文本中,134篇为训练,66篇为测试,故此共1206篇训练语料,594篇测试语料。
[0084] 步骤一:采用经典方法将文本向量化。
[0085] 采用文本分类中比较经典的VSM模型和LDA模型。在VSM模型中,每个词项权重计算分为:布尔型和tf-idf这两种。采用SVM分类器进行训练和测试。
[0086] 步骤二、将序列迭代模型中计算出的权重值最高的前N个(本发明是前5个和前10个)背景知识库三元组作为原文的外部特征加入到原文的实数向量(可以通过VSM、LDA、tf-idf等模型得到文本实数向量)中,N为正整数,采用支持向量机(SVM)对原文进行文本分类,并对分类性能进行评估(计算precision、recall、F-measure)。
[0087] Our Model:将层次联想模型中计算出权重值较高的背景三元组作为文本外部特征引入到表示文本的实数向量中。分别对5.1中提到的Ours-A和Ours-B两个模型分别进行文本分类的实验,根据引入背景三元组的数量不同,分为Top5和Top10,分别对应引入权重值最高的前5个和前10个背景三元组。SVM模型采用lib-svm工具包。
[0088] 评价指标:准确率(Precision)、召回率(Recall)以及F值(F-Measure),文本分类的实验结果采用宏平均的方式,计算Macro-P、Macro-R、Macro-F。
[0089] 表3 文本分类实验结果
[0090] Tab.3 Comparison of text classification results
[0091]
[0092] 表3可以看出,Ours-A(Top5)模型在P、R、F三项值上均为最高结果,且在macro-F指标上高于LDA模型1.50%。Ours-B的P@5和P@10均小于0.5,MAP值也是0.5附近,并且P@10大于P@5,可见引入的三元组数量越多,包含相关三元组的数量就越多,对文本分类的帮助也就越大。Ours-A正好相反,P@5大于P@10,并且MAP(5)大于MAP(10),故此对于Ours-A来说引入的三元组数量越多,包含的相关三元组数量减少并且不相关三元组在排序中的位置靠后。故此,对于Ours-B来说,在分类任务上Top10结果优于Top5的结果,对于Ours-A来说正好相反。
[0093] 由于Ours-A和Ours-B的结果均高于两组baseline,说明外部知识对文本分类任务有帮助。如果将文本分类看成是语义理解的一个实例化任务,那么这样的实验结果也验证了外部知识对文本语义理解有帮助。同时Ours-A的结果优于Ours-B的结果说明层次联想模型的效果较好。
[0094] 本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。