一种考虑概念抽象度的浅层分析自动文档综述方法转让专利

申请号 : CN200810231990.4

文献号 : CN101382962B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郭雷王晓东方俊

申请人 : 西北工业大学

摘要 :

本发明涉及一种考虑概念抽象度的浅层分析自动文档综述方法,属于信息检索、情报科学领域。其特征在于:首先对于文档进行预处理并设定抽象度值,然后通过多义词消歧处理把文档中的句子用概念矢量模型表示,再将句子聚类成多个主题相似的簇,接着根据从文集中抽取出的主题词个数确定综述的压缩比,之后确定句子的抽象度,继而依据IMMRA值依次从聚类簇中选取压缩比要求数量个文摘句,最后对抽取的文摘句进行排序并输出综述文档。有益效果:实现了考虑抽象度的自动文档综述,降低自动综述文摘因概念包含关系引起的信息冗余或缺失;方法可以根据主题的数量自适应调整文摘的长度,还可以根据用户的抽象度需求调节综述的归纳度,具有很好的适应性。

权利要求 :

1.一种考虑概念抽象度的浅层分析自动文档综述方法,其特征在于步骤如下:

步骤1:获得数据并设定抽象度值:将查询Q提交给搜索引擎,返回查询结果Web文档集D={d1,d2,…,dk,…},对D中的诸文档进行提取文本内容、去除停用词与网页标记、词根还原处理后,以文本文档句子为基本单位,按照文本文档句子出现的次序,顺序存储为集合 其中: 是序号为l、文本文档dk包含的一个文本文档句子,集合R包含的文本文档句子个数为N=|R|;然后设定文档综述的抽象度值θ,0≤θ≤1,θ值随抽象度增加而增大;

步骤2:将文本文档句子表示为概念模型矢量:先将R中所有出现的词汇转换为概念,将得到的所有概念无重复地组成概念集合C={c1,c2,…,ci,…},其中ci为一个概念,共计得到n=|C|个概念,然后以C为特征,仿照tf·idf加权方案将R表示为N个概念模型矢量组成的集合 其中 所述转换中,若词汇为多义词,则采用基于本体的多义词消歧处理实现,若词汇为单义词或为未在本体中出现的未登录词,则采用以词汇自身作为其概念的方法实现;所述文本文档句子概念模型矢量的分量 为ci在 中的权重,其中ni为D中有词汇可转换为ci的文本文档数目,log(|D|/ni)是ci在D中的逆频率,tfi是ci对应词汇在dk中的出现频率,freq(ci)是ci在 中的频率;

步骤3:将主题近似的文本文档句子进行聚集:对 中所有文本文档句子的概念矢量进行基于文本文档句子语义相似度的合成聚类,每次合成时计算合成前后,类的半偏相关系数HDCC,当HDCC大于阈值μ时聚类停止,0<μ≤1;聚类完成后得到由主题近似文本文档句子组成的聚类簇集合{LT1,…,LTo};所述文本文档句子语义相似度其中 与 为任意两不同的文本文档句子概念模型矢量,为 权值非0的概念数, 为 与 权值非0且相同的概念数;

所述的半偏相关系数 分子WM-WK-WL表示聚类过程中待合并的中间

类CLK和CLL合并为下一层次的类CLM时引起的类内离差平方和的增量,分母 表示类CLK和类CLL合并前,同层次所有类的总离差平方和,其中任意类CL的类内离差平方和为步骤4:计算压缩比确定综述长度:对于概念c,当I(c)≤I临,则认定c为主题概念,记为tc, son(c)i为概念c在本体中的直接子概念,w(c)为概念c在文本文档句子矢量集合 中的权值w的总和 I临为0.3,由此利用子概念频度方法从C中抽出主题概念并构成主题概念集合TC={tc1,…,tcj,…,tcm},根据主题概念的数量|TC|和抽象度设定值θ计算自动综述的压缩比r,得到综述长度为N·r;所述的压缩比 其中,λβ为比例调节系数,取值为1≤λβ≤N/|TC|;

步骤5:确定各文本文档句子抽象度值:将TC作为基准,计算R的各文本文档句子抽象度值 所述 其中,

deg(c1/c2)=|1/log2[|pcc(c1,Root)|+1]-1/log2[|pcc(c2,Root)|+1]|为概念相对抽象度值,c1,c2∈C是任意一对概念,Root是本体的根概念,|pcc(c,Root)|是本体中概念c到Root之间连接边的条数;所述步骤6:抽取文摘句:根据θ值、各文本文档句子抽象度值、查询Q、文摘句集合A,A=φ,计算R各文本文档句子的IMMRA值;依次从{LT1,…,LTo}各簇中每次抽取一个IMMRA值最大的文本文档句子作为文摘句,放入A并从所属簇中去除,循环进行直到|A|≥N·r;所述其中,λ为相似度参考权值参数,0≤λ≤1;

步骤7:对文摘句进行排序并输出综述文档:在文档集合中找到包含A中文摘句最多的文档dc作为参考框架,将各文摘句按各自在dc中最相似文本文档句子的位置进行排序定位,最终生成文摘句排列顺序与dc一致的综述文档输出。

说明书 :

一种考虑概念抽象度的浅层分析自动文档综述方法

技术领域

[0001] 本发明涉及一种考虑概念抽象度的浅层分析自动文档综述方法,属于信息检索、情报科学领域。

背景技术

[0002] 自动文档综述就是利用计算机对多篇文档编制文摘的技术,它将同一主题的多个文档去除冗余信息,按照一定的压缩比将主要内容有机地融合成一篇简短的综述文档,为人们廉价、迅速和准确地了解文集内容提供方便。随着互联网的发展和普及,自动文档综述被用作搜索引擎的后处理,它能够将搜索引擎返回的大量检索结果生成为综述提交给用户,显著地提高用户信息获取的效率。自动文档综述技术从实现方法上可以分为浅层分析法和深层分析法,其中浅层分析法利用统计特征和语言学特征获取主题信息,不需要对文档进行“理解”而易于工程实现,是目前自动文档综述的主流方法。
[0003] 浅层分析自动综述通常采用从原文中摘取句子组成综述文档的方法实现。方法将文档视为句子的线性序列,将句子视为词的线性序列,操作分4步进行:(1)计算文集中词的权值;(2)根据词的权值计算句子的权值;(3)对原文中的所有句子按句子权值高低降序排列,选择权值最高的若干句子为文摘句;(4)将选定文摘句按照一定顺序排列输出形成综述文档。整个过程中,(1)、(2)、(3)步的权值计算和文摘句选择最为关键,传统的方法主要是依据词频、标题、位置、句法结构、线索词、指示性短语等特征来实现该计算和选择,力求组成综述的各个文摘句之间没有语义重复,信息冗余尽可能的小,进而达到在有限的字数内传达出最大量信息的目的。然而,在实际的文档句子中,经常会出现大量具有包含关系(part-of、kind-of等)的概念,它们在语义上存在重叠。可是,使用上述传统方法进行自动综述时这一现象会被忽视,而得不到符合文档综述概念归纳原则的处理,这就会造成信息的冗余或缺失。例如:“买苹果”、“买香蕉”、“买橘子”,其语义都可包含在“买水果”这句话中,可是当这4个句子都出现在文集中,现有自动文档综述方法无法确保选出“买水果”来对其它句子进行概括归纳,从而导致信息冗余或缺失。另外,在对搜索引擎返回的检索结果进行自动综述处理时,由于不同用户对归纳程度的要求不尽相同,因而上例中的归纳处理也应当与之相适应。例如:当人们只想知道检索结果文集的大体概况时,则归纳程度高,会从“买苹果”、“买香蕉”、“买橘子”、“买商品”、“买水果”中选择“买商品”作为综述文摘句;如果人们想了解更具体的细节则可以降低归纳程度,从5句话中选择“买水果”作为综述文摘句。然而,现有浅层分析自动综述也不具备这样的调节能力。
[0004] 从以上背景介绍可以看出,现有浅层分析自动文档综述无法对具有包含关系的概念进行归纳处理,更不具有对概念归纳度的调节能力,具体表现为生成综述信息冗余量偏大或信息缺失,算法无归纳调节的功能。

发明内容

[0005] 要解决的技术问题
[0006] 为了消除现有浅层分析自动文档综述方法不具有概念归纳的综述能力,无概念归纳调节功能的缺陷,本发明提出一种考虑概念抽象度的浅层分析自动文档综述方法,可以根据概念抽象度进行自动文档综述的概念归纳和归纳度调节。
[0007] 技术方案
[0008] 本发明的基本思想是:参考知识本体所体现的概念抽象度来选择文摘句。生成综述的过程实际上就是对原文内容的选择和归纳的过程。这里的归纳可以将信息压缩为更抽象的形式,但由于统计特征和语言学特征不提供相关支持,所以传统综述方法很难做到。为此,本发明考虑利用知识本体的概念层级关系所体现的概念抽象度(如图1),来指导机器实现满足概念归纳原则的文摘句选择,从而降低信息冗余度。在一定抽象度值条件下,当句子的抽象度过低或过高时,降低其被选入综述的可能性,反之增加该可能性。由于本体描述了从最抽象概念到最具体概念的全部渐变过程,因而可以在这个连续的变化过程中任意调整一个抽象度值来控制上述文摘句的选取,从而实现自动综述的归纳度调节功能。
[0009] 本发明的技术特征在于步骤如下(如图2):
[0010] 步骤1:获得数据并设定抽象度值:将查询Q提交给搜索引擎,返回查询结果Web文档集D={d1,d2,…,dk,…},对D中的诸文档进行提取文本内容、去除停用词与网页标记、词根还原处理后,以文本文档句子为基本单位,按照文本文档句子出现的次序,顺序存储为集合 其中: 是序号为l、文本文档dk包含的一个文本文档句子,集合R包含的文本文档句子个数为N=|R|;然后设定文档综述的抽象度值θ,0≤θ≤1,θ值随抽象度增加而增大;
[0011] 步骤2:将文本文档句子表示为概念模型矢量:先将R中所有出现的词汇转换为概念,将得到的所有概念无重复地组成概念集合C={c1,c2,…,ci,…},其中ci为一个概念,共计得到n=|C|个概念,然后以C为特征,仿照tf·idf加权方案将R表示为N个概念模型矢量组成的集合 其中 所述转换中,若词汇为多义词,则采用基于本体的多义词消歧处理实现,若词汇为单义词或为未在本体中出现的未登录词,则采用以词汇自身作为其概念的方法实现;所述文本文档句子概念模型矢量 的分量 为ci在 中的权重,其中ni为D中有词汇可转换
为ci的文本文档数目,log(|D|/ni)是ci在D中的逆频率,tfi是ci对应词汇在dk中的出现频率,freq(ci)是ci在 中的频率;
[0012] 步骤3:将主题近似的文本文档句子进行聚集:对 中所有文本文档句子的概念矢量进行基于文本文档句子语义相似度的合成聚类,每次合成时计算合成前后,类的半偏相关系数HDCC,当HDCC大于阀值μ时聚类停止,0<μ≤1;聚类完成后得到由主题近似文本文档句子组成的聚类簇集合{LT1,…,LT0};所述文本文档句子语义相似度其中 与 为任意两不同的文本文档句子概念模型矢量,为 权值非0的概念数, 为 与 权值非0且相同的概念数;
所述的半偏相关系数 ,分子WM-WK-WL表示聚类过程中待合并的中间
类CLK和CLL合并为下一层次的类CLM时引起的类内离差平方和的增量,分母 表示
类CLK和类CLL合并前,同层次所有类的总离差平方和,其中任意类CL的类内离差平方和为[0013] 步骤4:计算压缩比确定综述长度:利用子概念频度方法从C中抽出主题概念并构成主题概念集合TC={tc1,…,tcj,…,tcm},根据主题概念的数量|TC|和抽象度设定值θ计算自动综述的压缩比r,得到综述长度为N·r;所述的压缩比 其中,λβ为
比例调节系数,取值为1≤λβ≤N/|TC|;
[0014] 步骤5:确定各文本文档句子抽象度值:将TC作为基准,计算R的各文本文档句子抽象度值 ;所述 其中,deg(c1/c2)=|1/log2[|pcc(c1,Root)|+1]-1/log2[|pcc(tc2,Root)|+1]|为概念相对抽象度值,c1,c2∈C是任意一对概念,Root是本体的根概念,|pcc(c,Root)|是本体中概念c到Root之间连接边的条数;所述
[0015] 步骤6:抽取文摘句:根据θ值、各文本文档句子抽象度值、查询Q、文摘句集合A,A=φ,计算R各文本文档句子的IMMRA值;依次从{LT1,…,LT0}各簇中每次抽取一个IMMRA值最大的文本文档句子作为文摘句,放入A并从所属簇中去除,循环进行直到|A|≥N·r;所述 ,其中,λ为相
似度参考权值参数,0≤λ≤1;
[0016] 步骤7:对文摘句进行排序并输出综述文档:在文档集合中找到包含A中文摘句最多的文档dc作为参考框架,将各文摘句按各自在dc中最相似文本文档句子的位置进行排序定位,最终生成文摘句排列顺序与dc一致的综述文档输出。
[0017] 有益效果
[0018] 本发明提出一种考虑抽象度的浅层分析自动文档综述方法,利用本体的概念层级关系结构赋予的概念抽象度来对句子进行抽象度计算,并参考初始设定的抽象度参数完成考虑抽象度的文摘句选取,从而降低自动综述文摘因概念包含关系引起的信息冗余或信息缺失。
[0019] 方法可以根据主题的数量自适应调整文摘的长度,还可以根据抽象度需求调节综述的归纳度,具有很好的适应性。

附图说明

[0020] 图1:本体概念抽象度关系示意图
[0021] 图2:本发明方法的基本流程图
[0022] 图3:文摘句抽取过程示意图

具体实施方式

[0023] 现结合附图对本发明作进一步描述:
[0024] 本发明采用Google搜索引擎输入查询Q,“水果”,将返回结果的前50个Web文档构成文集D作为实施实例;采用WordNet2.1作为本体;用于实施的硬件环境是:P43.0Ghz CPU、内存512M、硬盘80G;Windows XP Professional操作系统、NTFS文件系统;主程序采用VC++6.0实现。
[0025] 1、获得数据并设定抽象度值。读入搜索引擎返回的Web文档,去除网页标记、去除非文本噪声信息、去除停用词、进行词根还原处理,以文本文档句子为基本单位构成文集R作为自动综述处理对象,另由用户设定自动综述抽象度值θ=0.5。
[0026] 2、将文本文档句子表示为概念模型矢量。对文本文档句子中的多义词进行基于WordNet的扩展Lesk消歧处理算法得到对应概念,算法如(1)式:
[0027] i≠0 (1)
[0028] 这里,c为待消歧多义词t在文中的正确概念,ck是t的一个概念,ti,j表示t的上下文窗口(文本文档中t左16个和右13个位置的范围内的词)中的第i个词的第j个概念,这里函数relatedness定义如下:
[0029]
[0030] A、B表示概念,Ri为WordNet中定义的概念之间的关系函数,Ri(A)的输出为与A具有Ri关系的概念的释义(gloss)。出于简化计算的目的,这里Ri只考虑同义关系、上下位关系、整体与部分关系三种关系,则p=4。其中,R0(A)表示概念A的同义概念释义、R1(A)表示概念A的上位概念释义,R2(A)表示概念A的下位概念释义,R3(A)表示概念A的整体概念释义,R4(A)表示概念A的部分概念释义。score为覆盖度评价函数,用于计算释义之间的单词覆盖度,有:
[0031]
[0032] gloss为释义词集合,|gloss|为释义词集合包含的词的个数。
[0033] 由公式(1)、(2)、(3),可求得t在上下文语境中的正确概念c。
[0034] 对于单义词直接从WordNet中获得对应的概念。对于WordNet不包含的未登录词保留不进行处理,以其本身代表所表达的概念。
[0035] 将得到的所有概念组成无重复概念集合C={c1,c2,…,ci,…}。
[0036] 仿照tf·idf加权方案,首先统计概念c1对应词汇在文集D中的逆频率log(50/n1)、文档频率tf1和概念c1在文集R各文本文档句子中的频率freq(c1),得到c1在文集R各文本文档句子中的权值 然后按照同样方法完成所有|C|个概念的权值计算,进而将R中的所有文本文档句子表示为概念模型矢量形式,构成矢量集合[0037] 3、将主题近似的文本文档句子进行聚集。对 中所有句子的概念矢量进行AHC合成聚类。初始状态假设每个句子自成一类,然后对 中句子相似度将最相似的两个类合并成一类,并计算半偏相关系数HDCC,当HDCC大于阀值μ时聚类停止,μ=0.5。经过聚类处理,中的句子被聚类到{LT1,…,LT0}共计o个聚类簇中。
[0038] 4、计算压缩比确定综述长度。利用子概念频度方法从文集中抽出主题概念,根据主题概念的数量确定自动综述的压缩比。概念c的重要度I(c)定义如下:
[0039]
[0040] son(c)i为概念c在WordNet中的直接子概念,w(c)为概念c在文本文档句子矢量集合 中的权值w的总和 ,当I(c)≤I临,则认定c为主题概念,记为tc,取I临=0.3,所有tc构成主题概念集合TC,TC={tc1,…,tcm}。简便起见,只从具有最大tfi·log(50/n1)权重的50个概念中抽取主题概念,凡在WordNet中未出现的概念其重要度视为1。得到|TC|个主题概念,则在抽象度θ条件下文集的压缩比如下:
[0041]
[0042] 其中,λβ为比例调节系数可通过训练得到,这里取λβ=1.2。
[0043] 5、确定各文本文档句子抽象度值。以主题概念tc1,tc2,…,tcm组成的集合TC为参照计算各句子的抽象度值,与R对应的N个抽象度值:
[0044] 6、抽取文摘句:首先创建空集A并计算LT1中各文本文档句子IMMRA的值,寻找最大值,从而的得到与查询Q相似,且与θ相匹配的句子,放入空集A并从R中去除,再依次对LT2、LT3、…、LTm做同样工作,循环进行直至A中达到N·r个文摘句(如图3所示),这里取λ=0.8。
[0045] 7、对文摘句进行排序并输出综述文档。在文档集合中找到包含A中文摘句最多的文档dc作为参考框架,文档dc可按下式计算获得:
[0046]
[0047] 根据文摘句 与文档dc中的文本文档句子 相似度 将与文摘句最相似句子的位置信息作为 在文摘中的参考信息位置,生成句子顺序与dc一致的综述并输出。