用于提示电子文档内容变更的方法和系统转让专利

申请号 : CN201010136975.9

文献号 : CN102207936B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴贤袁泉张夏天赵石顽

申请人 : 国际商业机器公司

摘要 :

本发明提供一种用于提示电子文档内容变更的方法、系统以及一种建立用于建立所述关系信息变更历史数据库的方法和系统。其中所述方法包括:响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息;基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更;以及如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更。通过本发明用户可以了解有关电子文档的相关更改,从而可以高效地获得有关信息。

权利要求 :

1.一种用于提示电子文档内容变更的方法,所述方法包括:响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息,其中所述相关信息至少包括所述电子文档的至少部分命名实体;

基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更;以及如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更。

2.一种如权利要求1所述的方法,所述分析所述请求以获得相关信息包括:识别所述电子文档的至少部分命名实体。

3.一种如权利要求1所述的方法,其中所述确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更包括:基于所述相关信息检索关系信息变更历史数据库以确定所述命名实体之间的关系信息是否存在变更。

4.一种如权利要求2所述的方法,其中所述确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更包括:根据所述电子文档的至少部分命名实体检索关系信息变更历史数据库;以及如果在所述关系信息变更历史数据库中检索到所述命名实体之间的关系信息的变更,则确定所述命名实体之间的关系信息存在变更。

5.一种如权利要求1所述的方法,其中所述相关信息还包括所述电子文档的唯一标识符,所述确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更包括:根据所述唯一标识符检索关系信息变更历史数据库;以及如果在所述关系信息变更历史数据库中检索到所述命名实体之间的关系信息的变更,则确定所述电子文档的所述命名实体之间的关系信息存在变更。

6.一种如权利要求3-5任一项所述的方法,所述方法还进一步包括建立所述关系信息变更历史数据库,所述建立所述关系信息变更历史数据库包括:提取多个电子文档的命名实体之间的关系信息;

基于所述关系信息,建立关系信息变更历史数据库。

7.一种如权利要求6所述的方法,所述提取多个电子文档的命名实体之间的关系信息包括:接收多个电子文档;

识别所述电子文档中的所述命名实体;

抽取相邻的所述命名实体的相关特征,其中所述相关特征包括至少以下之一:命名实体的本身特征;命名实体的关系特征;命名实体的上下文特征;以及基于所述相关特征,分类相邻的所述命名实体之间的关系。

8.一种如权利要求7所述的方法,所述基于所述关系信息,建立关系信息变更历史数据库还包括:判断分类后的相邻的所述命名实体之间的关系是否属于预定的关系种类;

如果是,则:

对所述分类后的相邻的所述命名实体之间的关系进行查重和归并;

对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引;以及将所述关系信息变更数据索引存储到关系信息变更历史数据库。

9.一种如权利要求7-8任一项所述的方法,其中所述建立所述关系信息变更历史数据库进一步包括定时收集电子文档以更新所述关系信息变更历史数据库。

10.一种如权利要求8所述的方法,其中所述对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引包括针对关系信息中的命名实体、关系以及所述电子文档的唯一标识符中的至少之一建立关系信息变更数据索引。

11.一种如权利要求5所述的方法,其中所述唯一标识符包括以下之一:电子文档的URL、电子文档的存储路径、电子文档的全局唯一代码。

12.一种如权利要求1所述的方法,其中所述关系信息包括命名实体、命名实体之间的关系以及时间信息。

13.一种用于建立关系信息变更历史数据库的方法,所述关系信息变更历史数据库用于如权利要求1提示电子文档内容变更,该方法包括:提取多个电子文档的命名实体之间的关系信息;

基于所述关系信息,建立关系信息变更历史数据库。

14.一种如权利要求13所述的方法,所述提取所述电子文档的命名实体之间的关系信息包括:接收多个所述电子文档;

识别所述电子文档中的所述命名实体;

抽取相邻的所述命名实体的相关特征,其中所述相关特征包括至少以下之一:命名实体的本身特征;命名实体的关系特征;命名实体的上下文特征;以及基于所述相关特征,分类相邻的所述命名实体之间的关系。

15.一种如权利要求14所述的方法,所述基于所述关系信息,建立关系信息变更历史数据库包括:判断分类后的相邻的所述命名实体之间的关系是否属于预定的关系种类;

如果是,则:

对所述分类后的相邻的所述命名实体之间的关系进行查重和归并;

对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引;以及将所述关系信息变更数据索引存储到关系信息变更历史数据库。

16.一种如权利要求15所述的方法,其中所述对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引包括针对关系信息中的命名实体、关系以及所述电子文档的唯一标识符中的至少之一建立关系信息变更数据索引。

17.一种用于提示电子文档的变更的系统,所述系统包括:客户端请求分析装置,用于响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息的装置,其中所述相关信息至少包括所述电子文档的至少部分命名实体;

更新确认装置,用于基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更的装置;以及更新发送装置,用于如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更的装置。

18.一种如权利要求17所述的系统,所述系统进一步包括部件,所述部件用于实现如权利要求2-12任一项所述的方法。

19.一种用于建立所述关系信息变更历史数据库的系统,所述系统包括用于实现如权利要求13-16任一项所述的方法的装置。

说明书 :

用于提示电子文档内容变更的方法和系统

技术领域

[0001] 本发明总体上涉及信息处理技术领域,特别地,涉及一种用于提示电子文档内容变更的方法及系统。

背景技术

[0002] 在当今信息迅速增长的世界,存在着大量的电子文档,这些电子文档包括互联网上的海量网页,通过OCR(光学字符识别)等技术积累的电子文档等等。通过各种应用,用户可以非常方便地获得各种信息。比如,搜索引擎可以帮助用户检索到各种相关的电子文档以方便用户阅读和使用。
[0003] 然而,用户在关心现有的各种应用所提供的信息的数量的同时,也对信息的质量非常关心。尤其现在互联网已经进入Web 2.0时代,信息来源既有来自于权威的新闻单位或者大公司,同时也存在大量来自用户个人提供的大量信息,因此信息的质量存在很大的差异。另外由于各种文档的信息在随着时间而不断地进行变更,读者阅读到的相关电子文档的信息也许已经过时,而如果用户根据过时的信息作出判断或者行动,往往会导致事与愿违的结果。另外,有时用户对文档的过去的信息更改也希望了解,而目前没有相应的技术来方便快捷地满足用户的相关需求。

发明内容

[0004] 本发明一方面提供一种用于提示电子文档内容变更的方法,所述方法包括:响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息;基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更;以及如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更。
[0005] 优选地,所述分析所述请求以获得所述相关信息包括识别所述电子文档的至少部分命名实体。
[0006] 优选地,所述确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更包括检索关系信息变更历史数据库以确定所述命名实体之间的关系信息是否存在变更。
[0007] 本发明另一方面提供一种用于建立所述关系信息变更历史数据库的方法,所述关系信息变更历史数据库用于上述确定用户所请求的电子文档的至少部分命名实体之间的关系信息是否存在变更,该方法包括:提取多个所述电子文档的命名实体之间的关系信息;基于所述关系信息,建立关系信息变更历史数据库。
[0008] 本发明另一方面提供一种用于提示电子文档的变更的系统,所述系统包括:用于响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息的装置;用于基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更的装置;以及用于如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更的装置。
[0009] 由此可见,本发明一方面可以提示相关电子文档的更新,尤其是网络电子文档上过期的信息,从而提高万维网上信息的质量,这在Web 2.0时代显得更为重要。本发明另一方面还可以使用户可以方面查看信息变化历史,这无疑都大大提高了用户阅读电子文档的体验和获得准确信息的效率。

附图说明

[0010] 为了对本发明实施例的特征和优点进行详细说明,将参照以下附图。如果可能的话,在附图和描述中使用相同或者类似的参考标号以指代相同或者类似的部分。其中:
[0011] 图1示出了本发明用于提示电子文档内容变更的第一具体实施方式;
[0012] 图2示出了本发明用于提示电子文档内容变更的第二具体实施方式;
[0013] 图3示出了本发明用于提示电子文档内容变更的第三具体实施方式;
[0014] 图4示出了本发明用于建立关系信息变更历史数据库的具体实施方式;
[0015] 图5示出了本发明用于提示电子文档内容变更的第四具体实施方式;
[0016] 图6示出了本发明的一个具体应用示例;
[0017] 图7示出了本发明用于提示电子文档内容变更的系统的结构框图;
[0018] 图8示出了本发明用于建立关系信息变更历史数据库的系统的结构框图。

具体实施方式

[0019] 现在将参考本发明的示例性实施例进行详细的描述,在附图中图解说明了所述实施例的示例,其中相同的参考数字始终指示相同的元件。应当理解,本发明并不限于所公开的示例实施例。还应当理解,并非所述方法和设备的每个特征对于实施任一权利要求所要求保护的本发明都是必要的。此外,在整个公开中,当显示或描述处理或方法时,方法的步骤可以以任何顺序或者同时执行,除非从上下文中能清楚一个步骤依赖于先执行的另一步骤。此外,步骤之间可以有显著的时间间隔。
[0020] 现在参考图1来详细描述本发明用于提示电子文档的变更的第一具体实施方式。在步骤101中,响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息。比如,用户可能会通过点击相关网站的相关链接,或者在应用中提交所要浏览电子文档的存储路径等来提交其浏览电子文档的请求。所述分析所述请求以获得所述请求相关信息可以包括分析该请求获得电子文档的URL(统一资源定位符)、存储路径、电子文档的全局唯一代码或者其它形式的电子文档的唯一标识符,也可以包括基于用户的请求获得电子文档而对所述电子文档进行命名实体识别以获得所述电子文档的相关命名实体等所述请求相关信息。其中命名实体识别(Named Entity Recognition)是指自动识别文本中具有特定意义的实体(如果所述电子文档不是文本形式,可以通过多种现有工具将其转换为文本格式),例如日期,数字,人名,组织名,化学名称等等。命名实体识别问题可以定义成分类问题,即每一个词属于预先定义的表示区域位置信息的类别。可以用{wi} i=0,1,K,m表示文本的Token序列,目的是给每一个文本符号wi分配一个类标签ti,ti的取值为预先定义的类标签集合。一般使用传统的BIO编码系统作为文本符号的类标志。其中B表示当前的词是名称的起始部分,I表示当前的词是名称的一部分但是为非起始部分,0表示当前的词不是名称的一部分。学习系统的任务就是预测每一个文本符号wi的类标签ti。已有的命名实体识别方法大致可分为三种:基于字典的,基于规则的和基于机器学习的。目前基于学习的系统逐渐成为NER的主流,其又可进一步分为两类:基于分类器的系统和基于马尔可夫模型的系统。前者包括支持向量机0等;后者包括HMM0、MEMM0、CRF0等,在解决诸如语音识别和词性标注之类的序列标注问题时,优势尤为突出。具体可以参见[1]T.R.Leek.Information extractionusing hidden markov models.Master’s thesis,UC San Diego,
1997、[2]A.McCallum,D.Freitag,and F.Pereira.Maximum entropy Markov models forinformation extraction and segmentation.In Proc.17th InternationalConf.on Machine Learning,pages 591-598、[3]Morgan Kaufmann,SanFrancisco,CA,2000.,J.Lafferty,A.McCallum,and F.Pereira.Conditional random fields:Probabilistic models for segmenting andlabeling sequence data.In Proc.18th International Conf.on MachineLearning,pages 282-289.Morgan Kaufmann,San Francisco,CA,2001和[4]Nello Cristianini and John Shawe-Taylor.An Introduction to SupportVector Machines and other。在本发明中,命名实体识别用来寻找和定位无结构文档中人名,地址,日期等信息。对于具体的命名实体的识别方法在此不作进一步的阐述,以上具体的命名实体的识别方法仅是示例性的,对本发明的保护范围不构成限制。
[0021] 在步骤103中,基于在步骤101中所得到的所述相关信息,确定所述电子文档的命名实体之间的关系信息是否存在变更。其中本发明对确定所述电子文档的命名实体之间的关系信息是否存在变更存在多种实施方式,优选地,基于本申请,可以将各种电子文档的命名实体之间的关系信息的变更信息存储为数据库,根据由分析电子文档的命名实体作为检索条件,对该数据库进行检索,或者预先将电子文档的变更提示存于数据库,并记录所述电子文档的唯一标识符,而基于电子文档的唯一标识符而至少将该变更信息发送给客户端。图2、3示了两种优选的实施方式,具体细节将在讨论图2、3进行描述。本领域技术人基于本申请可以构思出其它实施方式。在步骤105中,如果所述关系信息存在变更,则至少向客户端发送所述关系信息的变更。如果在步骤103中判断出电子文档的命名实体之间的关系信息存在变更,则确定出命名实体之间的关系信息的变更,并将该变更发送给客户端。在客户端,可以通过浮动式提示栏、修改标记、透明显示等方式对用户进行提示。这些提示方式都可以通过在客户端的浏览器增加功能插件,或者使用Javascript脚本语言,将信息的变化历史在用户浏览网页的时候展现出来。图6示出了本发明的一个具体应用。
[0022] 图2示出了本发明用于提示电子文档内容变更的方法的第二种具体实施方式。其中,在步骤201中,识别所述电子文档的至少部分命名实体。在该步骤中,可以利用上述介绍的各种命名实体识别方法进行命名实体的识别,从而可以获得所述电子文档的多个命名实体,优选至少包括两个相邻的命名实体,比如在同一个句子中的两个命名实体。在步骤203中,根据所述电子文档的命名实体检索关系信息变更历史数据库。其中可以将两个相邻的命名实体作为检索条件,在关系信息变更历史数据库进行检索,优选地,对关系信息变更历史数据库进行索引,以缩短检索时间和提高检索效率。基于本申请可以通过各种方式建立关系信息变更历史数据库。图4、5示出了建立关系信息变更历史数据库的优选方式,对此将在后面进行详细描述。在步骤205中,如果在所述关系信息变更历史数据库检索到所述命名实体之间的关系信息的变更,则确定所述命名实体之间的关系信息存在变更。在关系信息变更历史数据库中,将记录电子文档的命名实体的关系信息,比如以<主语,关系,对象,时间>这样的表征关系信息的四元组对命名实体的关系信息变更历史进行记录,并对其进行索引。关系信息并不限于上述内容,还可以由用户定义其感兴趣的相关信息,也可以采用其它不同的数据结构来表述所述关系信息。在步骤207中,如果在步骤205中确定所述关系信息存在变更,则至少向客户端发送所述至少部分命名实体的关系信息的变更。图2所示第二种实施方式可以实现对用户浏览的任何形式的电子文档的提示,对电子文档的格式没有特别的要求,并且大大地扩大了用户对大量文档的高质量信息的要求。
[0023] 图3示出了本发明用于提示电子文档的变更的方法的第三种具体实施方式。其中,在步骤301中,识别所述电子文档的唯一标识符。电子文档的URL,存储路径、电子文档的全局唯一代码或者其它形式的电子文档的唯一标识符都可以作为该电子文档的唯一标识符,电子文档的唯一标识符可能存在于用户的请求中,也可能在访问的内容服务器中,本领域技术人员可以基于本申请通过各种分析手段获得。在步骤303中,根据所述唯一标识符检索关系信息变更历史数据库。在该关系信息变更历史数据库中,存储有由所述唯一标识符所标示的电子文档以及提示的命名实体之间的关系信息的变更。该数据库可以由电子文档的唯一标识符来建立检索的索引。在步骤305中,如果在所述关系信息变更历史数据库检索到所述命名实体之间的关系信息的变更,则确定所述电子文档的所述命名实体之间的关系信息存在变更。即如果在关系信息变更历史数据库中找到了通过分析客户端请求得到的唯一标识符的检索条目,且该检索条目记录了该电子文档及其电子文档的命名实体之间的关系信息的变更,则确定所述电子文档的所述命名实体之间的关系信息存在变更。以及在步骤307中,向用户发送所述电子文档的相关所述变更。由于上面已经检索到记录了该电子文档及其电子文档的命名实体之间的关系信息的变更的检索条目,则可以向用户发送所述电子文档的相关变更。优选地,如果服务方提供方本身就拥有所述电子文档的版权或者版权使用权,也可以同时向用户发送该电子文档,而无需向第三方请求该电子文档。并采用以上所述的多种提示方式之一向用户显示,从而保证了用户获得最接近实际或者最新的信息,或者了解了命名实体之间的关系信息的演变历史,大大地提高了用户的使用体验,具有显著的技术效果。这种方法结合到如Google,Baidu这样的搜索引擎工具中,会使得用户有更好的体验。
[0024] 图4本发明用于建立关系信息变更历史数据库的具体实施方式。其中在步骤401中,提取电子文档中的命名实体的关系信息。其中包括对电子文档的命名实体的识别,以及相邻命名实体之间的关系信息的识别和分类。所述关系信息可以是一个四元组,包括主语和对象的命名实体、命名实体之间的关系以及时间信息。在步骤403中,对所述命名实体之间的关系信息建立索引。为了提高查询效率,应当对所述关系信息建立相关索引。优选地可以根据时间信息判断电子文档是否存在相应的命名实体之间的关系信息的变更,如果存在,则形成变更标记的所述电子文档并存储,并根据电子文档的唯一标识符、命名实体、命名实体以及命名实体之间的关系建立相关索引。优选地,还包括对所述命名实体之间的关系信息进行去重和归并。在步骤405中,存储所述关系信息以及对应的索引以建立关系信息变更历史数据库。通过上述方法就可以初步建立起关系信息变更历史数据库。由于电子文档随着时间而会不断地增多和电子文档内的信息会不断地发生变更,因此在步骤407中,就判断是否要对所建立的关系信息变更历史数据库进行定时变更,如果是,则重复上述步骤401、403和405以确保能够为用户提供及时变更的信息。
[0025] 图5示出了本发明用于提示电子文档的变更的优选第四具体实施方式。其中包括了三个主要步骤:提取多个所述电子文档的命名实体之间的关系信息步骤500、基于所述关系信息,建立关系信息变更历史数据库步骤700以及内容变更提示步骤900。其中,本领域技术人员明了,可以通过网络爬虫在互联网中收集大量的新生成的网页或者变更的网页、维基百科或者百度百科的修改信息等等,也可以通过其它方式收集其它类型的电子文档。在步骤501中,接收多个电子文档,并且识别所述电子文档中的所述命名实体。在步骤503中,抽取相邻的所述命名实体的相关特征。在该步骤中,可以提取所述电子文档的时间信息,这可以通过抽取电子文档的时间戳、识别电子文档记载的日期等多种技术手段获得。
值得注意的是,抽取文档的时间信息可以在任何恰当的步骤中进行,其顺序并没有特别的要求。特征抽取(Feature Extraction)是指从文本中抽取出特征,量化成计算机可以理解的抽象表达方式。在机器学习方法中,适合的特征抽取能大大提高机器学习模型的精度。例如,训练一个POS(Part-Of-Speech)分类器,也就是词性分类器时。第一步就是进行特征选取,这里主要关注两种特征。第一种是词本身的特征,比如这个词是否是大写,是否是数字,是否全是大写,是否全是数字,前缀后缀等。第二种是上下文特征,比如一个词的前后的词,前面词的词性等。基于这些特征,可以构建出一个机器学习模型,在标记好的数据集上训练得到这个模型的参数,用来预测没有标记的数据集。在本发明中,首先对文档中进行命名实体识别;对于两个邻近的命名实体(比如出现在同一个句子),可以抽取出以下特征,这些特征可以用来判断这两个实体的关系:
[0026] (1)实体本身特征:实体的名字,实体的类别,实体的词性等;
[0027] (2)实体关系特征:两个实体的距离字数,实体中是否有相连的动词,动词的词根等;
[0028] (3)上下文特征:两个实体周边的词。
[0029] 值得注意的是,上述对特征抽取的方法仅仅是示例性的,本领域技术人员基于本发明可以使用现有的或者将来发现的相关方法,这些方法都对本发明的保护范围不构成限制。其它具体的方法还可以使用Latent Dirichlet Allocation方法得到隐含的特征等,具体可参见Blei DM,Ng AY,and Jordan MI.2003.Latentdirichlet allocation.J.Mach.Learn.Res.3(Mar.2003),993-1022。作为示例性的,比如,如果有相关电子文档介绍了IBM中国研究院的地址情况,经过上面的步骤后,就可以得到表征命名实体之间的关系信息的关系四元组如。在步骤505中,基于所述特征,分类相邻的所述命名实体的关系。关系分类(Relation Extraction)在得到两个邻近的命名实体后,就要来判断它们之间的关系,比如“座落于”,“任职”等。对于每一种关系,利用上面提到特征抽取方法,在事先标注好的数据集上的训练出一个分类模型。也就是说:针对每一种关系都训练出一个分类器。对于两个邻近的命名实体,使用每个分类器中进行关系预测,找出确信度最高的那个分类,如果确信度超过阀值,就将这两个实体符合该关系,反之就认为这两个实体没有关系。上述对特征抽取的方法仅仅是示例性的,本领域技术人员基于本发明可以使用现有的或者将来发现的相关方法,这些方法都对本发明的保护范围不构成限制。其它具体的方法还可以使用语法结构来进行抽取,例如可以参考Sahay S,Mukherjea S,Agichtein E,Garcia EV,Navathe SB and Ram A.2008.Discovering semantic biomedicalrelations utilizing the Web.ACM Trans.Knowl.Discov.Data 2,1(Mar.2008),1-15。经过了上述分类步骤后,就可以获得相应的关系信息,其可以表示为<主语,关系,对象,时间>的关系四元组,比如就会归到同一类,因为“座落于”、“处于”都是表示地址的关系。值得注意的是,上述关系四元组仅仅是示例性的,本领域技术人员基于本中请完全可以构思出其它任何合适的数据结构表达所述关系信息。
[0030] 建立和变更信息变更历史数据库步骤700存在多个步骤。其中在步骤507中,判断分类后的相邻的所述命名实体之间的关系是否属于预定的关系种类。预定关系可以有多种类型,比如“举办于”、“担任职务”和“上下级关系”等,也可以由用户指定其关心的预定关系类型,以满足用户的特殊需求。如果所述命名实体之间的关系不属于预定关系种类,则这样的关系信息将被丢弃。如果分类后的相邻的所述命名实体之间的关系属于预定的关系种类,则在步骤509中,对所述分类后的相邻的所述命名实体的关系进行查重和归并。首先排除重复的关系信息,然后对关系信息进行归并,比如对于关系信息,这是两条具有相同主语和关系词的关系,只是宾语在不同的时间有不同的取值,就可以归并成为,这就是一条关系信息变更历史的数据,包含IBM中国研究院不同时期的地址信息,存储该关系信息变更历史的数据到关系信息变更历史数据库中。否则,所述关系信息将在步骤508中丢弃。在步骤511中,对查重和归并处理后的所述分类后的相邻的所述命名实体的关系建立信息变更数据索引。为了能够迅速的获取关系信息变更历史数据,要对其进行索引,优选进行两种索引,一是针对主语和对象建立索引,这样可以由相邻命名实体检索到“IBM中国研究院”和“昊海大厦”是“座落于”关系;二是对主语和关系建立索引,这样基于上述检索到的命名实体的关系类型结果,在使用(IBM中国研究院,座落于)作为条件来查询的时候,(昊海大厦,2003年)(钻石大厦,2005年)这种历史变化都可以获得。至于具体如何建立检索条目,本领域技术人员基于本申请可以采用现有的多种技术进行,在此不再赘述。这样通过检索就能很快得到电子文档的命名实体之间的关系信息的变更。在步骤513中,将所述信息变更数据索引存储到关系信息变更历史数据库。由于电子文档随着时间而会不断地增多和电子文档内的信息会不断地发生变更,因此可以定时重复上述步骤501-513以确保能够为用户提供及时变更的信息,对此在图5中没有明确示出该步骤。
[0031] 内容变更提示步骤900基于在步骤700中建立和变更的关系信息变更历史数据库向用户提供电子文档的内容变更的提示。其中,在步骤514中响应客户端对网页或者其它电子文档的浏览请求,在步骤515中,首先对电子文档进行命名实体识别。例如从文本中抽取出“IBM中国研究院”和“昊海大厦”两个命名实体。如果这两个命名实体非常邻近,则在步骤517中将这两个实体作为搜索条件送到关系信息变更历史数据库去查询,基于上述建立的索引,就可以得到这类的关系四元组,然后再将(IBM中国研究院,地址)作为搜索条件进行查询,可以得到关系的历史变化是(昊海大厦,2003年)(钻石大厦,2005年),然后通过步骤519、521将这个关系信息的变更返回给用户,提醒IBM中国研究院的地址从2005年开始就改变成了“钻石大厦”。这个过程可以由网络运营商或者搜索引擎或者其它应用提供方在后台事先运算完成,定期更新,在用户提出浏览电子文档时根据电子文档的唯一标识符其变更结果直接提供给用户,另外优选地,如果服务方本身就拥有所述电子文档的版权或者版权使用权,也可以由网络运营商或者搜索引擎或者其它应用提供方在后台将所述电子文档结合电子文档的命名实体的。另外优选地,考虑到电子文档的数量,可以只针对读者阅读量比较大的电子文档(比如互联网中的点击量高的热门帖子)在关系信息变更历史数据库建立更新纪录,这样将显著减少后台服务器的负担。当然也可以由服务器端或者用户端的插件在用户请求访问电子文档的过程中对电子文档进行命名实体的识别,这样相对而言可以减轻后台的预备工作。
[0032] 除了上面所提到的IBM中国研究院地址变更的应用实例外,图6示出了本发明另一个具体应用示例。图6显示了来自网上的一条blog(博客)的内容,“World Cup”(世界杯)和“Germany”(德国)是从该条博客识别出来的部分命名实体,第二个“World Cup”和“Germany”出现在同一个句子中,我们通过使用这两个命名实体送到后台建立的关系信息变更历史数据库数据库进行检索,就可以知道两者存在“Hosted By”(主办)关系,再根据检索到的关系“HostedBy”,将“World Cup”和“Hosted By”送到后台数据库进行检索,就可以得到关系信息的历史变更过程,然后将其提供给用户。考虑到用户界面的友好性,优选在用户界面设立可选项,由用户决定是否使用该显示变更的功能。还可以在文档界面采用光标跟随的方式,只有当用户对一些内容感兴趣时,才显示相关变更,这样既可以保证用户获得变更的信息,同时也不会影响用户阅读原文。另外用户也可以限定只显示电子文档的命名实体之间某特定类型的关系信息的更新,比如用户只是关心地址、价格、名称等的变更。优选地,还可以显示相关变更内容的链接以方便用户进一步的阅读。当然本领域技术人员可以基于本申请而采用其它用户喜欢的显示方式。
[0033] 图7示出了本发明用于提示电子文档内容变更的系统600。其中客户端请求分析装置701用于响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息;更新确认装置703则用于基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更;更新发送装置705则用于如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更。由于在上面已经详细阐述了相关装置所涉及的相关方法的实现,在此不再赘述。
[0034] 作为优选,其中所述客户端请求分析装置701包括用于识别所述电子文档的至少部分命名实体的装置。
[0035] 作为优选,其中所述更新确认装置703包括用于检索关系信息变更历史数据库以确定所述命名实体之间的关系信息是否存在变更的装置。
[0036] 作为优选,其中所述相关信息包括所述电子文档的至少部分命名实体,所述更新确认装置703包括:用于根据所述电子文档的至少部分命名实体检索关系信息变更历史数据库的装置;用于如果在所述关系信息变更历史数据库中检索到所述命名实体之间的关系信息的变更,则确定所述命名实体之间的关系信息存在变更的装置。
[0037] 作为优选,其中所述相关信息包括所述电子文档的唯一标识符,所述更新确认装置703包括:用于根据所述唯一标识符检索关系信息变更历史数据库的装置;用于如果在所述关系信息变更历史数据库中检索到所述命名实体之间的关系信息的变更,则确定所述电子文档的所述命名实体之间的关系信息存在变更的装置。
[0038] 作为优选,所述用于提示电子文档内容变更的系统600还进一步包括用于建立所述关系信息变更历史数据库的装置,该装置包括:用于提取多个所述电子文档的命名实体之间的关系信息的装置;用于基于所述关系信息,建立关系信息变更历史数据库的装置。
[0039] 作为优选,所述用于提取多个所述电子文档的命名实体之间的关系信息的装置包括:用于接收多个所述电子文档的装置;用于识别所述电子文档中的所述命名实体的装置;用于抽取相邻的所述命名实体的相关特征的装置;用于基于所述相关特征,分类相邻的所述命名实体之间的关系的装置。
[0040] 作为优选,其中所述特征包括:命名实体的本身特征;命名实体的关系特征;命名实体的上下文特征。
[0041] 作为优选,其中所述用于基于所述关系信息,建立关系信息变更历史数据库的装置包括:用于判断分类后的相邻的所述命名实体之间的关系是否属于预定的关系种类的装置;用于对所述分类后的相邻的所述命名实体之间的关系进行查重和归并的装置;用于对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引的装置;以及用于将所述关系信息变更数据索引存储到关系信息变更历史数据库的装置。
[0042] 作为优选,其中所述建立关系信息变更历史数据库的装置进一步包括用于定时收集电子文档以更新所述关系信息变更历史数据库的装置。
[0043] 作为优选,其中所述用于对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引的装置包括用于针对关系信息中的命名实体、关系以及所述电子文档的唯一标识符中的至少之一建立关系信息变更数据索引的装置。
[0044] 作为优选,其中所述唯一标识符包括以下之一:电子文档的URL、电子文档的存储路径、电子文档的全局唯一代码。其中所述关系信息包括命名实体、命名实体之间的关系以及时间信息。
[0045] 图8示出了本发明用于建立关系信息变更历史数据库的系统1000的结构框图。系统1000包括关系提取装置801和关系信息变更历史数据库建立装置803。其中,关系提取装置801用于提取多个所述电子文档的命名实体之间的关系信息;关系信息变更历史数据库建立装置803用于基于所述关系信息,建立关系信息变更历史数据库。由于在上面已经详细阐述了相关装置所涉及的相关方法的实现,在此不再赘述。
[0046] 作为优选,所述关系提取装置801包括:用于接收多个所述电子文档的装置;用于识别所述电子文档中的所述命名实体的装置;用于抽取相邻的所述命名实体的相关特征的装置;用于基于所述相关特征,分类相邻的所述命名实体之间的关系的装置。
[0047] 作为优选,其中所述特征包括:命名实体的本身特征;命名实体的关系特征;命名实体的上下文特征。
[0048] 作为优选,其中所述关系信息变更历史数据库建立装置803包括:用于判断分类后的相邻的所述命名实体之间的关系是否属于预定的关系种类的装置;用于对所述分类后的相邻的所述命名实体之间的关系进行查重和归并的装置;用于对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引的装置;以及用于将所述关系信息变更数据索引存储到关系信息变更历史数据库的装置。
[0049] 作为优选,其中所述关系信息变更历史数据库建立装置803进一步包括用于定时收集电子文档以更新所述关系信息变更历史数据库的装置。
[0050] 作为优选,其中所述用于对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引的装置包括用于针对关系信息中的命名实体、关系以及所述电子文档的唯一标识符中的至少之一建立关系信息变更数据索引的装置。
[0051] 另外,根据本发明的用于提示电子文档内容变更的方法和用于建立所述关系信息变更历史数据库的方法还可以通过计算机程序产品来实施,该计算机程序产品包括用于当在计算机上运行所述计算机程序产品时执行以实施本发明的仿真方法的软件代码部分。
[0052] 还可以通过在计算机可读记录介质中记录一计算机程序来实施本发明,该计算机程序包括用于当在计算机上运行所述计算机程序时执行以实施根据本发明的仿真方法的软件代码部分。即,根据本发明的仿真方法的过程能够以计算机可读介质中的指令的形式和各种其它形式分发,而不管实际用来执行分发的信号承载介质的特定类型。计算机可读介质的例子包括诸如EPROM、ROM、磁带、纸、软盘、硬盘驱动器、RAM和CD-ROM的介质以及诸如数字和模拟通信链路的传输型介质。
[0053] 尽管参考本发明的优选实施例具体展示和描述了本发明,但是本领域一般技术人员应该明白,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种修改。