一种聚合相同主题网络文档的方法及系统转让专利

申请号 : CN200810088055.7

文献号 : CN101246501B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 唐年鹏王志平

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本发明涉及一种聚合相同主题网络文档的方法,包括:获取当前网络文档中各词语的权重值,依次选取两个或两个以上权重值较高的词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值,聚合上述当前网络文档和相同主题网络文档。同时,本发明还公开一种聚合相同主题网络文档的系统。本发明解决现有技术中聚合主题相同网络文档,需处理的数据量过大,造成网络更新速度慢,影响用户的体验感的问题,本发明可提高网络更新速度,提高用户的体验感。

权利要求 :

1.一种聚合相同主题网络文档的方法,其特征在于,包括:获取当前网络文档中各词语的权重值;

将上述各词语按权重值降序排列;

从首个词语开始,依次将上一词语及同该词语相临的下一词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值;

聚合上述当前网络文档和相同主题网络文档。

2.如权利要求1所述的方法,其特征在于,聚合上述当前网络文档和相同主题网络文档之前,还包括:使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值;

依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值;

去除相关度值低于预设数值的相同主题网络文档。

3.如权利要求2所述的方法,其特征在于,依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值具体为;

按出现频次升序排列当前网络文档和相同主题网络文档中的各词语;

将相同主题网络文档中的各词语的向量值,与对应的当前网络文档的各词语的向量值分别相乘,获得的积相加,作为第一数据;

将相同主题网络文档中各词语的向量值分别平方后,相加;将当前网络文档中各词语的向量值分别平方后,相加;将上述计算的和相乘,再开方,作为第二数据;

所述第一数据除以所述第二数据的商,作为相同主题网络文档与当前网络文档的相关度值。

4.如权利要求1至3任一项所述的方法,其特征在于,获取当前网络文档中每个词语的权重值具体为:在当前网络文档中统计各词语的出现频次,获取各词语命中的索引文档数量和总索引文档数量;

将总索引数量除以该词语命中的索引数量,再取对数,得到的数值乘以上述出现频次,得到该词语的权重值。

5.如权利要求4所述的方法,其特征在于,在当前网络文档中统计各词语的出现频次具体为:获取该词语在当前网络文档中出现的位置,及在该位置的出现次数;

将词语在该位置的出现次数乘以该位置对应系数,乘积相加后作为该词语的出现频次。

6.如权利要求4所述的方法,其特征在于,在当前网络文档中统计各词语的出现频次具体为:统计词语在当前网络文档中出现次数;

判断该词语是否在网络文档主题位置出现,如是,在该词语总出现次数上加设定数值,作为该词语的出现频次。

7.一种聚合相同主题网络文档的系统,其特征在于,包括权重值计算模块、检索词组成模块、网络文档检索模块、及聚合模块:所述权重值计算模块,用于获取当前网络文档中各词语的权重值;

所述检索词组成模块,用于将上述各词语按权重值降序排列,从首个词语开始,依次将上一词语及同该词语相临的下一词语组成检索词;

所述网络文档检索模块,用于利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值;

所述聚合模块,用于聚合上述当前网络文档和相同主题网络文档。

8.如权利要求7所述的系统,其特征在于,还包括向量值模块,相关度计算模块、去除模块:所述向量值模块,用于使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值;

所述相关度计算模块,用于依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值;

所述去除模块,用于去除相关度值低于预设数值的相同主题网络文档。

说明书 :

技术领域

本发明涉及网络文档聚合领域,特别是涉及一种聚合相同主题网络文档的方法及系统。

背景技术

在网络上,将相同主题的网络文档聚合在一起,提供给用户,便于用户对该主题的相关内容进行全面、细致的了解,是网络服务的一项重要内容。现有技术中,许多网站主要通过编辑,人工整理主题相同的网络文档,但人力毕竟有限,面对数据量庞大的网络资源,人工编辑显然无法全面、及时地整理相同主题的网络文档。目前,部分大型网站采用传统的分类和聚类方法,聚合相同主题的网络文档。
参阅图1,示出现有聚合相同主题网络文档的方法,具体包括以下步骤。
步骤S101、将网络文档按主题所属类别分类,为各类网络文档分别设置关键词库。关键词库中的关键词集中反映该类网络文档的特性。例如,以某明星为主题的网络文档,其关键词库包括该明星的姓名、主要歌曲名、主演电影名等词语。
步骤S102、对新查找到的网络文档,提取该网络文档中全部词语,组成关键词库。
步骤S103、将新查找网络文档的关键词库,与各类网络文档的关键词库进行匹配,选出词语匹配度最大的一个类别,新查找的网络文档与该类网络文档主题相同。例如,新查找的网络文档为有关“911”事件的报道,关键词库包括“9月11”、“恐怖分子”、“飞机”、“世贸大厦”等词语。而“911”事件类网络文档的关键词库也会包含上述各词语,因此,这两个关键词库的词语匹配度就会相对较高。
步骤S104、将新查找的网络文档聚合到该类网络文档。
上述方法虽然能够较好地将新查找的网络文档聚合到相同主题的网络文档,但需要对检索到的每一篇网络文档,都整理成关键词库,再与各类网络文档的关键词库匹配,网络文档一般需要细分为多个分类,这样需处理的数据量过大,造成网络更新速度慢,影响用户的体验感。
上述方法在判断时,主要依据关键词库内的关键词,如关键词选择不当,或主题相近网络文档的关键词库中关键词大部分相同,很容易造成误判,不能准确聚合主题相同的网络文档,降低用户的体验感。

发明内容

本发明所要解决的技术问题是提供一种聚合主题相同网络文档的方法,以解决现有技术中聚合主题相同网络文档,需处理的数据量过大,造成网络更新速度慢,影响用户的体验感的问题。该方法可提高网络更新速度,提高用户的体验感。
本发明的另一个目的是提供一种聚合主题相同网络文档的系统,该系统能够提高网络更新速度,提高用户的体验感。
本发明一种聚合相同主题网络文档的方法,包括:获取当前网络文档中各词语的权重值,将上述各词语按权重值降序排列;从首个词语开始,依次将上一词语及同该词语相临的下一词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值,聚合上述当前网络文档和相同主题网络文档。
优选的,聚合上述当前网络文档和相同主题网络文档之前,还包括:使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值,依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值,去除相关度值低于预设数值的相同主题网络文档。
优选的,依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值具体为,按出现频次升序排列当前网络文档和相同主题网络文档中的各词语,将相同主题网络文档中的各词语的向量值,与对应的当前网络文档的各词语的向量值分别相乘,获得的积相加,作为第一数据,将相同主题网络文档中各词语的向量值分别平方后,相加;将当前网络文档中各词语的向量值分别平方后,相加;将上述计算的和相乘,再开方,作为第二数据,所述第一数据除以所述第二数据的商,作为相同主题网络文档与当前网络文档的相关度值。
优选的,获取当前网络文档中每个词语的权重值具体为,在当前网络文档中统计各词语的出现频次,获取各词语命中的索引文档数量和总索引文档数量,将总索引数量除以该词语命中的索引数量,再取对数,得到的数值乘以上述出现频次,得到该词语的权重值。
优选的,在当前网络文档中统计各词语的出现频次具体为,获取该词语在当前网络文档中出现的位置,及在该位置的出现次数,将词语在该位置的出现次数乘以该位置对应系数,乘积相加后作为该词语的出现频次。
优选的,在当前网络文档中统计各词语的出现频次具体为,统计词语在当前网络文档中出现次数,判断该词语是否在网络文档主题位置出现,如是,在该词语总出现次数上加设定数值,作为该词语的出现频次。
本发明一种聚合相同主题网络文档的系统,包括权重值计算模块、检索词组成模块、网络文档检索模块、及聚合模块:所述权重值计算模块,用于获取当前网络文档中各词语的权重值;所述检索词组成模块,用于将上述各词语按权重值降序排列,从首个词语开始,依次将上一词语及同该词语相临的下一词语组成检索词;所述网络文档检索模块,用于利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值;所述聚合模块,用于聚合上述当前网络文档和相同主题网络文档。
优选的,还包括向量值模块,相关度计算模块、去除模块:所述向量值模块,用于使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值;所述相关度计算模块,用于依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值;所述去除模块,用于去除相关度值低于预设数值的相同主题网络文档。
与现有技术相比,本发明具有以下优点:
本发明组合当前网络文档中权重值较高的词语作为检索词,检索相同主题网络文档,因权重值高的词语,具有很强的代表性,能够很好的反应当前网络文档的特性。由两个或两个以上权重值较高的词语组成的检索词检索到的网络文档,与当前网络文档同主题的可能性非常大。本发明在选取同主题网络文档的过程中,只需选取合适的词语组成检索词检索,相对与图1所示的现有技术,本发明不需将查找的各种网络文档与各类主题的网络文档一一对比,需处理的数据量较小,在应用过程中,网络更新速度快,有利于提高用户的体验感。

附图说明

图1为现有聚合相同主题网络文档的方法流程图;
图2为本发明聚合相同主题文档的方法第一实施例流程图;
图3为本发明计算当前网络文档中各词语的权重值的方法流程图;
图4为本发明聚合网络相关文档的方法第二实施例流程图;
图5为本发明聚合相同主题网络文档的系统第一实施例示意图;
图6为本发明检索词组成模块结构示意图;
图7示出本发明聚合相同主题网络文档的系统第二实施例示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明将当前网络文档中权重值较高的词语组成检索词,利用检索词检索与当前网络文档主题相同的网络文档,将检索到的网络文档和当前网络文档聚合。本发明聚合相同主题网络文档的方法可应用于多个相关领域,方便用户集中阅读,如专题新闻聚合领域,专题事件聚合领域等等。
参阅图2,示出本发明聚合相同主题文档的方法第一实施例,具体步骤如下所述。
步骤S201、获取当前网络文档中各词语的权重值。将当前网络文档中各词语间隔开,去除介词、语气词、感叹词等不具有实质意义的虚词,提取名词、动词等具有实质意义的词语,依次计算提取词语的权重值。权重值表示该词语同当前网络文档主题内容的相关程度,相关程度越高,权重值也相应越高。
例如,当前网络文档为一篇专利文档,该文档中与专利紧密相关词语的权重值就相对较高,如,“专利”、“申请”、“无效”、“审查”、“复审”等等。
步骤S202、依次选取两个或两个以上权重值较高的词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值。预置数值可的取值范围可大于10。
将首先选取的检索词检索相同主题网络文档,判断检索到的相同主题网络文档是否超过预置数值,如是,停止组成检索词,提取检索到的网络文档;如否,继续组成检索词重新检索,直至某个检索词检索的相同主题网络文档数量超过预置数值。
例如,在上述专利文档中,选取权重值较高的“专利”和“申请”两个词语组成检索词“专利申请”,使用检索词“专利申请”检索相同主题网络文档,判断检索到的网络文档数量是否超过10个,如是,停止检索;如否,继续在上述专利文档中选取权重值较高词语组成检索词,如选取“专利”和“无效”两个词语组成检索词“专利无效”,重新检索,直到某个检索词检索到网络文档的数量超过10个。
本发明可采取多种方式选取两个或两个以上权重值较高的词语组成检索词,其目的是使检索词能够在尽可能的反应当前网络文档的主题内容特性。
例如,将权重值超过设定数值的词语组成词语库,在该词语库中随机选取两个或两个以上的词语组成检索词。
再例如,将词语按权重值降序排列,将首个词语依次与第二、第三、第四个词语组合成检索词。举例为,词语排列为A、B、C、D…,依次组成的检索词为AB、AC、AD…。
再例如,将词语按权重值降序排列,从首个词语开始,依次将上一词语与该词语相临的下一词语组成检索词。举例为,词语排列为A、B、C、D…,依次组成的检索词为AB、BC、CD…。
步骤S203、聚合上述当前网络文档和相同主题网络文档。
本发明组合当前网络文档中权重值较高的词语作为检索词,检索相同主题网络文档,因权重值高的词语,具有很强的代表性,能够很好的反应当前网络文档的特性。由两个或两个以上权重值较高的词语组成的检索词检索到的网络文档,与当前网络文档同主题的可能性非常大。
本发明在选取同主题网络文档的过程中,只需选取合适的词语组成检索词检索,不需将查找的各种网络文档与各类主题的网络文档一一对比,需处理的数据量较小,在应用过程中,网络更新速度快,有利于提高用户的体验感。
在本发明上述步骤S201中,本发明可采用多种方式计算当前网络文档中各词语的权重值,其主体思想是利用词语在当前网络文档中的出现频次,及该词语在各网络文档中通用程度,通过相关算式计算该词语的权重值。
参阅图3,示出本发明计算当前网络文档中各词语的权重值的方法,具体步骤如下所述。
步骤S301、在当前网络文档中统计各词语的出现频次。词语在当前网络文档中出现次数越多,出现位置越重要,该词语的出现频次也就越大。本发明可采用多种方式统计词语的出现频次,在此介绍优选的两种统计方式。
例如,获取词语在当前网络文档中出现的位置,及在该位置的出现次数,将词语在该位置的出现次数乘以该位置对应系数,乘积相加得到的数值,作为该词语的出现频次。如,词语在当前网络文档的标题位置出现1次,在当前网络文档正文中出现15次,标题位置的系数为8,正文位置的系数为1,则该词语的出现频次为1×8+15×1=23。
再例如,统计词语在当前网络文档中出现次数,判断该词语是否在网络文档主题位置出现,如是,在该词语总出现次数上加设定数值,作为该词语的出现频次。如,统计某词语在当前网络文档中总出现次数为12,该词语在网络文档主题位置出现,设定数量为10,该词语的出现频次为12+10=22。
步骤S302、获取各词语命中的索引文档数量和总索引文档数量。网络服务器通过遍历方式获得各种网络文档的总索引文档数量,再利用该词语在总索引文档中检索,统计该词语命中的索引文档数量。
步骤S303、计算得到该词语的权重值,权重值计算算式为:
词语权重值=TF×1g(N/n);
其中,TF为该词语的出现频次,N表示总索引文档的数量,n表示该词语命中的索引文档数量。
当然,本发明还可采用其它多种权重值算式进行计算,例如
词语权重值=TF×K(N/n),其中,K为系数。
再例如
词语权重值=TF×(N/n)+Z,其中,Z为常数。
本发明通过词语在当前网络文档中的出现频次,及该词语在各网络文档中通用程度,计算出该词语相对于当前网络文档的权重值,该权重值可较好的反应该词语对于当前网络文档特性的代表程度。
为进一步保证检索的同主题网络文档的与当前网络文档相关程度高,本发明可采用多种方式对检索到的网络文档进一步筛选,选取与当前网络文档相关程度高的网络文档。
参阅图4,示出本发明聚合网络相关文档的方法第二实施例,具体步骤如下所述。
步骤S401、获取当前网络文档中各词语的权重值。
步骤S402、依次选取两个或两个以上权重值较高的词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值。
步骤S403、使用哈希表表示当前网络文档和检索到的网络文档中各词语的向量值。
步骤S404、按出现频次升序排列当前网络文档和检索到网络文档中的各词语。
步骤S405、依据各词语的向量值计算检索到的网络文档与当前网络文档的相关度值。计算算式为:
Sim(d,q)=Σi(ai×bi)Σiai2×Σibi2;
其中,ai表示当前网络文档中各词语的向量值,bi表示检索到的网络文档中各词语的向量值。
步骤S406、去除相关度值低于预设数值的相同主题网络文档。预设数值可根据当前网络文档的主题类型进行调整。
步骤S407、聚合当前网络文档和相同主题网络文档。
本发明通过词语向量计算当前网络文档与检索到的网络文档相关度值,选择与当前网络文档相关程度较高的网络文档,进一步提高聚合同主题网络文档的精度。
基于上述聚合相同主题网络文档的方法,本发明还提供一种聚合相同主题网络文档的系统,该系统能够提高网络更新速度,提高用户的体验感。
参阅图5,示出本发明聚合相同主题网络文档的系统第一实施例,包括权重值计算模块51、检索词组成模块52、网络文档检索模块53、及聚合模块54。
权重值计算模块51获取当前网络文档中各词语的权重值。权重值表示该词语同当前网络文档主题内容的相关程度,相关程度越高,权重值也相应越高。权重值计算模块51将获取的权重值发送到检索词组成模块52。
检索词组成模块52依次选取两个或两个以上权重值较高的词语组成检索词。检索词组成模块52可将权重值超过设定数值的词语组成词语库,在该词语库中随机选取两个或两个以上的词语组成检索词;检索词组成模块52还可将词语按权重值降序排列,将首个词语依次与第二、第三、第四个词语组合成检索词;检索词组成模块52还可将词语按权重值降序排列,从首个词语开始,依次将上一词语与该词语相临的下一词语组成检索词。检索词组成模块52将组成的检索词发送到网络文档检索模块53。
网络文档检索模块53利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值。网络文档检索模块53将首先选取的检索词检索相同主题网络文档,判断检索到的相同主题网络文档是否超过预置数值,如是,提取检索到的网络文档;如否,继续获取检索词重新检索,直至某个检索词检索的相同主题网络文档数量超过预置数值。网络文档检索模块53将提取的网络文档发送到聚合模块54。
聚合模块54聚合上述当前网络文档和检索的网络文档。
参阅图6,本发明检索词组成模块52包括词语排列子模块521和组成子模块522。词语排列子模块521将上述各词语按权重值降序排列,发送到组成子模块522。组成子模块522从首个词语开始,依次将上一词语与该词语相临的下一词语组成检索词。
本发明通过相关模块计算检索到网络文档与当前网络文档之间的相关度,去除相关度较低的网络文档,进一步提高聚合的网络文档的质量。
参阅图7,示出本发明聚合相同主题网络文档的系统第二实施例,包括权重值计算模块51、检索词组成模块52、网络文档检索模块53、聚合模块54、向量值模块55,相关度计算模块56、及去除模块57。
向量值模块55使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值,并将各词语的向量值发送到相关度计算模块56。
相关度计算模块56依据各词语的向量值计算检索到的网络文档与当前网络文档的相关度值,计算算式为:
Sim(d,q)=Σi(ai×bi)Σiai2×Σibi2;
其中,ai表示当前网络文档中各词语的向量值,bi表示检索到的网络文档中各词语的向量值。相关度计算模块56将各检索到的网络文档与当前网络文档之间的相关度值发送到去除模块57。
去除模块57去除相关度值低于预设数值的网络文档,将其余网络文档发送到聚合模块54。聚合模块54聚合上述网络文档。
权重值计算模块51、检索词组成模块52、及网络文档检索模块53在本实施例中的功能和作用和图5所示实施例相同,不再赘述。
以上对本发明所提供的一种聚合相同主题网络文档的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。