一种自动计算互联网上主题演化趋势的方法及系统转让专利

申请号 : CN200710062943.7

文献号 : CN101231640B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 万小军冯涛黄小江杨霙杨建武吴於茜路斌

申请人 : 北大方正集团有限公司北京大学北京北大方正技术研究院有限公司

摘要 :

本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。

权利要求 :

1.一种自动计算互联网上主题演化趋势的方法,包括以下步骤:

(1)采集互联网文本信息并对其进行预处理,获得网页的文本内容以及时间标记;

(2)检测主题事件,并将当前的事件数量与预设的事件窗口进行比较,若事件数量大于事件窗口,则对主题进行淘汰和排序;

(3)定期计算当前时间段内主题与前一时间段内主题之间的主题关系,得到与当前时间段内每个主题相同的主题以及与当前时间段每个主题相关的主题,并保存当前时间段内主题信息以及每一主题相应的相同主题标识和相关主题标识;

(4)根据给定的时间范围取出多个时间段的主题信息,并根据主题之间的关系得出主题演化趋势。

2.如权利要求1所述的自动计算互联网上主题演化趋势的方法,其特征在于,步骤(1)的具体实现方法为:

2.1利用网页采集工具对互联网上的文本信息进行实时采集,所述文本信息包括新闻文本、论坛文本、博客文本;

2.2对采集的信息进行预处理,包括HTML标记过滤以及正文提取、时间提取,具体包括:去除文本中的无关信息,该无关信息包括HTML标记、广告、导航条,提取所需的文本内容及时间标记,即文本的发表时间,如无法得到文本的发表时间,由网页的更新时间替代。

3.如权利要求1或2所述的自动计算互联网上主题演化趋势的方法,其特征在于,步骤(3)具体包括以下步骤:

3.1提取前一时间段内的主题信息,时间段由系统设定,该时间段具体为数个小时或者一天;

3.2对当前时间段内任一主题进行计算,得到与所述当前时间段任一主题相同的主题以及与当前时间段内任一主题相关的主题;

3.3保存当前时间段内主题信息以及每一主题相应的相同主题标识和相关主题标识。

4.如权利要求3所述的自动计算互联网上主题演化趋势的方法,其特征在于,步骤3.2为给定主题获得相同主题和相关主题,其中相同主题指在内容上基本一致的主题,相关主题则是指内容有关联的主题,包括以下步骤:

4.1分别计算给定主题与前一时间段内所有主题的相似度值;

4.2对相似度值从大到小排序,并按以下原则确定相关主题:

A:如果最大的相似度值大于或等于设定的相同主题阈值tsametopic,那么对应的主题为给定主题的相同主题;对于排序列表中从第2个开始的后续k个值逐一进行如下判断:如果相似度值大于或等于设定的相关主题阈值treleventopic,那么对应的主题为给定主题的相关主题,其中0<treleventopic<tsametopic<1,k为正整数;

B:如果最大的相似度值小于设定的相同主题阈值tsametopic,那么给定主题没有相同主题;对于排序表中从第1个开始的后续k个值逐一进行判断:如果相似度值大于或等于设定的相关主题阈值treleventopic,那么对应的主题为给定主题的相关主题,其中0<treleventopic<tsametopic<1,k为正整数。

5.如权利要求4所述的自动计算互联网上主题演化趋势的方法,其特征在于,步骤4.1计算给定主题与前一时间段内所有主题的相似度值时,进行相似度计算的公式包括余弦公式,Jaccard公式、Dice公式,其中利用余弦公式计算主题ci和cj之间的相似度值时,首先以中心向量与表示主题,然后利用如下公式进行计算:

其中1≤i,j≤n,i≠j,每个中心向量的每一维为主题中的一个词,n为词的个数,词t权重为tft*idft,tft为词t在主题所有文档中的平均频率,idft为词t的倒排文档频率。

6.如权利要求4所述的自动计算互联网上主题演化趋势的方法,其特征在于,步骤4.2中相同主题阈值tsametopic设为0.6,相关主题阈值treleventopic设为0.4,k设为2。

7.如权利要求3所述的自动计算互联网上主题演化趋势的方法,其特征在于,步骤3.3保存当前时间段内主题信息时,在该主题信息中只保存当前时间段内的文档列表。

8.如权利要求1-2、4-7任一项所述的自动计算互联网上主题演化趋势的方法,其特征在于,步骤(3)定期执行,1小时或2小时执行一次。

9.如权利要求8所述的自动计算互联网上主题演化趋势的方法,其特征在于,还包括在客户端绘制主题演化趋势图的步骤,具体操作为:在客户端利用画图显示程序绘制主题演化趋势图时,客户端为网页浏览器,包括IE浏览器,火狐浏览器,画图显示程序为Flash或者Java Applet;每一列表示某个时间段对应的前m个主题,相邻两列之间的主题存在相同或相关关系;用不同的颜色和粗细表示主题的相对重要性;相同的主题在同一行,相关的主题尽量靠近。

10.一种自动计算互联网上主题演化趋势的系统,包括以下装置:文本采集装置,主题检测装置,主题关系计算装置,绘图装置;

其中,文本采集装置用于从互联网上实时采集文本信息,包括新闻文本、论坛文本以及博客文本,并对这些文本进行预处理,得到文本正文及时间标记;

主题检测装置,用于实时检测主题事件,将当前的事件数量与预设的事件窗口进行比较,若事件数量大于事件窗口,则对主题进行淘汰和排序,不断更新主题列表;

主题关系计算装置,用于定期计算当前时间段内主题与前一时间段内主题的主题关系,得到与当前时间段主题相同以及相关的主题,并保存当前时间段内主题信息以及这些主题对应的相同主题标识和相关主题标识;

绘图装置,用于根据用户需求取出多个时间段对应的主题信息以及主题关系,在客户端绘制出主题演化趋势图,供用户浏览与查看;其中客户端为网页浏览器,画图显示程序为Flash或者Java Applet;每一列表示某个时间段对应的前m个主题,相邻两列之间的主题存在相同或相关关系;用不同的颜色和粗细表示主题的相对重要性;相同的主题在同一行,m为正整数。

说明书 :

技术领域

本发明属于智能信息处理技术领域,具体涉及一种自动计算互联网上主题演化趋势的方法及系统。

背景技术

随着互联网上文本信息的爆炸性增长,人们越来越难以从海量文本信息中及时获得感兴趣的主题(事件)信息。主题检测技术(Topic Detection,也可以称为话题检测技术,事件检测技术)致力于实时地从海量文本中自动检测到主题,将主题信息提供给用户,用户通过浏览主题就能了解海量文本的重要内容。
根据国际主题检测与追踪小组的定义(参见美国国家标准技术局拟定的The 2002 topic detection and tracking(TDT2002)task definition and evaluationplan,version 1.1,http://www.nist.gov/speech/tests/tdt/),主题由一系列直接相关的事件或活动组成,事件则是在特定期间特定地点发生的事情。例如“2006年10月份朝鲜核试验”这个主题可以包括朝鲜核试验活动,世界各国的反应以及联合国对朝鲜的制裁等相关报道。在应用中可以根据用户的需求利用阈值调整的方法对主题的概念进行延伸或缩小。一般不对主题和事件加以明确区分,两者相互通用。
目前的主题检测算法主要是对文本聚类算法的改进和延伸,检测的目的就是要按照文本表达的主题将其进行聚类。在线增量式聚类算法(INCR)是在线主题检测的一种流行算法,参见文章Topic detection and tracking pilot study:finalreport(作者为J.Allan等,发表于1998年出版的论文集:Proceedings of DARPABroadcast News Transcription and Understanding Workshop)和文章A study onretrospective and on-line event detection(作者为Y.Yang,T.Pierce和J.Carbonell,发表于1998年出版的论文集:Proceedings of ACM SIGIR)。该算法将当前文档分别与已经形成的主题类簇进行相似性比较。如果与某个主题类簇足够相似(与所有主题的最大相似度值大于设定的某个阈值),那么将该文档加入该主题类簇中。如果没有找到足够相似的主题类簇(与所有主题的最大相似度值小于设定的某个阈值),那么以该文档为基础创建一个新的主题类簇。文档与主题类簇之间的相似度一般通过标准的余弦相似度公式进行计算,其中文本特征的表示通常采用词,词的权重为TF.IDF,TF为词频,IDF为词的倒排索引频率。
针对以上增量式聚类算法,有不少研究单位提出了改进。文章Topicdetection,a new application for lexical chaining(作者P.Hatch,N.Strokes和J.Carthy,发表于2000年出版的论文集:British Computer Society IRSG2000)利用基于时间的选择模型,这种模型考虑到一个新闻主题的发展过程通常很快,之后该主题将会被其他新主题所取代,因此仅将当前新闻文档和以前若干个最近更新过的主题类簇进行比较,这种方法也是一种时间加窗处理。卡内基梅隆大学在算法中采用了一种自适应的IDF计算方法,利用动态变化的与主题相关的IDF值改进主题检测结果,参见文章A study on retrospective and on-lineevent detection(作者为Y.Yang,T.Pierce和J.Carbonell,发表于1998年出版的论文集:Proceedings of ACM SIGIR)和文章Learning approaches for detecting andtracking news events(作者为Y.Yang等人,发表于1999年出版的论文集:IEEEIntelligent Systems:Special Issue on Applications of Intelligent InformationRetrieval)。IBM则提出了一种不同的主题类簇采用不同的IDF值的方法,对于某个主题类簇中出现的词的IDF值随着文档的变化不断调整,参见文章Storysegmentation and topic detection in the broadcast news domain(作者S.Dharanipragada等,发表于1999年出版的论文集:Proceedings of the DARPABroadcast News Workshop)。除了对IDF值计算方法的改进之外,主题的演化也要求阈值随之动态调整。马萨诸塞州立大学提出了基于时间的阈值模型,该模型利用线性函数调整聚类阈值,使得在时间上距离某个主题越远的新闻报道越难加入该主题,参见文章On-line new event detection and tracking(作者J.Allan,R.Papka和V.Lavrenko,发表于1998年出版的论文集:Proceedings ofACM SIGIR)。此外,还有人将机器学习的最新成果应用于主题检测,取得了较好的结果,在此不一一列举。
由于互联网上的文本信息具有很强的时效性,其反映的主题随着时间在不断发展变化,可能分裂为多个主题,或者和其它的相关主题合并成一个更大的主题,也可能在某一个时间点消亡。比如朝鲜核试验这个主题在不同时间点具有不同的内容,其演化趋势可能为:核试验活动-各国谴责-联合国制裁-朝鲜拒绝制裁等,同时朝鲜核试验这个主题也与朝核问题六方会谈等主题有密切关联。为了分析主题的演化趋势,文章Event threading within news topics(作者为R.Nallapati等,发表于2004年出版的论文集:Proceedings of ACM CIKM)尝试对属于同一主题的文档进行分析,检测到多个子事件以及它们之间的依赖关系,然而这种方式无法在时间维上分析主题的演化趋势。文章Discoveringevolutionary theme patterns from text-an exploration of temporal text mining(作者为Q.Mei和C.Zhai,发表于2005年出版的论文集:Proceedings of ACMSIGKDD)利用概率模型检测文本主题以及发现主题之间的关系,该方法需要大量的训练文档集,训练过程比较慢。
实际应用中对主题的检测以及主题演化趋势的分析都要求实时进行,其难点在于处理的文档数据量很大,文档数据类型复杂,包括新闻,论坛,博客等形式的文本。以上方法都基于特定的前提假设,只能对少量的实验数据进行一定的分析与挖掘,无法满足实际应用的需求。

发明内容

针对现有主题检测系统无法分析计算主题演化趋势的缺陷,本发明的目的是通过实时计算不同时间段内主题之间的相似性关系从而分析出主题随时间的演化趋势,并可绘制出主题演化趋势图。该方法具有高效性、鲁棒性等优点,具有很大的实用价值。
为达到以上目的,本发明采用的技术方案是:一种自动计算互联网上主题演化趋势的方法,包括以下步骤:
(1)采集互联网文本信息并对其进行预处理,获得网页的文本内容以及时间标记;
(2)检测主题事件,并将当前的事件数量与预设的事件窗口进行比较,若事件数量大于事件窗口,则对主题进行淘汰和排序;
(3)定期计算当前时间段内主题与前一时间段内主题之间的主题关系,得到与当前时间段内每个主题相同的主题以及与当前时间段每个主题相关的主题,并保存当前时间段内主题信息以及每一主题相应的相同主题标识和相关主题标识;
(4)根据给定的时间范围取出多个时间段的主题信息,并根据主题之间的关系得出主题演化趋势。
进一步,为使本发明获得更好的发明效果,步骤(1)中可利用各种网页采集工具对互联网上的文本信息进行实时采集。根据用户需求,这些文本信息可能是新闻文本,也可以是论坛、博客等其它形式的文本。由于网页文本包含很多的HTML标记,以及广告、导航条等无关信息,因此需要对下载的网页要进行HTML标记过滤以及正文提取,时间提取等预处理过程,尽可能地获得网页的重要文本内容以及时间标记。时间标记指文本的发表时间,在无法得到文本发表时间的情况下,可由网页的更新时间等替代。
进一步,为使本发明获得更好的发明效果,步骤(2)的主题检测算法采用专利《一种自动检测新闻事件的方法》(发明人:路斌、杨霙、杨建武、万小军、吴於茜,申请日:2006年2月14日,申请号:200610007219.X)中的方法,主要步骤列举如下:
2.1从数据源读入一篇文本报道,并对报道进行预处理;
2.2计算文本报道与已检测到的主题事件、或者报道与报道间的相似度,确定与当前报道相关的主题事件,并对入相关主题;
2.3若报道被归入某个现有主题事件,则调整该事件;若报道无法归入现有事件,则将其列为新检测到的事件;
2.4对已检测到的事件进行两两比较,合并相关事件,并重新调整事件,以及报道和事件的相似度;
2.5对各事件内不满足限制条件的报道进行淘汰,并调整事件;通过时间限制,事件列表中每个事件只包含一定期间范围之内的文档;
2.6比较当前的事件数量与事件窗口大小,若事件数量大于事件窗口大小,则进行事件排序和淘汰;经过排序和淘汰之后,事件列表中只保存一定期间范围之内产生的热点事件;
2.7输出检测结果;
步骤(2)中的主题检测算法得到的主题列表中全部为当前最新主题。
进一步,为使本发明获得更好的发明效果,步骤(3)中时间段大小由系统设定,可以是数个小时或者一天;
对当前时间段内任一主题与前一时间段内所有主题进行计算,得到与该主题相同的主题以及与该主题相关的主题;
保存当前时间段内主题信息以及每一主题相应的相同主题标识和相关主题标识。保存当前时间段内主题信息时,在该主题信息中只保存当前时间段内的文档列表。
进一步,为给定主题获得相同主题和相关主题,其中相同主题指在内容上基本一致的主题,相关主题则是指内容有关联的主题,包括以下步骤:
3.1分别计算给定主题与前一时间段内所有主题的相似度值;
3.2对相似度值从大到小排序,并按以下原则确定相关主题:
A:如果最大的相似度值大于或等于设定的相同主题阈值tsametopic,那么对应的主题为给定主题的相同主题;对于排序列表中从第2个开始的后续k个值逐一进行如下判断:如果相似度值大于或等于设定的相关主题阈值treleventopic,那么对应的主题为给定主题的相关主题,其中0<treleventopic<tsametopic<1,k为正整数;
B:如果最大的相似度值小于设定的相同主题阈值tsametopic,那么给定主题没有相同主题;对于排序表中从第1个开始的后续k个值逐一进行判断:如果相似度值大于或等于设定的相关主题阈值treleventopic,那么对应的主题为给定主题的相关主题,其中0<treleventopic<tsametopic<1,k为正整数,确定给定主题的相关主题。
进一步,计算给定主题与前一时间段内所有主题的相似度值时,可采用余弦公式进行计算,进行相似度计算的公式包括余弦公式,Jaccard公式、Dice公式,其中利用余弦公式计算主题ci和cj之间的相似度值时,首先以中心向量与表示主题,然后利用如下公式进行计算:
sim(ci,cj)=cos(ci,cj)=ci·cj||ci||·||cj||---(1)
其中1≤i,j≤n,i≠j,每个中心向量的每一维为主题中的一个词,n为词的个数,词t权重为tft*idft,tft为词t在主题所有文档中的平均频率,idft为词t的倒排文档频率。
进一步,相同主题阈值tsametopic设为0.6,相关主题阈值treleventopic设为0.4,最大相关主题个数k设为2。
进一步,定期计算并保存当前时间段内主题与前一时间段内主题之间的关系,一般1小时或2小时执行一次。
进一步,还包括绘制主题演化趋势图的步骤,具体操作为:
在客户端利用画图显示程序绘制主题演化趋势图时,客户端为网页浏览器(包括IE浏览器,火狐浏览器等),画图显示程序为Flash或者Java Applet等;每一列表示某一时间段对应的前m个主题(m一般设为20),相邻两列之间的主题存在相同或相关关系;用不同的颜色和粗细表示主题的相对重要性(通过比较主题包含的文档数量获得);相同的主题在同一行,相关的主题尽量靠近。
本发明还提供一种自动计算互联网上主题演化趋势的系统,包括以下装置:文本采集装置,主题检测装置,主题关系计算装置,绘图装置;
其中,文本采集装置用于从互联网上实时采集文本信息,包括新闻文本、论坛文本以及博客文本,并对这些文本进行预处理,得到文本正文及时间标记;
用于实时检测主题事件,将当前的事件数量与预设的事件窗口进行比较,若事件数量大于事件窗口,则对主题进行淘汰和排序,不断更新主题列表;
主题关系计算装置,用于定期计算当前时间段内主题与前一时间段内主题的主题关系,得到与当前时间段主题相同以及相关的主题,并保存当前时间段内主题信息以及这些主题对应的相同主题标识和相关主题标识;
绘图装置,用于根据用户需求取出多个时间段内的主题信息以及关系,在客户端绘制出主题演化趋势图,供用户浏览与查看;其中客户端为网页浏览器(包括IE浏览器,火狐浏览器等),画图显示程序为Flash或者Java Applet;每一列表示某个时间段内前m个主题(m一般设为20),相邻两列之间的主题存在相同或相关关系;用不同的颜色和粗细表示主题的相对重要性(通过比较主题包含的文档数量获得);相同的主题在同一行,相关的主题尽量靠近,m为正整数。
本发明的效果在于:基于已有的主题检测系统,定期计算当前时间段主题与前一时间段内主题的关系,并加以保存。采用的计算方法直接,能够对各种类型的数据进行处理。该方法的计算和存储效率都很高,适合实时对海量文本数据进行分析和挖掘,具有很强的实用性。

附图说明

图1是本发明所述方法的流程图;
图2-图5是利用Flash绘制出的一个主题演化图实例,其中:
图2显示了主题“英法德绕过美国向安理会散发伊朗核问题决议草案”的位置及其包含的文档列表;
图3显示了主题“俄外长:欧洲国家制裁伊朗草案不符合大国协议”的位置及其包含的文档列表;
图4显示了主题“六国开始磋商制裁伊朗决议草案”的位置及其包含的文档列表;
图5显示了主题“伊朗装第二批铀浓缩设备”的位置及其包含的文档列表。

具体实施方式

下面结合实施例和附图进一步阐明本发明所述的方法:
如图1所示,一种自动计算互联网上主题演化趋势的方法,包括以下步骤:
(1)采集互联网文本信息并对其进行预处理;
本实施例中利用方正雷达网页采集工具对互联上的新闻文本信息进行实时采集,采集的文本来源包括新浪,搜狐,网易等十几个主要新闻网站。由于网页文本包含很多的HTML标记,以及广告、导航条等无关信息,因此对下载的网页要进行HTML标记过滤以及正文提取,时间提取等预处理过程,获得网页的重要文本内容以及时间标记。时间标记指文本的发表时间,在无法得到文本发表时间的情况下,可由网页的更新时间等替代。
(2)实时检测主题事件并对主题淘汰和排序;
对文本数据进行实时主题检测的具体方法如下:
1)从数据源读入一篇文本报道,并对报道进行预处理;
2)计算文本报道与已检测到的主题事件、或者报道与报道间的相似度,确定与当前报道相关的主题事件,并对入相关主题;
3)若报道被归入某个现有主题事件,则调整该事件;若报道无法归入现有事件,则将其列为新检测到的事件;
4)对已检测到的事件进行两两比较,合并相关事件,并重新调整事件,以及报道和事件的相似度;
5)对各事件内不满足限制条件的报道进行淘汰,并调整事件;本实施例中,通过时间限制,事件列表中每个事件只包含24小时之内的文档
6)比较当前的事件数量与时间窗口大小,若事件数量大于事件窗口大小,则进行事件排序和淘汰;本实施例中,事件窗口大小为100,也就是经过事件排序和淘汰,事件列表中只保留包含24小时之内的文档数量最多的100个事件。
7)输出检测结果;
(3)定期计算当前时间段内主题与前一时间段内主题之间的主题关系,得到与当前时间段内主题相同的主题以及与该主题相关的主题,并保存当前主题信息以及计算得到的主题关系;定期可以每隔一小时进行一次,时间段由系统设定,可以是数个小时以前或者一天,此实施例采用一天。
定期计算并保存当前主题与前一天主题之间的主题关系的具体方法如下:
1)取出前一天的主题信息;
2)对当天主题列表中任一主题,计算得到与该主题相同的主题以及与该主题相关的主题。
其中相同主题指在内容上基本一致的主题,相关主题则是指内容有关联的主题,包括以下计算步骤:
2.1)分别利用余弦公式计算给定主题与前一天所有主题的相似度值;利用余弦公式计算主题ci和cj之间的相似度值时,首先以中心向量与表示主题,然后利用如下公式进行计算:
sim(ci,cj)=cos(ci,cj)=ci·cj||ci||·||cj||---(1)
其中1≤i,j≤n,i≠j,每个中心向量的每一维为主题中的一个词,n为词的个数,词t权重为tft*idft,tft为词t在主题所有文档中的平均频率,idft为词t的倒排文档频率;
2.2)对相似度值从大到小排序;
如果最大的相似度值大于或等于设定的相同主题阈值tsametopic,那么对应的主题为给定主题的相同主题;对于排序列表中从第2个开始的后续k个值逐一进行如下判断:如果相似度值大于或等于设定的相关主题阈值treleventopic,那么对应的主题为给定主题的相关主题,其中0<treleventopic<tsametopic<1,本实施例中分别设为treleventopic=0.4与tsametopic=0.6;k为正整数,本实施例中设为2;
如果最大的相似度值小于设定的相同主题阈值tsametopic,那么给定主题没有相同主题;对于排序表中从第1个开始的后续k个值逐一进行与步骤2.3)中类似的判断,确定给定主题的相关主题;
3)保存当天主题信息以及计算得到的每一主题的相同主题标识和相关主题标识,在该主题信息中只保存当天的文档列表,其目的是严格按照时间段对主题进行划分,不允许文档出现在多个主题中。
(4)根据给定的时间范围取出多个时间段对应的主题信息以及主题之间的关系,得出主题演化趋势,绘制主题演化趋势图。
本实施例中时间段范围为从2006年10月21日到2006年10月27日。
本实施例用Flash作为客户端绘图程序。
附图中图2至图5显示了最终绘制出的主题演化趋势图,图中每一列表示一天对应的前20个主题,相同的主题在同一条线连接,相关的主题用斜线连接。主题的颜色和粗细反映了主题的重要性。图2至图5分别显示了跟伊朗核问题有关的4个主题的信息。
本发明还提供一种对互联网上主题的演化趋势进行自动分析的系统,用于对主题演化趋势进行分析与展示。
该系统包括以下装置:文本采集装置,主题检测装置,主题关系计算装置,绘图装置;
其中,文本采集装置用于从互联网上实时采集文本信息,包括新闻文本、论坛文本以及博客文本等,并对这些文本进行预处理,得到文本正文及时间标记;
主题检测装置,用于实时检测主题事件,并对主题加以淘汰和排序,不断更新主题列表,使得当前主题列表中保留重要的和较新的主题;
主题关系计算装置,用于定期计算当前主题与前一天主题的主题关系,得到与该主题相同的主题以及与该主题相关的主题,并保存当前主题信息以及这些主题对应的相同主题标识和相关主题标识;
绘图装置,用于根据用户需求取出每天的主题信息以及关系,在客户端绘制出主题演化趋势图,供用户浏览与查看。
该系统各装置的功能与上述方法一一对应。
本发明的方法绘制出的主题演化趋势图通过用户分析和评价,主题关系判断绝大部分都比较准确,能够较好地反映主题的动态演化趋势,方便用户深入了解某一主题,辅助用户决策,在实际应用中深受用户好评。
本发明的效果在于:基于已有的主题检测系统,定期计算当前主题与前一天主题的关系,并加以保存。采用的计算方法直接,能够对各种类型的数据进行处理。该方法的计算和存储效率都很高,适合实时对海量文本数据进行分析和挖掘,具有很强的实用性。
本发明所述的方法并不限于具体实施方式中所述的实施例,步骤(1)中可利用除方正雷达之外的其它网页采集工具实时从互联网上采集各类文本信息。步骤(2)中的主题检测算法也可以其它对增量聚类算法的改进。步骤(3)中计算主题关系所用到的相似性度量方法除了余弦公式之外,还可以是Jaccard公式,Dice公式等。步骤(4)中绘制主题演化趋势图除了使用Flash之外,还可以使用Java Applet等客户端图形显示程序,或者直接将主题演化趋势图生成图片。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。