一种面向网络话题的热度评价方法转让专利

申请号 : CN201510032875.4

文献号 : CN104615685B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 程学旗杜慧伍大勇张瑾郭岩余智华刘悦刘玮

申请人 : 中国科学院计算技术研究所

摘要 :

本发明提供一种面向网络话题的热度评价方法,包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及根据对比的结果得到该网络话题的热度值。本发明定义了数值评价体系,方便了用户理解话题的热度程度,有利于话题之间的热度比较;以及,采用粗糙集相关理论最优化训练集中的不一致性,学习出热度值与属性之间的关系,提供了高热度评价的效果,其中,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度;此外,综合多种背景知识的用户的评价得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。

权利要求 :

1.一种面向网络话题的热度评价方法,包括:

步骤1)、从目标时段的文档流中获得要进行热度评价的网络话题;

步骤2)、将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;

步骤3)、根据对比的结果得到该网络话题的热度值;

其中,根据以下步骤训练离散点集合以及所述规则:

步骤a)、按时段采集网页,得到每个时段的网络话题;

步骤b)、给定热度值的范围,由不同知识背景的参与者对每个时段的每个网络话题进行热度评价,得到每个时段的每个网络话题的热度值;

步骤c)、得到训练集;其中,所述训练集的样本为每个时段的每个网络话题的属性向量,网络话题的属性向量的分量包括该网络话题在该时段的网页内容属性的属性值以及该话题在该时段和前一时段的热度值;

步骤d)、在所述训练集中,对于每个时段的每个网络话题,将该网络话题在该时段的网页内容属性的属性值和在前一时段的热度值作为条件属性并且将该- 网络 话题在该时段的热度值作为决策属性,学习得到所述离散点集合以及所述规则;

其中,每个离散点集合与一种属性相对应,其包括一个或多个按顺序排列的值,用于与网络话题的属性向量中对应的分量进行比较以将该分量转换为预定范围内的值。

2.根据权利要求1所述的方法,其中,步骤2)包括:计算所述网络话题的属性向量与规则中的属性向量的距离,其中,属性向量的各分量是所属网络话题的各属性值。

3.根据权利要求2所述的方法,其中,步骤3)包括:将与所述网络话题的属性向量距离最小的规则中的属性向量所对应的热度值,作为所述网络话题的热度值。

4.根据权利要求2或3所述的方法,其中,步骤1)还包括:获得所述网络话题的属性向量。

5.根据权利要求4所述的方法,其中,步骤1)还包括:根据训练得到的离散点集合离散化所述网络话题的属性向量的分量。

6.根据权利要求5所述的方法,其中,对于属性Am对应的非空离散点集合{p1,…,pR},其中R≥1且为整数,根据下式离散化所述网络话题的属性向量的对应分量:其中, 表示在目标时段t网络话题i的属性向量中与属性Am对应的离散化分量,表示在目标时段t网络话题i的属性向量中与属性Am对应的分量;

对于属性Am对应的空离散点集合,

7.根据权利要求2或3所述的方法,其中,所述网络话题的属性向量的分量包括在目标时段的网页内容属性的属性值和所述网络话题在目标时段的前一时段的热度值。

8.根据权利要求1所述的方法,其中,步骤d)包括:步骤d1)、初始化离散点集合pm,其中m=1,…,M且M表示网页内容属性的个数;初始化候选点集合 m=1,…,M,其中 表示网络话题i在t时段的网页内容属性Am的值,K为每个时段的网络话题数量,T为采集的时段数;初始化临时候选点集合Lm=P′m,m=1,…,M;将最小不一致数C*初始化为训练集中的样本数;以及,初始化变量存放集合Q;

步骤d2)、选择一个临时候选点集合Lm,m=1,…,M,从所选的临时候选点集合中选择一个元素p放入离散点集合Pm,根据离散点集合离散化训练集中属性向量的对应分量,并将离散化的结果保存到集合Sd,将该元素p从Lm中删除;

步骤d3)、根据下式计算离散化后的不一致数C:

C=αC1+βC2

其中,C1表示离散化后条件属性相同但决策属性不同的样本对数量,C2表示离散化后条件属性的大小关系与决策属性的大小关系不一致的样本对数量,α、β为0到1之间的参数且二者之和为1;

记录Q={Q;{p,m,C}};

步骤d4)、将放入离散点集合Pm中的元素p从Pm中清除,并且清空Sd;

步骤d5)、如果存在Lm,其中m=1,…,M,非空,则返回步骤d2);否则,从Q中找不一致数C最低的三元组{p,m,C},若C≤C*,则更新最小不一致数C*=C、将p加入Pm中且从P′m中删除、更新Lm=P′m,清空Q,并且返回步骤d2);

步骤d6)、使用所得到的每个离散点集合Pm,m=1,…,M,对训练集中属性向量的对应分量进行离散化;

步骤d7)、从离散化后的训练集中归纳得到网络话题的属性与热度值的对应关系,从而得到所述规则。

9.根据权利要求8所述的方法,其中, 表示如下:

其中,dk(Am)表示在t时段文档dk对应的属性Am的值,且文档dk与t时段的话题i相关联;

是与 相关联的t时段的文档数量。

10.根据权利要求1所述的方法,其中,步骤a)包括:步骤a1)、对于所采集的每个时段的网页的文档,基于词典建立该文档的向量表示;其中,文档的向量表示的每个分量是词典中的对应词在该文档中的权重;

步骤a2)、将每个时段的文档进行聚类,用聚类后类中的文档的向量表示的平均值来表示该时段的话题,所得到的每个时段的每个话题与该话题所属的类中的文档相关联。

说明书 :

一种面向网络话题的热度评价方法

技术领域

[0001] 本发明涉及数据挖掘技术领域,更具体地,涉及一种面向网络话题的热度评价方法。

背景技术

[0002] 互联网已成为最重要的信息传播载体,并依靠其自由和便利性巩固了其在新闻传播中的主力地位。海量的各种类型的数据在网络上形成一个极其丰富的信息源,网络新闻媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。人们已经习惯于通过网络查看最新资讯,然而新闻数量的庞大要求网民必须有选择地阅读新闻,因此最新最热的事件相关信息成为关注的重点.
[0003] 网络信息数据经过信息采集与抽取后,半结构化或者结构化的网页信息变成了易于处理的结构化的文本内容,其中包括标题、内容、作者、点击量、评论量等属性。TDT技术能够自动将文本按照内容聚类成话题,一般选取聚类集合中的一篇文档的标题来代表该话题。话题的数量较原始的互联网网页的数量大大降低。但是互联网中话题的数量相对于用户的精力来说仍然比较庞大,对用户获悉热点、洞察整个互联网的发展态势带来了困难。对话题热度的评价是解决这个问题的一种方法,热度评价可以衡量话题在网络中受到的关注程度、能够方便用户对热点事件的把握,具有实用性。
[0004] 目前,对话题热度的研究主要是从排序问题入手的,现有技术大多考虑用户关注度和媒体关注度。其中一种方法考虑新闻网页、来源网站和话题之间的相关增强。另有一种方法将热度定义为这两者的加权和,其中使用相关报道数量来量化一定时间内站点上主题的媒体关注度,并且使用用户的浏览行为来量化用户关注度;或者采用话题相关的文章数目来计算媒体关注度,并且使用用户的搜索日志来计算用户关注度。此外,还有一种方法进一步增加了时效性,利用回归模型来研究话题热度。
[0005] 尽管对于话题热度的研究已有不少成果,但大多缺乏统一的衡量标准,热度值的范围往往是不确定的,用户无法通过数值对事件当前的受关注程度获得一个直观的理解;并且,对于计算过程中的参数的获取多数是通过人工指定或者打分得到的,这样计算得到的结果偏重主观性;此外,不同时段之间的热度值可比性较弱,现有方法往往是采用某一段时间内的语料来计算话题排序,从而无法用于话题趋势的描述。

发明内容

[0006] 为解决上述问题,根据本发明的一个实施例,提供一种面向网络话题的热度评价方法,包括:
[0007] 步骤1)、从目标时段的文档流中获得要进行热度评价的网络话题;
[0008] 步骤2)、将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;
[0009] 步骤3)、根据对比的结果得到该网络话题的热度值。
[0010] 上述方法中,步骤2)包括:
[0011] 计算所述网络话题的属性向量与规则中的属性向量的距离,其中,属性向量的各分量是所属网络话题的各属性值。
[0012] 上述方法中,步骤3)包括:
[0013] 将与所述网络话题的属性向量距离最小的规则中的属性向量所对应的热度值,作为所述网络话题的热度值。
[0014] 上述方法中,步骤1)还包括:
[0015] 获得所述网络话题的属性向量;根据训练得到的离散点集合离散化所述网络话题的属性向量的分量;其中,每个离散点集合与一种属性相对应,其包括一个或多个按大小顺序排列的值,用于与网络话题的属性向量中对应的分量进行比较以将该分量转换为预定范围内的值。
[0016] 上述方法中,对于属性Am对应的非空离散点集合{p1,…,pR},其中R≥1且为整数,根据下式离散化所述网络话题的属性向量的对应分量:
[0017]
[0018] 其中, 表示在目标时段t网络话题i的属性向量中与属性Am对应的离散化分量, 表示在目标时段t网络话题i的属性向量中与属性Am对应的分量;
[0019] 对于属性Am对应的空离散点集合,
[0020] 上述方法中,所述网络话题的属性向量的分量包括在目标时段的网页内容属性的属性值和所述网络话题在目标时段的前一时段的热度值。
[0021] 上述方法中,根据以下步骤训练所述离散点集合以及所述规则:
[0022] 步骤a)、按时段采集网页,得到每个时段的网络话题;
[0023] 步骤b)、给定热度值的范围,由不同知识背景的参与者对每个时段的每个网络话题进行热度评价,得到每个时段的每个网络话题的热度值;
[0024] 步骤c)、得到训练集;其中,所述训练集的样本为每个时段的每个网络话题的属性向量,网络话题的属性向量的分量包括该网络话题在该时段的网页内容属性的属性值以及该话题在该时段和前一时段的热度值;
[0025] 步骤d)、在所述训练集中,对于每个时段的每个网络话题,将该网络话题在该时段的网页内容属性的属性值和在前一时段的热度值作为条件属性并且将该网路话题在该时段的热度值作为决策属性,学习得到所述离散点集合以及所述规则。
[0026] 上述方法中,步骤d)包括:
[0027] 步骤d1)、初始化离散点集合pm,其中m=1,…,M且M表示网页内容属性的个数;初始化候选点集合 m=1,…,M,其中 表示网络话题i在t时段的网页内容属性Am的值,K为每个时段的网络话题数量,T为采集的时段数;初始化临时候选点集合Lm=P′m,m=1,…,M;将最小不一致数C*初始化为训练集中的样本数;以及,初始化变量存放集合Q;
[0028] 步骤d2)、选择一个临时候选点集合Lm,m=1,…,M,从所选的临时候选点集合中选择一个元素p放入离散点集合Pm,根据离散点集合P1,,…,PM离散化训练集中属性向量的对应分量,并将离散化的结果保存到集合Sd,将该元素p从Lm中删除;
[0029] 步骤d3)、根据下式计算离散化后的不一致数C:
[0030] C=αC1+βC2
[0031] 其中,C1表示离散化后条件属性相同但决策属性不同的样本对数量,C2表示离散化后条件属性的大小关系与决策属性的大小关系不一致的样本对数量,α、β为0到1之间的参数且二者之和为1;
[0032] 记录Q={Q;{p,m,C}};
[0033] 步骤d4)、将放入离散点集合Pm中的元素p从Pm中清除,并且清空Sd;
[0034] 步骤d5)、如果存在Lm,其中m=1,…,M,非空,则返回步骤d2);否则,从Q中找不一致数C最低的三元组{p,m,C},若C≤C*,则更新最小不一致数C*=C、将p加入Pm中且从P′m中删除、更新Lm=P′m,清空Q,并且返回步骤d2);
[0035] 步骤d6)、使用所得到的每个离散点集合Pm,m=1,…,M,对训练集中属性向量的对应分量进行离散化;
[0036] 步骤d7)、从离散化后的训练集中归纳得到网络话题的属性与热度值的对应关系,从而得到所述规则。
[0037] 上述方法中, 可表示如下:
[0038]
[0039] 其中,dk(Am)表示在t时段文档dk对应的属性Am的值,且文档dk与t时段的话题i相关联; 是与 相关联的t时段的文档数量。
[0040] 上述方法中,步骤a)包括:
[0041] 步骤a1)、对于所采集的每个时段的网页的文档,基于词典建立该文档的向量表示;其中,文档的向量表示的每个分量是词典中的对应词在该文档中的权重;
[0042] 步骤a2)、将每个时段的文档进行聚类,用聚类后类中的文档的向量表示的平均值来表示该时段的话题,所得到的每个时段的每个话题与该话题所属的类中的文档相关联。
[0043] 本发明具有如下的有益效果:
[0044] 1.本发明确定了热度值和实际意义的关联性,并且通过限定热度值的范围定义了一个数值评价体系,从而使得数值意义直观,方便了用户理解话题的热度程度,更加有利于话题之间的热度比较。
[0045] 2.采用机器学习的方式得到从训练集中学习得到的话题热度与属性之间的关联规则,其通过将经验信息中的主要精华部分提取出来,提高了热度评价的效果。
[0046] 3.采用粗糙集相关理论最优化训练集中的不一致性,尽可能地减轻集合中的混乱不一致情况,从而最大程度地学习出训练集中蕴含的热度与属性之间的关系,提高了高热度评价的效果。
[0047] 4.给出了寻找最小化训练集不一致性的属性的离散策略,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度。
[0048] 5.综合多种背景知识的用户的标注数据得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。
[0049] 6.提供了训练集的获得和学习规则的方法,当热度评价效果变差时,便于规则的重新学习、更正。

附图说明

[0050] 以下参照附图对本发明实施例作进一步说明,其中:
[0051] 图1示出了根据本发明一个实施例的面向网络话题的热度评价方法的流程图;
[0052] 图2示出了根据本发明一个实施例的获得话题相关的基础数据集合的方法流程图;
[0053] 图3示出了根据本发明一个实施例的由基础数据集合得到训练集的方法流程图。

具体实施方式

[0054] 为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0055] 根据本发明的一个实施例,提供一种面向网络话题的热度评价方法。
[0056] 概括而言,该热度评价方法包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及,根据对比的结果得到该网络话题的热度值。
[0057] 以下结合图1具体描述该方法的各步骤。需要说明的是,说明书中所描述的方法的各个步骤并非一定是必须的,而是可以根据实际情形来省略或替换其中的一个或多个步骤。例如,步骤101-104在实际应用中执行一次即可;或者,当步骤105中新话题热度的计算效果变差或基础数据集合有变化时,为了提高该方法的有效性,可再次执行步骤101-104。
[0058] 步骤101:获得话题相关的基础数据集合
[0059] 参考图2,本步骤包括以下子步骤:
[0060] 步骤1011:网页采集与属性抽取
[0061] 首先,按时段采集互联网中的网页。其中,网页包括新闻页面、论坛页面、博客页面等;时段的单位可以是小时、天等(可根据实际情况进行选择),优选以天为单位。如果将当前时段用t表示,则上一时段可表示为t-1。
[0062] 接着,将所采集的每个时段的网页进行属性抽取。例如,抽取包括标题、点击量、评论数等网页中存在的属性。本文中,属性名称集合记为A={A1,…,AM},M为属性名称的总数。
[0063] 本领域技术人员应理解,现有的网页采集与属性抽取技术已经比较成熟,可使用各种现有技术来实现本子步骤。
[0064] 步骤1012:对文档进行分词得到文档向量
[0065] 对所采集的每个时段的网页内容(即文档)进行分词,建立文档的基于词典的向量空间表示。
[0066] 在一个实施例中,假使分词词典为D且词典中词的数量为N,则一个文档可以表示为一个长度为N的向量,其中每个向量的分量是词典D中相应的一个词在该文档中的权重。在一个实施例中,权重的选取可以采用常用的TF-IDF值。其中,TF值表示词在该文档中出现的次数(即频率);IDF值为词的反引文档频率,即在相应时段的文档集合(即网页内容的集合)中包含该词的文档数。TF越大,说明该词在该文档中越重要;IDF越大,即该词在越多的文档中出现,则表示该词不是本文档独有的词。举例来说明,词的TF-IDF权重可表示如下:
[0067] wi=fa(TFi)*fb(N/IDFi)   (1)
[0068] 其中,wi为字典中第i个词在该文档中的权重,N为该文档所属时段的文档集合中的文档数量,TFi为第i个词在该文档中出现的次数,IDFi为第i个词的反引文档频率,fa和fb为分别关于TF和IDF的函数。
[0069] 在一个实施例中,还要对权重进行归一化处理,从而得到文档的基于词典的向量空间表示,即文档向量。
[0070] 步骤1013:聚类话题
[0071] 在本步骤中,对每个时段的文档集合中的文档进行聚类,得到该时段的网络话题(简称话题)。
[0072] 在一个实施例中,可采用k-means聚类方法对每个时段内的文档集合进行聚类。该聚类过程包括:从文档集合中随机选取K个文档做为初始类中心(应理解,对于不同时段的文档集合,K的大小也可以不同);对该文档集合中的任意一个文档向量计算与K个类中心向量的相似度,将该文档加入到相似度最高的那个类中,同时更新该类的类中心;更新时使用该类中的文档向量的平均值作为中心向量。在聚类结束后,使用类中心向量来表示话题,例如,用 表示t时段的话题i,i=1…K,其中一个话题的持续(存在)时间可以是一个或者多个时段。
[0073] 在计算文档向量与类中心向量的相似度时,在一个实施例中,可采用余弦距离来衡量该相似度,对于任意的两个文档向量d1=(d11,…,d1N)、d2=(d21,…,d2N),其中dji表示词i在文档j中的权重,它们之间的余弦距离表示如下:
[0074]
[0075] 步骤1014:按话题统计属性,得到话题相关的基础数据集合
[0076] 如上文所述,话题是由类中心向量表示的,则对于t时段的话题 其对应的文档集合 是由属于该话题类别的文档构成的,其中 是话题 对应的文档集合中的文档数量。对于上文描述的属性名称集合(或属性类别集合)A={A1,…,AM},的属性向量(这里的属性指网页内容属性)可表示为 其中,每个分量
表示话题 的Am属性的值,m=1,…,M,其公式如下:
[0077]
[0078] 其中,dk(Am)表示在t时段文档dk对应的属性Am的值,即属性Am在文档dk中的值,可以采用现有的方法获得该属性值。比如点击量属性,将文档对应的点击量相加得到。另外对于特殊的统计属性如文章数属性,统计该类别下的文档数量得到,来源网站数属性统计该类别下的文档来源的网站得到。例如,对于属性文章数、来源网站数量、点击量、评论量,2014年2月23日话题i的属性值表示如下:文章数为46,来源网站数量为21,点击量为1890,评论量为690。
[0079] 将所得到的所有时段所有话题的属性向量,作为基础数据集合。
[0080] 步骤102:限定话题热度的数值范围
[0081] 在本步骤中,对话题热度做数值范围的限定,确定数值与实际意义的关联性。
[0082] 在一个实施例中,给定一个数值范围,其中数值越高表示对应的热度越高,例如采用百分制0-100的范围或者用星级表示0-5的范围等。以0-5的数值范围为例,5:极热,受到全国甚至世界范围的关注,即最高级别;4:非常热,众多人士和媒体等普遍关注;3:比较热;2:热度程度一般;1:不热,即受到的关注很少。
[0083] 步骤103:根据步骤101的基础数据集合得到训练集
[0084] 参考图3,本步骤包括以下子步骤:
[0085] 步骤1031:对步骤101得到的话题进行人工评价
[0086] 由多种知识背景的参与者对话题进行热度评价。按照预先设定的话题热度数值范围和实际意义,参考各时段互联网中各大新闻网站的新闻排名,按时段标注话题的热度值。将多个评价结果进行平均综合得到话题的热度值,其中用 表示话题i在t时刻的热度。
[0087] 步骤1032:在基础数据集合和人工评价结果的基础上,得到训练集[0088] 属性除了上文的来自网页的属性(网页内容属性),即A={A1,…,AM},还包括根据评价得到的热度值。在一个实施例中,将属性分为决策属性和条件属性两个部分,其中将评价得到的当前时段的热度值作为决策属性,将来自网页的属性作为条件属性。在采集时段大于等于两个时段的情况下,话题在t时段的热度会受到上一时段(t-1时段)热度的影响,因此增加上一时段的热度值作为当前时段的一个条件属性。例如,对于话题i,其在t时段的评价热度表示为 在t-1时段的评价热度表示为 那么 的属性向量可进一步表示为 其中,当t=1时,
[0089] 综上,以1~T个时段且每个时段的话题数量相同(且为K)来举例说明,得到训练集其中,条件属性为{A1,…,AM,Ht-1},决策属性为Ht。
[0090] 步骤104:从训练集中学习得到属性的离散参数和属性与热度值的关联规则[0091] 本步骤中,采用粗糙集相关理论,从训练集中学习得到属性的离散参数(或称离散点集合)和热度值与属性的关联规则。包括以下子步骤:
[0092] 步骤1041:初始化M个离散点集合Pm=Φ,m=1,…,M;初始化候选点集合同时,初始化临时候选点集合Lm=P′m,m=1,…,M。初始化最小不一致数C*=card(Str),其中card(Str)为Str中的样本数;初始化变量存放集合Q=Φ。
[0093] 步骤1042:从M个临时候选点集合中任意选择一个临时候选点集合Lm,并从Lm中任选一个点p放入Pm中,然后对训练集执行离散化过程得到离散化后的集合Sd,并将该点p从Lm中删除。
[0094] 在执行离散化的过程中,不改变Str,而是将离散化后的结果保存在集合Sd中。在一个实施例中,离散化方法如下:
[0095] 离散点集合Pm={p1,p2,…,pR},该集合中的点按照从小到大的顺序排放,其中R表示集合Pm中点的数量。就属性Am而言,对于t时段话题i原本的属性Am的值 离散规则如下:
[0096]
[0097] 其中,如果Pm是空集(Pm=Φ),那么 属性值都变为0(即 应理解,一个好的离散点集合应该能够尽量保持离散化后的数据集合的一致性。
[0098] 步骤1043:计算离散化后的不一致数,对于任意的样本 二者保持一致性有两种情况:
[0099] A)、若所有条件属性的属性值相同,则对应的决策属性(热度值)也应该是相同的;若不同,则是不一致的。记录不一致的样本对数量为C1。
[0100] B)、若至少有一个条件属性,在该处两个样本的属性值不同,那么热度值(决策属性)的大小关系应与该属性值的大小关系一致。例如,若对于所有的条件属性, 属性值均大于等于(或者小于等于) 对应的属性值,那么相应的热度值也应该保持同样的大小关系,即 (或者 );否则,则是不一致的。记录不一致的样本对数目为C2。
[0101] 根据以上两种情况,得到离散后样本的不一致数为:
[0102] C=αC1+βC2   (5)
[0103] 其中,α、β为0-1之间的权重参数且二者之和为1,用于调节两种不一致行为的相对重要性。一般取α=β=0.5。
[0104] 此外,记录Q={Q;{p,m,C}}。
[0105] 步骤1044:将步骤1042中放入Pm中的点从Pm中清除,清空Sd。
[0106] 步骤1045:若某个Lm非空,跳转到步骤1042;否则,从Q中找到不一致数C最低的三元组{p,m,C},若C≤C*,则更新最小不一致数C*=C,并将p加入Pm中,从P′m中删除,更新临时候选点集合Lm=P′m,m=1,…,M,清空Q,跳转到步骤1042。
[0107] 步骤1046:使用离散点集合Pm(m=1,…,M),对训练集Str进行离散化,离散化的过程参照步骤1042中的介绍执行。
[0108] 步骤1047:从离散化后的训练集中归纳得到热度值与属性之间的关联规则。规则的格式可如∧(c,v)→∨(d,w),其中∧(c,v)是规则的条件属性(离散化的属性),∨(d,w)是决策属性即热度值。
[0109] 离散点集合(或称属性的离散参数)与规则的具体形式可以参照下面的实例,如话题的条件属性包括点击数、评论数和发文数,且确定的热度值为0-5,训练得到的离散点集合如表1所示,规则如表2所示。
[0110] 表1
[0111]条件属性 离散点
点击数 3000,5000,6000
评论数 800,1500,2600,4000
发文数 40,90,150,200
[0112] 表2
[0113]
[0114]
[0115] 步骤105:对于要评价的新话题,根据训练的规则得到该话题的热度值[0116] 对于新话题,按照步骤104得到的离散点集合进行离散化,并与步骤104中得到的规则进行匹配,求得该话题的热度值。在一个实施例中,本步骤包括以下子步骤:
[0117] 步骤1051:从文档流中得到新话题
[0118] 从当前时段(目标时段)的文档流中聚类话题,并得到话题的属性向量,其中话题的属性向量的分量是各属性值。其中,如果计算了上一时段的热度值,则相应分量的值为该热度值,否则可将该分量的值设为0。
[0119] 步骤1052:使用步骤104中训练得到的离散点集合对话题属性向量中的各属性值进行离散化,离散化的方法与子步骤1042中相同。其中,由于热度值是预定范围(如0-5)内的值,因此仅离散化网页内容属性的属性值。
[0120] 步骤1053:将离散化后的话题的属性向量与步骤104中得到的规则进行对比,从规则中找到与该属性向量距离最小的条件属性,则与该条件属性对应的热度值也就是该话题的热度值。在一个实施例中,采用欧式距离计算新话题属性与规则中的条件属性的距离。
[0121] 例如,话题O按照表1中的离散点集合进行离散化后得到的属性向量为(2,3,3),表2中规则4与话题A的距离为0,则规则4是距离最小的规则,因此话题A的热度值取规则4中的热度值4。
[0122] 为了更详细地描述本发明提供的热度评价方法,下文给出了一个较为全面的实例。
[0123] 发明人采集了2014年2月23日到2014年3月9日的新闻和论坛站点的网页数据,其中新闻采集五大网站凤凰、搜狐、腾讯、网页和新浪,这五个网站包括了超过500个板块,采集论坛网站超过100个。发明人对采集到的网页按照本发明中的步骤进行处理后得到基础数据集合,对前十天的数据进行标注处理后得到训练集。在对训练集的处理中,选取新闻文章数、新闻来源网站数、论坛点击数、论坛评论数、论坛帖子数、论坛来源板块数作为条件属性,它们是无上限范围的,需要进行离散化。同时前一天(上一时段)的热度也作为条件属性,该属性无需进行离散化。这样共有七个条件属性,接下来对前六个属性进行离散化,得到离散点集合,见表3。对训练集进行离散化,归纳得到条件属性与热度之间的关联规则,部分规则实例见表4。使用得到的规则,对其余的数据进行话题热度评估,得到话题热度值,部分2014年3月6日的热点话题见表5。
[0124] 表3
[0125]
[0126] 表4
[0127]
[0128]
[0129] 表5
[0130]
[0131] 应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
[0132] 以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合,均应属于本发明保护的范围。