一种微博网络的社团数量检测方法及检测系统转让专利

申请号 : CN202010087405.9

文献号 : CN111275564A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杜航原

申请人 : 山西大学

摘要 :

本发明提供一种微博网络的社团数量检测方法及检测系统,能够快速准确的确定微博网络的社团数量以及社团中心节点。所述方法包括:根据微博用户之间的关注关系,构建微博用户网络模型;对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。本发明涉及社交网络技术领域。

权利要求 :

1.一种微博网络的社团数量检测方法,其特征在于,包括:

根据微博用户之间的关注关系,构建微博用户网络模型;

对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;

根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;

从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。

2.根据权利要求1所述的微博网络的社团数量检测方法,其特征在于,每个微博用户对应微博用户网络模型中的一个用户节点;

所述根据微博用户之间的关注关系,构建微博用户网络模型包括:

判断两个微博用户之间是否存在关注关系,若存在,则所述两个微博用户对应的用户节点之间存在一条连边;

由用户节点及用户节点间的连边共同构成微博用户网络模型Net(U,E),其中,U=(u1,u2,…,uM)表示微博用户网络模型Net(U,E)中所有用户节点构成的集合,ui表示微博用户网络模型Net(U,E)中第i个用户节点,1≤i≤M,M为微博用户网络模型Net(U,E)中用户节点的数量,E=(e1,e2,…,eN)表示微博用户网络模型Net(U,E)中所有连边构成的集合,ej表示微博用户网络模型Net(U,E)中第j条连边,1≤j≤N,N为微博用户网络模型Net(U,E)中所有连边的数量。

3.根据权利要求1所述的微博网络的社团数量检测方法,其特征在于,所述对于微博用户网络模型中的每个用户节点,确定其内聚度包括:利用两个用户节点的公共邻居用户节点数,确定所述两个用户节点之间的相似度,其中,微博用户网络模型Net(U,E)中第i个用户节点ui与其邻居用户节点ul间的相似度simi,l表示为:simi,l=|NGi∩NGl|

其中,simi,l为用户节点ui与邻居用户节点ul的相似度,NGi和NGl分别表示用户节点ui的邻居节点集合以及邻居用户节点ul的邻居用户节点集合;

根据得到的用户节点间的相似度,确定微博用户网络模型Net(U,E)中第i个用户节点ui的内聚度Ii:其中,Ii为用户节点ui的内聚度,用于表示用户节点ui对其所属社团中其它用户节点的最大聚合性,即社团结构内部关联的稠密性;di表示用户节点ui的连边数量; 表示用户节点ui与其邻居用户节点ul的最大相似度。

4.根据权利要求3所述的微博网络的社团数量检测方法,其特征在于,所述对于微博用户网络模型中的每个用户节点,确定其分离度包括:根据确定的用户节点的内聚度,确定微博用户网络模型中第i个用户节点ui的分离度:其中,Pi表示用户节点ui的分离度,用于表示用户节点ui与其所属社团之外的用户节点间的相关性,即不同社团之间关联的稀疏性;uo表示微博用户网络模型Net(U,E)中内聚度比ui高的某一用户节点; 表示微博用户网络模型Net(U,E)中内聚度比ui高的用户节点与ui之间的最大相似度。

5.根据权利要求4所述的微博网络的社团数量检测方法,其特征在于,根据得到的用户节点的内聚度和分离度确定每个用户节点中心度的标准分数包括:对于微博用户网络模型Net(U,E)中每个用户节点,将其内聚度与分离度的乘积作为相应用户节点的中心度;

确定微博用户网络模型Net(U,E)中每个用户节点中心度的标准分数。

6.根据权利要求5所述的微博网络的社团数量检测方法,其特征在于,微博用户网络模型Net(U,E)中第i个用户节点ui的中心度的标准分数 表示为:其中, 为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度对应的标准分数;

Ci为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度,用于描述每个用户节点对其所属社团的影响力;μC和σC分别表示微博用户网络模型Net(U,E)中用户节点中心度总体分布的期望和标准差。

7.根据权利要求6所述的微博网络的社团数量检测方法,其特征在于,所述根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合包括:对于微博用户网络模型Net(U,E)中的用户节点,根据确定的用户节点中心度的标准分数划分出3σ置信区间,其中,σ表示标准差;

从落于3σ置信区间之外的用户节点中选取中心度标准分数大于3的用户节点构成候选社团中心节点集合 其中,uk表示中心度的标准分数大于3的用户节点,即候选社团中心节点, 表示用户节点uk的中心度的标准分数。

8.根据权利要求7所述的微博网络的社团数量检测方法,其特征在于,所述从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量包括:确定候选社团中心节点集合Λ中各候选社团中心节点uk内聚度的标准分数确定候选社团中心节点集合Λ中各候选社团中心节点uk内聚度的标准分数从候选社团中心节点集合Λ中选择满足 且 的用户节点uk作为社团中心节点uc,其中,uc为选定的微博网络社团中心节点;

输出微博用户网络社团中心节点集合 和社团数量K=|C

|,即集合C中的元素个数,其中, 和 分别表示社团中心节点uc的内聚度和分离度对应的标准分数。

9.根据权利要求1所述的微博网络的社团数量检测方法,其特征在于,候选社团中心节点uk内聚度的标准分数 表示为:其中,Ik表示候选社团中心节点uk的内聚度, 表示候选社团中心节点uk的内聚度对应的标准分数,μI和σI分别表示微博用户网络模型Net(U,E)中用户节点内聚度总体分布的期望和标准差;

候选社团中心节点uk分离度的标准分数 表示为:

其中,Pk表示候选社团中心节点uk的分离度, 表示候选社团中心节点uk的分离度对应的标准分数,μP和σP分别表示微博用户网络模型Net(U,E)中用户节点分离度总体分布的期望和标准差。

10.一种微博网络的社团数量检测系统,其特征在于,包括:

构建单元,用于根据微博用户之间的关注关系,构建微博用户网络模型;

第一确定单元,用于对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;

生成单元,用于根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;

第二确定单元,用于从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。

说明书 :

一种微博网络的社团数量检测方法及检测系统

技术领域

[0001] 本发明涉及社交网络技术领域,特别是指一种微博网络的社团数量检测方法及检测系统。

背景技术

[0002] 随着计算机网络技术的迅速发展,人类社会步入了互联网时代,由社会个体间互动形成的社会关系也在物联网技术这一载体上以虚拟社交网络的形式呈现。这种虚拟社交网络使人们相互交流和传递信息的效率较以往大大提高,并且能真实反映社会关系的发展,对社会关系和社会行为的研究具有重要意义。微博作为虚拟社交网络的典型代表,表现出强大的发展态势,并已成为中国网民的主要社交平台。微博用户通过关注机制与网络中的其他用户产生联系,并且通过关注机制实现信息的共享和交流。在形成社交网络的过程当中,具有相同兴趣的用户会聚集在一起,这些用户会一起分享相类似主题的信息,这些用户就逐步形成一种社团结构。社团内部的用户交流频繁,关系紧密,这些用户往往具有相同的兴趣爱好,并且消息能很好地在社团内部传播;而社团之间的用户交流较少,关系疏远,并且社团间的用户的信息传播效果较差。对微博网络中的社团进行识别与发现,有助于实现信息及时推送和兴趣用户的推荐,对于精准营销工作的开展也具有重要的商业价值。
[0003] 目前,关于社交网络中的社团发现研究已经涌现出大量技术成果,目前的比较成熟的社团发现算法有基于标签传播的方法、基于分割的方法、基于层次聚类的方法、基于模块化质量优化的方法等。这些经典的社团发现方法存在一个重要的问题:它们通过各种技术手段将社交网络划分为若干数量固定的社团,都依赖于一个前提——社交网络中的社团数量是已知的。然而在很多实际任务中,社团数量这一信息通常是难以事先获得的。尤其是对于微博网络,其用户数量极其庞大,网络结构也异常复杂,几乎不可能事先获得准确的社团数量,这将导致社团发现结果失效或有效性大大降低。因此,如何在缺乏先验知识的情况下对微博网络的社团数量进行有效检测,是确保社团发现结果准确可靠的基本前提。

发明内容

[0004] 本发明要解决的技术问题是提供一种微博网络的社团数量检测方法及检测系统,以解决现有技术所存在的无法准确获取微博网络的社团数量的问题。
[0005] 为解决上述技术问题,本发明实施例提供一种微博网络的社团数量检测方法,包括:
[0006] 根据微博用户之间的关注关系,构建微博用户网络模型;
[0007] 对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;
[0008] 根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;
[0009] 从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。
[0010] 进一步地,每个微博用户对应微博用户网络模型中的一个用户节点;
[0011] 所述根据微博用户之间的关注关系,构建微博用户网络模型包括:
[0012] 判断两个微博用户之间是否存在关注关系,若存在,则所述两个微博用户对应的用户节点之间存在一条连边;
[0013] 由用户节点及用户节点间的连边共同构成微博用户网络模型Net(U,E),其中,U=(u1,u2,…,uM)表示微博用户网络模型Net(U,E)中所有用户节点构成的集合,ui表示微博用户网络模型Net(U,E)中第i个用户节点,1≤i≤M,M为微博用户网络模型Net(U,E)中用户节点的数量,E=(e1,e2,…,eN)表示微博用户网络模型Net(U,E)中所有连边构成的集合,ej表示微博用户网络模型Net(U,E)中第j条连边,1≤j≤N,N为微博用户网络模型Net(U,E)中所有连边的数量。
[0014] 进一步地,所述对于微博用户网络模型中的每个用户节点,确定其内聚度包括:
[0015] 利用两个用户节点的公共邻居用户节点数,确定所述两个用户节点之间的相似度,其中,微博用户网络模型Net(U,E)中第i个用户节点ui与其邻居用户节点ul间的相似度simi,l表示为:
[0016] simi,l=|NGi∩NGl|
[0017] 其中,simi,l为用户节点ui与邻居用户节点ul的相似度,NGi和NGl分别表示用户节点ui的邻居节点集合以及邻居用户节点ul的邻居用户节点集合;
[0018] 根据得到的用户节点间的相似度,确定微博用户网络模型Net(U,E)中第i个用户节点ui的内聚度Ii:
[0019]
[0020] 其中,Ii为用户节点ui的内聚度,用于表示用户节点ui对其所属社团中其它用户节点的最大聚合性,即社团结构内部关联的稠密性;di表示用户节点ui的连边数量;表示用户节点ui与其邻居用户节点ul的最大相似度。
[0021] 进一步地,所述对于微博用户网络模型中的每个用户节点,确定其分离度包括:
[0022] 根据确定的用户节点的内聚度,确定微博用户网络模型中第i个用户节点ui的分离度:
[0023]
[0024] 其中,Pi表示用户节点ui的分离度,用于表示用户节点ui与其所属社团之外的用户节点间的相关性,即不同社团之间关联的稀疏性;uo表示微博用户网络模型Net(U,E)中内聚度比ui高的某一用户节点; 表示微博用户网络模型Net(U,E)中内聚度比ui高的用户节点与ui之间的最大相似度。
[0025] 进一步地,根据得到的用户节点的内聚度和分离度确定每个用户节点中心度的标准分数包括:
[0026] 对于微博用户网络模型Net(U,E)中每个用户节点,将其内聚度与分离度的乘积作为相应用户节点的中心度;
[0027] 确定微博用户网络模型Net(U,E)中每个用户节点中心度的标准分数。
[0028] 进一步地,微博用户网络模型Net(U,E)中第i个用户节点ui的中心度的标准分数表示为:
[0029]
[0030] 其中, 为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度对应的标准分数;Ci为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度,用于描述每个用户节点对其所属社团的影响力;μC和σC分别表示微博用户网络模型Net(U,E)中用户节点中心度总体分布的期望和标准差。
[0031] 进一步地,所述根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合包括:
[0032] 对于微博用户网络模型Net(U,E)中的用户节点,根据确定的用户节点中心度的标准分数划分出3σ置信区间,其中,σ表示标准差;
[0033] 从落于3σ置信区间之外的用户节点中选取中心度标准分数大于3的用户节点构成候选社团中心节点集合 其中,uk表示中心度的标准分数大于3的用户节点,即候选社团中心节点, 表示用户节点uk的中心度的标准分数。
[0034] 进一步地,所述从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量包括:
[0035] 确定候选社团中心节点集合Λ中各候选社团中心节点uk内聚度的标准分数[0036] 确定候选社团中心节点集合Λ中各候选社团中心节点uk内聚度的标准分数[0037] 从候选社团中心节点集合Λ中选择满足 且 的用户节点uk作为社团中心节点uc,其中,uc为选定的微博网络社团中心节点;
[0038] 输出微博用户网络社团中心节点集合 和社团数量K=|C|,即集合C中的元素个数,其中, 和 分别表示社团中心节点uc的内聚度和分离度对应的标准分数。
[0039] 进一步地,候选社团中心节点uk内聚度的标准分数 表示为:
[0040]
[0041] 其中,Ik表示候选社团中心节点uk的内聚度, 表示候选社团中心节点uk的内聚度对应的标准分数,μI和σI分别表示微博用户网络模型Net(U,E)中用户节点内聚度总体分布的期望和标准差;
[0042] 候选社团中心节点uk分离度的标准分数 表示为:
[0043]
[0044] 其中,Pk表示候选社团中心节点uk的分离度, 表示候选社团中心节点uk的分离度对应的标准分数,μP和σP分别表示微博用户网络模型Net(U,E)中用户节点分离度总体分布的期望和标准差。
[0045] 本发明实施例还提供一种微博网络的社团数量检测系统,包括:
[0046] 构建单元,用于根据微博用户之间的关注关系,构建微博用户网络模型;
[0047] 第一确定单元,用于对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;
[0048] 生成单元,用于根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;
[0049] 第二确定单元,用于从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。
[0050] 本发明的上述技术方案的有益效果如下:
[0051] 上述方案中,根据微博用户之间的关注关系,构建微博用户网络模型;对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。这样,通过用户节点的内聚度和分离度分别充分反映微博网络社团内部关联的稠密性和不同社团之间关联的稀疏性,使得所述社团数量检测方法及检测系统能够在无需任何先验信息的情况下,快速准确的确定微博网络的社团数量以及社团中心节点,对于微博网络数据分析具有较高实用价值。

附图说明

[0052] 图1为本发明实施例提供的微博网络的社团数量检测方法的流程示意图;
[0053] 图2为本发明实施例提供的微博网络的社团数量检测方法的详细流程示意图;
[0054] 图3为本发明实施例提供的微博网络的社团数量检测装置的结构示意图。

具体实施方式

[0055] 为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0056] 本发明针对现有的无法准确获取微博网络的社团数量微博网络的社团数量的问题,提供一种微博网络的社团数量检测方法及检测系统。
[0057] 实施例一
[0058] 如图1所示,本发明实施例提供的微博网络的社团数量检测方法,包括:
[0059] S101,根据微博用户之间的关注关系,构建微博用户网络模型;
[0060] S102,对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;
[0061] S103,根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;
[0062] S104,从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。
[0063] 本发明实施例所述的微博网络的社团数量检测方法,根据微博用户之间的关注关系,构建微博用户网络模型;对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。这样,通过用户节点的内聚度和分离度分别充分反映微博网络社团内部关联的稠密性和不同社团之间关联的稀疏性,使得所述社团数量检测方法能够在无需任何先验信息的情况下,快速准确的确定微博网络的社团数量以及社团中心节点,对于微博网络数据分析具有较高实用价值。
[0064] 本实施例中,在S101之前,从微博平台端中采集微博用户数据,例如,通过新浪微博提供的应用程序接口(API),采集了来自2019年8月1日至2019年10月31期间标注的5000个微博用户的数据,共包含17562条关注关系,将这些数据存储在HBase数据库中。
[0065] 本实施例中,采集的微博用户的数据不仅包括关注关系,还包括:用户唯一标识符(ID编号)、发表微博数、粉丝数以及关注数。
[0066] 在前述微博网络的社团数量检测方法的具体实施方式中,进一步地,每个微博用户对应微博用户网络模型中的一个用户节点;
[0067] 所述根据微博用户之间的关注关系,构建微博用户网络模型(S101)包括如下步骤:
[0068] A1,判断两个微博用户之间是否存在关注关系,若存在,则所述两个微博用户对应的用户节点之间存在一条连边;
[0069] A2,由用户节点及用户节点间的连边共同构成微博用户网络模型Net(U,E);
[0070] 其中,U=(u1,u2,…,uM)表示微博用户网络模型Net(U,E)中所有用户节点构成的集合,ui表示微博用户网络模型Net(U,E)中第i个用户节点,1≤i≤M,M(例如,本实施例中,M=5000)为微博用户网络模型Net(U,E)中用户节点的数量,E=(e1,e2,…,eN)表示微博用户网络模型Net(U,E)中所有连边构成的集合,ej表示微博用户网络模型Net(U,E)中第j条连边,1≤j≤N,N(例如,本实施例中,N=17562)为微博用户网络模型Net(U,E)中所有连边的数量。
[0071] 本实施例中,构建的微博用户网络模型由大量用户节点和连边共同构成,每个微博用户对应微博用户网络模型中的一个用户节点,包含ID编号、发表微博数、粉丝数以及关注数多个关键属性。
[0072] 本实施例中,如图2所示,对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数(S102)具体可以包括以下步骤:
[0073] B1,计算微博用户网络模型Net(U,E)中每个用户节点的内聚度,对于微博用户网络模型Net(U,E)中第i个用户节点ui,其内聚度计算方法具体包含以下步骤:
[0074] B11,利用两个用户节点的公共邻居用户节点数,确定所述两个用户节点之间的相似度,其中,微博用户网络模型Net(U,E)中第i个用户节点ui与其邻居用户节点ul间的相似度simi,l表示为:
[0075] simi,l=|NGi∩NGl|   (1)
[0076] 式(1)中,simi,l为用户节点ui与邻居用户节点ul的相似度,NGi和NGl分别表示用户节点ui的邻居节点集合以及邻居用户节点ul的邻居用户节点集合;
[0077] B12,根据得到的用户节点间的相似度,确定微博用户网络模型Net(U,E)中第i个用户节点ui的内聚度Ii:
[0078]
[0079] 式(2)中,Ii为用户节点ui的内聚度,用于表示用户节点ui对其所属社团中其它用户节点的最大聚合性,即社团结构内部关联的稠密性;di表示用户节点ui的连边数量;表示用户节点ui与其邻居用户节点ul的最大相似度。
[0080] B2,计算微博用户网络模型Net(U,E)中每个用户节点的分离度;对于微博用户网络模型Net(U,E)中第i个用户节点ui,其分离度计算方法如式(3)所示:
[0081]
[0082] 式(3)中,Pi表示用户节点ui的分离度,用于表示用户节点ui与其所属社团之外的用户节点间的相关性,即不同社团之间关联的稀疏性;uo表示微博用户网络模型Net(U,E)中内聚度比ui高的某一用户节点; 表示微博用户网络模型Net(U,E)中内聚度比ui高的用户节点与ui之间的最大相似度。
[0083] B3,计算微博用户网络模型Net(U,E)中每个用户节点的中心度;
[0084] 本实施例中,对于微博用户网络模型中每个用户节点,将其内聚度与分离度的乘积作为相应用户节点的中心度,微博用户网络模型Net(U,E)中第i个用户节点ui的中心度Ci的计算方法如式(4)所示:
[0085] Ci=Ii·Pi   (4)
[0086] 本实施例中,中心度用于描述每个用户节点对其所属社团的影响力,中心度越高,则该用户节点越可能成为社团中心。
[0087] B4,计算微博用户网络模型Net(U,E)中每个用户节点中心度的标准分数(所述标准分数也可以称为Z分数),其中,微博用户网络模型Net(U,E)中第i个用户节点ui的中心度的标准分数 表示为:
[0088]
[0089] 式(5)中, 为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度对应的标准分数;Ci为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度,用于描述每个用户节点对其所属社团的影响力;μC和σC分别表示微博用户网络模型Net(U,E)中用户节点中心度总体分布的期望和标准差,μC和σC的计算方法分别如式(6)和式(7)所示:
[0090]
[0091]
[0092] Z分数以标准差为单位度量各用户节点的中心度与总体中心度平均值之间的差异程度,其取值近似服从标准正态分布N(0,1)。
[0093] 本实施例中,在S103中,根据得到的中心度的标准分数,可以利用3σ法则对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合,具体可以包括以下步骤:
[0094] C1,对于微博用户网络模型Net(U,E)中的用户节点,根据确定的用户节点中心度的标准分数划分出3σ置信区间,其中,σ表示标准差;
[0095] C2,从落于3σ置信区间之外的用户节点中选取中心度标准分数大于3的用户节点构成候选社团中心节点集合 其中,uk表示中心度的标准分数大于3的用户节点,即候选社团中心节点, 表示用户节点uk的中心度的标准分数。
[0096] 在前述微博网络的社团数量检测方法的具体实施方式中,进一步地,所述从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量(S104)包括:
[0097] D1,对于候选社团中心节点集合Λ,依照式(8)的方法计算其中各候选社团中心节点内聚度的Z分数:
[0098]
[0099] 其中,Ik表示候选社团中心节点uk的内聚度, 表示候选社团中心节点uk的内聚度对应的Z分数,μI和σI分别表示微博用户网络模型Net(U,E)中用户节点内聚度总体分布的期望和标准差,μI和σI的计算方法分别如式(9)和式(10)所示:
[0100]
[0101]
[0102] D2,对于候选社团中心节点集合Λ,依照式(11)的方法计算其中各候选社团中心节点分离度的Z分数:
[0103]
[0104] 其中,Pk表示候选社团中心节点uk的分离度, 表示候选社团中心节点uk的分离度对应的Z分数,μP和σP分别表示微博用户网络模型Net(U,E)中用户节点分离度总体分布的期望和标准差,μP和σP的计算方法分别如式(12)和式(13)所示:
[0105]
[0106]
[0107] D3,从候选社团中心节点集合Λ中选择满足 且 的用户节点uk作为社团中心节点uc,其中,uc为选定的微博用户网络社团中心节点;
[0108] D4,输出微博用户网络社团中心节点集合 社团数量K=|C|,即集合C中的元素个数,其中, 和 分别表示社团中心节点uc的内聚度和分离度对应的Z分数,将输出结果提供给微博运营分析人员,可用于实时消息推送、兴趣用户推荐以及精准营销等工作的开展。
[0109] 为了验证本发明实施例提供的所述微博网络的社团数量检测方法的有效性和先进性,选取标签传播方法、最优模块度法、谱分析方法、层次聚类方法这四种已有的社团发现方法进行对比,本实施例中以社团中心选择的准确率和执行时间为评价指标对上述方法进行评价,通过实施例一中的新浪微博用户数据对上述方法的社团数量检测结果进行评价,评价结果如表1所示:
[0110] 表1社团数量检测的评价结果
[0111]
[0112] 由表1中的结果可以看出,本发明实施例提供的社团数量检测方法在用于微博网络社团数量检测时,能获得准确度优于已有方法的社团数量检测结果,并且具有较高的执行效率。因此,本发明能够在缺乏先验信息的情况下获得准确的微博网络社团数量的检测结果,并且具有较高的执行效率。
[0113] 实施例二
[0114] 本发明还提供一种微博网络的社团数量检测系统的具体实施方式,由于本发明提供的微博网络的社团数量检测系统与前述微博网络的社团数量检测方法的具体实施方式相对应,该微博网络的社团数量检测系统可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述微博网络的社团数量检测方法具体实施方式中的解释说明,也适用于本发明提供的微博网络的社团数量检测系统的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
[0115] 如图3所示,本发明实施例还提供一种微博网络的社团数量检测系统,包括:
[0116] 构建单元11,用于根据微博用户之间的关注关系,构建微博用户网络模型;
[0117] 第一确定单元12,用于对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;
[0118] 生成单元13,用于根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;
[0119] 第二确定单元14,用于从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。
[0120] 本发明实施例所述的微博网络的社团数量检测系统,根据微博用户之间的关注关系,构建微博用户网络模型;对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。这样,通过用户节点的内聚度和分离度分别充分反映微博网络社团内部关联的稠密性和不同社团之间关联的稀疏性,使得所述社团数量检测系统能够在无需任何先验信息的情况下,快速准确的确定微博网络的社团数量以及社团中心节点,对于微博网络数据分析具有较高实用价值。
[0121] 本实施例中,所有单元中具体的数据处理和计算工作由计算机处理器完成,且所有单元都与计算机内存中的数据进行交互。
[0122] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0123] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。