基于模体的目标区域网络拓扑划分方法转让专利
申请号 : CN201811236808.4
文献号 : CN109120465B
文献日 : 2021-07-02
发明人 : 刘琰 , 杨迪 , 陈静 , 罗向阳 , 郭晓宇 , 冯昊 , 徐杨
申请人 : 中国人民解放军战略支援部队信息工程大学
摘要 :
权利要求 :
1.基于模体的目标区域网络拓扑划分方法,其特征在于,包括以下步骤:步骤1、获取目标区域网络拓扑;
步骤2、将目标区域网络拓扑进行汇聚整理,将探测得到的IP级网络拓扑经过别名解析,形成路由器级网络拓扑;
步骤3、对得到的路由器级网络拓扑进行数据预处理:统计路由器级网络拓扑中所有节点的度,将与度较大节点相连的度为1的节点全部挑选出来,用与所述度为1的节点相连的度较大的节点替代度为1的节点;
步骤4、将预处理后的路由器级网络拓扑抽象成一个无权无向的网络拓扑图,在所述网络拓扑图中进行模体的挖掘;
步骤5、选取模体作为初始种子的候选,并进行合并剪枝,确定最终的初始种子集合;
步骤6、基于适应度函数F对初始种子集合进行扩展形成1个以上社团,删除重复的社团,形成不相互重叠的社团结构;
步骤7、基于社团密度对社团进行扩展,确定单一路径上节点的归属社团;
步骤8、分别基于地标和IP地理信息数据库投票的方法,将网络实体与地理位置对应,对划分的社团进行地理位置映射构建。
2.根据权利要求1所述的基于模体的目标区域网络拓扑划分方法,其特征在于,所述步骤4包括:
步骤4.1、将预处理后的路由器级网络拓扑抽象成一个无权无向的网络拓扑图,利用子图枚举的方法,在所述网络拓扑图中进行子图搜索,统计出各种子图出现的次数;
步骤4.2、根据步骤4.1中所述网络拓扑图,构建出多个与步骤4.1中所述网络拓扑图在整体统计特性相同的随机网络拓扑图;
步骤4.3、在构建的随机网络拓扑图上进行子图搜索,统计出各种子图出现的次数;
步骤4.4、对比相同子图在步骤4.1中所述网络拓扑图与在步骤4.3中所述随机网络拓扑图中出现的频次,将Z‑score>2且P‑value<0.01的子图认定为目标区域网络的模体。
3.根据权利要求1所述的基于模体的目标区域网络拓扑划分方法,其特征在于,所述步骤5包括:
步骤5.1、选定大小为4的模体作为初始种子的候选;
步骤5.2、将共享2个公共节点的模体合并为一个初始种子,将只共享1个公共节点的模体作为两个初始种子之间的桥节点。
4.根据权利要求1所述的基于模体的目标区域网络拓扑划分方法,其特征在于,所述步骤6包括:
步骤6.1、基于适应度函数F对初始种子集合进行扩展,对于与社团S相邻的每个节点v,分别计算社团S加入节点v后的适应度,然后将加入节点v后的适应度函数值与加入之前的适应度函数值做对比,判断向社团S中添加节点v是否会增加社团S的适应度,从而决定是否将节点v加入社团S,如果会增加社团S的适应度,则将节点v加入社团S,如果不会增加社团S的适应度,则不将节点v加入社团S;
步骤6.2、重复执行步骤6.1,直到社团S的邻居节点中不存在可以增加社团S的适应度的节点,终止并返回最终的社团S;
步骤6.3、删除重复的社团,形成不相互重叠的社团结构。
5.根据权利要求4所述的基于模体的目标区域网络拓扑划分方法,其特征在于,所述步骤7包括:
所述社团密度的计算公式为:
其中M表示社团S内部的边数,N表示加入节点v后社团S内部的节点数;
按照与社团S连接的顺序,依次将与社团S相连的单一路径上的度为1的节点加入到Sv v
中,计算节点的fd值,将fd值大于阈值α的节点加入到社团S中,得到最终的拓扑划分结果。
6.根据权利要求1所述的基于模体的目标区域网络拓扑划分方法,其特征在于,所述步骤8包括:
步骤8.1、执行网络拓扑测量时,将地理位置已知的地标作为探测的目标节点;
步骤8.2、基于IP地理信息数据库的映射构建方法,采用投票机制确定社团位置:通过在已知的IP地理信息数据库中查找每个社团内部节点的位置信息,每个节点根据自身的位置信息对该社团所处位置进行投票,将社团内多数节点一致的位置作为社团的地理位置,构建社团内各节点与地理位置的映射关系。
说明书 :
基于模体的目标区域网络拓扑划分方法
技术领域
背景技术
国家政务的运行、经济的发展都高度依赖互联网的安全运行。网络安全关乎国家安全,由于
互联网天生具有异构型、动态性和发展的非集中性等特点,再加上不断发展导致其规模越
来越庞大,为了确保网络的安全稳定运行,人们迫切的需要更好地掌控和管理互联网,而建
立网络实体与其地理位置准确的映射关系是实施网络管理的基础。
逻辑连接关系,构成网络拓扑。
研究分析不断深入,研究发现包括互联网在内的许多复杂网络都有一个共同的性质,即社
团现象或者称为群聚现象。研究网络的社团结构有助于深入理解网络的组织结构和其所代
表的系统功能,论文(袁韶谦,赵海,张昕,等. Internet拓扑的社团结构分析[J].复杂系统
与复杂性科学,2007,4(3):17‑27.)就揭示了互联网AS级网络拓扑中的社团结构与AS地理
位置分布之间的关系。虽然表面上互联网拓扑中节点的连接大多数是自由选择的,但在地
区和国家区域划分的现实环境下存在相当强的局部聚集现象,说明互联网节点间的连接不
是随机建立的,节点更倾向于和局域的节点连接(张国清.互联网拓扑结构知识发现及其应
用[J].通信学报,2010,31(10):18‑25.)。钱学森先生也指出,相近区域内部之间的网络拓
扑呈现高度集群化的特征。
Systems,2013, 24(9):1908‑1917)提出一种基于网络拓扑启发式聚类的网络拓扑映射和
地理定位方法(HC‑Based),采用基于网络结构的集群划分对网络实体进行聚类,首次将基
于数据库查询和网络测量的两类IP定位方法结合起来,最终根据集群的地理位置构建映射
关系。然而,该方法聚类得到的集群往往节点数太少,且采用简单的投票规则会导致基于投
票结果的定位错误,因此最后建立的映射关系误差较大。 Liu等人(Liu S,Liu F,Zhao F,
et al.IP city‑level geolocation based on the PoP‑level network topology
analysis[C]//International Conference on Information Communication and
Management.IEEE,2016:109‑114.)将网络中的PoP结构作为网络拓扑划分的依据,认为PoP
结构是包括一系列具有强连接关系并且地理位置分布接近的节点的集合,它们相互之间构
成Bi‑fan结构,通过在网络中寻找具有紧密连接特性Bi‑fan结构的节点集合,然后将具有
重合部分的Bi‑fan集合合并,从而实现对网络拓扑的划分。但是他们没有具体分析所要研
究的网络结构中是否大量存在Bi‑fan结构,以及是否还存在其它的强连接性的节点集合,
因此算法具有很大的局限性。Li等人(Li M,Luo X,Shi W,et al.City‑level IP
geolocation based on network topology community detection[C]//International
Conference on Information NETWORKING.IEEE,2017:578‑583.)提出一种基于网络节点
聚类的 NNC(Network Node Clustering)网络拓扑划分方法,将网络拓扑中的集群与复杂
网络理论中的社团对应起来,利用Louvain社团发现算法对网络拓扑中的节点进行聚类,采
用模块度衡量社团结构的强度,将网络拓扑划分为不同的社团进行分析。但是他们的方法
没有考虑互联网的具体拓扑特性,如使用模块度衡量社团结构强度,要求社团结构内部节
点之间具有密集的连接而外部节点之间的连接稀疏,但是通常互联网拓扑连接关系中构成
这种严苛社团条件的节点大多集中在骨干网上。
网络拓扑上划分社团的时候,均没有充分考虑到网络拓扑的具体结构特性,只能实现少部
分网络实体与地理位置的映射关系构建,并且在准确率上仍有提升的空间。
方法通常是对复杂网络中的初始种子进行扩散,只需要根据网络的局部信息就能进行社团
发现。互联网作为世界上最大的复杂网络,网络的整体特性难以把握,因此基于网络局部信
息的社团发现算法在互联网拓扑上更加适用。
般分为以下3类:
个节点作为初始的种子,无法保证该节点真正处于社团的中心;第三类初始种子选取方法
在寻找极大子图时的算法复杂度较高,而且可能由于网络自身的稀疏性,满足极大子图的
结构在网络中并不显著出现,因此该方法较为苛刻,并不能确保挖掘出网络中所有的社团。
发明内容
体的目标区域网络拓扑划分方法,本发明方法能够将网络中的大部分实体与地理位置映射
起来,并且准确率较高。
连的度较大的节点替代度为1的节点;
前的适应度函数值做对比,判断向社团S中添加节点v 是否会增加社团S的适应度,从而决
定是否将节点v加入社团S,如果会增加社团S的适应度,则将节点v加入社团S,如果不会增
加社团S的适应度,则不将节点v加入社团S;
到S中,计算节点的fd 值,将fd值大于阈值α的节点加入到社团S 中,得到最终的拓扑划分
结果。
自身的位置信息对该社团所处位置进行投票,将社团内多数节点一致的位置作为社团的地
理位置,构建社团内各节点与地理位置的映射关系。
度函数进行扩展,并且考虑网络中单一路径上节点的特性,提出基于社团密度的社团扩展,
尽可能的将更多的节点划入社团,最后分别基于社团中地标和已知IP地理信息数据库投票
的方法,将网络实体与地理位置对应起来,对划分的社团进行地理位置映射构建。通过大量
的实验得出,对于网络拓扑划分来说,本发明的方法更加合理,不仅能够将更多的节点与地
理位置映射起来,而且准确率更高。
附图说明
点与其邻居节点连接起来。
具体实施方式
基于Traceroute原理,对全球Internet进行探测得到的数据,数据可信度较高。提取ITDK
ipv4数据集中的节点信息,得到目标区域网络拓扑。
扑经过别名解析,初步整理形成路由器级网络拓扑。
点相连的度较大的节点替代度为1的节点;
离)。分别利用Gephi软件进行可视化,在两个网络中均发现存在许多的“降落伞”现象,也就
是一个度比较大的节点连接许多度为1的叶子节点。这样的“降落伞”现象在网络拓扑中普
遍存在,继而在包括美国、日本、韩国等11个其它不同区域的路由器级网络拓扑进行可视化
时,也都发现了这样的现象。
初步的预处理。数据预处理的过程就是将原始网络拓扑中的“降落伞”现象合理消除的过
程。
扩展的初始种子的数量。只共享1个公共节点的模体,将其作为两个初始种子之间的桥节点
对待。
加入之前的适应度函数值做对比,判断向社团S中添加节点 v是否会增加社团S的适应度,
从而决定是否将节点v加入社团S,如果会增加社团S的适应度,则将节点v加入社团S,如果
不会增加社团S的适应度,则不将节点v加入社团S;
路由器以及网络边界路由器上。为了解决这类节点的划分问题,基于社团密度进行再次扩
展,在保证社团密度稳定的同时,最大可能的确定这些节点的归属社团。采用的社团密度的
公式为:
到S中,计算节点的fd 值,将fd值大于阈值α的节点加入到社团S 中,得到最终的拓扑划分
结果。
可能位置。
节点根据自身的位置信息对该社团所处位置进行投票,将社团内多数节点一致的位置作为
社团的地理位置,构建社团节点与地理位置的映射关系。
度函数进行扩展,并且考虑网络中单一路径上节点的特性,提出基于社团密度的社团扩展,
尽可能的将更多的节点划入社团,最后分别基于社团中地标和已知IP地理信息数据库投票
的方法,将网络实体与地理位置对应起来,对划分的社团进行地理位置映射构建。通过大量
的实验得出,对于网络拓扑划分来说,本发明的方法更加合理,不仅能够将更多的节点与地
理位置映射起来,而且准确率更高。
行探测得到的数据,数据可信度较高。提取ITDK ipv4数据集中明确标注位于台湾地区 和
香港地区的节点信息,得到目标区域网络拓扑。
形成路由器级网络拓扑。
利用Gephi软件进行可视化,在两个网络中均发现存在许多的“降落伞”现象,也就是一个度
比较大的节点连接许多度为1的叶子节点。如图 2所示,两幅图中大量的黑色节点团,就是
许多度为1的节点大量聚集形成的。这样的“降落伞”现象在网络拓扑中普遍存在,我们继而
在包括美国、日本、韩国等11个其它不同区域的路由器级网络拓扑进行可视化时,也都发现
了这样的现象。
点进行分析,“降落伞”结构是一个极大的干扰,因此需要对数据进行初步的预处理。数据预
处理的过程就是将原始网络拓扑中的“降落伞”现象合理消除的过程。
对网络拓扑的认识决定的,大量的仅与一个节点相连的节点,其拓扑性质取决于这个相连
的节点。图4为数据预处理后的香港地区 与台湾地区的网络拓扑图,图中颜色较深的黑色
小团是连接紧密的节点,可以看出网络呈现出明显的抱团现象。
0.01的子图认定为目标网络的模体;
掘出来的模体也不相同,而且即使设定同样的大小,在实际网络中挖掘出来的子图结构符
合模体选择标准的也不止一个,因此选择合适大小、合理结构的模体作为初始种子的候选
就成为这个问题的关键所在。
到错误的结果。例如,如果模体大小选择为3节点的子图,那么三角形就可以被接受成为种
子,但是在某些网络中,不是所有的三角形都在社团里面。在这种情况下,就会将那些没有
在任何社团里面的三角形作为种子,最终出现错误。
种情况也是不被允许的。
highly overlapping community structure by greedy clique expansion[J]. 2010.)
(尚明生,陈端兵,周涛.Detecting Overlapping Communities Based on Community
Cores in Complex Networks[J].中国物理快报:英文版,2010, 27(5):264‑267.)相匹配。
图中出现的频率;Standard‑Dev[Random]为模体在生成的所有随机网络拓扑图中出现频率
的标准差;Z‑Score和p‑Value分别为Z值和P值,均为衡量模体重要性的指标。
模体最后扩展所得到的社团结构也几乎相同。本发明将共享2个公共节点的模体合并为一
个初始种子,大大的减少了需要扩展的初始种子的数量。至于只共享1个公共节点的模体,
将其作为两个初始种子之间的桥节点对待,实际网络中相当于连接两个不同区域网络拓扑
的骨干节点,在扩展时暂不作考虑。通过将共享重复节点模体进行合并剪枝,从而在不影响
实验结果的同时,显著节省内存开销并且缩减算法的计算时间。
来定义社团S的适应度,如下式所示。其中 等于开始和结束都在S中的边的数量的两倍
(即为S中内部节点的度之和),而 是仅有一端在社团S中的边数量。适应度函数Fs定义
为:
初始种子,在扩展形成社团S1和S2的过程中,就可能将对方的节点当做自己的节点划入到自
己一边,就会形成近似重复的社团。从网络拓扑分析的角度来看,这是不可取的,所以本发
明将这些近似重复的社团合并为一个社团,因为我们认为合并后其内部的连接程度也足够
紧密(都是基于Fs扩展得到的),达到成为社团的标准。
所在网络的边界路由器或者该地区网络的骨干路由器,因此显示在拓扑结构上,就会出现
许多不交叉互连的单一路径,这种情况大多会发生在骨干路由器以及网络边界路由器上,
如图6所示。
并入社团S。但是还有部分节点则是在数据预处理过程中经过折叠合并其叶子节点后所得
到特殊节点,它们经过单一路径到达社团的路径长度大于1,在真实网络拓扑中显示的是
“降落伞”结构,往往是可以单独代表一个小范围的区域网络拓扑结构的,也就是自身就可
以代表一个社团。在研究目标网络拓扑中发现,探测所得到的路由器级网络拓扑连接中,哪
怕只相隔一跳的距离(路径长度为1),在现实距离中也可能相隔很远,因此不能够简单的将
与S相连的所有单一路径上的节点直接与S进行合并。
的节点加入到S中,计算节点的fd 值,将fd值大于阈值α的节点加入到社团S中,得到最终的
拓扑划分结果。α的值影响最终划分社团结果S的准确性,本发明计算了经过初始扩展后得
到的所有S的社团密度,取其中的最小值作为α的最终取值。基于此的考虑是,经过前面初始
种子扩展以及将与社团直接相连的路径长度(度)为1的节点并入到S中后,S已经得到了充
分的扩展,极限情况下已经没有与之相连的简单路径了,而且α选取S中的最小社团密度的
值,可以将最终所得的网络拓扑划分结果S的密度统一起来,更有利于分析对比不同区域网
络拓扑结构的差异性。
位分析以及分析其所处地域的网络拓扑状况提供相应的支撑。
射关系。
划分的社团中就会有地标的存在,就可以根据地标来确定社团结构的位置。
的位置信息,然后每个节点根据自身的位置信息对该社团所处位置进行投票,将社团内多
数节点一致的位置作为社团的地理位置,构建社团节点与地理位置的映射关系。
同全局统计特性的随机网络,模体在原始网络中更为常见,被定义为经常性和统计上显著
的子图或模式。具体而言,模体就是在网络中大量反复出现的具有相同结构的小规模子图,
这些子图从局部微观层次刻画了复杂网络内部相互连接的特定模式,揭示的是复杂网络的
基础信息结构或基本构建模块,在一定程度上可以视作为该网络所特有的基础结构,能够
体现网络的局部特性。
初始种子的选取对网络最终社团划分的影响非常大,因此必须科学合理的选择初始种子,
所以本发明引入生物学网络中“模体”的概念,提出将从网络中挖掘出来的模体作为扩展的
初始种子。
制,他们所得到的网络拓扑是不完整的,即想要全面获取整个全球的互联网拓扑,这是不现
实的事情。
网络的整体特性不能完全代表局部区域网络的特性,因此笼统的混在一起研究是不可取
的。
发式聚类的IP定位算法)方法以及NNC(Network Node Clustering)方法进行比较分析。
络拓扑社团划分的粒度。因为网络拓扑限定在目标区域范围内,在很大程度上就已经缩小
了其内部社团结构的数量,毕竟目标区域内人口聚集的邻近区域是可数的,理想情况下就
是划分社团的数量与目标区域内人口聚集的区域数量相当。如果算法划分的社团数量太
多,那么相应每个社团内部的节点数量就会很少,就会将临近区域内的网络拓扑更细粒度
的划分,从而产生大量位于同一区域的社团,导致重复性的工作;如果社团划分数量太少,
就会将属于不同区域内的网络拓扑节点误认为在同一个区域,导致错误的结果。在划分的
社团数量以及划入社团的节点数量方面,三种方法的结果如表3所示。
法,对三种方法划分的社团结构进行地理位置映射构建。若两种映射构建方法确定的社团
结构地理位置相同,则认为映射关系构建准确;若两种方法确定的社团结构地理位置不同,
则认为映射关系构建错误;对于两种方法都不能确定位置的社团结构,则将其视为未确定
映射关系的社团,也认定为映射关系构建错误。最后将准确率设定为映射关系构建正确的
社团数量与总的社团数量的比值,因此准确率越高,表明方法的效果越好。三种方法的结果
如表4所示。
少很多,在映射关系构建错误的社团数量上面,本发明的方法也有明显的优势。
示。
度函数进行扩展,并且考虑网络中单一路径上节点的特性,提出基于社团密度的社团扩展,
尽可能的将更多的节点划入社团,最后分别基于社团中地标和已知IP地理信息数据库投票
的方法,将网络实体与地理位置对应起来,对划分的社团进行地理位置映射构建。通过大量
的实验得出,对于网络拓扑划分来说,本发明的方法更加合理,不仅能够将更多的节点与地
理位置映射起来,而且准确率更高。
视为本发明的保护范围。