一种5G网络切片下动态网络故障诊断方法转让专利

申请号 : CN202011137354.2

文献号 : CN112260873B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄晓奇谭康保剑周瑾瑜王龙周雨涛丘国良郑启文欧明辉吴俊宇宋旅宁

申请人 : 深圳供电局有限公司

摘要 :

本发明提供一种5G网络切片下动态网络故障诊断方法,所述方法包括根据在网管观察到的症状范围内每一故障节点导致各个症状节点不可用的概率以及全部症状范围内每一故障节点导致各个症状节点的不可用概率计算每一故障节点的不可用可信度,并计算症状节点的修正值;利用症状节点的修正值修正症状节点的原始状态和当前状态;构建基于时间片段的故障传播模型;获取修正后的症状节点的原始状态和当前状态,根据修正后的症状节点的原始状态,计算故障节点的原始状态;根据故障节点的原始状态、修正后的症状节点的原始状态和当前状态,计算故障节点的当前状态。通过本发明,解决了现有网络动态性增加带来噪声增加以及故障传播模型不准确的问题。

权利要求 :

1.一种5G网络切片下动态网络故障诊断方法,其特征在于,所述方法包括:步骤S11、构建初始故障传播模型,所述初始故障传播模型包括故障、症状以及所述故障到所述症状的有向线;

步骤S12、获取在网管观察到的症状范围内每一故障节点导致各个症状节点不可用的概率、全部症状范围内每一故障节点导致各种症状节点的不可用概率,根据所述在网管观察到的症状范围内每一故障节点导致各个症状节点不可用的概率以及全部症状范围内每一故障节点导致各个症状节点的不可用概率计算每一故障节点的不可用可信度;

步骤S13、根据与症状节点之间具有影响的每一故障节点的不可用可信度,计算症状节点的修正值;

步骤S14、当所述症状节点的修正值与所述症状节点的原始值分别表示症状处于不同状态时,将所述症状节点的修正值与所述症状节点的原始值求症状节点的平均值,利用所述症状节点的平均值修正所述症状节点的原始状态和当前状态;

步骤S15、构建基于时间片段的故障传播模型,所述基于时间片段的故障传播模型包括故障节点的原始状态、故障节点的当前状态以及修正后的症状节点的原始状态和当前状态,并获取故障节点从原始状态到当前状态的状态转移概率;

步骤S16、获取修正后的所述症状节点的原始状态和当前状态,根据修正后的症状节点的原始状态,计算修正后的症状节点的原始状态下,故障节点的原始状态;

步骤S17、根据所述故障节点的原始状态、修正后的所述症状节点的原始状态和当前状态,计算所述故障节点的当前状态。

2.如权利要求1所述方法,其特征在于,实现步骤S12中根据所述在网管观察到的症状范围内每一故障节点导致各个症状节点不可用的概率以及全部症状范围内每一故障节点导致各个症状节点的不可用概率计算每一故障节点的不可用可信度的公式具体为:其中,αfi是第i个故障节点的不可用可信度,sj∈So表示第j症状节点在网管观察到的症状范围内,sj∈S表示第j症状节点在全部症状范围内,P(sj|fi)表示第i个故障节点导致各个症状节点不可用的概率。

3.如权利要求1所述方法,其特征在于,步骤S13具体包括:步骤S131、将对症状节点具有影响的每一故障节点的不可用可信度加和,得到不可用可信度之和;

步骤S132、将所述不可用可信度之和除以对症状节点具有影响的故障节点的个数,得到所述症状节点的修正值。

4.如权利要求1所述方法,其特征在于,实现步骤S16中根据修正后的症状节点的原始状态,计算修正后的症状节点的原始状态下,故障节点的原始状态的公式具体为:1

其中,所述F 为故障节点的原始状态, 表示故障节点的原始状态,表示修正后的症状节点的原始状态, 表

示修正后的症状节点的原始状态异常时,故障节点的原始状态异常的概率。

5.如权利要求1所述方法,其特征在于,实现步骤S17的公式具体为:

2 2*

以及F=argF ,

2

其中,所述F 为故障节点的当前状态, 表示症状节点的原始状态,表示症状节点的当前状态, 表示故障节点的当前状态,表示症状节点的原始状态是 和

当前状态是 的条件下,故障节点的当前状态是 的概率值。

说明书 :

一种5G网络切片下动态网络故障诊断方法

技术领域

[0001] 本发明涉及5G通信技术领域,尤其涉及一种5G网络切片下动态网络故障诊断方法。

背景技术

[0002] 5G网络的高带宽、低延时特点,满足了人们工作生活中的网络需求。这种背景下,5G网络的应用场景越来越多,显著提升了工作效率和生活的便捷性。但是,由于5G网络的业务类型多样、数量众多,对网络资源的需求显著增加。为提升网络资源的利用率、保证各种业务的服务质量,网络切片技术已成为网络设备商和网络运营商共同认可的一种网络技术框架。在网络切片后,已有的物理网络被划分为底层网络和虚拟网络。底层网络的无线子网、传输子网、数据子网被切片为不同的子网。虚拟网通过从底层网络获取资源,由无线切片、传输切片、数据切片构成。为便于描述,本发明将底层网络的资源统一称为底层节点资源、底层链路资源。将虚拟网络的资源统一称为虚拟节点资源、虚拟链路资源。为保证底层网络和虚拟网络的稳定运行,提高5G业务的服务质量。 5G网络的故障诊断技术已成为当前的一个研究热点。
[0003] 故障诊断算法可以分为被动监控和主动监控两种策略。被动监控是根据网络管理系统的数据,进行被动的故障定位。主动监控是根据业务的特点,主动对网络特性进行实时监测,从而快速发现潜在的问题并进行故障修复。例如,文献[GONTARA,Salah;BOUFAIED,Amine;KORBAA,Ouajdi.Fault Localization Algorithm in Computer Networks Based on the Boolean Particle Swarm Optimization[C]//Proceedings of the 2019IEEE International Conference on Systems, Man and Cybernetics(SMC).IEEE,2019:4347‑4352.]基于布尔粒子群优化算法,设计了一种端到端故障定位算法,可以充分利用被动监测的优点,降低了故障诊断对网络性能带来的负面影响。文献[BAI Linda,ROY S.A two‑stage approach for network monitoring[J].Journal of network and systems management,2013,21(2): 238–263.]根据网络拓扑特征,动态的调整网络监测体系,从而使故障诊断算法更加适应网络环境的变化。故障诊断的过程一般都采用依赖矩阵进行故障定位,可以分为二进制模型和非二进制模型。
[0004] 现有方法主要解决静态网络环境下的故障诊断问题。由于5G网络切片技术具有动态迁移、按需增加的特性,网络节点和网络链路资源会随时间动态变化,动态性造成的网络噪声增加、网络资源动态变化带来的故障传播模型不准确的问题。

发明内容

[0005] 本发明所要解决的技术问题在于,提供一种5G网络切片下动态网络故障诊断方法,用于解决现有网络动态性导致网络噪声增加以及故障传播模型不准确的问题。
[0006] 本发明提供的一种5G网络切片下动态网络故障诊断方法,所述方法包括:
[0007] 步骤S11、构建初始故障传播模型,所述初始故障传播模型包括故障、症状以及所述故障到所述症状的有向线;
[0008] 步骤S12、获取在网管观察到的症状范围内每一故障节点导致各个症状节点不可用的概率、全部症状范围内每一故障节点导致各种症状节点的不可用概率,根据所述在网管观察到的症状范围内每一故障节点导致各个症状节点不可用的概率以及全部症状范围内每一故障节点导致各个症状节点的不可用概率计算每一故障节点的不可用可信度;
[0009] 步骤S13、根据与症状节点之间具有影响的每一故障节点的不可用可信度,计算症状节点的修正值;
[0010] 步骤S14、当所述症状节点的修正值与所述症状节点的原始值分别表示症状处于不同状态时,将所述症状节点的修正值与所述症状节点的原始值求症状节点的平均值,利用所述症状节点的平均值修正所述症状节点的原始状态和当前状态;
[0011] 步骤S15、构建基于时间片段的故障传播模型,所述基于时间片段的故障传播模型包括故障节点的原始状态、故障节点的当前状态以及修正后的症状节点的原始状态和当前状态,并获取故障节点从原始状态到当前状态的状态转移概率;
[0012] 步骤S16、获取修正后的所述症状节点的原始状态和当前状态,根据修正后的症状节点的原始状态,计算修正后的症状节点的原始状态下,故障节点的原始状态;
[0013] 步骤S17、根据所述故障节点的原始状态、修正后的所述症状节点的原始状态和当前状态,计算所述故障节点的当前状态。
[0014] 进一步地,实现步骤S12中根据所述在网管观察到的症状范围内每一故障节点导致各个症状节点不可用的概率以及全部症状范围内每一故障节点导致各个症状节点的不可用概率计算每一故障节点的不可用可信度的公式具体为:
[0015]
[0016] 其中, 是第i个故障节点的不可用可信度,sj∈So表示第j症状节点在网管观察到的症状范围内,sj∈S表示第j症状节点在全部症状范围内, P(sj|fi)表示第i个故障节点导致各个症状节点不可用的概率。
[0017] 进一步地,步骤S13具体包括:
[0018] 步骤S131、将对症状节点具有影响的每一故障节点的不可用可信度加和,得到不可用可信度之和;
[0019] 步骤S132、将所述不可用可信度之和除以对症状节点具有影响的故障节点的个数,得到所述症状节点的修正值。
[0020] 进一步地,实现步骤S16中根据修正后的症状节点的原始状态,计算修正后的症状节点的原始状态下,故障节点的原始状态的公式具体为:
[0021]1
[0022] 其中,所述F为故障节点的原始状态, 表示故障节点的原始状态, 表示修正后的症状节点的原始状态,
表示修正后的症状节点的原始状态异常时,故障节点的原始状态异常的概率。
[0023] 进一步地,实现步骤S17的公式具体为:
[0024]
[0025] 以及F2=argF2*,2
[0026] 其中,所述F 为故障节点的当前状态, 表示症状节点的原始状态, 表示症状节点的当前状态, 表示故障节点的当前
状态。
[0027] 实施本发明,具有如下有益效果:
[0028] 通过本发明,通过网络管理获取的症状节点的原始状态以及当前状态,引入故障节点的不可用可信度来纠正症状节点的原始状态以及当前状态,并且在故障传播模型中引入了时间片段,在求取故障节点的原始状态后进一步计算故障节点的当前状态,利用故障节点与症状节点的关系以及故障节点时间上的关联,纠正部分因网络动态引入的干扰;解决了现有动态性造成的网络噪声增加、网络资源动态变化带来的故障传播模型不准确的问题。

附图说明

[0029] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030] 图1是本发明实施例提供的5G网络切片下动态网络故障诊断方法的流程图。
[0031] 图2是本发明实施例提供的5G网络切片下虚拟网资源分配示意图。
[0032] 图3是本发明实施例提供的5G网络切片下初始故障传播模型示意图。
[0033] 图4是本发明实施例提供的诊断准确率比较示意图。
[0034] 图5是本发明实施例提供的诊断误报率比较示意图。
[0035] 图6是本发明实施例提供的诊断时长比较示意图。

具体实施方式

[0036] 本专利中,以下结合附图和实施例对该具体实施方式做进一步说明。
[0037] 如图1所示,本发明实施例提供了5G网络切片下动态网络故障诊断方法,所述方法包括:
[0038] 步骤S11、构建初始故障传播模型,所述初始故障传播模型包括故障节点、症状节点以及所述故障节点到所述症状节点的有向线。
[0039] 在本实施例中,底层网络和虚拟网络分别使用无向带权图GS=(NS,ES)、 GV=(NV,V S V S VE)表示,其中,N 和N 分别表示底层节点集合、虚拟节点集合,E 和E分别表示底层链路集V S V S S
合、虚拟链路集合。使用MN:(N→N ,E→P)表示将底层网络节点N资源分配给虚拟网络节V S V S
点N ,将底层网络路径P资源分配给虚拟网络链路E 。底层网络路径P是指由多条底层链路V
连接起来的端到端底层链路资源,两个端点分别对应虚拟网络链路E的两个端点所映射的底层网络节点。例如,虚拟网络VN1的虚拟节点a、b的资源分别由底层网络SN的底层节点A、 B分配。
[0040] 在网络运营商的日常运营过程中,通过网络管理软件,可以实时获取各种业务的运行状态和网络资源的状态。由于网络切片的原因,业务的运行状态不能直接对应到底层网络资源。所以,在建立故障传播模型之前,首先基于虚拟网络和底层网络的映射关系,将虚拟网络映射到底层网络上,具体网络映射参考图2。其次,使用业务的状态、底层网络资源、业务和底层网络资源的承载关系,构建业务故障传播模型。
[0041] 业务故障传播模型包括症状、故障、故障到症状的有向线。症状是指业务的状态,包括可用状态和不可用状态,分别使用s=1和s=0表示。故障是指底层网络资源。故障的状态包括资源可用状态、资源不可用状态,分别使用f=1和 f=0表示。故障到症状的有向线表示故障节点对症状节点影响,线条上的数字表示影响的程度,参考图3,例如故障节点A到症状节点 的取值为0.7,使用 表示。物理含义为:根据网络的历史运营经验,当底层资源出现不可用状态时,将以0.7的概率导致症状节点 的状态为不可用。以概率来表示有向线的取值,主要是网络的动态性以及网络噪声等原因导致。
[0042] 步骤S12、获取在网管观察到的症状范围内每一故障节点导致各个症状节点不可用的概率、全部症状范围内每一故障节点导致各个症状节点的不可用概率,根据所述在网管观察到的症状范围内每一故障节点导致各个症状节点不可用的概率以及全部症状范围内每一故障节点导致各个症状节点的不可用概率计算每一故障节点的不可用可信度。
[0043] 具体地,根据所述在网管观察到的症状范围内每一故障节点导致各个症状节点不可用的概率以及全部症状范围内每一故障节点导致各个症状节点的不可用概率计算每一故障节点的不可用可信度的公式具体为:
[0044]
[0045] 其中,αfi是第i个故障节点的不可用可信度,sj∈So表示第j症状节点在网管观察到的症状范围内,sj∈S表示第j症状节点在全部症状范围内, P(sj|fi)表示每一故障节点导致各个症状节点不可用的概率。
[0046] 步骤S13、根据对症状节点具有影响的每一故障节点的不可用可信度,计算症状节点的修正值。
[0047] 具体地,步骤S13具体包括:
[0048] 步骤S131、将对症状节点具有影响的每一故障节点的不可用可信度加和,得到不可用可信度之和;
[0049] 步骤S132、将所述不可用可信度之和除以对症状节点具有影响的故障节点的个数,得到所述症状节点的修正值。
[0050] 需要说明的是,根据步骤S11建立的初始故障传播模型中,对症状节点具有影响的故障节点,是具有到所述症状的有向线的故障。参考图3,症状节点 具有影响的故障节点为A、D和E,分别计算故障节点A、故障节点D和故障节点E的不可用可信度并加和,对症状节点具有影响的故障节点的个数共3个,不可用可信度加和除以3得到症状节点的修正值。
[0051] 步骤S14、当所述症状节点的修正值与所述症状节点的原始值分别表示症状处于不同状态时,将所述症状节点的修正值与所述症状节点的原始值求症状节点的平均值,利用所述症状节点的平均值修正所述症状节点的原始状态和当前状态的平均值,利用所述症状节点的平均值修正所述症状节点的原始状态和当前状态。
[0052] 在本实施例中,症状节点的原始值表示症状节点未修正之前的值,例如症状节点的原始值为0,症状节点的修正值为1,为了避免修正出现错误,采用求平均值的方法使得症状的平均值为0.5,利用上述平均值修正症状节点的原始状态和当前状态;如果症状节点的原始值和症状节点的修正值一致,就不需要修正了。
[0053] 步骤S15、构建基于时间片段的故障传播模型,所述基于时间片段的故障传播模型包括故障节点的原始状态、故障节点的当前状态以及修正后的症状节点的原始状态和当前状态,并获取故障节点从原始状态到当前状态的状态转移概率。
[0054] 在本实施例中,使用 表示故障节点的原始状态,表示故障节点的当前的状态,N表示故障节点的数量;使用
表示症状节点的原始状态, 表示症状节
点的当前状态,M表示症状节点的数量。
[0055] 第l个故障节点从原始状态到当前状态的状态转移概率表示为p(fl2|fl1),考虑到动态环境的特点,本发明将时间片t加入故障传播模型,从而刻画不同时间片内的不同网络模型。此时,每个故障节点包含多个时间片的状态,每个时间片的状态与上一个时间片的状t t‑1态相关,使用p(fi |fi )表示故障节点的状态转移概率。即:故障节点的上一个时间片t‑1t‑1 t 2 1
时的状态为fi 的条件下,故障节点在时间片t上的状态为fi 的概率,p(fl |fl)通过过网管可以取一定时间片进行统计得到状态转移概率。
[0056] 步骤S16、获取修正后的所述症状节点的原始状态和当前状态,根据修正后的症状节点的原始状态,计算修正后的症状节点的原始状态下,故障节点的原始状态。
[0057] 实现步骤S16中根据修正后的症状节点的原始状态,计算修正后的症状节点的原始状态下,故障节点的原始状态的公式具体为:
[0058]1
[0059] 其中,所述F为故障节点的原始状态, 表示故障节点的原始状态, 表示修正后的症状节点的原始状态,
表示修正后的症状节点的原始状态异常时,故障节点的原始状态异常的概率。
[0060] 根据贝叶斯理论和公式(1)可以得知:
[0061]
[0062] 其中,F1*为中间变量,由于 的取值与 无关,所以,公式(2)可以简化为公式(3);
[0063]
[0064] 其中,p(fi1)为第i个故障节点在原始状态下故障概率, 表示所述基于时间片段的故障传播模型中处于原始状态的修正后的第j个症状节点 的父节点,表示处于原始状态的修正后的第j个症状节点 不可用时,处于原始状态的故障节点不可用的概率,此处处于原始状态的故障节点是处于原始状态的修正后的第j个症状节点 的父节点。
1
[0065] 需要说明的是,p(fi)和 均可以从网络管理系统获取。
[0066] 步骤S17、根据所述故障节点的原始状态、修正后的所述症状节点的原始状态和当前状态,计算所述故障节点的当前状态。
[0067] 实现步骤S17的公式具体为:
[0068]
[0069] 以及F2=argF2*,2
[0070] 其中,所述F 为故障节点的当前状态, 表示症状节点的原始状态, 表示症状节点的当前状态, 表示故障节点的当前
状态。
[0071] 根据贝叶斯推理,公式(4)的计算过程如下:
[0072]
[0073] 其中,p(fi1)为第i个故障节点在原始状态下故障概率, 表示所述基于时间片段的故障传播模型中处于原始状态的修正后的第j个症状节点 的父节点, 表示所述基于时间片段的故障传播模型中处于当前状态的修正后的第k个症状节点 的父节点;2 1
p(fl|fl)为第l个故障节点从原始状态到当前状态的状态转移概率。
1 2 1
[0074] 需要说明的是,p(fi)、 和p(fl|fl)都可以基于网络管理软件统计直接得到,或者对统计获取的数据进一步计算得到。
[0075] 为了验证本发明方法的效果,模拟5G网络切片环境,实验中使用GT‑ITM[E. W.Zegura,K.L.Calvert,S.Bhattacharjee.How to model an internetwork[C]//Proceedings of IEEE INFOCOM,1996.]工具生成网络拓扑环境。网络拓扑包括底层网络和虚拟网络两种。底层网络的节点规模从100个增加到 500个。虚拟网络的节点规模从5个增加到15个。虚拟网到底层网络的资源映射使用经典的映射算法。
[0076] 在端到端的服务模拟方面,从每个虚拟网中选择10%的节点作为起始节点,从剩余的节点中选择2个节点作为目标节点。使用最短路径算法将起始节点和目标节点进行连接,用于模拟端到端的服务。在底层网络节点的故障模拟方面,设置底层节点的先验故障服从[0.001,0.01]均匀分布。为模拟网络的动态性,以 20秒为间隔,重新变换网络的状态,并重新获取服务的状态信息。
[0077] 为验证本方法性能,将本发明利用的算法DNFDA与基于故障传播模型的故障诊断算法(Fault diagnosis algorithm based on fault propagation model, FDAoFPM)进行比较。对比算法基于故障和症状的关系构建故障传播模型,并不对故障传播模型进行优化。在算法比较时,从诊断准确率、诊断误报率、诊断时长三个维度进行分析。诊断准确率是指诊断出的故障资源在总的故障资源中的占比。诊断准确率越高,表明算法识别出的故障资源越多。诊断误报率是指资源状态为正常状态,但是诊断算法将其识别为异常状态,这些被错误诊断出的故障资源在总的真实故障资源中的占比就使用诊断误报率进行评价。所以,诊断误报率越低,表明该算法性能较好。诊断时长是指从接收到服务状态和网络拓扑后,直到诊断出故障节点集合所用的时间长度。
[0078] 诊断准确率比较结果如图4所示,X轴表示网络节点的数量,Y轴表示诊断准确率。从图可知,在不同网络规模下,两个算法在不同网络规模下都取得了较好的诊断准确率。从两个算法的结果比较可知,本发明方法提升了诊断的准确率。这是因为本发明方法根据网络特征,对故障模型进行优化,提升了故障诊断模型的准确率。
[0079] 诊断误报率比较结果如图5所示。X轴表示网络节点数量,Y轴表示诊断误报率。从图可知,网络节点的数量对两个算法的诊断误报率影响较小,说明不同网络规模对故障传播模型的影响较小。另外,本发明方法的诊断误报率低于传统算法。这是因为本发明将噪声症状进行修正,从而提升了故障诊断模型的准确率。
[0080] 诊断时长比较结果如图6所示。X轴表示网络节点数量,Y轴表示诊断时间。从图可知,随着网络节点数量的增加,两个算法的诊断时长都快速增加。这是因为网络规模增加会导致故障传播模型快速变大,在故障诊断时需要更长的诊断时间。两个算法的诊断时长比较方面,本发明方法的诊断时间较长。这是因为本发明方法需要对模型进行优化,增加了故障诊断的整个时长。
[0081] 实施本发明,具有如下有益效果:
[0082] 通过本发明,通过网络管理获取的症状节点的原始状态以及当前状态,引入故障节点的不可用可信度来纠正症状节点的原始状态以及当前状态,并且在故障传播模型中引入了时间片段,在求取故障节点的原始状态后进一步计算故障节点的当前状态,利用故障节点与症状节点的关系以及故障节点时间上的关联,纠正部分因网络动态引入的干扰;解决了现有动态性造成的网络噪声增加、网络资源动态变化带来的故障传播模型不准确的问题。
[0083] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。