一种异常网元检测方法、装置、电子设备及存储介质转让专利
申请号 : CN202110604805.7
文献号 : CN113032227B
文献日 : 2021-12-07
发明人 : 易存道
申请人 : 北京宝兰德软件股份有限公司
摘要 :
权利要求 :
1.一种异常网元检测方法,其特征在于,包括:根据网络系统架构中第一网元的运行数据,获取所述第一网元的性能指标数据;
根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标;
根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值;
根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元;
根据所述网络系统架构中的各网元的连续时间点的网元异常值,构建异常扩散矩阵,并根据所述各网元的运行数据对所述异常扩散矩阵实时更新;
根据所述网络系统架构的网络拓扑和所述异常扩散矩阵,确定异常起源网元;
确定观察时间段内最早异常时间、最大网元异常值对应的网元为异常起源网元,邻近网元中异常时间滞后、异常值小于所述最大网元异常值的异常网元为受波及网元;
所述根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标,进一步包括:根据所述第一网元的性能指标数据,利用相应种类指标历史数据的统计参数,对所述第一网元的每类指标数据进行归一化处理,得到所述第一网元每类指标的指标异常值;
根据第一动态阈值,判断所述第一网元的每类指标的指标异常值,筛选出所述第一网元的异常指标。
2.根据权利要求1所述的异常网元检测方法,其特征在于,所述根据网络系统架构中第一网元的运行数据,获取所述第一网元的性能指标数据,进一步包括:对所述第一网元的不同类型运行数据进行平滑处理,达到统一的第一采集周期,并按时序汇聚,得到时序型的性能指标数据;
所述平滑处理包括插补、平均中的至少一项。
3.根据权利要求1所述的异常网元检测方法,其特征在于,所述根据所述第一网元的异常指标数量,以及第一网元的网元异常值,判断所述第一网元是否为异常网元,进一步包括:
确定所述第一网元的异常指标数量大于第二动态阈值,且所示第一网元的网元异常值大于第三动态阈值,则判断所述第一网元为异常网元。
4.根据权利要求3所述的异常网元检测方法,其特征在于,所述根据网络系统架构中第一网元的运行数据,获取所述第一网元的性能指标数据,之前还包括:根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,及历史性能指标数据,以及专家历史判断数据,利用网格参数搜索算法确定所述第一动态阈值、第二动态阈值、第三动态阈值的最优阈值组合;
根据所述最优阈值组合,定期更新所述第一动态阈值、第二动态阈值、第三动态阈值。
5.根据权利要求4所述的异常网元检测方法,其特征在于,所述根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,及历史性能指标数据,以及专家历史判断数据,利用网格参数搜索算法确定所述第一动态阈值、第二动态阈值、第三动态阈值为最优阈值组合,具体包括:
根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,确定阈值组合的取值空间;
根据所述取值空间的每一阈值组合,对历史性能指标数据计算相应网元异常值,判断网元异常情况,并结合专家历史判断数据,确定所述每一阈值组合对应的网元异常判断准确率;
确定所述网元异常判断准确率最高的阈值组合为所述最优阈值组合。
6.根据权利要求3所述的异常网元检测方法,其特征在于,所述确定所述第一网元的异常指标数量大于所述第二动态阈值,且所示第一网元的网元异常值大于所述第三动态阈值,则确定所述第一网元为异常网元,之后还包括:确定所述第一网元的异常持续时间大于第四动态阈值,则判断所述第一网元为异常网元,否则为正常网元。
7.一种异常网元检测装置,其特征在于,包括:获取单元,用于根据网络系统架构中第一网元的运行数据,获取所述第一网元的性能指标数据;
筛选单元,用于根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标;所述根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标,进一步包括:根据所述第一网元的性能指标数据,利用相应种类指标历史数据的统计参数,对所述第一网元的每类指标数据进行归一化处理,得到所述第一网元每类指标的指标异常值;根据第一动态阈值,判断所述第一网元的每类指标的指标异常值,筛选出所述第一网元的异常指标;
生成单元,用于根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值;
判断单元,用于根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元;构建单元,用于根据所述网络系统架构中的各网元的连续时间点的网元异常值,构建异常扩散矩阵,并根据所述各网元的运行数据对所述异常扩散矩阵实时更新;
确定单元,用于根据所述网络系统架构的网络拓扑和所述异常扩散矩阵,确定异常起源网元;所述确定单元,还用于确定观察时间段内最早异常时间、最大网元异常值对应的网元为异常起源网元,邻近网元中异常时间滞后、异常值小于所述最大网元异常值的异常网元为受波及网元。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述异常网元检测方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述异常网元检测方法的步骤。
说明书 :
一种异常网元检测方法、装置、电子设备及存储介质
技术领域
背景技术
检测,则会增加运维人员异常判断的难度,由于运维人员的专业技能不同,对于不同种类异
常的认知也不一样,为此需要付出相应的学习成本,并且观测指标较多导致观测较为繁琐,
不够直观。
发明内容
包括:
值;
阈值、第三动态阈值的最优阈值组合;
格参数搜索算法确定所述第一动态阈值、第二动态阈值、第三动态阈值为的最优阈值组合,
具体包括:
断准确率;
所述第一网元为异常网元,之后还包括:
的运行数据对所述异常扩散矩阵实时更新;
所述异常网元检测方法的步骤。
骤。
标。并根据各异常指标的指标异常值获取第一网元的网元异常值,从多方面准确衡量了第
一网元的运行情况。根据第一网元的异常指标数量,第一网元的网元异常值,从整体上直观
地判断了第一网元是否为异常网元。
附图说明
些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
具体实施方式
而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳
动前提下所获得的所有其他实施例,都属于本发明保护的范围。
测的结果再人工结合其它指标检测结果进行标注是否为真正的异常点,效率较低。且人工
标注及人工分析中存在人为因素,也会影响异常检测的准确率。
单系统,其运行数据可以是产品的访问流量、订单数量、订单响应时间等等,对于数据库系
统,其运行数据可以是SQL平均读行数、SQL语句的平均执行时间、锁等待时间时间、锁超时
时间等等。通过采集关注的运行数据便于精确分析异常指标。源数据的获取方式可以通过
Agent技术实时获取,也可以通过请求获取第一网元存储的运行相关数据或本地日志文件
等方式获取。获取到第一网元的运行数据后,从中剔除无用信息,并整理为性能指标数据。
的指标异常值。
的网元异常值。其统计方式可以直接累计求和,简单直接地获取网元异常值,还可以通过加
权求和,凸显重点指标的对网元异常值的影响权重,此处不作限制。
量网元的运行状况,判断第一网元是否为异常网元。
网元异常值,从多方面准确衡量了第一网元的运行情况。根据第一网元的异常指标数量,第
一网元的网元异常值,从整体上直观地判断了第一网元是否为异常网元。
判断真正的异常起源。第二:传统异常检测虽然有时能检测出异常,但是很难检测出异常准
确的开始时间和结束时间。这对于后续问题分析,根因定位造成很大的问题。第三:软件部
署建构对异常检测的准确性有明显影响。不同部署架构在异常发生时,有可能异常会在同
级网元之间横向传播,也有可能在上下级网元之间纵向传播。
对应到异常网元上来说应该是异常网元得分最高。第二;影响范围广,对应到异常检测中就
是影响网元的指标个数多。第三:持续一定时间,对应到异常网元上来说也是异常的持续时
间。从异常扩散矩阵上能明显发现异常网元,异常开始时间,异常结束时间,结合网络系统
架构的网络拓扑,可以进一步确定异常起源网元,及受波及的网元等重要信息。
阵中,每一个元素代表其所在列对应网元在所在行对应时间点的网元异常值。
异常网元,结合网络拓扑,确定异常起源网元,及受波及的网元。
行分析,确定异常具体类型、异常发生原因,为后续异常的处理提供支持。
网元为异常起源网元,邻近网元中异常时间滞后、异常值小于所述最大异常值的网元为受
波及网元。
段还能够方便观测,对于观察时间段之前的数据作存档处理,不直接显示。异常起源网元为
最早发生异常的网元,且网元的整体异常水平最为严重,例如网元A内存占用过高,则其需
要调用内存的相关性能指标均会受到影响,其异常值较高,网元B为网元A的下层网元,网元
B仅在有请求数据需求的时才与A进行数据交互,网元B仅部分需要与网元A交互的功能及相
关性能指标会受到影响,且异常时间较为滞后。为此,确定观察时间段内最早异常时间、最
大网元异常值对应的网元为异常起源网元,邻近网元中异常时间滞后、异常值小于所述最
大异常值的异常网元为受波及网元。
网元:MySQL01、MySQL02(下表1中仅部分网元示出)... ..第四层级包含网元:MGl01。
在22:12:00达到最大异常值,其邻近网元中异常网元数量也最多,因此,确定MySQL02为异
常网元。Tomcat01、MG01的异常时间滞后,且网元异常值较小,因此,判断Tomcat01、MG01为
受波及网元。
述第一网元的不同类型运行数据进行平滑处理,达到统一的第一采集周期,并按时序汇聚,
得到时序型的性能指标数据;所述平滑处理包括插补、平均中的至少一项。
第一网元的不同类型运行数据进行平滑处理,以补齐缺失数据,并统一数据的第一采集周
期。可以理解的是,统一后的第一采集周期与数据的实际采集周期不一定一致,其表达的是
一种统一的时间间隔。
均,得到处理后的对应于第一采集周期该时间点的数据,以达到统一为第一采集周期的效
果。对于平滑处理后的数据,将其按时序进行汇聚,得到按时限先后排列的时序型的性能指
标数据。
对比。
的性能指标数据,利用相应种类指标历史数据的统计参数,对所述第一网元的每类指标数
据进行归一化处理,得到所述第一网元每类指标的指标异常值;根据第一动态阈值,判断所
述第一网元的每类指标的指标异常值,筛选出所述第一网元的异常指标。
分析,可以得到每一种类性能指标的正常水平,通过归一化对每类性能指标数据基于该类
数据的正常水平进行缩放得到第一网元的每类指标的指标异常值。归一化消除了量纲不同
带来的影响,使得不同种类指标之间具有可比性。
类指标之间的异常具有可比性,通过第一动态阈值筛选出了第一网元的异常指标。
指标的指标异常值,进一步包括:通过零均值规范化对所述第一网元的指标数据进行处理
得到所述第一网元每类指标的指标异常值。
标数据的标准差。
会得到一个负的指标异常值,因此,需要对其取绝对值,作为描述偏离正常水平的指标异常
值。
行缩放。
量大于所述第二动态阈值,且所示第一网元的网元异常值大于所述第三动态阈值,则判断
所述第一网元为异常网元。
元。
的取值范围,及历史性能指标数据,以及专家历史判断数据,利用网格参数搜索算法确定所
述第一动态阈值、第二动态阈值、第三动态阈值的最优阈值组合;根据所述最优阈值组合,
定期更新所述第一动态阈值、第二动态阈值、第三动态阈值。
值的各阈值取值范围,可以得到阈值组合的取值空间。进而利用网格参数搜索算法,根据历
史性能指标数据,以及专家历史判断数据确定最优阈值组合,并根据确定的最优阈值组合
更新所述第一动态阈值、第二动态阈值、第三动态阈值。
元异常判断的准确率。
一动态阈值、第二动态阈值、第三动态阈值的最优阈值组合,具体包括:根据所述第一动态
阈值、第二动态阈值、第三动态阈值的取值范围,确定阈值组合的取值空间;根据所述取值
空间的每一阈值组合,对历史性能指标数据计算相应网元异常值,判断网元异常情况,并结
合专家历史判断数据,确定所述每一阈值组合对应的网元异常判断准确率;确定所述网元
异常判断准确率最高的阈值组合为所述最优阈值组合。
值组合的所有取值构成取值空间。例如,确定第一动态阈值的取值范围为{3,3.5,4},第二
动态阈值的取值范围为{6,7,8},第三动态阈值的取值范围为{15,17,19},利用网格搜索算
法,计算获取取值空间中每一阈值组合对应的网元异常判断情况,比照专家历史判断数据,
计算每一阈值组合的网元异常判断准确率,取最高准确率对应的阈值组合为最优阈值组
合。
元,之后还包括:确定所述第一网元的异常持续时间大于第四动态阈值,则判断所述第一网
元为异常网元,否则为正常网元。具体地,进一步根据网元的异常持续时间对异常网元进行
筛选,以剔除偶然异常,或者在某业务场景下用户不关注的异常。第四动态阈值可以通过与
上述第一动态阈值、第二动态阈值、第三动态阈值一起以阈值组合的形式通过网格搜索算
法确定,并定期更新,具体确定方法可以比照前述实施例,此处不再赘述。
网元每类指标的指标异常值,并筛选出所述第一网元的异常指标。生成单元33,用于根据所
述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值。判断单元34,
用于根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一
网元是否为异常网元。
指标异常值获取第一网元的网元异常值,从多方面准确衡量了第一网元的运行情况。根据
第一网元的异常指标数量,第一网元的网元异常值,从整体上直观地判断了第一网元是否
为异常网元
行分析,确定异常具体类型、异常发生原因,为后续异常的处理提供支持。
通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器
530中的逻辑指令,以执行第一方面的异常网元检测方法,该方法包括:根据网络系统架构
中第一网元的运行数据,获取所述第一网元的性能指标数据;根据所述第一网元的性能指
标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标;根
据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值;根据所
述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为
异常网元。
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以
使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施
例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,
Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
法,该方法包括:根据网络系统架构中第一网元的运行数据,获取所述第一网元的性能指标
数据;根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛
选出所述第一网元的异常指标;根据所述第一网元的所有异常指标的指标异常值,获取所
述第一网元的网元异常值;根据所述第一网元的异常指标数量,以及所述第一网元的网元
异常值,判断所述第一网元是否为异常网元。
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。