服务告警覆盖信息的评估方法及装置转让专利
申请号 : CN202010105352.9
文献号 : CN111431733B
文献日 : 2021-06-22
发明人 : 周泽强 , 徐俊劲 , 刘述超
申请人 : 拉扎斯网络科技(上海)有限公司
摘要 :
权利要求 :
1.一种服务告警覆盖信息的评估方法,其特征在于,包括:获取待评估服务对应的基础数据和已有告警规则;
根据所述待评估服务的业务类型,确定所述待评估服务对应的预设告警模板,所述预设告警模板是由与所述待评估服务的业务类型相同服务的历史告警缺失信息汇总的;
根据所述基础数据和所述预设告警模板,生成所述待评估服务对应的应有告警信息;
将所述已有告警规则和所述应有告警信息进行对比,根据对比结果确定所述待评估服务对应的告警覆盖信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述基础数据和所述预设告警模板,生成所述待评估服务对应的应有告警信息,包括:将所述基础数据对应添加到所述预设告警模板中,生成所述待评估服务对应的应有监控项数据;
对所述应有监控项数据进行对比格式处理,得到所述待评估服务对应的应有告警信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述应有监控项数据进行对比格式处理,得到所述待评估服务对应的应有告警信息,包括:根据所述预设告警模板,确定所述应有监控项数据对应的各个对比字段;
根据所述各个对比字段对所述应有监控项数据进行对比格式处理,得到所述待评估服务对应的应有告警信息。
4.根据权利要求1所述的方法,其特征在于,所述将所述已有告警规则和所述应有告警信息进行对比,根据对比结果确定所述待评估服务对应的告警覆盖信息,包括:对所述已有告警规则进行解析和对比格式处理,得到所述待评估服务对应的已有告警信息;
将所述已有告警信息和所述应有告警信息进行对比,根据对比结果确定所述待评估服务对应的告警覆盖信息。
5.根据权利要求4所述的方法,其特征在于,所述将所述已有告警信息和所述应有告警信息进行对比,根据对比结果确定所述待评估服务对应的告警覆盖信息,包括:将所述应有告警信息中的各组告警数据分别与所述已有告警信息中的各组告警数据进行匹配;
若所述应有告警信息中的各组告警数据与所述已有告警信息中对应组别的告警数据一致,则确定所述对应组别的告警数据不存在告警缺失;
若所述应有告警信息中的各组告警数据与所述已有告警信息中对应组别的告警数据不一致,则确定所述对应组别的告警数据存在告警缺失;
根据所述应有告警信息中的各组告警数据的匹配结果,确定所述待评估服务对应的告警覆盖信息。
6.根据权利要求1‑5任一项所述的方法,其特征在于,每隔预设时间间隔获取实时启动的服务,作为所述待评估服务进行服务告警覆盖信息的评估。
7.根据权利要求1‑5任一项所述的方法,其特征在于,在所述将所述已有告警规则和所述应有告警信息进行对比,根据对比结果确定所述待评估服务对应的告警覆盖信息之后,所述方法还包括:
根据所述告警覆盖信息分别统计不同维度下的告警覆盖率;
将所述告警覆盖率和所述告警覆盖信息中的告警缺失信息发送至待评估服务对应的负责人终端。
8.一种服务告警覆盖信息的评估装置,其特征在于,包括:获取单元,用于获取待评估服务对应的基础数据和已有告警规则;
确定单元,用于根据所述待评估服务的业务类型,确定所述待评估服务对应的预设告警模板,所述预设告警模板是由与所述待评估服务的业务类型相同服务的历史告警缺失信息汇总的;
生成单元,用于根据所述基础数据和所述预设告警模板,生成所述待评估服务对应的应有告警信息;
对比单元,用于将所述已有告警规则和所述应有告警信息进行对比,根据对比结果确定所述待评估服务对应的告警覆盖信息。
9.根据权利要求8所述的装置,其特征在于,所述生成单元包括:生成模块和处理模块,所述生成模块,用于将所述基础数据对应添加到所述预设告警模板中,生成所述待评估服务对应的应有监控项数据;
所述处理模块,用于对所述应有监控项数据进行对比格式处理,得到所述待评估服务对应的应有告警信息。
10.根据权利要求9所述的装置,其特征在于,所述处理模块包括:确定子模块和处理子模块,
所述确定子模块,用于根据所述预设告警模板,确定所述应有监控项数据对应的各个对比字段;
所述处理子模块,用于根据所述各个对比字段对所述应有监控项数据进行对比格式处理,得到所述待评估服务对应的应有告警信息。
11.根据权利要求8所述的装置,其特征在于,所述对比单元包括:处理模块和对比模块,
所述处理模块,用于对所述已有告警规则进行解析和对比格式处理,得到所述待评估服务对应的已有告警信息;
所述对比模块,用于将所述已有告警信息和所述应有告警信息进行对比,根据对比结果确定所述待评估服务对应的告警覆盖信息。
12.根据权利要求11所述的装置,其特征在于,所述对比模块包括:匹配子模块和确定子模块,
所述匹配子模块,用于将所述应有告警信息中的各组告警数据分别与所述已有告警信息中的各组告警数据进行匹配;
所述确定子模块,用于若所述应有告警信息中的各组告警数据与所述已有告警信息中对应组别的告警数据一致,则确定所述对应组别的告警数据不存在告警缺失;
所述确定子模块,还用于若所述应有告警信息中的各组告警数据与所述已有告警信息中对应组别的告警数据不一致,则确定所述对应组别的告警数据存在告警缺失;
所述确定子模块,还用于根据所述应有告警信息中的各组告警数据的匹配结果,确定所述待评估服务对应的告警覆盖信息。
13.根据权利要求8‑12任一项所述的装置,其特征在于,所述获取单元,还用于每隔预设时间间隔获取实时启动的服务,作为所述待评估服务进行服务告警覆盖信息的评估。
14.根据权利要求8‑12任一项所述的装置,其特征在于,所述装置还包括:统计单元和发送单元,
所述统计单元,用于根据所述告警覆盖信息分别统计不同维度下的告警覆盖率;
所述发送单元,用于将所述告警覆盖率和所述告警覆盖信息中的告警缺失信息发送至待评估服务对应的负责人终端。
15.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1‑7中任一项所述的服务告警覆盖信息的评估方法对应的操作。
16.一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1‑7中任一项所述的服务告警覆盖信息的评估方法对应的操作。
说明书 :
服务告警覆盖信息的评估方法及装置
技术领域
背景技术
的提升问题处理效率。
服务的告警配置状态和告警覆盖情况,由此无法全面对监控系统进行告警补全,从而导致
服务的整体告警覆盖率低下,无法及时发现服务问题和知晓问题点,造成问题处理效率低
下。
发明内容
的告警覆盖率,及时发现服务问题,提升问题的处理效率。
息汇总的;
历史告警缺失信息汇总的;
作。
据和已有告警规则;并根据所述待评估服务的业务类型,确定所述待评估服务对应的预设
告警模板,所述预设告警模板是由与所述待评估服务的业务类型相同和/或相似服务的历
史告警缺失信息汇总的;与此同时,根据所述基础数据和所述预设告警模板,生成所述待评
估服务对应的应有告警信息;并将所述已有告警规则和所述应有告警信息进行对比,根据
对比结果确定所述待评估服务对应的告警覆盖信息,由此能够及时了解当前服务的告警配
置状态和告警覆盖情况,从而可以更加全面地对该服务进行告警补全,整体提升服务的告
警覆盖率,以便于及时发现服务问题并知晓问题点,提升问题的处理效率。
更明显易懂,以下特举本发明的具体实施方式。
附图说明
的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
具体实施方式
所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围
完整的传达给本领域的技术人员。
待评估服务的基础数据,以便根据该基础数据对待评估服务进行告警覆盖信息的评估,具
体地,采集待评估服务在配置管理数据库中的基础数据和监控系统中的基础数据,其中,配
置管理数据库中的基础信息具体包括:待评估服务对应的部门信息,部门下待评估服务的
ID信息,待评估服务的负责人信息,以及待评估服务对应的机器,此外,监控系统中的基础
信息具体包括:待评估服务的监控项信息和已有告警规则,其中,待评估服务的监控项信息
具体又包括:系统监控项、业务监控项和中间件监控项,由此能够根据上述获取的基础数据
和已有告警规则对待评估服务进行告警覆盖信息的评估。
发明实施例,为了判断待评估服务的已有告警规则中是否存在告警缺失,需要预先设定告
警模板,并将获取的基础信息添加至预设告警模板中,生成应有告警信息,由此通过对比已
有告警规则和应有告警信息,能够判定待评估服务是否存在告警缺失,并确定待评估服务
的告警覆盖情况,具体地,根据当前常用监控系统和各个服务常见监控项,设定通用告警模
板,同时根据不同服务的业务类型或者业务场景对通用告警模板进行调整,得到不同业务
类型服务的告警模板,进一步地,针对不同业务类型的服务,汇总与其业务类型相同和/或
相似服务的历史告警缺失信息,并根据汇总的告警缺失信息对不同业务类型服务的告警模
板进行补全,确定不同业务类型服务对应的预设告警模板,由此能够根据待评估服务的业
务类型,确定其对应的预设告警模板。
中应有监控项,得到待评估服务的应有监控项数据,进一步地,根据待评估服务对应的预设
告警模板中的应有监控项,确定应有监控项数据对应的对比字段,并根据该对比字段应有
监控项数据进行对比格式处理,生成待评估服务对应的应有告警信息,以便将待评估服务
的应有告警信息与已有告警规则进行对比,确定待评估服务的告警覆盖信息。
据,并对该已有监控项数据进行对比格式处理,得到待评估服务对应的已有告警信息,其
中,已有监控项数据进行对比格式处理的对比字段与应有监控项数据的对比字段相对应,
进一步地,将应有告警信息中的各组告警数据与已有告警信息中的各组告警数据进行对
比,判断已有告警信息中的各组告警数据是否存在告警缺失,若应有告警信息中的某组告
警数据与已有告警信息中对应组别的告警数据完全一致,则确定已有告警信息中对应组别
的告警数据不存在告警缺失;若应有告警信息中的某组告警数据与已有告警信息中对应组
别的告警数据不一致,则确定已有告警信息中对应组别的告警数据存在告警缺失,由此统
计已有告警信息中各组告警数据对应的告警缺失信息,确定待评估服务的整体告警覆盖
率,并将该告警缺失信息发送至对应的负责人终端,针对该告警缺失信息进行告警补全,由
此能够提升待评估服务的整体告警覆盖率,能够及时发现问题并进行处理。
基础数据和已有告警规则;并根据所述待评估服务的业务类型,确定所述待评估服务对应
的预设告警模板,所述预设告警模板是由与所述待评估服务的业务类型相同和/或相似服
务的历史告警缺失信息汇总的;与此同时,根据所述基础数据和所述预设告警模板,生成所
述待评估服务对应的应有告警信息;并将所述已有告警规则和所述应有告警信息进行对
比,根据对比结果确定所述待评估服务对应的告警覆盖信息,由此能够及时了解当前服务
的告警配置状态和告警覆盖情况,从而可以更加全面地对该服务进行告警补全,整体提升
服务的告警覆盖率,以便于及时发现服务问题并知晓问题点,提升问题的处理效率。
控项,设定服务的通用告警模板,同时通过不同服务的业务类型和业务场景对该通用告警
模板进行调整,得到不同业务类型服务的告警模板,进一步地,针对不同业务类型的服务,
汇总与其业务类型相同和/或相似服务的历史告警缺失信息,并根据汇总的告警缺失信息
对不同业务类型服务的告警模板进行补全,得到不同业务类型服务对应的预设告警模板,
进一步地,根据待评估服务的业务类型,调取与其对应的预设告警模板,其中,该通用告警
模板中包括系统监控项、中间件监控项和服务监控项,系统监控项具体包括容器和虚拟机,
可以通过CPU使用率和内存使用率对容器进行监控,通过CPU使用率、内存使用率、磁盘使用
率、网络带宽使用率、网卡丢包率和数据包重传率等对虚拟机进行监控;服务监控项具体包
括事件、异常和接口等,可以通过耗时和每秒的事务数对事件进行监控,通过每秒的事务数
和自定义项对异常进行监控,通过耗时、每秒的事务数、成功率和自定义项等对接口进行监
控;中间件监控项具体包括MySQL数据库、缓存、消息队列和搜索引擎等,可以通过服务状
态、每秒的操作次数和/或每秒的事务数、慢日志数量、当前连接数、主从状态、主从延迟和
自定义项等对MySQL数据库进行监控,通过服务状态、每秒的操作次数和/或每秒的事务数、
连接数、内存使用率、进出总流量和自定义项等对缓存进行监控,通过服务状态、列队数、消
费延迟和自定义项对消息队列进行监控,通过服务状态、每秒的操作次数和自定义项等对
搜索引擎进行监控。
将采集的待评估服务的CPU使用率和内存使用率对应添加到预设告警模板中的容器监控
项,需要说明的是,监控系统中的基础数据必须包括待评估服务的系统监控项数据,待评估
服务的业务监控项数据和中间件监控项数据任选其一。
应有监控项数据对应的各个对比字段;根据所述各个对比字段对所述应有监控项数据进行
对比格式处理,得到所述待评估服务对应的应有告警信息。具体地,根据待评估服务对应的
预设告警模板,确定进行对比格式处理的对比字段,该对比字段具体可以包括:部门信息、
服务名称、服务负责人、服务的资源信息、监控项大类、监控项子类、监控项详情信息和数据
统计类型,其中,部门信息具体为服务所属的部门信息,一个部门可对应多个服务,服务名
称在配置管理数据库中保持全局唯一,服务负责人用于接收比对结果的通知,服务的资源
信息具体为服务所属的主机信息,用于做底层监控,监控项大类具体包括系统监控项、业务
监控项和中间件监控项,监控项子类具体包括容器、虚拟机、异常、事件、MySQL数据库和消
息队列等,监控项详情信息具体可以为CPU使用率和数据库的连接数等,监控项的数据统计
类型具体包括频率、耗时、数量和比例等,进一步地,根据确定的对比字段将应有监控项数
据拆分成多组告警数据,即待评估服务对应的应有告警信息,由此能够实现将应有告警信
息中的各组告警数据与已有告警规则进行一对一对比,提高对比精度,例如,待评估服务对
应的应有告警信息中的某组告警数据,如表1所示:
进行解析,并对解析之后的已有告警规则进行对比格式处理,具体进行对比格式处理时,根
据待评估服务的应有监控项数据对应的各个对比字段,确定已有告警规则对应的各个对比
字段,包括:告警规则ID、告警名称、告警大类、告警子类、告警所属服务名称、告警过滤规
则、告警触发添加和告警通知人等,其中,告警大类包括系统监控项、业务监控项和中间件
监控项,告警子类包括容器、虚拟机、异常、事件、MySQL数据库、消息队列等,告警过滤规则
制定告警所适用的监控项详情,比如监控项名为cpu使用率、数据库连接数、某个/某些异
常,告警触发条件制定规则中的监控项数据的执行条件,由此根据上述各个对比字段,将解
析之后的已有告警规则进行对比格式处理,得到待评估服务对应的已有告警信息,该已有
告警信息中包括多组告警数据,以便将已有告警信息中的各组告警数据与应有告警信息中
的各组告警数据进行对比,其中,待评估服务对应的已有告警信息中的某组告警数据,如表
2所示:
述应有告警信息中的各组告警数据分别与所述已有告警信息中的各组告警数据进行匹配;
若所述应有告警信息中的各组告警数据与所述已有告警信息中对应组别的告警数据一致,
则确定所述对应组别的告警数据不存在告警缺失;若所述应有告警信息中的各组告警数据
与所述已有告警信息中对应组别的告警数据不一致,则确定所述对应组别的告警数据存在
告警缺失;根据所述应有告警信息中的各组告警数据的匹配结果,确定所述待评估服务对
应的告警覆盖信息。具体地,将应有告警信息中的各组告警数据与已有告警信息中的各组
告警数据进行一一对比,例如,将应有告警信息中的某组告警数据与已有告警信息中对应
组别的告警数据进行对比,具体可在表1中增加对比结果字段和告警规则ID字段,以便记录
各组告警数据的对比结果,如果两者完全一致,则确定已有告警信息中该组别的告警数据
不存在缺失,并记录下该组别告警数据对应的告警规则ID;如果两者不一致,则确定已有告
警信息中该组别的告警数据存在缺失,该组别告警数据对应的告警规则ID为空,具体对比
结果如表3所示:
息进行对比,根据对比结果确定所述待评估服务对应的告警覆盖信息之后,所述方法还包
括:根据所述告警覆盖信息分别统计不同维度下的告警覆盖率;将所述告警覆盖率和所述
告警覆盖信息中的告警缺失信息发送至待评估服务对应的负责人终端。具体推送时可采用
邮件或者短信的方式将对比结果推送至相关负责人终端,同时将明细数据使用平台进行展
示,以便于负责人及时查看告警缺失信息,进行告警补全。进一步地,每隔预设时间间隔获
取实时启动的服务,作为所述待评估服务进行服务告警覆盖信息的评估,由此通过定时任
务或者其他方式以固定频率执行服务告警覆盖信息的评估脚本并输出结果,可及时了解相
应服务和部门的告警覆盖率和告警缺失信息,以便及时对服务的告警缺失项进行补全,同
时还可以通过服务名称查询该服务的历史告警覆盖率,可了解该服务的告警缺失情况和补
全情况。
的基础数据和已有告警规则;并根据所述待评估服务的业务类型,确定所述待评估服务对
应的预设告警模板,所述预设告警模板是由与所述待评估服务的业务类型相同和/或相似
服务的历史告警缺失信息汇总的;与此同时,根据所述基础数据和所述预设告警模板,生成
所述待评估服务对应的应有告警信息;并将所述已有告警规则和所述应有告警信息进行对
比,根据对比结果确定所述待评估服务对应的告警覆盖信息,由此能够及时了解当前服务
的告警配置状态和告警覆盖情况,从而可以更加全面地对该服务进行告警补全,整体提升
服务的告警覆盖率,以便于及时发现服务问题并知晓问题点,提升问题的处理效率。
单元34。
服务的历史告警缺失信息汇总的。所述确定单元32是本装置中根据所述待评估服务的业务
类型,确定所述待评估服务对应的预设告警模板的主要功能模块。
模板,生成所述待评估服务对应的应有告警信息的主要功能模块,也是核心模块。
有告警规则和所述应有告警信息进行对比,根据对比结果确定所述待评估服务对应的告警
覆盖信息的主要功能模块,也是核心模块。
务告警覆盖信息的评估。
路。终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是
不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
告警模板,所述预设告警模板是由与所述待评估服务的业务类型相同和/或相似服务的历
史告警缺失信息汇总的;根据所述基础数据和所述预设告警模板,生成所述待评估服务对
应的应有告警信息;将所述已有告警规则和所述应有告警信息进行对比,根据对比结果确
定所述待评估服务对应的告警覆盖信息。
的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储
在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示
出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或
步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
改、等同替换、改进等,均应包括在本发明的保护范围之内。