集群中特定节点的监控系统、方法、装置及业务服务器转让专利

申请号 : CN201811399663.X

文献号 : CN110032488A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 费驰赵强

申请人 : 阿里巴巴集团控股有限公司

摘要 :

公开了一种集群中特定节点的监控系统、方法、装置及业务服务器,该方法包括:接收来自部署模块的指示消息,所述指示消息为所述部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署;从监控模块获取所述特定节点的单机监控数据,所述特定节点的单机监控数据包括所述特定节点在指定历史时段的第一监控指标值,所述指定历史时段至少包括对所述特定节点完成重部署后的第一指定时段;根据获取到的单机监控数据确定所述特定节点是否出现异常。

权利要求 :

1.一种集群中特定节点的监控系统,所述系统包括:部署模块、监控模块,以及巡检模块;

其中,所述部署模块,用于根据用户设置的部署参数对集群中的特定节点进行重部署,并在完成重部署后,向所述巡检模块发送用于指示已对特定节点完成重部署的指示消息;

所述监控模块,用于基于预设的监控体系获取所述集群中各节点的单机监控数据;

所述巡检模块,用于在接收到所述指示消息后,从所述监控模块获取所述特定节点的单机监控数据,根据所述单机监控数据确定所述特定节点是否出现异常。

2.一种集群中特定节点的监控方法,应用于上述权利要求1所述系统中的巡检模块,所述方法包括:接收来自部署模块的指示消息,所述指示消息为所述部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署;

从监控模块获取所述特定节点的单机监控数据,所述特定节点的单机监控数据包括所述特定节点在指定历史时段的第一监控指标值,所述指定历史时段至少包括对所述特定节点完成重部署后的第一指定时段;

根据获取到的单机监控数据确定所述特定节点是否出现异常。

3.根据权利要求2所述的方法,所述指定历史时段还包括对所述特定节点完成重部署前的第二指定时段;

所述方法还包括:

确定所述特定节点所属的目标机房;

从所述监控模块获取所述目标机房内,非特定节点的单机监控数据,所述非特定节点的单机监控数据包括所述非特定节点在所述第一指定时段的第二监控指标值。

4.根据权利要求3所述的方法,所述根据获取到的单机监控数据确定所述特定节点是否出现异常,包括:根据所述第一指定时段对应的第一监控指标值,和所述第二指定时段对应的第一监控指标值,计算出环比波动比例;

根据所述第一指定时段对应的第一监控指标值和所述第二监控指标值计算出同比波动比例;

根据所述环比波动比例和所述同比波动比例确定所述特定节点是否出现异常。

5.根据权利要求4所述的方法,所述根据所述第一监控指标值计算出环比波动比例,包括:计算出所述第一指定时段对应的第一监控指标值的重部署后平均值;

计算出所述第二指定时段对应的第一监控指标值的重部署前平均值;

根据所述重部署后平均值和所述重部署前平均值计算出环比波动比例。

6.根据权利要求4所述的方法,所述根据所述第一监控指标值和所述第二监控指标值计算出同比波动比例包括:计算出所述第一指定时段对应的第一监控指标值的重部署后平均值;

计算出所述第二监控指标值的同时段平均值;

根据所述重部署后平均值和所述同时段平均值计算出环比波动比例。

7.根据权利要求4所述的方法,所述根据所述环比波动比例和所述同比波动比例确定所述特定节点是否出现异常,包括:比较所述环比波动比例和预设的环比波动阈值,并比较所述同比波动比例和预设的同比波动阈值;

若比较得出所述环比波动比例大于所述环比波动阈值,且所述同比波动比例大于所述同比波动阈值,则确定所述特定节点出现异常。

8.根据权利要求7所述的方法,所述确定所述特定节点出现异常,包括:确定监控指标项的类型,所述类型包括耗时类监控指标项、非耗时类监控指标项;

根据所述监控指标项的类型确定对应的噪声过滤规则;

若不满足所述对应的噪声过滤规则,则确定所述特定节点出现异常。

9.根据权利要求8所述的方法,所述根据所述监控指标项的类型确定对应的噪声过滤规则,包括:若所述监控指标项的类型为所述非耗时类监控指标,则确定所述监控指标项对应的噪声过滤规则为预设的第一噪声过滤规则;

若所述监控指标项的类型为耗时类监控指标,则确定所述监控指标项对应的噪声过滤规则为预设的第一噪声过滤规则和第二噪声过滤规则;

若所述监控指标项的类型为耗时类监控指标,所述若不满足所述对应的噪声过滤规则,则确定所述特定节点出现异常,包括:若不满足所述第一噪声过滤规则,和/或不满足所述第二噪声过滤规则,则确定所述特定节点出现异常。

10.根据权利要求9所述的方法,所述第一噪声过滤规则包括:所述第一指定时段对应的第一监控指标值的重部署后平均值小于预设的过滤阈值;

所述第二噪声过滤规则包括:所述环比波动比例属于预设的环比波动范围,且在所述第一指定时段内,业务请求的数量小于预设的数量阈值。

11.一种集群中特定节点的监控装置,所述装置包括:消息接收模块,用于接收来自部署模块的指示消息,所述指示消息为所述部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署;

第一数据获取模块,用于从监控模块获取所述特定节点的单机监控数据,所述特定节点的单机监控数据包括所述特定节点在指定历史时段的第一监控指标值,所述指定历史时段至少包括对所述特定节点完成重部署后的第一指定时段;

检测模块,用于根据获取到的单机监控数据确定所述特定节点是否出现异常。

12.根据权利要求11所述的装置,所述指定历史时段还包括对所述特定节点完成重部署前的第二指定时段;

所述装置还包括:

机房确定模块,用于确定所述特定节点所属的目标机房;

第二数据获取模块,用于从所述监控模块获取所述目标机房内,非特定节点的单机监控数据,所述非特定节点的单机监控数据包括所述非特定节点在所述第一指定时段的第二监控指标值。

13.根据权利要求12所述的装置,所述检测模块包括:环比计算子模块,用于根据所述第一指定时段对应的第一监控指标值,和所述第二指定时段对应的第一监控指标值,计算出环比波动比例;

同比计算子模块,用于根据所述第一指定时段对应的第一监控指标值和所述第二监控指标值计算出同比波动比例;

确定子模块,用于根据所述环比波动比例和所述同比波动比例确定所述特定节点是否出现异常。

14.根据权利要求13所述的装置,所述环比计算子模块包括:第一计算子模块,用于计算出所述第一指定时段对应的第一监控指标值的重部署后平均值;

第二计算子模块,用于计算出所述第二指定时段对应的第一监控指标值的重部署前平均值;

第三计算子模块,用于根据所述重部署后平均值和所述重部署前平均值计算出环比波动比例。

15.根据权利要求13所述的装置,所述同比计算子模块包括:第四计算子模块,用于计算出所述第一指定时段对应的第一监控指标值的重部署后平均值;

第五计算子模块,用于计算出所述第二监控指标值的同时段平均值;

第六计算子模块,用于根据所述重部署后平均值和所述同时段平均值计算出环比波动比例。

16.根据权利要求13所述的装置,所述确定子模块包括:比较子模块,用于比较所述环比波动比例和预设的环比波动阈值,并比较所述同比波动比例和预设的同比波动阈值;

结果确定子模块,用于若比较得出所述环比波动比例大于所述环比波动阈值,且所述同比波动比例大于所述同比波动阈值,则确定所述特定节点出现异常。

17.根据权利要求16所述的装置,所述结果确定子模块包括:类型确定子模块,用于确定监控指标项的类型,所述类型包括耗时类监控指标项、非耗时类监控指标项;

规则确定子模块,用于根据所述监控指标项的类型确定对应的噪声过滤规则;

确定子模块,用于若不满足所述对应的噪声过滤规则,则确定所述特定节点出现异常。

18.根据权利要求17所述的装置,所述规则确定子模块具体用于:若所述监控指标项的类型为所述非耗时类监控指标,则确定所述监控指标项对应的噪声过滤规则为预设的第一噪声过滤规则;

若所述监控指标项的类型为耗时类监控指标,则确定所述监控指标项对应的噪声过滤规则为预设的第一噪声过滤规则和第二噪声过滤规则;

若所述监控指标项的类型为耗时类监控指标,所述确定子模块具体用于:若不满足所述第一噪声过滤规则,和/或不满足所述第二噪声过滤规则,则确定所述特定节点出现异常。

19.根据权利要求18所述的装置,所述第一噪声过滤规则包括:所述第一指定时段对应的第一监控指标值的重部署后平均值小于预设的过滤阈值;

所述第二噪声过滤规则包括:所述环比波动比例属于预设的环比波动范围,且在所述第一指定时段内,业务请求的数量小于预设的数量阈值。

20.一种业务服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1-10所述的方法。

说明书 :

集群中特定节点的监控系统、方法、装置及业务服务器

技术领域

[0001] 本说明书实施例涉及集群监控技术领域,尤其涉及一种集群中特定节点的监控系统、方法、装置及业务服务器。

背景技术

[0002] 在一些应用场景下,需要对集群中特定节点的运行情况进行监控,例如,在新版本发布的应用场景下,若针对整个服务器集群进行全量发布,则有可能会由于新版本存在潜在问题,而导致大量用户不可用,影响范围较大,从而,相关技术人员选择仅在一定数量的特定节点上进行新版本发布,待观察一定时间后,确定新版本高度可用,且高度稳定时,再进行全量发布。基于这一类应用场景,则需要在特定节点上进行新版本发布后,监控特定节点的运行情况,以评估新版本的可用性和稳定性。

发明内容

[0003] 针对上述技术问题,本说明书实施例提供一种集群中特定节点的监控系统、方法、装置及业务服务器,技术方案如下:
[0004] 根据本说明书实施例的第一方面,提供一种集群中特定节点的监控系统,所述系统包括:部署模块、监控模块,以及巡检模块;
[0005] 其中,所述部署模块,用于根据用户设置的部署参数对集群中的特定节点进行重部署,并在完成重部署后,向所述巡检模块发送用于指示已对特定节点完成重部署的指示消息;
[0006] 所述监控模块,用于基于预设的监控体系获取所述集群中各节点的单机监控数据;
[0007] 所述巡检模块,用于在接收到所述指示消息后,从所述监控模块获取所述特定节点的单机监控数据,根据所述单机监控数据确定所述特定节点是否出现异常。
[0008] 根据本说明书实施例的第二方面,提供一种集群中特定节点的监控方法,应用于上述第一方面所述系统中的巡检模块,所述方法包括:
[0009] 接收来自部署模块的指示消息,所述指示消息为所述部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署;
[0010] 从监控模块获取所述特定节点的单机监控数据,所述特定节点的单机监控数据包括所述特定节点在指定历史时段的第一监控指标值,所述指定历史时段至少包括对所述特定节点完成重部署后的第一指定时段;
[0011] 根据获取到的单机监控数据确定所述特定节点是否出现异常。
[0012] 根据本说明书实施例的第三方面,提供一种集群中特定节点的监控装置,所述装置包括:
[0013] 消息接收模块,用于接收来自部署模块的指示消息,所述指示消息为所述部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署;
[0014] 第一数据获取模块,用于从监控模块获取所述特定节点的单机监控数据,所述特定节点的单机监控数据包括所述特定节点在指定历史时段的第一监控指标值,所述指定历史时段至少包括对所述特定节点完成重部署后的第一指定时段;
[0015] 检测模块,用于根据获取到的单机监控数据确定所述特定节点是否出现异常。
[0016] 根据本说明书实施例的第四方面,提供一种业务服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现本说明书实施例提供的集群中特定节点的监控方法。
[0017] 本说明书实施例所提供的技术方案,通过接收来自部署模块的指示消息,该指示消息为部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署;从监控模块获取特定节点的单机监控数据,该特定节点的单机监控数据包括特定节点在指定历史时段的第一监控指标值,该指定历史时段至少包括对特定节点完成重部署后的第一指定时段;根据获取到的单机监控数据确定特定节点是否出现异常,为用户提供了一套可针对集群中特定节点进行精细化监控的平台,从而满足用户需求,提升用户体验。
[0018] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
[0019] 此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。

附图说明

[0020] 为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0021] 图1为本说明书一示例性实施例示出的一种集群中特定节点的监控系统的系统架构图;
[0022] 图2为本说明书一示例性实施例提供的一种集群中特定节点的监控方法的实施例流程图;
[0023] 图3为本说明书一示例性实施例提供的一种集群中特定节点的监控装置的实施例框图;
[0024] 图4示出了本说明书实施例所提供的一种更为具体的业务服务器硬件结构示意图。

具体实施方式

[0025] 为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
[0026] 请参见图1,为本说明书一示例性实施例示出的一种集群中特定节点的监控系统的系统架构图,如图1所示,该系统包括服务器集群110、部署模块120、巡检模块130,以及监控模块140。首先说明,服务器集群110中可以包括若干台服务器,例如,如图1所示,包括服务器111至服务器11n,该若干台服务器被分布在不同机房内(图1中未示出),可用于处理用户的业务请求;部署模块120、巡检模块130,以及监控模块140,可分别为独立服务器,也可以为服务器集群,本说明书实施例对此不作限制。
[0027] 其中,部署模块120,可以用于根据用户设置的部署参数对服务器集群110中的特定节点,例如服务器111至服务器115进行重部署,例如在特定节点上进行软件/配置升级、应用发布、新版本发布等,并在完成重部署后,向巡检模块130发送用于指示已对特定节点完成重部署的指示消息。
[0028] 监控模块140,则可以用于基于预设的监控体系,例如xflush监控体系,获取服务器集群110中各节点的监控数据,为了描述方便,将各节点的监控数据称为单机监控数据,该单机监控数据可以包括多个监控指标项在指定时段内的监控指标值,其中,常用的监控指标项可以包括:系统负载率、内存占用百分比、磁盘占用百分比、错误数量、页面浏览量、提供服务的数量、每次页面浏览平均耗时、数据库访问次数、每次访问数据库的平均耗时、每次调用系统服务的平均耗时、等等。
[0029] 本领域技术人员可以理解的是,基于xflush监控体系,不仅可以获取服务器集群110中各节点的监控数据,也可以从集群维度、机房维度统计出相应的监控数据,本说明书实施例对此不做限制。
[0030] 巡检模块130,则可以用于在接收到上述指示消息后,从监控模块140获取上述特定节点的单机监控数据,根据获取到的单机监控数据确定特定节点是否出现异常,从而确定重部署是否出现异常。至于巡检模块130根据获取到的单机监控数据确定特定节点是否出现异常的具体过程,可以参见下述方法实施例中的描述,在此先不做详述。
[0031] 此外,巡检模块130在得到特定节点是否出现异常的检测结果后,可以将检测结果返回至展示模块(图1中未示出),以供用户根据该检测结果做出下一步决策,例如控制特定节点进行回滚,或者针对服务器集群110进行全量发布等。
[0032] 由上述描述可见,基于图1所示例的监控系统,为用户提供了一套可针对集群中特定节点进行精细化监控的平台,从而满足用户需求,提升用户体验。
[0033] 如下,基于图1所示例的监控系统,从巡检模块130的角度,对本说明书实施例提供的集群中特定节点的监控方法进行说明。
[0034] 请参见图2,为本说明书一示例性实施例提供的一种集群中特定节点的监控方法的实施例流程图,该方法包括以下步骤:
[0035] 步骤202:接收来自部署模块的指示消息,该指示消息为部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署。
[0036] 基于图1所示系统的相关描述可知,部署模块120在根据用户设置的部署参数对服务器集群110中的特定节点完成重部署后,可以向巡检模块130发送用于指示已对特定节点完成重部署的指示消息。
[0037] 此外,部署模块120还可以将完成重部署的特定节点的标识信息,例如特定节点的域名、重部署完成时刻等信息发送至巡检模块130。
[0038] 步骤204:从监控模块获取特定节点的单机监控数据,该特定节点的单机监控数据包括特定节点在指定历史时段的第一监控指标值,该指定历史时段至少包括对特定节点完成重部署后的第一指定时段。
[0039] 在本说明书实施例中,巡检模块130可以从监控模块140获取特定节点的单机监控数据,该单机监控数据包括特定节点在指定历史时段的监控指标值,为了描述方便,将该监控指标值称为第一监控指标值。其中,由于本方法旨在监控特定节点在重部署后的运行情况,从而,上述指定历史时段至少包括对特定节点完成重部署后的一个指定时段,为了描述方便,将该指定时段称为第一指定时段。
[0040] 在一实施例中,上述第一指定时段的起始时刻可以为上述重部署完成时刻之后的一个指定时刻,例如,重部署完成时刻之后的第5分钟,终止时刻则可以根据起始时刻与指定时长,例如15分钟确定,例如,终止时刻为重部署完成之后的第20分钟。通过如此处理,相较于将第一指定时段的起始时刻设置为上述重部署完成时刻,可以有效消除特定节点在完成重部署后进行初始化、预热等操作对后续检测的影响。
[0041] 基于上述描述,在本说明书实施例中,巡检模块130则可以在接收到上述指示消息后,等待预设时长,例如20分钟后,再从监控模块140获取特定节点的单机监控数据。
[0042] 此外,在本说明书实施例中,上述指定历史时段还可以包括对特定节点完成重部署前的第二指定时段,该第二指定时段与第一指定时段的时长相同,例如,第二指定时段为对特定节点进行重部署前的15分钟。
[0043] 此外,在本说明书实施例中,巡检模块130还可以确定特定节点所属的机房,为了描述方便,将特定节点所属的机房称为目标机房,例如,巡检模块130根据特定节点的标识信息,从机房元数据管理平台(图1中未示出)确定目标机房。在确定目标机房后,可以从监控模块140获取目标机房内,除特定节点以外的其他节点的单机监控数据,为了描述方便,将该其他节点称为非特定节点,该非特定节点的单机监控数据包括非特定节点在上述第一指定时段的监控指标值,为了描述方便,将该监控指标值称为第二监控指标值,也即,获取非特定节点与特定节点在同一时段的监控指标值。
[0044] 需要说明的是,上述监控指标值可以包括多个监控指标项的监控指标值,并且,以某一个监控指标项为例,获取到的其在指定历史时段的第一监控指标值为值序列,即第一监控指标值包括在特定节点在指定历史时段内多个历史时刻的监控指标值。
[0045] 步骤206:根据获取到的单机监控数据确定特定节点是否出现异常。
[0046] 在本说明书实施例中,基于上述步骤204中获取到的单机监控数据,则可以确定特定节点是否出现异常。
[0047] 在一实施例中,为了更准确地确定特定节点是否出现异常,可以从两方面对特定节点在重部署后的单机监控指标值进行分析,一方面,将特定节点在重部署后的单机监控指标值,与重部署前的单机监控指标值进行对比分析,为了描述方便,在本说明书实施例中,将该对比分析称为环比检测;另一方面,将特定节点在重部署后的单机监控指标值,与其所属目标机房内非特定节点在同时段内的单机监控指标值进行对比分析,为了描述方便,在本说明书实施例中,将该对比分析称为同比检测。后续,则可以根据环比检测结果和同比检测结果,共同确定特定节点是否出现异常。
[0048] 如下,分别对环比检测和同比检测的具体过程进行详细说明:
[0049] (1)环比检测:
[0050] 基于上述描述,在本说明书实施例中,环比检测具体指,将特定节点在上述第一指定时段内对应的第一监控指标值,与特定节点在上述第二指定时段内对应的第一监控指标值进行对比分析,得出环比波动比例。
[0051] 具体的,以某一个监控指标项为例,可以计算出上述第一指定时段对应的第一监控指标值的平均值,为了描述方便,将该平均值称为重部署后平均值,并记为d1,以及计算出上述第二指定时段对应的第一监控指标值的平均值,为了描述方便,将该平均值称为重部署前平均值,并记为d2;后续,则可以根据下述公式(一)计算出环比波动比例P1。
[0052]
[0053] (2)同比检测:
[0054] 基于上述描述,在本说明书实施例中,同比检测具体指,将特定节点在上述第一指定时段内对应的第一监控指标值,与目标机房内非特定节点在上述第一指定时段内对应的第二监控指标值进行对比分析,得出同比波动比例。
[0055] 具体的,仍以某一个监控指标项为例,可以计算出上述第一指定时段对应的第一监控指标值的重部署后平均值d1,以及计算出上述第一指定时段对应的第二监控指标值的平均值,为了描述方便,将该平均值称为同时段平均值,并记为d3;后续,则可以根据下述公式(二)计算出同比波动比例P2。
[0056]
[0057] 此外,在本说明书实施例中,考虑到若目标机房内具有数量较多的非特定节点,从而,若巡检模块130从监控模块140获取每一非特定节点的第二监控指标值,则需要消耗较多的网络资源,基于此,在本说明书实施例中,提出由巡检模块130从监控模块140获取从机房维度统计出的整体监控指标总值,记为S1,并计算出所有特定节点在第一指定时段内对应的第一监控指标值之和,记为S2,之后,通过下述公式(三)计算出d3。
[0058]
[0059] 在上述公式(三)中,m表示目标机房内非特定节点的数量。
[0060] 由此可见,通过上述处理,可以有效节省网络资源。
[0061] 如下,继续对根据环比检测结果和同比检测结果,共同确定特定节点是否出现异常的具体过程进行说明:
[0062] 在一实施例中,针对任一监控指标项,可以将针对该监控指标项计算出的环比波动比例P1和预设的环比波动阈值进行比较,并将针对该监控指标项计算出的同比波动比例P2和预设的同比波动阈值进行比较,若比较得出环比波动比例大于该环比波动阈值,且同比波动比例大于该同比波动阈值,则可以确定特定节点出现异常。
[0063] 在另一实施例中,考虑到在一些特殊情况下,例如受业务本身特性的影响,导致监控指标值在某些时间段的波动较大,从而导致利用上述环比检测和同比检测得到的检测结果具有较大的噪声。基于此,本说明书实施例中提出,在得出环比波动比例大于环比波动阈值,且同比波动比例大于同比波动阈值的比较结果之后,进一步进行噪声过滤,基于最终噪声过滤之后的结果,确定特定节点是否出现异常。
[0064] 首先说明,本说明书实施例提出的噪声过滤主要基于两个方面进行考虑:
[0065] 其一,由上述公式(一)和公式(二)可知,在分母(d2或d3)较小的情况下,d1出现轻微波动就会导致计算出的P1或P2较大,而d1出现轻微波动并非一定表示特定节点出现异常,基于此,在本说明书实施例中提出,在得出其对应的环比波动比例大于环比波动阈值,且同比波动比例大于同比波动阈值的比较结果之后,进一步判断d1是否小于预设的过滤阈值,若小于,则可以认为特定节点未出现异常;反之,若d1不小于预设的过滤阈值,则可以认为特定节点出现异常。其二,在同一机房、同一节点,在不同时间段所承载的业务流量,也即业务请求分布不均的场景下,会出现环比波动比例和同比波动比例较大的现象,例如,假设在上述第二指定时段内,有1个用户查询其名下银行账号的交易信息,且该用户名下的银行账号数量较少,并假设从开始查询至向用户反馈查询结果耗时10ms;再假设在上述第一指定时段内,仍有1个用户查询其名下银行账号的交易信息,但该用户名下的银行账号数量较多,此时,从开始查询至向用户反馈查询结果耗时40ms,由此可见,在该场景下,耗时大幅增加并不代表特定节点一定出现异常。
[0066] 基于此,在本说明书实施例中,针对耗时类的监控指标项,在得出其对应的环比波动比例大于环比波动阈值,且同比波动比例大于同比波动阈值的比较结果之后,可以进一步判断其对应的环比波动比例是否属于预设的环比波动范围,若属于,则进一步判断在第一指定时段内,业务请求的数量是否小于预设的数量阈值,若小于,则可以确定特定节点未出现异常;此外,若其对应的环比波动比例不属于上述环比波动范围,或者,属于上述环比波动范围,但业务请求的数量不小于上述数量阈值,则可以确定特定节点出现异常。
[0067] 基于上述描述,在本说明书实施例中,针对某一监控指标项,在得出其对应的环比波动比例大于环比波动阈值,且同比波动比例大于同比波动阈值的比较结果之后,可以进一步确定该监控指标项的类型,其中,该类型包括耗时类监控指标项、非耗时类监控指标值,然后,根据该监控指标项的类型确定对应的噪声过滤规则,若不满足该对应的噪声过滤规则,则可以确定特定节点出现异常;反之,若满足该对应的噪声过滤规则,则可以确定特定节点未出现异常。
[0068] 其中,若监控指标项为耗时类监控指标项,则该监控指标项对应的噪声过滤规则为预设的第一噪声过滤规则,该第一噪声过滤规则具体可以为:第一指定时段对应的第一监控指标值的重部署后平均值d1小于预设的过滤阈值。
[0069] 若监控指标项为非耗时类监控指标项,则该监控指标项对应的噪声过滤规则为预设的第二噪声过滤规则和上述第一噪声过滤规则,该第二噪声过滤规则具体可以为:环比波动比例属于预设的环比波动范围,且在第一指定时段内,业务请求的数量小于预设的数量阈值。
[0070] 此外,若监控指标项为非耗时类监控指标项,那么,只要不满足上述第一噪声过滤规则和上述第二噪声过滤规则其中一个,则可以确定特定节点出现异常。
[0071] 本说明书实施例所提供的技术方案,通过接收来自部署模块的指示消息,该指示消息为部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署;从监控模块获取特定节点的单机监控数据,该特定节点的单机监控数据包括特定节点在指定历史时段的第一监控指标值,该指定历史时段至少包括对特定节点完成重部署后的第一指定时段;根据获取到的单机监控数据确定特定节点是否出现异常,为用户提供了一套可针对集群中特定节点进行精细化监控的平台,从而满足用户需求,提升用户体验。
[0072] 相应于上述方法实施例,本说明书实施例还提供一种集群中特定节点的监控装置,参见图3所示,为本说明书一示例性实施例提供的一种集群中特定节点的监控装置的实施例框图,该装置可以包括:消息接收模块31、第一数据获取模块32,以及检测模块33。
[0073] 其中,消息接收模块31,用于接收来自部署模块的指示消息,所述指示消息为所述部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署;
[0074] 第一数据获取模块32,用于从监控模块获取所述特定节点的单机监控数据,所述特定节点的单机监控数据包括所述特定节点在指定历史时段的第一监控指标值,所述指定历史时段至少包括对所述特定节点完成重部署后的第一指定时段;
[0075] 检测模块33,用于根据获取到的单机监控数据确定所述特定节点是否出现异常。
[0076] 在一实施例中,所述指定历史时段还包括对所述特定节点完成重部署前的第二指定时段;
[0077] 所述装置还可以包括(图3中未示出):
[0078] 机房确定模块,用于确定所述特定节点所属的目标机房;
[0079] 第二数据获取模块,用于从所述监控模块获取所述目标机房内,非特定节点的单机监控数据,所述非特定节点的单机监控数据包括所述非特定节点在所述第一指定时段的第二监控指标值。
[0080] 在一实施例中,所述检测模块33可以包括(图3中未示出):
[0081] 环比计算子模块,用于根据所述第一指定时段对应的第一监控指标值,和所述第二指定时段对应的第一监控指标值,计算出环比波动比例;
[0082] 同比计算子模块,用于根据所述第一指定时段对应的第一监控指标值和所述第二监控指标值计算出同比波动比例;
[0083] 确定子模块,用于根据所述环比波动比例和所述同比波动比例确定所述特定节点是否出现异常。
[0084] 在一实施例中,所述环比计算子模块可以包括(图3中未示出):
[0085] 第一计算子模块,用于计算出所述第一指定时段对应的第一监控指标值的重部署后平均值;
[0086] 第二计算子模块,用于计算出所述第二指定时段对应的第一监控指标值的重部署前平均值;
[0087] 第三计算子模块,用于根据所述重部署后平均值和所述重部署前平均值计算出环比波动比例。
[0088] 在一实施例中,所述同比计算子模块可以包括(图3中未示出):
[0089] 第四计算子模块,用于计算出所述第一指定时段对应的第一监控指标值的重部署后平均值;
[0090] 第五计算子模块,用于计算出所述第二监控指标值的同时段平均值;
[0091] 第六计算子模块,用于根据所述重部署后平均值和所述同时段平均值计算出环比波动比例。
[0092] 在一实施例中,所述确定子模块可以包括(图3中未示出):
[0093] 比较子模块,用于比较所述环比波动比例和预设的环比波动阈值,并比较所述同比波动比例和预设的同比波动阈值;
[0094] 结果确定子模块,用于若比较得出所述环比波动比例大于所述环比波动阈值,且所述同比波动比例大于所述同比波动阈值,则确定所述特定节点出现异常。
[0095] 在一实施例中,所述结果确定子模块可以包括(图3中未示出):
[0096] 类型确定子模块,用于确定监控指标项的类型,所述类型包括耗时类监控指标项、非耗时类监控指标项;
[0097] 规则确定子模块,用于根据所述监控指标项的类型确定对应的噪声过滤规则;
[0098] 确定子模块,用于若不满足所述对应的噪声过滤规则,则确定所述特定节点出现异常。
[0099] 在一实施例中,所述规则确定子模块具体用于:
[0100] 若所述监控指标项的类型为所述非耗时类监控指标,则确定所述监控指标项对应的噪声过滤规则为预设的第一噪声过滤规则;若所述监控指标项的类型为耗时类监控指标,则确定所述监控指标项对应的噪声过滤规则为预设的第一噪声过滤规则和第二噪声过滤规则;
[0101] 若所述监控指标项的类型为耗时类监控指标,所述确定子模块具体用于:
[0102] 若不满足所述第一噪声过滤规则,和/或不满足所述第二噪声过滤规则,则确定所述特定节点出现异常。
[0103] 在一实施例中,所述第一噪声过滤规则包括:所述第一指定时段对应的第一监控指标值的重部署后平均值小于预设的过滤阈值;
[0104] 所述第二噪声过滤规则包括:所述环比波动比例属于预设的环比波动范围,且在所述第一指定时段内,业务请求的数量小于预设的数量阈值。
[0105] 可以理解的是,消息接收模块31、第一数据获取模块32,以及检测模块33作为三种功能独立的模块,既可以如图3所示同时配置在装置中,也可以分别单独配置在装置中,因此图3所示的结构不应理解为对本说明书实施例方案的限定。
[0106] 此外,上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0107] 本说明书实施例还提供一种业务服务器,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述的集群中特定节点的监控方法。该方法至少包括:接收来自部署模块的指示消息,所述指示消息为所述部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署;从监控模块获取所述特定节点的单机监控数据,所述特定节点的单机监控数据包括所述特定节点在指定历史时段的第一监控指标值,所述指定历史时段至少包括对所述特定节点完成重部署后的第一指定时段;根据获取到的单机监控数据确定所述特定节点是否出现异常。
[0108] 图4示出了本说明书实施例所提供的一种更为具体的业务服务器硬件结构示意图,该设备可以包括:处理器410、存储器420、输入/输出接口430、通信接口440和总线450。其中处理器44、存储器420、输入/输出接口430和通信接口440通过总线450实现彼此之间在设备内部的通信连接。
[0109] 处理器410可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0110] 存储器420可以采用ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器420可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。
[0111] 输入/输出接口430用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0112] 通信接口440用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
[0113] 总线450包括一通路,在设备的各个组件(例如处理器410、存储器420、输入/输出接口430和通信接口440)之间传输信息。
[0114] 需要说明的是,尽管上述设备仅示出了处理器410、存储器420、输入/输出接口430、通信接口440以及总线450,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0115] 本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的集群中特定节点的监控方法。该方法至少包括:接收来自部署模块的指示消息,所述指示消息为所述部署模块在根据用户设置的部署参数对集群中的特定节点完成重部署后所发送的,用于指示已对特定节点完成重部署;从监控模块获取所述特定节点的单机监控数据,所述特定节点的单机监控数据包括所述特定节点在指定历史时段的第一监控指标值,所述指定历史时段至少包括对所述特定节点完成重部署后的第一指定时段;根据获取到的单机监控数据确定所述特定节点是否出现异常。
[0116] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0117] 通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
[0118] 上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
[0119] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0120] 以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。