会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 截止时间 / IT设备故障率自动监测方法、装置、设备及存储介质

IT设备故障率自动监测方法、装置、设备及存储介质

申请号 CN202110603931.0 申请日 2021-05-31 公开(公告)号 CN113342599A 公开(公告)日 2021-09-03
申请人 中国工商银行股份有限公司; 发明人 张世荃; 曹阳; 袁丁; 陆君杰;
摘要 本说明书实施例提供了一种IT设备故障率自动监测方法、装置、设备及存储介质,该方法包括:接收输入的周期起始时间和周期截止时间;采集周期内故障次数、周期截止时间时的IT设备数量和IT设备安装日期;根据所述周期起始时间和所述周期截止时间确定周期年数;根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周期内的年化故障率。本说明书实施例可以精确获取任意批次IT设备在任意时间段内故障率。
权利要求

1.一种IT设备故障率自动监测方法,其特征在于,包括:接收输入的周期起始时间和周期截止时间;

采集周期内故障次数、周期截止时间时的IT设备数量和IT设备安装日期;

根据所述周期起始时间和所述周期截止时间确定周期年数;

根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周期内的年化故障率。

2.如权利要求1所述的IT设备故障率自动监测方法,其特征在于,所述根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周期内的年化故障率,包括:根据公式 生成所述周期内的年化故障率;

其中,Rf为周期内的年化故障率,MT为周期内故障次数,Ty为周期年数,N为周期截止时间时的IT设备数量,Min为最小值函数,Max为最大值函数,tend为周期起始时间,ti为IT设备安装日期,tstart为周期起始时间。

3.如权利要求1所述的IT设备故障率自动监测方法,其特征在于,还包括:按照预设维度将全量IT设备划分为多个批次;

确定每个批次在指定周期内的年化故障率;

判断每个批次在指定周期内的年化故障率是否大于第一阈值;

当有批次在指定周期内的年化故障率大于所述第一阈值时,生成用于触发异常报警的异常标志。

4.如权利要求3所述的IT设备故障率自动监测方法,其特征在于,所述第一阈值为Mhistory+n1×σhistory,其中,Mhistory和σhistory分别为全量IT设备的历史故障率均值和方差,n1为指定的倍数常量。

5.如权利要求1所述的IT设备故障率自动监测方法,其特征在于,还包括:按照预设维度将全量IT设备划分为多个批次;

确定每个批次在指定周期内的年化故障率;

根据所述每个批次在指定周期内的年化故障率,生成所述多个批次在所述指定周期内的故障分布特征向量;

确定所述故障分布特征向量的第一模值;

根据所述第一模值及预设的第二模值生成第三值;

判断所述第三值是否大于第二阈值;

当所述第三值大于所述第二阈值时,生成用于触发异常报警的异常标志。

6.如权利要求5所述的IT设备故障率自动监测方法,其特征在于,所述根据所述第一模值及预设的第二模值生成第三值,包括:根据公式 生成第三值;

其中,V为第三值, 为第二模值,为所述多个批次的历史故障分布特征向量, 为第一模值,为一个批次在所述指定周期内的故障分布特征向量。

7.如权利要求5所述的IT设备故障率自动监测方法,其特征在于,所述故障分布特征向量包括以下特征向量中的一个或多个:峰度;

偏度;

均值;

标准差。

8.一种IT设备故障率自动监测装置,其特征在于,包括:接收模块,用于接收输入的周期起始时间和周期截止时间;

采集模块,用于采集周期内故障次数、周期截止时间时的IT设备数量和IT设备安装日期;

确定模块,用于根据所述周期起始时间和所述周期截止时间确定周期年数;

生成模块,用于根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周期内的年化故障率。

9.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1‑7任意一项所述方法的指令。

10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1‑7任意一项所述方法的指令。

说明书全文

IT设备故障率自动监测方法、装置、设备及存储介质

技术领域

[0001] 本说明书涉及IT设备故障监测技术领域,尤其是涉及一种IT设备故障率自动监测方法、装置、设备及存储介质。

背景技术

[0002] 银行业数据中心拥有大量IT设备,一些大型银行IT设备的保有量甚至在数万台以上,这些IT设备7*24小时不间断运行,承载核心银行系统等重要银行信息系统。一旦IT设备
发生故障,可能造成严重的业务影响。这些IT设备的品牌、型号、购置日期都不尽相同,同一
品牌、同一型号且同一购置日期的IT设备,在出厂时通常是同一个制造批次。以保有数万台
服务器的某银行数据中心为例,其IT设备可以按同一品牌、同一型号且同一购置日期划分
成上百个不同批次,同一批次一般使用同一批电子元器件、同样的制造工艺、搭载同一个版
本的微码(microcode),如果这一批的元器件、制造工艺、微码存在瑕疵,则正在银行生产环
境运行的整批IT设备都存在更高的故障风险,体现为某时间段内这一组IT设备的故障率出
现畸高。
[0003] 目前,银行数据中心运维团队通常依靠人工录入和分析IT设备的故障情况,仅能获取全量IT设备的时点故障率数据,例如月末、年末的全量IT设备故障率数据,无法实时监
测任意批次IT设备在任意时间段内故障率是否有异常,导致难以发现某批次IT设备是否存
在瑕疵。不仅如此,由于期初和期末IT设备数量可能会发生变化,也难以精确获知该时间段
内的故障率。

发明内容

[0004] 本说明书实施例的目的在于提供一种IT设备故障率自动监测方法、装置、设备及存储介质,以精确获取任意批次IT设备在任意时间段内故障率。
[0005] 为达到上述目的,一方面,本说明书实施例提供了一种IT设备故障率自动监测方法,包括:
[0006] 接收输入的周期起始时间和周期截止时间;
[0007] 采集周期内故障次数、周期截止时间时的IT设备数量和IT设备安装日期;
[0008] 根据所述周期起始时间和所述周期截止时间确定周期年数;
[0009] 根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周期内的年化故障率。
[0010] 较佳实施例中,所述根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周期内的年化故障
率,包括:
[0011] 根据公式 生成所述周期内的年化故障率;
[0012] 其中,Rf为周期内的年化故障率,MT为周期内故障次数,Ty为周期年数,N为周期截止时间时的IT设备数量,Min为最小值函数,Max为最大值函数,tend为周期起始时间,ti为IT
设备安装日期,tstart为周期起始时间。
[0013] 较佳实施例中,所述方法还包括:
[0014] 按照预设维度将全量IT设备划分为多个批次;
[0015] 确定每个批次在指定周期内的年化故障率;
[0016] 判断每个批次在指定周期内的年化故障率是否大于第一阈值;
[0017] 当有批次在指定周期内的年化故障率大于所述第一阈值时,生成用于触发异常报警的异常标志。
[0018] 较佳实施例中,所述第一阈值为Mhistory+n1×σhistory,其中,Mhistory和σhistory分别为全量IT设备的历史故障率均值和方差,n1为指定的倍数常量。
[0019] 较佳实施例中,所述方法还包括:
[0020] 按照预设维度将全量IT设备划分为多个批次;
[0021] 确定每个批次在指定周期内的年化故障率;
[0022] 根据所述每个批次在指定周期内的年化故障率,生成所述多个批次在所述指定周期内的故障分布特征向量;
[0023] 确定所述故障分布特征向量的第一模值;
[0024] 根据所述第一模值及预设的第二模值生成第三值;
[0025] 判断所述第三值是否大于第二阈值;
[0026] 当所述第三值大于所述第二阈值时,生成用于触发异常报警的异常标志。
[0027] 较佳实施例中,所述根据所述第一模值及预设的第二模值生成第三值,包括:
[0028] 根据公式 生成第三值;
[0029] 其中,V为第三值, 为第二模值,为所述多个批次的历史故障分布特征向量,为第一模值,为一个批次在所述指定周期内的故障分布特征向量。
[0030] 较佳实施例中,所述故障分布特征向量包括以下特征向量中的一个或多个:
[0031] 峰度;
[0032] 偏度;
[0033] 均值;
[0034] 标准差。
[0035] 另一方面,本说明书实施例还提供了一种IT设备故障率自动监测装置,包括:
[0036] 接收模块,用于接收输入的周期起始时间和周期截止时间;
[0037] 采集模块,用于采集周期内故障次数、周期截止时间时的IT设备数量和IT设备安装日期;
[0038] 确定模块,用于根据所述周期起始时间和所述周期截止时间确定周期年数;
[0039] 生成模块,用于根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周期内的年化故障
率。
[0040] 另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法
的指令。
[0041] 另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
[0042] 由以上本说明书实施例提供的技术方案可见,本说明书实施例中,在接收输入的周期起始时间和周期截止时间时,可以自动采集周期内故障次数、周期截止时间时的IT设
备数量和IT设备安装日期,根据周期起始时间和周期截止时间确定周期年数,并综合周期
起始时间、周期截止时间、周期内故障次数、IT设备数量、IT设备安装日期和所述周期年数,
生成周期内的年化故障率。如此,可以自动计算出任意批次IT设备在任意时间段内的故障
率,效率较高。并且由于本说明书实施例中获得故障率是周期内的年化故障率,相对于常规
的故障率能更加客观地反映周期内的IT设备的故障情况,从而更加精准。

附图说明

[0043] 为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是
本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的
前提下,还可以根据这些附图获得其他的附图。在附图中:
[0044] 图1示出了本说明书一些实施例中IT设备故障率自动监测方法的流程图;
[0045] 图2示出了本说明书另一些实施例中IT设备故障率自动监测方法的流程图;
[0046] 图3示出了本说明书另一些实施例中IT设备故障率自动监测方法的流程图;
[0047] 图4示出了本说明书一些实施例中IT设备故障率自动监测装置的结构框图;
[0048] 图5示出了本说明书另一些实施例中IT设备故障率自动监测装置的结构框图;
[0049] 图6示出了本说明书另一些实施例中IT设备故障率自动监测装置的结构框图;
[0050] 图7示出了本说明书一些实施例中计算机设备的结构框图。
[0051] 【附图标记说明】
[0052] 41、接收模块;
[0053] 42、采集模块;
[0054] 43、确定模块;
[0055] 44、生成模块;
[0056] 51、第一划分模块;
[0057] 52、第一确定模块;
[0058] 53、第一判断模块;
[0059] 54、第一生成模块;
[0060] 61、第二划分模块;
[0061] 62、第二确定模块;
[0062] 63、向量生成模块;
[0063] 64、模值确定模块;
[0064] 65、第三值生成模块;
[0065] 66、第二判断模块;
[0066] 67、第二生成模块;
[0067] 702、计算机设备;
[0068] 704、处理器;
[0069] 706、存储器;
[0070] 708、驱动机构;
[0071] 710、输入/输出接口;
[0072] 712、输入设备;
[0073] 714、输出设备;
[0074] 716、呈现设备;
[0075] 718、图形用户接口;
[0076] 720、网络接口;
[0077] 722、通信链路;
[0078] 724、通信总线。

具体实施方式

[0079] 为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述
的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,
本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于
本说明书保护的范围。
[0080] 本说明书涉及银行数据中心(或其他系统)的IT设备故障监测技术。其中,IT设备是指银行业数据中心常用的IT硬件设备,例如可以包括但不限于服务器(server)、存储
(storage,又称磁盘机)、大型机(mainframe)等种类。
[0081] 故障率是指生产环境已使用的IT设备在过去某段时间内发生故障的频率,故障率是反映IT设备既往运行情况的一种重要指标。传统技术中,故障率的计算方式是故障次数
除以IT设备台数,这种计算方式简单而粗糙,得出的值受期初IT设备台数和期末IT设备台
数的变化影响较大。例如,期初有1000台IT设备,期末增长到2000台,期间发生了100次故
障,则按传统方式计算出故障率为100/2000=5%,这个结果极不精确,比真实故障率小,因
为没有考虑到期内增加的1000台中的每一台分别在期间各自实际使用了多长时间,即没有
考虑期间IT设备数量增长对故障率带来的稀释效应,从而难以精确获取任意批次IT设备在
任意时间段内故障率的问题。
[0082] 有鉴于此,本说明书实施例提供了一种IT设备故障率自动监测方法,其可以应用于任何合适的计算机设备上。参考图1所示,在本说明书一些实施例中,所述IT设备故障率
自动监测方法可以包括以下步骤:
[0083] S101、接收输入的周期起始时间和周期截止时间。
[0084] S102、采集周期内故障次数、周期截止时间时的IT设备数量和IT设备安装日期。
[0085] S103、根据所述周期起始时间和所述周期截止时间确定周期年数。
[0086] S104、根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周期内的年化故障率。
[0087] 本说明书实施例中,在接收输入的周期起始时间和周期截止时间时,可以自动采集周期内故障次数、周期截止时间时的IT设备数量和IT设备安装日期,根据周期起始时间
和周期截止时间确定周期年数,并综合周期起始时间、周期截止时间、周期内故障次数、IT
设备数量、IT设备安装日期和所述周期年数,生成周期内的年化故障率。如此,可以自动计
算出任意批次IT设备在任意时间段内的故障率,效率较高。并且由于本说明书实施例中获
得故障率是周期内的年化故障率,相对于常规的故障率能更加客观地反映周期内的IT设备
的故障情况,从而更加精准。
[0088] 当需要计算一组IT设备在某一个周期内的年化故障率时,可以输入周期起始时间和周期截止时间。其中,周期长短、周期起始时间和周期截止时间可均以由用户自由设定。
显然,基于周期起始时间和周期截止时间可以确定周期。
[0089] 为了方便处理,可以要求输入的周期起始时间和周期截止时间采用某种或某些格式。例如,在本说明书一实施例中,周期起始时间和周期截止时间可以采用xxxx‑xx‑xx的日
期格式,其中前四位表示年份,第五至第六位表示月份,第七至第八位表示日份。例如,在一
示例性实施例中,输入的周期起始时间为可以2021‑01‑01,输入的周期截止时间可以为
2021‑02‑26。
[0090] 本说明书实施例中,可以通过任何合适的方式采集周期内故障次数。例如,在本说明书一实施例中,可以从设备技术运营服务管理系统(银行IT部门通常会根据监管要求建
立设备维修记录的管理系统,一条维修记录对应一次故障)的应用程序接口(API)采集周期
起始时间和周期截止时间之间的维修记录条数,从而可以获得该周期内故障次数。再如,在
本说明书另一实施例中,还可以从机器人巡检系统(银行IT部门为减少人力投入通常使用
机器人对机房进行巡检,巡检时会自动识别并记录设备故障)采集该周期内每日自动巡检
发现的故障数量,并通过公式 计算出该周期内故障次数。其中,MT为周期内故障
次数,n周期内的天数,Mi为周期内第i天发现的故障数。
[0091] 本说明书实施例中,可以通过任何合适的方式采集周期截止时间时的IT设备数量。例如,在本说明书一实施例中,可以从资源管理系统(银行IT部门通常会根据监管要求
建立资源管理系统记录设备资产信息,一条信息对应一台设备,每台设备有资源编码作为
唯一识别号)的API接口采集周期截止时间时刻前已经存在的记录条数,从而可以据此确定
周期截止时间时的IT设备数量。再如,在本说明书另一实施例中,也可以从机器人巡检系统
(银行IT部门为减少人力投入通常使用机器人对机房进行巡检,巡检时会记录每台设备的
资源编码,资源编码是识别和区分每台设备的唯一编号,一个资源编码对应一台设备)采集
周期截止时间当天巡检时记录到的资源编码数量,从而也可以据此确定周期截止时间时的
IT设备数量。
[0092] 本说明书实施例中,IT设备安装日期是指IT设备开始使用的日期;其中,开始使用是指IT设备安装到机房内并通电开机使用。对于每台IT设备,可以从资源管理系统采集该
台IT设备的安装日期。当然,本领域技术人员可以理解,在本说明书其他的实施例中,IT设
备安装日期也可以采用其他任何合适方式获取,本说明书对此不作唯一限定,具体可以根
据实际需要选择。
[0093] 本说明书实施例中,周期年数用于表征周期在一年中所占的比例(或比值)。具体而言,根据周期起始时间和周期截止时间之间的差值,可以确定出周期(天数),将该周期除
以365即可以得到周期年数。周期年数可以用于后续计算年化故障率。
[0094] 本说明书一些实施例中,所述根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周期内的
年化故障率,可以包括:
[0095] 根据公式 生成所述周期内的年化故障率。
[0096] 其中,Rf为周期内的年化故障率,MT为周期内故障次数,Ty为周期年数,N为周期截止时间时的IT设备数量,Min为最小值函数,Max为最大值函数,tend为周期起始时间,ti为IT
设备安装日期,tstart为周期起始时间。
[0097] 在上述年化故障率计算公式中,在分母计算上考虑到了每台IT设备在周期内实际使用时长的不同,本质上是对每台IT设备在周期内实际使用的时长独立计算并加总作为分
母,如实反映了所有设备在周期内使用的实际情况。而传统计算方法的分母就是周期末的
设备台数,相当于默认所有IT设备在周期内全程都在使用,而实际上在周期开始之后才采
购到货并投入使用的IT设备,其实际使用时间是不到周期长度的,但是在传统计算方法中
其权重也是1,这样就会导致传统方式计算出的故障率与真实情况相比是偏小的。
[0098] 本说明书实施例中,tend‑ti表示第i台设备在周期内实际使用的时长,而tend‑tstart表示周期的时长,两者比值反映了第i台设备实际使用时长占周期时长的比值,如果ti晚于
tend则出现负值,因此可以用Max函数(最大值函数)把这些值限制在0以上。物理意义是:周
期之后安装的设备不参与分母计算;如果ti早于tstart则会出现大于1的值。用Min函数(最小
值函数)把这些值限制在1以下,物理意义是:周期之前安装的设备实际使用的时长等于周
期时长。按前述逻辑把N台设备都依次计算一遍并加总,形成算法的分母,进而计算出Rf。Rf
是精确的故障率。
[0099] 参考图2所示,本说明书另一些实施例中,所述IT设备故障率自动监测方法还可以包括如下步骤:
[0100] S201、按照预设维度将全量IT设备划分为多个批次。
[0101] 本说明书实施例中的全量IT设备是指目标范围内所有的IT设备。其中,目标范围可以是整个数据中心机房,也可以数据中心机房内所有指定类别的IT设备(例如数据中心
机房内所有的服务器,数据中心机房内所有的磁盘机等等),本说明书对此不作唯一限定,
具体可以根据实际监控需要选择。
[0102] 本说明书一些实施例中,按照预设维度将全量IT设备划分为多个批次可以是指自动对一组IT设备按照设备的品牌、型号或购置日期等维度划分成不同批次,以便于后续计
算每个批次设备的故障率。
[0103] S202、确定每个批次在指定周期内的年化故障率。
[0104] 本说明书实施例中,指定周期可以通过输入周期起始时间和周期截止时间实现。在实际实施时,指定周期可以由用户自行设定,例如设定每小时运行一次,或每24小时运行
一次,从而达到实时或准实时进行故障率自动监测的目的。
[0105] 对于每个批次在指定周期内的年化故障率,可以根据图1所示步骤计算得到,在此不再赘述。
[0106] S203、判断每个批次在指定周期内的年化故障率是否大于第一阈值。
[0107] 第一阈值可以是根据全量IT设备的历史故障率而确定的值。例如,本说明书一实施例中,所述第一阈值为Mhistory+n1×σhistory,其中,Mhistory和σhistory分别为全量IT设备的历
史故障率均值和方差,n1为指定的倍数常量。如此,通过将每个批次在指定周期内的年化故
障率,分别与第一阈值进行比较,可以识别是否存在故障率畸高的情况。
[0108] S204、当有批次在指定周期内的年化故障率大于所述第一阈值时,生成用于触发异常报警的异常标志。否则,逻辑流程结束,并可以重新开始下一轮监测循环。
[0109] 当有某一批次在指定周期内的年化故障率大于所述第一阈值时,表明该批次IT设备在指定周期内存在故障率畸高的情况。因此,可以生成用于触发异常报警的异常标志,即
发现故障率畸高时,可以自动向运维人员发出告警,以提示该批次IT设备的信息和故障率
存在异常,从而方便相关人员机及时进行应对处理。
[0110] 参考图3所示,本说明书另一些实施例中,所述IT设备故障率自动监测方法还可以包括如下步骤:
[0111] S301、按照预设维度将全量IT设备划分为多个批次。
[0112] 本说明书实施例中的全量IT设备是指目标范围内所有的IT设备。其中,目标范围可以是整个数据中心机房,也可以数据中心机房内所有指定类别的IT设备(例如数据中心
机房内所有的服务器,数据中心机房内所有的磁盘机等等),本说明书对此不作唯一限定,
具体可以根据实际监控需要选择。
[0113] 本说明书一些实施例中,按照预设维度将全量IT设备划分为多个批次可以是指自动对一组IT设备按照设备的品牌、型号或购置日期等维度划分成不同批次,以便于后续计
算每个批次设备的故障率。
[0114] S302、确定每个批次在指定周期内的年化故障率。
[0115] 本说明书实施例中,指定周期可以通过输入周期起始时间和周期截止时间实现。在实际实施时,指定周期可以由用户自行设定,例如设定每小时运行一次,或每24小时运行
一次,从而达到实时或准实时进行故障率自动监测的目的。
[0116] 对于每个批次在指定周期内的年化故障率,可以根据图1所示步骤计算得到,在此不再赘述。
[0117] S303、根据所述每个批次在指定周期内的年化故障率,生成所述多个批次在所述指定周期内的故障分布特征向量。
[0118] 可以将各个批次在指定周期内的年化故障率的一些故障分布特征值按照设定的规则集中在一起,从而形成故障分布特征向量。例如,本说明书一实施例中,故障分布特征
向量可以包括但不限于峰度(Kurtosis)、偏度(Skewness)、均值(Mean)和标准差(Standard 
Deviation)中的一个或多个。例如,在一示例性实施例中,以(峰度,偏度,均值,标准差)作
为故障分布特征向量,则在一个故障分布特征向量(3,0,0,1)中,峰度为3,偏度为0,均值为
0,标准差为1,即标准正态分布。
[0119] S304、确定所述故障分布特征向量的第一模值。
[0120] 本说明书实施例中,故障分布特征向量的模值是指:故障分布特征向量对应的特征值的模。由于一个故障分布特征向量对应的特征值一般可能是复数,在复数的情况下就
会有模。因此,确定所述故障分布特征向量的第一模值,即为确定所述故障分布特征向量对
应的特征值的模。求一个特征向量对应的特征值的模,属于线性代数领域已知手段,因此,
本说明书无需对此进行详细说明。
[0121] 例如,在上述故障分布特征向量(3,0,0,1)示例中,峰度为3,偏度为0,均值为0,标准差为1,可以计算出该故障分布特征向量对应的模为3.16。
[0122] S305、根据所述第一模值及预设的第二模值生成第三值。
[0123] 本说明书一些实施例中,可以根据公式 生成第三值。其中,V为第三值,为第二模值(可以预设),为所述多个批次的历史故障分布特征向量, 为第一模值,为
一个批次在所述指定周期内的故障分布特征向量。某些情况下,在数据的整个值域中的,不
同区间的差异带的影响不同,因此通过公式 可以有利于消除不同区间的差异带的
影响,从而有利于提高故障识别的准确性。
[0124] S306、判断所述第三值是否大于第二阈值。
[0125] 本说明书实施例中,第二阈值是预设值,具体可以根据实际情况设定。例如,本一示例性实施例中,假设第二阈值为0.1,若第一模值 第二模值 则根据公式
可以计算得到V=0.24,因此,可以将V=0.24与0.1进行比较。
[0126] S307、当所述第三值大于所述第二阈值时,生成用于触发异常报警的异常标志。否则,逻辑流程结束,并可以重新开始下一轮监测循环。
[0127] 当第三值大于第二阈值时,表明全量IT设备在指定周期内存在故障率畸高的情况。因此,可以生成用于触发异常报警的异常标志,即发现故障率畸高时,可以自动向运维
人员发出告警,以提示全量IT设备的信息和故障率存在异常,从而方便相关人员机及时进
行应对处理。显然,与图2所示方法中分别关注于每个批次的IT设备在指定周期内的故障率
不同,图3所示方法更关于全量IT设备在指定周期内的故障率,是一种整体性故障监控与评
价。
[0128] 在本说明书另一些实施例中,系统还可以提供历史故障率的查询功能,当接收到查询请求时,可以将根据查询请求从历史故障率数据集合中匹配对应的数据并返回。其中,
查询请求中可以指定查询范围,例如可以指定任意的历史时段,还可以指定部分或全部IT
设备作为查询对象等。
[0129] 虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行
处理器或多线程环境)。
[0130] 与上述的IT设备故障率自动监测方法对应,本说明书还提供了一种IT设备故障率自动监测装置的实施例。参考图4所示,在本说明书一些实施例中,所述IT设备故障率自动
监测装置可以包括:
[0131] 接收模块41,可以用于接收输入的周期起始时间和周期截止时间;
[0132] 采集模块42,可以用于采集周期内故障次数、周期截止时间时的IT设备数量和IT设备安装日期;
[0133] 确定模块43,可以用于根据所述周期起始时间和所述周期截止时间确定周期年数;
[0134] 生成模块44,可以用于根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周期内的年化故
障率。
[0135] 在本说明书一些装置实施例中,所述根据所述周期起始时间、所述周期截止时间、所述周期内故障次数、所述IT设备数量、所述IT设备安装日期和所述周期年数,生成所述周
期内的年化故障率,可以包括:
[0136] 根据公式 生成所述周期内的年化故障率;
[0137] 其中,Rf为周期内的年化故障率,MT为周期内故障次数,Ty为周期年数,N为周期截止时间时的IT设备数量,Min为最小值函数,Max为最大值函数,tend为周期起始时间,ti为IT
设备安装日期,tstart为周期起始时间。
[0138] 结合图5所示,在本说明书另一些实施例中,所述IT设备故障率自动监测装置还可以包括:
[0139] 第一划分模块51、可以用于按照预设维度将全量IT设备划分为多个批次;
[0140] 第一确定模块52,可以用于确定每个批次在指定周期内的年化故障率;
[0141] 第一判断模块53、可以用于判断每个批次在指定周期内的年化故障率是否大于第一阈值;
[0142] 第一生成模块54、可以用于当有批次在指定周期内的年化故障率大于所述第一阈值时,生成用于触发异常报警的异常标志。
[0143] 在本说明书一些装置实施例中,所述第一阈值为Mhistory+n1×σhistory,其中,Mhistory和σhistory分别为全量IT设备的历史故障率均值和方差,n1为指定的倍数常量。
[0144] 结合图6所示,在本说明书另一些实施例中,所述IT设备故障率自动监测装置还可以包括:
[0145] 第二划分模块61、可以用于按照预设维度将全量IT设备划分为多个批次;
[0146] 第二确定模块62、可以用于确定每个批次在指定周期内的年化故障率;
[0147] 向量生成模块63、可以用于根据所述每个批次在指定周期内的年化故障率,生成所述多个批次在所述指定周期内的故障分布特征向量;
[0148] 模值确定模块64、可以用于确定所述故障分布特征向量的第一模值;
[0149] 第三值生成模块65、可以用于根据所述第一模值及预设的第二模值生成第三值;
[0150] 第二判断模块66、可以用于判断所述第三值是否大于第二阈值;
[0151] 第二生成模块67、可以用于当所述第三值大于所述第二阈值时,生成用于触发异常报警的异常标志。
[0152] 在本说明书一些装置实施例中,所述根据所述第一模值及预设的第二模值生成第三值,包括:
[0153] 根据公式 生成第三值;
[0154] 其中,V为第三值, 为第二模值,为所述多个批次的历史故障分布特征向量,为第一模值,为一个批次在所述指定周期内的故障分布特征向量。
[0155] 在本说明书一些装置实施例中,所述故障分布特征向量包括峰度、偏度、均值和标准差中的一个或多个。
[0156] 为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0157] 本说明书的实施例还提供一种计算机设备。如图7所示,在本说明书一些实施例中,所述计算机设备702可以包括一个或多个处理器704,诸如一个或多个中央处理单元
(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备702还
可以包括任何存储器706,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具
体实施例中,存储器706上并可在处理器704上运行的计算机程序,所述计算机程序被所述
处理器704运行时,可以执行上述任一实施例上述的IT设备故障率自动监测方法的指令。非
限制性的,比如,存储器706可以包括以下任一项或多种组合:任何类型的RAM,任何类型的
ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一
步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示
计算机设备702的固定或可移除部件。在一种情况下,当处理器704执行被存储在任何存储
器或存储器的组合中的相关联的指令时,计算机设备702可以执行相关联指令的任一操作。
计算机设备702还包括用于与任何存储器交互的一个或多个驱动机构708,诸如硬盘驱动机
构、光盘驱动机构等。
[0158] 计算机设备702还可以包括输入/输出接口710(I/O),其用于接收各种输入(经由输入设备712)和用于提供各种输出(经由输出设备714)。一个具体输出机构可以包括呈现
设备716和相关联的图形用户接口718(GUI)。在其他实施例中,还可以不包括输入/输出接
口710(I/O)、输入设备712以及输出设备714,仅作为网络中的一台计算机设备。计算机设备
702还可以包括一个或多个网络接口720,其用于经由一个或多个通信链路722与其他设备
交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。
[0159] 通信链路722可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链
路、无线链路、路由器、网关功能、名称服务器等的任何组合。
[0160] 本申请是参照本说明书一些实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一
流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程
序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现
在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0161] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令
装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多
个方框中指定的功能。
[0162] 这些计算机程序指令也可装载到计算机或其他可编程数据处理器上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其
他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个
方框或多个方框中指定的功能的步骤。
[0163] 在一个典型的配置中,计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0164] 内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的
示例。
[0165] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动
态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除
可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、
数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何
其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本文中的界定,计算机可
读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0166] 本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面
的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序
代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的
计算机程序产品的形式。
[0167] 本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程
序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分
布式计算环境中,由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境
中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0168] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实
施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例
的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、
“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料
或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语
的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或
者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情
况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示
例的特征进行结合和组合。
[0169] 以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同
替换、改进等,均应包含在本申请的权利要求范围之内。