一种存储集群系统的监控方法及装置转让专利

申请号 : CN201710772280.1

文献号 : CN107360045A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 毕波

申请人 : 郑州云海信息技术有限公司

摘要 :

本发明实施例公开了一种存储集群系统的监控方法及装置。其中,方法包括基于snmp协议,获取分布式存储集群系统中各存储设备的运行状态信息;根据运行状态信息中的关键字,对运行状态信息进行解析,得到分布式存储集群系统的监控报告;将监控报告通过web页面,向用户进行展示。通过捕捉并分析分布式集群系统的各存储设备的运行状态信息,实现了存储集群多存储设备的带外批量监控,将这些状态信息以web页面形式展示给用户,以便用户,例如机房管理员,更加直观的、便捷的了解当前存储集群的运行状态,有利于用户及时发现存储集群的故障,并定位故障位置,从而快速排除故障,有利于提高存储集群系统的可靠性与稳定性。

权利要求 :

1.一种存储集群系统的监控方法,其特征在于,包括:

基于snmp协议,获取分布式存储集群系统中各存储设备的运行状态信息;

根据所述运行状态信息中的关键字,对所述运行状态信息进行解析,得到所述分布式存储集群系统的监控报告;

将所述监控报告通过web页面,向用户进行展示。

2.根据权利要求1所述的存储集群系统的监控方法,其特征在于,所述根据所述运行状态信息中的关键字,对所述运行状态信息进行解析,得到所述分布式存储集群系统的监控报告包括:根据所述运行状态信息中的关键字,判断所述运行状态信息中是否包含报警信息,所述报警信息为所述分布式存储集群系统中存储设备运行异常时状态信息;

当判定所述运行状态信息中包含报警信息时,对所述报警信息进行解析,以确定所述报警信息对应的目的存储设备及所述目的存储设备的故障信息,并生成警示信息作为监控报告,所述警示信息包含所述目的存储设备硬件信息、故障信息及报警级别。

3.根据权利要求2所述的存储集群系统的监控方法,其特征在于,还包括:根据所述报警级别,按照预设级别的报警方式进行报警。

4.根据权利要求1至3任意一项所述的存储集群系统的监控方法,其特征在于,所述将所述监控报告通过web页面,向用户进行展示包括:当接收到用户输入的授权信息时,判断所授权信息是否准确;

当判定所述授权信息准确时,将所述监控报告通过web页面向所述用户展示web页面。

5.根据权利要求4所述的存储集群系统的监控方法,其特征在于,所述获取分布式存储集群系统中各存储设备的运行状态信息包括:按照预设的频率,获取分布式存储集群系统中各存储设备的运行状态信息。

6.一种存储集群系统的监控装置,其特征在于,包括:

信息获取模块,用于基于snmp协议,获取分布式存储集群系统中各存储设备的运行状态信息;

监控信息解析模块,用于根据所述运行状态信息中的关键字,对所述运行状态信息进行解析,得到所述分布式存储集群系统的监控报告;

展示模块,用于将所述监控报告通过web页面,向用户进行展示。

7.根据权利要求6所述的存储集群系统的监控装置,其特征在于,所述监控信息解析模块包括:报警信息判断单元,用于根据所述运行状态信息中的关键字,判断所述运行状态信息中是否包含报警信息,所述报警信息为所述分布式存储集群系统中存储设备运行异常时状态信息;

警示信息生产单元,当判定所述运行状态信息中包含报警信息时,对所述报警信息进行解析,以确定所述报警信息对应的目的存储设备及所述目的存储设备的故障信息,并生成警示信息作为监控报告,所述警示信息包含所述目的存储设备硬件信息、故障信息及报警级别。

8.根据权利要求7所述的存储集群系统的监控装置,其特征在于,所述监控信息解析模块还包括:报警单元,用于根据所述报警级别,按照预设级别的报警方式进行报警。

9.根据权利要求6至8任意一项所述的存储集群系统的监控装置,其特征在于,所述展示模块包括:验证单元,用于当接收到用户输入的授权信息时,判断所授权信息是否准确;

展示单元,用于当判定所述授权信息准确时,将所述监控报告通过web页面向所述用户展示web页面。

10.根据权利要求9所述的存储集群系统的监控装置,其特征在于,所述信息获取模块为按照预设的频率,获取分布式存储集群系统中各存储设备的运行状态信息的模块。

说明书 :

一种存储集群系统的监控方法及装置

技术领域

[0001] 本发明实施例涉及存储技术领域,特别是涉及一种存储集群系统的监控方法及装置。

背景技术

[0002] 随着大数据、云技术的迅猛发展,数据呈现爆炸式增长,数据机房中企业级存储的应用也越来越多,这就迫使存储技术得到了相应的发展,以满足用户的需求。
[0003] 存储集群系统中包含多个存储设备,如何有效对存储集群系统中各个存储设备进行监控与管理,及时检测和排除存储的服务异常,是本领域技术人员亟待解决的问题。

发明内容

[0004] 本发明实施例的目的是提供一种存储集群系统的监控方法及装置,及时检测存储集群系统的异常状况,从而提高存储集群系统的可靠性与稳定性。
[0005] 为解决上述技术问题,本发明实施例提供以下技术方案:
[0006] 本发明实施例一方面提供了一种存储集群系统的监控方法,包括:
[0007] 基于snmp协议,获取分布式存储集群系统中各存储设备的运行状态信息;
[0008] 根据所述运行状态信息中的关键字,对所述运行状态信息进行解析,得到所述分布式存储集群系统的监控报告;
[0009] 将所述监控报告通过web页面,向用户进行展示。
[0010] 可选的,所述根据所述运行状态信息中的关键字,对所述运行状态信息进行解析,得到所述分布式存储集群系统的监控报告包括:
[0011] 根据所述运行状态信息中的关键字,判断所述运行状态信息中是否包含报警信息,所述报警信息为所述分布式存储集群系统中存储设备运行异常时状态信息;
[0012] 当判定所述运行状态信息中包含报警信息时,对所述报警信息进行解析,以确定所述报警信息对应的目的存储设备及所述目的存储设备的故障信息,并生成警示信息作为监控报告,所述警示信息包含所述目的存储设备硬件信息、故障信息及报警级别。
[0013] 可选的,还包括:
[0014] 根据所述报警级别,按照预设级别的报警方式进行报警。
[0015] 可选的,所述将所述监控报告通过web页面,向用户进行展示包括:
[0016] 当接收到用户输入的授权信息时,判断所授权信息是否准确;
[0017] 当判定所述授权信息准确时,将所述监控报告通过web页面向所述用户展示web页面。
[0018] 可选的,所述获取分布式存储集群系统中各存储设备的运行状态信息包括:
[0019] 按照预设的频率,获取分布式存储集群系统中各存储设备的运行状态信息。
[0020] 本发明实施例另一方面提供了一种存储集群系统的监控装置,包括:
[0021] 信息获取模块,用于基于snmp协议,获取分布式存储集群系统中各存储设备的运行状态信息;
[0022] 监控信息解析模块,用于根据所述运行状态信息中的关键字,对所述运行状态信息进行解析,得到所述分布式存储集群系统的监控报告;
[0023] 展示模块,用于将所述监控报告通过web页面,向用户进行展示。
[0024] 可选的,所述监控信息解析模块包括:
[0025] 报警信息判断单元,用于根据所述运行状态信息中的关键字,判断所述运行状态信息中是否包含报警信息,所述报警信息为所述分布式存储集群系统中存储设备运行异常时状态信息;
[0026] 警示信息生产单元,当判定所述运行状态信息中包含报警信息时,对所述报警信息进行解析,以确定所述报警信息对应的目的存储设备及所述目的存储设备的故障信息,并生成警示信息作为监控报告,所述警示信息包含所述目的存储设备硬件信息、故障信息及报警级别。
[0027] 可选的,所述监控信息解析模块还包括:
[0028] 报警单元,用于根据所述报警级别,按照预设级别的报警方式进行报警。
[0029] 可选的,所述展示模块包括:
[0030] 验证单元,用于当接收到用户输入的授权信息时,判断所授权信息是否准确;
[0031] 展示单元,用于当判定所述授权信息准确时,将所述监控报告通过web页面向所述用户展示web页面。
[0032] 可选的,所述信息获取模块为按照预设的频率,获取分布式存储集群系统中各存储设备的运行状态信息的模块。
[0033] 本发明实施例提供了一种存储集群系统的监控方法,基于snmp协议,获取分布式存储集群系统中各存储设备的运行状态信息;根据运行状态信息中的关键字,对运行状态信息进行解析,得到分布式存储集群系统的监控报告;将监控报告通过web页面,向用户进行展示。
[0034] 本申请提供的技术方案的优点在于,通过捕捉并分析分布式集群系统的各存储设备的运行状态信息,实现了存储集群多存储设备的带外批量监控,将存储集群的状态信息以web页面形式展示给用户,以便用户,例如机房管理员或值勤人员,更加直观的、便捷的了解当前存储集群的运行状态,有利于用户及时发现存储集群的故障,并定位故障位置,从而快速排除故障,有利于提高存储集群系统的可靠性与稳定性。
[0035] 此外,本发明实施例还针对存储集群系统的监控方法提供了相应的实现装置,进一步使得所述方法更具有实用性,所述装置具有相应的优点。

附图说明

[0036] 为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037] 图1为本发明实施例提供的一种存储集群系统的监控方法的流程示意图;
[0038] 图2为本发明实施例提供的存储集群系统的监控装置的一种具体实施方式结构图。

具体实施方式

[0039] 为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040] 本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
[0041] 在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
[0042] 首先参见图1,图1为本发明实施例提供的一种存储集群系统的监控方法的流程示意图,本发明实施例可包括以下内容:
[0043] S101:基于snmp协议,获取分布式存储集群系统中各存储设备的运行状态信息。
[0044] S102:根据运行状态信息中的关键字,对运行状态信息进行解析,得到分布式存储集群系统的监控报告。
[0045] S103:将监控报告通过web页面,向用户进行展示。
[0046] SNMP协议(Simple Network Management Protocol,简单网络管理协议),为由一组网络管理的标准组成,包含一个应用层协议(application layer protocol)、数据库模型(database schema)和一组资源对象。该协议能够支持网络管理系统,用以监测连接到网络上的设备是否有任何引起管理上关注的情况。SNMP管理的网络由被管理的设备、SNMP代理及网络管理系统(NMS)构成。被管理设备,又称为网络单元或网络节点,可以是支持SNMP协议的路由器、交换机、服务器或者主机等等。SNMP代理是被管理设备上的一个网络管理软件模块,拥有本地设备的相关管理信息,并用于将它们转换成与SNMP兼容的格式,传递给NMS。通过SNMP协议,NMS能获取这些信息,运行应用程序来实现监控被管理设备的功能。另外,NMS还为网络管理提供大量的处理程序及必须的储存资源。
[0047] 基于snmp协议建立存储应用服务,在机房网络环境中,将监控系统与存储集群系统建立对接服务,并将存储集群的存储管理IP加入到snmp的管理集群,通过分析存储设备的运行状态信息的关键字,可确定运行状态信息对应的存储设备,即实现硬件设备的定位。
[0048] 存储设备的运行状态信息为存储设备的控制器、电源、硬盘、BBU PSU、UPS、传感器、FAN等器件的运行状态,运行状态信息可包括存储设备的报警信息,还可包括存储的恢复信息,例如“ALERT:Controller BBU Absent or Failed!”和“NOTICE:Controller BBU Present”。这些器件出现损坏(故障)或异常信号时,会输出相应的报警信息,以使外界可以通过相关信息判断出现问题的位置。
[0049] 执行主语可为监控服务器,即为分布式存储集群建立监控系统,监控系统可包括采集信息装置、监控服务器、snmp数据传输装置与展示装置,其中,采集信息装置与监控服务器可建立C/S工作模式,监控服务器通过提供WEB访问接口与展现装置建立B/S工作模式。用户通过展现装置的WEB页面进行查看监控信息。采集信息装置将采集到的运行状态信息通过snmp数据传输装置发送至监控服务器,时时接收监控服务器将解析到的信息发送给展示装置。
[0050] 展示装置可以每隔一段时间(例如30min)自动刷新页面,实现实时监控,也可实时刷新页面,但是运行状态在短时间内不会发生太大的变化,实时进行刷新没有必要,且会增大后期数据处理量,占用系统的资源;故,可选的,可在预设的时间内进行刷新。相应的,监控服务器可按照预设的频率(即预设周期,例如每30s进行获取一次数据),获取分布式存储集群系统中各存储设备的运行状态信息。
[0051] 监控服务器在对运行状态信息进行解析时,可通过解析运行状态中的关键字进行解析,得到监控报告,用户可通过监控报告直观的了解到存储集群中存储设备的运行状态,例如是否发生故障。例如当接收到的运行状态信息中包含的关键字为“ALERT:Controller BBU Absent or Failed!”,生成的监控报告可为“Battery Backup Unit(BBU)is missing”;当接收到的运行状态信息中包含的关键字为“NOTICE:Controller  BBU Present!”,生成的监控报告可为“Controller battery backup unit(BBU)back to normal”。
[0052] 监控服务器与展示装置采用B/S结构,可基于J2EE开发。展示装置主要实现存储监控信息的时时通报展现,并可实现历史数据查询、存储信息管理等功能,用javascript技术来实现上述信息的集成,可采用Ajax技术来实现页面的无刷新显示。在应用服务器端,可采用Tomcat作为发布平台,用于JSP页面的解释和WEB目录的发布。在底层的数据库服务器端,考虑到数据库对操作系统的兼容性和稳定性,可采用oracle作为数据库服务器。
[0053] 将当前存储集群的监控报告展示给用户,例如网络管理员,网络管理员可在网络上的任何节点检索信息、修改信息、定位故障、完成故障诊断、进行容量规划和生成报告。
[0054] 在一种具体实施方式下,为了提高系统的安全性,可包括:
[0055] 当接收到用户输入的授权信息时,判断所授权信息是否准确;
[0056] 当判定授权信息准确时,将监控报告通过web页面向用户展示web页面。
[0057] 即只将存储集群的监控报告展示给授权的用户,以保证整个存储集群的安全性,有效避免外界的侵入。
[0058] 对于存储集群的监控来说,用户最关注的是存储集群是否发生故障,即存储集群中的各个设备是否受到损坏,运行是否出现异常,以保证存储集群的高可用性与稳定性,也就是说,在采集存储集群系统的运行状态信息时,运行状态信息中的报警信息可反映设备故障问题,鉴于此,本申请还提供针对S102,提供了一种具体的实施方式,可包括:
[0059] 根据运行状态信息中的关键字,判断运行状态信息中是否包含报警信息,报警信息为分布式存储集群系统中存储设备运行异常时状态信息;
[0060] 当判定运行状态信息中包含报警信息时,对报警信息进行解析,以确定报警信息对应的目的存储设备及目的存储设备的故障信息,并生成警示信息作为监控报告,警示信息包含目的存储设备硬件信息、故障信息及报警级别。
[0061] 目的存储设备为发出报警信息的存储设备,即运行异常的存储设备,目的存储设备硬件信息包括目的存储设备的地址信息、编号、存储设备运行异常的部件(或者发生故障的部件)等硬件信息。
[0062] 故障信息为发生故障(运行异常)的信息,例如当存储设备的风扇的转速太低,或者风扇不运行,通过该故障信息可解析发生故障的原因。
[0063] 例如,报警级别可为一级、二级、三级及四级,级数越低,对应的设备的故障越小,或者说是对整个系统的影响较小,当为一级报警信息时,证明当前的故障,如果不及时处理,会导致整个存储集群系统瘫痪。
[0064] 进一步的,可根据报警级别,按照预设级别的报警方式进行报警。
[0065] 不同级别的报警方式可通过设置不同的声音进行区别,也可设置不同颜色的指示灯进行提示,还可在展示监控报告时通过设置不同的颜色进行显示,当然,可通过其他任何一种方式,这均不影响本申请的实现。
[0066] 在本发明实施例提供的技术方案中,通过捕捉并分析分布式集群系统的各存储设备的运行状态信息,实现了存储集群多存储设备的带外批量监控,将存储集群的状态信息以web页面形式展示给用户,以便用户,例如机房管理员或值勤人员,更加直观的、便捷的了解当前存储集群的运行状态,有利于用户及时发现存储集群的故障,并定位故障位置,从而快速排除故障,有利于提高存储集群系统的可靠性与稳定性。
[0067] 本发明实施例还针对存储集群系统的监控方法提供了相应的实现装置,进一步使得所述方法更具有实用性。下面对本发明实施例提供的存储集群系统的监控装置进行介绍,下文描述的存储集群系统的监控装置与上文描述的存储集群系统的监控方法可相互对应参照。
[0068] 参见图2,图2为本发明实施例提供的存储集群系统的监控装置在一种具体实施方式下的结构图,该装置可包括:
[0069] 信息获取模块201,用于基于snmp协议,获取分布式存储集群系统中各存储设备的运行状态信息;
[0070] 监控信息解析模块202,用于根据运行状态信息中的关键字,对运行状态信息进行解析,得到分布式存储集群系统的监控报告;
[0071] 展示模块203,用于将监控报告通过web页面,向用户进行展示。
[0072] 可选的,在本实施例的一些实施方式中,所述监控信息解析模块202例如可包括:
[0073] 报警信息判断单元,用于根据运行状态信息中的关键字,判断运行状态信息中是否包含报警信息,报警信息为分布式存储集群系统中存储设备运行异常时状态信息;
[0074] 警示信息生产单元,当判定运行状态信息中包含报警信息时,对报警信息进行解析,以确定报警信息对应的目的存储设备及目的存储设备的故障信息,并生成警示信息作为监控报告,警示信息包含目的存储设备硬件信息、故障信息及报警级别。
[0075] 在另外一种具体实施方式下,所述监控信息解析模块202还可包括:
[0076] 报警单元,用于根据报警级别,按照预设级别的报警方式进行报警。
[0077] 可选的,在本实施例的另一些实施方式中,所述展示模块203可包括:
[0078] 验证单元,用于当接收到用户输入的授权信息时,判断所授权信息是否准确;
[0079] 展示单元,用于当判定授权信息准确时,将监控报告通过web页面向用户展示web页面。
[0080] 此外,在本实施例的一些具体实施方式中,所述信息获取模块201可为按照预设的频率,获取分布式存储集群系统中各存储设备的运行状态信息的模块。
[0081] 本发明实施例所述存储集群系统的监控装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
[0082] 由上可知,本发明实施例通过捕捉并分析分布式集群系统的各存储设备的运行状态信息,实现了存储集群多存储设备的带外批量监控,将存储集群的状态信息以web页面形式展示给用户,以便用户,例如机房管理员或值勤人员,更加直观的、便捷的了解当前存储集群的运行状态,有利于用户及时发现存储集群的故障,并定位故障位置,从而快速排除故障,有利于提高存储集群系统的可靠性与稳定性。
[0083] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0084] 专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0085] 结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
[0086] 以上对本发明所提供的一种存储集群系统的监控方法以及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。