操作管理装置、操作管理方法及其程序转让专利

申请号 : CN201180061282.0

文献号 : CN103262048B

文献日 : 2016-01-06

在由于故障在系统之内的蔓延引起的在一些处理装置等中检测到相关破坏的情况下，识别引起故障的候选者。相关破坏检测单元104通过将被监测的对象的输入的性能值应用于相关模型存储单元112存储的被监测的对象的相关模型122，而检测与包括在相关模型的相关有关的相关破坏。故障分析单元105通过对判断是检测到还是未检测到与多个被监测的对象中的共同的相关有关的相关破坏的结果进行比较，而确定并输出应该是引起故障的候选者的被监测的对象，该多个被监测的对象直接地或间接地与共同的装置或共同的被监测的对象连接并且具有包含共同的相关的相关模型122中。

1.一种操作管理装置，包括：

相关模型存储单元，所述相关模型存储单元针对多个被监测的对象中的每一个被监测对象存储包括一个或多个相关函数的相关模型，每个所述相关函数指示针对多个类型的性能值中的两个类型的性能值的相关；

相关破坏检测单元，所述相关破坏检测单元通过将所述被监测的对象的输入的所述性能值应用于所述相关模型存储单元存储的所述被监测的对象的所述相关模型，而检测与包括在所述相关模型中的相关有关的相关破坏；以及故障分析单元，所述故障分析单元通过对判断是检测到还是未检测到与多个所述被监测的对象中的共同的相关有关的所述相关破坏的结果进行比较，而确定并输出应该是引起故障的候选者的所述被监测的对象，所述多个所述被监测的对象直接或间接地与共同的装置或共同的所述被监测的对象相连接，并且具有包括所述共同的相关的所述相关模型。

2.根据权利要求1所述的操作管理装置，其中所述故障分析单元将与另一被监测的对象相比具有低相似程度的所述被监测的对象确定为引起故障的所述候选者，所述相似程度关于判断是检测到还是未检测到与所述共同的相关有关的所述相关破坏的所述结果。

3.根据权利要求1所述的操作管理装置，其中

所述多个被监测的对象被分组成多个层，并且属于两个相邻的所述层中的一个层的每个所述被监测的对象与属于另一层的每个所述被监测的对象相连接，并且属于所述多个层中每一层的所述多个被监测的对象的所述相关模型包括所述共同的相关，以及所述故障分析单元对判断是检测到还是未检测到与属于所述多个层中每个层的所述多个被监测的对象中的所述共同的相关有关的所述相关破坏的所述结果进行比较。

4.根据权利要求1所述的操作管理装置，其中所述故障分析单元将检测到所述相关破坏的相关与关于检测到所述相关破坏的所述相关的性能值的类型关联地输出，检测到所述相关破坏的所述相关包括在被确定为引起故障的所述候选者的所述被监测的对象的所述相关模型中。

5.根据权利要求1所述的操作管理装置，还包括：

群组信息产生单元，所述群组信息产生单元通过对直接地或间接地与所述共同的装置或所述共同的所述被监测的对象连接的所述多个被监测的对象中的所述相关模型进行比较，而提取包括所述多个被监测的对象的群组，所述多个被监测的对象中的每个被监测的对象具有包括所述共同的相关的所述相关模型。

6.一种操作管理方法，包括：

针对多个被监测的对象中的每一个被监视对象存储包括一个或多个相关函数的相关模型，每个所述相关函数指示针对多个类型的性能值中的两个类型的性能值的相关；

通过将所述被监测的对象的输入的所述性能值应用于所述被监测的对象的所述相关模型，而检测与包括在所述相关模型中的相关有关的相关破坏；以及通过对判断是检测到还是未检测到与多个所述被监测的对象中的共同的相关有关的所述相关破坏的结果进行比较，而确定并输出应该是引起故障的候选者的所述被监测的对象，所述多个所述被监测的对象直接地或间接地与共同的装置或共同的所述被监测的对象相连接，并且具有包括所述共同的相关的所述相关模型。

7.根据权利要求6所述的操作管理方法，其中所述确定将与另一被监测的对象相比具有低相似程度的所述被监测的对象确定为引起故障的所述候选者，所述相似程度关于判断是检测到还是未检测到与所述共同的相关有关的所述相关破坏的所述结果。

8.根据权利要求6所述的操作管理方法，其中

所述多个被监测的对象被分组成多个层，并且属于两个相邻的所述层中的一个层的每个所述被监测的对象与属于另一层的每个所述被监测的对象相连接，并且属于所述多个层中每一层的所述多个被监测的对象的所述相关模型包括所述共同的相关，以及所述确定对判断是检测到还是未检测到与属于所述多个层中每个层的所述多个被监测的对象中的所述共同的相关有关的所述相关破坏的所述结果进行比较。

9.根据权利要求6所述的操作管理方法，其中所述输出将检测到所述相关破坏的相关与关于检测到所述相关破坏的所述相关的性能值的类型关联地输出，检测到所述相关破坏的所述相关包括在被确定为引起故障的所述候选者的所述被监测的对象的所述相关模型中。

10.根据权利要求6所述的操作管理方法，还包括：

通过对直接地或间接地与所述共同的装置或所述共同的所述被监测的对象连接的所述多个被监测的对象中的所述相关模型进行比较，而提取包括所述多个被监测的对象的群组，所述多个被监测的对象中的每一个被监测的对象具有包括所述共同的相关的所述相关模型。

11.一种操作管理装置，包括：

相关破坏检测单元，所述相关破坏检测单元通过将所述被监测的对象的输入的所述性能值应用于所述相关模型存储单元存储的所述被监测的对象的所述相关模型，而检测与包括在所述相关模型中的相关有关的相关破坏；以及故障分析单元，所述故障分析单元通过对判断是检测到还是未检测到与彼此提供相同功能的多个所述被监测的对象中的共同的相关有关的所述相关破坏的结果进行比较，而确定并输出应该是引起故障的候选者的所述被监测的对象，所述多个被监测的对象接收由共同的装置或共同的所述被监测的对象发出的处理请求，或者使用由共同的装置或共同的所述被监测的对象执行的处理结果。

12.根据权利要求11所述的操作管理装置，其中所述故障分析单元将与另一被监测的对象相比具有低相似程度的所述被监测的对象确定为引起故障的所述候选者，所述相似程度关于判断是检测到还是未检测到与所述共同的相关有关的所述相关破坏的所述结果。

13.根据权利要求11所述的操作管理装置，其中所述故障分析单元将检测到所述相关破坏的相关与有关检测到所述相关破坏的所述相关的性能值的类型关联地输出，检测到所述相关破坏的所述相关包括在被确定为引起故障的所述候选者的所述被监测的对象的所述相关模型中。

14.根据权利要求11所述的操作管理装置，还包括：

群组信息产生单元，所述群组信息产生单元通过对彼此提供所述相同功能的所述多个被监测的对象中的所述相关模型进行比较，而提取包括所述多个被监测的对象的群组，所述多个被监测的对象中的每个被监测的对象具有包括所述共同的相关的所述相关模型，所述多个被监测的对象接收由所述共同的装置或所述共同的所述被监测的对象发出的处理请求，或者使用由所述共同的装置或所述共同的所述被监测的对象执行的处理结果。

15.一种操作管理方法，包括：

针对多个被监测的对象中的每一个被监测对象存储包括一个或多个相关函数的相关模型，每个所述相关函数指示针对多个类型的性能值中的两个类型的性能值的相关；

通过将所述被监测的对象的输入的所述性能值应用于所述被监测的对象的所述相关模型，而检测与包括在所述相关模型的相关有关的相关破坏；以及通过对判断是检测到还是未检测到与彼此提供相同功能的多个所述被监测的对象中的共同的相关有关的所述相关破坏的结果进行比较，而确定并输出应该是引起故障的候选者的所述被监测的对象，所述多个被监测的对象接收由共同的装置或共同的所述被监测的对象发出的处理请求，或者使用由共同的装置或共同的所述被监测的对象执行的处理结果。

16.根据权利要求15所述的操作管理方法，其中所述确定将与另一被监测的对象相比具有低相似程度的所述被监测的对象确定为引起故障的所述候选者，所述相似程度关于判断是检测到还是未检测到与所述共同的相关有关的所述相关破的所述结果。

17.根据权利要求15所述的操作管理方法，其中所述输出将检测到所述相关破坏的相关与有关检测到所述相关破坏的所述相关的性能值的类型关联地输出，检测到所述相关破坏的所述相关包括在被确定为引起故障的所述候选者的所述被监测的对象的所述相关模型中。

18.根据权利要求15所述的操作管理方法，还包括：

通过对彼此提供所述相同功能的所述多个被监测的对象中的所述相关模型进行比较，而提取包括所述多个被监测的对象的群组，所述多个被监测的对象中的每个被监测的对象具有包括所述共同的相关的所述相关模型，所述多个被监测的对象接收由所述共同的装置或所述共同的所述被监测的对象发出的处理请求，或者使用由所述共同的装置或所述共同的所述被监测的对象执行的处理结果。

操作管理装置、操作管理方法及其程序

技术领域

[0001] 本发明涉及操作管理装置、操作管理方法及其程序，并且尤其地，涉及检测系统故障的操作管理装置、操作管理方法及其程序。

背景技术

[0002] 通过从关于系统性能的时域序列信息产生系统模型并且使用该产生的系统模型来检测系统故障的操作管理系统的示例在专利文献1中被公开。

[0003] 根据在专利文献1中公开的操作管理系统，在系统的多个类型的性能值的测量值的基础之上，确定针对多个类型中的每对类型的相关函数，并且然后产生包括多个相关函数的相关模型。然后，通过使用产生的相关模型，操作管理系统判断在新输入的测量的性能值中是否引起相关破坏，并且通过检测引起收敛的相关破坏的性能类型来识别故障的起因。

[0004] 【引用列表】

[0005] 【专利文献】

[0006] 【专利文献1】第2009-199533号日本专利申请公开。

发明内容

[0007] 【技术问题】

[0008] 在上面提到的专利文献1中公开的操作管理系统具有一个问题：在某个处理装置(即系统之内的被监测的对象)等中引起的故障蔓延至周围的处理装置等，并且因此在多个处理装置等中引起相关破坏的情况下，较难在相关破坏的基础之上识别故障的起因。

[0009] 本发明的一个目的就是通过提供即使是相关破坏由于故障在系统中的蔓延而在某些处理装置等中被检测到的情况下也能识别引起故障的候选者的操作管理装置、操作管理方法及其程序来解决该问题。

[0010] 【问题的解决方案】

[0011] 根据本发明的示例性方面的第一操作管理装置包括：相关模型存储装置，用于针对多个被监测的对象中的每一个被监测的对象存储包括一个或多个相关函数的相关模型，每个相关函数指示针对性能值的多个类型中的一对性能值的类型的相关；相关破坏检测装置，用于通过将被监测的对象的输入的性能值应用于相关模型存储装置存储的被监测的对象的相关模型，而检测与包括在相关模型的相关有关的相关破坏；以及故障分析装置，用于通过对判断是检测到还是未检测到与多个被监测的对象中的共同的相关有关的相关破坏的的结果进行比较，而确定并输出应该是引起故障的候选者的被监测的对象，该多个被监测的对象直接或间接地与共同的装置或共同的被监测的对象相连接并且具有包括共同的相关的相关模型。

[0012] 根据本发明的示例性方面的第一操作管理方法包括：针对多个被监测的对象中的每一个被监测的对象存储包括一个或多个相关函数的相关模型，每个相关函数都指示针对性能值的多个类型中的一对性能值的类型的相关；通过将被监测的对象的输入的性能值应用于被监测的对象的相关模型，而检测与包括在相关模型的相关有关的相关破坏；并且通过对判断是检测到还是未检测到与多个被监测的对象中的共同的相关有关的相关破坏的结果进行比较，而确定并输出应该是引起故障的候选者的被监测的对象，该多个被监测的对象直接或间接地与共同的装置或共同的被监测的对象相连接并且具有包括共同的相关的相关模型。

[0013] 根据本发明的示例性方面的计算机可读存储介质其上记录有程序，该程序引起计算机执行以下方法，该方法包括：针对多个被监测的对象中的每一个被监测的对象存储包括一个或多个相关函数的相关模型，每个相关函数都指示针对性能值的多个类型中的一对性能值的类型的相关；通过将被监测的对象的输入的性能值应用于被监测的对象的相关模型，而检测与包括在相关模型的相关有关的相关破坏；并且通过对判断是检测到还是未检测到与多个被监测的对象中的共同的相关有关的相关破坏的结果进行比较，而确定并输出应该是引起故障的候选者的被监测的对象，该多个被监测的对象直接或间接地与共同的装置或共同的被监测的对象连接并且具有包括共同的相关的相关模型。

[0014] 根据本发明的示例性方面的第二操作管理装置包括：相关模型存储装置，用于针对多个被监测的对象中的每一个被监测的对象存储包括一个或多个相关函数的相关模型，每个相关函数指示针对性能值的多个类型中的一对性能值的类型的相关；相关破坏检测装置，用于通过将被监测的对象的输入的性能值应用于相关模型存储装置存储的被监测的对象的相关模型，而检测与包括在相关模型的相关有关的相关破坏；以及故障分析装置，用于通过对判断是检测到还是未检测到与多个被监测的对象中的共同的相关有关的相关破坏的结果进行比较，而确定并输出应该是引起故障的候选者的被监测的对象，该多个被监测的对象彼此提供相同的功能，该多个被监测的对象接收共同的装置或共同的被监测的对象发出的处理请求或使用共同的装置或共同的被监测的对象执行的处理结果。

[0015] 根据本发明的示例性方面的第二操作管理方法包括：针对多个被监测的对象中的每一个被监测的对象存储包括一个或多个相关函数的相关模型，每个相关函数指示针对性能值的多个类型中的一对性能值的类型的相关；通过将被监测的对象的输入的性能值应用于被监测的对象的相关模型，而检测与包括在相关模型的相关有关的相关破坏；并且通过对判断是检测到还是未检测到与多个被监测的对象中的共同的相关有关的相关破坏的结果进行比较，而确定并输出应该是引起故障的候选者的被监测的对象，该多个被监测的对象彼此提供相同的功能，该多个被监测的对象接收共同的装置或共同的被监测的对象发出的处理请求或使用共同的装置或共同的被监测的对象执行的处理结果。

[0016] 【发明的有益效果】

[0017] 本发明的效果在于，可以使得即使是检测到相关破坏在某些处理装置等中由于故障在系统中的蔓延的情况下也能识别故障的起因。

附图说明

[0018] 图1示出根据本发明的第一示例性实施例的特性配置的框图。

[0019] 图2示出根据本发明的第一示例性实施例的使用操作管理装置100的操作管理系统的配置的框图。

[0020] 图3示出根据本发明的第一示例性实施例的被监测的装置200之间的连接的示例的框图。

[0021] 图4示出根据本发明的第一示例性实施例的性能序列信息121的示例的框图。

[0022] 图5示出根据本发明的第一示例性实施例的相关模型122的示例的框图。

[0023] 图6示出根据本发明的第一示例性实施例的对其检测到相关破坏的相关的示例的框图。

[0024] 图7示出根据本发明的第一示例性实施例的故障蔓延的示例的框图。

[0025] 图8示出根据本发明的第一示例性实施例的群组信息123的示例的框图。

[0026] 图9示出根据本发明的第一示例性实施例的操作管理装置100的整体处理的流程图。

[0027] 图10示出根据本发明的第一示例性实施例的计算对判断是检测到还是未检测到相关破坏的判断的结果的相似程度的结果的框图。

[0028] 图11示出根据本发明的第一示例性实施例的故障分析结果130的示例的框图。

具体实施方式

[0029] (第一示例性实施例)

[0030] 接下来，将根据本发明对第一示例性实施例进行描述。

[0031] 首先，将描述根据本发明的第一示例性实施例的配置。图2是根据本发明的第一示例性实施例的示出使用操作管理装置100的操作管理系统的配置的框图。

[0032] 参考图2，根据本发明的第一示例性实施例的操作管理系统包括操作管理装置(监测控制装置)100和多个被监测的装置200。

[0033] 操作管理装置100，在从作为被监测的对象的被监测的装置200收集的性能信息的基础之上，产生针对每个被监测的对象(被监测的装置200)的相关模型122，并且通过使用产生的相关模型关于被监测的对象(被监测的装置200)执行故障分析。

[0034] 被监测的装置200是向用户提供服务的系统的组件。例如，网络(Web)服务器、应用服务器(AP服务器)、数据库服务器(DB服务器)等等可以作为被监测的装置200的示例。

[0035] 图3是示出根据本发明的第一示例性实施例的被监测的装置200之间的连接的示例的框图。根据图3中示出的示例，被监测的装置200构成包括Web服务层、AP服务器层和DB服务器层的层级系统。带有装置标识符SV1至装置标识符SV4的被监测的装置200是Web服务器。另外，带有装置标识符SV5至装置标识符SV8的被监测的装置200是AP服务器。此外，带有装置标识符SV9和装置标识符SV10的被监测的装置200是DB服务器。

[0036] 包括在Web服务器层的每个被监测的装置200都与包括在AP服务器层的每个被监测的装置200相连接。此外，包括在AP服务器层的每个被监测的装置200都于包括在DB服务器层的每个被监测的装置200相连接。负载均衡器300将经由网络从用户到系统的请求传送至包括在Web服务器层的每个被监测的装置200。然后，包括在Web服务器层的每个被监测的装置200例如随机地将请求传送至包括在AP服务器层的每个被监测的装置200。

[0037] 另外，每个被监测的装置200以周期间隔测量多个项目的性能值并且将测量的数据(测量的值)发送至操作管理装置100。此处，例如，CPU(中央处理单元)的使用率(在下文中，该比率表示为“CPU_U”)、存储器的使用量(在下文中，表示为MEM_U)、磁盘的使用量(在下文中，表示为Disk_U)、磁盘的输入/输出率(Disk_IO)、接收的分组的数量(Packet_R)、发送的分组的数量(Packet_S)等被测量为性能值的项目。

[0038] 此处，一组被监测的装置200和性能值的项目被定义为性能值的类型(性能类型(或简写为类型))，并且一组同时测量的多个类型的性能值被定义为性能信息。

[0039] 操作管理装置100包括性能信息收集单元101、相关模型产生单元102、相关破坏检测单元104、故障分析单元105、显示单元106、性能信息存储单元111、相关模型存储单元112、群组信息存储单元113以及相关破坏存储单元114。

[0040] 此处，性能信息收集单元101从被监测的装置200收集性能信息，并且使得性能信息存储单元111将性能信息的时域序列变化存储为性能序列信息121。

[0041] 图4是示出根据本发明的第一示例性实施例的性能序列信息121的示例的框图。根据图4中的示例，性能序列信息121包括带有装置标识符SV1的被监测的装置200的CPU的使用率(SV1.CPU_U)、存储器的使用量(SV1.MEM_U)、磁盘的使用量(SV1.Disk_U)以及磁盘的输入/示出率(SV1.Disk_IO)，带有装置标识符SV2的被监测的装置200的CPU的使用率(SV2.CPU_U)等等作为性能类型。

[0042] 相关模型产生单元102在性能序列信息121的基础之上产生针对每个被监测的装置200的相关模型122。此处，针对每个被监测的装置200，相关模型产生单元102在预定的一段时间内收集的性能序列信息121的基础之上确定相关函数(转换函数)，该相关函数指示针对多个性能类型中的一对性能值的性能类型的相关，并且产生包括确定的相关函数的相关模型122。相关函数在一个性能类型的测量的值的时域序列的基础之上估计其他的性能类型的性能值的时域序列。如专利文献1中示出的，在应用于一对性能类型的测量的值的时域序列的系统识别过程中确定相关函数。相关模型产生单元102可以在由相关函数引起的转换错误的平均值的基础之上计算针对每个相关函数的权重。此处，权重随着转换错误的平均值变大而变小。然后，相关模型产生单元102可以仅仅使具有大权重的相关函数包括在相关模型122中。

[0043] 相关模型存储单元112存储由相关模型产生单元102产生的相关模型122。

[0044] 图5是示出根据本发明的第一示例性实施例的相关模型122的示例的框图。在图5中，每个节点意味着性能类型，并且由节点之间的实线指示的箭头意味着从两个性能类型中的一个到另一个的相关。根据图5中的示例，关于每个带有装置标识符SV1至装置标识符SV4的被监测的装置200的相关模型包括从CPU_U到MEM_U、从CPU_U到Disk_U、从MEM_U到Packet_S以及从MEM_U到Packet_R的相关。关于每个带有装置标识符SV5至装置标识符SV8的被监测的装置200的相关模型122包括从CPU_U到MEM_U、从CPU_U到Disk_IO、从CPU_U到Packet_S、从MEM_U到Disk_U以及从Packet_S到Packet_R的相关。而且，确定关于每个相关的相关函数(未示出)。

[0045] 相关破坏检测单元104通过使用新输入的性能信息以及相关模型存储单元112存储的相关模型122，来检测关于包括在每个检测的装置200的相关模型122的相关的相关破坏。与专利文献1中公开的技术相似地，在通过将多个性能类型之中的一对性能类型之一的测量的值输入关于该对性能类型的相关函数而获得的值与该对性能类型的另一个的测量的值之间的差等于或大于预定的值的情况下，相关破坏检测单元104判断检测到针对该对性能类型的相关破坏。

[0046] 相关破坏存储单元114存储相关破坏信息124，该相关破坏信息124指示通过相关破坏检测单元104在其上检测到相关破坏的相关。

[0047] 图6是示出根据本发明的第一示例性实施例的在其上检测到相关破坏的相关的示例的框图。在图6中，虚线指示的箭头意味着对其检测到相关破坏的相关。

[0048] 此处，将根据本发明的第一示例性实施例对由于故障蔓延引起的相关破坏进行描述。图7是示出根据本发明的第一示例性实施例的故障蔓延的示例的框图。

[0049] 此处，属于Web层的带有装置标识符SV1至装置标识符SV4的被监测的装置200执行彼此相似的过程。另外，属于AP层的带有装置标识符SV5至装置标识符SV8的被监测的装置200执行彼此相似的过程。另外，属于DB层的带有装置标识符SV5至装置标识符SV8的被监测的装置200执行彼此相似的过程。因此，在直接地或间接地与属于相同层的被监测的装置200连接的其他被监测的装置200中所引起的故障的影响共同地蔓延至属于相同层的被监测的装置200。因此，以下理解是适当的：对判断是检测到还是未检测到关于每个共同的相关的相关破坏的结果在每层的被监测的装置200的相关模型122之间是相似的。

[0050] 另外，以下理解是适当的：在属于某个层的某些被监测的装置200中引起故障的情况下，对判断是检测到还是未检测到关于相关模型122中的每个共同的相关的相关破坏的结果，在其中引起了故障的被监测的装置200和属于该层的其他被监测的装置200之间是不同的。

[0051] 根据图7中的示例，在图3中示出的层级系统中，在属于AP层的带有装置标识符SV7的被监测的装置200中引起了故障。在这种情况下，由于被监测的装置200的故障造成的相关破坏被在带有装置标识符SV7的被监测的装置200中引起。

[0052] 然后，在带有装置标识符SV7的被监测的装置200中引起的故障的影响蔓延至属于Web服务器层的并且直接地与引起故障的被监测的装置200连接的带有装置标识符SV1至装置标识符SV4的被监测的装置200。例如，由于带有装置标识符SV7的被监测的装置200中的故障，由带有装置标识符SV1至装置标识符SV4的被监测的装置200向带有装置标识符SV7的被监测的装置200发送的多个针对请求的回复被延迟，并且因此在带有装置标识符SV1至装置标识符SV4的被监测的装置200中引起请求的拥塞。在这种情况下，对判断是检测到还是未检到关于每个共同的关联的相关破坏的结果，在带有装置标识符SV1至装置标识符SV4的被监测的装置200之间是彼此相似的。

[0053] 此外，带有装置标识符SV7的被监测的装置200中引起的故障的影响蔓延至与引起故障的被监测的装置200间接地连接，即经由带有装置标识符SV1至装置标识符SV4的被监测的装置200连接的带有装置标识符SV5、装置标识符SV6和装置标识符SV8的被监测的装置200。例如，在带有装置标识符SV5、装置标识符SV6和装置标识符SV8的每个被监测的装置200与带有装置标识符SV1至装置标识符SV4的每个被监测的装置200之间通信的延迟由于请求的拥塞被引起，该通信的延迟是在带有装置标识符SV1至装置标识符SV4的被监测的装置200中引起的。在这种情况下，对判断是检测到还是未检测到关于相关模型122中的每个共同的相关的相关破坏的结果，在其中引起了故障的带有装置标识符SV7的被监测的装置200和故障蔓延至的带有装置标识符SV5、装置标识符SV6和装置标识符SV8的被监测的装置200之间是不同的。

[0054] 因此，可以通过对判断是检测到还是未检测到与包括在每层的被监测的装置200中的每个共同的相关有关的相关破坏的结果进行比较，并且提取带有与其他的被监测的装置200的结果不同的结果的一个被监测的装置200，来识别应该是引起故障的候选者的被监测的装置200。

[0055] 群组信息存储单元113存储群组信息123。图8是示出根据本发明的第一示例性实施例的群组信息123的示例的框图。群组信息123包括标识群组的群组标识符和包括在该群组的被监测的装置200的装置标识符。

[0056] 设定群组信息123中的每个群组，以使得直接或间接地与另一共同的被监测的装置200连接的并且具有共同的相关(相关模型122是相似的)的被监测的装置200包括在相同群组。

[0057] 根据本发明的第一示例性实施例，图3中示出的层级系统中的每层被被设置为群组。根据图8中示出的示例，图3中示出的层级系统的Web服务器层、AP服务器层和DB服务器层被管理者等提前设置为带有群组标识符GP1、群组标识符GP2和群组标识符GP3的群组。

[0058] 故障分析单元105在群组信息123和相关破坏信息124的基础之上，通过对判断是检测到还是未检测到与包括在每个群组的被监测的装置200中的每个共同的相关有关的相关破坏的结果进行比较，来识别应该是引起故障的候选者(故障引起候选者)的被监测的装置200，并且将识别输出。

[0059] 此处，操作管理装置100可以包括CPU(中央处理器)和存储程序的存储介质，并且作为利用基于程序的控制进行操作的计算机来工作。另外，性能信息存储单元111、相关模型存储单元112、群组信息存储单元113和相关破坏存储单元114可以被安装进不同的存储介质或一个存储介质中。

[0060] 接下来，将描述根据本发明的第一示例性实施例的操作管理装置100的操作。

[0061] 图9是示出根据本发明的第一示例性实施例的操作管理装置100的整体处理的流程图。

[0062] 首先，操作管理装置100的相关模型产生单元102在性能信息存储单元111存储的性能序列信息121的基础之上，产生每个被监测的装置200的相关模型122。相关模型产生单元102使得相关模型存储单元112存储产生的相关模型122(步骤S101)。

[0063] 例如，相关模型产生单元102通过使用图4中示出的性能序列信息121，产生带有装置标识符SV1至装置标识符SV8的被监测的装置200的相关模型，如图5所示。

[0064] 接下来，相关破坏检测单元104通过使用从信息收集单元101新输入的性能信息以及相关模型存储单元112存储的相关模型122，检测与包括在每个被监测的装置200的相关模型122的相关有关的相关破坏。相关破坏检测单元104产生指示检测的相关的相关破坏信息124，并且使得相关破坏存储单元114存储相关破坏信息124(步骤S102)。

[0065] 例如，如图6所示，相关破坏检测单元104检测如图5中示出的带有装置标识符SV1至装置标识符SV8的被监测的装置200有关的相关破坏。

[0066] 接下来，故障分析单元105，通过对判断是检测到还是未检测到与包括由群组信息123指示的每个群组中的的被监测的装置200中的每个共同的相关(故障被检测到的位置)有关的相关破坏的结果进行比较，而确定带有与属于该群组的被监测的装置200的其他结果不同的结果的被监测的装置200是故障引起候选者(步骤S103)。

[0067] 此处，故障分析单元105计算对判断是检测到还是未检测到与每个群组的被监测的装置200中的每个共同的相关有关的相关破坏的结果的相似程度，并且确定相似程度等于或小于预定的值的被监测的装置200是故障引起候选者，或者确定以低相似程度顺序被选择的预定数量的被监测的装置200是故障引起候选者。关于用于计算相似程度的方法，任何方法都可适用，只要该方法可以对判断是检测到还是未检测到与多个相关模型122中的每个共同的相关有关的相关破坏的结果进行比较。

[0068] 例如，在其元素是对判断是检测到还是未检测到与每个共同的相关有关的相关破坏的结果的矢量和与属于群组的被监测的装置200有关的上述矢量的平均矢量之间的余弦类型的相似程度被用作相似程度的情况下，故障分析单元105通过使用如下所示的方程式1，计算与包括在该群组中的被监测的装置i有关的相似程度Si。

[0069] 【方程式1】

[0070]

[0071] 其中

[0072]

[0073] 与被监测的装置i的相关j有关的相关破坏：

[0074]

[0075] i＝1，2，…N(群组中被监测的装置的数量)

[0076] j＝1，2，…，M(相关的数量)

[0077] 图10是示出根据本发明的第一示例性实施例的计算对判断是检测到还是未检测到相关破坏的结果的相似程度的框图。

[0078] 例如，故障分析单元105计算在图6中示出的相关破坏的相似程度，如图10所示。此处，在四个被监测的装置200以低相似程度的顺序被选择并且被确定为故障引起候选者的情况下，故障分析单元105确定带有装置标识符SV5至装置标识符SV8的被监测的装置
200是故障引起候选者。

[0079] 注意到，优选的是，故障分析单元105通过对其元素是对判断是检测到还是未检测到相关破坏的结果的矢量和以预定的方法计算的参考矢量进行比较，而计算一致性程度，而非相似程度，并且故障分析单元105确定一致性程度等于或大于预定值的被监测的装置200是故障引起候选者，或确定以低一致性程度的顺序被选择的预定数量的被监测的装置200是故障引起候选者。在这种情况下，故障分析单元105例如通过计算方程式1中的其元素是对判断是检测到还是未检测到相关破坏的结果的矢量Bi(i＝1，…，N)的逻辑和，来计算参考矢量，并且在将每个矢量Bi的元素与参考矢量的元素进行比较时基于一致元素的数量来计算一致性程度。

[0080] 接下来，故障分析单元105将包括关于作为故障引起候选者的被监测的装置200的信息的故障分析结果130输出至显示单元106(步骤S104)。

[0081] 图11是示出根据本发明的第一示例性实施例的故障分析结果130的示例的框图。例如，故障分析单元105将图11中示出的故障分析结果130输出至显示单元106。根据图
11，故障分析结果130包括故障引起候选者列表131、相关破坏检测结果132和异常分数列表133。

[0082] 故障引起候选者列表131指示作为故障引起候选者的被监测的装置200的装置标识符，以及作为故障引起候选者的被监测的装置200的相似程度。作为故障引起候选者的带有装置标识符SV5至装置标识符SV8的被监测的装置200的装置标识符在图11的示例中以低相似程度的顺序被示出。

[0083] 相关破坏监测结果132指示了作为故障引起候选者的被监测的装置200中的对其检测到相关破坏的相关。根据图11中的示例，对其检测到相关破坏的相关与关于带有装置标识符SV7的被监测的装置200的性能类型一起被指示，该带有装置标识符SV7的被监测的装置200具有最低的相似程度并且被管理者等从故障引起候选者中选出。

[0084] 异常分数列表133指示了在作为故障引起候选者的被监测的装置200中、与对其检测到相关破坏的相关有关的性能类型和性能类型的异常分数。此处，计算指示关于性能类型的相关破坏的收敛程度的异常分数。异常分数例如以与专利文献1中描述的方法相似的方法来计算。根据图11中的示例，与带有装置标识符SV7的被监测的装置200中、对其检测到相关破坏的相关有关的性能类型以高异常分数的顺序来指示。

[0085] 通过参考由显示单元106显示的故障分析结果130，管理者可以识别应该是故障引起候选者的被监测的装置200和其中在被监测的装置200中引起相关破坏的收敛的性能类型，以作为用于调查故障的起因的对象。

[0086] 例如，通过参考图11中示出的故障分析结果130，管理者将带有装置标识符SV7的被监测的装置200识别为调查对象，并且因此管理者可以优先调查具有高异常分数的CPU的使用率。

[0087] 于是，根据本发明的第一示例性实施例的操作完成。

[0088] 接下来，将描述第一示例性实施例的特性配置。图1是示出根据本发明的第一示例性实施例的特性配置的框图。

[0089] 参考图1，操作管理装置100包括相关模型存储单元112、相关破坏检测单元104和故障分析单元105。

[0090] 此处，相关模型存储单元112针对多个被监测的对象中的每一个被检测的对象存储包括一个或多个相关函数的相关模型，每个相关函数指示多个性能值的类型中的一对性能值的类型的相关。

[0091] 相关破坏检测单元104通过将被监测的对象的输入的性能值应用于相关模型存储单元122存储的被监测的对象的相关模型122，而检测与包括在相关模型122的相关有关的相关破坏。

[0092] 故障分析单元105通过对判断是检测到还是未检测到与多个被监测的对象中的共同的相关有关的相关破坏的结果进行比较，而确定并输出应该是引起故障的候选者的被监测的对象，该多个被监测的对象直接或间接地与共同的装置或共同的被监测的对象连接并且具有包括共同的相关的相关模型122。

[0093] 根据本发明的第一示例性实施例，在相关模型122的相关破坏的基础之上检测系统故障的操作管理装置100即使在相关破坏在多个处理装置等中由于故障在系统中的蔓延而被检测到的情况下，也能够识别引起故障的候选者。原因是故障分析单元105通过对判断是检测到还是未检测到与多个被监测的装置200中的每个共同的相关有关的相关破坏的结果进行比较，来识别应该是引起故障的候选者的被监测的装置200，该多个被监测的装置200直接或间接地与共同的装置或共同的其他被监测的装置200连接并且具有包括共同的相关的相关模型122。

[0094] 根据本发明的第一示例性实施例，管理者等能够容易地识别在应该在作为引起故障的候选者的被监测的装置200中被优先调查的性能类型。原因是故障分析单元105将对其检测到相关破坏的相关与关于相关的性能值的类型关联地输出，该相关包括在被确定为引起故障的候选者的被监测的装置200的相关模型122中。

[0095] 尽管参考本发明的示例性实施例对本发明进行了具体地示出和描述，但是本发明并不限于这些实施例。本领域技术人员将理解可以对其中的形式和细节进行各种修改而不脱离权利要求所界定的本发明的精神和范围。

[0096] 例如，尽管根据本发明的第一示例性实施例，定义一个被监测的装置200为一个被监测的对象，产生相关模型122针对每个被监测的对象，并且确定应该是故障引起候选者的被监测的对象，但是本发明并不限于第一示例性实施例。多个被监测的对象可以被定义为一个被监测的对象。另外，可以提供被监测的装置200上的功能的逻辑组合单元，诸如在被监测的装置200上运作的虚拟机，可以被定义为一个被监测的对象。

[0097] 另外，尽管根据本发明的第一示例性实施例管理者等将层级系统的每一层设置到群组信息123作为群组，但是优选的是，操作管理装置100的群组信息产生单元(未在图中示出)以如下方式设置群组信息123：通过对直接或间接地与共同的装置或共同的其他被监测的装置200连接的多个被监测的装置200的相关模型122(例如，通过执行基于聚类算法的聚类)进行比较，以使得具有共同的相关(具有相似的相关模型122)的被监测的装置200被包括在相同群组。

[0098] 本申请是基于并要求来自2010年11月20日提交的第2010-282727号日本专利申请的优先权的权益，其公开以引用方式整体结合于此。

[0099] 参考标号列表

[0100] 100 操作管理装置

[0101] 101 性能信息收集单元

[0102] 102 相关模型产生单元

[0103] 104 相关破坏检测单元

[0104] 105 故障分析单元

[0105] 106 显示单元

[0106] 111 性能信息存储单元

[0107] 112 相关模型存储单元

[0108] 113 群组信息存储单元

[0109] 114 相关破坏存储单元

[0110] 121 性能序列信息

[0111] 122 相关模型

[0112] 123 群组信息

[0113] 124 相关破坏信息

[0114] 130 故障分析结果

[0115] 131 故障引起候选者列表

[0116] 132 相关破坏检测结果

[0117] 133 异常分数列表

[0118] 200 被监测的装置

[0119] 300 负载均衡器

操作管理装置、操作管理方法及其程序转让专利

申请号 : CN201180061282.0

文献号 : CN103262048B

文献日 : 2016-01-06

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 矢吹谦太郎

申请人 : 日本电气株式会社

摘要 :

权利要求 :

说明书 :