一种基于ITSM系统的智能运维服务方法及装置转让专利

申请号 : CN202310598179.4

文献号 : CN116582410B

文献日 : 2023-10-27

本发明提供了一种基于ITSM系统的智能运维服务方法及装置，涉及智能运维技术领域，包括：获取第一告警数据并进行数据解析，得到第一告警事件集合；获取涉及到的运维场景，确定重叠运维场景；分析同个重叠运维场景中每个第二告警事件的告警失误率，并获取同个重叠运维场景所包含的所有终端设备之间的部署关系；确定同个重叠运维场景下每个第二告警事件的事件根因；获取得到运维服务指示，对所述ITSM系统进行智能运维服务；提高了系统对告警数据的处理效率，进而提高了ITSM系统的运转效率。

1.一种基于ITSM系统的智能运维服务方法，其特征在于，包括：步骤1：获取ITSM系统在当下时间段内不满足预设系统标准的第一告警数据并进行数据解析，得到第一告警事件集合；

步骤2：获取第一告警事件集合中每个第一告警事件所涉及到的运维场景，并确定存在的重叠运维场景；

步骤3：对每个重叠运维场景所包括的第一告警事件做标记，记为第二告警事件，并分析同个重叠运维场景中每个第二告警事件的告警失误率，同时，获取同个重叠运维场景所包含的所有终端设备之间的部署关系；

步骤4：根据所述部署关系、告警失误率以及对应的第二告警数据，确定同个重叠运维场景下每个第二告警事件的事件根因；

步骤5：根据每个第二告警事件的事件根因以及每个单独运维场景下的第一告警事件的发生原因，获取得到运维服务指示，对所述ITSM系统进行智能运维服务。

2.如权利要求1所述的一种基于ITSM系统的智能运维服务方法，其特征在于，获取ITSM系统在当下时间段内不满足预设系统标准的第一告警数据并进行数据解析，得到第一告警事件集合，包括：获取ITSM系统在当下时间段内的所有运行数据，并筛选不满足预设系统标准的第一告警数据；

基于ITSM系统中的各终端设备的预置设备解析库，对第一告警数据进行第一解析，同时，基于ITSM系统的预置异常类型，对第一告警数据进行第二解析；

基于第一解析结果以及第二解析结果，建立第一告警事件集合。

3.如权利要求1所述的一种基于ITSM系统的智能运维服务方法，其特征在于，获取第一告警事件集合中每个第一告警事件所涉及到的运维场景，并确定存在的重叠运维场景，包括：确定同个第一告警事件所涉及到的每个待分析场景；

对同个待分析场景进行涉及事件次数的捕捉；

当捕捉次数大于1时，将对应待分析场景视为重叠运维场景；

否则，视为单独运维场景。

4.如权利要求1所述的一种基于ITSM系统的智能运维服务方法，其特征在于，对每个重叠运维场景所包括的第一告警事件做标记，记为第二告警事件，并分析同个重叠运维场景中每个第二告警事件的告警失误率，包括：提取同个重叠运维场景下的每个第二告警事件的事件特征，并从特征‑异常映射表中，确定对应第二告警事件的事件异常类型；

根据系统日志，确定同个重叠运维场景下的每个第二告警事件的发生时间区间，并根据场景‑类型‑边界映射表，确定对应事件异常类型的左分析边界以及右分析边界，并标注在对应发生时间区间的一致时间位置上，得到待分析区间；

根据如下公式对所述待分析区间进行均等划分，获取Y+1个子区间；

；其中，表示对所述待分析区间的划

分次数；表示待分析区间的区间值；表示参考区间的区间值；表示对应发生时间区间的区间值；表示取整符号；、a2为常数，且a1取值为0.3；a2为0.2；

统计每个子区间的告警数据类型以及每个告警数据类型对应的告警程度，并得到对应子区间的待判断内容；

对同个第二告警事件的所有历史发生区间中每个历史时间点下的告警数据进行一致性统计及分析；

根据一致性统计及分析结果，确定同个历史时间点的保守类型以及保守程度，并构建得到对应子区间的保守内容，其中，所述保守内容包括对应子区间内所包含的保守数据类型以及与每个保守数据类型对应的保守程度；

基于同个子区间的保守内容对相应的待判断内容进行真伪判断，并确定处对应子区间的真告警数量以及伪告警数量，并锁定对应子区间中第一个真告警数据的第一出现时刻t1、第一个伪告警数据的第二出现时刻t2以及最后一个告警数据的真伪性z0；

构建对应子区间的告警失效函数G(t1,t2,z0)；

若t1>t2，且z0为真，此时，G(t1,t2,z0)的取值为u01；

若t1>t2，且z0为伪，此时，G(t1,t2,z0)的取值为u02；

否则，G(t1,t2,z0)的取值为u03；

根据如下公式，计算对应第二告警事件中每个子区间的初始失误率：；其中，表示对应第二告警事件中第i1个子区间

的初始失误率；表示对应第二告警事件中第i1个子区间的伪告警数量；表示对应第二告警事件中第i1个子区间的真告警数量；

根据同个第二告警事件的所有初始失误率，确定对应第二告警事件的告警失误率P：；其中，max表示最大值符号；表示对应第

二告警事件的所有的平均值；表示对应第二告警事件的所有中的最大值；

表示对应第二告警事件的所有中的最小值；

基于所述告警失误率，确定对应第二告警事件的事件根因。

5.如权利要求1所述的一种基于ITSM系统的智能运维服务方法，其特征在于，获取同个重叠运维场景所包含的所有终端设备之间的部署关系，包括：获取同个重叠运维场景所包含的各个终端设备的资源传播图以及历史服务调用数据图；

根据获取结果，确定同个重叠运维场景下各个终端设备之间的部署关系。

6.如权利要求5所述的一种基于ITSM系统的智能运维服务方法，其特征在于，根据所述部署关系、告警失误率以及对应的第二告警数据，确定同个重叠运维场景下每个第二告警事件的事件根因，包括：获取每个第二告警事件对应的终端设备与对应的存在部署关系的其它终端设备的设备相似度，分析每个第二告警事件对应异常运行数据的传播情形；

其中，所述传播情形包括：设备之间的向下传播、向上传播以及不传播三种情形；

根据每个第二告警事件对应的传播情形，确定ITSM系统的故障传播图；

获取同个重叠运维场景下的所有历史根因，根据所述告警失误率以及对应的第二告警数据，确定每个第二告警事件的事件根因准确度；

；其中，K1表示确定对应第二告警

事件的事件根因准确度；表示对应第二告警事件的告警失误率；表示同个重叠运维场景下的所有历史根因所对应的历史告警数据；表示对应第二告警事件的第二告警数据；

表示交集符号；e表示常数，取值为2.7；ln表示对数函数符号；

当每个第二告警事件的事件根因准确度高于对应预设最小事件根因准确度时，根据所述故障传播图，确定对应第二告警事件的事件根因。

7.如权利要求1所述的一种基于ITSM系统的智能运维服务方法，其特征在于，根据每个第二告警事件的事件根因以及每个单独运维场景下的第一告警事件的发生原因，获取得到运维服务指示，对所述ITSM系统进行智能运维服务，包括：获取每个单独运维场景下的第一告警事件的发生原因，从运维服务指示库中筛选第一告警事件运维服务指示，同时，根据每个第二告警事件的事件根因，从事件根因‑运维服务指示映射表中，确定第二告警事件运维服务指示；

根据所述第一告警事件运维服务指示以及所述第二告警事件运维服务指示，对所述ITSM系统进行智能运维。

8.一种基于ITSM系统的智能运维服务装置，其特征在于，包括：告警解析模块：获取ITSM系统在当下时间段内不满足预设系统标准的第一告警数据并进行数据解析，得到第一告警事件集合；

运维定位模块：获取第一告警事件集合中每个第一告警事件所涉及到的运维场景，并确定存在的重叠运维场景；

运维分析模块：对每个重叠运维场景所包括的第一告警事件做标记，记为第二告警事件，并分析同个重叠运维场景中每个第二告警事件的告警失误率，同时，获取同个重叠运维场景所包含的所有终端设备之间的部署关系；

根因分析模块：根据所述部署关系、告警失误率以及对应的第二告警数据，确定同个重叠运维场景下每个第二告警事件的事件根因；

运维服务模块：根据每个第二告警事件的事件根因以及每个单独运维场景下的第一告警事件的发生原因，获取得到运维服务指示，对所述ITSM系统进行智能运维服务。

一种基于ITSM系统的智能运维服务方法及装置

技术领域

[0001] 本发明涉及智能运维技术领域，特别涉及一种基于ITSM系统的智能运维服务方法及装置。

背景技术

[0002] 目前，随着网络信息技术的快速发展，ITSM系统的规模不断扩大，其终端设备的数量不断增多且日益复杂，对终端设备的监控以及告警难度也不断增加，各个终端设备每天产生大量的无意义的告警数据，传统运维技术需要运维人员充分了解系统设备且亲自分析并处理这些告警数据，但由于运维人员的工作水平参差不齐，处理数据能力有限，进而导致工作效率较低，若运维人员未能及时正确的处理真正有效的告警数据，极易发生各个终端设备之间的故障转移，导致ITSM系统的运转效率急速降低。

[0003] 因此，本发明提供了一种基于ITSM系统的智能运维服务方法及装置。

发明内容

[0004] 本发明提供一种基于ITSM系统的智能运维服务方法及装置，用以通过获取第一告警数据并进行数据解析，得到第一告警事件集合；获取涉及到的运维场景，确定重叠运维场景；分析同个重叠运维场景中每个第二告警事件的告警失误率，并获取同个重叠运维场景所包含的所有终端设备之间的部署关系；确定同个重叠运维场景下每个第二告警事件的事件根因；获取得到运维服务指示，对所述ITSM系统进行智能运维服务；提高了系统对告警数据的处理效率，进而提高了ITSM系统的运转效率。

[0005] 本发明提供一种基于ITSM系统的智能运维服务方法，包括：

[0006] 步骤1：获取ITSM系统在当下时间段内不满足预设系统标准的第一告警数据并进行数据解析，得到第一告警事件集合；

[0007] 步骤2：获取第一告警事件集合中每个第一告警事件所涉及到的运维场景，并确定存在的重叠运维场景；

[0008] 步骤3：对每个重叠运维场景所包括的第一告警事件做标记，记为第二告警事件，并分析同个重叠运维场景中每个第二告警事件的告警失误率，同时，获取同个重叠运维场景所包含的所有终端设备之间的部署关系；

[0009] 步骤4：根据所述部署关系、告警失误率以及对应的第二告警数据，确定同个重叠运维场景下每个第二告警事件的事件根因；

[0010] 步骤5：根据每个第二告警事件的事件根因以及每个单独运维场景下的第一告警事件的发生原因，获取得到运维服务指示，对所述ITSM系统进行智能运维服务。

[0011] 优选的，获取ITSM系统在当下时间段内不满足预设系统标准的第一告警数据并进行数据解析，得到第一告警事件集合，包括：

[0012] 获取ITSM系统在当下时间段内的所有运行数据，并筛选不满足预设系统标准的第一告警数据；

[0013] 基于ITSM系统中的各终端设备的预置设备解析库，对第一告警数据进行第一解析，同时，基于ITSM系统的预置异常类型，对第一告警数据进行第二解析；

[0014] 基于第一解析结果以及第二解析结果，建立第一告警事件集合。

[0015] 优选的，获取第一告警事件集合中每个第一告警事件所涉及到的运维场景，并确定存在的重叠运维场景，包括：

[0016] 确定同个第一告警事件所涉及到的每个待分析场景；

[0017] 对同个待分析场景进行涉及事件次数的捕捉；

[0018] 当捕捉次数大于1时，将对应待分析场景视为重叠运维场景；

[0019] 否则，视为单独运维场景。

[0020] 优选的，对每个重叠运维场景所包括的第一告警事件做标记，记为第二告警事件，并分析同个重叠运维场景中每个第二告警事件的告警失误率，包括：

[0021] 提取同个重叠运维场景下的每个第二告警事件的事件特征，并从特征‑异常映射表中，确定对应第二告警事件的事件异常类型；

[0022] 根据系统日志，确定同个重叠运维场景下的每个第二告警事件的发生时间区间，并根据场景‑类型‑边界映射表，确定对应事件异常类型的左分析边界以及右分析边界，并标注在对应发生时间区间的一致时间位置上，得到待分析区间；

[0023] 根据如下公式对所述待分析区间进行均等划分，获取Y+1个子区间；

[0024] ；其中，表示对所述待分析区间的划分次数；表示待分析区间的区间值；表示参考区间的区间值；表示对应发生时间区间的区间值；表示取整符号；、a2为常数，且a1取值为0.3；a2为0.2；

[0025] 统计每个子区间的告警数据类型以及每个告警数据类型对应的告警程度，并得到对应子区间的待判断内容；

[0026] 对同个第二告警事件的所有历史发生区间中每个历史时间点下的告警数据进行一致性统计及分析；

[0027] 根据一致性统计及分析结果，确定同个历史时间点的保守类型以及保守程度，并构建得到对应子区间的保守内容，其中，所述保守内容包括对应子区间内所包含的保守数据类型以及与每个保守数据类型对应的保守程度；

[0028] 基于同个子区间的保守内容对相应的待判断内容进行真伪判断，并确定处对应子区间的真告警数量以及伪告警数量，并锁定对应子区间中第一个真告警数据的第一出现时刻t1、第一个伪告警数据的第二出现时刻t2以及最后一个告警数据的真伪性z0；

[0029] 构建对应子区间的告警失效函数G(t1,t2,z0)；

[0030] 若t1>t2，且z0为真，此时，G(t1,t2,z0)的取值为u01；

[0031] 若t1>t2，且z0为伪，此时，G(t1,t2,z0)的取值为u02；

[0032] 否则，G(t1,t2,z0)的取值为u03；

[0033] 根据如下公式，计算对应第二告警事件中每个子区间的初始失误率：

[0034] ；其中，表示对应第二告警事件中第i1个子区间的初始失误率；表示对应第二告警事件中第i1个子区间的伪告警数量；表示对应第二告警事件中第i1个子区间的真告警数量；

[0035] 根据同个第二告警事件的所有初始失误率，确定对应第二告警事件的告警失误率P：

[0036] ；其中，max表示最大值符号；表示对应第二告警事件的所有的平均值；表示对应第二告警事件的所有中的最大值；表示对应第二告警事件的所有中的最小值；

[0037] 基于所述告警失误率，确定对应第二告警事件的事件根因。

[0038] 优选的，获取同个重叠运维场景所包含的所有终端设备之间的部署关系，包括：

[0039] 获取同个重叠运维场景所包含的各个终端设备的资源传播图以及历史服务调用数据图；

[0040] 根据获取结果，确定同个重叠运维场景下各个终端设备之间的部署关系。

[0041] 优选的，根据所述部署关系、告警失误率以及对应的第二告警数据，确定同个重叠运维场景下每个第二告警事件的事件根因，包括：

[0042] 获取每个第二告警事件对应的终端设备与对应的存在部署关系的其它终端设备的设备相似度，分析每个第二告警事件对应异常运行数据的传播情形；

[0043] 其中，所述传播情形包括：设备之间的向下传播、向上传播以及不传播三种情形；

[0044] 根据每个第二告警事件对应的传播情形，确定ITSM系统的故障传播图；

[0045] 获取同个重叠运维场景下的所有历史根因，根据所述告警失误率以及对应的第二告警数据，确定每个第二告警事件的事件根因准确度；

[0046] ；其中，K1表示确定对应第二告警事件的事件根因准确度；表示对应第二告警事件的告警失误率；表示同个重叠运维场景下的所有历史根因所对应的历史告警数据；表示对应第二告警事件的第二告警数据；表示交集符号；e表示常数，取值为2.7；ln表示对数函数符号；

[0047] 当每个第二告警事件的事件根因准确度高于对应预设最小事件根因准确度时，根据所述故障传播图，确定对应第二告警事件的事件根因。

[0048] 优选的，根据每个第二告警事件的事件根因以及每个单独运维场景下的第一告警事件的发生原因，获取得到运维服务指示，对所述ITSM系统进行智能运维服务，包括：

[0049] 获取每个单独运维场景下的第一告警事件的发生原因，从运维服务指示库中筛选第一告警事件运维服务指示，同时，根据每个第二告警事件的事件根因，从事件根因‑运维服务指示映射表中，确定第二告警事件运维服务指示；

[0050] 根据所述第一告警事件运维服务指示以及所述第二告警事件运维服务指示，对所述ITSM系统进行智能运维。

[0051] 优选的，一种基于ITSM系统的智能运维服务装置，包括：

[0052] 告警解析模块：获取ITSM系统在当下时间段内不满足预设系统标准的第一告警数据并进行数据解析，得到第一告警事件集合；

[0053] 运维定位模块：获取第一告警事件集合中每个第一告警事件所涉及到的运维场景，并确定存在的重叠运维场景；

[0054] 运维分析模块：对每个重叠运维场景所包括的第一告警事件做标记，记为第二告警事件，并分析同个重叠运维场景中每个第二告警事件的告警失误率，同时，获取同个重叠运维场景所包含的所有终端设备之间的部署关系；

[0055] 根因分析模块：根据所述部署关系、告警失误率以及对应的第二告警数据，确定同个重叠运维场景下每个第二告警事件的事件根因；

[0056] 运维服务模块：根据每个第二告警事件的事件根因以及每个单独运维场景下的第一告警事件的发生原因，获取得到运维服务指示，对所述ITSM系统进行智能运维服务。

[0057] 本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

[0058] 下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

[0059] 附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

[0060] 图1为本发明实施例中一种基于ITSM系统的智能运维服务方法的流程图；

[0061] 图2为本发明实施例中第二告警事件的发生时间区间的示意图；

[0062] 图3为本发明实施例中各个终端设备之间部署关系的示意图；

[0063] 图4为本发明实施例中一种基于ITSM系统的智能运维服务装置。

具体实施方式

[0064] 以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

[0065] 本发明实施例提供一种基于ITSM系统的智能运维服务方法，如图1所示，包括：

[0066] 步骤1：获取ITSM系统在当下时间段内不满足预设系统标准的第一告警数据并进行数据解析，得到第一告警事件集合；

[0067] 步骤2：获取第一告警事件集合中每个第一告警事件所涉及到的运维场景，并确定存在的重叠运维场景；

[0068] 步骤3：对每个重叠运维场景所包括的第一告警事件做标记，记为第二告警事件，并分析同个重叠运维场景中每个第二告警事件的告警失误率，同时，获取同个重叠运维场景所包含的所有终端设备之间的部署关系；

[0069] 步骤4：根据所述部署关系、告警失误率以及对应的第二告警数据，确定同个重叠运维场景下每个第二告警事件的事件根因；

[0070] 步骤5：根据每个第二告警事件的事件根因以及每个单独运维场景下的第一告警事件的发生原因，获取得到运维服务指示，对所述ITSM系统进行智能运维服务。

[0071] 该实施例中，ITSM(IT Service Management，IT服务管理 )，它是一套帮助企业对IT系统的规划、研发、实施和运营进行有效管理的高质量方法。

[0072] 该实施例中，当下时间段是指ITSM系统最近一次运行的时间段，比如，从当下时刻至前推24小时的时间段即为ITSM系统的当下时间段。

[0073] 该实施例中，第一告警数据是指ITSM系统在当下时间段内的所有运行数据中不满足预设系统标准而产生的告警数据，其中，预设系统标准是预先设定好的，可以是某个运行参数的运行标准，比如，该运行参数的值a1大于预设值a0时，此时，就视为不满足预设系统标准，并将运行参数的值a1视为告警数据。

[0074] 该实施例中，数据解析是指根据ITSM系统的终端设备的预置设备解析库以及ITSM系统的预置异常类型，对第一告警数据进行解析分类处理，比如，某一第一告警数据a1，对其进行数据解析，得其为终端设备A1中的条件异常所导致的告警数据。

[0075] 该实施例中，第一告警事件集合是指第一告警数据对应的第一告警事件的集合，比如，第一告警数据a1、a2以及b2对应的第一告警事件为一集合，其中的告警事件指的是不满足预设系统标准所对应的触发事件，比如，根据告警数据导致的设备1上的器件001存在损坏的告警事件。

[0076] 该实施例中，运维场景是指解决ITSM系统中每个第一告警事件时所需的智能运维过程，比如部门A解决ITSM系统中的第一告警事件时所采取的智能运维过程，将其视为ITSM系统的某一运维场景。

[0077] 该实施例中，若第一告警事件仅涉及一个运维场景，则将其视为单独运维场景，比如，第一告警事件a1仅需部门A对其进行智能运维，第一告警事件a1被系统捕捉1次，则第一告警事件a1的智能运维过程为单独运维场景。

[0078] 否则，其为重叠运维场景，比如，第一告警事件b1，其需要部门A以及部门B对其进行智能运维，第一告警事件b1被系统捕捉2次，则第一告警事件b1的智能运维过程为重叠运维场景。

[0079] 该实施例中，第二告警事件是指对重叠运维场景中的第一告警事件进行标记的告警事件，比如，如图2所示，AB即为第二告警事件。

[0080] 该实施例中，同个重叠运维场景中每个第二告警事件的告警失误率是指系统在第二告警事件告警过程中产生的错误，比如，错误告警以及漏报告警。

[0081] 该实施例中，同个重叠运维场景所包含的所有终端设备之间的部署关系是指各个终端设备之间的资源传播关系以及服务调用关系，比如，如图3所示，设备A1A2之间存在部署关系。

[0082] 该实施例中，第二告警数据是指同个重叠运维场景下的每个第二告警事件所对应的告警数据。

[0083] 该实施例中，同个重叠运维场景下每个第二告警事件的事件根因是指导致该第二告警事件发生的真正故障原因。

[0084] 该实施例中，运维服务指示是用来调用ITSM系统为解决告警数据所制定的智能运维方式。

[0085] 上述技术方案的有益效果是：通过获取第一告警数据并进行数据解析，得到第一告警事件集合；获取涉及到的运维场景，确定重叠运维场景；分析同个重叠运维场景中每个第二告警事件的告警失误率，并获取同个重叠运维场景所包含的所有终端设备之间的部署关系；确定同个重叠运维场景下每个第二告警事件的事件根因；获取得到运维服务指示，对所述ITSM系统进行智能运维服务；提高了系统对告警数据的处理效率，进而提高了ITSM系统的运转效率。

[0086] 本发明实施例提供一种基于ITSM系统的智能运维服务方法，获取ITSM系统在当下时间段内不满足预设系统标准的第一告警数据并进行数据解析，得到第一告警事件集合，包括：

[0087] 获取ITSM系统在当下时间段内的所有运行数据，并筛选不满足预设系统标准的第一告警数据；

[0088] 基于ITSM系统中的各终端设备的预置设备解析库，对第一告警数据进行第一解析，同时，基于ITSM系统的预置异常类型，对第一告警数据进行第二解析；

[0089] 基于第一解析结果以及第二解析结果，建立第一告警事件集合。

[0090] 该实施例中，第一解析是指根据ITSM系统的各终端设备中的历史告警数据对第一告警数据进行解析，判断其属于哪一终端设备，比如，对第一告警数据a1进行第一解析，解析得其属于终端设备A1。

[0091] 该实施例中，预置异常类型包括：空间异常、条件异常以及漂移异常。

[0092] 该实施例中，第二解析是指根据ITSM系统的预置异常类型对第一告警数据进行解析，判断其属于哪一异常类型，比如，对第一告警数据a1进行第二解析，解析得其属于条件异常。

[0093] 上述技术方案的有益效果是：通过对第一告警数据进行第一解析以及第二解析，将告警数据进行可视化处理以及分类处理，提高了异常的检测效率，有利于系统运维高效率的处理告警数据。

[0094] 本发明实施例提供一种基于ITSM系统的智能运维服务方法，获取第一告警事件集合中每个第一告警事件所涉及到的运维场景，并确定存在的重叠运维场景，包括：

[0095] 确定同个第一告警事件所涉及到的每个待分析场景；

[0096] 对同个待分析场景进行涉及事件次数的捕捉；

[0097] 当捕捉次数大于1时，将对应待分析场景视为重叠运维场景；

[0098] 否则，视为单独运维场景。

[0099] 该实施例中，待分析场景是指同个第一告警事件所涉及到的运维场景，比如，第一告警事件b1涉及到运维场景1以及运维场景2，则运维场景1以及运维场景2即为待分析场景。

[0100] 上述技术方案的有益效果是：将待分析场景划分为单独运维场景以及重叠运维场景，有利于后续针对告警事件进行分析，提高对告警事件的分析准确度，确保系统运行的效率。

[0101] 本发明实施例提供一种基于ITSM系统的智能运维服务方法，对每个重叠运维场景所包括的第一告警事件做标记，记为第二告警事件，并分析同个重叠运维场景中每个第二告警事件的告警失误率，包括：

[0102] 提取同个重叠运维场景下的每个第二告警事件的事件特征，并从特征‑异常映射表中，确定对应第二告警事件的事件异常类型；

[0103] 根据系统日志，确定同个重叠运维场景下的每个第二告警事件的发生时间区间，并根据场景‑类型‑边界映射表，确定对应事件异常类型的左分析边界以及右分析边界，并标注在对应发生时间区间的一致时间位置上，得到待分析区间；

[0104] 根据如下公式对所述待分析区间进行均等划分，获取Y+1个子区间；

[0105] ；其中，表示对所述待分析区间的划分次数；表示待分析区间的区间值；表示参考区间的区间值；表示对应发生时间区间的区间值；表示取整符号；、a2为常数，且a1取值为0.3；a2为0.2；

[0106] 统计每个子区间的告警数据类型以及每个告警数据类型对应的告警程度，并得到对应子区间的待判断内容；

[0107] 对同个第二告警事件的所有历史发生区间中每个历史时间点下的告警数据进行一致性统计及分析；

[0108] 根据一致性统计及分析结果，确定同个历史时间点的保守类型以及保守程度，并构建得到对应子区间的保守内容，其中，所述保守内容包括对应子区间内所包含的保守数据类型以及与每个保守数据类型对应的保守程度；

[0109] 基于同个子区间的保守内容对相应的待判断内容进行真伪判断，并确定处对应子区间的真告警数量以及伪告警数量，并锁定对应子区间中第一个真告警数据的第一出现时刻t1、第一个伪告警数据的第二出现时刻t2以及最后一个告警数据的真伪性z0；

[0110] 构建对应子区间的告警失效函数G(t1,t2,z0)；

[0111] 若t1>t2，且z0为真，此时，G(t1,t2,z0)的取值为u01；

[0112] 若t1>t2，且z0为伪，此时，G(t1,t2,z0)的取值为u02；

[0113] 否则，G(t1,t2,z0)的取值为u03；

[0114] 根据如下公式，计算对应第二告警事件中每个子区间的初始失误率：

[0115] ；其中，表示对应第二告警事件中第i1个子区间的初始失误率；表示对应第二告警事件中第i1个子区间的伪告警数量；表示对应第二告警事件中第i1个子区间的真告警数量；

[0116] 根据同个第二告警事件的所有初始失误率，确定对应第二告警事件的告警失误率P：

[0117] ；其中，max表示最大值符号；表示对应第二告警事件的所有的平均值；表示对应第二告警事件的所有中的最大值；表示对应第二告警事件的所有中的最小值；

[0118] 基于所述告警失误率，确定对应第二告警事件的事件根因。

[0119] 该实施例中，第二告警事件的发生时间区间是指监测到告警数据到恢复正常的事件时间区间，比如，如图2所示，数据AB为系统记录的第二告警事件的数据，a1a2a3a4区间即为第二告警事件的发生时间区间。

[0120] 该实施例中，如图2所示，b1b2即为根据场景‑类型‑边界映射表，确定的对应事件异常类型的左分析边界；c1c2为根据场景‑类型‑边界映射表，确定的对应事件异常类型的右分析边界；b1b2c1c2区间即为待分析区间。

[0121] 该实施例中，每个子区间的告警数据类型包括：空间异常告警数据、条件异常告警数据、漂移异常告警数据以及伪告警数据，其中，空间异常告警数据、条件异常告警数据、漂移异常告警数据均为真告警数据，伪告警数据包括：漏报告警数据以及错报告警数据。

[0122] 该实施例中，每个告警数据类型对应的告警程度不同，比如，空间异常告警数据对应的告警程度为0.7，条件异常告警数据对应的告警程度为0.5，伪告警数据对应的告警程度为0.2。

[0123] 该实施例中，一致性统计及分析是指对同个第二告警事件的所有历史发生区间中每个历史时间点下的告警数据进行处理的过程，比如，同个第二告警事件的所有历史发生区间中每个历史时间点下的告警数据均包括空间异常告警数据、条件异常告警数据、漂移异常告警数据以及错报告警数据，则统计上述数据，同时，统计上述各类数据对应的告警程度一致的告警程度。

[0124] 该实施例中，对应子区间的保守内容是指经过一致性统计及分析后得到的正确的告警数据类型以及对应的正确告警程度，比如，同个历史时间点的保守类型包括：空间异常告警数据、条件异常告警数据以及错报告警数据；空间异常告警数据对应的保守程度为0.8，条件异常告警数据对应的保守程度为0.4，错报告警数据对应的保守程度为0.3。

[0125] 该实施例中，对应子区间的真告警数量以及伪告警数量是指通过同个子区间的保守内容对相应的待判断内容进行真伪判断后所得到的数据，比如，判断对应子区间的真告警数量为10，伪告警数量为20，第一个真告警数据的第一出现时刻为5，第一个伪告警数据的第二出现时刻为7，最后一个告警数据为伪告警数据。

[0126] 该实施例中，第二告警事件中每个子区间的初始失误率是指对每个子区间进行告警判断失误的可能性。

[0127] 该实施例中，第二告警事件的告警失误率是指根据每个子区间的初始失误率计算得到的对应第二告警事件的发生时间区间的告警失误率。

[0128] 该实施例中，若第二告警事件的告警失误率不大于0.2，则可以确定对应的第二告警事件的事件根因，比如第二告警事件的告警失误率为0.1，根据系统日志，初步确定对应的第二告警事件的事件根因可能为事件根因1。

[0129] 上述技术方案的有益效果是：通过对所述待分析区间进行均等划分，提高数据处理效率，通过计算告警失误率，初步确定对应的第二告警事件的事件根因，有利于后续判断以及制定相应的智能运维指示，提高运维效率。

[0130] 本发明实施例提供一种基于ITSM系统的智能运维服务方法，获取同个重叠运维场景所包含的所有终端设备之间的部署关系，包括：

[0131] 获取同个重叠运维场景所包含的各个终端设备的资源传播图以及历史服务调用数据图；

[0132] 根据获取结果，确定同个重叠运维场景下各个终端设备之间的部署关系。

[0133] 该实施例中，各个终端设备的资源传播图是指由ITSM系统中的各个终端设备所存储的历史资源数据、事件历史数据以及位置数据所确定的系统资源传播图。

[0134] 该实施例中，各个终端设备的历史服务调用数据图是指由系统跟踪并记录服务调用时的可能的服务调用链以及各个终端设备的服务交互关系所组成的服务调用数据图。

[0135] 该实施例中，同个重叠运维场景下各个终端设备之间的部署关系包括：终端设备互相影响部署关系、终端设备互不影响部署关系以及终端设备上下级部署关系，比如，如图3所示，终端设备A1A2为终端设备互相影响部署关系；终端设备A1A4为终端设备上下级部署关系，即终端设备A1会影响终端设备A4，而终端设备A4对终端设备A1无影响；终端设备A5A7为终端设备互不影响部署关系。

[0136] 上述技术方案的有益效果是：确定同个重叠运维场景下各个终端设备之间的部署关系，有利于分析各个终端设备发生故障时的故障传播可能性，提高系统对故障的定位能力，合理利用系统资源，确保各个终端设备的安全性。

[0137] 本发明实施例提供一种基于ITSM系统的智能运维服务方法，根据所述部署关系、告警失误率以及对应的第二告警数据，确定同个重叠运维场景下每个第二告警事件的事件根因，包括：

[0138] 获取每个第二告警事件对应的终端设备与对应的存在部署关系的其它终端设备的设备相似度，分析每个第二告警事件对应异常运行数据的传播情形；

[0139] 其中，所述传播情形包括：设备之间的向下传播、向上传播以及不传播三种情形；

[0140] 根据每个第二告警事件对应的传播情形，确定ITSM系统的故障传播图；

[0141] 获取同个重叠运维场景下的所有历史根因，根据所述告警失误率以及对应的第二告警数据，确定每个第二告警事件的事件根因准确度；

[0142] ；其中，K1表示确定对应第二告警事件的事件根因准确度；表示对应第二告警事件的告警失误率；表示同个重叠运维场景下的所有历史根因所对应的历史告警数据；表示对应第二告警事件的第二告警数据；表示交集符号；e表示常数，取值为2.7；ln表示对数函数符号；

[0143] 当每个第二告警事件的事件根因准确度高于对应预设最小事件根因准确度时，根据所述故障传播图，确定对应第二告警事件的事件根因。

[0144] 该实施例中，设备相似度是指存在部署关系的终端设备之间的设备数据的相似程度，比如，存在互相影响部署关系的终端设备A1A2之间，其资源利用率一致，则认为终端设备A1A2为相似终端设备，当终端设备A1发生故障异常时，其故障可能传播至终端设备A2中，因此每个第二告警事件对应的终端设备与对应的存在部署关系的其它终端设备的设备相似度越高，则需系统更快的定位解决故障。

[0145] 该实施例中，每个第二告警事件的事件根因准确度是指通过对告警失误率以及对应的第二告警数据来确定第二告警事件的事件根因的准确度，比如，预设最小事件根因准确度为0.8，若计算第二告警事件的事件根因为事件根因1的准确度为0.9，为事件根因2的准确度为0.6，则最终确定第二告警事件的事件根因为事件根因1。

[0146] 上述技术方案的有益效果是：获取各个终端设备的设备相似度，合理分配系统分析资源，最高效率的解决故障，避免发生故障转移，造成系统资源的损失；计算第二告警事件的事件根因准确度，有利于精准确定故障发生原因，从而匹配合适的运维指示，提高运维效率。

[0147] 本发明实施例提供一种基于ITSM系统的智能运维服务方法，根据每个第二告警事件的事件根因以及每个单独运维场景下的第一告警事件的发生原因，获取得到运维服务指示，对所述ITSM系统进行智能运维服务，包括：

[0148] 获取每个单独运维场景下的第一告警事件的发生原因，从运维服务指示库中筛选第一告警事件运维服务指示，同时，根据每个第二告警事件的事件根因，从事件根因‑运维服务指示映射表中，确定第二告警事件运维服务指示；

[0149] 根据所述第一告警事件运维服务指示以及所述第二告警事件运维服务指示，对所述ITSM系统进行智能运维。

[0150] 该实施例中，第一告警事件运维服务指示是指调用ITSM系统处理单独运维场景下的第一告警事件的智能运维服务方法的指令，比如，调用解决第一告警事件a1的智能运维服务方法的指令为第一告警事件运维服务指示1。

[0151] 该实施例中，事件根因‑运维服务指示映射表是指ITSM系统记录的运维处理事件根因所调用的运维服务指示，比如调用运维服务指示2解决条件异常的告警事件b1。

[0152] 该实施例中，第二告警事件运维服务指示是指调用ITSM系统处理重叠运维场景下的第二告警事件的智能运维服务方法的指令，比如，调用第二告警事件运维服务指示3解决重叠运维场景中属于条件异常的第二告警事件b2。

[0153] 上述技术方案的有益效果是：通过第一告警事件运维服务指示以及第二告警事件运维服务指示，智能运维处理各种运维场景下的告警数据，提高了ITSM系统的处理效率，确保了ITSM系统的有效运行。

[0154] 本发明实施例提供一种基于ITSM系统的智能运维服务装置，如图4所示，包括：

[0155] 告警解析模块：获取ITSM系统在当下时间段内不满足预设系统标准的第一告警数据并进行数据解析，得到第一告警事件集合；

[0156] 运维定位模块：获取第一告警事件集合中每个第一告警事件所涉及到的运维场景，并确定存在的重叠运维场景；

[0157] 运维分析模块：对每个重叠运维场景所包括的第一告警事件做标记，记为第二告警事件，并分析同个重叠运维场景中每个第二告警事件的告警失误率，同时，获取同个重叠运维场景所包含的所有终端设备之间的部署关系；

[0158] 根因分析模块：根据所述部署关系、告警失误率以及对应的第二告警数据，确定同个重叠运维场景下每个第二告警事件的事件根因；

[0159] 运维服务模块：根据每个第二告警事件的事件根因以及每个单独运维场景下的第一告警事件的发生原因，获取得到运维服务指示，对所述ITSM系统进行智能运维服务。

[0160] 上述技术方案的有益效果是：通过获取第一告警数据并进行数据解析，得到第一告警事件集合；获取涉及到的运维场景，确定重叠运维场景；分析同个重叠运维场景中每个第二告警事件的告警失误率，并获取同个重叠运维场景所包含的所有终端设备之间的部署关系；确定同个重叠运维场景下每个第二告警事件的事件根因；获取得到运维服务指示，对所述ITSM系统进行智能运维服务；提高了系统对告警数据的处理效率，进而提高系统的运行效率。

[0161] 显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

一种基于ITSM系统的智能运维服务方法及装置转让专利

申请号 : CN202310598179.4

文献号 : CN116582410B

文献日 : 2023-10-27

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 孙钦平 , 马嘉林 , 王锁成 , 潘超杰 , 崔方剑 , 胡英杰 , 王一超 , 朱华亭

申请人 : 青岛海信信息科技股份有限公司

摘要 :

权利要求 :

说明书 :