故障定位的方法及装置转让专利

申请号 : CN200510105558.7

文献号 : CN100586202C

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张蕾

申请人 : 华为技术有限公司

摘要 :

本发明公开了一种故障定位的方法和装置,该方法的核心为:首先,根据告警分析因素配置告警相关性数据;然后,基于配置的告警相关性数据对告警信息进行相关性分析,确定源告警;最后,根据确定的源告警进行故障定位处理。采用本发明所述的方法及装置,能够从大量的告警数据中迅速找到源告警,确定告警源,因此告警分析速度快,从而提高故障定位的效率;告警分析过程通过软件完成,出现遗漏、错误的可能性较小,因此告警分析数据可靠,从而提高了故障定位的准确性,而且大大降低了维护人员的工作量。

权利要求 :

1、一种故障定位的方法,其特征在于,包括如下步骤:

A、根据告警分析因素配置告警相关性数据,所述的告警分析因素包括: 告警类型和告警源和告警时间窗,所述的告警相关性数据包括:告警类型相 关性和告警源相关性和告警时间窗;

B、基于配置的告警相关性数据对告警信息进行相关性分析,确定源告 警;

所述步骤B包括:B1、选取一条告警类型已确定的告警信息作为当前告 警;B2、根据配置的告警相关性数据判断是否存在与所述当前告警类型相关 的告警,即当前告警的类型相关性告警,若不存在与所述当前告警类型相关 的告警,则将所述当前告警确定为源告警;B21、若存在与所述当前告警类型 相关的告警,根据配置的告警相关性数据判断所述当前告警与所述类型相关 性告警之间是否存在告警源相关性,若所述当前告警与所述类型相关性告警 之间不存在告警源相关性,则将所述当前告警确定为源告警;

C、根据确定的源告警进行故障定位处理。

2、根据权利要求1所述的方法,其特征在于,所述的步骤B21还包括:

B211、若所述当前告警与所述类型相关性告警之间存在告警源相关性, 根据配置的告警相关性数据判断所述当前告警与所述类型相关性告警的时间 差是否超过告警时间窗限定的时间长度,若所述当前告警与所述类型相关性 告警的时间差超过告警时间窗限定的时间长度,则将所述当前告警确定为源 告警。

3、根据权利要求2所述的方法,其特征在于,所述的步骤B211还包括:

若所述当前告警与所述类型相关性告警的时间差没有超过告警时间窗限 定的时间长度,则将所述类型相关性告警作为当前告警,并执行所述步骤 B2。

4、一种故障定位的装置,其特征在于,包括:告警相关性数据存储模 块、源告警确定模块和故障定位模块;

所述告警相关性数据存储模块,用于存储根据告警分析因素配置的告警 相关性数据,所述的告警分析因素包括:告警类型和告警源和告警时间窗, 所述的告警相关性数据包括:告警类型相关性和告警源相关性和告警时间 窗;

所述源告警确定模块,用于根据配置的告警相关性数据对告警信息进行 相关性分析,确定源告警;

所述源告警确定模块包括:类型相关性判断子模块,用于根据配置的告 警相关性数据判断是否存在与当前告警类型相关的告警,即当前告警的类型 相关性告警,若不存在与当前告警类型相关的告警,则将当前告警确定为源 告警;源相关性判断子模块,用于当所述类型相关性判断子模块的判断结果 为存在与当前告警类型相关的告警时,根据配置的告警相关性数据判断当前 告警与类型相关性告警之间是否存在告警源相关性,若当前告警与类型相关 性告警之间不存在告警源相关性,则将当前告警确定为源告警;

所述故障定位模块,用于根据所述源告警确定模块确定的源告警进行故 障定位处理。

5、根据权利要求4所述的装置,其特征在于,所述的源告警确定模块还 包括:

告警时间差判断子模块,用于当所述源相关性判断子模块的判断结果为 当前告警与类型相关性告警之间存在告警源相关性时,根据配置的告警相关 性数据判断当前告警与类型相关性告警的时间差是否超过告警时间窗限定的 时间长度,若当前告警与类型相关性告警的时间差超过告警时间窗限定的时 间长度,则将当前告警确定为源告警。

说明书 :

技术领域

本发明涉及通信技术领域,尤其涉及一种通讯设备中故障定位的方法及 装置。

背景技术

当通讯设备发生故障时,首先需要进行故障定位,然后才能排除故障使 设备恢复正常运行。因此,当通讯设备发生故障时,快速而准确地进行故障 定位是非常重要的。
故障定位首先要对通讯设备发生故障时会产生的告警进行分析,然后根 据分析的告警数据进行故障定位。
因此,在通讯设备的操作维护中心,当产生设备告警时,对告警进行的 管理是一个非常重要的功能,清晰而且及时的告警数据可以帮助维护人员迅 速进行故障定位。
目前的告警分析,都是由操作维护人员根据经验来完成的。然而在实际 应用中往往一个设备出现故障会引发相关的很多设备也出现故障,造成大量 的告警随之产生。因此,从大量的告警数据中迅速获得最有用的一条告警信 息,或者说怎样从大量的告警数据中迅速找到告警产生的根源或来源,基于 人为进行告警分析的故障定位的方式就存在如下缺点:
1、告警分析速度慢,导致故障定位的效率低下;
2、由于维护人员的经验、素质等方面存在差异,人为进行告警分析难免 会出现遗漏、错误,告警分析数据不可靠,导致故障定位的准确性差;
3、人为进行告警分析的工作量大。

发明内容

鉴于上述现有技术所存在的问题,本发明的目的是提供一种故障定位的 方法及装置,能够提高故障定位的效率和准确性,降低告警分析的工作量。
本发明的目的是通过以下技术方案实现的:
本发明提供了一种故障定位的方法,包括如下步骤:
A、根据告警分析因素配置告警相关性数据,所述的告警分析因素包括: 告警类型和告警源和告警时间窗,所述的告警相关性数据包括:告警类型相 关性和告警源相关性和告警时间窗;
B、基于配置的告警相关性数据对告警信息进行相关性分析,确定源告 警,所述的步骤B包括:B1、选取一条告警类型已确定的告警信息作为当前 告警;B2、根据配置的告警相关性数据判断是否存在与所述当前告警类型相 关的告警,即当前告警的类型相关性告警,若不存在与所述当前告警类型相 关的告警,则将所述当前告警确定为源告警;B21、若存在与所述当前告警类 型相关的告警,根据配置的告警相关性数据判断所述当前告警与所述类型相 关性告警之间是否存在告警源相关性,若所述当前告警与所述类型相关性告 警之间不存在告警源相关性,则将所述当前告警确定为源告警;
C、根据确定的源告警进行故障定位处理。
所述的步骤B21还包括:
B211、若所述当前告警与所述类型相关性告警之间存在告警源相关性, 根据配置的告警相关性数据判断所述当前告警与所述类型相关性告警的时间 差是否超过告警时间窗限定的时间长度,若所述当前告警与所述类型相关性 告警的时间差超过告警时间窗限定的时间长度,则将所述当前告警确定为源 告警。
所述的步骤B211还包括:
若所述当前告警与所述类型相关性告警的时间差没有超过告警时间窗限 定的时间长度,则将所述类型相关性告警作为当前告警,并执行所述步骤 B2。
本发明还提供了一种故障定位的装置,包括:
告警相关性数据存储模块、源告警确定模块和故障定位模块;
所述告警相关性数据存储模块,用于存储根据告警分析因素配置的告警 相关性数据,所述的告警分析因素包括:告警类型和告警源和告警时间窗, 所述的告警相关性数据包括:告警类型相关性和告警源相关性和告警时间 窗;
所述源告警确定模块,用于根据配置的告警相关性数据对告警信息进行 相关性分析,确定源告警;
所述的源告警确定模块包括:类型相关性判断子模块,用于根据配置的 告警相关性数据判断是否存在与当前告警类型相关的告警,即当前告警的类 型相关性告警,若不存在与当前告警类型相关的告警,则将当前告警确定为 源告警;源相关性判断子模块,用于当所述类型相关性判断子模块的判断结 果为存在与当前告警类型相关的告警时,根据配置的告警相关性数据判断当 前告警与类型相关性告警之间是否存在告警源相关性,若当前告警与类型相 关性告警之间不存在告警源相关性,则将当前告警确定为源告警;
所述故障定位模块,用于根据所述源告警确定模块确定的源告警进行故 障定位处理。
所述的源告警确定模块还包括:
告警时间差判断子模块,用于当所述源相关性判断子模块的判断结果为 当前告警与类型相关性告警之间存在告警源相关性时,根据配置的告警相关 性数据判断当前告警与类型相关性告警的时间差是否超过告警时间窗限定的 时间长度,若当前告警与类型相关性告警的时间差超过告警时间窗限定的时 间长度,则将当前告警确定为源告警。
由上述本发明提供的技术方案可以看出,采用本发明所述的方法及装置 具有如下优点:
1、能够从大量的告警数据中迅速找到源告警,确定告警源,因此告警分 析速度快,从而提高故障定位的效率;
2、告警分析过程通过软件完成,出现遗漏、错误的可能性较小,因此告 警分析数据可靠,从而提高了故障定位的准确性,而且大大降低了维护人员 的工作量;
3、利于迅速、准确地排除故障;
4、本发明实现方法简单易行,完全可以通过软件实现,能够很好地兼容 现有设备,硬件实现成本很低。

附图说明

图1为本发明所述的方法的流程图;
图2为本发明所述的装置的结构示意图。

具体实施方式

本发明的核心思想是:首先,根据告警分析因素配置告警相关性数据; 然后,基于配置的告警相关性数据对告警信息进行相关性分析,确定源告 警;并根据确定的源告警进行故障定位处理。
本发明中的告警分析因素包括但不限于告警类型、告警源及告警时间 窗,可以根据需要进行扩展,在告警分析过程中增加其他因素的分析步骤。
下面以告警类型、告警源及告警时间窗这三个告警分析因素为例说明本 发明的技术方案。
为了实施本发明的技术方案,需要将告警相关性数据预先配置于告警系 统中。
静态配置于告警系统中的告警相关性数据包括:告警类型相关性、告警 源相关性和告警时间窗。
为了更好地理解本发明的技术方案,下面再对与本发明有关的一些主要 术语进行说明:
告警类型:按照告警某一方面的特性或现象抽象出的共同点对告警进行 的分类。
比如,单板故障告警、机架故障告警,等等。
告警源:指告警产生的根源或来源。
比如,机架中的单板发生故障造成的告警,那么,机架中的单板故障就 是告警源。
源告警:指原始告警事件,源告警有可能触发其他一系列告警事件,也 可能不触发其他告警事件。
衍生告警:由原始告警事件触发的其他告警事件。
比如,单板故障告警引起了机架故障告警,那么,单板故障告警就是源 告警,机架故障告警就是衍生告警。
告警相关性:指告警之间存在某种联系或者牵涉,并且会造成告警间的 因果关系。
如果两个告警之间存在相关性,那么,这两个告警中有一个是源告警, 另一个是衍生告警。
告警类型相关性:指不同类型的告警之间存在某种联系或者牵涉,并且 会造成告警间的因果关系。
比如,单板故障告警可能会引发机架故障告警,因此,单板故障告警和 机架故障告警之间存在告警类型的相关性。
告警源相关性:指不同告警源之间存在某种联系或者牵涉,并且会造成 告警间的因果关系,包括但不限于告警源的同一关系、告警源的包含关系、 告警源的引用关系。
比如,同时发生了单板故障告警和机架故障告警,那么单板故障告警和 机架故障告警之间是否存在告警源的相关性,除了判断这两个告警之间存在 告警类型相关性,还要判断发生告警的单板是否属于发生告警的机架,如果 是,则单板故障告警和机架故障告警之间存在告警源的相关性,而且属于包 含关系的告警源相关性;否则,单板故障告警和机架故障告警之间不存在告 警源的相关性。
告警时间窗:衡量告警时间差的长度单位,可以根据实际需要自行设 定。
利用预先配置的告警相关性数据进行告警相关性分析的方法是:
首先选择一条告警作为当前告警进行分析,判断是否存在与当前告警类 型相关的告警;
如果当前告警存在告警类型相关性告警,则需要进一步判断这两条告警 是否存在告警源相关性;
如果这两条告警存在告警源相关性,则需要进一步判断这两条告警的告 警时间差是否落在告警时间窗内;
如果这两条告警的告警时间差落在了告警时间窗内,则认为这两条告警 为相关性告警,即类型相关性告警是当前告警的源告警,当前告警是类型相 关性告警的衍生告警。
为对本发明有进一步的了解,下面将结合附图对本发明所述的方法进行 详细的说明。
本发明所述方法的具体实现方式如图1所示,包括以下步骤:
步骤11:在众多的告警类型已确定的告警信息中选取一条重要的告警信 息作为当前告警进行告警相关性分析。
步骤12:根据预先配置在告警系统中的告警相关性数据判断是否存在与 当前告警类型相关的告警。
如果在现有的告警信息中存在与当前告警的类型相关的告警(将该告警 称为:当前告警的类型相关性告警),则执行步骤13;
否则,认为当前告警与其他告警之间不存在任何相关性,执行步骤16。
比如,当前告警类型为机架故障告警,在现有的告警信息中存在单板故 障告警信息,由于单板故障告警与机架故障告警属于类型相关性告警,因 此,当前告警存在类型相关性告警。
步骤13:根据预先配置的告警相关性数据判断当前告警与其类型相关性 告警之间是否存在告警源相关性。
如果当前告警与其类型相关性告警之间存在告警源相关性,则执行步骤 14;否则,认为当前告警与其他告警之间不存在相关性,执行步骤16。
仍以当前告警为机架故障告警,类型相关性告警为单板故障告警为例, 说明如何判断当前告警与其类型相关性告警之间是否存在源相关性。
判断发生告警的单板是否属于发生告警的机架,如果是,则单板故障告 警和机架故障告警之间存在告警源相关性;否则,单板故障告警和机架故障 告警之间不存在告警源相关性。
步骤14:根据预先配置的告警相关性数据判断当前告警与其类型相关性 告警的告警时间差是否落在告警时间窗内。
如果当前告警与其类型相关性告警的告警时间差落在告警时间窗内,即 告警时间差没有超过告警时间窗限定的时间长度,则认为当前告警与其类型 相关性告警之间存在相关性,这两条告警属于相关告警,即当前告警的类型 相关性告警是当前告警的源告警,反之,当前告警是其类型相关性告警的衍 生告警,因此,当前告警不是引发故障的原始原因,将其排除,并执行步骤 15;
如果当前告警与其类型相关性告警的告警时间差没有落在告警时间窗 内,即告警时间差超过了告警时间窗限定的时间长度,则认为当前告警与其 他告警之间不存在相关性,执行步骤16。
仍以当前告警为机架故障告警,其类型相关性告警为单板故障告警为 例,说明如何判断当前告警与其类型相关性告警之间是否存在相关性。
由于机架中的单板数量不只一个,所以虽然这两条告警之间存在告警源 相关性,但仍然不能确定该机架故障告警就是由该单板故障告警引起的,因 此,还需要判断这两条告警的时间差,如果告警时间差落在预先设定的告警 时间窗内,则认为这两条告警为相关性告警,该机架故障告警就是由该单板 故障告警引起的,因此,机架故障告警是单板故障告警的衍生告警,不是引 发故障的真正原因,将其排除,然后需要继续对其源告警,即单板故障告警 进行告警相关性分析,再找出其源告警。
步骤15:将当前告警的类型相关性告警作为当前告警,并返回步骤12, 继续对该告警(即类型相关性告警)进行告警相关性分析,找出该告警的源 告警,直到找出最终的源告警,即所有告警的源告警。
步骤16:确定当前告警为源告警,并执行步骤17。
当源告警确定后,也就找到了引发故障的原始原因,告警分析过程结 束。
当然,在实际应用中,引发故障的原始原因可能不只一个,此时,需要 重复进行告警分析的过程,直到将引发故障的所有原始原因全部找到。
步骤17:根据确定为源告警的当前告警进行故障定位。
故障定位后,就可以排除故障,从而使设备恢复正常运行,使业务得到 恢复。
本发明还提供了一种故障定位的装置,包括:告警相关性数据存储模 块、源告警确定模块和故障定位模块,如图2所示。各模块功能如下:
告警相关性数据存储模块的功能为:
存储根据告警分析因素配置的告警相关性数据。
所述故障定位模块,用于根据所述源告警确定模块确定的源告警进行故 障定位处理。
源告警确定模块的功能为:
根据配置的告警相关性数据对告警信息进行相关性分析,确定源告警。
故障定位模块的功能为:
根据源告警确定模块确定的源告警进行故障定位处理。
其中,源告警确定模块的功能由类型相关性判断子模块、源相关性判断 子模块和告警时间差判断子模块完成;
类型相关性判断子模块的功能为:
根据预先配置的告警相关性数据判断是否存在与当前告警类型相关的告 警,若不存在与当前告警类型相关的告警,则将当前告警确定为源告警。
源相关性判断子模块的功能为:
当类型相关性判断子模块的判断结果为存在与当前告警类型相关的告警 时,根据预先配置的告警相关性数据判断当前告警与类型相关性告警之间是 否存在告警源相关性,若当前告警与类型相关性告警之间不存在告警源相关 性,则将当前告警确定为源告警。
告警时间差判断子模块的功能为:
当源相关性判断子模块的判断结果为当前告警与类型相关性告警之间存 在告警源相关性时,根据预先配置的告警相关性数据判断当前告警与类型相 关性告警的时间差是否落在告警时间窗内,若当前告警与类型相关性告警的 时间差没有落在告警时间窗内,则将当前告警确定为源告警。
综上所述,采用本发明所述的方法及系统,能够从大量的告警数据中迅 速找到源告警,确定告警源,因此告警分析速度快,从而提高故障定位的效 率;告警分析过程通过软件完成,出现遗漏、错误的可能性较小,因此告警 分析数据可靠,从而提高了故障定位的准确性,而且大大降低了维护人员的 工作量。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可 轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明 的保护范围应该以权利要求的保护范围为准。