通信设备故障定位的方法和系统转让专利

申请号 : CN200610086709.3

文献号 : CN101047738B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨宾和霍大勇宋志新金雪锋康小波袁标耿建旭程力崔秀国潘海涛唐建勋

申请人 : 华为技术有限公司

摘要 :

一种通信设备故障定位的方法和系统,包括:获取设备各可现场更换单元内部测试信息;根据测试信息及描述通信设备的关联矩阵,搜寻与测试信息关联的所有单元电路;根据单元电路及关联矩阵,进一步搜索与单元电路集中单元电路关联的测试信息;由搜索到的单元电路集及测试信息集建立定位子矩阵;判断并记录定位子矩阵中工作状态为不正常的单元电路;根据FRU分析规则,对工作状态不正常的单元电路进行判断,并记录所对应的FRU。本发明将测试或告警信息与FRU的电路单元关联,自动定位出实际发生故障的FRU,克服了现有技术不能快速故障定位的缺陷,能自动地定位到FRU,解决了故障定位花费时间较长的问题,把故障直接定位到FRU。

权利要求 :

1.一种通信设备故障定位的方法,其特征在于,包括:

获取通信设备中可现场更换单元内部测试信息;

根据所述测试信息及描述通信设备中可现场更换单元内部各单元电路关联关系的关联矩阵,在所述关联矩阵中搜寻与所述测试信息对应的单元电路,得到单元电路集合;

根据所述单元电路集合搜索关联的测试信息,得到关联测试信息集;

根据所述单元电路集合及关联测试信息集建立由各单元电路集合与关联测试信息集构成的定位子矩阵;

查询所述定位子矩阵中各测试信息,查找并记录工作状态为不正常的单元电路;以及,查找到所述工作状态为不正常的单元电路中所对应的可现场更换单元。

2.根据权利要求1所述的方法,其特征在于:在查询所述定位子矩阵中各测试信息,查找并记录工作状态为不正常的单元电路之后,还进一步根据可现场更换单元分析规则,对工作状态为不正常的单元电路进行判断,并记录所述工作状态为不正常的单元电路所对应的可现场更换单元。

3.根据权利要求1或2所述的方法,其特征在于:所述查询所述定位子矩阵中各测试信息为:根据故障推理规则,搜索所述定位子矩阵中各测试信息表示工作状态为不正常的单元电路并进行记录的步骤,具体包括:从所述定位子矩阵中取出一未分析过的单元电路测试信息;

根据故障推理规则查询测试信息对所述单元电路进行判断;

如果所述单元电路工作状态为不正常,则记录所述单元电路;

重复上述的步骤,直到定位子矩阵中所有测试信息均分析完毕。

4.根据权利要求3所述的方法,其特征在于:所述根据故障推理规则查询测试信息对所述单元电路进行判断包括:如果测试信息为不合格,则将与所述测试信息关联的单元电路的状态设置为不可信状态;

如果测试信息为通过,则将与所述测试信息的关联关系为强相关的单元电路的状态设置为良好状态;

如果测试信息不是良好,且与所述测试信息相关的单元电路中存在唯一的状态不为良好的单元电路,则将所述单元电路的状态设置为故障状态;

如果一个单元电路与某一可现场更换单元内相关的所有测试信息的关联关系都为弱相关,且所有的这些测试信息的结果都为通过,则将所述的单元电路的状态设置为良好状态;

如果测试信息为不合格,且与所述测试信息相关的单元电路集合中所有单元电路都不为故障状态,则根据单元电路集合得到单元电路集合相关的测试集,确定符合测试集的最少的一组单元电路,并将该组单元电路的状态设置为有可能故障状态;

如果所述符合测试集的最少的一组单元电路组中只有一个单元电路,则将该单元电路状态设置为故障状态。

5.根据权利要求2所述的方法,其特征在于:所述根据可现场更换单元分析规则,对工作状态为不正常的单元电路进行判断,并记录所述工作状态为不正常的单元电路所对应的可现场更换单元的步骤具体包括:如果所述可现场更换单元中所有单元电路的状态都是良好,则将所述可现场更换单元的状态设置为良好;

如果所述可现场更换单元中只要存在状态为故障的单元电路,则将所述可现场更换单元的状态设置为故障;

如果可现场更换单元中存在有状态为可能故障的单元电路,且该状态为可能故障的单元电路同属一个故障组的单元电路完全属于该可现场更换单元,则将所述可现场更换单元的状态设置为故障;

如果可现场更换单元中存在有状态为可能故障的单元电路,且该状态为可能故障的单元电路同属一个故障组的单元电路不完全属于该可现场更换单元,且该可现场更换单元的状态不为故障,则将所述可现场更换单元的状态设置为可能故障;

如果可现场更换单元中存在有状态为不可信的单元电路,且所述可现场更换单元的状态不是故障或可能故障,则将可现场更换单元的状态设置为不可信状态;

如果可现场更换单元的所有测试信息为不合格的单元电路都属于该可现场更换单元,则设置该可现场更换单元的状态为故障。

6.根据权利要求1或2所述的方法,其特征在于,还包括:将记录所述工作状态为不正常的单元电路所对应的可现场更换单元信息返回给发出定位操作命令的设备的步骤。

7.根据权利要求1或2所述的方法,其特征在于,还包括对所述描述通信设备中可现场更换单元内部各单元电路关联关系的关联矩阵自动更新,构成新的关联矩阵的步骤:以所述可现场更换单元的单元电路、接口输入信号与测试及接口输出信号构成关联矩阵,并保留原可现场更换单元之间、单元电路之间以及可现场更换单元与单元电路之间的相关元素;

遍历关联矩阵中所有的单元电路,如果所述单元电路存在相关的接口输出信号,找到与接口输出信号存在连接关系的接口输入信号,递归搜索与接口输入信号相关的所有测试信号,在所述关联矩阵中存储相应单元电路与所述测试信号的相关元素;

删除关联矩阵中存在连接关系的接口输入信号元素与接口输出信号元素。

8.根据权利要求1或2所述的方法,其特征在于,在查找到所述工作状态为不正常的单元电路中所对应的可现场更换单元之后,还对所述工作状态为不正常的单元电路中所对应的可现场更换单元进行记录。

9.一种通信设备故障定位的系统,其特征在于:由测试适配单元、定位知识构造单元、可现场更换单元知识库、告警模块、测试模块、配置管理模块和推理机连接构成;其中:所述测试适配单元连接告警模块和测试模块,用于获取通信设备中可现场更换单元内部的告警信息和测试信息,并向和该测试适配单元连接的推理机发送;

所述定位知识构造单元连接可现场更换单元知识库、推理机和配置管理模块,用于根据推理机发送的测试信息、描述通信设备中可现场更换单元内部各单元电路关联关系的关联矩阵,在所述关联矩阵中搜寻与所述测试信息对应的单元电路,得到单元电路集合,进一步搜索关联的测试信息,建立由各单元电路集合与关联测试信息集构成的定位子矩阵,并向和该定位知识构造单元连接的推理机发送;

所述可现场更换单元知识库用于存储通信设备中可现场更换单元及其内部各单元电路的配置文件;

所述推理机接收定位操作命令,根据故障推理规则和可现场更换单元分析规则,查询定位子矩阵中各测试信息,查找并记录工作状态为不正常的单元电路;最终查找到所述工作状态为不正常的单元电路中所对应的可现场更换单元。

说明书 :

技术领域

本发明涉及一种故障自动定位技术,特别是一种通信设备故障定位的方法和系统,属于通信技术领域。

背景技术

器件失效、软件缺陷、线缆老化、人为错误等众多因素都会导致通信设备在运行过程中发生故障,通信设备提供的通信服务业务也会出现中断或异常。当通信设备发生故障时,应当尽快地对故障进行定位,以便尽快地排除故障,恢复通信设备的正常运行,保障通信设备能够正常地提供的通信服务业务。
故障定位的主要目的是为排除故障提供指导性信息。一般的要求是将故障定位到现场可更换单元(Field Replace Unit,以下简称为FRU),这些FRU通常为电路板、通信线缆等;故障定位通常并不关注故障的根本原因。为了降低平均修复时间,提高设备的可用度,故障定位所花费的时间应当尽可能地短。
通信设备在发生故障时,通常会表现出一定的故障症状,例如:通信服务业务中断、通信终端下载数据的速度变慢、话音质量明显降低等。通信设备在发生故障时会表现出何种故障症状,与通信设备的配置情况密切相关。通常,故障信息的获得主要有三种途径:设备或系统自动告警、使用通信业务用户的投诉、专业人员的测试。相对来说,通过设备或系统的自动告警是较为简单、快捷地获取故障信息的途径。因而故障定位一般都是从获取的告警信息着手,定位过程也主要是对告警信息的分析过程。
参见图1,一个故障定位系统通常包括定位知识(即专家经验,为故障症状与故障的关系)、事实(现场的故障症状、配置等)、推理(定位步骤、推理逻辑)分析三个基本构成要素。
故障定位的一般步骤包括:收集故障症状、配置等现场事实;(根据故障定位知识分析现场信息)初步确定故障范围及可能的故障;(根据故障定位知识深入分析现场信息)把故障范围缩小到可更换单元范围,甚至找出真正故障。为获得进一步的信息,定位过程中有时还需要执行一些测试。
在通信技术领域,对于故障定位技术的研究非常活跃;目前应用较为广泛的故障定位技术包括:人工分析方法、告警相关性分析方法、故障树分析方法(Fault Tree Analysis,以下简称FTA)。
当通信设备发生故障时,常常采用人工分析的方法来确定故障原因及范围。人工分析方法需要参与故障分析的工程师熟悉通信设备的电路关系、告警、定位程序等一系列技术信息,熟悉并具备专门的故障定位知识。在具体的定位过程中,工程师需要收集并查阅各种事实、信息,利用其掌握的定位知识,通过多次的推理,才能来完成故障的定位。对一些故障而言,如果告警信息很少,或者告警信息本身已经直接指示出有限的故障范围,依据这样的告警信息,工程师进行故障定位时,会较为容易找到故障的准确位置。如果告警信息很多,或者告警信息直接或间接指示的故障范围很广,工程师对故障的定位工作就会非常困难。
随着通信设备和通信网络规模及复杂度越来越大,参与故障定位工作的工程师通过技术、设备资料学习及工作实践来掌握的众多通信设备的故障定位知识存在困难。因此,采用人工分析方法,需要参与故障定位工作的工程师具有较高的技术能力,即使如此,对于故障定位的时间也会较长,难以满足高可用通信设备快速定位故障的要求,同时,故障定位的成本也会较高。
在由通信设备构成的通信网络中,当一个通信设备发生故障时,发生故障的通信设备以及与该通信设备相关联的其他通信设备都会发出告警,所有的告警汇集在一起,会形成庞大的告警信息。但是,在这些庞大的告警信息中,只有少量的告警信息是有关通信设备故障的根源告警,而绝大多数属于因根源告警的故障原因而产生的伴随告警。在通信网络中,这种伴随告警的数量往往会非常庞大,经常会大到将携带有反映故障原因的根源告警淹没掉的程度。
采用上述的告警相关性分析方法,需要根据通信设备中告警信息之间的相互关联关系,区分出根源告警及伴随告警。这样做的两个好处是:可以过滤掉告警信息中冗余的伴随告警,只把根源告警提取出来,达到减少告警信息处理工作量的目的;找到根源告警,可以把故障范围从通信网络或通信设备集中在和根源告警相关的一组FRU上,因此,可以缩小通信设备故障的查找范围。
但是,一个根源告警仍然会与多个FRU相关,即使在采用上述的告警相关性分析方法,将故障范围从通信网络或通信设备集中到和根源告警相关的一组FRU之上后,还需要采取其他分析方法才能把故障定位到真正出故障的FRU上,最终满足排除通信设备故障的需要。
因此,采用告警相关性分析方法,只能缩小故障定位的范围,无法直接、准确地确定故障位置。告警相关性分析方法还必须与其它分析方法相结合,才能最终找出故障的FRU;所以,采用告警相关性分析方法不是一个完整的故障定位方法。
采用故障树分析方法是工业界进行故障定位的经典方法。在通信领域中应用得较为广泛。在故障树分析方法中,故障分析系统可以将故障、故障症状构造为定位知识-故障树。经过简单的变换,就可以将故障树转化为故障定位树。故障定位树为不完全二叉树。在故障定位树中,每一个节点包含一个故障症状信息(测试信息或告警信息),不同的故障症状指向故障定位树中不同的子节点,故障定位树中的叶节点是故障,其他节点为故障症状。故障定位树中的任何一个由根到叶的分枝的含义是:expr(T1,T2,...)->/Fm。Ti表示故障症状信息,Fm表示故障。表达式的含义:F为T的函数,一组T唯一确定一个F。
对故障进行分析、推理的过程,就是通过对故障定位树的遍历,从典型的故障症状出发,根据每一个预设的其它故障症状确定下一步可以做出什么判断,以及如何做。故障定位树与定位知识、定位推理结合为一体,可以直观地反映正向的推理逻辑关系,与人的直接经验知识有直接的对应关系,便于理解和操作。
故障树分析方法依赖于通信设备的电路关系。只有当通信设备的电路关系确定时,才能获得故障树,进而使用故障树分析方法进行故障定位。当通信设备的电路关系发生变化时,需要重新构造上述的故障树。由于通信设备的电路关系通常都不是固定的,而具有动态性,构造故障树的工作只能在设备运行的现场进行。但是,通信设备复杂性导致故障树的逻辑结构复杂、严密,构造起来具有很大的难度,在对通信设备进行升级时,在通信设备运行现场重新构造故障树的难度就更大了。

发明内容

本发明的目的是:克服现有通信设备故障定位技术不能快速进行故障定位的缺陷,提供一种通信设备故障定位的方法和系统,能够自动地通信设备的故障定位到FRU,解决现有技术中故障定位所花费时间较长的问题。
具体而言,本发明通过如下的技术方案来实现本发明的目的:
首先,获取通信设备中可现场更换单元内部测试信息;然后,根据测试信息和描述通信设备中可现场更换单元内部各单元电路关联关系的关联矩阵,在该关联矩阵中搜寻与该测试信息对应的单元电路集合;
在完成上述的测试信息对应的单元电路集合搜寻之后,再进一步根据单元电路集合搜索关联的测试信息,得到关联测试信息集,建立由各单元电路集合及测试信息集合构成的定位子矩阵;最后,根据故障推理规则,搜索所述定位子矩阵中各测试信息表示工作状态为不正常的单元电路并进行记录;再根据可现场更换单元分析规则,对工作状态为不正常的单元电路进行判断,并记录所述工作状态为不正常的单元电路所对应的可现场更换单元。由此,完成了将发生告警或测试到的工作状态不正常的测试信息定位到具体的可现场更换单元的任务。
为了实现本发明的第二个目的,本发明还提供了如下的技术方案:提供一种通信设备故障定位的系统,所述系统设置在可现场更换单元或由可现场更换单元构成的通信设备中,主要由测试适配单元、定位知识构造单元、FRU知识库、告警模块、测试模块、配置管理模块和推理机连接构成;其中:
测试适配单元连接告警模块和测试模块,用于获取通信设备中可现场更换单元内部的告警信息和测试信息,并向和该测试适配单元连接的推理机发送;
定位知识构造单元连接FRU知识库、推理机和配置管理模块,用于根据推理机发送的测试信息、描述通信设备中可现场更换单元内部各单元电路关联关系的关联矩阵,在所述关联矩阵中搜寻与所述测试信息对应的单元电路,得到单元电路集合,进一步搜索关联的测试信息,建立由各单元电路集合与关联测试信息集构成的定位子矩阵,,并向和该定位知识构造单元连接的推理机发送;
FRU知识库用于存储的通信设备中可现场更换单元及其内部各单元电路的配置文件;
推理机接收定位操作命令,根据故障推理规则和可现场更换单元分析规则,查询定位子矩阵中各测试信息,查找并记录工作状态为不正常的单元电路;最终查找到所述工作状态为不正常的单元电路中所对应的可现场更换单元。
本发明的故障定位方法,通过将通信设备的故障或告警信息与可现场更换单元的电路单元进行关联,并构建基于电路单元的关联矩阵,同时,在发生故障告警或对通信设备进行测试时,根据按照上述方式构建的关联矩阵和检测到的信息找出对应的一个或多个单元电路,再进一步根据事先记载的、不同单元电路之间的管理关系、可现场更换单元以及通信设备的配置关系信息,自动地定位出实际发生故障或告警所在的可现场更换单元,克服了现有通信设备故障定位技术不能快速进行故障定位的缺陷,能够自动地通信设备的故障定位到FRU,解决了现有技术为故障定位所花费时间较长的问题。
本发明的通信设备故障定位的系统,基于通信设备故障信息以单元电路为基础的构建方式,克服了现有通信设备故障定位技术中定位知识构造困难的缺陷,能够适应自动、动态构造定位知识的需求,解决了现有技术中,通信设备或通信网络配置变化后,不能快速、自动构造故障定位信息的问题。本发明的故障定位方法和系统,把现有技术中通信设备故障定位的过程分解为基于定位单元电路故障的定位方式,实现了把故障直接定位到FRU的目的。

附图说明

图1为本发明中故障定位系统的组成要素示意图;
图2为本发明一FRU的结构示意图;
图3为本发明另一FRU的结构示意图;
图4为本发明一故障定位的流程图;
图5为本发明一故障定位系统的结构框图。

具体实施方式

为了能够清楚地描述本发明的技术方案,以下首先对作为本发明技术方案基础的通信设备配置信息进行介绍:
本发明涉及的通信设备,均由一个FRU或多个相互连接的FRU构成;构成这些FRU的部件,参见图2、图3,可以是能够完成基本电功能的电路单元,或由这些电路单元和FRU的组合。这些电路单元在故障定位时,尽管是需要关注的对象,但是,为了能在发生故障时迅速更换掉故障部件,使通信设备工作在良好的状态,对于通信网络管理人员而言,通常更加关心那些由电路单元构成的FRU。这些FRU,即故障定位所关心的物理实体可以是节点:故障定位所关心的物理实体,例如电路板、机框、子架、设备等。这些物理实体可以采用一种关联矩阵来描述其相互之间的关联关系。
图2所示的FRU1由电路单元11、12和13相互连接构成;其中,任何电路单元、测试信息与信号的关联关系都可以分别采用一个关联矩阵来描述。关联矩阵的横坐标用于表示一组输入信号或可测试模块或者其组合,纵坐标用于表示一测试信号或输出信号的关系。
参见表1,FRU1的电路单元11采用表1所列关联矩阵来表达,其中,F1-F3表示电路单元11中各个电路模块或该单元电路11的输入信号,T1-T4表示电路单元11中各个电路模块的测试信号以及该单元电路11的输出信号;以F1-F3为横坐标,T1-T4为纵坐标,构成电路单元11的关联矩阵。该关联矩阵中的各个元素值在该单元电路11制造完成时就存储在该单元电路11之中;其中,任意元素的值均表示该元素所在行Fm(1≤m≤3)与该元素所在列Tn(1≤n≤4)的相关性。参见表1,各个元素的取值可以为“0”,“1”或“1+”三种,其中,“1”表示Fm与Tn弱相关,即当Fm发生时Tn可能但不必然发生;取值“1+”表示Fm与Tn强相关,即当Fm发生时Tn必然发生;取值“0”表示Fm与Tn不相关,即两者之间无必然关系。
由与Fm相关的一组T为Fm的故障症状或者告警。如果Tn发生,则与Tn相关的一组F中必有一个F发生,即必有一个故障或告警发生。由此上述的关联矩阵如表1所示。以下的解释可以帮助理解这个关联矩阵所表示的信息:
假设F1、F2、F3分别表示电路单元11中防雷模块111、滤波模块112和输入信号IN;T1-T4分别表示电路单元11中的电压测试、防雷测试、第一路电压输出和第二路电压输出;由表1就可以看出:防雷模块111与电压测试之间的相关性为“0”,即表示:防雷模块111与电压测试之间无必然关系;同样,防雷模块111与防雷测试之间的相关性为“1+”,即表示:防雷模块111与防雷测试之间具有强相关性,防雷模块111发生故障,则必然会发生防雷测试的结果为不正常或故障的现象;依此类推,关联矩阵中其他元素所表达的相关性也可以用上述的关联矩阵得到。这个关联矩阵是该单元电路11制造的同时就生成,并保存在单元电路11之中。
                        表1

采用上述的关联矩阵可以用于描述任意的电路单元。这样做的好处是使用于进行故障定位的知识或信息设置在各个单元电路中,当需要将这些单元电路组合而构成一个FRU时,可以从各个单元电路中取出相关的关联信息构建整个FRU的关联矩阵。这是一个非常灵活的方式。
众所周知:在通信设备的配置改变,往往是通过改变单元电路或FRU来实现的,而FRU同样是由单元电路构成的。因此,将关联矩阵细化到单元电路后,即使通信设备被改变,也可以简单地通过上述的关联矩阵来自动地构造出新的故障定位信息。
参见表2-表5,它们给出了描述图2所示FRU1的所有电路单元11、12、13以及它们之间相互关联关系的关联矩阵。
表2  电路单元11  的关联矩阵  电路单元11  电压测试  电路单元11  防雷测试  电路单元11的  输出(IO1)  电路单元11  的输出(IO2)  电路单元11  防雷电路  0  1  1  1  电路单元11  滤波电路  0  0  1  1  电路单元11  输入信号  1  1  1  1
表3  电路单元12的关联矩阵  电路单元12  电压测试  电路单元12的  输出(OUT1)  电路单元12电源模块  1  1  电路单元12电压转换电路  1  1  电路单元12输入信号  1  1
表4  电路单元13的关  联矩阵  电路单元13  电压测试  电路单元13的输出  (OUT2)  电路单元13电源  模块  1  1  电路单元13电压  转换电路  1  1  电路单元13输入  信号  1  1
表5  电路单  元11电  压测试  电路单  元11防  雷测试  电路单元12  电压测试  电路单元12  电压测试  输出1  (OUT1  )  输出2  (OUT2  )  防雷电路111  0  1+  1  1  1  1  滤波电路112  0  0  1  1  1  1  电源模块121  0  0  1  0  1  0  电压转换122  0  0  1  0  1  0  电源模块131  0  0  0  1  0  1  电压转换132  0  0  0  1  0  1  输入信号IN  1  1  1  1  1  1
由上述表2-表5可以看出:各个单元电路11、12、13的输入信号和故障,可能会影响各个单元电路的测试状态及输出信号。因此,各个单元电路的故障、测试、输入信号、输出信号及相互关联关系构成了定位知识的几个要素。后级单元或模块的输入信号可以看作是前级单元电路故障在本节点入口处的映象;而前级单元或模块输出信号可以看作是后级单元电路测试在本电路单元出口处的映象。
单元电路自身的测试信息是有限的。仅仅利用单元电路自身的测试信息,常常难以定位出故障是发生在单元电路内还是单元电路之外。如果能够充分利用各单元电路的测试信息,所有故障都可以定位到单元电路范围。
图3所示是另一种形态FRU,即FRU2中包含有FRU1,与FRU1不同的是:FRU2还具有一个电路单元21,电路单元21由滤波模块211和电压转换模块212构成,其输入信号是IN1,输出信号是OUT3;有上述各个部件构成的FRU2,其关联矩阵的构成与上述FRU1的构成方式相同,在此不再赘述。
FRU在设计阶段就可以将其用于定位的关联矩阵建立好,并存储在相关的FRU中,由该FRU携带。该关联矩阵建立的方法如下:
确定FRU的单元电路及接口输入信号,并添加到关联矩阵中;确定FRU的测试及接口输出信号,也添加到关联矩阵矩阵中;遍历所有单元电路及接口输入信号,根据单元电路或接口输入信号对测试及接口输出信号的影响,确定它们之间的相关性,也将这些相关性的参数表达形式添加到关联矩阵中;最后,将把关联矩阵转化为FRU或FRU所在通信设备支持的数据配置文件。
由于FRU作为通信设备的基本组成单元,其电路配置是固定不变的,因此FRU的定位知识也是固定不变的。可以在FRU研发阶段构造定位知识;由于FRU是闭合的小系统。构造及验证定位知识时可以只关注FRU自身就可以,因此,定位知识的构造难度低。测试人员可以在FRU的验证阶段通过模拟故障来验证FRU定位知识是否正确,可以在FRU研发阶段验证定位知识,且验证方法简单;由于FRU定位知识可以很容易作为独立的设备配置数据进行升级,与其他配置数据没有耦合,升级容易、简单。最为重要的是:上述的这些特点,可以支持根据通信设备的FRU配置及FRU定位知识而自动、动态地构造设通信备定位知识。
为了能够基于上述的关联矩阵来实现对故障或报警信息的定位,本发明提供了如下的一个具体的实例,以帮助相关领域技术人员进一步理解本发明技术方案。
本发明故障定位的整体思路是:首先,根据当前的故障症状推理出可能故障的单元电路,然后再根据单元电路的状态,推理出可能故障的FRU。当然,在故障定位完成后,需要输出故障定位结果,以使故障能够尽快地被排除。
参见图4,本发明的具体实例中,需要先获取通信设备中FRU内部测试信息,这些测试信息反映了被测试的单元电路的功能或输出是否存在不合格状态;下一步就是根据这些测试信息以及保存在FRU内部,用于描述各单元电路关联关系的关联矩阵,在这些关联矩阵中搜寻与上述测试信息对应的单元电路集合。根据上面的介绍,一个FRU内部会存在若干个单元电路,每个单元电路都有与之相对应的关联矩阵,这些关联矩阵存储在FRU中。然后,再根据上述已经搜索的所述单元电路集合,搜索相关测试集,建立由各单元电路集合及关联测试信息集合构成的定位子矩阵;在定位子矩阵中,根据故障推理规则,找到定位子矩阵中工作状态为不正常的单元电路并进行记录;最后,根据在故障推理过程中找到的工作状态为不正常的单元电路和FRU分析规则,对工作状态为不正常的单元电路进行判断、分析,得到工作状态为不正常的单元电路所对应的FRU。
如果根据故障推理规则,在定位子矩阵中没有搜索到工作状态为不正常的单元电路,说明FRU中没有工作状态为不正常的单元电路,因此,在此情况下,就无需再执行判断并记录工作状态为不正常的单元电路所对应的FRU的操作。
为了在定位子矩阵中找到工作状态为不正常的单元电路并对其进行记录,需要执行如下的操作步骤:
首先,从定位子矩阵中取出一未分析过的测试信息;再根据事先确定的故障推理规则对单元电路进行判断;如果单元电路工作状态为不正常,则记录这个电路单元;重复上述的各个步骤,直到定位子矩阵中所有测试信息均分析完毕。通过这种在定位子矩阵中遍历的方式,就可以在上述关联矩阵的基础上,找到所有工作状态为不正常的单元电路。
上述的故障推理规则包括:
如果测试信息为不合格(FAIL),则将与所述测试信息关联的单元电路的状态设置为不可信(Suspect)状态;
如果测试信息为通过(PASS),则将与所述测试信息的关联关系为强相关的单元电路的状态设置为良好(GOOD)状态;
如果测试信息不是良好(GOOD),且与所述测试信息相关的单元电路中存在唯一的状态不为良好(GOOD)的单元电路,则将所述单元电路的状态设置为故障(BAD)状态;
如果一个单元电路与某一FRU内相关的所有测试信息的关联关系都为弱相关,且所有的这些测试信息的结果都为通过(PASS),则将所述的单元电路的状态设置为良好(GOOD)状态;
如果测试信息为不合格(FAIL),且与所述测试信息相关的单元电路集中所有单元电路都不为故障(BAD)状态,则根据单元电路集得到单元电路集相关的测试集,确定符合测试集的最少的一组单元电路(这组单元电路称为一个故障组),把故障组中的单元电路状态设置为有可能故障(PROBABLY)状态;
如果某故障组中只有一个单元电路,把该单元电路状态设置为故障(BAD)状态。
在找到并记录下单元电路的工作状态后,还需要进一步找到那些工作状态不是良好的单元电路所对应的FRU,这样才能最终将故障定位的工作完成。为了定位到上述的FRU,需要采用如下的判断步骤,这些步骤的顺序是可以任意改变的。这些步骤包括:
如果FRU中所有单元电路的状态都是良好(GOOD)状态,则将所述可现场更换单元的状态设置为良好(GOOD)状态;
如果FRU中只要存在状态为故障(BAD)状态的单元电路,则将FRU的状态设置为故障(BAD)状态;
如果可现场更换单元中存在有状态为可能故障(Probably)的单元电路,且该状态为可能故障(Probably)的单元电路同属一个故障组的单元电路完全属于该可现场更换单元,则将所述可现场更换单元的状态设置为故障(BAD)状态;
如果FRU中存在有状态为可能故障(Probably)的单元电路,且该状态为可能故障(Probably)的单元电路同属一个故障组的单元电路不完全属于该FRU,且该FRU的状态不为故障(BAD)状态,则将所述FRU的状态设置为可能故障(Probably)状态;
如果FRU中存在有状态为不可信(Suspect)的单元电路,且FRU的状态不是故障(BAD)或可能故障(Probably),则将FRU的状态设置为不可信(Suspect)状态;
如果FRU的所有测试信息为不合格(FAIL)的单元电路都属于该FRU,则设置该FRU的状态为故障(BAD)状态。
通常,一个对FRU定位的操作是应通信网络中一些节点,例如:网管设备,发出的定位命令而产生的;因此,当定位结束后,定位的结果信息应当返回给这些发出定位命令的节点。因此,本发明的一个实例还包括:将上述在定位过程中所记录的工作状态为不正常的单元电路所对应的FRU的信息返回给发出定位操作命令的设备的步骤;这种步骤,所属领域技术人员完全可以依据现有技术的知识而实现,例如:采用通信过程中的请求和响应的处理方法,在此不再赘述。
如上所述,在一个通信设备因升级或故障,更换了其中的FRU后,该通信设备中FRU的关联矩阵则需要进行更新,以满足在新的配置情况下,对通信设备进行故障定位的需要。因此,本发明还提供了一个自动更新关联矩阵的技术方案,具体的一个实例包括如下的步骤:
首先,以FRU的单元电路、接口输入信号与测试、接口输出信号构成通信设备关联矩阵,并保留原FRU之间、单元电路之间以及FRU与单元电路之间的相关元素;
然后,遍历通信设备关联矩阵中所有的单元电路,如果单元电路存在相关的接口输出信号,则找到与接口输出信号存在连接关系的接口输入信号,采用递归搜索的方式,搜索与接口输入信号相关的所有测试信号,在通信设备关联矩阵中存储相应单元电路与测试信号的相关元素;
最后,删除通信设备关联矩阵中存在连接关系的接口输入信号元素与接口输出信号元素,形成新的通信设备关联矩阵。
与上述技术方案相对应,本发明还提供了一个通信设备故障定位的系统的实例,以帮助相关技术领域技术人员对本发明的系统的理解。
参见图5,该系统S一般设置在FRU中,也可以设置在由FRU构成的通信设备中,主要由测试适配单元S1、定位知识构造单元S3、FRU知识库S4和推理机S2连接构成;其中:
测试适配单元S1连接告警模块S11和测试模块S12,用于获取告警信息和测试信息,并向和该测试适配单元S1连接的推理机S2发送;
知识构造单元S3连接FRU知识库S4和配置管理模块S31,用于构造描述通信设备中FRU内部各单元电路关联关系的关联矩阵,并向和该知识构造单元S3连接的推理机S2发送;
FRU知识库S4用于存储的通信设备中FRU及其内部各单元电路的配置文件;
推理机S2接收故障定位节点S21发出的操作命令,根据故障推理规则和FRU分析规则,对存在故障的FRU进行定位,具体参见上述的定位方法,在此不再赘述。
事实上,告警模块S11、测试模块S12和配置管理模块S31是现有技术中存在的功能单元,但是,由于前述现有技术中这些模块发出的信息并未能够合理地使用,造成了上述种种故障定位的问题。本发明的系统中,测试适配单元S1将警模块S11、测试模块S12发来的测试信息整理后,才发送给推理机S2,而这里所述的测试信息整理就是上述获取通信设备中可现场更换单元内部的告警信息和测试信息的操作,具体参见上述的定位方法的介绍;同样,由知识构造单元S3将FRU知识库的信息和配置管理模块S31进行匹配后送入推理机S2;这一过程即是上述根据推理机发送的测试信息、描述通信设备中可现场更换单元内部各单元电路关联关系的关联矩阵,在所述关联矩阵中搜寻与所述测试信息对应的单元电路,得到单元电路集合,以及进一步搜索关联的测试信息,建立由各单元电路集合与关联测试信息集构成的定位子矩阵的操作。在整理好的测试信息和匹配好的FRU知识的基础上,推理机S2根据推理规则,查询定位子矩阵中各测试信息,查找并记录工作状态为不正常的单元电路;最终查找到所述工作状态为不正常的单元电路中所对应的可现场更换单元,得到相应的故障分析结果。
一般而言,一个对FRU定位的操作是应通信网络中一些节点,例如:网管设备,发出的定位命令而产生的;因此,当定位结束后,定位的结果信息应当返回给这些发出定位命令的节点。因此,本发明系统的实例中,还包括一个故障定位节点S21,在推理机完成定位推理工作后,会将上述在定位过程中所记录的工作状态为不正常的单元电路所对应的FRU的信息返回给发出定位操作命令的设备;这种交互的过程是所属领域技术人员可以依据现有技术的知识就能实现的,例如:采用通信过程中的请求和响应的处理方法,在此不再赘述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对本发明作限制性理解。尽管参照上述较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这种修改或者等同替换并不脱离本发明技术方案的精神和范围。