故障分析方法及相关设备转让专利

申请号 : CN201780094808.2

文献号 : CN111108481B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张瑞荣姚满海李翠琴石俊杰

申请人 : 华为技术有限公司

摘要 :

本发明实施例公开了故障分析方法及相关设备,其中方法包括:故障检测设备获取故障描述信息,其中,所述故障描述信息用于描述故障设备的故障现象;故障检测设备根据所述故障现象遍历故障树,从而获得所述故障设备的故障原因,其中,所述故障树反映了所述故障现象与所述故障原因的对应关系。采用本发明实施例,能够利用故障树准确地分析并定位故障设备的故障原因,提升故障检测效率,降低故障维护成本,提升用户体验。

权利要求 :

1.一种故障分析方法,其特征在于,所述方法包括:故障检测设备获取故障描述信息,其中,所述故障描述信息用于描述故障设备的故障现象;

故障检测设备根据所述故障现象遍历故障树,从而获得所述故障设备的故障原因,其中,所述故障树反映了所述故障现象与所述故障原因的对应关系;

所述故障树被单独设置在配置文件中,其中,所述配置文件能够通过有线或者无线的方式单独被更新;所述故障树包括故障现象节点以及多层分布的故障原因节点,其中,中间层的故障原因节点用于指示导致发生所述故障现象的中间原因,底层的故障原因节点用于指示导致发生所述故障现象的根本原因;

所述多层分布的故障原因节点中的每个故障原因节点均具有对应的故障判定规则,其中,所述故障判定规则用于判定对应的故障原因节点指示导致发生所述故障现象的原因的正确性;所述故障判定规则被单独设置在所述配置文件中;

所述故障判定规则跟故障检测工具代码解耦,所述故障树与所述故障检测工具代码解耦。

2.根据权利要求1所述的方法,其特征在于,所述故障判定规则包括以下中的至少一项:告警类规则、命令类规则、日志类规则、性能类规则。

3.根据权利要求1所述的方法,其特征在于,所述故障现象节点以及多层分布的故障原因节点中的至少一个节点是用预先编码好的编码字符表征的,不同的节点对应不同的编码字符。

4.根据权利要求1所述的方法,其特征在于,所述故障树是用户根据经验累积,通过可视化编辑界面进行编辑和存储所得的。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:故障检测设备根据所述故障原因推荐与所述故障原因对应的故障维修建议。

6.根据权利要求1至5任一项权利要求所述的方法,其特征在于,所述故障原因包括以下中的至少一项:元件失效、环境影响、软件缺陷、人为失误、系统失效。

7.一种故障检测设备,其特征在于,包括通信单元和处理单元,所述通信单元用于获取故障描述信息,其中,所述故障描述信息用于描述故障设备的故障现象;

所述处理单元用于根据所述故障现象遍历故障树,从而获得所述故障设备的故障原因,其中,所述故障树反映了所述故障现象与所述故障原因的对应关系;

所述故障树被单独设置在配置文件中,其中,所述配置文件能够通过有线或者无线的方式单独被更新;所述故障树包括故障现象节点以及多层分布的故障原因节点,其中,中间层的故障原因节点用于指示导致发生所述故障现象的中间原因,底层的故障原因节点用于指示导致发生所述故障现象的根本原因;所述多层分布的故障原因节点中的每个故障原因节点均具有对应的故障判定规则,其中,所述故障判定规则用于判定对应的故障原因节点指示导致发生所述故障现象的原因的正确性;所述故障判定规则被单独设置在所述配置文件中;

所述故障判定规则跟故障检测工具代码解耦,所述故障树与所述故障检测工具代码解耦。

8.根据权利要求7所述的故障检测设备,其特征在于,所述故障判定规则包括以下中的至少一项:告警类规则、命令类规则、日志类规则、性能类规则。

9.根据权利要求7所述的故障检测设备,其特征在于,所述故障现象节点以及多层分布的故障原因节点中的至少一个节点是用预先编码好的编码字符表征的,不同的节点对应不同的编码字符。

10.根据权利要求7所述的故障检测设备,其特征在于,所述故障树是用户根据经验累积,通过可视化编辑界面进行编辑和存储所得的。

11.根据权利要求7所述的故障检测设备,其特征在于,所述处理单元还用于根据所述故障原因推荐与所述故障原因对应的故障维修建议。

12.根据权利要求7至11任一权利要求所述的故障检测设备,其特征在于,所述故障原因包括以下中的至少一项:元件失效、环境影响、软件缺陷、人为失误、系统失效。

13.一种故障检测设备,其特征在于,包括存储器、通信接口及与所述存储器和通信接口耦合的处理器;所述存储器用于存储指令,所述处理器用于执行所述指令,所述通信接口用于在所述处理器的控制下与故障设备进行通信;其中,所述处理器执行所述指令时执行如权利要求1至6任一项所述方法。

14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法。

说明书 :

故障分析方法及相关设备

技术领域

[0001] 本发明涉及终端技术领域,尤其涉及故障分析方法及相关设备。

背景技术

[0002] 对于终端设备而言,设备故障是客观存在的,随机发生的。目前,在设备使用过程中如果出现了问题,用户通常会拿到维修网点进行维修。维修工程师一般会根据用户反馈
的故障现象利用相应地维修检测工具进行检测和维修,这种方法在现阶段工具维修检测能
力还不是很完善的情况下,对维修工程师的经验依赖性很大。尤其对于一些复杂故障而言,
维修人员往往一筹莫展,无法快速定位故障发生的原因,需返厂维修。这样故障检测率低、
维修时间长,直接影响产品上市后的服务体验。
[0003] 为解决上述问题,现有技术采用的是针对网点检测失败的故障机,由研发和维修工程事联合分析解决,再把分析能力集成到故障检测工具中,经过一代代产品循环迭代改
进。在技术实现上,当前主要以抓取故障机日志分析的手段为主。这种方案,因为日志种类
多,且日志内容结构复杂,解析效率低;另外因为研发新增检测方案、变更原有检测方案无
法及时体现到故障检测工具,导致工具检测能力不完善,网点的故障分析效率低。

发明内容

[0004] 本发明实施例提供了故障分析方法及相关设备,利用故障树理论快速、准确分析定位故障设备的故障原因,并在此基础上,提出采用故障编码定界、故障关联检测技术,有
效提升故障分析效率,降低人力维护成本,即降低设备维修成本。
[0005] 第一方面,本发明实施例提供了一种故障分析方法,包括:
[0006] 故障检测设备获取故障描述信息,其中,所述故障描述信息用于描述故障设备的故障现象;
[0007] 故障检测设备根据所述故障现象遍历故障树,从而获得所述故障设备的故障原因,其中,所述故障树反映了所述故障现象与所述故障原因的对应关系。
[0008] 在一些可能的实施例中,所述故障树被单独设置在配置文件中,其中,所述配置文件能够通过有线或者无线的方式单独被更新。
[0009] 在一些可能的实施例中,所述故障树包括故障现象节点以及多层分布的故障原因节点,其中,中间层的故障原因节点用于指示导致发生所述故障现象的中间原因,底层的故
障原因节点用于指示导致发生所述故障现象的根本原因。
[0010] 在一些可能的实施例中,所述故障现象节点以及所述故障原因节点可用故障编码标识,所述故障编码用于指示节点上导致所述故障现象发生的中间原因或根本原因。
[0011] 在一些可能的实施例中,所述多层分布的故障原因节点中的每个故障原因节点均具有对应的故障判定规则,其中,所述故障判定规则用于判定对应的故障原因节点指示导
致发生所述故障现象的依据。
[0012] 在一些可能的实施例中,所述故障判定规则包括以下中的至少一项:告警类规则、命令类规则、日志类规则、性能类规则。
[0013] 在一些可能的实施例中,所述故障判定规则是由以下中的至少一项组成:故障原因节点、影响参数以及逻辑关系,该逻辑关系包括所述故障原因节点与所述影像参数之间
的逻辑关系,和/或所述影响参数之间的逻辑关系,所述影响参数用于判定所述故障原因节
点发生所述故障现象的依据。
[0014] 在一些可能的实施例中,所述故障现象节点以及多层分布的故障原因节点中的至少一个节点是用预先编码好的编码字符表征的,不同的节点对应不同的编码字符。
[0015] 在一些可能的实施例中,所述故障树是用户根据经验累积,通过可视化编辑界面进行编辑和存储所得的。
[0016] 在一些可能的实施例中,所述方法还包括:故障检测设备根据所述故障原因推荐与所述故障原因对应的故障维修建议。
[0017] 在一些可能的实施例中,所述故障原因包括以下中的至少一项:元件失效、环境影响、软件缺陷、人为失误、系统失效。
[0018] 在一些可能的实施例中,所述故障树为N叉树,其中N为正整数。
[0019] 在一些可能的实施例中,所述故障树还可进一步通过关联检测所设计出。具体的,可将不同领域中能导致相同或相似故障现象的故障节点(即事件或故障原因节点)增加到
所述故障树上。以性能故障(卡顿、反应慢、不流畅)为例,在不同领域中导致系统出现卡顿、
反应慢、不流畅的问题还可是由以下原因中的任一项或多项的组合所导致的:系统资源类
的问题、器件类的问题(器件老化)、应用本身出现bug等等原因。
[0020] 第二方面,本发明实施例提供了一种故障检测设备,包括用于执行上述第一方面的方法的功能单元。
[0021] 第三方面,本发明实施例提供了一种故障检测设备,包括存储器、通信接口及与所述存储器和通信接口耦合的处理器;所述存储器用于存储指令,所述处理器用于执行所述
指令,所述通信接口用于在所述处理器的控制下与其他终端设备进行通信;其中,所述处理
器执行所述指令时执行上述第一方面描述的方法。
[0022] 第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储了用于故障分析的程序代码。所述程序代码包括用于执行上述第一方面描述的方法的指令。
[0023] 第五方面,提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面描述的方法。
[0024] 通过实施本发明实施例,能够利用故障树准确地分析并定位故障设备的故障原因,提升故障检测效率,降低故障维护成本,提升用户体验。

附图说明

[0025] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
[0026] 图1是本发明实施例提供的一种马达驱动电路示意图;
[0027] 图2是本发明实施例提供的一种马达故障树的示意图;
[0028] 图3是本发明实施例提供的一种相机故障树的示意图;
[0029] 图4是本发明实施例提供的一种稳定性故障树的示意图;
[0030] 图5是本发明实施例提供的一种性能故障树的示意图;
[0031] 图6是本发明实施例提供的一种可视化检测规则编辑界面示意图;
[0032] 图7是本发明实施例提供的又一种可视化检测规则编辑界面示意图;
[0033] 图8是本发明实施例提供的一种故障树的示意图;
[0034] 图9是本发明实施例提供的一种故障分析方法的流程示意图;
[0035] 图10A是本发明实施例提供的一种终端设备的结构示意图;
[0036] 图10B是本发明实施例提供的又一种终端设备的结构示意图。

具体实施方式

[0037] 下面将结合本发明的附图,对本发明实施例中的技术方案进行详细描述。
[0038] 本申请的发明人在提出本申请的过程中发现,现有技术中为实现对设备故障的故障原因的确定以获知,采用以下两种方案。
[0039] 第一种方案中,依赖维修工程师的经验,增加人力成本的同时维修时间也过长,特别是针对一些复杂故障而言,维修工程师无法依赖经验准去获知故障原因,故障检测率较
低,延长设备维修时间。
[0040] 第二种方案中,通过分析设备的日志记录,结合维修工程师的诊断分析,从而定位设备的故障原因以及输出相应地解决方案,处理效率较低,且增加人力成本。
[0041] 为解决上述问题,本申请提出基于故障树来快速、准确地定位故障设备的故障原因,从而给出相应地的故障维修建议。下面简单介绍与故障树关联的实施例。
[0042] 首先,介绍故障树涉及的一些理论知识。
[0043] 故障树,也可称故障树分析(Falt Tree Analysis,FTA),它是从一个可能的事件(顶事件)开始,自上而下、一层层的寻找顶事件的直接原因和间接原因,直至基本原因(底
层原因),并用逻辑图把这些事件的逻辑关系表达出来。也即是,故障树是一种逻辑因果关
系图,其构成元素包括事件和逻辑门。该事件用于描述系统、元部件故障的状态,逻辑门用
于将事件关联起来,表示事件之间的逻辑关系。所述事件包括但不限于:顶事件、中间事件
以及底层事件。所述逻辑关系(逻辑门)包括但不限于:与门、或门、非门、表决门、异或门等
等。
[0044] 举例来说,如图1示出一种马达驱动电路示意图。电路开关闭合时马达不转动(不工作),相应地如图2给出一种马达故障树的示意图。显然地,导致电路开关闭合后马达不转
动的直接原因为:马达出现故障,或者开关闭合后无电源;在进一步确定直接原因下的间接
原因或底层原因,导致开关闭合后无电源的原因有:电源出现故障,或者线路出现故障。分
析到底层原因后,即可结束流程。
[0045] 其次,介绍本发明实施例中用于设备故障分析的故障树的构建实施例。即,介绍构建所述故障树涉及的一些实施例。
[0046] 第一,设计故障经验库。将故障树分析法应用于终端设备中,以检测并定位设备的故障原因,其顶事件要求是用户可感知的故障现象。因此,故障经验库的建立需从用户可感
知的故障现象出发,如下表1示例性给出一种用户可感知的手机故障现象的统计表。
[0047] 表1
[0048]
[0049] 由上表1可知,以相机为例,从用户感知角度出发可能会出现主/副摄像头不工作、摄像头对焦故障、拍照抖动或异响以及摄像头散光故障等故障现象。
[0050] 在可选实施例中,在设备生产阶段、测试(beta)阶段以及商用后等阶段出现的问题数据,可根据故障现象系统分析,将其下的问题数据存储到故障经验数据库中。
[0051] 下面介绍故障树中涉及的故障节点的确定实施例。
[0052] 1)选取顶事件
[0053] 研发人员系统分析设备各个阶段(如上述的生成阶段、测试阶段以及商用阶段等)可能以及已发生的问题。根据这些问题以及结合自定义的工单故障现象来选取顶事件。要
求顶事件包括设备出现故障时的故障现象,至少能够覆盖工单故障现象。该工单故障现象
可指有维修网点或维修工程师反馈的用于记录设备故障现象的工单/统计表,或者其他用
户/设备自定义配置的设备故障现象,本发明不做限定。
[0054] 2)故障全景分析
[0055] 研发人员可系统对设备各个阶段产生的问题数据进行分析,例如以设备系统分层为基准,分析问题(即故障)在系统各层的分布。相应地,在现有故障检测的基础上,挖掘更
多故障检测点,以提高故障检测覆盖率。
[0056] 以相机为例,如图3示出一种相机故障分析的示意图。由图3可知,从应用层(Application Layer,APP)、框架层(framework)、硬件抽象层(Hardware Abstraction 
Layer,HAL)、内核(kernel)以及图像信号处理器(Image Signal Processor,ISP)出发,对
相机可能出现的故障进行分析和数据统计,从而得出各层中出现故障时的故障表现以及出
现故障的概率(即故障比例或失效比例)。
[0057] 3)故障分解,即确定中间事件以及底层事件。
[0058] 结合故障现象对顶事件逐层分解,直至分解到底层事件(即能够支持定界检测)为止,关于定界检测将下文中进行详述。
[0059] 以稳定性故障,死机重启为例,如图4示出一种稳定性故障树。死机重启的直接原因包括上层重启或者整机重启。导致上层重启的原因有系统虚拟机重启(如Andriod 
Vmreboot)或虚拟机看门狗(Vm Watchdog)出现问题。导致整机重启的原因可以包括以下中
的至少一项:系统错误(panic)、看门狗(如Hw Watchdog)出现问题以及硬件失效(Hardware 
Fault)。
[0060] 在可选实施例中,还可新增关联检测设计。具体的,为保证故障树覆盖更多的导致出现同一故障现象的一些故障原因,包括直接原因和间接原因,即上述的中间事件和底层
事件,可将不同领域中发现相同或相似故障现象的故障节点(即事件)增加到故障树上。关
于如何获取不同领域中发生相似故障现象的故障节点这里不做过多详述和限定,例如可用
关联故障分析模型来检测并获取等等。
[0061] 以性能故障(卡顿、反应慢、不流畅)为例,在不同领域中导致系统出现卡顿、反应慢、不流畅的问题还可是由以下原因中的任一项或多项的组合所导致的:系统资源类的问
题、器件类的问题(器件老化)、应用本身出现bug等等原因。如图5示出一种性能故障树,该
性能故障树包括的故障节点,为当前考虑到的可能导致系统出现卡顿、反应慢、不流畅等问
题所对应的分层故障原因,这里不做过多详述。所述故障节点可包括故障现象节点以及多
层分布的故障原因节点。其中,所述故障现象节点与所述顶事件关联,用于指示故障现象。
中间层的故障原因节点与所述中间事件关联,用于指示导致所述故障现象发生的中间原
因。底层的故障原因节点与所述底层事件关联,用于指示导致所述故障现象发生的底层原
因。
[0062] 在可选实施例中,所述故障原因、底层原因(也可称根本原因)可包括但不限于以下中的任一项或多项:元件失效、环境影响、软件缺陷、人为失误以及系统失效、或其他因
素。
[0063] 第二,定界检测。为实现设备故障的快速、准确定位,可设计基于故障编码的定界检测,以提供有效地故障描述(即故障现象),可选地还能提供故障维修建议。其中,故障编
码与故障节点关联,用于标识故障节点。
[0064] 以电池故障为例,如下表2示出一种故障编码定界统计表。
[0065] 表2
[0066]
[0067]
[0068] 由上表2可知,当终端设备出现故障后,可自动记录故障编码,以准确获知对应出现的故障类型。相应地在对终端设备(也可称故障设备)进行故障分析时,可利用故障判定
规则判断该故障编码对应的故障节点是否出现影响用户正常使用的故障,从而给出快速地
给出相应地故障现象(即故障描述)以及故障维修建议。关于所述故障判定规则将在下文中
进行详述。
[0069] 第三,设计故障判定规则。为判定故障节点是否真正为用于导致故障现象发生的原因节点,因此需为每个故障原因节点设计对应的故障判定规则。所述故障判定规则包括
但不限于以下中的任一项或多项:告警类规则、命令类规则、日志类规则、性能类规则、稳定
性类规则等等。
[0070] 在可选实施例中,系统可提供可视化编辑界面给用户,以供用户在所述可视化编辑界面中为所述故障节点设置相应地故障判定规则。
[0071] 在可选实施例中,所述故障判定规则可以包括但不限于故障编码,具体是指该故障编码对应的故障节点在预设时长内发生故障现象的次数超过预设的阈值,或者其他自定
义配置的规则,以用于判定节点是否为导致发生故障现象的依据。可选地,所述故障判定规
则也可以是故障判定规则组合,既包括故障编码又包括影响参数,该影响参数的数量并不
做限定,所述影响参数为用于影响故障节点判定是否为导致发生故障现象的节点的相关参
数,且该参数可设定相应地的判定条件。当影响参数的数量为多个时,还需设定多个影响参
数之间的逻辑关系等等,并不做限定。
[0072] 以命令类规则为例,可根据故障编码(即故障节点)或者故障编码结合影响参数的方式,来设置所述故障判定规则,以确定所述故障编码所在的故障节点是否已发生过故障
现象。相应地,在进行故障设备的故障检测时,可从故障数据库中获取故障编码以及预设时
长内发送所述故障编码对应的故障现象的频次,然后在结合用户反馈的故障现象,从而判
断是否出现了影响用户正常使用的故障以及故障原因,从而有针对性地对所述故障设备进
行维修。
[0073] 如图6至图7示出两种可视化编辑界面的示意图。如图6示出一种用于设定故障判定规则的可视化编辑界面。其中,告警编码即是指故障节点对应的故障编码,需统计一定周
期内发生某故障编码对应的次数。参数列表是指所有用于影响发生故障编码对应的故障现
象的参数,例如图6示出参数1(即参数名称,Hname)、参数2(CPUfreq)以及参数的类型,该类
型可以是整型int、数组array等等。规则编辑是指定义上述参数列表中各个参数之间的逻
辑关系,图示为主板温度参数与CPU运行频率为逻辑与,即需满足在一定周期内发生故障编
码的故障现象的次数超过设定次数,还需同时满足上述参数1与参数2的两个条件。
[0074] 图7示一种影响参数的可视化编辑界面。用户通过该可视化编辑界面可设置影响参数以及影响参数需满足的条件。如图7示出用户编辑的参数1(Hname‑>SON1)需等于
(equal,EQ)1,参数2(Hname‑>SON2)需大于(grater than,GT)2。需要说明的是,上述仅为
一种所述故障判定规则设定的示例,并不构成限定。
[0075] 在可选实施例中,所述故障判定规则可跟工具检测代码解耦。具体的,以检测配置文件的形式单独更新,以解决现有技术中所述故障判定规则依赖于检测工具的版本,从而
更快地响应并适用产品商业化后设备故障检测的需求。即可对检测配置文件进行更新或替
换,来满足故障检测的实时需求,不再受限于检测工具(软件)的版本。
[0076] 第四,设计检测引擎。在设备故障检测过程中,实际需利用检测引擎来实现设备的故障原因检测和定位。因此,检测引擎需满足以下四个原则:
[0077] 1)可以遍历故障树,支持解析故障节点与故障现象之间的逻辑关系。即支持解析故障现象节点、故障原因节点中任意两个或多个节点之间的逻辑关系。
[0078] 2)支持解析故障节点对应绑定/关联的故障判定规则,以用于判断该故障节点是否发生故障现象。
[0079] 3)可根据故障树遍历以及故障节点的故障判定结果,进行故障原因(即底层原因或中间原因)的判断。
[0080] 4)可根据检测到的故障原因节点,输出相应地的故障原因。可选地还可输出相应地故障维修建议。
[0081] 在可选实施例中,研发人员或系统可将上述构建的故障树设计为一个用于故障定位分析的检测工具(也可称维修检测工具),以供故障设备的故障检测获知相应地故障原因
以及给出相应地的故障维修建议。上述的故障树,即包括故障判定规则以及故障现象等信
息均可被设置/转换为配置文件。可选地,系统可提供可视化编辑界面以便研发人员通过编
辑从而构建所述故障树,或者以供研发人员通过所述可视化编辑界面随时完善所述故障
树,本发明不做限定。
[0082] 在可选实施例中,研发人员可根据自身需求或周期性地对所述配置文件进行更新,例如通过可视化编辑界面周期性完善所述故障树。相应地,研发人员可将所述配置文件
上传至云端服务器,以便用户即时下载最新版本的配置文件。相应地,安装有维修检测工具
的终端设备可通过网络周期性地从所述云端服务器中获取新版本的配置文件。在所述终端
设备检测到自身已有的配置文件的版本并非最新版本的配置文件,下载并更新至最新版本
的配置文件,从而利用最新的配置文件(即故障树)来检测并定位故障设备的故障原因,以
及给出相应地故障维修建议。
[0083] 最后,介绍如何从故障树中确定底层原因(即根本原因,简称根因)的相关实施例。
[0084] 根因的判断标准为:在故障树中存在一条路径,该路径上所有的故障节点均为ture(均为正确/真,发生故障问题),如果中间有逻辑与门,则与门的所有分支必须为真
ture。具体的,可通过对所有叶子节点的状态匹配最小割集,如果满足某个最小割集,且该
最小割集所在的路径一路均为真ture,则说明找到根因。
[0085] 如图8示出一种故障树的示意图。如图8,A=B or C;B=D or E;C=F and G;则相应地A=(D)or(E)or(F and G)。其中,最小割集分别是(D),(E),(F,G)。其中任何一个最小
割集发生,都能导致A发生。
[0086] 在可选实施例中,如果中间节点为真ture(发生故障问题),叶子节点(即底层节点)为假false(未发生故障问题),则中间节点的判断结果为真ture,说明叶子节点不齐全,
可能存在一个未知叶子节点,即缺乏一个未知底层故障原因的信息未写入到故障树上。
[0087] 相应地,如果如果中间节点为假false(未发生故障问题),叶子节点(即底层节点)为真ture(发生故障问题),则说明叶子节点并不是根因,可能叶子节点上存在一些未知条
件(即未知故障判定规则)导致叶子节点不一定是父节点的充分条件。
[0088] 基于前述所述实施例,下面介绍本发明涉及的具体故障分析方法实施例。请参见图9,是本发明实施例提供的一种故障分析方法的流程示意图。如图9所示的故障分析方法,
包括如下实施步骤:
[0089] 步骤S902、故障检测设备获取故障描述信息,其中,所述故障描述信息用于描述故障设备的故障现象;
[0090] 步骤S904、故障检测设备根据所述故障现象遍历故障树,从而获得所述故障设备的故障原因,其中,所述故障树反映了所述故障现象与所述故障原因的对应关系。
[0091] 所述故障树可被单独被配置/设置在配置文件中,以便周期性更新所述配置文件。将所述故障树与检测工具代码解耦,不依赖或受限于检测工具的版本。相应地,所述配置文
件可通过有线或无线的方式被下载和更新,具体可参见前述实施例中的相关描述,这里不
再详述。
[0092] 在可选实施例中,所述故障树是用户(具体可以是指研发人员)根据经验累积,通过可视化编辑界面进行编辑和存储所得的。
[0093] 在可选实施例中,所述故障树包括故障现象节点、多层分布的故障原因节点以及节点之间的逻辑关系(即逻辑门)。其中,所述故障现象节点用于指示故障设备出现故障时
的故障现象。所述多层分布的故障原因节点包括中间层的故障原因节点和底层的故障原因
节点,所述中间层的故障原因节点用于指示导致发生所述故障现象的中间原因(中间事
件)。所述底层的故障原因节点用于指示导致发生所述故障现象的底层原因(即根因,底层
事件)。具体可参见前述实施例中的相关阐述,这里不再赘述。可选地,所述故障树可为N叉
树,其中N为正整数。当N为2时,即为二叉树。
[0094] 在可选实施例中,如果节点上并未设置故障检测规则,则所述故障检测设备可直接根据各个节点之间的逻辑关系查找出所述故障现象对应的故障原因。在不满足节点间的
逻辑关系时(例如可逻辑与门),则这些节点均不是发生所述故障现象的故障原因节点,并
未查找出所述故障现象对应的故障原因。
[0095] 在可选实施例中,所述多层分布的故障原因节点中的每个故障原因节点均具有对应的故障判定规则,其中,所述故障判定规则用于判定对应的故障原因节点指示导致发生
所述故障现象的原因的正确性。
[0096] 具体的,可为所述故障树中的每个故障原因节点设置对应的故障判定规则,该故障判定规则用于判断该故障原因节点是否为导致发生所述故障现象的原因节点。关于所述
故障判定规则的设置可参见前述实施例中的相关阐述,这里不再赘述。
[0097] 相应地步骤S904中,所述故障检测设备在接收所述故障描述信息后,可根据所述故障描述信息所描述的故障现象,从所述故障树中确定出故障子树,所述故障子树用于定
位出现所述故障现象的故障原因。所述故障子树是所述故障树的一部分,所述故障子树至
少包括所述故障现象以及与所述故障现象关联的故障原因,即故障现象节点和多层的故障
原因节点。
[0098] 具体的,所述故障检测设备可根据所述故障判定规则,判定对应故障原因节点是否为导致发生所述故障现象的节点,如果为是,则继续判断一条路径中的下一故障原因节
点,如果存在一条路径上所有的故障原因节点的判断结果均为是,则相应地最末底层的故
障原因节点对应所指示的原因,即为所述故障设备的故障原因。关于如何遍历所述故障树
从中确定出发生所述故障现象的根因(即本申请中的故障原因)可参见前述实施例中根因
确定的相关阐述,这里不再赘述。
[0099] 在可选实施例中,所述故障检测设备还可根据所述故障原因推荐与所述故障原因对应的故障维修建议。
[0100] 在可选实施例中,当所述故障检测设备为所述故障设备时,所述故障设备需先从维修检测工具中获取包含所述故障树在内的配置文件,从而利用所述故障树进行故障分
析。所述故障描述信息可为所述故障设备自身发生故障时记录且上报的,或者用户使用时
输入的故障描述信息等等,本发明不做限定。所述故障检测设备也可为不同于所述故障设
备的其他设备。
[0101] 在可选实施例中,所述故障设备是指发生故障后的设备。所述故障检测设备是指支持利用维修检测工具(或者利用故障树)进行故障分析和定位的设备。所述设备可以是用
户设备、服务器、智能手机(如Android手机、IOS手机等)、个人电脑、平板电脑、掌上电脑、移
动互联网设备(MID,Mobile Internet Devices)或穿戴式智能设备等互联网设备,本发明
实施例不作限定。
[0102] 本发明实施例中未描述的内容,可具体参见前述实施例中的相关阐述,这里不再赘述。
[0103] 通过实施本发明实施例,能够利用故障树准确地分析并定位故障设备的故障原因,提升故障检测效率,降低故障维护成本,提升用户体验。
[0104] 上述主要从故障检测设备和故障设备交互的角度对本发明实施例提供的方案进行了介绍。可以理解的是,故障检测设备为了实现上述功能,其包含了执行各个功能相应的
硬件结构和/或软件模块。结合本发明中所公开的实施例描述的各示例的单元及算法步骤,
本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还
是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领
域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现
不应认为超出本发明实施例的技术方案的范围。
[0105] 本发明实施例可以根据上述方法示例对发件客户端进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单
元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
需要说明的是,本发明实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际
实现时可以有另外的划分方式。
[0106] 在采用集成的单元的情况下,图10A示出了上述实施例中所涉及的故障检测设备的一种可能的结构示意图。故障检测设备900包括:处理单元902和通信单元903。处理单元
902用于对故障检测设备900的动作进行控制管理,例如,处理单元902用于支持故障检测设
备900执行图9中的步骤S904,和/或用于执行本文所描述的技术的其它步骤。通信单元903
用于支持故障检测设备900与故障设备或其他设备的通信,例如,通信单元903用于支持故
障检测设备900执行图9中的步骤S902,和/或用于执行本文所描述的技术的其它步骤。故障
检测设备900还可以包括存储单元901,用于存储故障检测设备900的程序代码和数据。
[0107] 其中,处理单元902可以是处理器,例如可以是中央处理器(英文:Central Processing Unit,CPU),通用处理器,数字信号处理器(英文:Digital Signal Processor,
DSP),专用集成电路(英文:Application‑Specific Integrated Circuit,ASIC),现场可编
程门阵列(英文:Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体
管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的
各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含
一个或多个微处理器组合,DSP和微处理器的组合等等。通信单元903可以是通信接口、收发
器、收发电路等,其中,通信接口是统称,可以包括一个或多个接口,例如故障检测设备与故
障设备之间的接口。存储单元901可以是存储器。
[0108] 当处理单元902为处理器,通信单元903为通信接口,存储单元901为存储器时,本发明实施例所涉及的故障检测设备可以为图10B所示的故障检测设备。
[0109] 参阅图10B所示,该故障检测设备910包括:处理器912、通信接口913、存储器911。可选地,终端设备910还可以包括总线914。其中,通信接口913、处理器912以及存储器911可
以通过总线914相互连接;总线914可以是外设部件互连标准(英文:Peripheral Component 
Interconnect,简称PCI)总线或扩展工业标准结构(英文:Extended Industry Standard 
Architecture,简称EISA)总线等。所述总线914可以分为地址总线、数据总线、控制总线等。
为便于表示,图10B中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0110] 结合本发明实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,
软件模块可以被存放于随机存取存储器(英文:Random Access Memory,RAM)、闪存、只读存
储器(英文:Read Only Memory,ROM)、可擦除可编程只读存储器(英文:Erasable 
Programmable ROM,EPROM)、电可擦可编程只读存储器(英文:Electrically EPROM,
EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD‑ROM)或者本领域熟知的任何其它形式的存
储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信
息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存
储介质可以位于ASIC中。另外,该ASIC可以位于故障检测设备中。当然,处理器和存储介质
也可以作为分立组件存在于故障检测设备中。
[0111] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质
中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、
RAM、磁碟或者光盘等各种可以存储程序代码的介质。