故障分析方法及相关设备转让专利
申请号 : CN201780094808.2
文献号 : CN111108481B
文献日 : 2021-08-13
发明人 : 张瑞荣 , 姚满海 , 李翠琴 , 石俊杰
申请人 : 华为技术有限公司
摘要 :
权利要求 :
1.一种故障分析方法,其特征在于,所述方法包括:故障检测设备获取故障描述信息,其中,所述故障描述信息用于描述故障设备的故障现象;
故障检测设备根据所述故障现象遍历故障树,从而获得所述故障设备的故障原因,其中,所述故障树反映了所述故障现象与所述故障原因的对应关系;
所述故障树被单独设置在配置文件中,其中,所述配置文件能够通过有线或者无线的方式单独被更新;所述故障树包括故障现象节点以及多层分布的故障原因节点,其中,中间层的故障原因节点用于指示导致发生所述故障现象的中间原因,底层的故障原因节点用于指示导致发生所述故障现象的根本原因;
所述多层分布的故障原因节点中的每个故障原因节点均具有对应的故障判定规则,其中,所述故障判定规则用于判定对应的故障原因节点指示导致发生所述故障现象的原因的正确性;所述故障判定规则被单独设置在所述配置文件中;
所述故障判定规则跟故障检测工具代码解耦,所述故障树与所述故障检测工具代码解耦。
2.根据权利要求1所述的方法,其特征在于,所述故障判定规则包括以下中的至少一项:告警类规则、命令类规则、日志类规则、性能类规则。
3.根据权利要求1所述的方法,其特征在于,所述故障现象节点以及多层分布的故障原因节点中的至少一个节点是用预先编码好的编码字符表征的,不同的节点对应不同的编码字符。
4.根据权利要求1所述的方法,其特征在于,所述故障树是用户根据经验累积,通过可视化编辑界面进行编辑和存储所得的。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:故障检测设备根据所述故障原因推荐与所述故障原因对应的故障维修建议。
6.根据权利要求1至5任一项权利要求所述的方法,其特征在于,所述故障原因包括以下中的至少一项:元件失效、环境影响、软件缺陷、人为失误、系统失效。
7.一种故障检测设备,其特征在于,包括通信单元和处理单元,所述通信单元用于获取故障描述信息,其中,所述故障描述信息用于描述故障设备的故障现象;
所述处理单元用于根据所述故障现象遍历故障树,从而获得所述故障设备的故障原因,其中,所述故障树反映了所述故障现象与所述故障原因的对应关系;
所述故障树被单独设置在配置文件中,其中,所述配置文件能够通过有线或者无线的方式单独被更新;所述故障树包括故障现象节点以及多层分布的故障原因节点,其中,中间层的故障原因节点用于指示导致发生所述故障现象的中间原因,底层的故障原因节点用于指示导致发生所述故障现象的根本原因;所述多层分布的故障原因节点中的每个故障原因节点均具有对应的故障判定规则,其中,所述故障判定规则用于判定对应的故障原因节点指示导致发生所述故障现象的原因的正确性;所述故障判定规则被单独设置在所述配置文件中;
所述故障判定规则跟故障检测工具代码解耦,所述故障树与所述故障检测工具代码解耦。
8.根据权利要求7所述的故障检测设备,其特征在于,所述故障判定规则包括以下中的至少一项:告警类规则、命令类规则、日志类规则、性能类规则。
9.根据权利要求7所述的故障检测设备,其特征在于,所述故障现象节点以及多层分布的故障原因节点中的至少一个节点是用预先编码好的编码字符表征的,不同的节点对应不同的编码字符。
10.根据权利要求7所述的故障检测设备,其特征在于,所述故障树是用户根据经验累积,通过可视化编辑界面进行编辑和存储所得的。
11.根据权利要求7所述的故障检测设备,其特征在于,所述处理单元还用于根据所述故障原因推荐与所述故障原因对应的故障维修建议。
12.根据权利要求7至11任一权利要求所述的故障检测设备,其特征在于,所述故障原因包括以下中的至少一项:元件失效、环境影响、软件缺陷、人为失误、系统失效。
13.一种故障检测设备,其特征在于,包括存储器、通信接口及与所述存储器和通信接口耦合的处理器;所述存储器用于存储指令,所述处理器用于执行所述指令,所述通信接口用于在所述处理器的控制下与故障设备进行通信;其中,所述处理器执行所述指令时执行如权利要求1至6任一项所述方法。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法。
说明书 :
故障分析方法及相关设备
技术领域
背景技术
的故障现象利用相应地维修检测工具进行检测和维修,这种方法在现阶段工具维修检测能
力还不是很完善的情况下,对维修工程师的经验依赖性很大。尤其对于一些复杂故障而言,
维修人员往往一筹莫展,无法快速定位故障发生的原因,需返厂维修。这样故障检测率低、
维修时间长,直接影响产品上市后的服务体验。
进。在技术实现上,当前主要以抓取故障机日志分析的手段为主。这种方案,因为日志种类
多,且日志内容结构复杂,解析效率低;另外因为研发新增检测方案、变更原有检测方案无
法及时体现到故障检测工具,导致工具检测能力不完善,网点的故障分析效率低。
发明内容
效提升故障分析效率,降低人力维护成本,即降低设备维修成本。
障原因节点用于指示导致发生所述故障现象的根本原因。
致发生所述故障现象的依据。
的逻辑关系,和/或所述影响参数之间的逻辑关系,所述影响参数用于判定所述故障原因节
点发生所述故障现象的依据。
所述故障树上。以性能故障(卡顿、反应慢、不流畅)为例,在不同领域中导致系统出现卡顿、
反应慢、不流畅的问题还可是由以下原因中的任一项或多项的组合所导致的:系统资源类
的问题、器件类的问题(器件老化)、应用本身出现bug等等原因。
指令,所述通信接口用于在所述处理器的控制下与其他终端设备进行通信;其中,所述处理
器执行所述指令时执行上述第一方面描述的方法。
附图说明
具体实施方式
低,延长设备维修时间。
层原因),并用逻辑图把这些事件的逻辑关系表达出来。也即是,故障树是一种逻辑因果关
系图,其构成元素包括事件和逻辑门。该事件用于描述系统、元部件故障的状态,逻辑门用
于将事件关联起来,表示事件之间的逻辑关系。所述事件包括但不限于:顶事件、中间事件
以及底层事件。所述逻辑关系(逻辑门)包括但不限于:与门、或门、非门、表决门、异或门等
等。
动的直接原因为:马达出现故障,或者开关闭合后无电源;在进一步确定直接原因下的间接
原因或底层原因,导致开关闭合后无电源的原因有:电源出现故障,或者线路出现故障。分
析到底层原因后,即可结束流程。
知的故障现象出发,如下表1示例性给出一种用户可感知的手机故障现象的统计表。
求顶事件包括设备出现故障时的故障现象,至少能够覆盖工单故障现象。该工单故障现象
可指有维修网点或维修工程师反馈的用于记录设备故障现象的工单/统计表,或者其他用
户/设备自定义配置的设备故障现象,本发明不做限定。
多故障检测点,以提高故障检测覆盖率。
Layer,HAL)、内核(kernel)以及图像信号处理器(Image Signal Processor,ISP)出发,对
相机可能出现的故障进行分析和数据统计,从而得出各层中出现故障时的故障表现以及出
现故障的概率(即故障比例或失效比例)。
Vmreboot)或虚拟机看门狗(Vm Watchdog)出现问题。导致整机重启的原因可以包括以下中
的至少一项:系统错误(panic)、看门狗(如Hw Watchdog)出现问题以及硬件失效(Hardware
Fault)。
事件,可将不同领域中发现相同或相似故障现象的故障节点(即事件)增加到故障树上。关
于如何获取不同领域中发生相似故障现象的故障节点这里不做过多详述和限定,例如可用
关联故障分析模型来检测并获取等等。
题、器件类的问题(器件老化)、应用本身出现bug等等原因。如图5示出一种性能故障树,该
性能故障树包括的故障节点,为当前考虑到的可能导致系统出现卡顿、反应慢、不流畅等问
题所对应的分层故障原因,这里不做过多详述。所述故障节点可包括故障现象节点以及多
层分布的故障原因节点。其中,所述故障现象节点与所述顶事件关联,用于指示故障现象。
中间层的故障原因节点与所述中间事件关联,用于指示导致所述故障现象发生的中间原
因。底层的故障原因节点与所述底层事件关联,用于指示导致所述故障现象发生的底层原
因。
素。
码与故障节点关联,用于标识故障节点。
规则判断该故障编码对应的故障节点是否出现影响用户正常使用的故障,从而给出快速地
给出相应地故障现象(即故障描述)以及故障维修建议。关于所述故障判定规则将在下文中
进行详述。
但不限于以下中的任一项或多项:告警类规则、命令类规则、日志类规则、性能类规则、稳定
性类规则等等。
义配置的规则,以用于判定节点是否为导致发生故障现象的依据。可选地,所述故障判定规
则也可以是故障判定规则组合,既包括故障编码又包括影响参数,该影响参数的数量并不
做限定,所述影响参数为用于影响故障节点判定是否为导致发生故障现象的节点的相关参
数,且该参数可设定相应地的判定条件。当影响参数的数量为多个时,还需设定多个影响参
数之间的逻辑关系等等,并不做限定。
现象。相应地,在进行故障设备的故障检测时,可从故障数据库中获取故障编码以及预设时
长内发送所述故障编码对应的故障现象的频次,然后在结合用户反馈的故障现象,从而判
断是否出现了影响用户正常使用的故障以及故障原因,从而有针对性地对所述故障设备进
行维修。
期内发生某故障编码对应的次数。参数列表是指所有用于影响发生故障编码对应的故障现
象的参数,例如图6示出参数1(即参数名称,Hname)、参数2(CPUfreq)以及参数的类型,该类
型可以是整型int、数组array等等。规则编辑是指定义上述参数列表中各个参数之间的逻
辑关系,图示为主板温度参数与CPU运行频率为逻辑与,即需满足在一定周期内发生故障编
码的故障现象的次数超过设定次数,还需同时满足上述参数1与参数2的两个条件。
(equal,EQ)1,参数2(Hname‑>SON2)需大于(grater than,GT)2。需要说明的是,上述仅为
一种所述故障判定规则设定的示例,并不构成限定。
更快地响应并适用产品商业化后设备故障检测的需求。即可对检测配置文件进行更新或替
换,来满足故障检测的实时需求,不再受限于检测工具(软件)的版本。
以及给出相应地的故障维修建议。上述的故障树,即包括故障判定规则以及故障现象等信
息均可被设置/转换为配置文件。可选地,系统可提供可视化编辑界面以便研发人员通过编
辑从而构建所述故障树,或者以供研发人员通过所述可视化编辑界面随时完善所述故障
树,本发明不做限定。
上传至云端服务器,以便用户即时下载最新版本的配置文件。相应地,安装有维修检测工具
的终端设备可通过网络周期性地从所述云端服务器中获取新版本的配置文件。在所述终端
设备检测到自身已有的配置文件的版本并非最新版本的配置文件,下载并更新至最新版本
的配置文件,从而利用最新的配置文件(即故障树)来检测并定位故障设备的故障原因,以
及给出相应地故障维修建议。
ture。具体的,可通过对所有叶子节点的状态匹配最小割集,如果满足某个最小割集,且该
最小割集所在的路径一路均为真ture,则说明找到根因。
割集发生,都能导致A发生。
可能存在一个未知叶子节点,即缺乏一个未知底层故障原因的信息未写入到故障树上。
件(即未知故障判定规则)导致叶子节点不一定是父节点的充分条件。
包括如下实施步骤:
件可通过有线或无线的方式被下载和更新,具体可参见前述实施例中的相关描述,这里不
再详述。
的故障现象。所述多层分布的故障原因节点包括中间层的故障原因节点和底层的故障原因
节点,所述中间层的故障原因节点用于指示导致发生所述故障现象的中间原因(中间事
件)。所述底层的故障原因节点用于指示导致发生所述故障现象的底层原因(即根因,底层
事件)。具体可参见前述实施例中的相关阐述,这里不再赘述。可选地,所述故障树可为N叉
树,其中N为正整数。当N为2时,即为二叉树。
逻辑关系时(例如可逻辑与门),则这些节点均不是发生所述故障现象的故障原因节点,并
未查找出所述故障现象对应的故障原因。
所述故障现象的原因的正确性。
故障判定规则的设置可参见前述实施例中的相关阐述,这里不再赘述。
位出现所述故障现象的故障原因。所述故障子树是所述故障树的一部分,所述故障子树至
少包括所述故障现象以及与所述故障现象关联的故障原因,即故障现象节点和多层的故障
原因节点。
点,如果存在一条路径上所有的故障原因节点的判断结果均为是,则相应地最末底层的故
障原因节点对应所指示的原因,即为所述故障设备的故障原因。关于如何遍历所述故障树
从中确定出发生所述故障现象的根因(即本申请中的故障原因)可参见前述实施例中根因
确定的相关阐述,这里不再赘述。
析。所述故障描述信息可为所述故障设备自身发生故障时记录且上报的,或者用户使用时
输入的故障描述信息等等,本发明不做限定。所述故障检测设备也可为不同于所述故障设
备的其他设备。
户设备、服务器、智能手机(如Android手机、IOS手机等)、个人电脑、平板电脑、掌上电脑、移
动互联网设备(MID,Mobile Internet Devices)或穿戴式智能设备等互联网设备,本发明
实施例不作限定。
硬件结构和/或软件模块。结合本发明中所公开的实施例描述的各示例的单元及算法步骤,
本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还
是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领
域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现
不应认为超出本发明实施例的技术方案的范围。
元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
需要说明的是,本发明实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际
实现时可以有另外的划分方式。
902用于对故障检测设备900的动作进行控制管理,例如,处理单元902用于支持故障检测设
备900执行图9中的步骤S904,和/或用于执行本文所描述的技术的其它步骤。通信单元903
用于支持故障检测设备900与故障设备或其他设备的通信,例如,通信单元903用于支持故
障检测设备900执行图9中的步骤S902,和/或用于执行本文所描述的技术的其它步骤。故障
检测设备900还可以包括存储单元901,用于存储故障检测设备900的程序代码和数据。
DSP),专用集成电路(英文:Application‑Specific Integrated Circuit,ASIC),现场可编
程门阵列(英文:Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体
管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的
各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含
一个或多个微处理器组合,DSP和微处理器的组合等等。通信单元903可以是通信接口、收发
器、收发电路等,其中,通信接口是统称,可以包括一个或多个接口,例如故障检测设备与故
障设备之间的接口。存储单元901可以是存储器。
以通过总线914相互连接;总线914可以是外设部件互连标准(英文:Peripheral Component
Interconnect,简称PCI)总线或扩展工业标准结构(英文:Extended Industry Standard
Architecture,简称EISA)总线等。所述总线914可以分为地址总线、数据总线、控制总线等。
为便于表示,图10B中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
软件模块可以被存放于随机存取存储器(英文:Random Access Memory,RAM)、闪存、只读存
储器(英文:Read Only Memory,ROM)、可擦除可编程只读存储器(英文:Erasable
Programmable ROM,EPROM)、电可擦可编程只读存储器(英文:Electrically EPROM,
EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD‑ROM)或者本领域熟知的任何其它形式的存
储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信
息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存
储介质可以位于ASIC中。另外,该ASIC可以位于故障检测设备中。当然,处理器和存储介质
也可以作为分立组件存在于故障检测设备中。
中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、
RAM、磁碟或者光盘等各种可以存储程序代码的介质。