基于数据流的确定性网络完整性故障检测方法转让专利

申请号 : CN201410482021.1

文献号 : CN105281945B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 袁静龙勇李艳玲王蓓

申请人 : 中国人民解放军第二炮兵工程大学

摘要 :

本发明为一种基于数据流的确定性网络完整性的故障检测方法,根据确定性网络整网的拓扑结构,建立基于数据流的三元组模型;通过确定数据完整性、源完整性、次序完整性和时间完整性的优先级关系,分析用户要求的粒度,针对硬件故障、逻辑故障和配置信息故障,进行故障模式分析;在此基础上进行故障树分析,提出可测量和计算的底事件概率获取方法,并进行定性和定量计算;最后完成故障检测。本发明针对传统的故障检测方法串并联模型无法在实际工程中完成故障的定位问题,解决了确定性网络数据准确性和完整性故障检测的难点。为航空机载网络、工业控制网络和军事通信网络等确定性网络完整性研究提供了一种具有工程价值的方法。

权利要求 :

1.一种基于数据流的确定性网络完整性故障检测方法,其特征在于,包括如下步骤:步骤1:建立基于数据流的确定性网络传输模型,并进行模型简化;从网络拓扑结构和特定确定性协议的角度,分析网络特征,建立简化的三元组数据流结构模型:Net(t)={S(t),T(t),R(t)}

其中:Net(t)为确定性网络的某次传输的模型,S(t)为某数据传送时隙内的发送元组,T(t)为某数据传送时隙内的交换元组,R(t)为某数据传送时隙内的接收元组;

步骤2:确定数据、源、次序和时间四类完整性的内涵,分别定义四类完整性:数据完整性指网络中端到端的比特完整性;源完整性指数据从源端口发送到正确的目的端口;次序完整性指网络中通过给数据添加阶段时间戳或序列号标志数据信息的顺序,并按次序传输数据流,在接收端按照序列号次序进行接收;时间完整性指数据帧的第一个位从源端开始发出到整个报文完全到达目的端所经历的时间小于给定传输时间阈值,并明确根据它们的故障特征分析优先级关系;

步骤3:根据用户要求的粒度,针对确定性网络整网完整性故障模式影响分析,明确故障模式、故障原因和故障影响,其中故障影响对应于局部影响、高一层次影响和最终影响,填写故障模式分析表;

步骤4:确定性网络整网完整性故障树定性和定量分析;

步骤5:依据分析结果,对整网的完整性提出故障检测结论。

2.根据权利要求1所述的基于数据流的确定性网络完整性故障检测的方法,其特征在于,所述的步骤3的实现方法为:步骤2.1:分析对象类型和每一类器件所对应的故障模式;

步骤2.2:提取硬件故障、逻辑故障和配置信息故障;

步骤2.3:确定故障对于局部、高一层次和最终的影响,所述的局部影响是指对器件的影响,高一层次影响是指对单个设备的影响,最终影响指对整体性能的影响;

步骤2.4:编写故障模式分析表。

3.根据权利要求1所述的基于数据流的确定性网络完整性故障检测的方法,其特征在于,所述的步骤4具体实现方法为:步骤3.1:基于数据流的故障模式分析建立基于四类完整性的故障树;

步骤3.2:分析硬件故障和软件故障底层事件发生概率的求解方法;所述的软件故障包括逻辑故障和配置信息故障;

步骤3.3:定性分析,求出最小割集;

步骤3.4:按照软、硬件故障概率数值,进行定量分析,求出顶事件的发生概率和底事件重要度关键数据;

步骤3.4.1:(1)顶事件的发生概率,设故障树由k个最小割集Ki(1≤i≤k)其中,Fs是系统不可靠度,P(T)为顶事件发生概率,P(Ki)最小割集的发生概率;

步骤3.4.2:底事件重要度:

第i个事件的概率重要度: 即概率重要度是底事件发生概率变化引起顶事件发生概率的变化程度,Fi为i个事件的概率;

第i个事件的关键重要度: 即关键重要度是底事件i故障概率的变化率与它引起顶事件发生概率变化率之比,Fi为i个事件的概率。

4.根据权利要求3述的基于数据流的确定性网络完整性故障检测的方法,其特征在于:步骤5中所述的对整网的完整性提出故障检测结论是利用故障树定量分析算法,输入故障树模型及底事件概率,计算出顶事件故障概率。

说明书 :

基于数据流的确定性网络完整性故障检测方法

技术领域

[0001] 本发明属于网络可靠性和网络故障诊断技术领域,具体涉及确定性网络故障检测方法,采用基于数据传输流的故障定位方法。

背景技术

[0002] 确定性网络被用于工业控制、航空机载网络和军事通信等具有特定应用的领域,通过确定的网络拓扑和协议配置完成确定流向的数据传输,达到数据和资源互联互通的目的。然而,随着所使用网络技术的日渐成熟和网络数据的规模化,随着确定性网络综合程度的不断提高,信息传输需求进一步宽带化和多样化。比如目前大型飞机新的应用功能(例如大屏幕显示、数字地图、空地数据链等)对网络数据传输的能力提出了更高的要求。因此,确定性网络的完整性问题也越来越受到关注。
[0003] 传统上,“网络”通常不被认为是一个专用系统,其故障检测分析通常是将软、硬件分离开来,而将整个网络当作一个整体检测对象从数据、寻址、次序和时间等四类完整性故障的研究尚欠缺。从故障检测方法的角度来讲,一方面,目前虽然有对组成网络设备的完整性管理技术,缺乏把“网络”作为一个产品、一个整体系统单独进行完整性管理的有效技术手段,另一方面,目前传统的基于图论的可靠性分析方法主要包括:可靠性框图、故障树分析法和状态转移链法,这些方法对于单个设备的完整性分析有一定效果,可是对于整网的完整性分析无法有效进行,而且用传统图论的分析方法进行故障检测时,需要假设各设备间相互独立,但网络中这一假设显然不能成立,比如某个交换机发生故障而选择其他路径,那么可能导致相邻设备的数据量突发而引发故障;另一方面,由于确定性网络对互联互通的高可靠性和完整性需求,使得网络互连的运行需硬件、软件和逻辑的紧密协调与配合,两者的故障机理又全然不同,这使得当前流行的网络演算方法等可靠性定量解析计算方法不能解决整网完整性的问题;
[0004] 因此,针对确定性网络的完整性问题的故障检测的问题,现有方法无法对确定性网络完整性进行有效地故障检测,急需一种具有工程操作性的故障检测方法。
[0005] 经检索,没有发现与本发明构思完全相同的方法报道。

发明内容

[0006] 针对现有技术概况,本发明的目的在于:提出一种基于数据流的确定性网络完整性的故障检测方法。该方法工程实践性强,易于操作。
[0007] 现将本发明构思及技术解决方案叙述如下:
[0008] 本发明的构思是,针对确定性网络的四类完整性中的随机性和不确定性问题,以数据流为分析对象,提取出故障模式、故障原因与故障影响的关系,并通过故障树进行定性和定量分析系统的薄弱环节。
[0009] 本发明的技术解决方案如下:
[0010] 完整性是考察网络服务质量的一个重要指标,相关概念来源于国际电信联盟远程通信标准化组织关于服务质量的ITU-T E.800 2008标准和ARINC(航空无线电通信公司AeronauticalRadio,Inc)制定的664系列标准。对于确定性网络,应考虑以下四类完整性:
[0011] 定义一 数据完整性:指网络中端到端的比特完整性。
[0012] 定义二 源完整性:指数据从源端口发送到正确的目的端口。网络必须通过保证数据传送至正确的目的端口以防止高完整性应用接收低完整性应用的数据。
[0013] 定义三 次序完整性:指网络中通过给数据添加阶段时间戳或序列号标志数据信息的顺序,并按次序传输数据流,数据帧到达接收端后,按照序列号次序进行接收,以此机制来保证网络的次序完整性。
[0014] 定义四 时间完整性:指数据帧的第一个位从源端开始发出到整个报文完全到达目的端所经历的时间小于给定传输时间阈值。如果大于阈值则为时间完整性错误,即时延过大。
[0015] 针对以上四类完整性问题和确定性网络的故障特点,针对软硬件故障高度耦合的故障特点,本发明提出了一种新型的基于数据流的故障检测方法。
[0016] 本发明提供的一种新型的基于数据流的确定性网络完整性故障检测的方法,流程参见图1。本方法包括如下步骤:
[0017] 步骤1:建立基于数据流的确定性网络传输模型,并进行模型简化;从网络拓扑结构和特定确定性协议的角度,深入分析网络特征,建立数据流结构模型,并简化为三元组Net(t)={S(t),T(t),R(t)},Net(t)为确定性网络的某次传输的模型,S(t)为某数据传送时隙内的发送元组,T(t)为某数据传送时隙内的交换元组,R(t)为某数据传送时隙内的接收元组;
[0018] 步骤2:确定数据、源、次序和时间四类完整性的内涵,并明确根据它们的故障特征分析优先级关系;
[0019] 步骤3:根据用户要求的粒度,针对确定性网络整网完整性进行故障模式影响分析。明确故障模式、故障原因和故障影响的对应关系,其中故障影响对应于局部影响、高一层次影响和最终影响,填写故障模式分析(Failure Model and Effects Analysis,简称为FMEA)表;
[0020] 步骤4:基于数据流的确定性网络整网完整性故障树分析。
[0021] 步骤4.1基于数据流的故障模式分析建立基于四类完整性的故障树;
[0022] 步骤4.2分析硬件故障和软件故障(包括逻辑故障和配置信息故障)等底层事件发生概率的求解方法;
[0023] 步骤4.3定性分析,求出最小割集,所述最小割集是指顶事件发生的原因组合;
[0024] 步骤4.4按照软、硬件故障概率数值,进行定量分析,即求出顶事件的发生概率和底事件重要度等关键数据;
[0025] 步骤4.4.1顶事件发生概率:设故障树由k个最小割集Ki(1≤i≤k)
[0026]
[0027] 其中,Fs是系统不可靠度,P(T)为顶事件发生概率,P(Ki)最小割集的发生概率;
[0028] 步骤4.4.2底事件重要度:
[0029] 第i个事件的概率重要度: 即概率重要度是底事件发生概率变化引起顶事件发生概率的变化程度,Fi为i个事件的概率;
[0030] 第i个事件的关键重要度: 即关键重要度是底事件i故障概率的变化率与它引起顶事件发生概率变化率之比,Fi为i个事件的概率;
[0031] 步骤5:查找系统的薄弱环节,并提出故障检测意见。
[0032] 本发明的优点与积极效果在于:
[0033] (1)首次使用四个“完整性”概念对确定性网络进行了详细分析。对四类完整性进行了明确的定义,并对定义的实际内涵进一步深入挖掘,提供了一种对于确定性网络产品的设计、评估和故障检测的方法。
[0034] (2)采用了依据整网数据传输过程进行分析方法。在传统的故障模式分析和故障树分析中,系统一般被简化为各网络元素的简单串并联模型,并且假设系统只有故障与工作两种状态。然而,实际中由于涉及到数据的传输与交换,并且传输与交换要满足实时、正确、完整等一系列性能方面的要求,因此本发明采用基于数据传输过程的整网故障检测方法。
[0035] (3)综合考虑硬件故障、逻辑故障与配置信息故障。确定性网络中由于部分硬件相应功能的实现需要软件支持,交换机、端系统存在大量的配置信息需要输入,比如缓冲区大小设置,且用户对网络服务性能方面要求较高,因此本方法除了对硬件故障进行了详细分析,还综合考虑软件故障、配置不合理对整网数据传输造成的影响。

附图说明

[0036] 图1是本发明基于数据流的确定性网络完整性故障检测方法流程示意图;
[0037] 图2是本发明示例网络的结构图;
[0038] 图3是本发明示例协议保障的数据传输图;
[0039] 图4是本发明示例的整网端到端传输模型图;
[0040] 图5是本发明示例的整网的完整性功能结构图;
[0041] 图6是本发明示例中的总故障树;
[0042] 图7是本发明示例中的终端系统失效故障树;
[0043] 图8是本发明示例中的终端系统工作异常故障树;
[0044] 图9是本发明示例中的终端系统传输数据异常故障树。

具体实施方式

[0045] 下面将结合附图和实施例对本发明作进一步的详细说明。
[0046] 航空电子全双工交换式以太网(Avionics Full Duplex Switched Ethernet,以下简称为AFDX)是一种确定性的机载数据网络,同时具有通道冗余、可扩展性、次序完整性、容错性等特点。其组成部分主要包括AFDX端系统(End System,以下简称为ES),AFDX交换机以及传输信道。图2所示为AFDX网络结构图。AFDX交换机的主要功能包含:过滤、管制、监视、交换,这些功能均由静态配置表中的配置数据控制。以AFDX网络的数据完整性为例,实施整个故障检测示例:
[0047] 步骤1根据AFDX网络的数据流建立传输模型,并进行模型简化
[0048] 根据协议分析AFDX网络整网的数据传输过程,如图3所示,按照Arinc664协议,从发送端到接收端的数据传送具体的协议层为:AFDX发送端口-传输层-链路层-物理层-链路层-传输层-AFDX接收端口,在图3中对每一层次的基本功能和故障进行了分析。以为了便于对AFDX整网的故障进行检测,提取出传输路径的数据流,通过每条数据流的虚拟链路来简化模型,建立端端传输模型,发送端是发送ES1,中转设备为交换机Switch,接收端为接收ES2,如图4所示。
[0049] 步骤2确定AFDX网络四类完整性的优先次序
[0050] 步骤2.1分析AFDX网络的完整性功能结构
[0051] 图5所示为AFDX网络的完整性功能结构图,梳理出每一种完整性所对应的设备的功能。
[0052] 步骤2.2确定四类完整性的优先次序为源完整性、时间完整性、次序完整性、数据完整性。分析方法如下:
[0053] 步骤2.2.1如果数据发送到错误端口,即源完整性错误,则数据对于此接收端口失去意义,所以源完整性优先判断;
[0054] 步骤2.2.2时延是一个动态累计过程,时延过大影响时间完整性的数据,按照网络冗余管理算法会影响接收端对数据帧的按次序接收,所以次序完整性优先于时间完整性;
[0055] 步骤2.2.1对于符合三个完整性的数据帧,最后进行数据完整性的判断;
[0056] 步骤3根据用户要求的粒度,针对确定性网络整网完整性故障模式影响分析[0057] 以终端系统为例,按照如下步骤进AFDX整网的故障模式分析:
[0058] 步骤3.1明确分析对象类型和每一类器件所对应的故障模式
[0059] 基于功能结构图,分析终端系统的器件类型为:
[0060] 类型一、具备数据存储功能的存储器件,包括Flash、可编程存储器(Programmable ROM,简称为PROM)、同步动态随机存储器(Synchronous Dynamic Random Access Memory,简称为SDRAM)、双口随机存储器(Double Random Access Memory,简称为DPRAM);
[0061] 类型二、具备数据处理、控制功能的器件,包括CPU、现场可编程门阵列(Field-Programmable Gate Array,简称为FPGA);
[0062] 类型三、具备数据传输功能的器件,包括FPGA、变压器、物理层通路、电源管理控制(Power Management Circuit,简称为PMC)及传输信道;
[0063] 类型四、具备源功能的始能器件,包括电压转换电路、复位电路、变压器、晶振、时钟驱动器。
[0064] 对于第一类器件,故障模式大致分为3类:器件无法被访问、数据访问错误(包括数据本身错误以及访问过程中出错)、配置不当(可选,主要为缓冲区大小设置)。对于第二、三、四类器件,故障模式大致分为2类:器件失效、器件功能异常。由于第二类器件要对数据进行处理并进行控制,因此软件故障主要集中在该类器件上。对于该类器件,软件缺陷和逻辑故障是导致器件对数据处理失效的主要原因。
[0065] 步骤3.2依照表1,以终端系统为例,分析每一类故障对四种完整性的影响;
[0066] 表1终端系统故障对四种完整性的影响
[0067]
[0068]
[0069] 步骤3.3根据分析结果画出FMEA表,以AFDX网络端系统的FMEA表为例,如表2所示。
[0070] 表2 ES的FMEA表格
[0071]
[0072] 步骤4、以AFDX网络整网完整性为例,进行故障树定性和定量分析:
[0073] 步骤4.1建立故障树
[0074] 步骤4.1.1以四类完整性分析为第一层次,如图6,图中以整网数据完整性分支为例,其下一层事件分别为:①发送端ES数据完整性有误,②双网数据完整性有误,③接收端ES数据完整性有误。其中,①和③对应的下层事件为“ES失效”“ES工作异常”“ES传输数据异常”;
[0075] 步骤4.1.2从整网数据流传输的角度,逐层分析,如图7、8、9所示,直至用户要求的分析粒度。以图7为例,事件“ES失效”是由“器件工作失效”或“ES无法启动”引起的,其中“ES无法启动”由“CPU工作模式设置错误”(编号为109.3),“FLASH错误”,“PROM无法被访问”(编号为111.1),而“FLASH错误”可继续向下层,分解为“FLASH无法被访问”(编号为108.1)和“信息读取错误”(编号为108.2)。其他依次类推,直至底层事件的概率已知或是可测为止;
[0076] 步骤4.2AFDX网络的硬件故障和软件故障(包括逻辑故障和配置信息故障)的底层事件发生概率的求解方法
[0077] 步骤4.2.1硬件故障概率的求解方法(环境温度范围为-55℃~+70℃)
[0078] 对于工作中的元器件,根据元器件参数和工作环境查询GJBZ 299C-2006(电子设备可靠性预计手册)获取故障率λ;对于储备中的元器件,根据元器件参数和工作环境查询GJBZ108A-2006(电子设备非工作状态可靠性预计手册)获取故障率λ;
[0079] 步骤4.2.2软件故障概率的求解方法
[0080] 确定性网络的软件一般在软件测试中改动很少,推荐选用Musa-Okumoto模型,该模型失效强度伴随失效期望递减成指数递减,即λ(t)=λ0e-bm(t),b为失效率衰减参数,λ0为初始失效率;
[0081] 步骤4.3定性和定量分析
[0082] 步骤4.3.1定性分析
[0083] 以求解最小割集为目的的故障树定性分析,采用下行法或上行法以程序实现来求解。在本例中,由于所有底事件之间都是逻辑“或”的关系,那么每种地时间所对应的故障模式都可能单独导致顶事件的发生。如图7所示的“ES失效”故障树中,“器件工作失效”分支中的“电压转换电路故障”的底事件之间的关系是“或”,因此经过定性分析得到最小割集为{电源无法工作,编号为102.1},{输出电压超差(102.2)},{输出电压纹波过大(102.3)};
[0084] 步骤4.3.2以终端系统为例,定量分析
[0085] 步骤4.3.2.1假设失效函数为指数分布,取t=100h时的故障概率,以底事件101.1,101.2,101.3,101.4,101.5的失效率获取方法示例:该底事件为连接器失效,由国军标GJBZ 299C-2006计算连接器:
[0086] λp=λbπEπQπpπKπC=0.0229×2.6×0.2×1×0.216×212.72=0.547(×10-6/h)[0087] 式中:
[0088] λb——基本失效率,10-6/h;
[0089] πp-----有效插脚失效率修正值;
[0090] πE-----环境系数;
[0091] πQ-----质量系数;
[0092] πC-----插孔结构系数;
[0093] πK-----插拔系数。
[0094] 由ES的FMEA表可以得到PMC物理故障模式共分5种,假设每种故障模式发生的概率相等,那么每种底事件发生的次数占PMC总物理失效次数的20%,取100h故障概率的1/5为底事件概率。
[0095] 同理,可得到其他底事件的故障率,如表2所示:
[0096] 表2 AFDX整网故障树底事件发生概率的取值
[0097]
[0098]
[0099] 步骤4.3.2.2顶事件故障概率及重要度计算
[0100] 输入故障树模型及底事件概率,计算出顶事件故障概率为1.666893E-03。重要度分析如表3所示。
[0101] 表3数据完整性故障树重要度分析
[0102]
[0103]
[0104] 步骤5、依据分析结果,对整网的完整性提出故障检测结论
[0105] 应用本发明的故障检测方法,采用数据流的方法对整网的从数据传输进行了简化。不仅可以定性分析出最小割集,对数据、源、时间和次序完整性故障进行定位,也可以定量分析这四类完整性的故障概率和影响完整性的关键事件的重要度。较其他网络故障诊断和可靠性方法,本发明的方法更加适合确定性网络的故障检测,通过上述AFDX网络实例对本发明提出的基于数据流的完整性故障检测方法进行了验证。