设备故障的检测处理方法、装置和网络设备转让专利

申请号 : CN201010512112.7

文献号 : CN101980478B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘忠东陈宏涛杨红飞吴航

申请人 : 北京星网锐捷网络技术有限公司

摘要 :

本发明提供一种设备故障的检测处理方法、装置和网络设备,其中方法包括:判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧,并根据预设的检测规则获取检测结果;根据所述检测结果对出现故障的站点进行隔离处理。装置包括:检测模块和隔离模块。本发明提供的网络设备包括设备故障的检测处理装置。本发明解决了现有技术中无法对RPR环网中出现的一些故障进行准确检测而导致的通讯异常,实现了对RPR环网中的设备故障进行检测处理,及时屏蔽故障设备,使得网络中其他正常设备之间的通讯不受影响,提高了环网中各设备工作的效率。

权利要求 :

1.一种设备故障的检测处理方法,其特征在于,包括:

判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧,并根据预设的检测规则获取检测结果,所述相邻下一站点为所述相邻站点的下一跳对应的站点;

根据所述检测结果对出现故障的站点进行隔离处理。

2.根据权利要求1所述的方法,其特征在于,所述判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧,并根据预设的检测规则获取检测结果包括:判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧;

当与所述相邻站点相连的物理连接正常时,在所述预设的定时时间内未接收到所述相邻站点发送的拓扑保护帧时,判定所述相邻站点为出现故障的站点;

和/或,

当在所述预设的定时时间内接收到所述相邻站点发送的拓扑保护帧,且所述拓扑保护帧指示所述相邻站点存在下一跳,且在所述预设的定时时间内在同一环上未接收到所述相邻下一站点发送的拓扑保护帧时,判定所述相邻站点为出现故障的站点。

3.根据权利要求2所述的方法,其特征在于,所述根据所述检测结果对出现故障的站点进行隔离处理包括:由出现故障的站点的邻居站点向环网中的各站点发送连接异常的拓扑保护帧;

若在所述定时时间内未接收到所述相邻站点发送的拓扑保护帧,则将与所述出现故障的站点互联的连接的状态设置为邻居错误的信号失效状态;

和/或,

若在所述定时时间内未接收到所述相邻下一站点发送的拓扑保护帧,则将与所述出现故障的站点互联的连接的状态设置为邻居下一跳错误的信号失效状态。

4.根据权利要求3所述的方法,其特征在于,在所述根据所述检测结果对出现故障的站点进行隔离处理之后,还包括:当与所述出现故障的站点互联的连接的状态为所述邻居错误的信号失效状态,且接收到所述出现故障的站点发送的拓扑保护帧时,将所述出现故障的站点的状态设置为实际的物理状态;

和/或,

当与所述出现故障的站点互联的连接的状态为所述邻居下一跳错误的信号失效状态,且接收到所述出现故障的站点的下一跳对应的站点发送的拓扑保护帧时,将所述出现故障的站点的状态设置为实际的物理状态;

和/或,

当在所述出现故障的站点的线路上检测到真实的信号失效事件和/或用户强制保护事件时,将所述出现故障的站点的状态设置为实际的物理状态。

5.根据权利要求1所述的方法,其特征在于,在所述判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧之前,还包括:根据拓扑表的状态启动左邻居对应的拓扑保护帧接收定时器和/或右邻居对应的拓扑保护帧接收定时器。

6.根据权利要求5所述的方法,其特征在于,还包括:

根据所述相邻站点发送的拓扑保护帧的接收情况启动相邻下一站点的拓扑保护帧接收定时器。

7.一种设备故障的检测处理装置,其特征在于,包括:

检测模块,用于判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧,并根据预设的检测规则获取检测结果,所述相邻下一站点为所述相邻站点的下一跳对应的站点;

隔离模块,用于根据所述检测结果对出现故障的站点进行隔离处理。

8.根据权利要求7所述的装置,其特征在于,所述检测模块包括:判断单元,用于判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧;

第一判定单元,用于当与所述相邻站点相连的物理连接正常时,在所述预设的定时时间内未接收到所述相邻站点发送的拓扑保护帧时,判定所述相邻站点为出现故障的站点;

和/或,

第二判定单元,用于当在所述预设的定时时间内接收到所述相邻站点发送的拓扑保护帧,且所述拓扑保护帧指示所述相邻站点存在下一跳,且在所述预设的定时时间内在同一环上未接收到所述相邻下一站点发送的拓扑保护帧时,判定所述相邻站点为出现故障的站点。

9.根据权利要求8所述的装置,其特征在于,所述隔离模块包括:发送单元,用于由出现故障的站点的邻居站点向环网中的各站点发送连接异常的拓扑保护帧;

第一设置单元,用于若在所述定时时间内未接收到所述相邻站点发送的拓扑保护帧,则将与所述出现故障的站点互联的连接的状态设置为邻居错误的信号失效状态;

和/或,

第二设置单元,用于若在所述定时时间内未接收到所述相邻下一站点发送的拓扑保护帧,则将与所述出现故障的站点互联的连接的状态设置为邻居下一跳错误的信号失效状态。

10.根据权利要求9所述的装置,其特征在于,还包括:

恢复模块,用于在所述根据所述检测结果对出现故障的站点进行隔离处理之后,当与所述出现故障的站点互联的连接的状态为所述邻居错误的信号失效状态,且接收到所述出现故障的站点发送的拓扑保护帧时,将所述出现故障的站点的状态设置为实际的物理状态;和/或,当与所述出现故障的站点互联的连接的状态为所述邻居下一跳错误的信号失效状态,且接收到所述出现故障的站点的下一跳对应的站点发送的拓扑保护帧时,将所述出现故障的站点的状态设置为实际的物理状态;和/或,当在所述出现故障的站点的线路上检测到真实的信号失效事件和/或用户强制保护事件时,将所述出现故障的站点的状态设置为实际的物理状态。

11.根据权利要求7所述的装置,其特征在于,还包括:

第一启动模块,用于在所述判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧之前,根据拓扑表的状态启动左邻居对应的拓扑保护帧接收定时器和/或右邻居对应的拓扑保护帧接收定时器。

12.根据权利要求11所述的装置,其特征在于,还包括:

第二启动模块,用于根据所述相邻站点发送的拓扑保护帧的接收情况启动相邻下一站点的拓扑保护帧接收定时器。

13.一种网络设备,其特征在于,包括上述权利要求7-12中任一项所述的设备故障的检测处理装置。

说明书 :

设备故障的检测处理方法、装置和网络设备

技术领域

[0001] 本发明涉及通信技术,尤其涉及一种设备故障的检测处理方法、装置和网络设备。

背景技术

[0002] 弹性分组环(Resilient Packet Ring;以下简称:RPR)作为一种新型的介质接入控制(Media Access Control;以下简称:MAC)协议,具有同步数字体系(Synchronous Digital Hierarchy;以下简称:SDH)/同步光网络(Synchronous Optical Network;以下简称:SONET)环网的快速恢复能力和以太网的带宽使用的有效性。其集IP的智能化、以太网的经济性和光纤环网的高带宽效率、可靠性于一体,为宽带IP城域网运营商提供了良好的组网方案,使得运营商在城域网内以低成本提供电信级的服务成为可能,在提供类似SDH级网络可靠性的同时降低了传送费用。图1为现有技术中RPR环网的结构示意图,图2为现有技术中RPR环网的双环简化结构示意图,如图1和图2所示,图中包括6个RPR站点,即S1-S6,相邻的RPR站点间通过RPR接口连接,以形成一个环状网络。每个RPR接口均对应接收与发送线路,因此形成图1中所示的可双向传输的PRP环网。其中,LAN1、LAN2...LAN6表示与各RPR环上站点互联的内部网络,其通过RPR环网建立相互的通讯。
[0003] 图3为现有技术中RPR环网的开环示意图一,如图3所示,当RPR站点S5和S4之间的两个连接(link)均断开时,由于S5和S4之间无法传递任何数据,则对于S5而言,无法从环0收到任何站点的拓扑保护(Topology and Protection;以下简称:TP)帧,同时S5从环0发送的TP帧中指示其环1发生故障。对于S4而言无法从环1收到任何站点的TP帧,同时S4从环1发送的TP帧中指示其环0发生故障。对于S1而言,无法从环0收到S2-S4的TP帧,同时无法从环1收到S6-S5的TP帧,其余站点类似S1的行为。此时,环上所有站点均能检测到目前环网上存在6个站点,且当前处于开环模式,且故障发生在S5和S4之间,且各站点的拓扑表均和实际的物理拓扑一致,因此在这种模式下整网通讯正常。图4为现有技术中RPR环网的开环示意图二,如图4所示,当S5和S4之间只有一个link断开时,各个站点的行为与上述图2的情况类似,此处不再赘述。此时,只有S5才能感知link断开而S4认为link是完好的,所以在这种情况下S5、S4在标准中定义其应遵循以下规则:所有期望经过S5->S4这一link的其它站点的TP帧在S5站点中将被过滤丢弃;只有S5本身的TP帧允许经过该链路发送给S4;当S4检测到S5发来的TP帧指示S4-S5之间的线路(span)发生故障后,S4只接收S5的TP帧而不转发S5的TP帧,即站点S3从环1方向看不到S5的存在。在这种状态下,由各站点的拓扑表可以获知各站点的站点数、拓扑状态仍一致,即此时数据通讯处于正常状态。
[0004] 由上可知,在现有的RPR标准协议中已经定义了比较完善的机制来应对各种情况的故障事件,即只要各个站点能正常响应,则整个环网可以处于正常的工作模式。但是由于设备在使用过程中因老化、使用环境等因素影响会出现一些硬件损坏的故障,现有技术中对于上述情况下的故障,通常只配置冗余的设备,当检测到一台设备发生故障时启用另一台备份设备,这种解决方法无疑导致成本的增加。另外当碰到设备出现如某个站点只收发报文但无法转发报文或只转发报文而无法收发报文的情况时,即使采用冗余备份也无法检测出问题的存在并及时解决该问题。即现有技术中的RPR标准无法覆盖到这些故障,使得网络中其他正常设备之间的通讯也受到影响,最终导致整个RPR环网无法正常通讯。

发明内容

[0005] 本发明提供一种设备故障的检测处理方法、装置和网络设备,用以解决现有技术中无法对RPR环网中出现的一些故障进行准确检测而导致的通讯异常,实现对RPR环网中的设备故障进行检测处理,及时屏蔽故障设备,使得网络中其他正常设备之间的通讯不受影响,提高环网中设备工作的效率。
[0006] 本发明提供一种设备故障的检测处理方法,包括:
[0007] 判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧,并根据预设的检测规则获取检测结果;
[0008] 根据所述检测结果对出现故障的站点进行隔离处理。
[0009] 本发明提供一种设备故障的检测处理装置,包括:
[0010] 检测模块,用于判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧,并根据预设的检测规则获取检测结果;
[0011] 隔离模块,用于根据所述检测结果对出现故障的站点进行隔离处理。
[0012] 本发明提供一种网络设备,包括上述设备故障的检测处理装置。
[0013] 本发明的设备故障的检测处理方法、装置和网络设备,通过判断本地站点在预设的定时时间内是否接收到相邻站点发送的TP帧,以及是否接收到相邻下一站点发送的TP帧,根据预设的检测规则获取检测结果,并根据检测结果对出现故障的站点进行隔离处理;本实施例解决了现有技术中无法对RPR环网中出现的一些故障进行准确检测而导致的通讯异常,实现了对RPR环网中的设备故障进行检测处理,及时屏蔽故障设备,使得网络中其他正常设备之间的通讯不受影响,提高了环网中各设备工作的效率。

附图说明

[0014] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0015] 图1为现有技术中RPR环网的结构示意图;
[0016] 图2为现有技术中RPR环网的双环简化结构示意图;
[0017] 图3为现有技术中RPR环网的开环示意图一;
[0018] 图4为现有技术中RPR环网的开环示意图二;
[0019] 图5为本发明设备故障的检测处理方法实施例一的流程图;
[0020] 图6为本发明设备故障的检测处理方法实施例二的流程图;
[0021] 图7为本发明设备故障的检测处理装置实施例一的结构示意图图;
[0022] 图8为本发明设备故障的检测处理装置实施例二的结构示意图图。

具体实施方式

[0023] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0024] 为了更清楚地说明本发明的技术方案,以下先对RPR环网中的一些概念进行解释,具体可以参见图1和图2。其中,link表示RPR站点之间每个方向的连接。span为RPR环网中相邻两站点间的部分,由一对互为相反方向传输的单向link组成。每一个RPR站点均与其它两个RPR站点互联,因此对应有两个span,通常将这两个span按方位区分为西线路(west span)和东线路(east span)。例如对于图2中的S2而言,S2与S1互联的span对于S2称为west span,对于S1则称为east span,S2与S3互联的span对于S2称为east span,对于S3则称为west span。边缘(edge)表示不能正常传送数据的span,也是本文中描述的故障状态。与本站点相邻的站点称为本站点的邻居,邻居有左右之分,分别对应ringlet0(环0)和ringlet(环1),例如图2中S1的左邻居是S0,右邻居是S2。当处于网络边缘设备时,可能只有左邻居或者只有右邻居;当只有两台设备组网时,左右邻居将是同一台设备。
[0025] TP帧为RPR环网中用于拓扑发现与保护的交换报文,其使得环网中各站点设备能够通过TP帧发现其它设备以及其它设备当前连接的状态形成整网的拓扑表,用于后续的数据传输。其中TP帧的主要内容如下:
[0026]
[0027] 其中,字段esw表示west span的edge状态,字段ese表示east span的edge状态,字段psw表示west span的保护请求状态,字段pse表示east span的保护请求状态。RPR环网中可能出现的保护请求状态按优先级从高到低可以为强制交换(Forced Switch;
以下简称:FS)状态、信号失效(Signal Fail;以下简称:SF)状态、信号衰减(Signal Dgrade;以下简称:SD)状态、人工交换(Manual Switch;以下简称:MS)状态、等待恢复(Wait To Restore;以下简称:WTR)状态、空闲(IDLE)状态。其中,FS为用户强制保护请求;SF为接口信号失效引起的保护请求;SD为接口信号衰弱引起的保护请求,SONET/SDH网络中存在SD状态;MS为用户强制保护请求,其类似FS,但优先级低于FS;WTR为处于WTR期间的保护请求,WTR事件是当发生SF或SD的链路故障恢复后,RPR协议定义的一种恢复过渡状态,主要的目的是防止频繁的SF、SD恢复事件导致网络拓扑频繁振荡。RPR还提供了一个配置供用户选择是否希望WTR事件能够自动恢复还是永久保留WTR状态,除非发生了更高优先级的事件将其替代;IDLE为无保护请求。其中FS、SF、SD、MS、WTR等原因可能引起span的edge状态。
[0028] 在RPR环网中,各个站点之间通过TP帧的交互,拓扑稳定后各站点最终将形成各自的拓扑表,当本地的拓扑表验证通过,即符合拓扑一致性校验规则,以及当前本地拓扑与相邻的左右邻居的拓扑校验和一致,则认为RPR环网当前工作正常,否则认为RPR环网当前工作异常。以图1为例,正常情况下的各站点的拓扑表如下表1所示,此处仅以S1为例,从TP帧的接收方向看,本站点在Ringlet域中以Local标出进行说明:
[0029] 表1站点S1的拓扑表
[0030]
[0031] 在表1中,Local表示为本站点,从站点自身的角度出发,从环0(顺时针接收)方向依次看到的站点为S6-S2,最终也会看到S1自身;同理从环1方向(逆时针接收)看,按顺序依次看到的站点为S2-S6,最终又会看到S1自身。由于TP帧回到源站点后会被剥离,不再进一步转发,因此最终形成上述拓扑表而不会无限延伸。从上表可以看出,当前网络拓扑中共存在6个站点,而且拓扑环路为闭环,闭环情况下其余站点的拓扑表与S1类似。仔细推演各站点的拓扑,可以发现各站点的拓扑表都和实际的物理拓扑一致,因此在这种模式下整网通讯正常。
[0032] 图5为本发明设备故障的检测处理方法实施例一的流程图,如图5所示,本实施例提供了一种设备故障的检测处理方法,可以具体包括如下步骤:
[0033] 步骤501,判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧,并根据预设的检测规则获取检测结果。
[0034] 本实施例为针对RPR环网中的各站点,分别设置定时器,通过定时器的计时操作,判断本地站点在预设的定时时间内是否能接收到相邻站点或相邻下一站点发送的拓扑保护(TP)帧。本实施例以环网中某一个站点的帧接收情况为例进行说明,因此此处的本地站点为环网中的某一站点,并非特定的站点。本实施例中的RPR环网结构可以与现有技术中相同,因此参见图1,如以站点S1为例来说明,则本地站点为S1,本领域技术人员可以理解,对于其他站点的实施方式与站点S1类似。此处的定时时间可以根据实际情况在对应的定时器上进行预设,通常,RPR标准中定义的TP帧最长定时发送时间间隔为1秒,由于RPR标准中定义了拓扑恢复时间为50ms,因此对线路延迟以及过程设备的传输延时时间也有严格的规定,必须为10ms以内。因此,本实施例中可以将定时时间设置为3秒。本实施例中的相邻站点为RPR环网中与本地站点相邻的站点,相邻下一站点为在RPR环网的同一环中相邻站点的下一跳对应的站点。参见图1,仍以本地站点为S1为例,则相邻站点为S2或S6,相邻下一站点为与S2相邻的站点S3或与S6相邻的站点S5。本步骤为判断本地站点在预设的定时时间内是否接收到相邻站点发送的TP帧以及判断是否接收到相邻下一站点发送的TP帧,并根据预设的检测规则获取检测结果,即根据预设的检测规则判定本地站点的相邻站点是否出现故障。
[0035] 具体地,本实施例中预设的检测规则可以包括以下两种情况:当与所述相邻站点相连的物理连接正常时,在所述预设的定时时间内未接收到所述相邻站点发送的拓扑保护帧时,则判定所述相邻站点为出现故障的站点。继续参见图1,本地站点为S1时,若与S1的相邻站点S2相连的物理连接正常的情况下,在定时时间内在环0上未接收到S1的相邻站点S2发送的TP帧,则认为相邻站点S2发生异常,S2为出现故障的站点。当在所述预设的定时时间内接收到所述相邻站点发送的拓扑保护帧,且所述拓扑保护帧指示所述相邻站点存在下一跳,且在所述预设的定时时间内在同一环上未接收到所述相邻下一站点发送的拓扑保护帧时,判定所述相邻站点为出现故障的站点。继续参见图1,本地站点为S1时,若在定时时间内在环0上接收到S1的相邻站点S2发送的TP帧,且该TP帧指示相邻站点S2存在下一跳S3,但在环0上未接收到相邻下一站点S3的TP帧,则认为相邻站点S2发生异常,S2为出现故障的站点。
[0036] 步骤502,根据所述检测结果对出现故障的站点进行隔离处理。
[0037] 在经过上述步骤获取到检测结果后,如果检测结果表明本地站点出现故障,则对出现故障的站点进行隔离处理,如果检测结果表明本地站点未出现故障,则继续执行上述步骤501进行故障检测,以及时对出现故障的站点进行处理。本实施例中仅以环网中的一个站点作为本地站点,对本地站点的邻居站点是否出现故障的情况进行检测并隔离处理为例进行说明,本实施例对环网中所有站点均执行上述的检测处理过程,以及时检测到出现故障的站点。
[0038] 具体地,本实施例中的上述步骤502可以具体包括如下步骤:首先,由出现故障的站点的邻居站点向环网中的各站点发送连接异常的拓扑保护帧。当通过上述步骤检测到邻居站点出现异常后,则由出现故障的站点的邻居站点向环网中的其他站点发送连接异常的TP帧,即由离出现故障的站点最近的两个站点发起连接span异常的TP帧。需要指出的是,如果RPR环网处于开环状态,则此处发送TP帧的站点可能只有一个。其次,若在所述定时时间内未接收到所述相邻站点发送的拓扑保护帧,则将与所述出现故障的站点互联的连接的状态设置为邻居错误的信号失效状态。在本实施例中,经过上述判断过程,在判定相邻站点出现故障后,如果检测过程中在定时时间内本地站点未接收到相邻站点发送的TP帧,则将与出现故障的站点互联的link的状态设置为邻居错误(Neighbor Error;以下简称:NE)的SF状态,即SF_NE状态,并触发RPR环网中拓扑变化事件,即触发对RPR环网中各站点的拓扑状态的更新。若在所述定时时间内未接收到所述相邻下一站点发送的拓扑保护帧,则将与所述出现故障的站点互联的连接的状态设置为邻居下一跳错误的信号失效状态。在本实施例中,如果检测过程中在定时时间内本地站点未接收到相邻下一站点发送的TP帧,则将与出现故障的站点互联的link的状态设置为邻居下一跳错误(Neighbor Nexthop Error;以下简称:NNE)的SF状态,即SF_NNE状态,并触发RPR环网中拓扑变化事件,即触发对RPR环网中各站点的拓扑状态的更新。此处的FS事件并非真实的FS事件,本实施例中为了将其与真实的FS事件作区分,故将其设定为SF_NE状态和SF_NNE状态。
[0039] 本实施例提供了一种设备故障的检测处理方法,通过判断本地站点在预设的定时时间内是否接收到相邻站点发送的TP帧,以及是否接收到相邻下一站点发送的TP帧,根据预设的检测规则获取检测结果,并根据检测结果对出现故障的站点进行隔离处理;本实施例解决了现有技术中无法对RPR环网中出现的一些故障进行准确检测而导致的通讯异常,实现了对RPR环网中的设备故障进行检测处理,及时屏蔽故障设备,使得网络中其他正常设备之间的通讯不受影响,提高了环网中各设备工作的效率。
[0040] 图6为本发明设备故障的检测处理方法实施例二的流程图,如图6所示,本实施例提供了一种设备故障的检测处理方法,可以具体包括如下步骤:
[0041] 步骤601,根据拓扑表的状态启动左邻居的TP帧接收定时器和/或右邻居的TP帧接收定时器。
[0042] 在执行本实施例中的设备故障的检测处理方法时,对于RPR环网中的各站点来说,当在某一站点上进行故障检测时,该站点当前为本地站点。本步骤为本地站点根据RPR环网中当前拓扑表的状态获取其对应的左邻居和右邻居,并根据当前拓扑表的状态启动其左邻居的TP帧接收定时器和/或右邻居的TP帧接收定时器。当本地站点存在左邻居时,启动左邻居的TP帧接收定时器;当本地站点存在右邻居时,启动右邻居的TP帧接收定时器;当本地站点同时存在左邻居和右邻居时,同时启动左邻居的TP帧接收定时器和右邻居的TP帧接收定时器。后续仅以本地站点的一个邻居站点的检测情况为例进行说明,假设为左邻居站点,但统称为相邻站点,另外一个邻居站点的检测情况与此类似。
[0043] 步骤602,判断在预设的定时时间内是否接收到相邻站点发送的TP帧,如果是,则执行步骤603,否则执行步骤609。
[0044] 在启动邻居站点的TP帧接收定时器后,实时判断在该定时器超时之前是否接收到相邻站点发送的TP帧,如果是,则执行步骤603,否则执行步骤609。即当在预设的定时时间内接收到相邻站点发送的TP帧时,则将该定时器进行重置处理,并执行后续步骤;当定时器超时,但仍未接收到相邻站点发送的TP帧,则表明该相邻站点出现故障,执行后续步骤609。
[0045] 步骤603,将相邻站点的TP帧接收定时器进行重置,并执行后续步骤604。
[0046] 当在预设的定时时间内接收到相邻站点发送的TP帧时,将该相邻站点的TP帧接收定时器进行重置处理,即重新开始计时,检测在下一个定时周期是否能接收到TP帧。在对相邻站点的TP帧接收定时器进行重置的同时,还执行后续步骤604,判断相邻站点是否存在下一跳,并执行后续的步骤。
[0047] 步骤604,根据接收到的TP帧判断相邻站点是否存在下一跳,如果是,则执行步骤605,否则返回执行步骤602。
[0048] 在本实施例中,在接收到相邻站点发送的TP帧,在对相邻站点的TP帧接收定时器进行重置的同时,还根据接收到的TP帧判断相邻站点在同一环上是否存在下一跳,如果存在,则执行步骤605,继续判断相邻下一站点的帧接收情况,并执行后续步骤,否则返回执行步骤602。
[0049] 步骤605,判断相邻站点的下一跳对应的站点的TP帧接收定时器是否已经启动,如果是,则执行步骤606,否则执行步骤607。
[0050] 当接收到的TP帧指示该相邻站点还存在下一跳,则先判断该相邻站点的下一跳对应的站点的TP帧接收定时器当前是否已启动,即判断相邻下一站点的TP帧接收定时器当前是否已启动,如果已启动,则执行步骤606,否则先将该定时器启动,再执行步骤606。
[0051] 步骤606,判断在定时时间内是否接收到相邻下一站点发送的TP帧,如果是,则执行步骤608,否则执行步骤610。
[0052] 当相邻站点的下一跳对应的站点,即相邻下一站点的TP帧接收定时器已经启动,且在该定时器的定时时间内接收到相邻下一站点发送的TP帧时,则表明该本地站点的相邻站点未出现故障,当前处于正常状态,则执行步骤608。如果在相邻下一个站点的TP帧接收定时器对应的定时时间内未接收到相邻下一站点发送的TP帧,则表明相邻站点出现故障,执行步骤610。
[0053] 步骤607,启动相邻下一站点的TP帧接收定时器,并执行步骤606。
[0054] 当相邻下一站点的TP帧接收定时器当前未启动时,则先将该定时器启动,再返回执行步骤606。
[0055] 步骤608,将相邻下一站点的TP帧接收定时器进行重置,并返回执行步骤602。
[0056] 当在预设的定时时间内未接收到相邻下一站点发送的TP帧时,则将相邻下一站点的TP帧接收定时器进行重置处理,并再返回执行步骤602。
[0057] 步骤609,将与所述出现故障的站点互联的连接的状态设置为SF_NE。
[0058] 当在相邻站点的TP帧接收定时器的定时时间内未接收到相邻站点发送的TP帧,但接收到相邻下一站点发送的TP帧,则表明相邻站点失效,则对将相邻站点进行隔离处理,将与出现故障的站点互联的link的状态设置为SF_NE,并触发拓扑变化事件。
[0059] 步骤610,将与所述出现故障的站点互联的连接的状态设置为SF_NNE。
[0060] 当在相邻站点的TP帧接收定时器的定时时间内接收到相邻站点发送的TP帧,且该TP帧指示该相邻站点存在下一跳,且未接收到相邻下一站点发送的TP帧,则表明相邻站点失效,则对将相邻站点进行隔离处理,将与出现故障的站点互联的link的状态设置为SF_NNE,并触发拓扑变化事件。
[0061] 在本实施例中,当对RPR环网中出现故障的站点进行隔离处理后,还可以包括如下步骤:当与所述出现故障的站点互联的连接的状态为所述邻居错误的信号失效状态,且接收到所述出现故障的站点发送的拓扑保护帧时,将所述出现故障的站点的状态设置为实际的物理状态。和/或,当与所述出现故障的站点互联的连接的状态为所述邻居下一跳错误的信号失效状态,且接收到所述出现故障的站点的下一跳对应的站点发送的拓扑保护帧时,将所述出现故障的站点的状态设置为实际的物理状态。和/或当在所述出现故障的站点的线路上检测到真实的信号失效事件和/或用户强制保护事件时,将所述出现故障的站点的状态设置为实际的物理状态。在将环网中出现故障的站点进行隔离后,当与所述出现故障的站点互联的连接的状态为SF_NE,在任意时刻接收到该出现故障的站点发送的TP帧时,表明该故障站点已恢复,则取消对该故障站点的隔离状态,将该站点的状态设置为实际的物理状态。当与所述出现故障的站点互联的连接的状态为SF_NNE,在任意时刻接收到该出现故障的相邻下一站点发送的TP帧时,表明该故障站点已恢复,则取消对该故障站点的隔离状态,将该站点的状态设置为实际的物理状态。或者,在将环网中出现故障的站点进行隔离后,当在所述出现故障的站点的span上检测到真实的SF事件或更高级的FS事件时,表明该故障站点已恢复,则取消对该故障站点的隔离状态,将该站点的状态设置为实际的物理状态。
[0062] 下述以一个具体的故障实例进行说明,继续参照图1,站点S4由于老化等原因,出现S4只会收发报文,而不能转发报文的故障。当故障出现后,由于当前是在拓扑稳定的情况下发生该故障,依据现有技术中的RPR标准规定该故障不会引发任一站点的TP帧发生变化,所以这时各个站点的拓扑依然处于稳定状态,所有的拓扑表维持不变,则现有技术中所有的站点依然认为当前的拓扑如图1所示。而当采用本实施例的设备故障的检测处理方法后,设备S5、S3由于在定时时间内接收到相邻站点发送的TP帧,且该TP帧指示S4存在下一跳,但未接收到相邻下一站点S3或S5发送的TP帧,导致S5、S3认为S4发生故障,强制认为与S4互联的link发生故障,形成如下表2-表7所示的拓扑,并对外通告与S4互联的link的故障状态,触发了拓扑变化事件,使得全网的设备拓扑最终一致:
[0063] 表2站点S1的拓扑表
[0064]Ringlet Hop Station Name Status
0 3 NULL Invalid(SF EDGE)
0 2 S5 Valid&Reachable
0 1 S6 Valid&Reachable
Local 0 S1 Valid&Reachable
1 1 S2 Valid&Reachable
1 2 S3 Valid&Reachable
1 3 NULL Invalid(SF EDGE)
[0065] 表3站点S2的拓扑表
[0066]Ringlet Hop Station Name Status
0 4 NULL Invalid(SF EDGE)
0 3 S5 Valid&Reachable
0 2 S6 Valid&Reachable
0 1 S1 Valid&Reachable
Local 0 S2 Valid&Reachable
1 1 S3 Valid&Reachable
1 2 NULL Invalid(SF EDGE)
[0067] 表4站点S3的拓扑表
[0068]
[0069] 表5站点S4的拓扑表
[0070]Ringlet Hop Station Name Status
0 1 S3 Valid&Unreachable(IDLE EDGE)
Local 0 S4 Valid&Reachable
1 1 S5 Valid&Unreachable(IDLE EDGE)
[0071] 表6站点S5的拓扑表
[0072]
[0073] 表7站点S6的拓扑表
[0074]Ringlet Hop Station Name Status
0 1 NULL Invalid(SF EDGE)
0 1 S5 Valid&Reachable
Local 0 S6 Valid&Reachable
1 1 S1 Valid&Reachable
1 2 S2 Valid&Reachable
1 3 S3 Valid&Reachable
1 4 NULL Invalid(SF EDGE)
[0075] 从上述表2-表7可以看出,所有站点的的拓扑表是一致的,都是开环而且环上站点数一致,因此最终故障站点S4将被隔离开来,保证了剩余其它站点的正常通讯。
[0076] 继续参照图1,站点S4由于老化等原因,出现S4只会转发报文,而不能收发报文的故障。当故障出现后,由于当前是在拓扑稳定的情况下发生该故障,依据目前的RPR标准规定该故障不会引发任一站点的TP帧发生变化,所以这时各个站点的拓扑依然处于稳定状态,所有的拓扑表维持不变,则现有技术中所有的站点依然认为当前的拓扑如图1所示。而当采用本实施例的设备故障的检测处理方法后,设备S5、S3由于在定时时间内未接收到相邻站点发送的TP帧,且可以接收到相邻下一站点S3或S5发送的TP帧,导致S5、S3认为S4发生故障,强制认为与S4互联的link发生故障,形成如下表8-表13所示的拓扑,并对外通告与S4互联的link的故障状态,触发了拓扑变化事件,使得全网的设备拓扑最终一致。
[0077] 表8站点S1的拓扑表
[0078]Ringlet Hop Station Name Status
0 3 NULL Invalid(SF EDGE)
0 2 S5 Valid&Reachable
0 1 S6 Valid&Reachable
Local 0 S1 Valid&Reachable
1 1 S2 Valid&Reachable
1 2 S3 Valid&Reachable
1 3 NULL Invalid(SF EDGE)
[0079] 表9站点S2的拓扑表
[0080]Ringlet Hop Station Name Status
0 4 NULL Invalid(SF EDGE)
0 3 S5 Valid&Reachable
0 2 S6 Valid&Reachable
0 1 S1 Valid&Reachable
Local 0 S2 Valid&Reachable
1 1 S3 Valid&Reachable
1 2 NULL Invalid(SF EDGE)
[0081] 表10站点S3的拓扑表
[0082]Ringlet Hop Station Name Status
0 5 NULL Invalid(SF EDGE)
0 4 S5 Valid&Reachable
0 3 S6 Valid&Reachable
0 2 S1 Valid&Reachable
0 1 S2 Valid&Reachable
Local 0 S3 Valid&Reachable
1 1 NULL Invalid(SF-NE EDGE)
[0083] 表11站点S4的拓扑表
[0084]Ringlet Hop Station Name Status
0 1 NULL Invalid
Local 0 S4 Valid&Reachable
1 1 NULL Invalid
[0085] 表12站点S5的拓扑表
[0086]Ringlet Hop Station Name Status
0 1 NULL Invalid(SF-NE EDGE)
Local 0 S5 Valid&Reachable
1 1 S6 Valid&Reachable
1 2 S1 Valid&Reachable
1 3 S2 Valid&Reachable
1 4 S3 Valid&Reachable
1 5 NULL Invalid(SF EDGE)
[0087] 表13站点S6的拓扑表
[0088]Ringlet Hop Station Name Status
0 1 NULL Invalid(SF EDGE)
0 1 S5 Valid&Reachable
Local 0 S6 Valid&Reachable
1 1 S1 Valid&Reachable
1 2 S2 Valid&Reachable
1 3 S3 Valid&Reachable
1 4 NULL Invalid(SF EDGE)
[0089] 从上述表8-表13最终可以看到,所有的站点的的拓扑表是一致的,都是开环而且环上站点数一致,因此故障站点将被隔离开来,保证了剩余其它站点的正常通讯。
[0090] 另外,当S4因设备更换等原因恢复正常后或者管理员强制拔掉S4的外接线缆后,S5、S3将会检测到这一新事件,而将原先的SF_NE事件替换掉按标准定义的处理流程进行操作。
[0091] 本实施例提供了一种设备故障的检测处理方法,通过判断本地站点在预设的定时时间内是否接收到相邻站点发送的TP帧,以及是否接收到相邻下一站点发送的TP帧,根据预设的检测规则获取检测结果,并根据检测结果对出现故障的站点进行隔离处理;本实施例解决了现有技术中无法对RPR环网中出现的一些故障进行准确检测而导致的通讯异常,实现了对RPR环网中的设备故障进行检测处理,及时屏蔽故障设备,使得网络中其他正常设备之间的通讯不受影响,提高了环网中各设备工作的效率。
[0092] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0093] 图7为本发明设备故障的检测处理装置实施例一的结构示意图,如图7所示,本实施例提供了一种设备故障的检测处理装置,本实施例可以具体执行上述方法实施例一中的各个步骤,此处不再赘述。本实施例提供的设备故障的检测处理装置可以具体包括检测模块701和隔离模块702。其中,检测模块701用于判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧,并根据预设的检测规则获取检测结果。隔离模块702用于根据所述检测结果对出现故障的站点进行隔离处理。
[0094] 图8为本发明设备故障的检测处理装置实施例二的结构示意图,如图8所示,本实施例提供了一种设备故障的检测处理装置,本实施例可以具体执行上述方法实施例二中的各个步骤,此处不再赘述。本实施例提供的设备故障的检测处理装置在上述图7所示的基础之上,检测模块701可以具体包括判断单元711以及第一判定单元721和/或第二判定单元731。其中,判断单元711用于判断在预设的定时时间内是否接收到相邻站点发送的拓扑保护帧以及是否接收到相邻下一站点发送的拓扑保护帧,所述相邻下一站点为所述相邻站点的下一跳对应的站点。第一判定单元721用于当与所述相邻站点相连的物理连接正常时,在所述预设的定时时间内未接收到所述相邻站点发送的拓扑保护帧时,判定所述相邻站点为出现故障的站点。第二判定单元731用于当在所述预设的定时时间内接收到所述相邻站点发送的拓扑保护帧,且所述拓扑保护帧指示所述相邻站点存在下一跳,且在所述预设的定时时间内在同一环上未接收到所述相邻下一站点发送的拓扑保护帧时,判定所述相邻站点为出现故障的站点。
[0095] 具体地,本实施例提供的设备故障的检测处理装置中的隔离模块702可以具体包括发送单元712以及第一设置单元722和/或第二设置单元732。其中,发送单元712用于由出现故障的站点的邻居站点向环网中的各站点发送连接异常的拓扑保护帧。第一设置单元722用于若在所述定时时间内未接收到所述相邻站点发送的拓扑保护帧,则将与所述出现故障的站点互联的连接的状态设置为邻居错误的信号失效状态。第二设置单元732用于若在所述定时时间内未接收到所述相邻下一站点发送的拓扑保护帧,则将与所述出现故障的站点互联的连接的状态设置为邻居下一跳错误的信号失效状态。
[0096] 更进一步地,本实施例提供的设备故障的检测处理装置还可以包括恢复模块703。恢复模块703用于在所述根据所述检测结果对出现故障的站点进行隔离处理之后,当与所述出现故障的站点互联的连接的状态为所述邻居错误的信号失效状态,且接收到所述出现故障的站点发送的拓扑保护帧时,将所述出现故障的站点的状态设置为实际的物理状态;
和/或,当与所述出现故障的站点互联的连接的状态为所述邻居下一跳错误的信号失效状态,且接收到所述出现故障的站点的下一跳对应的站点发送的拓扑保护帧时,将所述出现故障的站点的状态设置为实际的物理状态;和/或,当在所述出现故障的站点的线路上检测到真实的信号失效事件和/或用户强制保护事件时,将所述出现故障的站点的状态设置为实际的物理状态。
[0097] 更进一步地,本实施例提供的设备故障的检测处理装置还可以包括第一启动模块704。第一启动模块704用于在所述判断在预设的定时时间内是否接收到相邻站点或相邻下一站点发送的拓扑保护帧之前,根据拓扑表的状态启动左邻居对应的拓扑保护帧接收定时器和/或右邻居对应的拓扑保护帧接收定时器。
[0098] 更进一步地,本实施例提供的设备故障的检测处理装置还可以包括第二启动模块705,第二启动模块705用于根据所述相邻站点发送的拓扑保护帧的接收情况启动邻居下一跳对应的拓扑保护帧接收定时器。
[0099] 本实施例提供了一种设备故障的检测处理装置,通过判断本地站点在预设的定时时间内是否接收到相邻站点发送的TP帧,以及是否接收到相邻下一站点发送的TP帧,根据预设的检测规则获取检测结果,并根据检测结果对出现故障的站点进行隔离处理;本实施例解决了现有技术中无法对RPR环网中出现的一些故障进行准确检测而导致的通讯异常,实现了对RPR环网中的设备故障进行检测处理,及时屏蔽故障设备,使得网络中其他正常设备之间的通讯不受影响,提高了环网中各设备工作的效率。
[0100] 本实施例还提供了一种网络设备,可以具体为交换机或路由器等,本实施例的网络设备可以包括上述图7或图8所示的设备故障的检测处理装置。
[0101] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。