一种网络设备的故障处理方法及系统转让专利

申请号 : CN201110300814.3

文献号 : CN102355368B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 官福山黄惠群田铭

申请人 : 大连环宇移动科技有限公司

摘要 :

本发明公开了一种网络设备的故障处理方法,包括以下步骤:读取网络设备中各单板的运行状态信息,根据网络设备中各单板的运行状态信息生成并存储相应单板的日志文件;实时或根据用户的触发读取并分析日志文件,根据日志文件对相应单板进行故障检测分析。本发明提供的网络设备的故障处理方法通过对关键位置的数据的自动读取及统计分析,实现对网络设备的故障检测,并对可恢复故障进行自动恢复,不可恢复故障上报网管,因而可在极短的时间内,无需管理员的参与,在用户无感知的情况下排除常见的设备故障,大大降低了故障时间。

权利要求 :

1.一种网络设备的故障处理方法,其特征在于,所述方法包括以下步骤:读取网络设备中各单板的运行状态信息,根据网络设备中各单板的运行状态信息生成并存储相应单板的日志文件;

实时或根据用户的触发读取并分析日志文件,根据日志文件对相应单板进行故障检测分析;

其中,所述根据日志文件对相应单板进行故障检测分析的步骤包括以下步骤:根据日志文件中的关键位置数据进行统计,通过对统计结果的分析比较确定相应单板的故障类型;

判断故障是否为可恢复故障,是则对相应单板进行故障恢复,否则对于不可恢复的故障,上报网管,通过网管平台显示相应单板的故障信息;

当通过对统计结果的分析比较不能确定相应单板的故障类型时,所述方法还包括以下步骤:将相应单板设置为调试状态并通告网管;

为相应的单板配置表项,由相应单板对自身发送调试包并根据返回的信号类型,确定相应单板的故障类型;

当相应单板的故障被确定或被排除后,删除配置的表项,并解除相应单板的调试状态;

其中,所述为相应的单板配置表项的步骤包括以下步骤:当通过对统计结果的分析比较不能确定相应单板的故障类型时,在相应单板插入一条协议类型为TCP的固定聚合表;

将相应单板的输出端口配置为相应单板的端口号;

在主控板插入一条协议类型为TCP的固定关键词表。

2.如权利要求1所述的网络设备的故障处理方法,其特征在于,所述对相应单板进行故障恢复的步骤包括以下步骤:对相应单板进行软件复位;

当相应单板经三次软件复位仍无法正常启动时,认为相应单板的故障不可恢复,并向网管发出相应单板的掉线故障信号。

3.如权利要求1所述的网络设备的故障处理方法,其特征在于,所述上报网管,通过网管平台显示相应单板的故障信息的步骤之前或之后,还包括以下步骤:通过命令行的方式显示用户在线调试和查询接口界面;

接收调试人员在该接口界面中输入的读取信号及调试函数调用信号;

根据接收的读取信号,读取存储的相应单板的日志信号,并根据接收的调试函数调用信号调用相应的调试函数。

4.如权利要求1所述的网络设备的故障处理方法,其特征在于,所述上报网管,通过网管平台显示相应单板的故障信息的步骤之前或之后,还包括以下步骤:向网管上报单板的表项条目数;

网管将该表项条目数与网管存储的相应的表项条目数进行比对,并当该表项条目数与网管存储的相应的表项条目数不一致时,由网管删除表项并重新下发。

5.一种网络设备的故障处理系统,其特征在于,所述系统包括:读取模块,用于读取网络设备中各单板的运行状态信息;

日志生成模块,用于根据网络设备中各单板的运行状态信息生成相应单板的日志文件;

存储模块,用于存储日志文件;

故障检测分析模块,用于实时或根据用户的触发读取并分析日志文件,根据日志文件对相应单板进行故障检测分析;

所述故障检测分析模块包括:

故障类型确定模块,用于根据日志文件中的关键位置数据进行统计,通过对统计结果的分析比较确定相应单板的故障类型;

调试模块,用于当通过对统计结果的分析比较不能确定相应单板的故障类型时,将相应单板设置为调试状态并通告网管,之后为相应的单板配置表项,由相应单板对自身发送调试包并根据返回的信号类型,确定相应单板的故障类型,并当相应单板的故障被确定或被排除后,删除配置的表项,并解除相应单板的调试状态;所述调试模块实现为相应的单板配置表项的过程为:当通过对统计结果的分析比较不能确定相应单板的故障类型时,在相应单板插入一条协议类型为TCP的固定聚合表;将相应单板的输出端口配置为相应单板的端口号;在主控板插入一条协议类型为TCP的固定关键词表;

判断模块,用于判断故障是否为可恢复故障;

故障恢复模块,用于当判断模块判断故障是否为可恢复故障时,对相应单板进行故障恢复;

上报模块,用于当判断模块判断故障是否为不可恢复故障时,上报网管,通过网管平台显示相应单板的故障信息,并当判断模块判断故障是否为可恢复故障时,将故障恢复信息发送给网管,由网管重新下发表项。

6.如权利要求5所述的网络设备的故障处理系统,其特征在于,所述读取模块置于网络设备的各单板中;所述日志生成模块、存储模块、以及故障检测分析模块置于网络设备的主控板中。

说明书 :

一种网络设备的故障处理方法及系统

技术领域

[0001] 本发明属于通信技术领域,尤其涉及一种网络设备的故障处理方法及系统。

背景技术

[0002] 随着信息技术的不断发展及其对人类生活各个方面影响力的日益加深,网络基础设施已经成为关系国计民生的战略资源,常见、多发的网络设备故障严重影响了网络的生存性和可靠性。为避免或尽可能降低由此造成的巨大经济损失,及时发现和排除设备故障有着举足轻重的重要作用。
[0003] 在网络设施运营维护中,网络管理员承担着绝大部分网络环境和设备的感知、分析、决策、执行等任务,而人工的分析、检测和故障排查周期通常以天为单位,严重影响了设备的可用性。现有技术主要通过人工干预的方式实现网络设备的故障处理,在网络设备发生故障时,由用户发现异常并通知网络管理部门、由此触发网络管理员对当前网络状态的检测、分析以及基于知识和经验的决策过程。
[0004] 在此种网络设备的故障处理方式下,网络设备的可用性差,用户损失较大,且用户对网络故障的感知无法避免,势必大大降低用户对该网络运营商的满意程度。

发明内容

[0005] 本发明实施例的目的在于提供一种网络设备的故障处理方法,以解决现有技术通过人工干预的方式实现网络设备的故障处理,网络设备的可用性差,用户损失较大,且降低了用户对网络运营商的满意程度的问题。
[0006] 本发明实施例是这样实现的,一种网络设备的故障处理方法,所述方法包括以下步骤:
[0007] 读取网络设备中各单板的运行状态信息,根据网络设备中各单板的运行状态信息生成并存储相应单板的日志文件;
[0008] 实时或根据用户的触发读取并分析日志文件,根据日志文件对相应单板进行故障检测分析。
[0009] 本发明提供的网络设备的故障处理方法通过对关键位置的数据的自动读取及统计分析,实现对网络设备的故障检测,并对可恢复故障进行自动恢复,不可恢复故障上报网管,因而可在极短的时间内,无需管理员的参与,在用户无感知的情况下排除常见的设备故障,大大降低了故障时间。

附图说明

[0010] 图1是现有一种网络设备的典型结构图;
[0011] 图2是本发明提供的网络设备的故障处理方法的流程图;
[0012] 图3是图2中,步骤S102的具体流程图;
[0013] 图4是本发明提供的网络设备的故障处理系统的结构图;
[0014] 图5是图4中故障检测分析模块的结构图。

具体实施方式

[0015] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0016] 一般地,现有技术中的网络设备内部由多个具有不同功能的单板及一个对多个单板进行管理控制的主控板构成,本发明本发明提供的网络设备的故障处理方法将置于网络数据传输路径上的单板相互之间的数据作为关键位置数据,通过对关键位置数据的分析,实现故障检测功能。例如,如图1示出了一种网络设备的典型结构,其包括置于网络数据顺次传输路径上的分别作为单板的商用芯片、第一现场可编程门阵列芯片、第二现场可编程门阵列芯片以及SPI接口。本发明提供的网络设备的故障处理方法将商用芯片与网络设备外部的传输路径上的数据、商用芯片与第一现场可编程门阵列芯片之间的传输路径上的数据、第一现场可编程门阵列芯片与第二现场可编程门阵列芯片之间的传输路径上的数据、第二现场可编程门阵列芯片与SPI接口之间的传输路径上的数据、SPI接口与网络设备外部的传输路径上的数据作为关键位置数据。
[0017] 如图2所示,本发明提供的网络设备的故障处理方法包括以下步骤:
[0018] 在步骤S101中,读取网络设备中各单板的运行状态信息,根据网络设备中各单板的运行状态信息生成并存储相应单板的日志文件。
[0019] 本发明中,以单板的机架号、端口号和板类型来区别不同单板的日志文件,因此,当单板的位置发生变化后,需重新生成日志文件。
[0020] 在步骤S102中,实时或根据用户的触发读取并分析日志文件,根据日志文件对相应单板进行故障检测分析。
[0021] 其中,如图3所示,步骤S102中,根据日志文件对相应单板进行故障检测分析的步骤进一步包括以下步骤:
[0022] 在步骤S201中,根据日志文件中的关键位置数据进行统计,通过对统计结果的分析比较确定相应单板的故障类型。其中,单板的故障类型可以并不限于为:硬件故障、查表故障、线路接口故障和掉线故障。
[0023] 为了提高故障类型判断的可靠性,本发明在通过对统计结果的分析比较而不能确定相应单板的故障类型的情况下,提供了调试过程。具体地,当通过对统计结果的分析比较不能确定相应单板的故障类型时,还可以包括以下步骤:将相应单板设置为调试状态并通告网管,网管不能对处于调试状态下的单板进行操作;为相应的单板配置表项,由相应单板对自身发送调试包并根据返回的信号类型,确定相应单板的故障类型;当相应单板的故障被确定或被排除后,删除配置的表项,并解除相应单板的调试状态。
[0024] 更具体地,为相应的单板配置表项的步骤可以包括以下步骤:当通过对统计结果的分析比较不能确定相应单板的故障类型时,在相应单板插入一条协议类型为TCP的固定聚合表;将相应单板的输出端口配置为相应单板的端口号;在主控板插入一条协议类型为TCP的固定关键词表。
[0025] 在步骤S202中,判断故障是否为可恢复故障,是则执行步骤S203,否则执行步骤S204。
[0026] 本发明中,当单板的故障类型为硬件故障、查表故障、线路接口故障和掉线故障时,则可恢复故障为硬件故障和查表故障。
[0027] 在步骤S203中,对相应单板进行故障恢复。
[0028] 步骤S203具体包括以下步骤:对相应单板进行软件复位;当相应单板经三次软件复位仍无法正常启动时,认为相应单板的故障不可恢复,并向网管发出相应单板的掉线故障信号。
[0029] 本发明在步骤S203之后,还可以包括以下步骤:将故障恢复信息发送给网管;网管重新下发表项。其中的表项是记录有网络设备到达特定网络终端的路径信息的列表文件,当网络设备是路由器时,该表项即为路由表。
[0030] 在步骤S204中,对于不可恢复的故障,上报网管,通过网管平台显示相应单板的故障信息。
[0031] 本发明在步骤S204之前或之后还可以包括以下步骤:维护存储的相应单板的日志文件。对于linux系统,由于日志文件不能超过4G,目前根据文件记录的速度,采用每天扫描一次文件的方式,若文件大小超过限定值,则变更文件记录的目录重新记录。
[0032] 本发明在步骤S204之前或之后还可以包括以下步骤:通过命令行的方式显示用户在线调试和查询接口界面;接收调试人员在该接口界面中输入的读取信号及调试函数调用信号;根据接收的读取信号,读取存储的相应单板的日志信号,并根据接收的调试函数调用信号调用相应的调试函数,以使得在脱离各种调试工具的情况下,提供用户读取任意单板的日志信息的便捷方式。本发明中,命令按分层结构组织,例如可设置下的命令:
[0033] Show->show_file->show_file_dirname 显示故障日志文件目录[0034] Show->show_file->show_file_dir 显示故障目录下的所有文件[0035] debug->allupboard 查询当前所有启动的单板[0036] debug->resetboard 复位单板
[0037] debug->debugboard 设置单板处于debug状态[0038] debug->debugboard_stop 解除单板debug状态[0039] Fault Infor->boardDowncount 查询设备发生不可恢复故障次数[0040] FaultInfor->faultcount 查询设备发生故障的总次数[0041] FaultInfor->latestfaulttime 最后一次发生故障的时间[0042] Fault Infor->getfaultInfor 显示设备的所有故障信息[0043] 为保证网络设备与网管之间的表项的一致性,本发明在步骤S204之前或之后还可以包括以下步骤:向网管上报单板的表项条目数;网管将该表项条目数与网管存储的相应的表项条目数进行比对,并当该表项条目数与网管存储的相应的表项条目数不一致时,由网管删除表项并重新下发。
[0044] 如图4所示,本发明提供的网络设备的故障处理系统包括:读取模块11,用于读取网络设备中各单板的运行状态信息;日志生成模块12,用于根据网络设备中各单板的运行状态信息生成相应单板的日志文件;存储模块13,用于存储日志文件;故障检测分析模块14,用于时或根据用户的触发读取并分析日志文件,根据日志文件对相应单板进行故障检测分析。
[0045] 如图5所示,其中的故障检测分析模块14进一步包括:故障类型确定模块141,用于根据日志文件中的关键位置数据进行统计,通过对统计结果的分析比较确定相应单板的故障类型;调试模块142,用于当通过对统计结果的分析比较不能确定相应单板的故障类型时,将相应单板设置为调试状态并通告网管,之后为相应的单板配置表项,由相应单板对自身发送调试包并根据返回的信号类型,确定相应单板的故障类型,并当相应单板的故障被确定或被排除后,删除配置的表项,并解除相应单板的调试状态;判断模块143,用于判断故障是否为可恢复故障;故障恢复模块144,用于当判断模块143判断故障是否为可恢复故障时,对相应单板进行故障恢复;上报模块145,用于当判断模块143判断故障是否为不可恢复故障时,上报网管,通过网管平台显示相应单板的故障信息,并当判断模块143判断故障是否为可恢复故障时,将故障恢复信息发送给网管,由网管重新下发表项。
[0046] 进一步地,故障检测分析模块14还可以包括一维护模块,用于维护存储模块13存储的相应单板的日志文件。
[0047] 进一步地,故障检测分析模块14还可以包括一命令调用模块,用于通过命令行的方式显示用户在线调试和查询接口界面,接收调试人员在该接口界面中输入的读取信号及调试函数调用信号,并根据接收的读取信号,读取存储的相应单板的日志信号,并根据接收的调试函数调用信号调用相应的调试函数。
[0048] 进一步地,为保证网络设备与网管之间的表项的一致性,上报模块145还用于向网管上报单板的表项条目数,由网管将该表项条目数与网管存储的相应的表项条目数进行比对,并当该表项条目数与网管存储的相应的表项条目数不一致时,由网管删除表项并重新下发。
[0049] 优选地,读取模块11置于各单板中;日志生成模块12、存储模块13、以及故障检测分析模块14置于主控板中,且日志生成模块12可以通过向读取模块11下发读取指令的方式,获取读取模块11读取到的运行状态信息。
[0050] 本发明提供的网络设备的故障处理方法通过对关键位置的数据的自动读取及统计分析,实现对网络设备的故障检测,并对可恢复故障进行自动恢复,不可恢复故障上报网管,因而可在极短的时间内,无需管理员的参与,在用户无感知的情况下排除常见的设备故障,大大降低了故障时间。
[0051] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。