一种电厂区域设备异常判断方法转让专利

申请号 : CN202010874389.8

文献号 : CN111737950B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王晓辉姜双林周磊饶志波

申请人 : 北京安帝科技有限公司

摘要 :

本发明提供了一种基于自然语言的日志载体格式提取方法和装置,涉及日志处理技术领域,所述方法包括以下步骤:通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。本发明还提供了一种电厂设备日志解析方法、电厂设备日志异常判断方法和电厂区域设备异常判断方法。本发明可以在不事先设置关键字的情况下,对日志载体格式进行提取,并用于解析日志和异常判断。

权利要求 :

1.一种电厂区域设备异常判断方法,其特征在于,所述方法包括:利用基于自然语言的日志载体格式提取方法预先提取并保存正常运行时间段内第一电厂区域的日志载体格式、第二电厂区域的日志载体格式以及第三电厂区域的日志载体格式;

利用保存的日志载体格式在第一时间段内对新获取的日志进行匹配解析;在匹配解析成功时,输出日志解析结果;在匹配解析失败时,利用基于自然语言的日志载体格式提取方法提取新的日志载体格式并保存为对应电厂区域的日志载体格式;其中,电厂设备日志包括以分隔符号分隔的多个日志数据段,且每个日志数据段包括数据字段、连接符或者运算符、数据值;

利用以下公式计算在第一时间段运行结束时第i电厂区域的日志载体格式匹配异常因子:其中, 为第i电厂区域设备重要性的权重系数, 为运行第一时间段后保存的第i电厂区域的日志载体格式的总数量, 为预先保存的正常运行时间段内第i电厂区域的日志载体格式的总数量,i的取值为1、2、3;其中第一电厂区域包括用于生产的电厂设备,其权重系数为0.5 0.7;第二电厂区域包括用于管理的电厂设备,其权重系数为0.15 0.3;第三电~ ~厂区域包括用于监控的电厂设备,其权重系数为0.1 0.2;

~

检测至少一个电厂区域的日志载体格式匹配异常因子超过预设数值时,将超出预设数值的电厂区域内的日志载体格式匹配异常因子进行排序,并按照日志载体格式匹配异常因子从高到低的顺序发送预警信号给维修人员终端设备;

所述基于自然语言的日志载体格式提取方法,包括以下步骤:

通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;

获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;

利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存;

所述通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流,具体包括:提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段对应的分流;

所述获取每个分流内部的变量与常量包括:

通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运算符或连接符左侧的值作为常量的字符串,将运算符或连接符右侧的值作为变量的字符串;

所述利用字符串拼接的方式将每个分流中的常量的字符串进行组合,包括:利用字符串拼接的方式依次将每个分流的格式字符串拼接起来,其中每个分流的格式字符串包括当前分流的常量的字符串、当前分流包含的运算符或连接符,以及固定格式符;

且每个分流的格式字符串之间采用分隔符号连接;

所述原始日志流为电厂设备日志,所述日志数据段包括:日志日期、日志时间、电厂设备编号、电厂设备状态和电厂服务器状态。

说明书 :

一种电厂区域设备异常判断方法

技术领域

[0001] 本发明涉及日志处理技术领域,特别是涉及一种基于自然语言的日志载体格式提取方法和装置,以及电厂设备日志解析方法、电厂设备日志异常判断方法和电厂区域设备
异常判断方法。

背景技术

[0002] 目前,各种设备在运作时会产生用于记录事件的日志,每一行日志都记载着对于日期、时间、设备信息等相关信息的描述。日志分析在故障排查、性能分析方面有着非常重要的作用。
[0003] 通常直接使用已经预设好关键词的日志载体格式对日志进行解析。例如已经预设关键词date(日志日期)、time(日志时间)、devname(电厂设备编号)、BaseTrapSeverity(基线平均值),并得到日志载体格式为以下字符串构成“date=  ,time= ,devname= ,
BaseTrapSeverity= ”。当新获取日志的字符串为“date=2020-03-01,time=20:39:01, 
devname=S124DN3W08051005, BaseTrapSeverity=6”时,其中“date”、“time”、“devname”、“BaseTrapSeverity”为各个日志数据段的数据字段(key),“2020-03-01”、“20:39:01”、“S124DN3W08051005”、“6”分别为与上述数据字段(key)对应的数据值(value)。通过预先设置的上述日志载体格式可以匹配并提取出对应的数据字段(key)的数据值(value)。但是,每个设备的日志载体格式可能不同,例如当获取的某些设备的日志字符串为“date=1972-
03-29,time=12:30:33, devname=S124DN3W16007342,device is up,server is not 
down”时,则因为日志载体格式中缺少关键词“device”和“server”,而导致无法识别和提取相关信息。
[0004] 因此当需要对多种设备日志进行解析时,需要人工预先设置多种日志载体格式,增加了技术人员的工作量,也不利于提高日志处理效率。

发明内容

[0005] 本发明所要解决的技术问题是,针对现有技术中只能预先设定关键词来得到日志载体格式的缺陷,提供一种基于自然语言的日志载体格式提取分类方法和装置,以及电厂
设备日志解析方法、电厂设备日志异常判断方法和电厂区域设备异常判断方法,可以在不
事先设置关键字的情况下,对日志进行拆分从而提取数据字段得到日志载体格式。
[0006] 第一方面,本发明提供了一种基于自然语言的日志载体格式提取方法,包括以下步骤:
[0007] 通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;
[0008] 获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;
[0009] 利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。
[0010] 在根据本发明所述的日志载体格式提取方法中,优选地,所述通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流,具体包括:提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段对应的分流。
[0011] 在根据本发明所述的日志载体格式提取方法中,优选地,所述获取每个分流内部的变量与常量包括:通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运
算符或连接符左侧的值作为常量的字符串,将运算符或连接符右侧的值作为变量的字符
串。
[0012] 在根据本发明所述的日志载体格式提取方法中,优选地,所述利用字符串拼接的方式将每个分流中的常量的字符串进行组合,包括:利用字符串拼接的方式依次将每个分
流的格式字符串拼接起来,其中每个分流的格式字符串包括当前分流的常量的字符串、当
前分流包含的运算符或连接符,以及固定格式符;且每个分流的格式字符串之间采用分隔
符号连接。
[0013] 在根据本发明所述的日志载体格式提取方法中,优选地,所述原始日志流为电厂设备日志,所述日志数据段包括:日志日期、日志时间、电厂设备编号、电厂设备状态和电厂服务器状态。
[0014] 第二方面,本发明提供了一种电厂设备日志解析方法,包括以下步骤:
[0015] 获取存储的日志载体格式,并利用存储的日志载体格式对接入的原始日志流进行匹配解析;
[0016] 在匹配解析成功时,输出日志解析结果;
[0017] 在匹配解析失败时,利用如前所述的基于自然语言的日志载体格式提取方法提取新的日志载体格式并保存;利用新的日志载体格式对原始日志流进行匹配解析。
[0018] 第三方面,本发明提供了一种电厂设备日志异常判断方法,包括:
[0019] 利用如上所述的基于自然语言的日志载体格式提取方法提取电厂设备正常运行时间段内的日志载体格式并保存;
[0020] 利用保存的日志载体格式对新获取的日志进行解析匹配,如果匹解析配成功,则判断电厂设备正常,如果匹配解析不成功,则判断电厂设备故障,生成报警信息。
[0021] 第四方面,本发明提供了一种电厂区域设备异常判断方法,所述方法包括:
[0022] 利用如上所述的基于自然语言的日志载体格式提取方法预先提取并保存正常运行时间段内第一电厂区域的日志载体格式、第二电厂区域的日志载体格式以及第三电厂区
域的日志载体格式;
[0023] 利用保存的日志载体格式在第一时间段内对新获取的日志进行匹配解析;在匹配解析成功时,输出日志解析结果;在匹配解析失败时,利用如上所述的基于自然语言的日志载体格式提取方法提取新的日志载体格式并保存为对应电厂区域的日志载体格式;
[0024] 利用以下公式计算在第一时间段运行结束时第i电厂区域的日志载体格式匹配异常因子:
[0025] ;
[0026] 其中, 为第i电厂区域设备重要性的权重系数, 为运行第一时间段后保存的第i电厂区域的日志载体格式的总数量, 为预先保存的正常运行时间段内第i电厂区域的
日志载体格式的总数量;
[0027] 检测至少一个电厂区域的日志载体格式匹配异常因子超过预设数值时,将超出预设数值的电厂区域内的日志载体格式匹配异常因子进行排序,并按照日志载体格式匹配异
常因子从高到低的顺序发送预警信号给维修人员终端设备。
[0028] 第五方面,本发明提供了一种基于自然语言的日志载体格式提取装置,包括:
[0029] 日志分流模块,用于通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;
[0030] 正则匹配模块,用于获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;
[0031] 格式保存模块,用于利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。
[0032] 在根据本发明所述的日志载体格式提取装置中,优选地,所述日志分流模块提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段对应的分流。
[0033] 在根据本发明所述的日志载体格式提取装置中,优选地,所述正则匹配模块通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运算符或连接符左侧的值作
为常量的字符串,将运算符或连接符右侧的值作为变量的字符串。
[0034] 在根据本发明所述的日志载体格式的提取装置中,优选地,所述格式保存模块利用字符串拼接的方式依次将每个分流的格式字符串拼接起来,其中每个分流的格式字符串
包括当前分流的常量的字符串、当前分流包含的运算符或连接符,以及固定格式符;且每个分流的格式字符串之间采用分隔符号连接。
[0035] 与现有技术相比,本发明具有以下优点:本发明通过自然语言分词,自动解析日志,可以解析例如电厂设备日志载体格式,不需要提前设置关键词,减少了人工干预,提升对例如电厂设备日志的解析,更快速的完成复杂情况下的日志载体格式的提取和日志解析
工作。
[0036] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

[0037] 附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
[0038] 图1为本发明实施例的基于自然语言的日志载体格式的提取方法的流程图;
[0039] 图2为本发明实施例的电厂设备日志解析方法的流程图;
[0040] 图3为本发明实施例的基于自然语言的日志载体格式的提取装置的结构示意图。

具体实施方式

[0041] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042] 为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0043] 在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0044] 实施例一
[0045] 图1为本发明实施例的一种基于自然语言的日志载体格式提取方法,可以包括:
[0046] S101、通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流。优选地,该步骤中提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段
对应的分流。
[0047] 本发明适用于采用预定格式的原始日志流,优选为以分隔符号来分隔多个日志数据段的日志,且每个日志数据段包括数据字段(key)、连接符或者运算符、数据值(value)。
例如电厂设备状态信息日志,简称为电厂设备日志。该电厂设备日志含有的日志数据段包
括但不限于:日志日期、日志时间、电厂设备编号、电厂设备状态和电厂服务器状态。该分隔符号可以为英文逗号“,”或者分号“;”等。
[0048] 以电厂设备日志为例,一条典型的电厂设备日志包括如下字符串:
[0049] “date=1972-03-29,time=12:30:33,devname=S124DN3W16007342,device is up,server is not down”
[0050] 其中,字符串“date=1972-03-29”表示描述该日志日期的日志数据段,字符串“time=12:30:33”表示描述该日志时间的日志数据段,字符串“devname=
S124DN3W16007342”表示描述电厂设备编号的日志数据段,字符串“device is up”表示描述电厂设备状态的日志数据段,字符串“server is not down”表示描述电厂服务器状态的日志数据段。“date”、“time”、“devname”、“device”和“server”为各个日志数据段的数据字段(key),“=”为运算符,“is”、“is not”为连接符。“1972-03-29”、“12:30:33”、“S124DN3W16007342”、“up”和“down”分别为与上述数据字段(key)对应的数据值(value)。
[0051] 上述电厂设备日志以英文逗号“,”来分隔各个日志数据段,因此在拆分时可以通过提取出原始日志流中以英文逗号“,”分隔开的字符串作为与各个日志数据段对应的分
流。具体地,可以采用implode函数进行提取,例如采用以下代码:
[0052] implode (‘,’,原始日志);
[0053] 当原始日志流中使用的分隔符号未知时,可以采用implode函数对多种可能采用的分割符号进行识别来提取所需字符串。
[0054] 通过步骤1可以将上述日志拆分成以下不同的分流:
[0055] 第一分流即Stream1的字符串为: date=1972-03-29
[0056] 第二分流即Stream2的字符串为: time=12:30:33
[0057] 第三分流即Stream3的字符串为: devname=S124DN3W16007342
[0058] 第四分流即Stream4的字符串为: device is up
[0059] 第五分流即Stream5的字符串为: server is not down
[0060] S102、获取每个分流内部的变量与常量,将其中的变量的字符串删除,将其中的常量的字符串保留。
[0061] 本发明充分利用日志的特点,其中数据字段(key)一般为常量,数据值(value)一般为变量,且两者以连接符或者运算符分隔,由此可以通过识别常量和变量的方式提取所需的数据字段(key)。本发明中的运算符包括但不限于以下字符:“=”、“<”、“>”、“!= ”、“<=”、“>=”、“>>”、“<<”。连接符包括但不限于以下字符:“||”、“&&”、“!!”、“is”、“is not”、“eq”、“neq”。
[0062] 在本发明的一种优选实施方式中,本发明通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运算符或连接符左侧的值作为常量的字符串,将运算符或连接
符右侧的值作为变量的字符串。
[0063] 优选地,可以采用re.match函数来提取运算符或连接符两侧的字符串。
[0064] 例如,通过以下正则匹配式:
[0065] re.match( r'(.* )[is|is not|eq|neq|=|!=|<|>|<=|>=](.* )', line, re.M|re.I);
[0066] 其中line为原始日志,re.M|re.I为对匹配大小写不敏感和多行匹配。
[0067] 本发明也可以将可能涉及的运算符或连接符预先写入re.match函数中,从而同时对多种运算符或连接符两侧的字符串进行提取。
[0068] 上述每个分流中的提取出的常量和变量的字符串如下:
[0069] Stream1:常量date 变量 1972-03-29
[0070] Stream2:常量time 变量 12:30:33
[0071] Stream3:常量devname 变量 S124DN3W16007342
[0072] Stream4:常量 device 变量 up
[0073] Stream5:常量 server 变量 down
[0074] 可以将上述各个分流中常量的字符串删除,从而保留常量的字符串。
[0075] 虽然该实施例中给出了采用re.match函数来提取运算符或连接符两侧的字符串分别作为常量字符串和变量字符串的具体实现方式,但是本发明不仅限于此,还可以采用
本领域基础技术人员熟知并能应用的其它方式来识别出其中的常量和变量,例如采用基于
PHP语言的字符串分割技术implode(“=”,字符流)或者基于JAVA的str.spilt(“=”)。
[0076] S103、利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。
[0077] 优选地,本发明利用字符串拼接的方式依次将每个分流的格式字符串拼接起来,其中每个分流的格式字符串包括当前分流的常量的字符串、当前分流包含的运算符或连接
符,以及固定格式符。每个分流的格式字符串之间加入分隔符号。也就是说,将各个分流(即Stream1- Stream5)中常量的字符串、连接符/运算符、固定格式符、分隔符号依次拼接起来,组成一个新的日志载体格式,其字符串的具体组成为:
[0078] 第一分流Stream1的常量字符串+连接符/运算符+(.* )+,+第二分流 Stream2的常量+连接符/运算符+(.* )+……+第五分流Stream5的常量字符串+连接符/运算符+(.* )[0079] 其中(.* )为固定格式符。
[0080] 例如,对于上述具体的日志而言,可以将Stream1至Stream5的常量组合起来,得到日志载体格式的具体字符串为:
[0081] “date = (.* ),time=(.* ),devname=(.* ),device is (.* ),sever is not (.* )”。
[0082] 本发明实施例采用常量和变量识别的方法,基于预定格式日志本身的特点,例如电厂设备日志,先找到其中分隔符号,如英文逗号“,”,将原始日志流拆分为对应的分流,再通过正则匹配的方式匹配出连接符或者运算符,例如“is”或“<”等,提取该连接符或者运算符左侧的值作为常量保存,右侧的值作为变量,由此可以方法快速地提取出各种设备的日
志载体格式。本发明尤其适用于复杂的电厂设备运行环境,其日志载体格式的提取过程无
需人工干预,省时省力。
[0083] 实施例二
[0084] 本发明在实施例一的基础上,还提供了一种电厂设备日志解析方法,其流程图如图2所示。
[0085] 该实施例二的电厂设备日志解析方法包括以下步骤:
[0086] S1、接入原始日志流;
[0087] S2、获取存储的日志载体格式;
[0088] S3、利用存储的日志载体格式对接入的原始日志流进行匹配解析,匹配解析成功则转步骤S6,否则转步骤S4;该步骤中可以利用所有存储的日志载体格式依次对原始日志
流进行匹配解析,只要能够成功匹配出一种日志载体格式,则认为匹配解析成功,如果所有日志载体格式均无法匹配,则认为匹配解析失败;
[0089] 该步骤中可以采用以下正则式对接入的原始日志流进行匹配解析:
[0090] $pattern =  '/ date = (.* ),time=(.* ),devname=(.* ),device is (.* ),sever is not (.* )/';
[0091] preg_match_all($pattern, 原始日志, $matches),$matches即为匹配结果,$matches 为NULL则视为匹配解析失败,$matches输出日志的日期、时间、电厂设备编号、电厂设备状态和电厂服务器状态的字符串时表明匹配解析成功;
[0092] S4、利用实施例一所述的基于自然语言的日志载体格式提取方法提取新的日志载体格式;
[0093] S5、保存新的日志载体格式,转步骤S2,以便于利用该新的日志载体格式对日志流进行解析;
[0094] S6、输出日志解析结果。该日志解析结果包括日志数据段的各个数据字段(key)对应的数据值(value)。
[0095] 本发明不管遇到什么格式的日志,都可以通过载体解析获取相应的信息,避免了日志格式库需要人工维护,需要有数据才能对日志进行解析的方式,提高了日志解析的效
率与成功率。尤其适用于对电厂设备日志进行解析,可以在复杂的电厂设备运行环境中自
动识别新添加设备的日志载体格式,并实现自动解析。
[0096] 实施例三
[0097] 本发明在实施例一的基础上,还提供了一种电厂设备日志异常判断方法。
[0098] 该实施例三的电厂设备日志异常判断方法可以利用实施例一的基于自然语言的日志载体格式提取方法提取电厂设备正常运行时间段内的日志载体格式并保存;再利用保
存的日志载体格式对新获取的日志进行匹配解析。如果匹配解析成功,则判断电厂设备正
常,如果匹配解析不成功,则判断电厂设备故障,生成报警信息。优选地,上述匹配方式为正则匹配,例如采用以下正则式:
[0099] $pattern =  '/ date = (.* ),time=(.* ),devname=(.* ),device is (.* ),sever is not (.* )/';
[0100] preg_match_all($pattern, 原始日志, $matches),$matches即为匹配结果。$matches 为NULL则视为匹配解析失败,$matches输出日志的日期、时间、电厂设备编号、电厂设备状态和电厂服务器状态的字符串时表明匹配解析成功。
[0101] 本发明适用于对同一电厂设备日志进行采集时,可以对异常的日志进行识别,从而判断电厂设备是否发生故障。
[0102] 实施例四
[0103] 本发明在实施例一的基础上,还提供了电厂区域设备异常判断方法,该方法包括以下步骤:
[0104] (1)利用实施例一的基于自然语言的日志载体格式提取方法预先提取并保存正常运行时间段内第一电厂区域的日志载体格式、第二电厂区域的日志载体格式以及第三电厂
区域的日志载体格式。通常情况下,电厂分为第一电厂区域、第二电厂区域和第三电厂区
域,其中第一电厂区域包括用于生产的电厂设备,例如发电设备等;第二电厂区域包括用于管理的电厂设备,第三电厂区域包括用于监控的电厂设备。在具体对日志进行提取时,可以通过日志中的sensor_id=1 or sensor_id=2 or sensor_id = 3来区分设备所在的区域,
也就是电厂区域,从而可以将基于该日志提取的日志载体格式归属至对应的电厂区域。
[0105] (2)利用上述保存的日志载体格式在第一时间段内对新获取的日志进行匹配解析;在匹配解析成功时,输出日志解析结果;在匹配解析失败时,利用实施例一所述的基于自然语言的日志载体格式提取方法提取新获取的日志的日志载体格式并保存为对应电厂
区域的日志载体格式。也就是说,在对获取的各个日志进行处理时,可以利用已有的日志载体格式进行解析,当无法解析时则提取该日志的日志载体格式,并根据sensor_id(设备分区标识)这个数据字段来识别该日志载体格式所属的电厂区域。
[0106] (3)利用以下公式计算在第一时间段运行结束时第i电厂区域的日志载体格式匹配异常因子:
[0107] ;
[0108] 其中, 为第i电厂区域设备重要性的权重系数, 为运行第一时间段后保存的第i电厂区域的日志载体格式的总数量, 为预先保存的正常运行时间段内第i电厂区域的
日志载体格式的总数量。i的取值为1、2、3。
[0109] 第一电厂区域属于核心的生产区域,因此其权重系数最高,为0.5 0.7,优选为~
0.6。例如,当运行第一时间段(例如一个小时)后,检测到第一电厂区域的日志载体格式从5个增加至7个,则计算的日志载体格式匹配异常因子 。第二电厂区域主
要为用于管理的电厂设备,其权重系数为0.15 0.3,优选为0.25。第三电厂区域主要为用于~
监控的电厂设备,其权重系数为0.1 0.2,优选为0.15。由于第一电厂区域和第二电厂区域~
内网隔离,属于局域网,而第三电厂区域属于对外的互联网。虽然第二电厂区域和第三电厂区域对于功能划分来说,其安全性级别相对较低,但是其通常更容易受攻击导致异常。尤其是第三电厂区域经常被攻击,如果没有渗透到第二电厂区域则不影响系统的基本运行。当
攻击至第二电厂区域产生设备异常时,还可以通过内网隔离的设置让第一电厂区域独立运
行。当攻击至第一电厂区域时,则整个电厂将彻底不能工作。因此,本发明需要对于三个电厂区域的重要性和日志异常程度进行合理地评估,进而确定维修顺序。
[0110] (4)检测至少一个电厂区域的日志载体格式匹配异常因子超过预设数值时,将超出预设数值的电厂区域内的日志载体格式匹配异常因子进行排序,并按照日志载体格式匹
配异常因子从高到低的顺序发送预警信号给维修人员终端设备。
[0111] 例如。本发明可以设置预设数值为0.2,当第一电厂区域和第二电厂区域的日志载体格式匹配异常因子超过该预设数值时,将超出预设数值的电厂区域内的日志载体格式匹
配异常因子进行排序,例如计算得到的第一电厂区域的日志载体格式匹配异常因子高于第
二电厂区域的日志载体格式匹配异常因子,则依次发送第一电厂区域预警信号和第二电厂
区域预警信号给维修人员终端设备。如果仅检测到一个电厂区域的日志载体格式匹配异常
因子超过该预设数值时,则仅发送该电厂区域的预警信号给维修人员终端设备。
[0112] 该实施例可以通过日志载体格式的增加量来判断该电厂区域的设备异常程度,并且通过阈值判断的方法避免因个别日志数据异常而产生的误报警,提高了设备故障判断的
准确度。并且可以结合各个区域的功能划分的重要性来合理调度维修资源,既保障了对重
点区域的优先维修处理,又能够根据提取的日志数据来判定各个区域的设备日志异常程
度,从而为维修人员提供最优的处置优先级方案。
[0113] 实施例五
[0114] 如图3所示,本发明实施例提供一种基于自然语言的日志载体格式提取装置,可以包括:
[0115] 日志分流模块100,用于通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流。
[0116] 正则匹配模块200,用于获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留。
[0117] 格式保存模块300,用于利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。
[0118] 本发明实施例中,优选地,所述日志分流模块100提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段对应的分流。
[0119] 本发明实施例中,优选地,所述正则匹配模块200设置为通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运算符或连接符左侧的值作为常量的字符串,将
运算符或连接符右侧的值作为变量的字符串。
[0120] 本发明实施例中,优选地,所述格式保存模块300利用字符串拼接的方式依次将每个分流的格式字符串拼接起来,其中每个分流的格式字符串包括当前分流的常量的字符
串、当前分流包含的运算符或连接符,以及固定格式符;且每个分流的格式字符串之间采用分隔符号连接。
[0121] 本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被
实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于 RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信
息递送介质。