一种电力网络事件和入侵的检测方法转让专利

申请号 : CN201910055657.0

文献号 : CN109787979B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 廖丹章苇杭金海陆李慧

申请人 : 电子科技大学

摘要 :

本发明提供了一种电力网络事件和入侵的检测方法,通过WAMS对电力网络进行实时近监测,完成有效数据的捕获;对捕获的数据进行预处理,并使用特征选择算法提取部分特征;采用K‑means算法进行聚类;针对K‑means算法聚类所得的每个簇采用GC‑Forest对电力网络事件和入侵分类;对分类后的结果利用熵计算判断是否发生未知事件或入侵,若未发生未知事件或入侵,则结束对电力网络事件和入侵的检测。本发明解决了仅使用同步相量数据无法检测到所有的电力网络事件或攻击的问题,以及如何针对新的事件及攻击以更加自动化、智能化的方法来构造精准的电力网络事件及入侵检测的问题。本发明方法灵活,具有通用性和应用性。

权利要求 :

1.一种基于电力网络事件和入侵的检测方法,其特征在于,包括如下步骤:(S1)利用广域监测系统WAMS对电力网络进行实时监测,并提取有效数据;

(S2)将所提取的有效数据进行预处理,并使用特征选择算法提取部分特征;

(S3)根据所提取的部分特征利用K-means算法进行聚类,得到一级簇;

(S4)根据得到的一级簇利用GC-Forest分类器进行分类;

(S5)根据分类结果利用信息熵计算一级簇的信息熵值;

(S6)将得到一级簇的信息熵值与预设的阈值进行对比,并根据对比结果判断是否发生未知电力网络事件和入侵,若未发生,则结束对电力网络事件和入侵的检测,反之,则进入步骤(S7);

(S7)根据K-means算法对所述一级簇进行聚类,得到二级簇;

(S8)将所述二级簇进行标记,并对广域监测系统进行更新,进而返回步骤(S4)。

2.根据权利要求1所述的电力网络事件和入侵的检测方法,其特征在于,所述(S2)中的使用特征选择算法提取部分特征,其具体为将部分标记数据T1={ψ1,ψ2...ψn}以及部分未标记数据T2={Φ1,Φ2...Φm}合并为数据集T,其中,n为部分标记数据的总个数,m为部分未标记数据的总个数。

3.根据权利要求1所述的电力网络事件和入侵的检测方法,其特征在于,所述(S3)包括如下步骤:(a1)将数据集T聚类成不同的K个簇{C1,C2...CK},其中,C为簇,K为簇的总个数;

(a2)根据不同的K个簇给每个簇赋予不同的中心,并将每个数据点赋给距离类最近的中心;

(a3)将每个簇所关联的中心点移动到平均值的位置,并更新中心点;

(a4)重复步骤(a1)到(a3),直至中心点不再变化,从而完成聚类,得到一级簇。

4.根据权利要求3所述的电力网络事件和入侵的检测方法,其特征在于,所述(a2)中距离的计算公式为:其中,d(x,y)为样本x与聚类中心y的欧氏距离,xi为某样本的第i个特征值,yi为某聚类中心的第i个特征值,K为簇的总个数。

5.根据权利要求1所述的电力网络事件和入侵的检测方法,其特征在于,所述(S4)的具体步骤如下:(b1)将一级簇中每个检测单元的数据通过滑动窗口进行多粒度扫描,得到特征向量;

(b2)将得到的特征向量作为级联森林的第一级输入数据,并对级联森林中所有树木的每个类别进行平均估算,得到级联森林的估计值;

(b3)将级联森林的估计值进行平均估算,并选择最大值的类别判断当前级别是否足够,若是则完成电力网络事件和入侵的分类,反之则进入步骤(b4);

(b4)将森林的估计值与一级簇中每个检测单元的数据连接到新的特征向量中,并作为级联森林的下一级输入,再返回步骤(b2)。

6.根据权利要求1所述的电力网络事件和入侵的检测方法,其特征在于,所述(S5)中一级簇的信息熵值的计算公式如下:其中,Info(D)为一级簇的信息熵值,D表示K-means聚类层产生的某个一级簇,pi为簇中随机变量x分别属于各个类的概率,i=1,2...m,m为GC-forest模块预测特征向量中元素的数目,即已知的事件或攻击数。

7.根据权利要求1所述的电力网络事件和入侵的检测方法,其特征在于,所述(S6)中预设的阈值为1.8。

8.根据权利要求1所述的电力网络事件和入侵的检测方法,其特征在于,所述(S6)中的根据对比结果判断是否发生未知电力网络事件和入侵的具体方法为:判断一级簇的信息熵值是否大于或等于预设的阈值,若是则进入步骤(S7),反之则结束对电力网络事件和入侵的检测。

9.根据权利要求1所述的电力网络事件和入侵的检测方法,其特征在于,所述(S8)中对二级簇进行标记,其表达公式如下:f(Clu)=θx∈X(fArt(x))

其中,f(Clu)为整个簇的标记结果,fArt(x)为X的人工检查结果,θ是多数投票方法,X为样本数据。

说明书 :

一种电力网络事件和入侵的检测方法

技术领域

[0001] 本发明属于电力网络技术领域,具体地说,是涉及一种电力网络事件和入侵的检测方法。

背景技术

[0002] 电力传输系统是网络化的网络物理系统,它将大量电力从发电机输送到配电系统,通过配电系统为家庭和企业提供电力系统负载。传统的配电系统通过增加电压水平来传输在发电机产生的电能,然后通过逐渐降低电压水平将其传递给家庭和企业用户,传统的电力传输系统存在效率低下、无法整合多种发电源、成本高昂以及无法精确控制等问题。为解决这些问题,智能电网应运而生,智能电网基于通信和信息技术,对发电、输送和消耗各阶段进行全面控制,它使用双向信息流来创建一个自动化且分布广泛的系统,该系统具有新的功能,如实时控制、运营效率、电网弹性以及多种发电源的更好集成,显著减少了碳排放。
[0003] 但由于智能电网依赖通信基础设施来提供广域监控并且与互联网连接,其破坏可能性显著上升,因此,它吸引了越来越多黑客的关注。网络攻击是电力系统意外事故的另一种形式,针对电力系统的攻击可以利用控制设备和通信链路中的漏洞来破坏控制,测量信号和中断监控,破坏控制和测量信号的网络攻击可以伪装成电力系统干扰或控制动作。此外,电力传输系统是网络化的网络物理系统,受到天气和设备故障等相关突发事件的影响,电力系统干扰(例如传输线故障)或电力网络攻击(例如数据注入攻击)可以引发一系列反应,如果没有及时检测这些网络事件或攻击并采取行动,则会导致级联停电甚至更严重的后果。如何检测和应对这些攻击与突发事件对研究人员提出了巨大的挑战。
[0004] 无论是电力网络事件还是入侵的检测,都需要近实时监测数据的提供,才有实现的基础。检测广域监测系统(WAMS)能够提供跨电网的近实时监测和可视化能力,其通过高速网络将电压、电流和频率测量进行时间同步测量,以改善电力系统态势感知。与传统的监控和数据采集(SCADA)系统相比,同步相位系统可以每秒测量一次现场传感器,最多可以测量120个样本/秒,同步相量测量可以识别快速移动的电力系统事件。一些电力系统事件涉及快速变化的行为,可能只持续几毫秒,较慢的速度测量系统可能会错过这些事件,WAMS使算法或运算符能够在宏级别检测事件,提供相对较高的测量频率和时间同步特性可创建大量数据,并支持各种应用。仅使用同步相量数据还不足以检测所有电力网络事件或攻击,例如,有的网络攻击可以通过首先注入错误的测量值然后使继电器跳闸来模拟真实的故障,仅使用同步相量数据不能检测到这种攻击。其他电力系统组件(如继电器和断路器)的状态也可通过同步相量系统作为时间同步数据,将同步相量数据与诸如中继状态日志和网络事件监视器日志之类的其他系统日志相结合可以扩展由同步相量系统提供的态势感知能力以检测电力网络事件或攻击,然而,这又产生了如何合并异构数据源以训练和使用这样的分类器的挑战。此外,越来越多的新型智能设备接入电力传输系统造成新型电力网络事件增多,而在大数据时代下,各种新型网络攻击不停出现,如何针对系统未知的事件或攻击进行检测,并实时进行迭代对研究人员提出了新的挑战。
[0005] 现有技术中,传统的电力网络事件和入侵检测有基于规则的检测与基于异常的检测。而近年,有大量机器学习算法用于电力网络事件和入侵检测,例如朴素贝叶斯(Naive Bayes),支持向量机(SVM),决策树(Decision Tree)等等,它们通过行为模型的训练,完成检测系统的创建。这些系统的构建大多通过WAMS先对实时数据进行收集,特征提取,然后利用数据挖掘技术,进行模式匹配,从而以离线的方式对目前已知的攻击进行识别。该方法能够实现对电力网络事件或入侵的分类,将每一项事件或攻击提取出来,然而考虑特征过于单一,不适用于多事件或攻击的检测,该系统只能针对已知事件或攻击完成分类,无法检测未知事件或攻击及已知事件或攻击的变体,对于未知事件或攻击,只能在所服务的系统遭到攻击或事件发生很久后,才能手动提取攻击,并重新训练,这难以满足如今智能设备层出不穷与大数据的现实环境。

发明内容

[0006] 针对现有技术中的上述不足,本发明提供的一种电力网络事件和入侵的检测方法解决了如今大部分仅使用同步相量数据无法检测到所有的网络事件或攻击的问题,以及如何针对新的事件及攻击以更加自动化、智能化的方法来构造精准的网络事件及入侵检测模型检测的问题。
[0007] 为了达到以上目的,本发明采用的技术方案为:
[0008] 本方案提供一种基于电力网络事件和入侵的检测方法,包括如下步骤:
[0009] (S1)利用广域监测系统WAMS对电力网络进行实时监测,并提取有效数据;
[0010] (S2)将所提取的有效数据进行预处理,并使用特征选择算法提取部分特征;
[0011] (S3)根据所提取的部分特征利用K-means算法进行聚类,得到一级簇;
[0012] (S4)根据得到的一级簇利用GC-Forest分类器进行分类;
[0013] (S5)根据分类结果利用信息熵计算一级簇的信息熵值;
[0014] (S6)将得到一级簇的信息熵值与预设的阈值进行对比,并根据对比结果判断是否发生未知电力网络事件和入侵,若未发生,则结束对电力网络事件和入侵的检测,反之,则进入步骤(S7);
[0015] (S7)根据K-means算法对所述一级簇进行聚类,得到二级簇;
[0016] (S8)将所述二级簇进行标记,并对广域监测系统进行更新,进而返回步骤(S4)。
[0017] 进一步地,所述(S2)中的使用特征选择算法提取部分特征,其具体为将部分标记数据T1={ψ1,ψ2...ψn}以及部分未标记数据T2={Φ1,Φ2...Φm}合并为数据集T,其中,n为部分标记数据的总个数,m为部分未标记数据的总个数。
[0018] 再进一步地,所述(S3)包括如下步骤:
[0019] (a1)将数据集T聚类成不同的K个簇{C1,C2...CK},其中,C为簇,K为簇的总个数;
[0020] (a2)根据不同的K个簇给每个簇赋予不同的中心,并将每个数据点赋给距离类最近的中心;
[0021] (a3)将每个簇所关联的中心点移动到平均值的位置,并更新中心点;
[0022] (a4)重复步骤(a1)到(a3),直至中心点不再变化,从而完成聚类,得到一级簇。
[0023] 再进一步地,所述(a2)中距离的计算公式为:
[0024]
[0025] 其中,d(x,y)为样本x与聚类中心y的欧氏距离,xi为某样本的第i个特征值,yi为某聚类中心的第i个特征值,K为簇的总个数。
[0026] 再进一步地,所述(S4)的具体步骤如下:
[0027] (b1)将一级簇中每个检测单元的数据通过滑动窗口进行多粒度扫描,得到特征向量;
[0028] (b2)将得到的特征向量作为级联森林的第一级输入数据,并对级联森林中所有树木的每个类别进行平均估算,得到级联森林的估计值;
[0029] (b3)将级联森林的估计值进行平均估算,并选择最大值的类别判断当前级别是否足够,若是则完成电力网络事件和入侵的分类,反之则进入步骤(b4);
[0030] (b4)将森林的估计值与一级簇中每个检测单元的数据连接到新的特征向量中,并作为级联森林的下一级输入,再返回步骤(b2)。
[0031] 再进一步地,所述(S5)中一级簇的信息熵值的计算公式如下:
[0032]
[0033] 其中,Info(D)为一级簇的信息熵值,D表示K-means聚类层产生的某个一级簇,pi为簇中随机变量x分别属于各个类的概率,i=1,2...m,m为GC-forest模块预测特征向量中元素的数目,即已知的事件或攻击数。
[0034] 再进一步地,所述(S6)中预设的阈值为1.8。
[0035] 再进一步地,所述(S6)中的根据对比结果判断是否发生未知电力网络事件和入侵的具体方法为:判断一级簇的信息熵值是否大于或等于预设的阈值,若是则进入步骤(S7),反之则结束对电力网络事件和入侵的检测。
[0036] 再进一步地,所述(S8)中对二级簇进行标记,其表达公式如下:
[0037] f(Clu)=θx∈X(fArt(x))
[0038] 其中,f(Clu)为整个簇的标记结果,fArt(x)为x的人工检查结果,θ是多数投票方法,X为样本数据。
[0039] 本发明的有益效果:
[0040] (1)本发明采用广域监测系统(WAMS)对电力网络进行实时近监测,进而提取有效数据,有效地保证了系统能够在宏级别检测事件;
[0041] (2)本发明采用GC-Forest与两层K-means算法构建,采用多层体系,对数据进行细粒度极高的分类,有效地保证了在分类后可对不同事件及攻击进行针对性处理,并且极大地提升了分类的精度;
[0042] (3)本发明基于熵理论与半监督学习提出了样本拓展与IDS进化机制,样本拓展机制减少了人工标记操作,在训练样本不足的情况下仍能够保证足够的精度,IDS进化机制保证当发生未知事件或攻击时,广域监测系统可针对该事件或攻击完成更新进化。

附图说明

[0043] 图1是本发明的方法流程图。
[0044] 图2是本发明的入侵检测模型框架。
[0045] 图3是本发明中GC-Forest的多粒度扫描流程示意图。
[0046] 图4是本发明GC-Forest的级联森林结构示意图。
[0047] 图5是本发明GC-Forest的最终结果向量产生的例证示意图。

具体实施方式

[0048] 下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0049] 实施例
[0050] 如图1-图2所示,本发明提供了一种基于电力网络事件和入侵的检测方法,其实现方法包括如下步骤:
[0051] (S1)利用广域监测系统WAMS对电力网络进行实时监测,并提取有效数据;
[0052] (S2)将所提取的有效数据进行预处理,并使用特征选择算法提取部分特征,其具体为将部分标记数据T1={ψ1,ψ2...ψn}以及部分未标记数据T2={Φ1,Φ2...Φm}合并为数据集T,其中,n为部分标记数据的总个数据,m为部分未标记数据的总个数;
[0053] (S3)根据所提取的部分特征利用K-means算法进行聚类,得到一级簇,其具体步骤如下:
[0054] (a1)将数据集T聚类成不同K个簇{C1,C2...CK},其中,C为簇,K为簇的总个数;
[0055] (a2)根据不同的K个簇赋给每个簇不同的中心,并将每个数据点赋给距离类最近的中心,其中,所述距离的计算公式:
[0056]
[0057] 其中,d(x,y)为样本x与聚类中心y的欧氏距离,xi为某样本的第i个特征值,yi为某聚类中心的第i个特征值,K为簇的总个数;
[0058] (a3)将每个簇所关联的中心点移动到平均值的位置,并更新中心点;
[0059] (a4)重复步骤(a1)到(a3),直至中心点不再变化,从而完成聚类,得到一级簇;
[0060] (S4)根据得到的一级簇利用GC-Forest分类器进行分类,其具体步骤如下:
[0061] (b1)将一级簇中每个检测单元的数据通过滑动窗口进行多粒度扫描,得到特征向量;
[0062] (b2)将得到的特征向量作为级联森林的第一级输入数据,并对级联森林中所有树木的每个类别进行平均估算,得到级联森林的估计值;
[0063] (b3)将级联森林的估计值进行平均估算,并选择最大值的类别判断当前级别是否足够,若是则完成电力网络事件和入侵的分类,反之则进入步骤(b4);
[0064] (b4)将森林的估计值与一级簇中每个检测单元的数据连接到新的特征向量中作为级联森林的下一级输入,并返回步骤(b2);
[0065] (S5)根据分类结果利用信息熵计算一级簇的信息熵值,其中,所述一级簇的信息熵值的计算公式如下:
[0066]
[0067] 其中,Info(D)为一级簇的信息熵值,D表示K-means聚类层产生的某个一级簇,pi为簇中随机变量x分别属于各个类的概率,i=1,2...m,m为GC-forest模块预测特征向量中元素的数目,即已知的事件或攻击数;
[0068] (S6)将一级簇的信息熵值与预设的阈值进行对比,并根据对比结果判断是否发生未知电力网络事件和入侵,若未发生,则结束对电力网络事件和入侵的检测,反之,则进入步骤(S7),具体为,若一级簇的信息熵值超过阈值,则证明发生了未知事件或攻击,需要后续操作,采用K-means算法对GC-forest分类器进行更新,如果没有超过,则证明没有发生未知事件或攻击,可直接结束对电力网络事件和入侵的分类,其中,
[0069] 所述预设的阈值为1.8;
[0070] 所述判断方法为:判断一级簇的信息熵值是否大于或等于预设的阈值,若是则进入步骤(S7),反之则结束对电力网络事件和入侵的检测;
[0071] (S7)根据K-means算法对所述一级簇进行聚类,得到二级簇;
[0072] (S8)将所述二级簇进行标记,并对广域监测系统进行更新,进而返回步骤(S4),具体为,将所述二级簇进行标记,并以所述二级簇中每个检测单元的数据为训练数据,从而增强GC-Forest分类器,对广域监测系统进行更新,进而返回步骤(S4),
[0073] 其中,对二级簇进行标记,其表达公式如下:
[0074] f(Clu)=θx∈X(fArt(x))
[0075] 其中,f(Clu)为整个簇的标记结果,fArt(x)为x的人工检查结果,θ是多数投票方法,X为样本数据。
[0076] 本实施例中,利用广域监测系统(WAMS)跨电网的近实时监测和可视化能力,使算法或运算符能够在宏级别检测事件,WAMS通过电网传感器监控智能电网的运行,传感器对系统状态进行连续测量并将测量报告给控制中心。其中的PMU(电源管理单元)能够通过高速同步测量实时连续监控电力系统,继电器和仪表不断向控制中心发送状态,为检测系统提供关键系统信息。当由于突发事件或网络攻击产生剧烈的,渐进的或反复出现的变化时,传感器便能够监测到。电流变化是由各种突发事件引起的,例如不同的故障,负载变化和线路损耗。当然,网络攻击也可能导致虽然未显示其他同步相量测量,但所有测量都会根据事件类型经历突然和渐变的变化。这些监测到的数据将是检测基础。
[0077] 本实施例中对监测到的数据预处理,并使用特征选择算法提取部分特征,然后,采用K-means算法对数据进行聚类。在测试阶段,该阶段的目标是对未知事件或攻击的检测打下基础。训练阶段,假设没有足够的标记数据,因此给出部分标记数据T1={ψ1,ψ2...ψn}以及部分未标记数据T2={Φ1,Φ2...Φm}合并为数据集T,对T使用无监督学习,以及使用K-means算法的进行聚类。K-means算法是应用最为广泛的聚类算法,算法接受数据集,然后将数据聚类成不同的K个簇{C1,C2...CK}。K-means是一种迭代算法,通过随机初始化赋给每个簇不同的中心,将每一个数据点赋给距离类最近的中心。其距离的计算公式如下:
[0078]
[0079] 其中,d(x,y)为样本x与聚类中心y的欧氏距离,xi为某样本的第i个特征值,yi为某聚类中心的第i个特征值,K为簇的总个数。将每个簇所关联的中心点移动到平均值的位置,更新中心。重复执行上述步骤,直至中心点不再变化,即完成最终聚类。在训练阶段,若聚类后的簇中不含任何标记数据,则将其内所有数据标记为未知数据,使用未知数据与所有标记数据共同训练GC-Forest,再使用训练过后的GC-Forest对未标记数据T2={Φ1,Φ2...Φm}进行分类,从而完成提纯,将分类为已知事件或攻击的数据合并到标记数据中,将分类为未知数据的数据进行人工检测后完成标记,再使用这些标记数据对GC-Forest进行再次训练,由此,完成了标记拓展的工作。
[0080] 本实施例中,将K-means聚类后获得的簇称为一级簇。以一级簇为检测单位,将它们依次输入训练好的GC-Forest分类器完成分类,GC-Forest是其由多粒度扫描和级联森林组成。多粒度扫描是受CNN中使用的多卷积内核启发而产生的,它在处理特征关系方面有很好的效果,因此它可以为级联森林提取特征,其过程由图3所示。原始输入特征通过滑动窗口扫描,假设有一个400维特征向量,滑动窗口大小设置为100,则每个步骤将由滑动窗口生成100维截断特征向量,最终将会产生对应于窗口的总共301个特征向量,这些向量将用于训练随机森林和完全随机森林,然后将生成类向量;若设置窗口大小不同的其他窗口,则会对应产生多种类向量,所有这些类向量都连接成一个变换的特征向量。如图3所示,假设有4个类和3个窗口(大小分别为100,200和300)用于扫描,因此,森林会产生602,402,202个四维类向量,它们将被连接成对应于原始400维的4824维变换特征向量-维度特征向量。与原始矢量相比,变换后的特征向量具有更高的维度和增强的特征表示。
[0081] 级联森林是受深度神经网络中逐层处理启发而产生的,可以提取更多特征并同时输出最终的预测结果。级联森林即决策树森林的集合,即集合的集合。每个级联包括一些随机森林和完全随机森林,接收由其前一级产生的特征向量,并将处理后的特征向量输出到下一级。如图4所示,给定一个实例,其变换特征向量作为级联森林中第一级的输入数据,每个森林将通过计算叶节点处不同类训练样例的百分比来生成类分布的估计有关样本落入其中,然后对森林中所有树木的每个类别进行平均估算,如图5所示。然后将这些森林的估计值与原始数据连接到新的特征向量中,这将被采用作为下一级的输入。为了降低过度拟合的风险,每个森林产生的类向量通过k折交叉验证生成。相关级别的森林将产生各自的估计值,通过对同一类别的估计进行平均并选择具有最大值的类别作为预测来用于验证当前的级别是否足够,如果没有显着的性能提升,这意味着当前的级别数量已足够,应终止训练程序。假设每个随机森林包含400个随机决策树,类似地,每个完全随机森林包含400个完全随机决策树,每个森林中树的数是一个允许更改的超参数。通过随机选择用于在树的每个节点处分割的特征来生成每个完全随机树,遵循该方法,跨越树,直到每个叶节点仅包含相同类的实例或不超过10个实例。然而,随机树生成的过程相对复杂。在每个节点分割时,首先选择 个特征作为候选(d是输入特征的数量),然后选择具有最佳基尼值的一个用于分割,最后,将获得如上所述的多种决策树。其中,基尼值可以测量数据集的纯度,并可以通过如下公式获得:
[0082]
[0083] 其中,D表示数据集,Pk表示类k的比例,Gini(D)反映了从D中随机抽取的两个样本不是同一类的概率,较小的基尼(D)其净化程度越高,其中,基尼指数可以通过如下公式获得:
[0084]
[0085] 其中,a是候选属性集合A的元素,其表示候选者。最后,我们选择具有最小基尼指数的候选属性作为最佳分裂属性,如下公式所示:
[0086] a*=argmina∈A Gini_index(D,a)
[0087] 其中,a*为最佳分裂值,Gini_index(D,a)为数据集D中属性a的基尼指数。
[0088] 本实施例中,分类完成后,引入信息熵的概念,计算每个一级簇预测结果的信息熵值,如以下公式所示:
[0089]
[0090] 其中,D表示K-means聚类层产生的某个一级簇,pi(i=1,2...m)为簇中随机变量x分别属于各个类的概率,m为GC-forest模块预测特征向量中元素的数目,即已知的事件或攻击数。通过计算所得的熵值是否超过设置的阈值判断是否发生未知事件或入侵,若发生未知事件或入侵,则使用K-means算法再次对该一级聚类,此次K-means聚类中的参数K值设定为已知事件或攻击的数目,聚类后所得的簇为二级簇。
[0091] 接下来,针对二级簇完成后续处理。从每个二级簇中随机选择几个样本数据(例如三个),对这些数据进行检查,可通过X={x1,x2...xM}表示,其中xi表示选择的第i个数据,M为选择的数量,最后通过聚合检查结果来标记整个簇,本实施例中,采用多数投票方法完成对二级簇的标记工作,如以下公式所示:
[0092] f(Clu)=θx∈X(fArt(x))
[0093] 其中,f(Clu)为整个簇的标记结果,fArt(x)为x的人工检查结果,θ是多数投票方法,X为样本数据。
[0094] 本实施例中,为保证新的训练集的高纯度,采用共识策略进行预测。如果选定的数据大多指示新的事件或攻击,则创建一个新类并使用该二级簇中所有数据作为其训练数据。如果选定的数据大多指示已知事件或攻击,则证明初始训练数据不足,该二级簇中的数据将被添加到该类的训练集中,一旦二级簇检查完成,新检测到的类将被添加到已知类的集合中,并且训练数据集将被相应地扩展,这意味着分类系统能够学习新类别,更新的系统可以处理更多的事件或攻击,并进一步细化分类,从而可以有效地提高系统的鲁棒性。
[0095] 本实施例中,本发明技术的实际部署,入侵检测系统一般包括四个组成部分:事件产生器,事件分析器,响应单元和事件数据库,其中,事件产生器从整个电力网络运行环境中获得事件,如系统、网络、数据及用户活动的状态和行为等,并向系统的其他部分提供此事件;事件分析器经过对捕获事件的分析处理,产生相关的分析结果;响应单元对分析结果做出对应的操作,包括报警、中断连接、过滤数据流等;事件数据库用于存放事件及入侵行为数据以实现对检测系统的更新和强化,本发明通过部署在电力网络事件和入侵检测系统的事件分析器上,对来自事件产生器捕获的数据进行检测分析,如果检测结果为异常,则将其告知给响应单元,启动响应单元的报警机制,并将相关数据存入事件数据库;如果检测结果为正常,则对该事件不做后续处理。
[0096] 本发明提供的一种基于GC-Forest和信息熵的电力网络事件和入侵的检测方法解决了仅使用同步相量数据无法检测到所有的电力网络事件或攻击的问题,以及如何针对新的事件及攻击以更加自动化、智能化的方法来构造精准的电力网络事件及入侵检测的问题。本发明方法灵活,具有通用性和应用性。