一种基于大数据技术的配电网故障诊断方法及系统转让专利

申请号 : CN201710159906.1

文献号 : CN106874963B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 邓松张利平岳东付雄葛辉黄崇鑫

申请人 : 南京邮电大学

摘要 :

本发明公开了一种基于大数据技术的配电网故障诊断方法及系统,是一种在数据量大、维度多、数据种类多的配电网中,能够利用现有的大数据信息及时准确的诊断配电网中存在的故障并快速抢修的机制,该系统主要包括三个部分:数据离散器、属性约简器、样本训练器。本发明将粗糙集理论用于神经网络训练数据的预处理,首先运用粗糙集的理论计算缩减并生成规则,在约简的过程中删除了不必要的条件属性,有助于提高网络的学习效率,同时保持了较低的稳定的近似分类差错率,最后成的规则作为配电网的推理机进行高层次的抽象表达,可以很好地保证配电网的安全运行。

权利要求 :

1.一种基于大数据技术的配电网故障诊断方法,其特征在于,具体步骤如下:步骤1:对配电网中采集到的数据进行连续属性值的提取,提取出的连续属性值作为原始决策表,用来进行网络训练;

步骤2:对步骤1中形成的原始决策表中的连续属性值进行离散化处理,离散化后的连续属性值作为初始决策表;

其中,对原始决策表中的连续属性值进行离散化处理,具体为:

2.1)定义训练样本集的连续属性值集合为w,令 采用相似矩阵 将原始决策表中的连续属性值排列为矩阵的形式,其中,绝对指数函数

为原始决策表中的第l1类属性, 为原始决策表中的第k1类属性,n为初始决策表中条件属性的个数;

2.2)定义相似矩阵H中各不相同的元素组成的集合为K,对任意q∈K依次采用q-离关系公式Lq={(s,t)|L(s,t)≥q}计算出原始决策表中任意两个连续属性值之间的离关系,其中,s、t均为训练样本集中的连续属性值,L(s,t)为连续属性值s和t的模糊关系,q∈[0,1];

用编网法得到聚类结果A1,通过q-离关系处理将原始决策表中的连续属性值进行初步离散化,形成初步离散化属性集;

2.3)构造保留度函数 对初步离散化的属性集进行冗余信息的剔除,其中,Wc(x)为决策属性x的保留集,U为初步离散化的属性集,Rc(x)表示决策属性x对条件属性c的保留度;

2.4)构造分类控制函数 对步骤2.3)中剔除冗余后的离散化属性集进行聚类处理,其中,nl为剔除冗余后的离散化属性集中第l类属性的个数,m为剔除冗余后的离散化属性集中属性的总类数,y为剔除冗余后的离散化属性集中第l类属性的中心,为剔除冗余后的离散化属性集中属性的类中心,r为剔除冗余后的离散化属性集中的属性个数, 为剔除冗余后的离散化属性集中第l类属性与第k类属性中心间的距离;

2.4)利用遗传算法求解目标函数ming(x);

2.5)定义综合函数Qq=n1Rc(x)+n2g(x),其中n1和n2为保留度函数和分类控制函数的权重系数,令Q=0,若Qq-Q<0,则转入步骤2.2);若Qq-Q>0,则令A=A1且Q=Qq,再转入步骤

2.2);

2.6)当原始决策表中的连续属性集离散结束时,取Qq的最大值作为聚类结果A,并对聚类结果各类进行编码;

步骤3:采用动态约简的方法,构造条件属性约简函数,对初始决策表中的条件属性进行约简,形成的最小条件属性集;

步骤4,将步骤3中最小条件属性集所对应的配电网数据集作为新的训练样本集;

步骤5:根据步骤4中形成的新的训练样本集对BP神经网络进行训练学习;

步骤6:将步骤5中训练完成的BP神经网络作为配电网故障诊断器,从而实现在线故障诊断。

2.根据权利要求1所述的一种基于大数据技术的配电网故障诊断方法,其特征在于,步骤1中连续属性值包括条件属性和决策属性值。

3.根据权利要求1所述的一种基于大数据技术的配电网故障诊断方法,其特征在于,步骤2.4)中利用遗传算法求解目标函数ming(x),具体流程如下:a)将步骤2.3)中剔除冗余后的离散化属性集作为初始种群,并初始化;

b)利用适应度函数 评价种群中个体的优劣,其中,N是离散

化属性集中条件属性类内各点的选择范围,C(a,b)是a类条件属性对b类条件属性的适应度返回值,Tb是b类条件属性的适应度目标值,B是初始种群中条件属性的类别个数;

c)根据b)中适应度值的大小对种群中的个体进行优胜劣汰的选择;

d)以预定概率从当前种群中选择适应度值较大的个体作为父代繁殖子代;

e)对当前子种群个体进行基因交叉、基因突变和重组;

f)进入种群下一代遗传,实现目标函数 的最优值逼近。

4.根据权利要求1所述的一种基于大数据技术的配电网故障诊断方法,其特征在于,步骤3中采用动态约简的方法,构造条件属性约简函数Si=m1Li+m2Ni,其中,m1和m2为重要度权重,且m1+m2=1;Li为条件属性关系重要度, n为初始决策表中条件属性的个数,Ni为条件属性特征重要度, |*|表示条件属性集合中包含的数据个数,D为初始决策表的条件属性集,G为数据特征常数,Miv为条件属性Ti和Tv之间的依赖关系,posj(D)表示第j类条件属性集在初始决策表中的特征重要级数,j=1,...,n。

5.一种基于大数据技术的配电网故障诊断系统,其特征在于,包括数据离散器、属性约简器、样本训练器,其中,数据离散器,用于根据如权利要求1中步骤2所述的方法对配电网中采集到的数据进行连续属性值进行离散化处理,形成初始决策表;属性约简器,用于对初始决策表中的条件属性进行约简,形成最小条件属性集;样本训练器,用于根据最小条件属性集对应的配电网数据对BP神经网络进行学习,输出训练完成的BP神经网络作为配电网故障诊断器。

说明书 :

一种基于大数据技术的配电网故障诊断方法及系统

技术领域

[0001] 本发明涉及一种基于大数据技术的配电网故障诊断方法及系统,用于解决配电网在线故障诊断的问题,属于分布式计算软件领域。

背景技术

[0002] 随着现代电力的迅猛发展,配电网规模的不断增大,配电网故障的不可避免性又使得提高配电网故障诊断率成为衡量供电可靠性的一个关键技术指标之一。配电网故障的诊断是配电网运行的重要工作,但是故障原因、故障现象、故障过程错综复杂,为提高配电网中故障诊断的快速性,国内外学者提出了模糊理论、遗传算法、人工神经网络等多种故障诊断方法,当故障诊断所依据的是信息正确、完整时,这些方法都能得到较为满意的结果,但是由于配电网中的信息存在干扰而丢失信息等诸多不确定因素,配电网中的大数据是大量、高速、多变的信息,它是数据的量和复杂程度发展到某个阶段的产物,对数据计算能力,分析算法的运行效率等方面提出了更高的要求,上述方法均存在一定的局限性。
[0003] 配电网中一个单点故障如不及时处理,将会引起故障的扩大化,甚至会造成人员和财产的巨大损失,如何在配电网中减少故障的发生,并能在故障发生后能及时处理,迅速恢复生产,已成为确保配电网安全运行的关键所在。配电网系统的高度可靠性与可维护性密切相关的故障诊断技术显得格外重要,现有的故障诊断方法有故障树诊断法、故障模式识别法、基于专家系统的诊断方法、基于神经网络的故障诊断、基于粗糙集的故障诊断等,但是这些方法在故障诊断中都存在一些弊端,不能及时有效的诊断在线故障,有必要提出一种鲁棒性强、适应各种不利情况的配电网故障诊断方法,帮助调度人员迅速识别故障,保证配电网的安全稳定运行。因此,科学高效的对配电网中的故障进行诊断对提高配电网供电可靠性和配电网服务质量意义重大。

发明内容

[0004] 本发明所要解决的技术问题是提供一种基于大数据技术的配电网故障诊断方法及系统,来解决配电网大数据环境下故障诊断问题,本发明是一种策略性方法,通过使用本方法可以使得配电网中的故障得到快速诊断,保证配电网的安全稳定运行。
[0005] 本发明为解决上述技术问题采用以下技术方案:
[0006] 一方面,本发明提供一种基于大数据技术的配电网故障诊断方法,具体步骤如下:
[0007] 步骤1:对配电网中采集到的数据进行连续属性值的提取,提取出的连续属性值作为原始决策表,用来进行网络训练;
[0008] 步骤2:对步骤1中形成的原始决策表中的连续属性值进行离散化处理,离散化后的连续属性值作为初始决策表;
[0009] 步骤3:采用动态约简的方法,构造条件属性约简函数,对初始决策表中的条件属性进行约简,形成的最小条件属性集;
[0010] 步骤4,将步骤3中最小条件属性集所对应的配电网数据集作为新的训练样本集;
[0011] 步骤5:根据步骤4中形成的新的训练样本集对BP神经网络进行训练学习;
[0012] 步骤6:将步骤5中测试好的BP神经网络作为配电网故障诊断器,从而实现在线故障诊断。
[0013] 作为本发明的进一步优化方案,步骤1中连续属性值包括条件属性和决策属性值。
[0014] 作为本发明的进一步优化方案,步骤2中对原始决策表中的连续属性值进行离散化处理,具体为:
[0015] 2.1)定义训练样本集的连续属性值集合为w,令 采用相似矩阵将原始决策表中的连续属性值排列为矩阵的形式 ,其中,绝对指数函数
为原始决策表中的第l1类属性, 为原始决策表中的第k1类属性;
[0016] 2.2)定义相似矩阵H中各不相同的元素组成的集合为K,对任意q∈K依次采用q-离关系公式Lq={(s,t)|L(s,t)≥q}计算出原始决策表中任意两个连续属性值之间的离关系,其中,s、t均为训练样本集中的连续属性值,L(s,t)为连续属性值s和t的模糊关系,q∈[0,1];用编网法得到聚类结果A1,通过q-离关系处理将原始决策表中的连续属性值进行初步离散化,形成初步离散化属性集;
[0017] 2.3)构造保留度函数 对初步离散化的属性集进行冗余信息的剔除,其中,Wc(x)为决策属性x的保留集,U为初步离散化的属性集,Rc(x)表示决策属性x对条件属性c的保留度;
[0018] 2.4)构造分类控制函数 对步骤2.3)中剔除冗余后的离散化属性集进行聚类处理,其中,nl为剔除冗余后的离散化属性集中第l类属性的个数,m为剔除冗余后的离散化属性集中属性的总类数,y为剔除冗余后的离散化属性集中第l类属性的中心,为剔除冗余后的离散化属性集中属性的类中心,r为剔除冗余后的离散化属性集中的属性个数, 为剔除冗余后的离散化属性集中第l类属性与第k类属性中心间的距离;
[0019] 2.4)利用遗传算法求解目标函数ming(x);
[0020] 2.5)定义综合函数Qq=n1Rc(x)+n2g(x),其中,n1和n2为权重系数,令Q=0,若Qq-Q<0,则转入步骤2.2);若Qq-Q>0,则令A=A1且Q=Qq,再转入步骤2.2);
[0021] 2.6)当原始决策表中的连续属性集离散结束时,取Qq的最大值作为聚类结果A,并对聚类结果的各类进行编码。
[0022] 作为本发明的进一步优化方案,步骤2.4)中利用遗传算法求解目标函数ming(x),具体流程如下:
[0023] a)将步骤2.3)中剔除冗余后的离散化属性集作为初始种群,并初始化;
[0024] b)利用适应度函数 评价种群中个体的优劣,其中,N是是离散化属性集中条件属性类内各点的选择范围,C(a,b)是a类条件属性对b类条件属性的适应度返回值,Tb是b类条件属性的适应度目标值,B是初始种群中条件属性的类别个数;
[0025] c)根据b)中适应度值的大小对种群中的个体进行优胜劣汰的选择;
[0026] d)以预定概率从当前种群中选择适应度值较大的个体作为父代繁殖子代;
[0027] e)对当前子种群个体进行基因交叉、基因突变和重组;
[0028] f)进入种群下一代遗传,实现目标函数 的最优值逼近。
[0029] 作为本发明的进一步优化方案,步骤3中采用动态约简的方法,构造条件属性约简函数Si=m1Li+m2Ni,其中,m1和m2为重要度权重,且m1+m2=1;Li为属性关系重要度,其中,n为初始决策表中条件属性的个数,Ni为属性特征重要度,|*|表示属性集合中包含的数据个数,D为初始决策表的属性集,G为数据特征常数,Miv为条件属性Ti和Tv之间的依赖关系,posj(D)表示第j类条件属性集在初始决策表中的特征重要级数,j=1,...,n。
[0030] 另一方面,本发明还提供一种基于大数据技术的配电网故障诊断系统,包括数据离散器、属性约简器、样本训练器,其中,数据离散器,用于对对配电网中采集到的数据进行连续属性值进行离散化处理,形成初始决策表;属性约简器,用于对初始决策表中的条件属性进行约简,形成最小条件属性集;样本训练器,用于根据最小条件属性集对应的配电网数据对BP神经网络进行学习,输出训练完成的BP神经网络作为配电网故障诊断器。
[0031] 本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明方法一种基于大数据技术的配电网故障诊断方法,主要用于解决配电网中故障及时诊断问题,通过使用本发明中提出的方法可以根据当前配电网中的大数据,利用粗糙集理论和BP神经网络相结合的方法对配电网中的故障进行及时诊断,从而很好的保证配电网的安全稳定运行。

附图说明

[0032] 图1是配电网故障诊断系统结构图。
[0033] 图2是参考体系结构示意图。
[0034] 图3是本发明方法的流程示意图。

具体实施方式

[0035] 下面结合附图对本发明的技术方案做进一步的详细说明:
[0036] 基于大数据技术的配电网故障诊断系统主要需考虑两个方面的问题:(1)如何从模糊、不确定、不完整的信息中提取知识的相关性,并通过有监督的学习,经过训练数据集合进行分类归并,挖掘出配电网存在的在线故障原因。(2)如何针对配电网故障非线性的特点,寻找一种具有很强的学习能力,适应能力和鲁棒性的方法,对配电网故障进行分类并建立一个简化的故障诊断系统。
[0037] 本发明的方法是一种策略性的方法,通过使用粗糙集理论将配电网中不确定,不完整的信息约简去除冗余属性,将简化的规则经过BP神经网络的训练学习,把训练好的神经网络作为诊断推理机用于配电网中,从而解决了配电网的在线故障诊断问题。
[0038] 一、体系结构
[0039] 图1给出了基于大数据技术的配电网故障诊断系统结构图,它主要包括三个部分:数据离散器、属性约简器、样本训练器。图1中的数据离散器将系统中模糊、不确定的原始数据的连续属性离散化;属性约简器用来去掉冗余的信息提炼规则并约简规则;样本训练器用于将简化的规则进行训练学习。
[0040] 下面给出具体介绍:
[0041] 数据离散器:数据离散器主要用于对配网中的大数据连续属性的离散化处理,本发明中要运用粗糙集理论进行数据的属性约简,然而粗糙集理论是一种基于离散化数据进行处理的方法,连续数据的属性离散化直接影响到它的处理效果,本发明中提出保留度函数Rc(x)和分类控制函数g(x)的方法,实现特征自动识别的聚类分析功能。另,本专利中对数据离散器的具体实现不做任何限制。
[0042] 属性约简器:在保持知识分类能力不变的条件下,对信息表进行属性约简可以简化信息系统的复杂程度,属性约简器主要通过构造属性约简函数,删除多余的条件属性(删除信息表中的某一列),消去重复的行,以及消去每一决策规则的多余属性,以此来实现数据属性的动态约简。
[0043] 样本训练器:样本训练器主要运用BP神经网络技术针对配电网故障非线性的特点和神经网络所具有的很强的学习能力、适应能力、鲁棒性的特点,用BP神经网络对配电网中的故障进行分类,建立一个简化的故障诊断系统。用BP神经网络对简化的规则进行训练学习,并把训练好的BP神经网络作为配电网系统的诊断推理机。
[0044] 二、方法流程
[0045] 1、数据离散器
[0046] 将连续的属性离散化,关键在于断点的选择,因此属性的离散化问题被归结为如何选择断点对条件属性构成的空间进行合理的划分问题。粗糙集只能对离散的属性进行操作,而且属性离散结果的好坏直接影响最后的分析,所以粗糙集面临的一个难题是如何将连续的属性离散化,本专利中构造保留度函数Rc(x)使离散的结果尽可能反映原始的数据信息,尽可能减少数据信息的流失,同时又不添加冗余的数据信息。考虑到离散分类中要使类内各点尽可能的在一起,并使类间明显的分开,本专利中另外构造分类控制函数g(x)来反应分类的效果,因此离散结果由这两个函数共同控制。
[0047] (1)保留度函数即:
[0048]
[0049] 式中,c为条件属性,x决策属性,D为训练样本集的属性集,Rc(x)为x对c的保留度,即:
[0050]
[0051] Wc(x)为x的保留集,W为训练样本集的保留子集,D为训练样本集的属性集(包括条件属性和决策属性),V为训练样本集的条件属性保留度集;
[0052] 定义综合函数Qq=n1Rc(x)+n2g(x),其中,n2和n1为保留度函数和分类控制函数的权重系数,合理的分配权重是关键;
[0053] (2)分类控制函数即:
[0054]
[0055] 式中,m为数据分类个数,y为第l类条件属性值的中心,为全体条件属性值中心,r为经过保留度函数离散化的样本数据个数,n为第k类数据的个数, 为第k类数据与第l类的类间距离。其中g(x)的分子表示类与类之间的距离,分母表示类内素的距离,所以g(x)的值越小,分类越合理。
[0056] 本发明中的离散过程如下:
[0057] a)本专利中对训练样本集的连续属性(包括条件属性和决策属性)逐一进行离散化。首先定义训练样本集的连续属性集(包括条件属性和决策属性)为w。并设 采用相似矩阵 对训练样本集连续属性值排列为矩阵的形式,其中利用绝对指数函数作为相似函数,式中 为训练样本集中第l1类属性, 为训练样本集中第k1类属性。
[0058] b)定义综合函数Qq=n1Rc(x)+n2g(x),其中n1和n2为保留度函数和分类控制函数的权重系数,合理的分配权重是关键。
[0059] c) 设L为D×D上的模 糊关 系,模 糊关 系满足 :并设Lq=
{(s,t)|L(s,t)≥q}为L的q-离关系,表示训练样本集任意两个连续属性值之间的离关系,其中s,t,w,c,z为训练样本集中的连续属性,L(s,t)为连续属性s和t的模糊关系,其中q∈[0,1]的任意值。对于相似矩阵H,设其所有不同元素组成的集为K,对q∈K依次作q-离关系即Lq。
[0060] d)依次对q得到离关系Gq,根据编网法得到聚类结果A1,计算QP的值。通过q-离关系处理将训练样本集的连续属性值初步离散化,形成初步离散化属性集,离散的结果尽可能反映原始的数据信息,尽可能减少数据信息的流失。
[0061] e)若Qp-Q<0,则转入b)步骤,计算下一个q,若Qp-Q>0,则使A=A1,Q=Qp,再进入b)步骤。
[0062] f)当训练样本集中的连续属性集离散结束时,取Qq的最大值作为聚类结果A,并用1,2,3,...对聚类结果各类进行编码。
[0063] (3)为了使训练样本集连续属性离散过程中达到较好的聚类效果,本发明中构造分类控制函数g(x)进行聚类处理,分类控制函数的分子代表属性类与类之间距离,分母代表属性类内之间的距离,所以目标函数值越小分类越合理。
[0064] 本发明中采用遗传算法的思想求解目标函数g(x)的最小值,主要工作流程如下:
[0065] a)输入训练样本集作为初始种群。
[0066] b)由客户端初始化种群。
[0067] c)利用适应度函数,即:
[0068]
[0069] 评价种群中个体的优劣,其中N是原始样本属性类内各点的选择范围,C(a,b)是a类属性数据对b类属性的适应度返回值,Tb是b类属性的适应度目标值,B是初始种群中条件属性的类别个数。根据适应度值的大小对种群中的个体进行优胜劣汰的选择,适应度值越大的个体被选择保留下来的概率越大。
[0070] d)保留每代遗传中的最优个体,即以某概率从当前种群中选择适应度值较大的个体作为父代繁殖子代,有效的保证遗传算法的收敛性。
[0071] e)对当前子种群个体进行基因交叉、基因突变和重组。
[0072] f)进入种群下一代遗传,实现目标函数 最优值逼近。nl为第l类的个数,m为训练样本集类数,y为第l类属性的中心,为训练样本集属性的类中心,r为训练样本集数据个数, 为第k类数据内l类与第k的类中心间距离,目标函数的分子代表属性类与类之间距离,分母代表属性类内之间的距离,所以目标函数值越小分类越合理。利用遗传算法最优值逼近的思想最终输出使类间明显的分开,而类内各点尽可能的在一起最优决策表。
[0073] 2、属性约简器
[0074] 在粗糙集中属性约简是指在不降低分类精度的情况下,保留关键信息的同时对数据进行化简并求得知识的最小表达,揭示概念简单模式,并能识别和评估数据间的依赖关系。约简使得相同的决策通过更少的条件得出,因此用较少的判断便可以得到相同精度的结果,约简的过程和方法显得特别重要。属性约简的过程就是删除冗余条件属性的过程,找出一个决策表的最小约简是一个NP难问题。
[0075] 在本发明中采用动态约简的方法构造属性约简函数,数据条件属性Ti的重要度由条件属性关系和条件属性特征2个维度构成,表示为Si。条件属性关系重要度反映单个条件属性对整个系统其它条件属性的影响。如果1个条件属性与其它条件属性相关,即属性Tj的依赖于Ti时,认为任务Ti有较高的关系重要度,可认为两者属性不可分辨,可以归为一个范畴;当条件属性集B是独立的,存在B=J-e,使得ind(J)=ind(B),则称B为A的约简,其中e也为样本的一个条件属性集,属性约简函数用以下的公式表示,即:
[0076] Si=miLi+m2Ni
[0077] 式中:m1和m2为重要度权重,m1+m2=1;Li为属性关系重要度。Ni为属性特征重要度。用数据属性间的依赖关系表示属性的关系重要度,设为矩阵,Mij=0一个表示属性Ti和Tj之间没有依赖关系;Mij=1表示条件属性Tj需要依赖Ti。因此,属性的关系重要度即:
[0078]
[0079] 属性的特征重要度即:
[0080]
[0081] 式中0≤Ni≤1。|*|表示属性集合中包含的数据个数,D为训练样本集的属性集,G为数据特征常数,Miv为属性Ti和Tv之间的依赖关系,n为初始决策表中条件属性的个数,posA(D)表示第j类条件属性集在初始决策表中的特征重要级数,j=1,...,n。
[0082] 3、样本训练器
[0083] BP神经网络主要构成数据样本训练器,BP神经网络由三层神经元组成,即输入层、隐含层、输出层。网络中同一层神经元互不相连,不同神经元层之间相互连接,BP神经网络正向传播中每一层的神经元的状态只影响下一层神经元的状态,样本输入量从输入层输入经过隐含层,最后传入输出层。当正向传播的输出层没有得到理想的输入时,即转入神经网络的反向传播,此时将误差信号输入到输入层,不断地调整各层的阈值和权值,使误差逐渐变小,数据样本经过反复训练,最终使权值收敛于最小点。
[0084] (1)BP神经网络的正向传播过程:
[0085] 设第o个数据样本输入向量为Yo=(yo1,yo2,......yon),得到隐含层的第v个节点的输出pv即:
[0086]
[0087] 式中f为Sigmiod函数,即 u为输入层神经元,hiv为输入层到隐含层的连接权值,xkv为第b个样本的输入,θv为输入层第v个神经元阈值。输出层的第d个节点的输出Hr即:
[0088]
[0089] 式中s为隐含层神经元数wrm为隐含层到输出层的连接权值,θr为隐含层第r个神经元的阈值。
[0090] (2)BP神经网络的反向传播过程:
[0091] 设有H对学习样本(Ag,Bg),(g=1,2......,p),实际上输出Bg'与要求Bg的误差函数即:
[0092]
[0093] BP算法将沿着Dg的负梯度方向不断改变权值使网络收敛,每次的改变量即:
[0094]
[0095] 式中0<η<1,η为学习效率。对于隐含层输出量的连接权值
[0096]
[0097] 输入层到隐含层的连接权值即:
[0098]
[0099] 本发明一种基于大数据技术的配电网故障诊断方法的主要工作流程为:
[0100] (1)将配电网中采集到的数据的连续属性值作为系统的原始样本,并将原始样本中的数据随机的分成两部分:一部分作为训练样本集,作为原始决策表,用来进行网络训练;另一部分作为测试样本集,用来对训练后的网络进行测试。
[0101] (2)对原始决策表中的连续属性值进行离散化处理,本发明中提出保留度函数Rc(x)和分类控制函数g(x)的方法,运用基因遗传算法的思想将分类控制函数g(x)作为目标函数,并对目标函数进行最优化逼近处理,实现特征自动识别的聚类分析功能。
[0102] (3)离散化后的条件属性和决策属性值形成初始决策表,其中决策表中的每一行描述一个对象,其中的每一列对应对象的一种属性。用动态约简的方法构造属性约简函数Si=miLi+m2Ni使决策表保证分类正确的条件下不含有多余的属性,形成最小条件属性集。
[0103] (4)用训练样本来确定神经网络的结构,用约简后的学习样本对BP神经网络进行学习训练并输出分类结果;用测试样本集对训练好的BP神经网络进行测试,把测试好的BP神经网络作为配电网中诊断器,减少神经网络的诊断时间,实现在线故障诊断。
[0104] 本发明的一种基于大数据技术的配电网故障诊断方法包含的步骤为:
[0105] 步骤1:将配电网中采集到的数据的连续属性值作为系统的原始样本,并将原始样本中的数据随机的分成两部分:一部分作为训练样本集,作为原始决策表,用来进行网络训练;另一部分作为测试样本集,用来对训练后的网络进行测试。进入步骤2;
[0106] 步骤2:连续属性值离散化处理。对步骤1中形成的原始决策表中的连续属性值进行离散化处理,本发明中提出保留度函数Rc(x)和分类控制函数g(x)的方法,实现特征自动识别的聚类分析功能。进入步骤3;
[0107] 步骤3:将离散化后的条件属性和决策属性值形成初始决策表,其中决策表中的每一行描述一个对象,其中的每一列对应对象的一种属性。进入步骤4;
[0108] 步骤4:用动态约简的方法,构造属性约简函数,即:
[0109] Si=miLi+m2Ni
[0110] 式中:m1和m2为重要度权重,m1+m2=1;Li为属性关系重要度。Ni为属性特征重要度。对决策表的条件属性进行约简,使决策表保证分类正确的条件下不含有多余的属性,形成最小条件属性集。进入步骤5;
[0111] 步骤5:步骤4形成的最小条件属性集构成新的训练样本,此时样本中仅含有影响分类的重要条件属性,将不必要的条件属性已经去除。进入步骤6;
[0112] 步骤6:根据步骤5中形成的新的训练样本集来对BP神经网络进行学习训练并输出分类结果。进入步骤7;
[0113] 步骤7:用步骤1中的测试样本集对步骤6中的BP神经网络进行测试,并把测试好的神经网络作为配电网中诊断器,实现在线故障诊断。
[0114] 本发明中:
[0115] 数据离散器通过使用保留度函数Rc(x)和分类控制函数g(x)的方法,保证了在条件属性和决策属性不变的情况下,寻找到合适的分割点集,将条件属性构成的空间进行划分,使用此方法,既能保证信息系统所表达的样本之间的不可分辨的关系,又能准确的对实例中的大数据进行分类。通过使用数据离散器,使得配电网中的大数据属性具有自动识别的聚类分析的特点。
[0116] 属性约简器通过构造属性约简函数,从而使得配电网中的数据根据属性间的关系重要度和属性特征实现动态属性约简。在配电网大数据信息系统中数据的各个属性并不是同等重要的,甚至有些属性是冗余的,本专利中基于重要度的属性约简方法是建立在决策表的核集之上,依次添加数据的条件属性,直到满足所添加的属性集合的属性间依赖度和属性特征的不可分辨性达到最小为止,并在这基础上删除数据中的非核属性,直到样本集中的属性都满足不可缺少为止。
[0117] 为了方便描述,我们假设有如下应用实例:
[0118] 配电网中的大数据具有数据量大、维度多、数据种类多的特点,对用户、公司和社会经济均有巨大的价值,假如配电网中出现了故障,导致其不能正常运行,运用粗糙集和BP神经网络相结合的思想对故障进行及时诊断,构造保留度函数Rc(x)和分类控制函数g(x)实现数据连续属性的离散化处理,用动态约简的方法构造属性约简函数Si=miLi+m2Ni对数据属性进行约简,运用BP神经网络对简化的规则进行训练学习,通过此方法建立一个简化的故障诊断系统,实现配电网故障的在线诊断
[0119] 其具体的实施方案为:
[0120] (1)当前网络的数据存在着复杂的关系需要挖掘,且大多数情况下有实时性要求,首先将当前配电网中采集到的大量数据进行特征值提取,作为系统的原始数据,形成初始决策表。
[0121] (2)因为粗糙集只能对离散的属性进行操作,因此采用保留度函数Rc(x)和分类控制函数g(x)的方法,将初始决策表中的连续属性值进行离散化处理并运用基因遗传算法的思想将分类控制函数g(x)作为目标函数,并对目标函数进行最优化逼近处理。
[0122] (3)在粗糙集理论的属性约简中,采用动态约简的方法构造属性约简函数Si=miLi+m2Ni使决策表保证分类正确的条件下不含有多余的属性,形成最小条件属性集,从而完成对新的数据集合的分类归并。由于粗糙集理论的数据挖掘算法有利于实现并行执行,可以极大的提高数据挖掘的效率,因此将其与BP神经网络相结合实现对隐含信息的挖掘。
[0123] 运用训练样本来确定神经网络的结构,使神经网络的结构更加简单,易于理解,也减少网络的训练时间。用约简后的学习样本对BP神经网络进行学习训练并输出分类结果,把训练好的BP神经网络作为配电网中诊断器,实现在线故障诊断。
[0124] 以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。