适用于海量类别不平衡负荷数据的典型用电模式提取方法转让专利

申请号 : CN202010552138.8

文献号 : CN111681132B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘洋唐子卓

申请人 : 四川大学

摘要 :

本发明公开了适用于海量类别不平衡负荷数据的典型用电模式提取方法,该方法包括(S1)采用Borderline‑SMOTE训练样本类别不平衡处理方法处理负荷数据;(S2)利用MODWT对负荷数据进行分解,获得小波系数和尺度系数,并将其构成频域特征矩阵;(S3)基于深度LSTM网络的负荷分类模型对分解后得到的频域特征矩阵进行建模处理;(S4)基于Spark的负荷分类模型并行化结构。通过上述方案,本发明达到了通过频域分解、样本过采样处理以及分布式计算等手段提高形态相似曲线的分类精度,提高对存在类别不平衡问题负荷数据的分类精度,提高对海量负荷数据进行典型用电模式提取的计算效率的目的,具有很高的实用价值和推广价值。

权利要求 :

1.适用于海量类别不平衡负荷数据的典型用电模式提取方法,其特征在于,包括如下步骤:

(S1)采用Borderline‑SMOTE训练样本类别不平衡处理方法处理负荷数据:(S11)在全体训练集T中计算少数类P中的每一个样本点pi(i=1,...,pnum)的m近邻点集,其中属于多数类的样本点数为m′(0≤m′≤m);

(S12)如果m′=m,即样本点pi的m近邻全部属于多数类,pi将被视作噪声点而忽略;如果

0≤m′<m/2,pi被视作少数类内点不做处理;如果m/2≤m′≤m,pi将被视作边界点而继续后续处理,得到边界点集E={p′1,p′2,...,p′dnum},0≤dnum≤pnum;

(S13)对边界点集E中的每个样本点p′i计算其在少数类P中的k近邻点集,从中随机选择s个k近邻点与p′i进行线性插值,合成新样本syntheticj=p′i+rj×(p′i‑p′j),其中rj为[0‑

1]内的随机数,p′j为选取的样本点;

(S2)利用MODWT对负荷数据进行分解,获得小波系数和尺度系数,并将其构成频域特征矩阵;其基本定义如下:

设X={Xt:t=0,...,N‑1}为原始的时间序列数据,令{hj,l}和{gj,l}分别表示小波滤波器系数和尺度滤波器系数,定义第j层极大重叠离散小波变换的小波系数与尺度系数为向量 和 其元素分别为:

t=0,1,...,N‑1

其中: L为滤波器宽度,mod为求余函数,滤波器 和 分别称为第j层极大重叠离散小波变换的小波滤波器和尺j

度滤波器,宽度为Lj=(2‑1)(L‑1)+1;

(S3)基于深度LSTM网络的负荷分类模型对分解后得到的频域特征矩阵进行建模处理:(S31)SequenceinputLayer将矩阵形式的输入数据转换为网络可以训练的时序数据,其参数inputsize是每个输入序列的特征维度;

(S32)LSTMLayer学习时序数据中序列数据与时间步长之间的依赖关系,并提取出固有的抽象特征;FullyConnectedLayer接收从LSTM层提取的抽象特征,通过将输入数据与权重矩阵相乘并加入偏差向量来降低分类输出层的数据复杂度;

(S33)SoftMax层对经过FullyConnectedLayer的输入采用SoftMax激活函数,可以将多分类问题的输出数值转化为分类数据属于各个类别的概率;

(S34)ClassificationLayer从Softmax函数中获取输入,并通过计算交叉熵损失函数得到模型的预测结果和真实值之间的差异,交叉熵损失函数值也是判断网络是否收敛的依据;

(S4)基于Spark的负荷分类模型并行化结构:(S41)将经过类别不平衡处理的负荷数据训练样本通过Bootstrapping有放回采样获得M个采样训练块XB={xB1,xB2,…,xBM},然后将其余负荷数据作为待分类样本添加到各训练块文件中,并将各文件保存至分布式文件系统HDFS中;

(S42)Spark从HDFS读取文件,并启动与负荷数据块个数相同个数的Mapper,各Mapper分别初始化一个基于LSTM网络的训练模型,并输入一个由MODWT处理后的采样训练块,然后通过对每个Mapper进行训练,得到多个具有不同性能的基分类器;

(S43)将待分类负荷数据输入到训练完成的所有LSTM网络基分类器中,将所有基分类器对同一负荷数据的分类结果进行多数表决投票;

(S44)在得到负荷分类结果后,对各个类别的负荷曲线通过质心提取的方式获得其典型用电模式。

说明书 :

适用于海量类别不平衡负荷数据的典型用电模式提取方法

技术领域

[0001] 本发明属于用电技术领域,具体地讲,是涉及适用于海量类别不平衡负荷数据的典型用电模式提取方法。

背景技术

[0002] 对用户负荷数据进行用电行为模式提取对于改善电力系统运行可靠性、提高电网资产利用效率、提高企业经济效益、节约能源具有重要意义。随着电力物联网技术的发展以
及用电信息采集系统的完善,负荷数据呈现海量化、多元化、不平衡等特征。传统的负荷典
型用电模式提取方法在面对海量不平衡负荷数据时往往存在学习效率低下和分类精度较
低等问题。
[0003] 传统的典型用电模式提取方法按照负荷数据有无类别标签主要分为无监督聚类和有监督分类两种。其中,无监督聚类算法主要包括K‑Means、K‑Medoids、层次聚类、FCM等
[1‑2],这类算法主要以欧氏距离作为曲线相似度的度量指标,通过聚类技术对不同类别的
负荷曲线进行划分,但其浪费了部分有标记数据所提供的有用信息,无法学习曲线之间的
深层特征。有监督分类算法主要包括支持向量机、人工神经网络等[3‑4],在有先验知识的
情况下对数据进行分析,可以更加准确地把握负荷数据的本质特征及规律,其主要步骤包
括负荷数据预处理、负荷分类以及典型用电模式提取三部分。负荷数据预处理部分包括删
除包含空缺值的用户负荷曲线,并进行数据归一化处理,负荷分类部分是通过支持向量机、
人工神经网络等机器学习模型以及循环神经网络等深度学习模型对带有类别标签的负荷
数据进行有监督分类学习,典型用电模式提取部分主要通过负荷数据类别质心、形态质心
提取等手段。
[0004] 但是,传统的典型用电模式提取方法在面对海量负荷数据时往往由于学习过程中训练样本过大导致效率低下,且由于用户用电行为的随机性和多样性,负荷数据存在严重
的类别不平衡问题,某些类别的负荷数量远少于其他类别的负荷数量,模型对少数类样本
的分辨能力会受到较大影响。另一方面,尽管深度学习中的深度LSTM网络等模型具有较好
的时序数据学习能力,但其无法有效把握负荷数据潜藏的频域特征,从而无法准确地辨别
出时域上欧氏距离较为接近而频域上波动特性差异较大的负荷数据信息。
[0005] 背景技术中涉及到的参考文件如下:
[0006] [1]彭显刚,赖家文,陈奕.基于聚类分析的客户用电模式智能识别方法[J].电力系统保护与控制,2014,42(19):68‑73.
[0007] [2]张丽艳,陈映月,韩正庆.基于改进聚类方式的牵引负荷分类方法研究[J/OL].西南交通大学学报:1‑7[2018‑12‑27].
[0008] [3]顾丹珍,艾芊,陈陈,沈善德.自适应神经网络在负荷动态建模中的应用[J].中国电机工程学报,2007(16):31‑36
[0009] [4]黎祚,周步祥,林楠.基于模糊聚类与改进BP算法的日负荷特性曲线分类与短期负荷预测[J].电力系统保护与控制,2012,40(03):56‑60.

发明内容

[0010] 为了克服现有技术中的上述不足,本发明提供适用于海量类别不平衡负荷数据的典型用电模式提取方法,通过频域分解、样本过采样处理以及分布式计算等手段提高形态
相似曲线的分类精度,提高对存在类别不平衡问题负荷数据的分类精度,提高对海量负荷
数据进行典型用电模式提取的计算效率。
[0011] 为了实现上述目的,本发明采用的技术方案如下:
[0012] 适用于海量类别不平衡负荷数据的典型用电模式提取方法,包括如下步骤:
[0013] (S1)采用基于边界少数类样本合成的过采样技术(Borderline‑Synthetic Minority Oversampling Technique,Borderline‑SMOTE)训练样本类别不平衡处理方法处
理负荷数据;
[0014] (S2)利用极大重叠离散小波变换(Maximal overlap discrete wavelet transform,MODWT)对负荷数据进行分解,获得小波系数和尺度系数,并将其构成频域特征
矩阵;
[0015] (S3)基于深度长短期记忆神经网络(Long Short‑Term Memory,LSTM)的负荷分类模型对分解后得到的频域特征矩阵进行建模处理;
[0016] (S4)基于通用并行框架(Spark)的负荷分类模型并行化结构。
[0017] 进一步地,所述步骤(S1)中Borderline‑SMOTE训练样本类别不平衡处理方法的具体步骤如下:
[0018] (S11)在全体训练集T中计算少数类P中的每一个样本点pi(i=1,...,pnum)的m近邻点集,其中属于多数类的样本点数为m′(0≤m′≤m);
[0019] (S12)如果m′=m,即样本点pi的m近邻全部属于多数类,pi将被视作噪声点而忽略;如果0≤m′≤m/2,pi被视作少数类内点不做处理;如果m/2≤m′≤m,pi将被视作边界点而继
续后续处理,得到边界点集E={p′1,p′2,...,p′dnum},0≤dnum≤pnum;
[0020] (S13)对边界点集E中的每个样本点p′i计算其在少数类P中的k近邻点集,从中随机选择s个k近邻点与p′i进行线性插值,合成新样本syntheticj=p′i+rj×(p′i‑p′j),其中
rj为[0‑1]内的随机数,p′j为选取的样本点。
[0021] 进一步地,所述步骤(S3)中进行建模处理的具体步骤如下:
[0022] (S31)序列输入层(SequenceinputLayer)将矩阵形式的输入数据转换为网络可以训练的时序数据,其参数输入维度(inputsize)是每个输入序列的特征维度;
[0023] (S32)LSTM层学习时序数据中序列数据与时间步长之间的依赖关系,并提取出固有的抽象特征;全连接层(FullyConnectedLayer)接收从LSTM层提取的抽象特征,通过将输
入数据与权重矩阵相乘并加入偏差向量来降低分类输出层的数据复杂度;
[0024] (S33)归一化指数函数(SoftMax)层对经过FullyConnectedLayer的输入采用SoftMax激活函数,可以将多分类问题的输出数值转化为分类数据属于各个类别的概率;
[0025] (S34)分类层(ClassificationLayer)从Softmax函数中获取输入,并通过计算交叉熵损失函数得到模型的预测结果和真实值之间的差异,交叉熵损失函数值也是判断网络
是否收敛的依据。
[0026] 具体地,所述步骤(S4)中基于Spark的负荷分类模型并行化结构包括如下步骤:
[0027] (S41)将经过类别不平衡处理的负荷数据训练样本通过Bootstrapping有放回采样获得M个采样训练块XB={xB1,xB2,…,xBM},然后将其余负荷数据作为待分类样本添加到
各训练块文件中,并将各文件保存至分布式文件系统HDFS中;
[0028] (S42)Spark从HDFS读取文件,并启动与负荷数据块个数相同个数的工作节点(Mapper),各Mapper分别初始化一个基于LSTM网络的训练模型并输入一个由MODWT处理后
的采样训练块,然后通过对每个Mapper进行训练,得到多个具有不同性能的基分类器;
[0029] (S43)将待分类负荷数据输入到训练完成的所有LSTM网络基分类器中,将所有基分类器对同一负荷数据的分类结果进行多数表决投票;
[0030] (S44)在得到负荷分类结果后,对各个类别的负荷曲线通过质心提取的方式获得其典型用电模式。
[0031] 与现有技术相比,本发明具有以下有益效果:
[0032] (1)本发明采用Borderline‑SMOTE类别不平衡处理方法可以有效提高不平衡样本的分类正确率以及各个类别的召回率。采用MODWT频域特征提取方法以及基于深度LSTM网
络的负荷分类模型不仅具有较强的时序序列建模能力,还可以有效识别出负荷曲线的形态
特征,将形态特征相近的曲线分为一类。在Spark平台上实现负荷分类算法并行化对海量大
数据分类,具有高效便捷的优势,仅需要通过多台普通计算机并行的方式就可以达到较高
的计算效率,为解决海量用户负荷分类问题提供一种新的思路。

附图说明

[0033] 图1为本发明的系统流程图。
[0034] 图2为本发明的提取方法总体示意图。
[0035] 图3为本发明深度LSTM网络的负荷分类模型的具体流程图。
[0036] 图4为本发明负荷分类模型集成学习的流程图(图4a为负荷训练块学习模型、图4b为负荷数据分类集成学习模型)。

具体实施方式

[0037] 下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。
[0038] 实施例
[0039] 如图1至图4所示,适用于海量类别不平衡负荷数据的典型用电模式提取方法,包括如下步骤:
[0040] (S1)采用Borderline‑SMOTE训练样本类别不平衡处理方法处理负荷数据;其中Borderline‑SMOTE训练样本类别不平衡处理方法首先根据负荷曲线间的欧氏距离,找出少
数类训练样本中与多数类相邻的边界元素,对该边界集使用SMOTE算法随机合成新训练样
本,调整数据合成比例,使多数类与少数类样本数大致平衡。Borderline‑SMOTE训练样本类
别不平衡处理方法的具体步骤如下:
[0041] (S11)在全体训练集T中计算少数类P中的每一个样本点pi(i=1,...,pnum)的m近邻点集(“距离”最近的m个点),其中属于多数类的样本点数为m′(0≤m′≤m);
[0042] (S12)如果m′=m,即样本点pi的m近邻全部属于多数类,pi将被视作噪声点而忽略;如果0≤m′≤m/2,pi被视作少数类内点不做处理;如果m/2≤m′≤m,pi将被视作边界点而继
续后续处理,得到边界点集E={p′1,p′2,...,p′dnum},0≤dnum≤pnum;
[0043] (S13)对边界点集E中的每个样本点p′i计算其在少数类P中的k近邻点集,从中随机选择s个k近邻点与p′i进行线性插值,合成新样本syntheticj=p′i+rj×(p′i‑p′j),其中
rj为[0‑1]内的随机数,p′j为选取的样本点。
[0044] (S2)利用MODWT对负荷数据进行分解,获得小波系数和尺度系数,并将其构成频域特征矩阵;其基本定义如下:
[0045] 设X={Xt:t=0,...,N‑1}为原始的时间序列数据,令{hj,l}和{gj,l}分别表示小波滤波器系数和尺度滤波器系数。定义第j层极大重叠离散小波变换的小波系数与尺度系数
为向量 和 其元素分别为:
[0046]
[0047]
[0048] t=0,1,...,N‑1
[0049] 其中: L为滤波器宽度,mod为求余函数。滤波器 和 分别称为第j层极大重叠离散小波变换的小波滤
j
波器和尺度滤波器,宽度为Lj=(2‑1)(L‑1)+1。
[0050] (S3)基于深度LSTM网络的负荷分类模型对分解后得到的频域特征矩阵进行建模处理;首先将输入数据分为训练样本集和测试样本集,并进行有监督学习。
[0051] 其中建模处理的具体步骤如下:
[0052] (S31)SequenceinputLayer将矩阵形式的输入数据转换为网络可以训练的时序数据,其参数inputsize是每个输入序列的特征维度;
[0053] (S32)LSTMLayer学习时序数据中序列数据与时间步长之间的依赖关系,并提取出固有的抽象特征;FullyConnectedLayer接收从LSTM层提取的抽象特征,通过将输入数据与
权重矩阵相乘并加入偏差向量来降低分类输出层的数据复杂度;
[0054] (S33)SoftMax层对经过FullyConnectedLayer的输入采用SoftMax激活函数,可以将多分类问题的输出数值转化为分类数据属于各个类别的概率;
[0055] (S34)ClassificationLayer从Softmax函数中获取输入,并通过计算交叉熵损失函数得到模型的预测结果和真实值之间的差异,交叉熵损失函数值也是判断网络是否收敛
的依据。
[0056] (S4)基于Spark的负荷分类模型并行化结构,具体包括如下步骤:
[0057] (S41)将经过类别不平衡处理的负荷数据训练样本通过Bootstrapping有放回采样获得M个采样训练块XB={xB1,xB2,…,xBM},然后将其余负荷数据作为待分类样本添加到
各训练块文件中,并将各文件保存至分布式文件系统(Hadoop distributed filesystem,
HDFS)中。文件中负荷训练数据格式均为<“train”,data,class>,待分类数据格式为<
“classify”,data,target>。第1列为两种数据的区分标签,data表示负荷向量,class为二
进制数表示的负荷训练数据的类别,target表示待分类数据的类别标签。
[0058] (S42)Spark从HDFS读取文件,并启动与负荷数据块个数相同个数的Mapper,各Mapper分别初始化一个基于LSTM网络的训练模型,并输入一个由MODWT处理后的采样训练
块,然后通过对每个Mapper进行训练,得到多个具有不同性能的基分类器;
[0059] (S43)将待分类负荷数据输入到训练完成的所有LSTM网络基分类器中,将所有基分类器对同一负荷数据的分类结果进行多数表决投票。如下所示:
[0060]
[0061] 其中,M是基分类器的个数,N是预测结果中出现的类别个数。每一个基分类器m的负荷预测结果被标记为Rmn,m=1,2,…,M,n=1,2,…,N,Rmn∈{0,1}。如果负荷预测结果是
n,则Rmn=1,否则Rmn=0。
[0062] 上述实施例仅为本发明的优选实施例,并非对本发明保护范围的限制,但凡采用本发明的设计原理,以及在此基础上进行非创造性劳动而做出的变化,均应属于本发明的
保护范围之内。