实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法转让专利

申请号 : CN201510681565.5

文献号 : CN105184424B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 聂萌甄颖殷守斌王治国吴衍达王洋张欣马松程金吴倩红韩蓓李国杰乔朋利孔宁马群

申请人 : 国网山东省电力公司菏泽供电公司上海交通大学

摘要 :

一种实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法,通过采用多核函数来有效处理影响负荷预测的多源异构数据,包括历史负荷数据、气象因素、日类型、节假日信息、电价信息、交通信息等,将多源异构数据进行有效融合,提高了核机器的性能以更好的利用不同数据源中的信息;同时将多核支持向量机实现Mapreduce化,具有较好的加速比和可扩展性,适合于大规模数据的分析。

权利要求 :

1.一种实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法,其特征在于,该方法包括如下步骤:步骤1、配置负荷预测平台:选定主节点服务器与从节点计算机,搭建集群分布式Hadoop平台,并配置集群环境JDK、SSH、HDFS以及Mapreduce;

步骤2、调研待预测配电网区域负荷情况:调研待预测配网区域底层线路,包括10KV专线、35KV专线的负荷种类以及配电网区域范围内工业负荷、农业负荷、商业负荷、居民负荷的构成比例;

步骤3、选定多源异构数据种类:根据步骤2的调研结果筛选M种影响负荷预测的随机多源异构数据特征值属性,第M种属性特征值包含m个子特征值,每天的采集频率为f,采集样本总数为N;

【特征值xi11,xi12,…,xi1m,特征值xi21,xi22,…,xi2m,……,特征值xiM1,xiM2,…,xiMm】,i=

1,2,…,N

步骤4、数据预处理:将步骤3中采集的多源异构数据进行归一化处理;

步骤5、选定M个核函数Kk,k=1,2,…M,组合的多核函数为: 式中,dk为核函数Kk对应的权系数;

所述的步骤5,选取M个核函数种类的步骤如下:

5A.采用单变量法,选定某一属性的特征值【xk1,xk2,…,xkm】,k=1,2,…M,m为该属性的特征值所含子特征值个数;

5B.采用单核SVM法,输入变量为5A.中选取的单属性特征值,核函数分别选线性核函数、多项式核函数、RBF核函数,进行单核SVM负荷预测;

5C.计算四种单核SVM负荷预测精度;

5D.选择预测精度最高的核函数作为该单属性特征值对应的核函数Kk;

5E.对M种属性的特征值分别进行5A至5D操作,得到最终的M个核函数Kk,k=1,2,…M;

步骤6、利用Hadoop平台将多核函数学习SVM算法Mapreduce化,实现多源异构数据特征融合,并得到负荷预测结果。

2.根据权利要求1的所述的实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法,其特征在于,所述的步骤3影响负荷预测的多源异构数据属性包括:(1)历史负荷数据:由待预测地区供电公司的EMS系统采集得到;

(2)电价数据:由待预测地区供电公司的营销部门提供;

(3)各种气象因素:温度、湿度、降雨量、气压,由待预测地区气象局的数据库采集得到;

(4)交通因素:日最大车流量、日最小车流量,由待预测地区交通局的数据库采集得到;

(5)节假日因素:星期、重大节日,

多核函数学习SVM法不仅仅适用于以上所述影响负荷预测的随机多源异构因素,根据具体待预测配网地区选取具体的随机多源异构因素。

3.根据权利要求1的所述的实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法,其特征在于,所述的步骤6,具体步骤如下:

6A.将步骤4归一化后的多源异构数据划分为X个训练样本与C个测试样本,X+C=N:训练样本:

xu=【特征值xu11,xu12,…,xu1m,特征值xu21,xu22,…,xu2m,……,特征值xuM1,xuM2,…,xuMm,yu】测试样本:

xv=【特征值xv11,xv12,…,xv1m,特征值xv21,xv22,…,xv2m,……,特征值xvM1,xvM2,…,xvMm,yv】其中:yu、yv为目标负荷值,u=1,2,…,X,v=1,2,…,C.

6B.将6A中的训练样本{xu,u=1,2,…,X}分割为D个数据子集:确定需要并行多核SVM计算的数目D和数据集大小,修改HDFS配置文件,设置块大小,并将数据上传至HDFS;

6C.实现D个节点的Map过程:

①设定精度为常数ε;

②利用步骤5的组合核函数 计算数据子集的核矩阵,实现多源异构数据特征融合:

给定初值:

初始化核矩阵为:

其中:

③利用初始化核矩阵,采用求解多核函数SVM的双层交替优化算法对数据子集进行训练,得到D个节点的子支持向量,输出为,key为训练样本,value为子支持向量;

6D.实现Reduce过程:D个节点的子支持向量进行合并,对合并后的支持向量集进行多核函数SVM训练,得到最优核函数权重dk(k=1,2,…,M)、最优拉格朗日乘子 与以及最终支持向量,建立多核SVM回归估计函数:其中: xui,xuj为训练样本

中的任意两个样本的特征值,yu为训练样本中的目标负荷值,x为待预测负荷的各特征值向量;

6E.利用该多核SVM回归估计函数,对测试样本进行负荷预测,并计算相对误差,输出为,key为测试样本,value为负荷预测值与相对误差。

说明书 :

实现多源异构数据融合的多核函数学习SVM的Mapreduce化短

期负荷预测方法

技术领域

[0001] 本发明涉及发一种基于多源异构大数据的短期电力负荷预测方法。

背景技术

[0002] 在负荷预测领域中,影响负荷预测的因素丰富多样,包括历史负荷、天气、季节、日类型、交通、实时电价、经济、政策等等,这些数据的各自治系统建设的时间、研发单位、采用的技术和具体业务的特定要求等,导致了数据的存储方式、数据类型以及更新频次等不同,进而呈现出数据异构、来源多样和海量数据等诸多特点,使得这些特征通常拥有各自不同的物理意义、量纲以及统计特性等。现有的负荷预测方法中,基于时间序列模型不能很好处理影响因素;回归分析方法虽然考虑了部分影响因素,但并没有考虑影响因素的异构特性,未能对这些特征进行区分对待,可能导致对这些异源异构特征利用效率的降低;现有的利用基于单核的SVM进行负荷预测,其将所有的特征都并列堆叠成一个向量,比如,特征是由两个特征融合而成,第一个特征服从多项式分布,而第二个特征服从正态分布而后一起输入一个固定形式固定参数的核映射函数当中来建立模型,这种处理方式显得有些简单低效,尤其是用来应对来自不同数据源的不同种类特征。
[0003] 当数据规模庞大、数据异构或者样本分布不均匀时,采用多核学习这一理论框架则能够提供更加灵活和有效的信息组织与挖掘功能。多核学习首先利用像一系列传感器一样的基核对各自的信息进行感知,而后通过在映射后高维空间中对各基核的优化线性加权集成,形成一种在原始空间中对不同信息的非线性优化集成,从而提高了核机器的性能以更好的利用不同数据源中的信息。因此,研究基于多核学习的负荷预测算法具有重要意义。

发明内容

[0004] 本发明的目的是提供一种能有效处理影响负荷预测的多种多源异构数据的多核函数学习方法,以解决因智能电网不断发展,采集到的影响负荷变化的随机因素的数量、结构种类越来越多,导致传统负荷预测方法无法精确处理及应用这些多源异构影响因素而不能满足大数据环境下短期负荷预测精度与速度要求的问题。
[0005] 本发明为解决上述技术问题而提供一种实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法,该预测方法的步骤如下:
[0006] 步骤1、配置负荷预测平台:选定主节点服务器与从节点计算机,搭建集群分布式Hadoop平台,并配置集群环境JDK、SSH、HDFS以及Mapreduce等;
[0007] 步骤2、调研待预测配电网区域负荷情况:调研待预测配网区域底层线路如10KV专线、35KV专线的负荷种类以及配电网区域范围内工业负荷、农业负荷、商业负荷、居民负荷的构成比例;
[0008] 步骤3、选定多源异构数据种类:根据步骤2的调研结果筛选M种影响负荷预测的随机多源异构因素特征值属性,第M种属性特征值包含m个子特征值,并从气象网、交通网、SCADA系统以及数据库等采集各特征值历史样本,每天的采集频率为f,采集样本个数为N;
[0009] 【特征值xi11,xi12,…,xi1m,特征值xi21,xi22,…,xi2m,……,特征值xiM1,xiM2,…,xiMm】,i=1,2,…,N
[0010] 步骤4、数据预处理:将步骤3中采集的多源异构数据进行归一化处理;
[0011] 步骤5、选定M个核函数Kk,k=1,2,…M,组合的多核函数为: 式中,dk为核函数Kk对应的权系数,具体选定核函数种类的步骤为:
[0012] 5A.采用单变量法,选定某一属性的特征值【xk1,xk2,…,xkm】,k=1,2,…M,m为该属性的特征值所含子特征值个数;
[0013] 5B.采用单核SVM法,输入变量为5A.中选取的单属性特征值,核函数分别选线性核函数、多项式核函数、RBF核函数,进行单核SVM负荷预测;
[0014] 5C.计算四种单核SVM负荷预测精度;
[0015] 5D.选择预测精度最高的核函数作为该单属性特征值对应的核函数Kk;
[0016] 5E.对M种属性的特征值分别进行5A至5D操作,得到最终的M个核函数Kk,k=1,2,…M。
[0017] 步骤6、多源异构数据特征融合:利用Hadoop平台将多核函数学习SVM算法Mapreduce化,实现多源异构数据特征融合,并得到负荷预测结果。具体步骤为:
[0018] 6A.将步骤4归一化后的多源异构数据划分为X个训练样本与C个测试样本,X+C=N:
[0019] 训练样本:
[0020] xu=【特征值xu11,xu12,…,xu1m,特征值xu21,xu22,…,xu2m,……,特征值xuM1,xuM2,…,xuMm,yu】
[0021] 测试样本:
[0022] xv=【特征值xv11,xv12,…,xv1m,特征值xv21,xv22,…,xv2m,……,特征值xvM1,xvM2,…,xvMm,yv】
[0023] 其中:yu、yv为目标负荷值,u=1,2,...,X,v=1,2,...,C.
[0024] 6B.将6A中的训练样本{xu,u=1,2,…,X}分割为D个数据子集:确定需要并行多核SVM计算的数目D和数据集大小,修改HDFS配置文件,设置块大小,并将数据上传至HDFS;
[0025] 6C.实现D个节点的Map过程:
[0026] ①设定精度为常数ε;
[0027] ②利用步骤5的组合核函数 计算数据子集的核矩阵,实现多源异构数据特征融合:
[0028] 给定初值:
[0029] 初始化核矩阵为:
[0030] 其中:
[0031] ③利用初始化核矩阵,采用求解多核函数SVM的双层交替优化算法对数据子集进行训练,得到D个节点的子支持向量,输出为,key为训练样本,value为子支持向量;
[0032] 6D.实现Reduce过程:D个节点的子支持向量进行合并,对合并后的支持向量集进行多核函数SVM训练,得到最优核函数权重dk(k=1,2,…,M)、最优拉格朗日乘子 与以及最终支持向量,建立多核SVM回归估计函数:
[0033]
[0034] 其中: xui,xuj为训练样本中的任意两个样本的特征值,yu为训练样本中的目标负荷值,x为待预测负荷的各特征值向量。利用该多核SVM回归估计函数,对测试样本进行负荷预测,并计算相对误差,输出为,key为测试样本,value为负荷预测值与相对误差。
[0035] 与现有技术相比,本发明的有益效果是:
[0036] 传统负荷预测有的无法考虑影响因素,有的虽然考虑了部分影响因素,但并没有考虑影响因素的异构特性,未能对这些特征进行区分对待,导致对这些异源异构特征利用效率的降低,而且随着智能电网的发展,大数据环境下影响负荷预测的数据随机性、复杂程度增加,传统负荷预测方法数据处理方面的劣势愈加明显,本发明根据不同的影响因素选用不同的核函数来代表其异构特征,利用组合核函数来有效融合、处理影响负荷预测精度的多源异构数据因素,提高这些异源异构特征利用效率,进而提高负荷预测精度。

附图说明

[0037] 图1是实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法流程图
[0038] 图2是选择核函数的流程图

具体实施方式

[0039] 为使本发明更明显易懂,兹以优选实施例子,并配合附图作详细说明如下。
[0040] 步骤1、配置负荷预测平台:选定主节点服务器与从节点计算机,搭建集群分布式Hadoop平台,并配置集群环境JDK、SSH、HDFS以及Mapreduce等;
[0041] 步骤2、调研待预测配电网区域负荷情况:调研待预测配网区域底层线路如10KV专线、35KV专线的负荷种类以及配电网区域范围内工业负荷、农业负荷、商业负荷、居民负荷的构成比例;
[0042] 步骤3、选定多源异构数据种类:根据步骤2的调研结果筛选M种影响负荷预测的随机多源异构因素特征值属性,第M种属性特征值包含m个子特征值,并从气象网、交通网、SCADA系统以及数据库等采集各特征值历史样本,每天的采集频率为f,采集样本个数为N;
[0043] 【特征值xi11,xi12,…,xi1m,特征值xi21,xi22,…,xi2m,……,特征值xiM1,xiM2,…,xiMm】,i=1,2,…,N
[0044] 例如,此处选择的多源异构数据构造形式:
[0045] 【时刻x1,星期属性x2,日最高气温x3,日最低气温x4,日平均气温x5,预测点电价x6、预测点前一时刻电价x7、前一天同一预测点电价x8、前一周同一预测点电价x9、日最大车流量x10、日最小车流量x11、日进出地铁人数x12】
[0046] 时刻x1:每日每隔30分钟采样负荷数据,一天共48个时刻表示如下:
[0047]
[0048] 星期属性x2:用数字1至7表示星期一至星期日。
[0049] 预测方式:日前负荷预测,以待预测日前T(自定义)天每天每15分钟的数据作为训练样本,来预测待预测日每15分钟的负荷值。
[0050] 步骤4、数据预处理:将步骤3中采集的多源异构数据进行归一化处理,归一化方法为:
[0051]
[0052] 步骤5、选定M个核函数Kk,k=1,2,…M,组合的多核函数为: 式中,dk为核函数Kk对应的权系数,具体选定核函数种类的步骤为:
[0053] 5A.采用单变量法,选定某一属性的特征值【xk1,xk2,…,xkm】,k=1,2,…M,m为该属性的特征值所含子特征值个数;
[0054] 5B.采用单核SVM法,输入变量为5A.中选取的单属性特征值,核函数分别选线性核函数、多项式核函数、RBF核函数,进行单核SVM负荷预测;
[0055] 5C.计算四种单核SVM负荷预测精度;
[0056] 5D.选择预测精度最高的核函数作为该单属性特征值对应的核函数Kk;
[0057] 5E.对M种属性的特征值分别进行5A至5D操作,得到最终的M个核函数Kk,k=1,2,…M。
[0058] 根据步骤3中所选具体的多源异构数据例子,此处由步骤5可以得到M=5:
[0059] K1(xi,xj)对应特征值【时刻x1】;
[0060] K2(xi,xj)对应特征值【星期属性x2】;
[0061] K3(xi,xj)对应特征值【日最高气温x3,日最低气温x4,日平均气温x5】;
[0062] K4(xi,xj)对应特征值【预测点电价x6、预测点前一时刻电价x7、前一天同一预测点电价x8、前一周同一预测点电价x9】;
[0063] K5(xi,xj)对应特征值【日最大车流量x10、日最小车流量x11、日进出地铁人数x12】;
[0064] 则组合的核函数为:K=d1K1+d2K2+d3K3+d4K4+d5K5
[0065] 步骤6、多源异构数据特征融合:利用Hadoop平台将多核函数学习SVM算法Mapreduce化,实现多源异构数据特征融合,并得到负荷预测结果。具体步骤为:
[0066] 6A.将步骤4归一化后的多源异构数据划分为X个训练样本与C个测试样本,X+C=N:
[0067] 训练样本:
[0068] xu=【特征值xu11,xu12,…,xu1m,特征值xu21,xu22,…,xu2m,……,特征值xuM1,xuM2,…,xuMm,yu】
[0069] 测试样本:
[0070] xv=【特征值xv11,xv12,…,xv1m,特征值xv21,xv22,…,xv2m,……,特征值xvM1,xvM2,…,xvMm,yv】
[0071] 其中:yu、yv为目标负荷值,u=1,2,…,X,v=1,2,…,C.
[0072] 6B.将6A中的训练样本{xu,u=1,2,…,X}分割为D个数据子集:确定需要并行多核SVM计算的数目D和数据集大小,修改HDFS配置文件,设置块大小,并将数据上传至HDFS;
[0073] 6C.实现D个节点的Map过程:
[0074] ①设定精度为常数ε;
[0075] ②利用步骤5的组合核函数 计算数据子集的核矩阵,实现多源异构数据特征融合:
[0076] 给定初值:
[0077] 初始化核矩阵为:
[0078] 其中:
[0079] ③利用初始化核矩阵,采用求解多核函数SVM的双层交替优化算法对数据子集进行训练,得到D个节点的子支持向量,输出为,key为训练样本,value为子支持向量;
[0080] 6D.实现Reduce过程:D个节点的子支持向量进行合并,对合并后的支持向量集进行多核函数SVM训练,得到最优核函数权重dk(k=1,2,…,M)、最优拉格朗日乘子 与以及最终支持向量,建立多核SVM回归估计函数:
[0081]
[0082] 其中: xui,xuj为训练样本中的任意两个样本的特征值,yu为训练样本中的目标负荷值,x为待预测负荷的各特征值向量。利用该多核SVM回归估计函数,对测试样本进行负荷预测:
[0083]
[0084] 并计算相对误差,输出为,key为测试样本,value为负荷预测值与相对误差:
[0085]
[0086]
[0087] 其中:Eu为待预测日第u点负荷的预测相对误差,LFu为负荷预测值,LRu为负荷实际值,A为待预测日的日负荷预测准确率。
[0088] 本发明通过采用多核学习函数来处理影响负荷预测的多源异构数据,包括历史负荷数据、气象因素、日类型、节假日信息、电价信息、交通信息等,同时将多核支持向量机实现Mapreduce化,具有较好的加速比和可扩展性,适合于大规模数据的分析。