一种基于考虑分量关联性小波分解的混合风速预测方法转让专利

申请号 : CN201710532532.3

文献号 : CN107292446B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄国庆姜言彭新艳宋淳宸李永乐

申请人 : 西南交通大学

摘要 :

本发明涉及一种基于考虑分量关联性小波分解的混合风速预测方法,将原始数据分为训练集和测试集;将训练集分解为若干子序列,根据子序列和原始数据的相关系数识别虚假子序列,并将其剔除相应,对剩余子序列建预测模型,通过子序列中第1至n个数据来预测第n+1个数据;叠加各个子序列预测得的第n+1个数据1,获得最终预测结果;更新训练集,并将更新后的训集分解为若干新的子序列,建立LSSVM模型预测第n+2数据,叠加各个子序列的预测得第n+2个数据获得预测值;继续进行超前一步预测,直到完成所有预测。本发明降低了子序列虚假成分的影响,提高了预测的性能,及预测的准确性和稳定性。

权利要求 :

1.一种基于考虑分量关联性小波分解的混合风速预测方法,其特征在于,包括以下步骤:步骤1:将测得的原始风速数据样本分为两部分,包括训练集:{x(1),…,x(n)};测试集{x(n+1),…,x(n+N)};

步骤2:测试集视为未知,建立DWT或EMD模型将训练集分解为若干子序列{cj(1),…,cj(n)},j=1…M+1;

步骤3:进行子序列和原始序列的相关性分析,根据子序列和原始数据的相关系数识别虚假子序列:若相关系数超过所选阈值,则剔除相应的子系列,否则应保留相应的子系列;

步骤4:对剩余子序列建立LSSVM或LSSVM-GARCH预测模型,通过子序列中第1至n个数据来预测第n+1个数据: 叠加各个子序列预测得的第n+1个数据 j=1…M+

1,获得最终预测结果:

步骤5:更新训练集为{x(2),…,x(n+1)},将更新后的训集分解为若干新的子序列({cj(2),…,cj(n+1)},j=1…M+1);建立LSSVM模型预测第n+2数据,叠加各个子序列的预测得第n+2个数据获得预测值步骤6:遵循步骤5过程继续进行超前一步预测,直到完成所有预测;

步骤7:评估预测误差。

2.根据权利要求1所述的基于考虑分量关联性小波分解的混合风速预测方法,其特征在于,根据DWT模型将训练集分解为若干子序列的具体方法包括:利用DWT在指定的小波基函数的基础上将信号{x(t)}分解成若干频率带分量:其中,M是分量层数,cj(t)(i=1,2,…,M)表示第j层细节分量,cM+1(t)表示逼近分量,且随着层数的增加,频率逐渐降低。

3.根据权利要求1所述的基于考虑分量关联性小波分解的混合风速预测方法,其特征在于,根据EMD模型将训练集分解为若干子序列的具体方法包括:通过一个迭代筛选过程可将信号x(t)分解成若干个本征模态方程和一个残量:其中,M是分量层数,cj(t)(j=1,2,…,M)表示第j层的本征模态函数,cM+1(t)表示残量。

4.根据权利要求1所述的基于考虑分量关联性小波分解的混合风速预测方法,其特征在于,所述步骤3中子序列和原始序列的相关系数表达如下:其中,x(t),t=1,2…n为训练数据点;cj(t)是第j个子序列。

5.根据权利要求1所述的基于考虑分量关联性小波分解的混合风速预测方法,其特征在于,所述超过所选阈值表示相关系数小于最大的相关系数的绝对值的1/10。

6.根据权利要求1所述的基于考虑分量关联性小波分解的混合风速预测方法,其特征在于,所述步骤4中建立预测模型前,采用拉格朗日乘数LM检验误差项的异方差性,即

2 2

其中,r是拟合优度,H0是零假设,H1是备择假设;χ(q)为服从q阶卡方分布;η1,η2…ηq为非负系数;式中残差遵循p阶和q阶的GARCH模型,记作GARCH(p,q),p为ARCH项的阶数,q为GARCH项的阶数;

若LM的统计值大于χ2(q),则舍去零假设采用备择假设;表示误差成分存在异方差性,应建立LSSVM-GARCH预测模型,否则建立LSSVM预测模型。

7.根据权利要求6所述的基于考虑分量关联性小波分解的混合风速预测方法,其特征在于,所述LSSVM-GARCH预测模型的建立方法包括:在LSSVM模型中,i时刻真值表达式为:

其中yi,和ξi分别为真值,预测值和i时刻残差;

如果ξi随时间而变化,则不能忽略其对预测结果的影响,GARCH模型的结构为:其中,υi是一个均值为0方差为1的白噪声序列,ηl和 为非负系数;hi为i时刻条件方差, 为系数,hi-k为i-k时刻条件方差;ξi-l为i-l时刻残差。

说明书 :

一种基于考虑分量关联性小波分解的混合风速预测方法

技术领域

[0001] 本发明涉及风速预测技术领域,具体为一种基于考虑分量关联性小波分解的混合风速预测方法。

背景技术

[0002] 由于风能可再生,无污染和丰富大量的特点,其在温室气体减排和取代化石燃料中起着重要作用。全球风能委员会预计,在全球电力供应中风能占比将在2020年达到12%,2030年达到22%。然而由于风速时间序列的随机性,非线性和非平稳性,如何完全实现将风力发电应用于多源能源网络仍有很大的困难,如产能计划和风机维护等。
[0003] 为了提高风速预测的准确性,大量的预测方法发展了起来。主要分为三类:物理方法,时间序列方法和基于人工智能的方法。物理方法预测风速时考虑了气象因素如地形,大气压和环境温度。数值天气预报(Numerical Weather Prediction NWP)作为物理法的代表而被广泛应用。但它通常是用于长期风速预测不适于短期风速预测。时间序列的方法利用历史数据来预测风速,包括自回归模型(AR Autoregressive),自回归移动平均模型(Autoregressive Moving Average ARMA),差分自回归移动平均模型(Autoregressive Integrated Moving Average Model ARIMA)和分数差分自回归移动平均模型(Fractional Autoregressive Integrated Moving Average Model FARIMA)。尽管这些方法可以很好地捕捉到风速数据中的线性关系,但不能很好的揭示其中的非线性特征。基于人工智能的方法能够的揭示风速时间序列中的非线性特征,建立输入值和输出值之间的非线性关系。其包括人工神经网络(Artificial Neural Network ANN),支持向量机(Support Vector Machine SVM),最小二乘支持向量机(Least Square Support Vector Machine LSSVM)和模糊逻辑方法。由于风速序列具有极强的非线性特征,总的来说基于人工智能的预测准确性优于时间序列法。但是其模型参数需要更多的调整,也存在着着效率低下和过度拟合的问题。
[0004] 近年来基于分解的混合模型发展了起来,典型的分解法有经验模态分解(Empirical Mode Decomposition EMD),集合经验模态分解(Ensemble Empirical Mode Decomposition EEMD),快速集合经验模态分解(Fast Ensemble Empirical Mode Decomposition FEEMD),离散小波变换(Discrete Wavelet Transform DWT)和小波包分解(Wavelet Packet Decomposition WPD),对分解后的子序列建立的风速预测模型如ARIMA,ANN,SVM和LSSVM模型。如采用递归ARIMA模型来预测EMD分解后的风速时间序列的各个子序列;如应用FEEMD可以提高EEMD在风速预测时的计算性能;再如结合两种分解方法(如DWT和WPD)和两种预测方法(时间序列和ANN)发展了三种不同的混合模型。其将DWT,WPD,EMD和FEEMD同极限学习机(ELMS)结合起来成为四种混合模型。相较于其他混合模型,基于分解的混合模型可以将非线性非平稳的风速时间序列分解成更加稳定和正规的子序列,优化预测结果。许多研究表明基于分解的混合方法优于没有分解的方法。
[0005] 然而上述结论来自一次性分解所有的数据,包括已知数据(训练数据)和未知数据(测试数据)。这意味着假设所求的未来的数据为已知的,有违风速预测的目的。为了避免这个问题,多项研究建议将原始数据分为训练集和测试集,对训练集进行实时分解。更具体地说,只能获得训练集中的数据,测试集的数据是未知的。每当获得新的数据,不断更新训练数据再重新分解。基于EMD的混合方法预测性能甚至不及未分解的方法。尽管这些研究提升了对基于分解法的认识,但其结论值得深入复审。

发明内容

[0006] 基于上述问题,本发明的目的在于提供一种基于实时分解的在准确性和稳定性方面更优的基于考虑分量关联性小波分解的混合风速预测方法,技术方案如下:
[0007] 一种基于考虑分量关联性小波分解的混合风速预测方法,包括以下步骤:
[0008] 步骤1:将原始数据分为两部分,包括训练集:{x(1),…,x(n)};测试集{x(n+1),…,x(n+N)};
[0009] 步骤2:测试集视为未知,建立DWT或EMD模型将训练集分解为若干子序列{cj(1),…,cj(n)},j=1…M+1;
[0010] 步骤3:进行子序列和原始序列的相关性分析,根据子序列和原始数据的相关系数识别虚假子序列:若相关系数超过所选阈值,则剔除相应的子系列,否则应保留相应的子系列;
[0011] 步骤4:对剩余子序列建立LSSVM或LSSVM-GARCH预测模型,通过子序列中第1至n个数据来预测第n+1个数据: 叠加各个子序列预测得的第n+1个数据 j=1…M+1,获得最终预测结果:
[0012] 步骤5:更新训练集为{x(2),…,x(n+1)},将更新后的训集分解为若干新的子序列({cj(2),…,cj(n+1)},j=1…M+1);建立LSSVM模型预测第n+2数据,叠加各个子序列的预测得第n+2个数据获得预测值
[0013] 步骤6:遵循步骤5过程继续进行超前一步预测,直到完成所有预测;
[0014] 步骤7:评估预测误差。
[0015] 进一步的,根据DWT模型将训练集分解为若干子序列的具体方法包括:利用DWT在指定的小波基函数的基础上将信号{x(t)}分解成若干频率带分量:
[0016]
[0017] 其中,M是分量层数,cj(t)(i=1,2,…,M)表示第j层细节分量,cM+1(t)表示逼近分量,且随着层数的增加,频率逐渐降低。
[0018] 更进一步的,根据EMD模型将训练集分解为若干子序列的具体方法包括:通过一个迭代筛选过程可将信号x(t)分解成若干个本征模态方程和一个残量:
[0019]
[0020] 其中,M是分量层数,cj(t)(j=1,2,…,M)表示第j层的本征模态函数,cM+1(t)表示残量。
[0021] 更进一步的,所述步骤3中子序列和原始序列的相关系数表达如下:
[0022]
[0023] 其中,x(t),t=1,2…n为训练数据点;cj(t)是第j个子序列。
[0024] 更进一步的,所述超过所选阈值表示相关系数小于最大相关系数的绝对值的1/10[0025] 更进一步的,所述步骤4中建立预测模型前,采用拉格朗日乘数LM检验误差项的异方
[0026] 差性,即
[0027]
[0028] 其中,r2是拟合优度,H0是零假设,H1是备择假设;χ2(q)为服从q阶卡方分布;η1,η2…ηq为非负系数;式中残差遵循p阶和q阶的GARCH模型,记作GARCH(p,q),p为ARCH项的阶数,q为GARCH项的阶数;
[0029] 若LM的统计值大于χ2(q),则舍去零假设采用备择假设;表示误差成分存在异方差性,应建立LSSVM-GARCH预测模型,否则建立LSSVM预测模型。
[0030] 更进一步的,所述LSSVM-GARCH预测模型的建立方法包括:
[0031] 在LSSVM模型中,i时刻真值表达式为:
[0032]
[0033] 其中yi, 和ξi分别为真值,预测值和i时刻残差;
[0034] 如果ξi随时间而变化,则不能忽略其对预测结果的影响,GARCH模型的结构为:
[0035]
[0036]
[0037]
[0038] 其中,υi是一个均值为0方差为1的白噪声序列,ηl和 为非负系数;hi为i时刻条件方差, 为系数,hi-k为i-k时刻条件方差;ξi-l为i-l时刻残差。
[0039] 本发明的有益效果是:本发明根据子序列和原始序列的相关性,识别并剔除虚假序列,降低了子序列虚假成分的影响,提高了预测的性能;通过建立GARCH模型模拟子序列的波动性,大大提高预测的准确性和稳定性。

附图说明

[0040] 图1为本方法的流程图。
[0041] 图2为基于分解预测方法的流程图。
[0042] 图3a为基于一次性分解预处理预测方法的流程图。
[0043] 图3b为基于实时分解预处理预测方法的流程图。
[0044] 图4为风速数据样本1。
[0045] 图5为超前一步预测中不同分解层数误差项的MAE和RMSE。
[0046] 图6为原始风速数据全部值和前225个值分解的子序列。
[0047] 图7为基于两个连续训练集第1-225个风速数据和第2-226个风速数据的实时分解结果。
[0048] 图8为从连续训练集获得的残量c10的变化情况。
[0049] 图9为第224个数据点在一次性分解和实时分解的不同值。
[0050] 图10为一次性分解和实时分解的子序列。
[0051] 图11为数据样本1采用本方法和LSSVM的预测结果。
[0052] 图12为风速样本2。
[0053] 图13为数据样本2采用本方法和LSSVM的预测结果。

具体实施方式

[0054] 下面结合附图和具体实施例对本发明做进一步向详细说明。本方法流程见图1具体流程为:
[0055] 步骤1:将原始数据分为两部分,包括训练集({x(1),…,x(n)})和测试集({x(n+1),…,x(n+N)})。
[0056] 步骤2:假定预测部分未知,建立离散小波变换DWT模型将训练集分解为若干子序列(cj(1),...,cj(n)},j=1…M+1)。
[0057] 步骤3:相关性分析,根据子序列和原始数据的相关系数识别虚假子序列。如果一些相关系数小于所选阈值,也就是最大相关系数的绝对值的1/10,剔除相应的子系列,否则应保留相应的子系列。
[0058] 步骤4:对剩余子序列用拉格朗日乘数(LM)测试LSSVM残差的异方差性。基于测试结果对剩余子序列建立LSSVM或LSSVM-GARCH模型,根据第1至n个数据来预测第n+1个数据,[0059] 步骤5:叠加各个子序列的预测值( j=1…M+1)获得最终预测结果,
[0060] 步骤6:用实际数据更新训练集。如更新训练集为{x(2),…,x(n+1)},重复步骤2-5,可以获得相应的预测结果, 继续进行超前一步预测直到完成预测。
[0061] 步骤7:进行误差分析,评估预测误差。
[0062] 本发明所涉及的基本理论如下:
[0063] 1)基于DWT/EMD的混合方法
[0064] 离散小波变换DWT和经验模态分解EMD作为时频域分析手段,可将一组时间序列分解为按高频率到低频率排列的若干子系列,通常应用于处理非平稳非线性数据。其中,DWT在指定的小波基函数的基础上将信号{x(t)}分解成若干频率带分量,
[0065]
[0066] 其中M是分量层数,cj(t)(j=1,2,…,M)表示第j层细节分量,cM+1(t)表示逼近分量,且随着层数的增加,频率逐渐降低。目前一些DWT的变体,例如EWT和WPD,也被应用于风速预测中。在本发明中取Daubechies 10为小波基函数。
[0067] EMD算法不同于DWT算法,其没有基函数且分解的结果具有数据导向和自适应性。其通过一个迭代筛选过程可将信号x(t)分解成若干个本征模态方程(IMFs)和一个残量。分解结果在方程(1)中,其中cj(t)(j=1,2,…,M)表示第j层的IMF,cM+1(t)表示残量。此外,EMD也发展了一些变异模型,例如EEMD,FEEMD和多元EMD(MEMD)。
[0068] 利用DWT或EMD将风速序列分解成不同子序列后,采用LSSVM对每个子序列建立预测模型。相较于SVM而言,LSSVM可以在保证足够的准确性同时减少模型的计算时间。这里将简单回顾LSSVM模型。
[0069] 假设训练集每个子序列由n-m维的数列组成,(x1,y1),(x2,y2),…,(xn-m,yn-m),xi∈Rm(R表示实数)是输入向量,yi∈Rm是输出向量,即,
[0070]
[0071] 其中m是xi维数,其值通过训练集输出值获得,同时满足根均方误差应为最小值。
[0072] 基于SVM的理论,采用非线性映射函数φ(xi)将xi映射到更高维数的线性特征空间G中。递归函数为:
[0073] y=wTφ(xi)+b,w∈G,b∈R             ⑶
[0074] 其中y是拟合值;w表示权向量,b是偏差,通过优化下列函数计算得到:
[0075]
[0076] 其中γ是用于平衡模型的复杂性和准确性的正规化参数;ξi是样本点i真值和拟合值的残差。
[0077] 为了解决方程(4)中优化的问题,建立拉格朗日函数:
[0078]
[0079] 其中αi(i=1,2,…,n-m)是拉格朗日乘数。
[0080] 方程(5)的解通过分别对L(w,b,ξ,α)求关于w,b,ξi和αi的偏导数得到。则得到的函数为:
[0081]
[0082] 其中 为预测值;x为最新的输入向量(x∈Rm);
[0083] K(x,xi)=φ(x)T×φ(xi)(i=1,2,…,n-m)是核密度函数,满足Mercer条件[0084] 传统基于分解的预测方法的具体流程见图2。大体包括三步:建立DWT或EMD模型分解风速数据;对分解后的子序列建立LSSVM模型进行预测;叠加预测所得的子序列获得最终预测结果。同样的,遵循上述步骤可以建立EEMD,FEEMD和WPD模型分解原始风速序列,然后建立ARIMA,ANN,SVM模型进行风速预测。
[0085] 2)数据预处理方案
[0086] 目前有两种数据预处理方案:一次性分解和实时分解。其中一次性分解假定未来数据为已知,将全部原始序列一次性分解。再将分解后的子序列划分为训练集和测试集,并对其建立预测模型。而实际上进行风速预测时,未来数据是未知的,因此该假设是不合理的。基于一次性分解预处理方案的流程图如图3a所示,具体的步骤为:
[0087] 步骤1:建立DWT或EMD模型将原始风速序列分解为若干子序列。
[0088] 步骤2:将各个子序列划分训练集和测试集,分别为({cj(1),...,cj(n)})和({cj(n+1),…,cj(n+N)},j=1…M+1)。
[0089] 步骤3:建立LSSVM模型,通过子序列中第1至n个数据预测第n+1个数据,叠加各个子序列的第n+1个数据获得预测值
[0090] 步骤4:用新数据cj(n+1),j=1…M+1更新训练集,对更新后训练集建立LSSVM模型,通过第2至n个数据预测第n+2个数据 叠加各个子序列的第n+2个数据获得预测值
[0091] 步骤5:遵循步骤4过程继续进行超前一步预测直到完成所有预测。
[0092] 步骤6:评估预测误差。
[0093] 实际上未来数据是未知的。必须首先将原始数据划分为训练集和测试集。再将训练集的数据分解为若干子序列。获得新数据更新训练集后,再次分解更新后的训练集。基于这种实时分解预处理的方案流程图见图3b,具体步骤为:
[0094] 步骤1:将原始数据为训练集({x(1),…,x(n)})和测试集({x(n+1),…,x(n+N)})。
[0095] 步骤2:测试集视为未知,对训练集建立DWT或EMD模型分解为若干子序列({cj(1),…,cj(n)},j=1…M+1)。
[0096] 步骤3:建立LSSVM模型,通过子序列中第1至n个数据预测第n+1个数据,叠加各个子序列的第n+1个数据获得预测值
[0097] 步骤4:更新训练集为{x(2),…,x(n+1)},将更新后的训集分解为若干新的子序列({cj(2),…,cj(n+1)},j=1…M+1)。建立LSSVM模型预测第n+2数据, 叠加各个子序列的第n+2个数据获得预测值
[0098] 步骤5:遵循步骤4过程继续进行超前一步预测直到完成所有预测。
[0099] 步骤6:评估预测误差。
[0100] 3)子序列和原始序列相关性分析
[0101] DWT被广泛应用于分析非平稳非线性数据,然而其产生的虚假成分[31]可能影响预测准确性。为了降低虚假成分的影响,引入了子序列和原始数据的相关系数。子序列和原始数据的相关系数表达式如下:
[0102]
[0103] 其中x(t),t=1,2…n为训练数据点;cj(t)是第j个子序列。
[0104] 同样采用风速样本1用来阐释本方法。图5中为最初训练集(第1-225个数据)的部分分解结果。表2汇总了最初训练集和各个子序列的相关性系数。最大绝对值是0.600(最初训练集和c4之间相关性系数),阈值取0.600。因此c4为虚假成分将其剔除。基于残差的异方差性测试,对剩余的子序列建立LSSVM或LSSVM-GARCH模型。
[0105] 4)GARCH模型
[0106] GARCH模型用于模拟和评估波动。在LSSVM模型中,i时刻真值表达式为:
[0107]
[0108] 其中yi,和ξi分别为真值,预测值和i时刻残差。
[0109] 如果ξi随时间而变化,则不能忽略其对预测结果的影响,GARCH模型的结构为:
[0110]
[0111]
[0112]
[0113] 其中υt是一个均值为0方差为1的白噪声序列,ηl和 为非负系数。在公式(11)中残差遵循p阶和q阶的GARCH模型,记作GARCH(p,q),其中p为ARCH项的阶数,q为GARCH项的阶数。也就是说当前的条件方差取决于前一个的条件方差。如果上一个为q阶误差,ξt将遵循一个q阶自回归条件异方差的过程,记为ARCH(q)。特别的,当p和q都等于1时,GARCH(1,1)是一个标准的GARCH模型,本发明中均采用GARCH(1,1)模型。
[0114] 建立GARCH模型之前,应检验误差项是否具有ARCH效应(即异方差性)。通常采用拉格朗日乘数(LM)检验误差项的异方差性[32],即:
[0115]
[0116] 其中r2是拟合优度,H0是零假设,H1是备择假设。如果LM的统计值大于χ2(q),则舍去零假设采用备择假设,这意味着误差成分存在异方差性而应建立GARCH模型。
[0117] 为了说明本方法的有效性和稳定性,建立了四种预测模型,包括LSSVM,DWT-LSSVM,DWT-LSSVM-GARCH和本发明中的模型。首先采用数据样本1演示本方法的预测性能。然后采用另一组风速数据样本更进一步说明本方法预测性能。
[0118] 实施例1:
[0119] 采用一组从美国明尼苏达州(包括300个样本点)测得的风速数据(数据样本1)来检验混合模型的有效性和可靠性。图4为风速数据样本1,其存在轻微的非平稳性。在基于一次性分解的的预测方法中,分解产生的子序列被分为两个部分:前225个样本为训练集,剩余75个样本为测试集。在实时分解预测中,将原始风速序列分为两部分:采样点第1至第225个数据为训练集,第226到300个数据为测试集。训练集用于建立预测模型,测试集用来检验模型性能。实时分解会产生端点效应,但其影响难以完全抑制。
[0120] 为了量化所涉及预测模型的准确性和稳定性,这里采用四种准则。分别为平均绝对误差(MAE),平均相对百分比误差(MRPE),均方根误差(RMSE),均方根相对误差(RMSRE),即:
[0121]
[0122]
[0123]
[0124]
[0125] 其中{x(t)}和 分别表示t时刻的测量数据和预测数据;N’表示所评估数据的个数(对于超前一步预测,N’等于测试集数据个数N)。
[0126] i)分解层数的选择
[0127] 研究表明分解层数对预测准确性有很大的影响。分解层数太多,会扭曲原始数据中的信息,使得子序列中出现虚假成分。分解层数太少,就不能有效降低原始数据中的非平稳和非线性,可能会提高预测难度,导致预测精确度降低。
[0128] 鉴于DWT模型能够指定分解层数,因此采用该模型。为了选定合适的分解层数,进行了基于DWT-LSSVM实时分解的超前一步预测的25个实验,实验中将第1至225划分训练集和测试集,其中前200个数据为训练集剩余25个为测试集。图5标出分解层数(3-10)不同时的MAE和RMSE的结果。在本研究中,选取数据样本1分解层数为9层。
[0129] ii)两种现存分解方案的分解结果
[0130] 这部分通过数据样本1的研究演示了一次性分解和实时分解的区别,并分析了一次性分解的不足之处以及实时分解存在的困难。
[0131] ①基于DWT分解结果
[0132] 图6中给出了两种方法的分解结果(c6-c10)。黑线代表分解300个风速样本点得到的子序列,蓝线表示分解前225训练数据得到的子序列。如图6所示,蓝线明显偏离黑线。这说明当获得新数据后,新分解产生子序列明显不同于原来子序列。
[0133] 在实时分解预测中,每次获取新数据后需更新训练集再重新分解,即总是将最新的225个数据作为训练集分解成若干子序列。在图7中表示两组不同数据点分解后产生的c1-c4和c10。蓝线表示分解第1至225个原始数据点产生的子序列,红线表示分解第2至226原始数据点产生的子序列。这说明训练集中即使只变动一个样本点也会导致子序列会发生明显变化。图8中更新训练集中连续的四个样本点产生的的同一逼近分量c10,其明显的变化情况也证实了以上结论。
[0134] 在图9中,红线表示子序列c1-c3,c8和c10的第224个数据点在75次实时分解中的情况。从图中可以看出更新训练集后同一个数据点在分解产生子序列中的值产生了明显变化。从图9中红线可以看出每个子序列靠近左端点数据趋势(用蓝线标注)明显不同于其余子序列的趋势,这可能是由端点效应引起的。图8中的黑线为第224个数据点在一次性分解中的分解结果(即总原始数据分解只有一次)。可以看出该点在在分解的子序列中为定值且端点效应不明显,这就使得一次性分解结果比实时分解更平滑。
[0135] 图10进一步说明了一次性分解和实时分解的不同之处。黑线表示原始数据在一次性分解中的结果。红线表示第226至300数据点在实时分解中结果。通过分解第2至225个训练数据加上一个新数据(即第2到226个)得到红线第一个数据(第226个)。同理,通过分解第3至225个训练数据加上两个新数据(即第3到227)得到每个子序列的第二个数据。遵循这个过程,可以获得红线全部数据。通过比较黑线和红线可得,红线极大地不同于黑线,特别是低频成分红线比黑线波动更明显。
[0136] 基于上述结果,尽管一次性分解结果比实时分解更光滑,但一次性分解假设未来数据为已知是不合理的。实际上实时分解中未来数据也是未知的。
[0137] 实时分解中面临的困难:(i)随着获取的新数据,应更新训练集,分解产生新的子序列可能会极大地不同于之前的子序列;(ii)相较于一次性分解,实时分解中每个子序列端点效应和数据的波动性影响增强了。
[0138] 4)关于预测结果的讨论
[0139] 为了演示基于分解预测方法的性能,建立了五种预测模型:基于DWT-LSSVM和EMD-LSSVM的一次性分解模型,基于DWT-LSSVM和EMD-LSSVM实时分解模型,单独的LSSVM模型。基于这五种模型进行了超前一步预测,评估结果见表1。从表1中观察可得:
[0140] (1)任何基于一次性分解的混合模型比单一或者基于实时分解的模型有更好的性能。然而一次性分解的方法是不合理的,因为他们假设未来数据是已知的。因此只着眼于基于实时分解的预测方法。
[0141] (2)相比于单一LSSVM模型,基于EMD的方法预测性能反而更差,基于DWT的方法总体预测性能轻微下降。因此考虑到预测的准确性和计算时间,上述混合方法是无效的。原因一可能是尽管原始数据的非平稳性明显降低了,但实时分解可能会提高每个子序列的波动性。另一个原因可能是分解产生了虚假成分。
[0142] (3)基于DWT的混合模型性能大大优于基于EMD的混合模型。基于DWT的方法比基于EMD的方法预测准确性提升约30%。原因一可能是EMD中存在的模态混叠,二是基于EMD的方法可能会受到不断变化分解层数的影响。因此本研究采用基于DWT的方法。
[0143] 表1 五种模型评估结果
[0144]
[0145] 需要注意的是,尽管每个子系列的预测误差相对较小,最终预测结果可能有很大误差。相反,特定的子系列存在较大的预测误差,总误差可能会不大。因此应关注最终的预测结果而不是每一个子序列的预测结果。
[0146] 为了提高DWT-LSSVM的预测性能,本发明提出的风速预测的方法,结合了子序列和原始数据相关性分析,降低子序列中的虚假成分,运用GARCH模型模拟子序列的波动。
[0147] 表2 第1-225个原始数据与其子序列的相关性系数
[0148]
[0149] 采用数据样本1来检验本方法的预测性能。表3给出了4种模型的预测性能。相较其他3种模型,本方法预测性能的提升百分比在表4中。图11为第226-300个数据基于本方法和单独LSSVM模型的预测结果。从表4-5和图11中可以看出:
[0150] (1)相较于单独LSSVM模型,DWT-LSSVM模型预测性能更差。
[0151] (2)比较DWT-LSSVM-GARCH和DWT-LSSVM可得,GARCH模型在提升预测准确性上是有效的。原因是GARCH模型有助于模拟和预测数据波动。
[0152] (3)然而单一的采用GARCH模型不能很好的提高预测性能。如相较单一的LSSVM模型,DWT-LSSVM-GARCH模型性能只有轻微的提高。
[0153] (4)本发明中的方法比其他三种方法具有更高的预测性能。如说相较于DWT-LSSVM-GARCH,其MAE,RMSE,MRPE和RMSE分别提高了11.724%,18.231%,8.562%和8.223%。原因可能是本方法降低了子序列中虚假成分的干扰。LSSVM和本方法也进行了相同的比较。可以看出无论是GARCH模型还是剔除虚假成分都能有效提高预测准确性。
[0154] 表3 四种预测模型的性能
[0155]
[0156] 表4 本发明方法提高程度
[0157]
[0158] 实施例2:
[0159] 另一案例(数据样本2)用于进一步探究本方法的预测性能。来自美国路易斯安那州的风速数据样本2如图12所示。显然数据样本2的非平稳性高于数据样本1。为了提高预测准确性,选取样本2分解层数为8层。评估结果在表5-6中,预测结果在图13中。这组数据具有很强的非平稳性,因此结论与不同于上一组稍有区别。
[0160] 从表6和图13中可以看出:
[0161] (1)与数据样本1的结论相反,数据样本2在基于DWT的方法上预测性能显著提高。原因可能是虽然实时分解会使得预测的准确性轻微降低,但是同时能够有效降低原始数据中的非平稳性,从而使得预测的准确性显著提高。
[0162] (2)与数据样本1相同,GARCH模型是有效的。
[0163] (3)本方法优于LSSVM,DWT-LSSVM和DWT-LSSVM-GARCH。
[0164] 除此之外,值得一提的是分解层数过少时本方法可能是无效的。显然当分解层数过少或适中时,虚假成分可能是不存在的。
[0165] 表5 四种预测模型的性能
[0166]
[0167] 表6 本发明方法提高程度
[0168]