一种基于人工智能的光伏发电功率预测方法及装置转让专利

申请号 : CN202310546094.1

文献号 : CN116307269B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王福谭宫玉柱吴晓尧裴永锋郝敬国王晓磊李维虎王霞牛常宁陈伟

申请人 : 华能山东泰丰新能源有限公司华能山东发电有限公司众泰电厂

摘要 :

本申请公开了一种基于人工智能的光伏发电功率预测方法及装置,应用于光伏发电技术领域,具体为:将待预测的光伏发电数据输入深度森林功率预测模型得到光伏发电功率预测结果;深度森林功率预测模型为级联的多层森林结构,每层森林结构包括多个决策森林,每个决策森林包括多个决策树,多个决策树中至少有一个决策树用于提取周期性特征,每个决策树基于TSIG选择分裂节点,这样,通过在每个决策森林中都增加用于提取周期性特征的决策树且每个决策树都基于TSIG选择分裂节点,可以更好地反映光伏发电的周期性、季节性和随机性等特征,从而可以使深度森林功率预测模型对光伏发电功率的预测更为精准,进而可以提高光伏发电功率预测精准度。

权利要求 :

1.一种基于人工智能的光伏发电功率预测方法,其特征在于,包括:获取待预测的光伏发电数据;

将所述光伏发电数据输入深度森林功率预测模型得到光伏发电功率预测结果;其中,所述深度森林功率预测模型为级联的多层森林结构,每层所述森林结构包括多个决策森林,每个所述决策森林包括多个决策树,多个所述决策树中至少有一个所述决策树用于提取周期性特征,且每个所述决策树基于时间跨度信息增益TSIG选择分裂节点;

其中,所述深度森林功率预测模型通过以下步骤训练得到:

获取训练样本集;其中,所述训练样本集包括多个训练样本,每个所述训练样本包括历史光伏发电数据和标定发电功率数据;

基于每个所述训练样本的密度及所述训练样本集中训练样本间的距离,对所述训练样本集进行样本扩充得到目标训练样本集;其中,所述距离用于表征样本相近程度,所述密度用于表征样本重要程度;

基于所述目标训练样本集,对初始深度森林功率预测模型进行训练得到所述深度森林功率预测模型;

其中,基于每个所述训练样本的密度及所述训练样本集中训练样本间的距离,对所述训练样本集进行样本扩充得到目标训练样本集,包括:针对所述训练样本集中的每一训练样本,在所述训练样本集中确定所述训练样本的K个最近邻训练样本;基于所述训练样本与K个所述最近邻训练样本之间的距离以及距离阈值,计算所述训练样本的密度;基于所述训练样本的密度以及密度阈值,确定所述训练样本属于核心训练样本时,基于所述训练样本和所述训练样本的所述最近邻训练样本,生成M个新训练样本;基于所述训练样本的密度以及密度阈值,确定所述训练样本属于边缘训练样本时,基于所述训练样本和所述训练样本的所述最近邻训练样本,生成N个新训练样本;其中,K、M、N为正整数,且N小于M;

将所述训练样本集中的每一训练样本以及每一所述训练样本对应的各个新训练样本组成所述目标训练样本集;

其中,基于所述训练样本与K个所述最近邻训练样本之间的距离以及距离阈值,计算所述训练样本的密度,包括:采用以下公式计算所述训练样本的密度:

其中, 表征训练样本 的密度; 表征训练样本 与训练样本 的第j个最近邻训练样本 之间的距离; 表征距离阈值; 表征指示函数,当 成立时取值为1,否则取值为0;

其中,采用以下公式计算所述密度阈值:

其中,表征密度阈值;表征训练样本 的密度; 是表征第一常数,且 ;

表征训练样本集中训练样本的数量; 表征取最大值函数;

其中,采用以下公式计算M:

其中,表征训练样本 的密度; 表征用于控制新训练样本生成数量的第二常数,且; 表征取整函数;

其中,基于训练样本的密度及训练样本间的距离,对所述训练样本集进行样本扩充得到目标训练样本集时,还包括:针对所述训练样本集中的每一训练样本,采用以下公式生成所述训练样本的对抗训练样本,并将所述训练样本的所述对抗训练样本添加至所述目标训练样本集:其中,表征训练样本;表征训练样本的对抗训练样本;表征扰动值; 表征符号函数; 表征损失函数;表征训练样本 中的标定发电功率数据; 表征随机符号向量,用于随机设置正号或负号;表征可重复性随机向量;表征随机噪声向量; 表征可微生成器函数,用于根据不同的随机噪声向量 生成不同的可重复性随机向量 。

2.如权利要求1所述的基于人工智能的光伏发电功率预测方法,其特征在于,基于所述目标训练样本集,对初始深度森林功率预测模型进行训练得到所述深度森林功率预测模型之后,还包括:获取测试样本集;其中,所述测试样本集包括多个测试样本,每个所述测试样本包括历史光伏发电数据和标定发电功率数据;

将多个所述测试样本中的历史光伏发电数据输入所述深度森林功率预测模型得到多个历史光伏发电数据的预测发电功率数据;

基于多个所述历史光伏发电数据的预测发电功率数据和标定发电功率数据,计算多个所述测试样本的样本预测误差;

基于多个所述测试样本的样本预测误差,计算预测误差偏度和预测误差峰度;

基于所述预测误差偏度和所述预测误差峰度,确定所述多个测试样本的样本预测误差符合正态分布时,基于多个所述测试样本的样本预测误差和置信区间,对多个所述预测发电功率数据进行有效性校验;

基于多个所述预测发电功率数据的有效性校验结果,确定所述深度森林功率预测模型的有效性。

3.如权利要求2所述的基于人工智能的光伏发电功率预测方法,其特征在于,还包括:采用以下公式计算所述置信区间:

其中,表征多个历史光伏发电数据的预测发电功率数据的均值;表征多个历史光伏发电数据的预测发电功率数据的标准差;表征测试样本的数量; 表征置信水平为、自由度为 的t分布的双侧临界值,且 ;

或者;

采用以下公式计算所述置信区间:

其中,表征多个历史光伏发电数据的预测发电功率数据的均值;表征多个历史光伏发电数据的预测发电功率数据的标准差;表征是测试样本的数量; 表征置信水平为 、自由度为 的t分布的双侧临界值,且 ; 表征与测试样本的权重正相关的权重因子,且 。

4.一种基于人工智能的光伏发电功率预测装置,其特征在于,包括:数据获取单元,用于获取待预测的光伏发电数据;

功率预测单元,用于将所述光伏发电数据输入深度森林功率预测模型得到光伏发电功率预测结果;其中,所述深度森林功率预测模型为级联的多层森林结构,每层所述森林结构包括多个决策森林,每个所述决策森林包括多个决策树,多个所述决策树中至少有一个所述决策树用于提取周期性特征,且每个所述决策树基于时间跨度信息增益TSIG选择分裂节点;

第一获取单元,用于获取训练样本集;其中,所述训练样本集包括多个训练样本,每个所述训练样本包括历史光伏发电数据和标定发电功率数据;

样本扩充单元,用于基于每个所述训练样本的密度及所述训练样本集中训练样本间的距离,对所述训练样本集进行样本扩充得到目标训练样本集;其中,所述距离用于表征样本相近程度,所述密度用于表征样本重要程度;

模型训练单元,用于基于所述目标训练样本集,对初始深度森林功率预测模型进行训练得到所述深度森林功率预测模型;

其中,基于每个所述训练样本的密度及所述训练样本集中训练样本间的距离,对所述训练样本集进行样本扩充得到目标训练样本集时,所述样本扩充单元具体用于:针对所述训练样本集中的每一训练样本,在所述训练样本集中确定所述训练样本的K个最近邻训练样本;基于所述训练样本与K个所述最近邻训练样本之间的距离以及距离阈值,计算所述训练样本的密度;基于所述训练样本的密度以及密度阈值,确定所述训练样本属于核心训练样本时,基于所述训练样本和所述训练样本的所述最近邻训练样本,生成M个新训练样本;基于所述训练样本的密度以及密度阈值,确定所述训练样本属于边缘训练样本时,基于所述训练样本和所述训练样本的所述最近邻训练样本,生成N个新训练样本;其中,K、M、N为正整数,且N小于M;

将所述训练样本集中的每一训练样本以及每一所述训练样本对应的各个新训练样本组成所述目标训练样本集;

其中,基于所述训练样本与K个所述最近邻训练样本之间的距离以及距离阈值,计算所述训练样本的密度时,所述样本扩充单元具体用于:采用以下公式计算所述训练样本的密度:

其中, 表征训练样本 的密度; 表征训练样本 与训练样本 的第j个最近邻训练样本 之间的距离; 表征距离阈值; 表征指示函数,当 成立时取值为1,否则取值为0;

其中,所述样本扩充单元还用于:

采用以下公式计算所述密度阈值:

其中,表征密度阈值;表征训练样本 的密度; 是表征第一常数,且 ;

表征训练样本集中训练样本的数量; 表征取最大值函数;

其中,所述样本扩充单元还用于:

采用以下公式计算M:

其中,表征训练样本 的密度; 表征用于控制新训练样本生成数量的第二常数,且; 表征取整函数;

其中,所述基于人工智能的光伏发电功率预测装置还包括:

样本对抗单元,用于针对所述训练样本集中的每一训练样本,采用以下公式生成所述训练样本的对抗训练样本,并将所述训练样本的所述对抗训练样本添加至所述目标训练样本集:其中,表征训练样本;表征训练样本的对抗训练样本;表征扰动值; 表征符号函数; 表征损失函数;表征训练样本 中的标定发电功率数据; 表征随机符号向量,用于随机设置正号或负号;表征可重复性随机向量;表征随机噪声向量; 表征可微生成器函数,用于根据不同的随机噪声向量 生成不同的可重复性随机向量 。

说明书 :

一种基于人工智能的光伏发电功率预测方法及装置

技术领域

[0001] 本申请涉及光伏发电技术领域,尤其涉及一种基于人工智能的光伏发电功率预测方法及装置。

背景技术

[0002] 光伏发电是一种新型能源,具有环保、可再生等优点,在未来的能源领域具有广阔的应用前景,而光伏发电的功率受到许多因素的影响,如天气、温度、湿度、气压等等,因此预测发电功率数据是非常重要的。
[0003] 深度森林算法是一种新兴的深度学习方法,具有可解释性强、易于理解和使用等优点,目前,深度森林算法也被用于光伏发电功率预测,然而,现有的深度森林算法并没有充分考虑到光伏发电的特点,因此在光伏发电功率预测精度方面存在一定的局限性。

发明内容

[0004] 本申请提供了一种基于人工智能的光伏发电功率预测方法及装置,用以解决现有技术中的光伏发电功率预测结果的精准度较低的问题,具体的,本申请提供的技术方案如下:
[0005] 一方面,本申请提供了一种基于人工智能的光伏发电功率预测方法,包括:
[0006] 获取待预测的光伏发电数据;
[0007] 将光伏发电数据输入深度森林功率预测模型得到光伏发电功率预测结果;其中,深度森林功率预测模型为级联的多层森林结构,每层森林结构包括多个决策森林,每个决策森林包括多个决策树,多个决策树中至少有一个决策树用于提取周期性特征,且每个决策树基于TSIG(Time Span Information Gain,时间跨度信息增益)选择分裂节点。
[0008] 另一方面,本申请还提供了一种基于人工智能的光伏发电功率预测装置,包括:
[0009] 数据获取单元,用于获取待预测的光伏发电数据;
[0010] 功率预测单元,用于将光伏发电数据输入深度森林功率预测模型得到光伏发电功率预测结果;其中,深度森林功率预测模型为级联的多层森林结构,每层森林结构包括多个决策森林,每个决策森林包括多个决策树,多个决策树中至少有一个决策树用于提取周期性特征,且每个决策树基于TSIG选择分裂节点。
[0011] 本申请的有益效果如下:
[0012] 本申请通过在深度森林功率预测模型的每层森林结构中的每个决策森林中都增加至少一个用于提取周期性特征的决策树且每个决策树都基于TSIG选择分裂节点,可以更好地反映光伏发电数据的周期性、季节性和随机性等特征,从而可以使深度森林功率预测模型基于光伏发电数据对光伏发电功率的预测结果更为精准,进而可以提高光伏发电功率预测结果的精准度。
[0013] 本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地可以从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。

附图说明

[0014] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0015] 图1为本申请实施例中基于人工智能的光伏发电功率预测方法的程示意图;
[0016] 图2为本申请实施例中深度森林功率预测模型训练方法的流程示意图;
[0017] 图3为本申请实施例中基于人工智能的光伏发电功率预测装置的功能结构示意图;
[0018] 图4为本申请实施例中电子设备的硬件结构示意图。

具体实施方式

[0019] 为了使本申请的目的、技术方案及有益效果更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0020] 为便于本领域技术人员更好地理解本申请,下面先对本申请涉及的技术用语进行简单介绍。
[0021] 光伏发电数据,为光伏发电过程中对光伏发电功率产生影响的相关数据,本申请中,光伏发电数据至少包括气象数据,还可以包括发电数据;其中,气象数据可以是当前时间之后设定时间范围内的气象数据,也可以是当前时间前后设定时间范围内的气象数据,气象数据包括通过气象局或气象传感器等采集的如温度、湿度、风速、光照强度、日照时长等;发电数据可以是当前时间的发电数据,也可以是当前时间以及当前时间之前设定时间范围内的发电数据,发电数据包括通过传感器、电表或逆变器等采集的如光伏电池板的电压、电流、功率等数据,可选的,光伏发电数据还可以包括对光伏发电功率产生影响的其他数据,如云量、空气污染指数等,可以通过传感器或监测设备进行采集。
[0022] 深度森林功率预测模型,为基于历史光伏发电数据和标定发电功率数据训练出的深度森林模型,本申请中,深度森林功率预测模型的基本框架如下所示:
[0023]
[0024] 其中,表征输入的光伏发电数据;表征决策树的数量; 表征第 棵决策树针对输入的光伏发电数据 的光伏发电功率预测结果。
[0025] 需要说明的是,本申请中提及的“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样的用语在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
[0026] 在介绍了本申请涉及的技术用语后,接下来,对本申请的应用场景和设计思想进行简单介绍。
[0027] 传统的深度森林模型是通过对光伏发电数据进行特征提取和降维来预测光伏发电功率,然而传统的深度森林模型没有充分考虑到光伏发电数据的特点,因此在光伏发电功率的预测精度方面存在局限性,同时,传统的深度森林模型存在着过拟合和欠拟合的问题,特别是在复杂的训练样本集上,容易受到噪声和异常值的影响,从而导致光伏发电功率的预测结果不稳定。
[0028] 为此,本申请提出了一种创新型的深度森林模型,即在深度森林功率预测模型的每层森林结构中的每个决策森林中都增加至少一个用于提取周期性特征的决策树且每个决策树都基于TSIG选择分裂节点,从而可以更好地反映光伏发电的周期性、季节性和随机性等特征,使深度森林功率预测模型基于光伏发电数据对光伏发电功率的预测结果更为精准,进而可以提高光伏发电功率预测结果的精准度。同时,在深度森林功率预测模型训练过程中引入基于可重复性随机向量的对抗训练样本生成机制,使得深度森林功率预测模型更具鲁棒性和泛化能力。而且,在深度森林功率预测模型训练完成后,基于置信区间分析,并结合偏度、峰度等统计量,对深度森林功率预测模型的光伏发电功率预测结果进行有效性检验和优化,可以进一步提高深度森林功率预测模型的预测精度和泛化能力。
[0029] 在介绍了本申请的应用场景和设计思想之后,下面对本申请提供的技术方案进行详细说明。
[0030] 本申请实施例提供了一种基于人工智能的光伏发电功率预测方法,参阅图1所示,本申请实施例提供的基于人工智能的光伏发电功率预测方法的流程如下:
[0031] 步骤101:获取待预测的光伏发电数据。
[0032] 实际应用中,在一个可选的实施方式中,通过气象局或气象传感器等获取第一时间范围内(如当前时间之后2小时内等)的温度、湿度、风速、日照时长等气象数据,并将第一时间范围内的气象数据作为待预测的光伏发电数据;在另一个可选的实施方式中,一方面,通过气象局或气象传感器获取第一时间范围内(如当前时间之后2小时内等)的温度、湿度、风速、日照时长等气象数据,另一方面,通过传感器、电表或逆变器等采集第二时间范围内(如当前时间之前半小时内)的光伏电池板的电压、电流、功率等发电数据,从而将第一时间范围内的气象数据和第二时间范围内的发电数据作为待预测的光伏发电数据。
[0033] 步骤102:将光伏发电数据输入深度森林功率预测模型得到光伏发电功率预测结果;其中,深度森林功率预测模型为级联的多层森林结构,每层森林结构包括多个决策森林,每个决策森林包括多个决策树,多个决策树中至少有一个决策树用于提取周期性特征,且每个决策树基于TSIG选择分裂节点。
[0034] 本申请实施例中,为了解决采集到的光伏发电数据可能存在噪声、缺失值、异常值等问题,可以先对光伏发电数据进行清洗,去除光伏发电数据中的无效数据、重复数据、异常数据等脏数据后,再对清洗好的光伏发电数据进行标准化、归一化等处理,继而再将处理好的光伏发电数据输入深度森林功率预测模型,实际应用中,深度森林功率预测模型的每层森林结构中的每个决策森林中都增加有用于提取周期性特征的决策树且每个决策树都基于TSIG选择分裂节点,从而可以更好地反映光伏发电数据的周期性、季节性和随机性等特征,因而在将光伏发电数据输入深度森林功率预测模型后深度森林功率预测模型可以基于光伏发电数据预测出精准度较高的光伏发电功率,进而可以达到提高光伏发电功率预测结果的精准度的目的。
[0035] 下面对本申请实施例中的深度森林功率预测模型训练方法进行详细说明,参阅图2所示,本申请实施例提供的深度森林功率预测模型训练方法的流程如下:
[0036] 步骤201:获取训练样本集;其中,训练样本集包括多个训练样本,每个训练样本包括历史光伏发电数据和标定发电功率数据。
[0037] 实际应用中,在一个可选的实施方式中,通过气象局或气象传感器等获取历史时间范围内(例如前一个月)的温度、湿度、风速、日照时长等历史气象数据作为历史光伏发电数据,并通过逆变器等获取历史时间范围内(例如前一个月)的实际光伏发电功率作为标定发电功率数据,以及将历史时间范围内的历史光伏发电数据和标定发电功率数据进行无效数据、重复数据、异常数据等脏数据清洗再进行标准化、归一化等处理后,按照时间节点组成各个训练样本,例如,2023.4.21上午09:30的历史气象数据作为历史光伏发电数据,与2023.4.21上午09:30的实际光伏发电功率作为标定发电功率数据组成一训练样本;在另一个可选的实施方式中,通过气象局或气象传感器等获取历史时间范围内(例如前一个月)的温度、湿度、风速、日照时长等历史气象数据,并通过传感器、电表或逆变器等采集历史时间范围内(例如前一个月)的光伏电池板的电压、电流、功率等历史发电数据,从而将历史时间范围内(例如前一个月)的历史气象数据和历史发电数据作为历史光伏发电数据,以及通过逆变器等获取历史时间范围内(例如前一个月)的实际光伏发电功率作为标定发电功率数据,并将历史时间范围内的历史光伏发电数据和标定发电功率数据进行无效数据、重复数据、异常数据等脏数据清洗再进行标准化、归一化等处理后,按照时间节点组成各个训练样本,例如,2023.4.21上午09:30的历史气象数据和2023.4.21上午09:00‑09:30的历史发电数据作为历史光伏发电数据,与2023.4.21上午09:30的实际光伏发电功率作为标定发电功率数据组成一训练样本。
[0038] 步骤202:基于每个训练样本的密度及训练样本集中训练样本间的距离,对训练样本集进行样本扩充得到目标训练样本集;其中,距离用于表征样本相近程度,密度用于表征样本重要程度。
[0039] 本申请实施例中,为了解决各类别的训练样本不均衡等问题,可以对训练样本进行样本扩充,而且为了提高深度森林功率预测模型的性能和可靠性,在对训练样本进行扩充时引入了训练样本的密度和密度阈值以及训练样本间的距离和距离阈值来控制新训练样本的生成,训练样本的密度越高,重要性越大,训练样本间的距离越小,两者越相近,具体的,基于每个训练样本的密度及训练样本集中训练样本间的距离,对训练样本集进行样本扩充得到目标训练样本集时,可以采用但不限于以下方式:
[0040] 首先,针对训练样本集中的每一训练样本,在训练样本集中确定该训练样本的K个最近邻训练样本,并基于该训练样本与K个最近邻训练样本之间的距离以及距离阈值,计算该训练样本的密度;其中,K为正整数。
[0041] 在具体实施时,针对训练样本集中的每一训练样本,基于该训练样本与K个最近邻训练样本之间的距离以及距离阈值,计算该训练样本的密度时,可以采用以下公式计算该训练样本的密度:
[0042]
[0043] 其中, 表征训练样本 的密度; 表征训练样本 与训练样本 的第j个最近邻训练样本 之间的距离(如欧氏距离); 表征距离阈值; 表征指示函数,当 成立时取值为1,否则取值为0。
[0044] 然后,针对训练样本集中的每一训练样本,基于该训练样本的密度以及密度阈值,确定该训练样本属于核心训练样本时,基于该训练样本和该训练样本的最近邻训练样本,生成M个新训练样本;基于该训练样本的密度以及密度阈值,确定该训练样本属于边缘训练样本时,基于该训练样本和该训练样本的最近邻训练样本,生成N个新训练样本;其中,M、N为正整数,且N小于M。
[0045] 在具体实施时,在一个可选的实施方式中,为了使生成的新训练样本能够更加准确地的模拟训练样本集的密度分布,从而生成更加合理的新训练样本,以进一步提高深度森林功率预测模型的性能和可靠性,密度阈值可以根据训练样本的密度以及训练样本集中训练样本的数量计算得出,即每个训练样本的密度阈值均不相同,具体的,针对训练样本集中的每一训练样本,可以采用以下公式计算该训练样本的密度阈值:
[0046]
[0047] 其中, 表征密度阈值; 表征训练样本 的密度; 是表征第一常数,且;表征训练样本集中训练样本的数量; 表征取最大值函数。
[0048] 基于此,针对训练样本集中的每一训练样本,基于该训练样本的密度以及密度阈值,判断该训练样本是否属于核心训练样本时,可以在确定该训练样本的密度大于密度阈值时,确定该训练样本属于核心训练样本,否则确定该训练样本属于边缘训练样本,即如果,则将训练样本 确定为核心训练样本,否则将训练样本 确定为边缘训练样本。
[0049] 在另一个可选的实施方式中,密度阈值也可以是预先配置的排名阈值。基于此,针对训练样本集中的每一训练样本,基于该训练样本的密度以及密度阈值,判断该训练样本是否属于核心训练样本时,可以基于训练样本集中每一训练样本的密度,将训练样本集中密度排名位于排名阈值之前的训练样本确定为核心训练样本,将训练样本集中除核心训练样本之外的训练样本确定为边缘训练样本,即将训练样本集中密度排名位于前的训练样本确定为核心训练样本,将训练样本集中除核心训练样本之外的训练样本确定为边缘训练样本,这样也可以保证生成的新训练样本更多地分布在密度较高的区域,从而可以进一步提高深度森林功率预测模型的性能和可靠性。
[0050] 进一步的,针对训练样本集中的每一训练样本,确定该训练样本是核心训练样本还是边缘训练样本后,即可根据该训练样本的样本类型,为该训练样本生成相应数量的新训练样本,具体的,当该训练样本属于核心训练样本时,可以基于该训练样本和该训练样本的最近邻训练样本,生成M个新训练样本,当该训练样本属于边缘训练样本时,可以基于该训练样本和该训练样本的最近邻训练样本,生成N个新训练样本,在具体实施时,由于边缘训练样本的代表性相对较差,因此可以为边缘训练样本生成较少数量的新训练样本,例如N的取值可以为1或2等,而核心训练样本的代表性相对较强,因此可以为核心训练样本生成较多数量的新训练样本,在一个可选的实施方式中,M的取值可以为预先配置的固定值,例如M的取值可以为10或20等,在另一个可选的实施方式中,M的取值可以采用以下公式计算:
[0051]
[0052] 其中, 表征训练样本 的密度; 表征用于控制新训练样本生成数量的第二常数,且 ; 表征取整函数。
[0053] 在具体实施时,针对训练样本集中的每一训练样本,基于该训练样本和该训练样本的最近邻训练样本生成新训练样本时,为了保证该新训练样本与该训练样本之间的距离不会太远,可以从该训练样本的K个最近邻训练样本中随机选择一个最近邻训练样本,如果确定选择的该最近邻训练样本与该训练样本之间的距离大于距离阈值,则从该训练样本的未被选择的各个最近邻训练样本中重新选择一个最近邻训练样本;如果确定经过设定次数(如 次)的重新选择后该训练样本的K个最近邻训练样本中没有与该训练样本之间的距离小于等于距离阈值的最近邻训练样本,则可以放弃基于该训练样本和该训练样本的最近邻训练样本生成新训练样本;如果从该训练样本的K个最近邻训练样本中选择出与该训练样本之间的距离小于等于距离阈值的最近邻训练样本,则基于该训练样本以及与该训练样本之间的距离小于等于距离阈值的最近邻训练样本,生成新训练样本,具体的,可以采用以下公式生成新训练样本:
[0054]
[0055] 其中, 表征新训练样本;表征训练样本; 表征训练样本 的K个最近邻训练样本中与训练样本 之间的距离小于等于距离阈值的最近邻训练样本; 表征随机生成的0到1之间的随机数。
[0056] 值得说的是,针对训练样本集中的每一训练样本,基于该训练样本和该训练样本的最近邻训练样本生成新训练样本后,为了进一步保证该新训练样本与该训练样本之间的距离不会太远,还可以计算该新训练样本与该训练样本之间的距离,如果确定该新训练样本与该训练样本之间的距离大于距离阈值,则可以丢弃该新训练样本,并从该训练样本的未被选择的各个最近邻训练样本中重新选择一个与该训练样本之间的距离小于等于距离阈值的最近邻训练样本,并基于该训练样本以及重新选择的最近邻训练样本,重新生成新训练样本,如果确定经过设定次数(如 次)的重新生成后没有生成与该训练样本之间的距离小于等于距离阈值的新训练样本,则可以放弃基于该训练样本和该训练样本的最近邻训练样本生成新训练样本。
[0057] 最后,针对训练样本集中的每一训练样本,基于该训练样本和该训练样本的最近邻训练样本生成新训练样本后,可以将训练样本集中的每一训练样本以及每一训练样本对应的各个新训练样本组成目标训练样本集。
[0058] 本申请实施例中,为了使深度森林功率预测模型能够更好地处理噪声和异常值,具有更好的鲁棒性和泛化能力,还可以针对训练样本集中的每一训练样本,采用以下公式生成该训练样本的对抗训练样本,并将该训练样本的对抗训练样本添加至目标训练样本集:
[0059]
[0060]
[0061] 其中,表征训练样本;表征训练样本的对抗训练样本;表征扰动值; 表征符号函数; 表征损失函数;表征训练样本 中的标定发电功率数据; 表征随机符号向量,用于随机设置正号或负号;表征可重复性随机向量;表征随机噪声向量; 表征可微生成器函数,用于根据不同的随机噪声向量 生成不同的可重复性随机向量 。
[0062] 这样,由于对抗训练样本的存在,深度森林功率预测模型需要学习如何区分正常的训练样本和对抗训练样本,从而可以使深度森林功率预测模型具有更好的鲁棒性和泛化能力,而且,在生成对抗训练样本时,通过引入可重复性随机向量 ,可以在不增加计算量的情况下,增加对抗训练样本的多样性和泛化能力,同时,由于随机噪声向量 是有限的,因此可以预先计算出所有可重复性随机向量 ,进而可以大大减少对抗训练样本的生成时间。
[0063] 步骤203:基于目标训练样本集,对初始深度森林功率预测模型进行训练得到深度森林功率预测模型。
[0064] 传统的深度森林模型中的每个决策树在选择分裂节点时通常采用信息增益或基尼不纯度等指标,然而光伏发电数据通常具有周期性、季节性和随机性等特征,深度森林模型中的每个决策树采用信息增益或基尼不纯度等指标选择分裂节点会影响光伏发电功率的预测精度,为此,本申请实施例中,在构建初始深度森林功率预测模型时,初始深度森林功率预测模型中的每个决策树都基于TSIG选择分裂节点,TSIG的计算公式如下:
[0065]
[0066] 其中, 表征属性A的TSIG, 表征信息增益; 表征属性 在时间维度上的时间跨度(例如属性“光照强度”在时间维度上的时间跨度为8小时); 表征第三常数,用于平衡信息增益和时间跨度之间的权重。
[0067] 这样,通过初始深度森林功率预测模型中的每个决策树都基于TSIG选择分裂节点,可以更好地反映光伏发电数据的周期性、季节性和随机性等特征,从而可以使训练出的深度森林功率预测模型对光伏发电功率的预测精度更高。
[0068] 此外,为了进一步反映光伏发电数据的周期性,本申请实施例中,在构建初始深度森林功率预测模型时,还可以在初始深度森林功率预测模型的每层森林结构中的每个决策森林中加入至少一个决策树用于提取周期性特征并将提取后的周期性特征作为输入送入下一层森林结构中。实际应用中,周期性特征可以采用傅里叶变换进行分析,从而提取出频率分量较高的特征作为能够更好地反映光伏发电数据的周期性的周期性特征。具体而言,通过将时间序列信号转换为频域信号,从而获得更加清晰和准确的频率信息,进而提取出具有显著影响的周期性特征。
[0069] 接下来对傅里叶变换进行介绍。
[0070] 假设 是一个连续时间域函数,则其傅里叶变换 定义如下:
[0071]
[0072] 其中,表征频率;表征虚数单位;表征时间。
[0073] 如果 是一个离散时间域函数,则其傅里叶变换 定义如下:
[0074]
[0075] 其中,表征采样点数; 表征第 个采样点的值。
[0076] 可以看出,傅里叶变换将时域信号转换为频域信号,其中, 表征在频率 处的幅度和相位信息,通过将功率时间序列信号进行傅里叶变换可以获得其对应的频域信号。
[0077] 在光伏发电功率预测过程中,通常关注光伏发电功率的快速变化情况,即高频特征,因此,可以提取出频率分量较高的特征作为光伏发电数据的周期性特征。具体而言,通过将功率时间序列信号进行傅里叶变换,并计算得到各个频率分量的幅度信息后,选择幅度较大的频率分量作为高频特征,例如可以选择前 个幅度最大的频率分量作为高频特征,其中,是一个超参数,从而可以将选取出的高频特征作为光伏发电数据的周期性特征输入下一层森林结构中进行计算。
[0078] 进一步的,在构建初始深度森林功率预测模型之后,即可基于目标训练样本集,对初始深度森林功率预测模型进行训练,具体的可以利用目标训练样本集中的历史光伏发电数据和标定发电功率数据,对初始深度森林功率预测模型进行迭代训练以迭代调整初始深度森林功率预测模型中的参数,直至调整参数后的初始深度森林功率预测模型能够最小化预测误差为止。值得说的是,在初始深度森林功率预测模型的训练过程中,在一个可选的实施方式中,针对初始深度森林功率预测模型中的每一决策树,可以将目标训练样本集中的所有训练样本均用于该决策树的训练,在另一可选的实施方式中,为了进一步提高训练出的深度森林功率预测模型的泛化能力,针对初始深度森林功率预测模型中的每一决策树,还可以从目标训练样本集中随机选择一部分训练样本用于该决策树的训练,从而增加训练出的深度森林功率预测模型的随机性和多样性,有效减少过拟合,提高训练出的深度森林功率预测模型的泛化能力。
[0079] 进一步的,基于目标训练样本集,对初始深度森林功率预测模型进行训练得到深度森林功率预测模型之后,为了进一步提高深度森林功率预测模型的预测精度和泛化能力,还可以基于测试样本集,对深度森林功率预测模型的预测发电功率数据进行有效性校验,以确定是否对深度森林功率预测模型进行改进或优化,具体的,可以采用但不限于以下方式:
[0080] 首先,获取测试样本集;其中,测试样本集包括多个测试样本,每个测试样本包括历史光伏发电数据和标定发电功率数据。其中,测试样本集是不同于训练样本集的另一个样本集,以确保测试样本集中的测试样本可以泛化到深度森林功率预测模型未见过的样本上,而测试样本集的获取方式与目标训练样本集的获取方式相同,重复之处不再赘述。
[0081] 然后,将多个测试样本中的历史光伏发电数据输入深度森林功率预测模型得到多个历史光伏发电数据的预测发电功率数据。
[0082] 其次,基于多个历史光伏发电数据的预测发电功率数据和标定发电功率数据,计算多个测试样本的样本预测误差。
[0083] 实际应用中,针对每一测试样本,可以采用以下公式计算该测试样本的样本预测误差:
[0084]
[0085] 其中,表征第个测试样本的样本预测误差;表示第个测试样本中历史光伏发电数据对应的标定发电功率数据;表示第个测试样本中历史光伏发电数据对应的预测发电功率数据。
[0086] 再有,基于多个测试样本的样本预测误差,计算预测误差偏度和预测误差峰度。其中,预测误差偏度用于描述概率分布函数的偏斜程度,其值越大表征分布的右侧比左侧更长(也即正偏态),其值越小表征分布的左侧比右侧更长(即负偏态),其值为0表征分布近似对称;预测误差峰度用于描述概率分布函数的尖峰程度,其值越大表征分布的峰部越尖,其值越小表征分布的峰部越平。
[0087] 实际应用中,预测误差偏度可以采用以下公式计算:
[0088]
[0089] 其中,表征预测误差偏度;表征测试样本集中测试样本的数量;表征第个测试样本的样本预测误差;表征 个测试样本的样本预测误差的均值。
[0090] 实际应用中,预测误差峰度可以采用以下公式计算:
[0091]
[0092] 其中, 表征预测误差偏度;表征测试样本集中测试样本的数量;表征第个测试样本的样本预测误差;表征 个测试样本的样本预测误差的均值。
[0093] 接着,基于预测误差偏度和预测误差峰度,确定多个测试样本的样本预测误差符合正态分布时,基于多个测试样本的样本预测误差和置信区间,对多个预测发电功率数据进行有效性校验。
[0094] 实际应用中,若确定预测误差偏度和/或预测误差峰度不接近于0,则可以确定多个测试样本的样本预测误差不符合正态分布,即确定训练出的深度森林功率预测模型的可靠性较差,此种情况下,可以将深度森林功率预测模型作为初始深度森林功率预测模型,并再次获取目标训练样本集后,基于再次获取的目标训练样本集,对初始深度森林功率预测模型进行再次训练,直至训练出的深度森林功率预测模型针对多个测试样本的样本预测误差符合正态分布为止。
[0095] 若确定预测误差偏度和预测误差峰度都接近于0,则可以确定多个测试样本的样本预测误差符合正态分布,即确定训练出的深度森林功率预测模型具有较高的可靠性,此种情况下,可以进一步基于多个测试样本的样本预测误差和置信区间,对多个预测发电功率数据进行有效性校验,具体的,针对每一测试样本,确定该测试样本的样本预测误差大于置信区间时,确定该测试样本中历史光伏发电数据对应的预测发电功率数据不可信,反之,确定该测试样本中历史光伏发电数据对应的预测发电功率数据可信。
[0096] 在具体实施时,在一个可选的实施方式中,每个测试样本的置信区间可以相同,具体的,置信区间可以采用以下公式计算:
[0097]
[0098] 其中,表征多个历史光伏发电数据的预测发电功率数据的均值;表征多个历史光伏发电数据的预测发电功率数据的标准差;表征测试样本的数量; 表征置信水平为 、自由度为 的t分布的双侧临界值,且 。值得说的是,置信水平 可以取值为0.9、0.95、0.99、0.9、0.95、0.99等,其中,0.95是置信水平 的最优取值,其表征有95%的把握相信所构造的置信区间包含了真实的未知参数。
[0099] 在另一个可选的实施方式中,考虑到不同测试样本的权重可能不同,因此不同测试样本的置信区间也可以不同,具体的,可以根据不同测试样本的权重赋予其置信区间不同的权重,即每一测试样本的置信区间可以采用以下公式计算:
[0100]
[0101] 其中, 表征第i个测试样本的置信区间;表征多个历史光伏发电数据的预测发电功率数据的均值; 表征与第i个测试样本的权重正相关的权重因子,且;表征多个历史光伏发电数据的预测发电功率数据的标准差;表征是测试样本的数量;
表征置信水平为 、自由度为 的t分布的双侧临界值,且 。值得说
的是,置信水平 可以取值为0.9、0.95、0.99、0.9、0.95、0.99等,其中,0.95是置信水平 的最优取值,其表征有95%的把握相信所构造的置信区间包含了真实的未知参数。
[0102] 最后,基于多个预测发电功率数据的有效性校验结果,确定深度森林功率预测模型的有效性。
[0103] 实际应用中,若基于多个预测发电功率数据的有效性校验结果,确定多个预测发电功率数据中可信的预测发电功率数据的占比或数量不大于设定阈值,则可以确定训练出的深度森林功率预测模型无效,此种情况下,可以将深度森林功率预测模型作为初始深度森林功率预测模型,并再次获取目标训练样本集后,基于再次获取的目标训练样本集,对初始深度森林功率预测模型进行再次训练,直至训练出的深度森林功率预测模型针对多个测试样本的历史光伏发电数据预测出的预测发电功率数据中可信的预测发电功率数据的占比或数量大于设定阈值为止;若基于多个预测发电功率数据的有效性校验结果,确定多个预测发电功率数据中可信的预测发电功率数据的占比或数量大于设定阈值,则可以确定训练出的深度森林功率预测模型有效,此种情况下,可以将训练出的深度森林功率预测模型应用到实际光伏发电功率预测场景中。
[0104] 这样,在基于测试样本集对深度森林功率预测模型的预测发电功率数据进行有效性校验时,通过引入置信区间来检测预测发电功率数据的可信性,可以提高预测发电功率数据的有效性校验的精准度。
[0105] 此外,本申请实施例中,在基于测试样本集对深度森林功率预测模型的预测发电功率数据进行有效性校验时,除了利用置信区间之外,还可以结合异常值检测方法,对深度森林功率预测模型的预测发电功率数据中的离群值进行识别和处理,从而提高深度森林功率预测模型的预测发电功率数据的准确性和可靠性,其中,异常值检测方法可以是但不限于是孤立森林算法,具体的,可以采用但不限于以下方式:
[0106] 首先,获取测试样本集;其中,测试样本集包括多个测试样本,每个测试样本包括历史光伏发电数据和标定发电功率数据。其中,测试样本集是不同于训练样本集的另一个样本集,以确保测试样本集中的测试样本可以泛化到深度森林功率预测模型未见过的样本上,而测试样本集的获取方式与目标训练样本集的获取方式相同,重复之处不再赘述。
[0107] 然后,将多个测试样本中的历史光伏发电数据输入深度森林功率预测模型得到多个历史光伏发电数据的预测发电功率数据。
[0108] 其次,采用孤立森林算法,检测多个预测发电功率数据中的离群值。具体的,孤立森林算法是一种基于树结构的异常值检测算法,其利用随机树对测试样本集进行分割,然后通过计算测试样本在树中所处的层级来识别离群值,由于离群值往往需要更少的分割才能被隔离,因此被认为是孤立的测试样本通常位于较浅的树层级上。
[0109] 实际应用中,在采用孤立森林算法,检测多个预测发电功率数据中的离群值时,为了使孤立森林算法更加自适应,一方面,可以采用基于中位数的随机空间划分来提高收敛速度,具体而言,对于每个树节点上的每个分割特征,首先计算该分割特征的中位数,并根据该中位数来划分树节点,且在每次递归时,随机选择另一个末使用过的分割特征来进行分割,并计算该分割特征的中位数,从而可以确保空间划分尽可能细致,进而可以提高检测效率;另一方面,还可以采用自适应树结构来更好地确定树结构的深度和数量,具体而言,对于每个树节点,随机选择一个分割特征,并在该分割特征上随机选择一个分割点来将预测发电功率数据集分成两个子集,然后计算当前树节点的预测发电功率数据的数量 和正常(即不离群)的预测发电功率数据的数量 ,并根据以下公式计算可分裂性指标后,选择可分裂性指标最大的树节点进行分裂,直到达到预定数量的树节点或预测发电功率数据集被完全分离:
[0110]
[0111] 其中, 表征可分裂性指标; 表征当前树节点的深度; 表征超参数,用于平衡可分裂性指标和当前树节点的深度; 表征当前树节点对应的预测发电功率数据的数量; 表征当前树节点对应的正常(即不离群)的预测发电功率数据的数量。
[0112] 最后,基于多个预测发电功率数据中的离群值的数量或占比,确定深度森林功率预测模型的有效性。具体的,若确定多个预测发电功率数据中的离群值的数量或占比大于设定阈值,则可以确定训练出的深度森林功率预测模型无效,此种情况下,可以将深度森林功率预测模型作为初始深度森林功率预测模型,并再次获取目标训练样本集后,基于再次获取的目标训练样本集,对初始深度森林功率预测模型进行再次训练,直至训练出的深度森林功率预测模型针对多个测试样本的历史光伏发电数据预测出的预测发电功率数据中的离群值的数量或占比不大于设定阈值为止;若确定多个预测发电功率数据中的离群值的数量或占比不大于设定阈值,则可以确定训练出的深度森林功率预测模型有效,此种情况下,可以将训练出的深度森林功率预测模型应用到实际光伏发电功率预测场景中。
[0113] 这样,在基于测试样本集对深度森林功率预测模型的发电功率预测结果进行有效性校验时,通过引入基于自适应树结构的孤立森林算法来检测预测发电功率数据中的离群值,可以在已知正常测试样本数量时,更好地确定树结构的深度和数量,而且还会提高收敛速度。
[0114] 当然,实际应用中,也可以将基于置信区间的有效性校验方法和基于异常值检测的有效性校验方法相结合来验证深度森林功率预测模型的有效性,例如,若确定多个预测发电功率数据中可信的预测发电功率数据的占比或数量不大于设定阈值,和/或,多个预测发电功率数据中的离群值的数量或占比大于设定阈值,则确定训练出的深度森林功率预测模型无效,此种情况下,可以将深度森林功率预测模型作为初始深度森林功率预测模型,并再次获取目标训练样本集后,基于再次获取的目标训练样本集,对初始深度森林功率预测模型进行再次训练,直至训练出的深度森林功率预测模型针对多个测试样本的历史光伏发电数据预测出的预测发电功率数据中可信的预测发电功率数据的占比或数量大于设定阈值且离群值的数量或占比不大于设定阈值为止;若确定多个预测发电功率数据中可信的预测发电功率数据的占比或数量大于设定阈值且离群值的数量或占比不大于设定阈值,则确定训练出的深度森林功率预测模型有效,此种情况下,可以将训练出的深度森林功率预测模型应用到实际光伏发电功率预测场景中。
[0115] 此外,本申请实施例中,在对深度森林功率预测模型进行训练和测试时,还可以采用交叉验证方法,对深度森林功率预测模型进行多次训练和测试,从而得到更加稳定和可靠的预测结果;其中,交叉验证方法可以是但不限于是k折交叉验证方法,即首先将原始样本集分成 个互不相交的样本子集,然后对深度森林功率预测模型进行 次训练和测试,每次训练和测试从 个样本子集中选取一个样本子集作为测试样本集,其余 个样本子集作为训练样本集,具体的,k折交叉验证方法的流程如下:
[0116] 步骤1、将原始样本集分成 个互不相交的样本子集。
[0117] 步骤2、对于每一个样本子集 ,利用其余 个样本子集,对深度森林功率预测模型进行训练,并利用第个样本子集,对深度森林功率预测模型进行测试得到第次测试的评估指标。
[0118] 步骤3、重复第2步 次且每次选取一个不同的样本子集作为测试样本集,直至k次测试完成后,计算所有测试得到的评估指标的平均值作为深度森林功率预测模型的性能指标。
[0119] 综上,本申请实施例中,在对深度森林功率预测模型进行训练和测试的过程中,通过引入预测误差偏度、预测误差峰度等统计量、置信区间分析、异常值检测和交叉验证等方法,可以实现对深度森林功率预测模型的光伏发电功率预测结果的有效性检验和优化,从而可以提高深度森林功率预测模型的预测精度和泛化能力。
[0120] 基于上述实施例,本申请实施例还提供了一种基于人工智能的光伏发电功率预测装置,参阅图3所示,本申请实施例提供的基于人工智能的光伏发电功率预测装置300至少包括:
[0121] 数据获取单元301,用于获取待预测时间范围内的光伏发电数据;
[0122] 功率预测单元302,用于将光伏发电数据输入深度森林功率预测模型得到光伏发电功率预测结果;其中,深度森林功率预测模型为级联的多层森林结构,每层森林结构包括多个决策森林,每个决策森林包括多个决策树,多个决策树中至少有一个决策树用于提取周期性特征,且每个决策树基于TSIG选择分裂节点。
[0123] 在一种可能的实施方式中,本申请实施例提供的基于人工智能的光伏发电功率预测装置300还包括:
[0124] 第一获取单元303,用于获取训练样本集;其中,训练样本集包括多个训练样本,每个训练样本包括历史光伏发电数据和标定发电功率数据;
[0125] 样本扩充单元304,用于基于每个训练样本的密度及训练样本集中训练样本间的距离,对训练样本集进行样本扩充得到目标训练样本集;其中,距离用于表征样本相近程度,密度用于表征样本重要程度;
[0126] 模型训练单元305,用于基于目标训练样本集,对初始深度森林功率预测模型进行训练得到深度森林功率预测模型。
[0127] 在一种可能的实施方式中,基于每个训练样本的密度及训练样本集中训练样本间的距离,对训练样本集进行样本扩充得到目标训练样本集时,样本扩充单元304具体用于:
[0128] 针对训练样本集中的每一训练样本,在训练样本集中确定训练样本的K个最近邻训练样本;基于训练样本与K个最近邻训练样本之间的距离以及距离阈值,计算训练样本的密度;基于训练样本的密度以及密度阈值,确定训练样本属于核心训练样本时,基于训练样本和训练样本的最近邻训练样本,生成M个新训练样本;基于训练样本的密度以及密度阈值,确定训练样本属于边缘训练样本时,基于训练样本和训练样本的最近邻训练样本,生成N个新训练样本;其中,K、M、N为正整数,且N小于M;
[0129] 将训练样本集中的每一训练样本以及每一训练样本对应的各个新训练样本组成目标训练样本集。
[0130] 在一种可能的实施方式中,基于训练样本与K个最近邻训练样本之间的距离以及距离阈值,计算训练样本的密度时,样本扩充单元304具体用于:
[0131] 采用以下公式计算训练样本的密度:
[0132]
[0133] 其中, 表征训练样本 的密度; 表征训练样本 与训练样本 的第j个最近邻训练样本 之间的距离;表征距离阈值; 表征指示函数,当 成立时取值为1,否则取值为0。
[0134] 在一种可能的实施方式中,样本扩充单元304还用于:
[0135] 采用以下公式计算密度阈值:
[0136]
[0137] 其中, 表征密度阈值; 表征训练样本 的密度; 是表征第一常数,且;表征训练样本集中训练样本的数量; 表征取最大值函数。
[0138] 在一种可能的实施方式中,样本扩充单元304还用于:
[0139] 采用以下公式计算M:
[0140]
[0141] 其中, 表征训练样本 的密度; 表征用于控制新训练样本生成数量的第二常数,且 ; 表征取整函数。
[0142] 在一种可能的实施方式中,本申请实施例提供的基于人工智能的光伏发电功率预测装置300还包括:
[0143] 样本对抗单元306,用于针对训练样本集中的每一训练样本,采用以下公式生成训练样本的对抗训练样本,并将训练样本的对抗训练样本添加至目标训练样本集:
[0144]
[0145]
[0146] 其中,表征训练样本;表征训练样本的对抗训练样本;表征扰动值; 表征符号函数; 表征损失函数;表征训练样本 中的标定发电功率数据; 表征随机符号向量,用于随机设置正号或负号;表征可重复性随机向量;表征随机噪声向量; 表征可微生成器函数,用于根据不同的随机噪声向量 生成不同的可重复性随机向量 。
[0147] 在一种可能的实施方式中,本申请实施例提供的基于人工智能的光伏发电功率预测装置300还包括:
[0148] 第二获取单元307,用于获取测试样本集;其中,测试样本集包括多个测试样本,每个测试样本包括历史光伏发电数据和标定发电功率数据;
[0149] 样本预测单元308,用于将多个测试样本中的历史光伏发电数据输入深度森林功率预测模型得到多个历史光伏发电数据的预测发电功率数据;
[0150] 误差计算单元309,用于基于多个历史光伏发电数据的预测发电功率数据和标定发电功率数据,计算多个测试样本的样本预测误差;
[0151] 数据统计单元310,用于基于多个测试样本的样本预测误差,计算预测误差偏度和预测误差峰度;
[0152] 第一校验单元311,用于基于预测误差偏度和预测误差峰度,确定多个测试样本的样本预测误差符合正态分布时,基于多个测试样本的样本预测误差和置信区间,对多个预测发电功率数据进行有效性校验;
[0153] 第二校验单元312,用于基于多个预测发电功率数据的有效性校验结果,确定深度森林功率预测模型的有效性。
[0154] 在一种可能的实施方式中,第一校验单元311还用于:
[0155] 采用以下公式计算置信区间:
[0156]
[0157] 其中,表征多个历史光伏发电数据的预测发电功率数据的均值;表征多个历史光伏发电数据的预测发电功率数据的标准差;表征测试样本的数量; 表征置信水平为 、自由度为 的t分布的双侧临界值,且 ;
[0158] 或者;
[0159] 采用以下公式计算置信区间:
[0160]
[0161] 其中,表征多个历史光伏发电数据的预测发电功率数据的均值;表征多个历史光伏发电数据的预测发电功率数据的标准差;表征是测试样本的数量; 表征置信水平为 、自由度为 的t分布的双侧临界值,且 ; 表征与测试样本的权重正相关的权重因子,且 。
[0162] 需要说明的是,本申请实施例提供的基于人工智能的光伏发电功率预测装置300解决技术问题的原理与本申请实施例提供的基于人工智能的光伏发电功率预测方法相似,因此,本申请实施例提供的基于人工智能的光伏发电功率预测装置300的实施可以参见本申请实施例提供的基于人工智能的光伏发电功率预测方法的实施,重复之处不再赘述。
[0163] 在介绍了本申请实施例提供的基于人工智能的光伏发电功率预测方法和装置之后,接下来,对本申请实施例提供的电子设备进行简单介绍。
[0164] 参阅图4所示,本申请实施例提供的电子设备400至少包括处理器401、存储器402和存储在存储器402上并可在处理器401上运行的计算机程序,处理器401执行计算机程序时实现本申请实施例提供的基于人工智能的光伏发电功率预测方法。
[0165] 本申请实施例提供的电子设备400还可以包括连接不同组件(包括处理器401和存储器402)的总线403。其中,总线403表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
[0166] 存储器402可以包括易失性存储器形式的可读介质,例如RAM(Random Access Memory,随机存储器)4021和/或高速缓存存储器4022,还可以进一步包括ROM(Read Only Memory,只读存储器)4023。存储器402还可以包括具有一组(至少一个)程序模块4024的程序工具4025,程序模块4024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0167] 电子设备400也可以与一个或多个外部设备404(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备400交互的设备通信(例如手机、电脑等),和/或,与使得电子设备400与一个或多个其它电子设备400进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过I/O(Input /Output,输入/输出)接口405进行。并且,电子设备400还可以通过网络适配器406与一个或者多个网络(例如LAN(Local Area Network,局域网),WAN(Wide Area Network,广域网)和/或公共网络,例如因特网)通信。如图4所示,网络适配器406通过总线403与电子设备400的其它模块通信。应当理解,尽管图4中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(Redundant Arrays of Independent Disks,磁盘阵列)子系统、磁带驱动器以及数据备份存储子系统等。
[0168] 需要说明的是,图4所示的电子设备400仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
[0169] 此外,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例提供的基于人工智能的光伏发电功率预测方法。具体地,该计算机指令可以内置或安装在处理器中,这样,处理器就可以通过执行内置或安装的计算机指令实现本申请实施例提供的基于人工智能的光伏发电功率预测方法。
[0170] 另外,本申请实施例提供的光伏发电功率预测方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序代码在处理器上运行时实现本申请实施例提供的基于人工智能的光伏发电功率预测方法。
[0171] 本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦式可编程只读存储器)、光纤、CD‑ROM(Compact Disc Read‑Only Memory,便携式紧凑盘只读存储器)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0172] 本申请实施例提供的程序产品可以采用CD‑ROM并包括程序代码,还可以在处理器上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0173] 应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
[0174] 此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0175] 尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
[0176] 显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。