一种电网无功电压分布式控制方法及系统转让专利

申请号 : CN202010581959.4

文献号 : CN111799808A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴文传刘昊天孙宏斌王彬郭庆来

申请人 : 清华大学

摘要 :

本发明提供一种电网无功电压分布式控制方法,包括:根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型;结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架;初始化各神经网络及相关控制过程变量并下发到各控制区域;各区域本地控制器根据接收的策略神经网络并行执行控制步骤;各区域本地控制器并行执行上传样本步骤,上传量测样本到云服务器;云服务器并行学习各个控制器策略并下发更新后的策略到各区域控制器。本发明实现了无功电压灵活控制和模型不完备场景下的最优控制。

权利要求 :

1.一种电网无功电压分布式控制方法,其特征在于,包括:步骤1:根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型;

步骤2:结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架;

步骤3:初始化各神经网络及相关控制过程变量并下发到各控制区域;

步骤4:各区域本地控制器根据接收的策略神经网络并行执行控制步骤;

步骤5:各区域本地控制器并行执行上传样本步骤,上传量测样本到云服务器;

步骤6:云服务器并行学习各个控制器策略并下发更新后的策略到各区域控制器;

步骤7:重复执行步骤4、5、6。

2.根据权利要求1所述的电网无功电压分布式控制方法,其特征在于,所述步骤1包括:步骤1-1:建立被控电网整体无功电压控制目标与优化模型:其中, 为电网全部节点的集合,Vj为节点j的电压幅值;Pj为节点j的有功功率输出;

QGj为节点j的DG无功功率输出;QCj为节点j的SVC无功功率输出;Vj, 分别为节点j的电压下限与上限;QCj, 分别为节点j的SVC无功功率输出的下限与上限;SGj,PGj分别为节点j的DG装机容量与有功功率输出;

步骤1-2:拆分上述无功电压控制目标与优化模型,形成各被控区域无功电压控制目标与优化模型:其中, 为第i个区域的全部节点集合, 为第i个区域的网络输出功率。

3.根据权利要求2所述的电网无功电压分布式控制方法,其特征在于,所述步骤2包括:步骤2-1:对应各区域系统量测,构建各区域观测变量oi,t:其中Pi,Qi为第i个区域各节点有功、无功功率注入组成的向量;Vi为第i个区域各节点电压组成的向量;Pie, 为第i个区域的网络输出有功功率和网络输出无功功率;t为控制过程的离散时间变量;

步骤2-2:对应各区域无功电压优化目标,构建各区域统一回馈变量rt:Pj为节点j的有功功率输出, 为区域i的网络输出有功功率;

步骤2-3:对应各区域无功电压优化约束,构建各区域约束回馈变量其中[x]+=max(0,x);βi为第i个区域的协作系数,Vj(t)为t时刻节点j的电压, 表示电压上限,V为电压上限;

步骤2-4:对应可控灵活性资源无功功率,构建各区域动作变量ai,t:ai,t=(QGi,QCi)t  (0.6)其中,QGi,QCi分别为第i个区域的DG及SVC无功功率输出向量。

4.根据权利要求3所述的电网无功电压分布式控制方法,其特征在于,所述步骤3包括:步骤3-1:初始化各神经网络及相关控制过程变量并下发到各控制区域;

步骤3-2:初始化各区域拉格朗日乘子λi,为一标量;

步骤3-3:通过通讯网络,下发初始策略神经网络 与 到区域i的控制器;

步骤3-4:初始化离散时间变量t=0,两步之间的实际时间间隔为Δt;

步骤3-5:初始化策略更新周期Tu,用于每隔TuΔt时间执行一次策略更新;

步骤3-6:初始化样本上传周期Ts与样本上传比例m∈[1,Ts],用于每隔TsΔt各控制器进行一次样本上传,上传前一个上传周期中的m个样本;

步骤3-7:初始化云服务器经验库 各控制器本地缓存经验库

5.根据权利要求4所述的电网无功电压分布式控制方法,其特征在于,所述步骤3-1包括:步骤3-1-1:定义神经网络 为一个输入(oi,t,ai,t)输出单个标量值的神经网络;激活函数为ReLU函数;记 的网络参数为φi,对应的冻结参数为 并随机初始化φi与步骤3-1-2:定义神经网络 为一个输入(oi,t,ai,t)输出单个标量值的神经网络;激活函数为ReLU函数;记 的网络参数记为 对应的冻结参数为 随机初始化 与步骤3-1-3:定义 与 为两个输入oi,t输出与动作ai,t形状相同向量的神经网络,与 分别具有独立的输出层,同时共享相同的神经网络输入层与隐含层;激活函数为ReLU函数;记 与 的全部网络参数为θi,随机初始化θi。

6.根据权利要求5所述的电网无功电压分布式控制方法,其特征在于,所述步骤4包括:步骤4-1:从区域电网的量测装置获得量测信号,形成对应的观测变量oi,t;

步骤4-2:根据本地的策略神经网络 与 生成本时刻对应动作ai,t:步骤4-3:控制器将ai,t下发至本地被控灵活性资源,如DG节点和SVC节点;

步骤4-4:将(oi,t,ai,t)储存到 中。

7.根据权利要求6所述的电网无功电压分布式控制方法,其特征在于,所述步骤5包括:步骤5-1:将 中前m+1个样本上传至云服务器的经验库Di中;

步骤5-2:清空

步骤5-3:在云服务器上对本轮上传数据的前m组计算rt与步骤5-4:如发生通讯故障,导致某区域样本未能上传,可直接忽略本次采样上传。

8.根据权利要求7所述的电网无功电压分布式控制方法,其特征在于,所述步骤6包括:步骤6-1:从经验库Di中抽取一组经验 数量为B;

步骤6-2:计算参数φi的损失函数:

其中x=(o1,...,oN)为全部区域观测值;x'为x对应的下一时刻观测值;a1,...,aN分别为区域1到区域N的动作向量; 表示在 中求取;yi为:其中γ为折合系数;αi为区域i的熵最大化因子; 为取到 的概率值; 为:⊙表示按位相乘,o′i为区域i下一时刻的观测值;

步骤6-3:更新参数φi:

其中ρi为学习步长, 表示是对变量φi求梯度;

步骤6-4:计算参数 的损失函数;

其中 为:

步骤6-5:更新参数

步骤6-6:计算拉格朗日函数:

其中 为电压越线程度约束限值;为:

步骤6-7:更新参数θi:

步骤6-8:更新参数λi:

步骤6-9:更新冻结参数 和

其中η为冻结系数;

步骤6-10:下发更新后的策略神经网络 与 到区域i。

9.根据权利要求1-8中任一项所述的电网无功电压分布式控制方法,其特征在于,所述步骤4、步骤5、步骤6并行执行。

10.一种电网无功电压分布式控制系统,其特征在于,包括:模型构建模块,用于根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型;

训练框架构建模块,用于结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架;

初始化模块,用于初始化各神经网络及相关控制过程变量并下发到各控制区域;

控制器模块,用于设置在各区域本地,根据接收的策略神经网络并行执行控制步骤;

样本上传模块,用于设置在各区域本地,并行执行上传样本步骤,上传量测样本到云服务器;

策略学习模块,用于设置在云服务器上,并行学习各个控制器策略并下发更新后的策略到各区域控制器;

其中,所述控制器模块、样本上传模块、策略学习模块用于被重复调用执行。

说明书 :

一种电网无功电压分布式控制方法及系统

技术领域

[0001] 本发明属于电力系统运行和控制技术领域,特别涉及一种电网无功电压分布式控制方法及系统。

背景技术

[0002] 在能源与环境问题的推动下,清洁型、分散型可再生能源(Distributed Generation,简称DG)在电网中的比例日益提高,大规模、高渗透率DG发电并网成为能源与电力领域的前沿和热点。由于DG量大分散、波动性强,其在配电网乃至输电网的电压质量与调度运行等方面带来了一系列负面影响。DG常常通过电力电子逆变器并网,具备灵活高速的调节能力。为高效控制DG并改善高渗透率电网的电压质量,无功电压控制已成为电网调控运行的重要课题。在传统电网中,常采用基于电网模型的集中式优化方法实现无功电压控制,在消除电压越限的同时改善被控电网网损。
[0003] 然而,集中式优化控制方法往往存在单点失效、通讯与计算负担高、受通信时延影响严重等关键问题。特别是在高渗透率电网中,被控DG众多,网络结构复杂,使得集中式控制方法严重受限,无法合理调控高速资源。因此,一系列分布式无功电压控制方法应运而生,分布式方法相比于集中式方法,往往对通信条件的要求更弱,控制速度更快。
[0004] 但是,现有的分布式控制往往采用基于模型的优化方法,由于电网的理想模型难以获得,基于模型的优化方法无法保障控制效果,现有的分布式控制优化方法往往出现控制指令远离最优点、电网运行在次优状态的情况,在连续在线运行场景下,更加难以满足高效、安全控制的要求。
[0005] 因此,提供一种高安全性、高效率以及高灵活性的电网无功电压控制方法是本领域亟待解决的技术问题。

发明内容

[0006] 针对上述问题,本发明提供一种电网无功电压分布式控制方法,包括:
[0007] 步骤1:根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型;
[0008] 步骤2:结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架;
[0009] 步骤3:初始化各神经网络及相关控制过程变量并下发到各控制区域;
[0010] 步骤4:各区域本地控制器根据接收的策略神经网络并行执行控制步骤;
[0011] 步骤5:各区域本地控制器并行执行上传样本步骤,上传量测样本到云服务器;
[0012] 步骤6:云服务器并行学习各个控制器策略并下发更新后的策略到各区域控制器;
[0013] 步骤7:重复执行步骤4、5、6。
[0014] 进一步地,所述步骤1包括:
[0015] 步骤1-1:建立被控电网整体无功电压控制目标与优化模型:
[0016]
[0017] 其中, 为电网全部节点的集合,Vj为节点j的电压幅值;Pj为节点j的有功功率输出;QGj为节点j的DG无功功率输出;QCj为节点j的SVC无功功率输出; 分别为节点j的电压下限与上限; 分别为节点j的SVC无功功率输出的下限与上限;SGj,PGj分别为节点j的DG装机容量与有功功率输出;
[0018] 步骤1-2:拆分上述无功电压控制目标与优化模型,形成各被控区域无功电压控制目标与优化模型:
[0019]
[0020] 其中, 为第i个区域的全部节点集合, 为第i个区域的网络输出功率。
[0021] 进一步地,步骤2包括:
[0022] 步骤2-1:对应各区域系统量测,构建各区域观测变量oi,t:
[0023]
[0024] 其中Pi,Qi为第i个区域各节点有功、无功功率注入组成的向量;Vi为第i个区域各节点电压组成的向量; 为第i个区域的网络输出有功功率和网络输出无功功率;t为控制过程的离散时间变量;
[0025] 步骤2-2:对应各区域无功电压优化目标,构建各区域统一回馈变量rt:
[0026]
[0027] Pj为节点j的有功功率输出, 为区域i的网络输出有功功率;
[0028] 步骤2-3:对应各区域无功电压优化约束,构建各区域约束回馈变量[0029]
[0030] 其中[x]+=max(0,x);βi为第i个区域的协作系数,Vj(t)为t时刻节点j的电压,表示电压上限,V为电压上限;
[0031] 步骤2-4:对应可控灵活性资源无功功率,构建各区域动作变量ai,t:
[0032] ai,t=(QGi,QCi)t  (0.25)
[0033] 其中,QGi,QCi分别为第i个区域的DG及SVC无功功率输出向量。
[0034] 进一步地,所述步骤3包括:
[0035] 步骤3-1:初始化各神经网络及相关控制过程变量并下发到各控制区域;
[0036] 步骤3-2:初始化各区域拉格朗日乘子λi,为一标量;
[0037] 步骤3-3:通过通讯网络,下发初始策略神经网络 与 到区域i的控制器;
[0038] 步骤3-4:初始化离散时间变量t=0,两步之间的实际时间间隔为Δt;
[0039] 步骤3-5:初始化策略更新周期Tu,用于每隔TuΔt时间执行一次策略更新;
[0040] 步骤3-6:初始化样本上传周期Ts与样本上传比例m∈[1,Ts],用于每隔TsΔt各控制器进行一次样本上传,上传前一个上传周期中的m个样本;
[0041] 步骤3-7:初始化云服务器经验库 各控制器本地缓存经验库
[0042] 进一步地,所述步骤3-1包括:
[0043] 步骤3-1-1:定义神经网络 为一个输入(oi,t,ai,t)输出单个标量值的神经网络;激活函数为ReLU函数;记 的网络参数为φi,对应的冻结参数为 并随机初始化φi与[0044] 步骤3-1-2:定义神经网络 为一个输入(oi,t,ai,t)输出单个标量值的神经网络;
激活函数为ReLU函数;记 的网络参数记为 对应的冻结参数为 随机初始化 与[0045] 步骤3-1-3:定义 与 为两个输入oi,t输出与动作ai,t形状相同向量的神经网络, 与 分别具有独立的输出层,同时共享相同的神经网络输入层与隐含层;激活函数为ReLU函数;记 与 的全部网络参数为θi,随机初始化θi。
[0046] 进一步地,所述步骤4包括:
[0047] 步骤4-1:从区域电网的量测装置获得量测信号,形成对应的观测变量oi,t;
[0048] 步骤4-2:根据本地的策略神经网络 与 生成本时刻对应动作ai,t:
[0049]
[0050] 步骤4-3:控制器将ai,t下发至本地被控灵活性资源,如DG节点和SVC节点;
[0051] 步骤4-4:将(oi,t,ai,t)储存到 中。
[0052] 进一步地,所述步骤5包括:
[0053] 步骤5-1:将 中前m+1个样本上传至云服务器的经验库Di中;
[0054] 步骤5-2:清空
[0055] 步骤5-3:在云服务器上对本轮上传数据的前m组计算rt与
[0056] 步骤5-4:如发生通讯故障,导致某区域样本未能上传,可直接忽略本次采样上传。
[0057] 进一步地,所述步骤6包括:
[0058] 步骤6-1:从经验库Di中抽取一组经验 数量为B;
[0059] 步骤6-2:计算参数φi的损失函数:
[0060]
[0061] 其中x=(o1,...,oN)为全部区域观测值;x'为x对应的下一时刻观测值;a1,...,aN分别为区域1到区域N的动作向量; 表示在 中求取;yi为:
[0062]
[0063] 其中γ为折合系数;αi为区域i的熵最大化因子; 为取到 的概率值;为:
[0064]
[0065] ⊙表示按位相乘,o′i为区域i下一时刻的观测值;
[0066] 步骤6-3:更新参数φi:
[0067]
[0068] 其中ρi为学习步长, 表示是对变量φi求梯度;
[0069] 步骤6-4:计算参数 的损失函数;
[0070]
[0071] 其中 为:
[0072]
[0073] 步骤6-5:更新参数
[0074]
[0075] 步骤6-6:计算拉格朗日函数:
[0076]
[0077] 其中 为电压越线程度约束限值; 为:
[0078]
[0079] 步骤6-7:更新参数θi:
[0080]
[0081] 步骤6-8:更新参数λi:
[0082]
[0083] 步骤6-9:更新冻结参数 和
[0084]
[0085] 其中η为冻结系数;
[0086] 步骤6-10:下发更新后的策略神经网络 与 到区域i。
[0087] 进一步地,所述步骤4、步骤5、步骤6并行执行。
[0088] 本发明还提供一种电网无功电压分布式控制系统,包括:
[0089] 模型构建模块,用于根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型;
[0090] 训练框架构建模块,用于结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架;
[0091] 初始化模块,用于初始化各神经网络及相关控制过程变量并下发到各控制区域;
[0092] 控制器模块,用于设置在各区域本地,根据接收的策略神经网络并行执行控制步骤;
[0093] 样本上传模块,用于设置在各区域本地,并行执行上传样本步骤,上传量测样本到云服务器;
[0094] 策略学习模块,用于设置在云服务器上,并行学习各个控制器策略并下发更新后的策略到各区域控制器;
[0095] 其中,所述控制器模块、样本上传模块、策略学习模块用于被重复调用执行。
[0096] 本发明的优点及有益效果在于:
[0097] 各区域控制器在执行控制操作时,不需要同云服务器或其他控制器进行通讯,可根据储存的策略神经网络,快速生成控制指令,高效利用高速灵活性资源,提高了无功电压控制的效率;
[0098] 各个控制器完全并行运行,本地控制、样本上传、集中学习三个步骤完全并行运行,能够充分利用通讯及计算资源,对通讯及计算条件有良好的鲁棒性。
[0099] 基于多智能体深度强化学习,可以不建立准确的电网模型,仅通过控制过程数据学习电网特性,进行无模型优化,在模型不完备场景下仍能控制电网的无功分布处于优化状态;
[0100] 本发明在云服务器上进行集中学习,相比其他分布学习的方法,能大幅节省各控制器的计算成本,提高云计算资源的利用效率;
[0101] 相较于现有的基于多智能体强化学习的电网优化方法,本发明样本效率高,电压安全性高,且控制结构简单,实施成本更低。
[0102] 本发明的电网无功电压分布式控制方法及系统,一方面通过分布式控制实现了高速灵活控制以及对通信鲁棒的高速无功电压控制,另一方面,通过深度强化学习方法对控制过程数据的在线学习,实现模型不完备场景下的最优无功电压控制,能够电网无功电压控制连续在线运行的需求,大幅提高电网的电压质量,降低电网运行网损。
[0103] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

[0104] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0105] 图1示出了根据本发明实施例的电网无功电压分布式控制方法流程图;
[0106] 图2示出了根据本发明实施例的电网无功电压分布式控制系统结构图;
[0107] 图3示出了根据本发明实施例的电网无功电压分布式控制系统模块结构示意图。

具体实施方式

[0108] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0109] 本发明实施例提供一种电网无功电压分布式控制方法,具体为一种基于多智能体深度强化学习的电网无功电压分布式控制方法,如图1所示,方法包括以下步骤:
[0110] 步骤1:根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型;
[0111] 步骤2:结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架;
[0112] 步骤3:初始化各神经网络及相关控制过程变量并下发到各控制区域;
[0113] 步骤4:各区域本地控制器根据接收的策略神经网络并行执行控制步骤;
[0114] 步骤5:各区域本地控制器并行执行采样步骤,上传量测样本到云服务器;
[0115] 步骤6:云服务器并行学习各个控制器策略并下发更新后的策略到各区域控制器;
[0116] 步骤7:重复并行执行步骤4、5、6。
[0117] 下面对各个步骤的具体执行过程做详细说明。
[0118] 在步骤1中,根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型。该步骤可以在如图2所示的区域电网调控中心来完成,具体地可以在云服务器上完成。
[0119] 包括:
[0120] 步骤1-1:建立被控电网整体无功电压控制目标与优化模型:
[0121]
[0122] 其中, 为电网全部节点的集合,Vj为节点j的电压幅值;Pj为节点j的有功功率输出;QGj为节点j的DG无功功率输出;QCj为节点j的SVC(Static Var Compensator,静止无功补偿器)无功功率输出; 分别为节点j的电压下限与上限; 分别为节点j的SVC无功功率输出的下限与上限;SGj,PGj分别为节点j的DG装机容量与有功功率输出。
[0123] 步骤1-2:拆分上述无功电压控制目标与优化模型,形成各被控区域无功电压控制目标与优化模型。
[0124] 如图2所示,被控电网按照实际的控制器安装情况,被分为N个区域,每个区域包含若干个节点,示例性地,节点包括DG节点、SVC节点,节点之间形成支路。每个区域安装有本地控制器。示例性地,被控区域1安装有被控区域控制器1,被控区域2安装有被控区域控制器2…被控区域N安装有被控区域控制器N。被控区域控制器,简称控制器,可快速获取本区域量测信号。控制器还通过通讯与区域电网调控中心云服务器,简称云服务器,进行通讯。本发明实施例中,云服务器可以包括一台或多台计算设备。具体地,控制器通过安装在各节点的量测装置能够获取节点的电压量测、电流量测和功率量测等,并将无功电压控制过程样本数据上传到云服务器。控制器还从云服务器接收本区域对应的无功电压控制策略,并将控制信号下发到节点。
[0125] 本发明实施例中,对于第i∈[1,N]个被控区域,将无功电压控制目标与优化模型拆分分与N个区域对应的被控区域无功电压控制目标与优化模型:
[0126]
[0127] 其中, 为第i个区域的全部节点集合, 为第i个区域的网络输出功率。本发明实施例中,出现的相同符号表示相同的物理含义,如SGj,PGj分别为节点j的DG装机容量与有功功率输出,其中节点
[0128] 步骤2:结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架。
[0129] 步骤2-1:对应各区域系统量测,构建各区域观测变量oi,t如(0.41)所示。
[0130]
[0131] 其中Pi,Qi为第i个区域各节点有功、无功功率注入组成的向量;Vi为第i个区域各节点电压组成的向量; 为第i个区域的网络输出有功功率和网络输出无功功率;t为控制过程的离散时间变量。
[0132] 步骤2-2:对应各区域无功电压优化目标,构建各区域统一回馈变量rt如(0.42)所示。
[0133]
[0134] Pj为节点j的有功功率输出, 为区域i的网络输出有功功率。
[0135] 步骤2-3:对应各区域无功电压优化约束,构建各区域约束回馈变量 如(0.43)所示:
[0136]
[0137] 其中[x]+=max(0,x);βi为第i个区域的协作系数;Vj(t)为t时刻节点j的电压,表示电压上限,V为电压上限;一般来讲电压上限各节点一致,尽管特殊情况下可以不同;此处按照习惯,取为一致,即电压上限标识各个节点的电压上限,电压下限也是如此;
[0138] 步骤2-4:对应可控灵活性资源无功功率,构建各区域动作变量ai,t如(0.44)所示:
[0139] ai,t=(QGi,QCi)t  (0.44)
[0140] 其中,QGi,QCi分别为第i个区域的DG及SVC无功功率输出向量。
[0141] 步骤3:初始化各神经网络及相关控制过程变量;
[0142] 步骤3-1:初始化各神经网络及相关控制过程变量并下发到各控制区域。首先初始化各区域对应的神经网络,并存储在云服务器上,包括:
[0143] 步骤3-1-1:定义神经网络 为一个输入(oi,t,ai,t)输出单个标量值的神经网络,包括若干个隐含层(典型地取为2个隐含层),每个隐含层包含若干个神经元(典型地取为512个神经元),激活函数为ReLU函数,ReLU函数的数学表达为ReLU(x)=max(0,x)。记 的网络参数为φi,对应的冻结参数为 并随机初始化φi与
[0144] 步骤3-1-2:定义神经网络 为一个输入(oi,t,ai,t)输出单个标量值的神经网络,包括若干个隐含层(典型地取为2个隐含层),每个隐含层包含若干个神经元(典型地取为512个神经元),激活函数为ReLU函数。记 的网络参数记为 对应的冻结参数为 随机初始化 与
[0145] 步骤3-1-3:定义 与 为两个输入oi,t输出与动作ai,t形状相同向量的神经网络。 与 分别具有独立的输出层,同时共享相同的神经网络输入层与隐含层,包括若干个隐含层(典型地取为2个隐含层),每个隐含层包含若干个神经元(典型地取为512个神经元),激活函数为ReLU函数。记 与 的全部网络参数为θi。随机初始化θi。
[0146] 步骤3-2:初始化各区域拉格朗日乘子λi,为一标量,典型初始值为1;
[0147] 步骤3-3:通过通讯网络,下发初始策略神经网络 与 到区域i的控制器;
[0148] 步骤3-4:初始化离散时间变量t=0,两步之间的实际时间间隔为Δt,控制时间间隔,每一步控制一次,具体根据本地控制器的实际量测及指令控制速度确定;
[0149] 步骤3-5:初始化策略更新周期Tu,即每隔TuΔt时间执行一次策略更新,根据云服务器的训练速度确定,典型值可取Tu=8;
[0150] 步骤3-6:初始化样本上传周期Ts与样本上传比例m∈[1,Ts]。每隔TsΔt各控制器进行一次样本上传,上传前一个上传周期中的m个样本。Ts,m根据通讯速度确定,典型值可取Ts=8,m=1;
[0151] 步骤3-7:初始化云服务器经验库 各控制器本地缓存经验库
[0152] 步骤4:各区域本地控制器根据接收的策略神经网络并行执行控制步骤。各区域i本地控制器在t时刻执行以下控制步骤,并行执行互不干扰:
[0153] 步骤4-1:从区域电网的量测装置获得量测信号,形成对应的观测变量oi,t;
[0154] 步骤4-2:根据本地的策略神经网络 与 生成本时刻对应动作ai,t:
[0155]
[0156] 步骤4-3:控制器将ai,t下发至本地被控灵活性资源,如DG节点和SVC节点;
[0157] 步骤4-4:将(oi,t,ai,t)储存到 中。
[0158] 步骤5:各区域本地控制器并行执行上传样本步骤,上传量测样本到云服务器。区域控制器按照上传周期上传本地样本到云服务器。示例性地,若tmodTs=0,各区域i本地控制器在t时刻执行以下采样步骤,并行执行互不干扰:
[0159] 步骤5-1:通过通讯网络,将 中前m+1个样本上传至云服务器的经验库Di中;
[0160] 步骤5-2:清空
[0161] 步骤5-3:全部控制器上传完成后,在云服务器上对本轮上传数据的前m组计算rt与
[0162] 步骤5-4:如发生通讯故障,导致某区域样本未能上传,可直接忽略本次采样上传,后续执行不受影响。
[0163] 步骤6:云服务器并行学习各个控制器策略并下发更新后的策略到各区域控制器。云服务器按照更新周期,使用更新后的经验库并行学习各个控制器策略,并将生成的更新后的额策略下发到各个控制器。示例性地,若tmodTu=0,云服务器在t时刻并行学习各个控制器策略并下发策略,即对各区域i的神经网络并行执行以下学习步骤若干次(典型值为Tu次,可根据云服务器计算能力调整):
[0164] 步骤6-1:从经验库Di中抽取一组经验 数量为B(典型值为64);
[0165] 步骤6-2:计算参数φi的损失函数
[0166]
[0167] 其中x=(o1,...,oN)为全部区域观测值;x'为x对应的下一时刻观测值;a1,...,aN分别为区域1到区域N的动作向量; 表示在 中求取;yi为:
[0168]
[0169] 其中γ为折合系数,典型值为0.98;αi为区域i的熵最大化因子,典型值为0.1;为取到 的概率值; 为:
[0170]
[0171] ⊙表示按位相乘,o′i为区域i下一时刻的观测值。本发明实施例中,云服务器并行学习各个控制器策略,针对每个区域的学习计算使用全局观测值的。即使用全局信息进行学习,而只用本地信息进行执行。提高了控制策略的可靠性和优越性。
[0172] 步骤6-3:更新参数φi:
[0173]
[0174] 其中ρi为学习步长,典型值为0.0001, 表示是对变量φi求梯度。
[0175] 步骤6-4:计算参数 的损失函数;
[0176]
[0177] 其中 为:
[0178]
[0179] 上角标C表示“constraint”,即与约束相关的变量。
[0180] 步骤6-5:更新参数
[0181]
[0182] 步骤6-6:计算拉格朗日函数:
[0183]
[0184] 其中 为电压越线程度约束限值,典型值取为0。 为:
[0185]
[0186] 步骤6-7:更新参数θi:
[0187]
[0188] 步骤6-8:更新参数λi:
[0189]
[0190] 步骤6-9:更新冻结参数 和
[0191]
[0192] 其中η为冻结系数,典型值取为0.995。
[0193] 步骤6-10:通过通讯网络,下发更新后的策略神经网络 与 到区域i。
[0194] 步骤7:在一下动作时,重复并行执行步骤4、5、6。具体地,t=t+1,返回步骤4并重复步骤4、5、6。其中,步骤4、5、6可以并行执行,互不干扰,其中涉及的通讯及计算并不会阻碍其他控制器、其他步骤的正常执行。
[0195] 基于相同的发明构思,本发明实施例还提供一种电网无功电压分布式控制系统,如图3所示,系统包括:
[0196] 模型构建模块,用于根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型;
[0197] 训练框架构建模块,用于结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架;
[0198] 初始化模块,用于初始化各神经网络及相关控制过程变量并下发到各控制区域;
[0199] 控制器模块,用于设置在各区域本地,即本地计算机设备,控制器模块根据接收的策略神经网络并行执行控制步骤;
[0200] 样本上传模块,用于设置在各区域本地,样本上传模块并行执行上传样本步骤,上传量测样本到云服务器;
[0201] 策略学习模块,用于设置在云服务器上,策略学习模块并行学习各个控制器策略并下发更新后的策略到各区域控制器;
[0202] 其中,控制器模块、样本上传模块、策略学习模块用于被重复调用执行,且可以并行执行。
[0203] 不失一般性地,模型构建模块、训练框架构建模块、初始化模块均可以部署在云服务器上,也可以部署在与云服务器不同的计算机设备上。服务器上的模块与各个控制区域本地上的模块通过通讯网络数据连接。
[0204] 上述各个模块的具体执行过程及算法可以根据上述电网无功电压分布式控制方法的实施例得到,此处不再赘述。
[0205] 本发明的控制方法及系统采用在线集中学习与分布式控制相结合的控制架构,通过高效的深度强化学习算法,持续集中收集各个控制器的控制数据,在云服务器上进行集中学习得到各控制器的控制策略,利用通讯网络将策略下发到各控制器后,各控制器根据本地量测在本地执行策略。本发明一方面充分发挥分布式控制的速度优势,本地控制器无需进行通讯,即可根据实时本地量测进行快速控制,特别适用于高速DG资源、SVC资源的无功电压控制;另一方面提出高效的深度强化学习算法,充分利用集中学习的信息优势,得到各智能体的最优策略,在模型不完备场景下保障系统的优化运行。本发明大幅提高了模型不完备场景下电网无功电压控制方法的效率、安全性、灵活性,特别适合模型不完备问题严重的区域电网使用,既节省了重复维护精确模型带来的高昂成本,降低了对通信条件和各控制器计算条件的要求,又发挥了分布式控制的灵活高效优势,避免了集中控制带来的单点失败风险高、控制指令时延大等问题,适合大规模推广。
[0206] 尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。