基于多时间尺度多智能体深度强化学习无功电压控制方法转让专利

申请号 : CN202110597000.4

文献号 : CN113363997B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 胡丹尔彭勇刚杨晋祥韦巍蔡田田习伟邓清唐李肖博陈波

申请人 : 浙江大学南方电网数字电网研究院有限公司

摘要 :

本发明涉及电力系统运行和优化技术,旨在提供一种基于多时间尺度多智能体深度强化学习无功电压控制方法。本发明将光伏、风机和负荷中的有载调压分接头、电容器组和储能均定义为智能体,把基于强化学习的方法应用于无功优化问题中,允许控制器通过与类似系统的仿真模型交互来学习控制策略。将无功调节设备的动作变量与配电网环境进行交互,智能体最终能够实现对于外部环境的最优响应,从而获得最大的回报值。本发明用神经网络方法来分析和拟合智能体的战略函数和动作价值函数,训练过程不依赖于预测数据结果和精确的潮流建模;使用两个时间尺度的无功优化方法,可以使得网损更小、电压平抑效果更佳,对提升配网安全可靠性有更显著的效果。

权利要求 :

1.一种基于多时间尺度多智能体深度强化学习的无功电压控制方法,其特征在于,包括以下步骤:(1)将接入可再生分布式电源的配电网的无功电压控制过程,分为第一时间尺度阶段和第二时间尺度阶段;其中,以最初的持续1小时作为第一时间尺度阶段的调度周期;此后的控制过程为第二时间尺度阶段,在该阶段以每1分钟作为一个调度周期;

(2)将有载调压分接头OLTC、电容器组CB和储能ES均定义为智能体,在第一时间尺度阶段,搭建环境和智能体交互的马尔科夫决策过程的交互训练环境;在该过程的交互训练中,输入光伏、风机和负荷的预测数据,采用DDQN算法Double Q Network进行离线训练无功优化离散动作策略;训练完毕,得到智能体OLTC、CB和ES的调度策略,将训练生成的最优无功控制策略作为第二时间尺度调度阶段的输入;

(3)在第二时间尺度阶段,基于步骤(2)得到的最优无功控制策略,按同样方式搭建基于马尔科夫决策过程的交互训练环境;在训练过程中,采用基于最大熵的多智能体深度强化学习算法MA‑SAC训练、优化离线无功电压模型;

(4)将MA‑SAC算法训练好的无功电压模型部署至在线决策的配电网中,通过以1分钟为时间尺度来生成实时调度光伏、风机和储能逆变器中智能体的无功出力,从而校正第一时间尺度调度阶段无功优化的调度结果,以缓解电压波动。

2.根据权利要求1所述的方法,其特征在于,在步骤(2)所述的第一个时间尺度调度阶段中,将环境和智能体OLTC、CB和ES交互的马尔科夫过程描述为;其中,S表示系统状态空间,是智能体能感知的所有状态集合;R是回报空间,是环境根据状态动作返回给智能体的即使回报的合集;A是动作空间,是决策主体对环境进行动作的合集;P是状态转移概率;γ是回报折扣率,表示对未来回报的折算系数;

在步骤(3)所述的第二个时间尺度调度阶段,以同样方式搭建基于马尔科夫过程的交互训练环境,该过程用元组描述为;其中,N表示智能体的个数,S表示系统状态,a1,a2,…,aN为智能体的动作集合;T表示状态转移函数,T:S×a1×…aaN×S→[0,1],根据当前系统状态和联合动作,给出下一个状态的概率;γ是折扣因子;另t t+1外,以ri(s,a1,…,aN,s )表示智能体i在状态s时,执行联合动作s′所得到的奖励。

3.根据权利要求1所述的方法,其特征在于,所述步骤(2)具体包括:(2.1)在满足电网电压和无功补偿设备运行约束条件下,通过调节无功设备的智能体的逆变器出力,将配电网的无功优化目标函数定义为配电网的有功功率损耗总和Ploss最小,且约束条件包括节点电压、无功功率和动作量变化的上下限约束以及潮流方程的约束;

(2.2)根据无功电压优化目标函数和约束条件的模型,建立马尔科夫决策过程的交互训练环境;将训练好的DDQN深度强化学习无功电压优化调度模型的智能体最优小时级控制策略,作为第二阶段时间尺度的实时调度策略的输入。

4.根据权利要求3所述的方法,其特征在于,所述步骤(2.2)具体包括:(2.2.1)在对智能体进行的训练过程中,根据配电系统中的状态调整策略函数,针对给定的运行条件采取控制措施以实现无功优化;对于多智能体给定的动作,环境提供配电系统中所有母线上的电压,作为DDQN模型的状态;具体表示为:s={Ui,Wi,Cwi}

其中,Ui为第i个决策阶段的配电网的节点电压矩阵;Wi为第i个调度周期内各个调节设备的投切档位;Cwi为i个调度周期内各个调节设备已经完成的动作;

(2.2.2)构建智能体的动作向量:

a={Tol,Tcb,Tes}

其中,Tol,Tcb,Tes分别为OLTC的分接头档位、电容器组CB的投切组数和ES的无功出力;

(2.2.3)采用DDQN算法离线训练无功优化模型,将状态作为神经网络的输入,用神经网络算出所有的动作价值函数,直接输出对应的动作‑价值Q值,用于评估当前所给状态下某个动作行为的期望值;

(2.2.4)定义DDQN算法强化学习的目标函数为:

* *

Q(s,a)=Es′~e[r+γmaxa′Q(s′,a′)|s,a]*

其中,动作价值函数Q (s,a)为所有动作价值中的最大值;r为观察对应的奖励,γ为未来每一步长的折扣因子,s′和a′分别为下一状态和可能采取的动作;

(2.2.5)初始化复用池D的容量为N;初始化动作对应的Q值为随机,根据所述的无功优化模型生成最优的无功补偿策略;具体包括如下步骤:a.初始化序列s1={x1}和第一个状态的预处理序列φ1=φ(s1);其中,x1为第一个状态;

*

b.以ε的概率随机选择一个动作at,否则选择动作at=maxa Q (s′,a;θ);其中,θ为神经网络函数的权重,s′为下一状态,a为当前动作;

c.在配电网中执行动作at,并观察对应的rt和状态st+1;使下一个状态st+1=st,at,xt+1,下一个预处理序列φt+1=φ(st+1);

d.在经验复用池D中存储样本,并从中随机抽取小批量样本(φj,aj,rj,φj+1);令其中,rj为观察对应的奖励,γ为未来每一步长的折扣因子,st+1为下一观测状态,θt为当前神经网络的参数,θ′t为下一步神经网络的参数;

e.对 执行梯度下降,并重复步骤b;

(2.2.6)将第一时间尺度调度阶段训练好的无功电压优化调度模型的智能体最优小时级控制策略,作为第二时间尺度调度阶段实时调度策略的输入。

5.根据权利要求1所述的方法,其特征在于,所述步骤(3)中无功电压模型具体包括:在满足电网电压和无功补偿设备运行约束条件下,通过调节无功设备的智能体,将配电网的无功优化目标函数f1定义为配电网的有功功率损耗总和Ploss最小,且约束条件包括节点电压、无功功率和动作量变化的上下限约束以及潮流方程的约束,具体公式定义如下:Umin≤Ui≤Umax

φmin≤φi≤φmax

其中,Umin,Umax分别为节点i电压Ui的下限和上限;φmin,φmax分别为节点i的CB动作次数

2 2

的出力下限和上限;lij=|Iij| ,uj=|Uj| ,Iij为支路ij的电流;i:i→j表示在支路ij中,以i为首的节点从节点i流向节点j;k:j→k表示在支路jk中,以j为首的节点从节点j流向节点k;Pij、Qij分别是流过支路ij的有功、无功功率;rij、xij分别为支路ij的电阻、电抗;pj和qj分别为注入节点j的有功功率和无功功率。

6.根据权利要求1所述的方法,其特征在于,所述步骤(3)中采用MA‑SAC算法训练离线无功电压优化模型,具体包括以下步骤:在满足电网电压和无功补偿设备运行约束条件下,通过调节光伏、风机和储能逆变器的无功出力,第二时间尺度阶段校正第一时间尺度阶段无功优化的调度结果,将目标函数定义为配电网节点电压偏差最小,且约束条件包括节点电压、光伏风机出力上下限约束以及潮流方程的约束;具体公式定义如下:Umin≤Ui≤Umax

其中,Umin,Umax分别为节点i电压Ui的下限和上限;Ui,base为节点i的基准电压幅值;PPV,QPV,SPV分别为光伏设备的有功功率、无功功率和视在功率;PWD,QWD,SWD分别为光伏设备的有功功率、无功功率和视在功率;

2 2

其中,lij=|Iij| ,uj=|Uj| ,Iij为支路ij的电流;i:i→j表示在支路ij中,以i为首的节点从节点i流向节点j;k:j→k表示在支路jk中,以j为首的节点从节点j流向节点k;Pij、Qij分别是流过支路ij的有功、无功功率;rij、xij分别为支路ij的电阻、电抗;pj和qj分别为注入节点j的有功功率和无功功率;

根据所述的无功电压优化目标函数和约束条件的模型,建立马尔科夫过程的交互训练环境。

7.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,在训练过程中采用MA‑SAC算法训练离线无功电压优化模型;该过程具体包括以下步骤:(3.1)对于多智能体给定的动作,环境提供配电系统中所有母线上的电压,作为MA‑SAC模型的当前环境状态s,其公式表示为:s={Ut,PPV,t,PWD,t}

其中,Ut为第t个决策阶段的配电网的节点电压矩阵;PPV,t为第t个调度周期内光伏有功功率;PWD,t为第t个调度周期内风机有功功率;

(3.2)在离线训练过程中,采用MA‑SAC离线训练无功优化模型,在熵正则化表达式中,每一个智能体在训练时会获得与当前的策略熵成正比的正向奖励,其目标定义为x表示整个环境的信息, 是第i个中心化的评价函数,其输入是每个智能体采取的动作ai以及环境信息x,其输出为第i个智能体的Q值,其中熵H表示为H(π(·|st))=‑∑aπ(a|st)lnπ(a|st)

(3.3)初始化随机过程B用于动作探索;初始化环境状态x,根据日内无功优化模型,生成最优的光伏和风机实时动态策略,包括如下步骤:a.对于每一个智能体选择动作ai,执行动作a={a1,…,aN},并观察奖励r以及下一个状态x′,将转换四元组(x,a,r,x′)存放进经验同放池D;

μ

b.对于每一个智能体,从D中抽取出K个样本(xj,aj,rj,x′j),令yj=rj+γQ (x′j,a′1,…,a′N);其中rj为观察对应的奖励,γ为未来每一步长的折扣因子,x′j为下一观测状态,a′1,…,a′N分别为智能体1~N做出的动作;

c.通过最小化损失函数更新评价函数: 通过梯度下

降更新动作函数: 并重复步骤a;

d.对每一个智能体的目标神经网络的参数进行更新:θ′i=τθi+(1‑τ)θ′i;其中,τ为更新权重;

(3.4)将第二时间尺度阶段训练好的无功电压优化调度模型以1分钟级调度光伏、风机和储能逆变器的无功出力,从而校正日前的无功策略,达到更好地无功电压控制效果。

说明书 :

基于多时间尺度多智能体深度强化学习无功电压控制方法

技术领域

[0001] 本发明涉及电力系统运行和优化技术领域,特别涉及一种基于多时间尺度多智能体深度强化学习无功电压优化方法。

背景技术

[0002] 随着大量的可再生分布式电源接入配电网中,风力设备和光伏设备出力的随机波动、负荷的不确定性波动,会导致配电网运行的电压波动大、电压越线、网损提高等问题,影响电能质量。
[0003] 配电网的无功优化的目标就是在充分满足电网安全运营约束下,有效地保证各个节点电压的稳定,减少电压波动和减轻电网的网损。配电网的无功优化往往包含了多个不同的变量、一个约束,通常被认为是非线性计划中的一个问题。尽管现有的基于模型的无功电压优化方法大多能有效地抑制电压越限问题,但它们在很大程度上依赖于精确的模型与预测数据,计算速度慢、易陷入局部最优。

发明内容

[0004] 本发明要解决的问题是,克服现有技术中的不足,提出一种基于多时间尺度多智能体深度强化学习无功电压控制方法。
[0005] 为解决技术问题,本发明的解决方案是:
[0006] 提供一种基于多时间尺度多智能体深度强化学习的无功电压控制方法,包括以下步骤:
[0007] (1)将接入可再生分布式电源的配电网的无功电压控制过程,分为第一时间尺度阶段和第二时间尺度阶段;其中,以最初的持续1小时作为第一时间尺度阶段的调度周期;此后的控制过程为第二时间尺度阶段,在该阶段以每1分钟作为一个调度周期;
[0008] (2)将有载调压分接头(OLTC)、电容器组(CB)和储能(ES)均定义为智能体,在第一时间尺度阶段,搭建环境和智能体交互的马尔科夫决策过程的交互训练环境;在该过程的交互训练中,输入光伏、风机和负荷的预测数据,采用DDQN算法(Double Q Network)进行离线训练无功优化离散动作策略;训练完毕,得到智能体OLTC、CB和ES的调度策略,将训练生成的最优无功控制策略作为第二时间尺度调度阶段的输入;
[0009] 在第一个时间尺度调度阶段,将环境和智能体OLTC、CB和ES交互的马尔科夫过程描述为;其中,S表示系统状态空间,是智能体能感知的所有状态集合;R是回报空间,是环境根据状态动作返回给智能体的即使回报的合集;A是动作空间,是决策主体对环境进行动作的合集;P是状态转移概率;γ是回报折扣率,表示对未来回报的折算系数;
[0010] (3)在第二时间尺度阶段,基于步骤(2)得到的最优无功控制策略,按同样方式搭建基于马尔科夫决策过程的交互训练环境;在训练过程中,采用基于最大熵的多智能体深度强化学习算法(MA‑SAC)训练、优化离线无功电压模型;
[0011] 在第二个时间尺度调度阶段,以同样方式搭建基于马尔科夫过程的交互训练环境,该过程用元组描述为;其中,N表示智能体的个数,S表示系统状态,a1,a2,…,aN为智能体的动作集合;T表示状态转移函数,T:S×a1×…aN×S→[0,1],根据当前系统状态和联合动作,给出下一个状态的概率;γ是折扣因子;另外,以rit t+1(s,a1,…,aN,s )表示智能体i在状态s时,执行联合动作s′所得到的奖励。
[0012] (4)将MA‑SAC算法训练好的无功电压模型部署至在线决策的配电网中,通过以1分钟为时间尺度来生成实时调度光伏、风机和储能逆变器中智能体的无功出力,从而校正第一时间尺度调度阶段无功优化的调度结果,以缓解电压波动。
[0013] 本发明中,所述步骤(2)具体包括:
[0014] (2.1)在满足电网电压和无功补偿设备运行约束条件下,通过调节无功设备的智能体的逆变器出力,将配电网的无功优化目标函数定义为配电网的有功功率损耗总和Ploss最小,且约束条件包括节点电压、无功功率和动作量变化的上下限约束以及潮流方程的约束;
[0015] (2.2)根据无功电压优化目标函数和约束条件的模型,建立马尔科夫决策过程的交互训练环境;将训练好的DDQN深度强化学习无功电压优化调度模型的智能体最优小时级控制策略,作为第二阶段时间尺度的实时调度策略的输入。
[0016] 所述步骤(2.2)具体包括:
[0017] (2.2.1)在对智能体进行训练过程中根据配电系统中的状态调整策略函数,针对给定的运行条件采取控制措施,以实现无功优化;对于多智能体给定的动作,环境提供配电系统中所有母线上的电压,作为DDQN模型的状态;具体表示为:
[0018] s={Ui,Wi,Cwi}
[0019] 其中,Ui为第i个决策阶段的配电网的节点电压矩阵;Wi为第i个调度周期内各个调节设备的投切档位;Cwi为i个调度周期内各个调节设备已经完成的动作;
[0020] (2.2.2)构建有载调压分接头(OLTC)、电容器组(CB)和储能(ES)的动作向量:
[0021] a={Tol,Tcb,Tes}
[0022] 其中,Tol,Tcb,Tes分别为OLTC的分接头档位和电容器组CB的投切组数以及ES的无功出力;
[0023] (2.2.3)采用DDQN算法离线训练无功优化模型,将状态作为神经网络的输入,用神经网络算出所有的动作价值函数,直接输出对应的动作‑价值Q值,用于评估当前所给状态下某个动作行为的期望值;
[0024] (2.2.4)定义DDQN算法强化学习的目标函数为:
[0025] Q*(s,a)=Es′~e[r+γmaxa′Q*(s′,a′)|s,a]
[0026] 其中,动作价值函数Q*(s,a)为所有动作价值中的最大值;r为观察对应的奖励,γ为未来每一步长的折扣因子,s′和a′分别为下一状态和可能采取的动作;
[0027] (2.2.5)初始化复用池D的容量为N;初始化动作对应的Q值为随机,根据所述的无功优化模型生成最优的无功补偿策略;具体包括如下步骤:
[0028] a.初始化序列s1={x1}和第一个状态的预处理序列φ1=φ(s1);其中,x1为第一个状态;
[0029] b.以ε的概率随机选择一个动作at,否则选择动作at=maxa Q*(s′,a;θ);其中,θ为神经网络函数的权重,s′为下一状态,a为当前动作;
[0030] c.在配电网中执行动作at,并观察对应的rt和状态st+1;使下一个状态st+1=st,at,xt+1,下一个预处理序列φt+1=φ(st+1);
[0031] d.在经验复用池D中存储样本,并从中随机抽取小批量样本(φj,aj,rj,φj+1);令其中,rj为观察对应的奖励,γ为未来每一步长的折扣因子,st+1为下一观测状态,θt为当前神经网络的参数,θ′t为下一步神经网络的参数;
[0032] e.对 执行梯度下降,并重复步骤b;
[0033] (2.2.6)将第一时间尺度调度阶段训练好的无功电压优化调度模型的智能体最优小时级控制策略,作为第二时间尺度调度阶段实时调度策略的输入。
[0034] 本发明中,所述步骤(3)中无功电压模型具体包括:
[0035] 在满足电网电压和无功补偿设备运行约束条件下,通过调节无功设备的智能体,将配电网的无功优化目标函数f1定义为配电网的有功功率损耗总和Ploss最小,且约束条件包括节点电压、无功功率和动作量变化的上下限约束以及潮流方程的约束,具体公式定义如下:
[0036]
[0037] Umin≤Ui≤Umax
[0038] φmin≤φi≤φmax
[0039]
[0040]
[0041]
[0042] 其中,Umin,Umax分别为节点i电压Ui的下限和上限;φmin,φmax分别为节点i的CB动2 2
作次数的出力下限和上限;lij=|Iij| ,uj=|Uj| ,Iij为支路ij的电流;i:i→j表示在支路ij中,以i为首的节点从节点i流向节点j;k:j→k表示在支路jk中,以j为首的节点从节点j流向节点k;Pij、Qij分别是流过支路ij的有功、无功功率;rij、xij分别为支路ij的电阻、电抗;
pj和qj分别为注入节点j的有功功率和无功功率。
[0043] 本发明中,所述步骤(3)中采用MA‑SAC算法训练离线无功电压优化模型,具体包括以下步骤:
[0044] 在满足电网电压和无功补偿设备运行约束条件下,通过调节光伏、风机和储能逆变器的无功出力,第二时间尺度阶段校正第一时间尺度阶段无功优化的调度结果,将目标函数定义为配电网节点电压偏差最小,且约束条件包括节点电压、光伏风机出力上下限约束以及潮流方程的约束;具体公式定义如下:
[0045]
[0046] Umin≤Ui≤Umax
[0047]
[0048]
[0049]
[0050]
[0051]
[0052] 其中,Umin,Umax分别为节点i电压Ui的下限和上限;Ui,base为节点i的基准电压幅值;PPV,QPV,SPV分别为光伏设备的有功功率、无功功率和视在功率;PWD,QWD,SWD分别为光伏设备的有功功率、无功功率和视在功率;
[0053] 根据所述的无功电压优化目标函数和约束条件的模型,建立马尔科夫过程的交互训练环境。
[0054] 本发明中,所述步骤(3)中,在训练过程中采用MA‑SAC算法训练离线无功电压优化模型;该过程具体包括以下步骤:
[0055] (3.1)对于多智能体给定的动作,环境提供配电系统中所有母线上的电压,作为MA‑SAC模型的状态;s,其公式表示为:
[0056] s={Ut,PPV,t,PWD,t}
[0057] 其中,Ut为第t个决策阶段的配电网的节点电压矩阵;PPV,t为第t个调度周期内光伏有功功率;PWD,t为第t个调度周期内风机有功功率;
[0058] (3.2)在离线训练过程中,采用MA‑SAC离线训练无功优化模型,在熵正则化表达式中,每一个智能体在训练时会获得与当前的策略熵成正比的正向奖励,其目标可以定义为[0059]
[0060] x表示整个环境的信息, 是第i个中心化的评价函数,其输入是每个智能体采取的动作ai以及环境信息x,其输出为第i个智能体的Q值,其中熵H表示为
[0061] H(π(·|st))=‑∑aπ(a|st)lnπ(a|st)
[0062] (3.3)初始化随机过程B用于动作探索;初始化环境状态x,根据所述的日内无功优化模型,生成最优的光伏和风机实时动态策略,包括如下步骤:
[0063] a.对于每一个智能体选择动作ai,执行动作a={a1,…,aN},并观察奖励r以及下一个状态x′,将转换四元组(x,a,r,x′)存放进经验回放池D;
[0064] b.对于每一个智能体,从D中抽取出K个样本(xj,aj,rj,x′j),令yj=rj+γQμ(x′j,a′1,…,a′N);其中rj为观察对应的奖励,γ为未来每一步长的折扣因子,x′j为下一观测状态,a′1,…,a′N分别为智能体1~N做出的动作;
[0065] c.通过最小化损失函数更新评价函数: 通过梯度下降更新动作函数: 并重复步骤a;
[0066] d.对每一个智能体的目标神经网络的参数进行更新:θ′i=τθi+(1‑τ)θ′i;其中,τ为更新权重;
[0067] (3.4)将第二时间尺度阶段训练好的无功电压优化调度模型以1分钟级调度光伏、风机和储能逆变器的无功出力,从而校正日前的无功策略,达到更好地无功电压控制效果。
[0068] 与现有技术相比,本发明的有益效果是:
[0069] (1)本发明设计了两个时间尺度下的无功电压优化方法。在第一个时间尺度调度阶段采用1小时为时间尺度来调度OLTC、CB、ES;在第二个时间尺度调度阶段采用1分钟为时间尺度来调度PV和WD、ES的无功出力,修正第一个时间尺度调度阶段的无功优化策略。
[0070] (2)本发明提出的第一、二时间尺度调度阶段均采用深度强化学习模型,相较于传统的无功优化模型,能够更加快速实时地进行策略的调度,并且可以不需要通过精确的潮流建模,也不依赖于精确的负荷预测数据。
[0071] (3)本发明在第一个时间尺度调度阶段以OLTC分接头档位、CB投切、ES无功出力为离散动作变量,在第二个时间尺度调度阶段以PV和WD、ES的无功出力为连续动作变量。第二个时间尺度调度阶段采用集中训练、分散执行的方式,在和配电网环境交互过程中完成深度神经网络的训练,将训练好的网络可以进行快速地决策,从而有效地减小电压的偏差。

附图说明

[0072] 图1为第一个时间尺度调度阶段深度强化学习DDQN算法训练框架;
[0073] 图2为第二个时间尺度调度阶段MA‑SAC算法集中训练‑分散执行框架。

具体实施方式

[0074] 申请人的发明人团队由数据驱动方法获得启发,将光伏、风机和负荷中的有载调压分接头(OLTC)、电容器组(CB)和储能(ES)均定义为智能体,把基于强化学习的方法应用于无功优化问题中,允许控制器通过与类似系统的仿真模型交互来学习控制策略。将无功调节设备的动作变量与配电网环境进行交互,通过使用数学中的时间序列把交互过程描述成一个称为马尔可夫决策的过程(markov decision process),智能体最终能够实现对于外部环境的最优响应,从而获得最大的回报值。用神经网络方法来分析和拟合每一个智能体的战略函数和动作价值函数,训练过程不依赖于预测数据结果和精确的潮流建模,本发明使用的两个时间尺度的基于深度强化学习的无功优化方法,可以使得网损更小、电压平抑效果更佳,对提升配网安全可靠性有更显著的效果。
[0075] 下面以n节点的配电网为例子,示例说明本发明所述的基于多时间尺度的多智能体深度强化学习无功电压优化方法。
[0076] 每个所述的节点都可以有量测的状态,其中,一个节点设有有载调压分接头(OLTC),至少有一个节点设有电容器组(CB),至少一个节点设有光伏设备(PV),至少一个节点设备设有风机设备,至少一个节点设有储能设备(ES)。优化目标设为减小系统网损和电压偏差,利用集中训练和分散执行(CTDE)框架,第一个时间尺度调度阶段的时间尺度为1小时,采用DDQN算法训练优化模型,调度有载调压分接头(OLTC)的档位、电容器组(CB)的投切组数、储能(ES)的无功出力,优化过程可以被描述成马尔科夫博弈过程;第二个时间尺度调度阶段的时间尺度为1分钟,采用基于最大熵的多智能体深度强化学习算法(MA‑SAC)离线训练无功电压优化模型,动态实时地调节光伏和风机发电设备以及储能逆变器的无功出力,用来校正第一个时间尺度调度阶段无功优化的调度结果,缓解快速的电压波动。
[0077] (一)第一个时间尺度调度阶段
[0078] 如图1中所示,将配电网环境和智能体交互过程的马尔科夫过程可以描述为。在满足电网电压和无功补偿设备运行约束条件下,通过调节无功设备OLTC、CB、ES,配电网的无功优化目标函数可以定义为配电网的有功功率损耗总和Ploss最小,且约束条件包括节点电压Ui、动作量变化的上下限约束φi以及潮流方程的约束,具体公式定义如下:
[0079]
[0080] Umin≤Ui≤Umax
[0081] φmin≤φi≤φmax
[0082]
[0083]
[0084]
[0085] 其中,Umin,Umax分别为节点i电压Ui的下限和上限;φmin,φmax分别为节点i的CB动作次数的出力下限和上限,例如可设置各个节点电压的上下限为0.95、1.05;CB在一天内的动作次数不超过5次。
[0086] 根据所述的无功电压优化目标函数和约束条件的模型,建立马尔科夫过程的交互训练环境,该过程包括以下步骤:
[0087] 1、在对智能体进行训练过程中会根据配电系统中的状态调整策略函数,针对给定的运行条件采取控制措施,以实现无功优化。对于多智能体给定的动作,环境提供配电系统中所有母线上的电压,作为DDQN模型的状态。可以表示成s={Ui,Wi,Cwi},其中Ui为第i个决策阶段的配电网的节点电压矩阵;Wi为第i个调度周期内各个调节设备的投切档位;Cwi为i个调度周期内各个调节设备已经完成的动作。
[0088] 2、构建OLTC、CB、ES的动作向量a={Tol,Tcb,Tes},其中Tol,Tcb,Tes分别为OLTC的分接头档位和电容器组CB的投切组数以及ES的无功出力。
[0089] 3、采用DDQN(Double Q Network)算法进行离线训练无功优化模型,将状态作为神经网络的输入,用神经网络算出所有的动作价值函数,直接输出对应的Q值。
[0090] 4、定义DDQN强化学习的目标函数为
[0091] Q*(s,a)=Es′~e[r+γmaxa′Q*(s′,a′)|s,a]
[0092] 其中,r为观察对应的奖励,γ为未来每一步长的折扣因子,s′和a′分别为下一状态和可能采取的动作;
[0093] 5、初始化复用池D的容量为N;初始化动作对应的Q值为随机,根据所述的无功优化模型,生成最优的无功补偿策略,包括如下步骤:
[0094] 1)初始化序列s1={x1}和第一个状态的预处理序列φ1=φ(s1);其中,x1为第一个状态;
[0095] 2)以ε的概率随机选择一个动作at,否则选择动作at=maxa Q*(s′,a;θ),其中,θ为神经网络函数的权重,s′为下一状态,a为当前动作;
[0096] 3)在配电网中执行动作at并观察对应的rt和状态st+1;使下一个状态st+1=st,at,xt+1;下一个预处理序列φt+1=φ(st+1);
[0097] 4)在经验复用池D中存储样本,并从中随机抽取小批量样本(φj,aj,rj,φj+1);令其中,rj为观察对应的奖励,γ为未来每一步长的折扣因子,st+1为下一观测状态,θt为当前神经网络的参数,θ′t为下一步神经网络的参数;
[0098] 5)对 执行梯度下降,并重复步骤(1)。
[0099] 6、将第一时间尺度调度阶段训练好的无功电压优化调度模型的最优OLTC、CB、ES小时级控制策略作为第二时间尺度调度阶段实时调度策略的输入。
[0100] (二)第二时间尺度调度阶段
[0101] 如图2中所示,同样搭建基于马尔科夫过程的交互训练环境,该过程可以用元组描述成,其中N表示智能体的个数,S表示系统状态,a1,a2,…,aN为智能体的动作集合。T表示状态转移函数,T:S×a1×…aN×S→[0,1],根据当前t t系统状态和联合动作,给出下一个状态的概率。γ是折扣因子。另外,以ri(s ,a1,…,aN,s+1
)表示智能体i在状态s时,执行联合动作s′所得到的奖励。
[0102] 所述的配电网无功电压模型包括:
[0103] 在满足电网电压和无功补偿设备运行约束条件下,通过调节光伏和风机的无功出力,第二阶段校正日前调度阶段无功优化的调度结果,将目标函数定义为配电网节点电压偏差最小,且约束条件包括节点电压、光伏风机出力上下限约束以及潮流方程的约束,具体公式定义如下:
[0104]
[0105] Umin≤Ui≤Umax
[0106]
[0107]
[0108]
[0109]
[0110]
[0111] 其中,Umin,Umax分别为节点i电压Ui的下限和上限;Ui,base为节点i的基准电压幅值;PPV,QPV,SPV分别为光伏设备的有功功率、无功功率和视在功率;PWD,QWD,SWD分别为光伏设备的有功功率、无功功率和视在功率;
[0112] 根据所述的无功电压优化目标函数和约束条件的模型,建立马尔科夫过程的交互训练环境,该过程包括以下步骤:
[0113] 1、对于多智能体给定的动作,环境提供配电系统中所有母线上的电压,作为MA‑SAC模型的状态。可以表示成s={Ut,PPV,t,PWD,t},其中Ut为第t个决策阶段的配电网的节点电压矩阵;PPV,t为第t个调度周期内光伏有功功率;PWD,t为第t个调度周期内风机有功功率。
[0114] 2、在离线训练过程中,采用MA‑SAC离线训练无功优化模型,在熵正则化表达式中,每一个智能体在训练时会获得与当前的策略熵成正比的正向奖励,其目标可以定义为:
[0115]
[0116] x表示整个环境的信息, 是第i个中心化的评价函数,其输入是每个智能体采取的动作ai以及环境信息x,其输出为第i个智能体的Q值,其中熵H表示为
[0117]
[0118] 3、初始化随机过程B用于动作探索;初始化环境状态x,根据所述的日内无功优化模型,生成最优的光伏和风机实时动态策略,包括如下步骤:
[0119] 1)对于每一个智能体选择动作ai,执行动作a={a1,…,aN},并观察奖励r以及下一个状态x′,将转换四元组(x,a,r,x′)存放进经验回放池D;
[0120] 2)对于每一个智能体,从D中抽取出K个样本(xj,aj,rj,x′j),令yj=rj+γQμ(x′j,a′1,…,a′N);其中rj为观察对应的奖励,γ为未来每一步长的折扣因子,x′j为下一观测状态,a′1,…,a′N分别为智能体1~N做出的动作;
[0121] 3)通过最小化损失函数更新评价函数: 通过梯度下降更新动作函数: 并重复步骤(1)。
[0122] 4)对每一个智能体的目标神经网络的参数进行更新:θ′i=τθi+(1‑τ)θ′i。其中,τ为更新权重;
[0123] 4、将第二时间尺度阶段训练好的无功电压优化调度模型以1分钟级调度光伏、风机和储能逆变器的无功出力,从而校正日前的无功策略,达到更好地无功电压控制效果。