一种基于深度强化学习的时空充电调度方法转让专利
申请号 : CN202011506914.7
文献号 : CN112788560B
文献日 : 2022-02-08
发明人 : 冯勇 , 王艺均 , 李英娜 , 钱谦
申请人 : 昆明理工大学
摘要 :
权利要求 :
1.一种基于深度强化学习的时空充电调度方法,其特征在于,包括以下步骤:S1:构建无线可充电传感器网络模型,使得移动充电装置MC是具有自主移动能力和计算能力的独立设备,可自行规划充电序列和在移动过程中避障,由基站为MC补充能量;
S2:以最小化充电成本和减少节点死亡率为目标,设计基于深度强化学习的时空充电方案SCSDRL;
S3:使用SCSDRL算法生成充电序列后,根据MC当前位置坐标(xm,ym)和目标节点的二维坐标(xi,yi),使用Q‑learning算法规划路径,MC在移动过程中按照规划的路径避开障碍物访问每个节点为其进行一对一无线充电;
S4:完成一轮充电调度规划后,MC前往基站补充为自身补充能量,为下次调度做准备;
所述S2时空充电方案是:每个传感器节点可根据能耗速率计算自身剩余能量和平均剩余存活时间;当传感器节点剩余能量低于最小能量阈值时向基站发送充电请求,由MC首先根据充电请求中的节点信息进行充电序列的规划,再由规划的充电序列判断序列中的每个节点的平均剩余生存时间,通过后一节点的剩余生存时间动态调整前一节点的充电时间;
S3中的SCSDRL算法具体步骤为:首先根据t时刻待充电节点的请求集合D(t)=(Si,...,Sn;i=1,...,n‑1)为节点规划充电序列,引入深度强化学习DRL对充电序列进行优化,将问题抽象为马尔科夫决策过程MDP,其最优解视为一个决策序列,使用DRL通过增加解码序列的概率来逼近最优解;SCSDRL算法可由元组{S,A,R,S′}定义,S是状态空间;A为动作空间;R为MC 执行一个决策序列后的奖励;S′是执行动作后的环境状态;
在SCSDRL中,智能体是MC,负责做出充电决策;系统的状态空间包括基站和所有传感器节点的位置和待充电节点的能量需求,表示为S=Si,i=1,...,n; li给出了传感器节点i的二维坐标, 为其能量需求,为节点i的平均剩余生存时间,根据节点i的平均能耗率计算;
策略由表达式a=π(s)表示,是从输入状态S到输出动作a的映射,SCSDRL的目标是找出一种最优策略来规划MC的充电序列;
在SCSDRL中,为了提高WRSN的充电效率,包括通过优化MC的充电路径来避免传感器故障和降低充电成本,SCSDRL以MC的总行程长度和死节点数作为奖励信号,把奖励定义为:状态的具体更新过程如下:假设MC在0时刻位于基站B处;在每个步骤中,MC从传感器节点或基站B中选择下一步要访问的节点;访问传感器节点i后,更新传感器节点的需求和MC的剩余能量如下:
u
其次,SCSDRL中的网络模型为两个神经网络:其一是带有参数θ的Actor网络,其输出为Q
可选动作空间的动作概率分布,其二是带有参数θ的Critic网络;在当前WRSN环境下从MC执行动作序列中的动作a中得到一个奖励R;根据当前的统计数据从Critic网络中得到V值,进而更新Actor和具有R和V的误差准则函数的Critic网络;
接着,根据t时刻待充电节点的请求集合D(t)=(Si,...,Sn)为节点规划充电序列,引入深度强化学习对充电序列进行优化;将充电序列的规划抽象为VRP(Vehicle routing problem)问题,此类问题为NP‑hard问题,使用深度强化算法来接近最优解;
同时,由于随着充电时间的增加,电池接收的能量不是线性增加的,充电效率具有边际效应;若所有请求节点都进行完全充电,将影响充电效率;故在生成MC移动距离最短的充电序列后,判断为节点进行完全充电或部分充电,充电时间划分和电池获得能量计算如下:在充电序列的基础上动态调整每个节点的充电时长;
最后,基于策略梯度,使用预期奖励的梯度对策略参数的估计来迭代地改进策略使得奖励最大化,从而生成近似最优解。
2.如权利要求1所述的基于深度强化学习的时空充电调度方法,其特征在于:所述S1无线可充电传感器网络模型的构建是在规划好的有障碍物的目标区域内按需求部署一定数量的传感器节点,xi,0<i<n为传感器节点构成的集合,节点和障碍物固定且位置已知;
Cs为传感器节点电池最大容量,每个传感器节点装有相同容量的电池;Ei(t)表示节点i在当前时刻t的剩余电量;Si是包含位置、能量需求和剩余生存时间的元组,表示为li给出了传感器节点i的二维坐标, 为其能量需求;为节点i的平均剩余生存时间,根据节点i的平均能耗率计算;
D(t)=(Si,...,Sn)为t时刻待充电节点的请求集合;基站B按实际需求部署在合适的位置,网络中部署一个可移动充电装置MC在网络区域内可自由移动,携带电池容量为Cm;速度为vm/s;移动过程中的能耗为qmJ/m;在t时刻MC的剩余电量为Em(t);
整个无线可充电传感器网络部署在二维有障碍物的目标区域内,传感器节点负责收集和传输数据并将数据通过多跳的方式转发到基站,由基站负责存储数据,且基站B通过远距离通信与MC传输数据。
3.如权利要求1所述的基于深度强化学习的时空充电调度方法,其特征在于:所述S2的传感器节点的能耗模型为:
其中fi,j,1≤j≤n,kbps是节点i传输到节点j的数据;在t时刻节点的剩余能量为:传感器节点按照剩余能量分为两种状态,当剩余能量小于0时节点被标记死亡:节点计算出当前剩余能量后,当 时,节点i向基站发送充电请求,需要补充的能量为:
其中λ,0<λ≤1,为充电参数,决定MC是为节点i进行完全或部分充电。
4.如权利要求1所述的基于深度强化学习的时空充电调度方法,其特征在于:所述S2的MC的剩余能量计算公式为:
上式中La,i为上一节点a到当前节点i的距离,Lm,B为MC当前位置到基站B的距离,当MC剩余能量小于下一待充电节点能量需求与自身行驶消耗能量之和时停止为节点补。
5.如权利要求1所述的基于深度强化学习的时空充电调度方法,其特征在于:所述S3中用于规划路径的Q‑learning算法具体步骤为:首先将无线可充电传感网区域转化为二维网格地图,其中基站、传感器节点、MC的位置均已知;将路径规划问题抽象为马尔科夫决策过程,由元组{Sp,Ap,Rp,S′p}定义,Sp是状态空间;Ap为动作空间;Rp为MC执行该动作后的奖励;S′p为执行后的环境状态;将目标位置奖励设置为最大正奖励,将障碍物和其他节点位置设置为最大负奖励,通过Q函数进行学习;求解最优路径就是求得一条到达终点获得最大奖励的策略,最优价值动作函数定义为:* *
Q(s,a)=maxπQ(s,a)*
=∑s′P(s′|s,a)(R(s,a,s′)+γmaxa′Q(s′,a′))根据Q值进行学习,采用时间差分方法进行Q‑table的更新,更新过程如下:Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)‑Q(s,a)]通过Q‑learning算法为MC规划出避开障碍物到达目标节点的路径,并自行避开障碍物移动到节点位置为其进行一对一无线充电。
说明书 :
一种基于深度强化学习的时空充电调度方法
技术领域
背景技术
自动化、农业、建筑物状态监控等领域。传感器节点电池能量限制使网络生存时间有限,而
一些应用场景中希望WSN无期限工作。随着无线充电技术的日趋成熟,无线可充电传感网
(Wireless rechargeable sensor network,WRSN)应运而生,有效改善了网络的生存时间。
较于WSN大大提高了网络的生存时间,因此需要考虑在WRSN中如何有效的调度MC为节点补
充能量。
Wireless Rechargeable Sensor Networks”提出了一种成本均衡的移动能量补充策略。首
先,将节点按照剩余生命周期进行分组,保证在每个时隙中只对剩余能量较低的节点进行
再充电。然后,以移动距离和能量消耗为约束条件,均衡多基站间的能量消耗,得到最优轨
迹分配方案。
Machine‑Learning Based Prediction for Wireless Sensor Networks”提出了一种基于
机器学习的能量消耗预测方法(ML‑ECP),该方法利用机器学习预测无线传感器网络的能量
消耗率。在此基础上,将传感器节点划分为多个簇,得到移动节点的最优轨迹。移动节点在
网络中周期性地采集信息和充电时提高了传感器节点充电和数据采集的能量效率。
只考虑对MC移动路径和节点充电序列的优化,而忽略了对节点充电时间的优化,只考虑了
充电调度的空间维度,没有考虑到时间维度,因此对于充电调度方案还有可改进之处。为了
提高网络生成时间,提高充电效率,本发明结合深度强化学习技术对时间和空间进行协同
优化。
近实际情况的任务则往往有着很大的状态空间和连续的动作空间。实现端到端的控制也是
要求能处理高维数据,如图像、声音等的数据输入。而现有的深度学习,刚好可以应对高维
的输入,将两者结合,使智能体同时拥有深度学习的理解能力和强化学习的决策能力。深度
强化学习可以解决有着高维或连续动作空间的情境。它包含一个策略网络来生成动作,一
个价值网络来评判动作的好坏,在动作输出方面采用一个网络来拟合策略函数,直接输出
动作,可以应对连续动作的输出及大的动作空间。
值时,节点向基站B发送请求,MC根据基于深度强化学习的时空充电算法规划充电序列和每
个节点的充电时间。
发明内容
reinforcement learning,简称SCSDRL)的深度强化学习调度算法,在考虑路径成本最小的
基础上特别考虑了充电时间对充电效果的影响,基于时间和空间两个维度对充电序列进行
协同优化,通过对充电时间的动态调整,避免下一节点因等待时间多长而饥饿死亡,从而提
高整个无线可充电传感网的生存时间。
量;
碍物访问每个节点为其进行一对一无线充电;
和障碍物固定且位置已知;
LI给出了传感器节点i的二维坐标, 为其能量需求;为节点i的平均剩余
生存时间,根据节点i的平均能耗率计算;D(t)=(Si,...,Sn)为t时刻待充电节点的请求集
合;基站B按实际需求部署在合适的位置,网络中部署一个可移动充电装置MC在网络区域内
可自由移动,携带电池容量为CM;速度为VM/S;移动过程中的能耗为QEJ/M;在t时刻MC的剩余
电量为Em(t);
的可移动充电装置(MC)和若干用来收集和传输数据的传感器节点,每个传感器节点装有相
同容量的电池,传感器节点负责收集和传输数据并将数据通过多跳的方式转发到基站,由
基站负责存储数据,且基站B通过远距离通信(如4G/5G通信技术)与MC传输数据以及为MC补
充能量,MC从基站出发,根据节点的充电请求依次遍历传感器节点进行无线充电,并在一轮
充电完成后返回基站为下次调度补充能量。
请求,由MC首先根据充电请求中的节点信息进行充电序列的规划,再由规划的充电序列判
断序列中的每个节点的平均剩余生存时间,通过后一节点的剩余生存时间动态调整前一节
点的充电时间。
量,从当前位置返回基站充电,准备下一次调度。
最优解视为一个决策序列,使用DRL通过增加解码序列的概率来逼近最优解;SCSDRL算法可
由元组{S,A,R,S′}定义,S是状态空间;A为动作空间;R为MC执行该行为后的奖励;S′是执行
动作后的环境状态;
出了传感器节点i的二维坐标, 为其能量需求,为节点i的平均剩余生存时间,根据节点
i的平均能耗率计算;
为:
和MC的剩余能量如下:
输出为可选动作空间的动作概率分布,其二是带有参数θ的Critic网络;可以在当前WRSN
环境下从MC执行动作序列中的动作a中得到一个奖励R;根据当前的统计数据从Critic网络
中得到V值,进而更新Actor和具有R和V的误差准则函数的Critic网络;
problem)问题,此类问题为NP‑hard问题,使用深度强化算法来接近最优解;
充电序列后,判断为节点进行完全充电或部分充电,充电时间划分和电池获得能量计算如
下:
态空间;Ap为动作空间;Rp为MC执行该动作后的奖励;S′p为执行后的环境状态。将目标位置
奖励设置为最大正奖励,将障碍物和其他节点位置设置为最大负奖励,通过Q函数进行学
习;求解最优路径就是求得一条到达终点获得最大奖励的策略,最优价值动作函数定义为:
少MC在移动过程中能量损耗的同时,动态调整节点的充电时间,避免下一节点因等待时间
过长而失效死亡。该方法可以有效的适应节点能耗不平衡的无线可充电传感器网络,提高
整个无线可充电传感网的生存时间,避免因节点死亡带来的不良影响。
附图说明
具体实施方式
本发明。
位置已知;Cs为传感器节点电池最大容量,每个传感器节点装有相同容量的电池;Ei(t)表示
节点i在当前时刻t的剩余电量;Si是包含位置、能量需求和剩余生存时间的元组,表示为
LI给出了传感器节点i的二维坐标, 为其能量需求;为节点i的平均剩余
生存时间,根据节点i的平均能耗率计算;D(t)=(Si,...,Sn)为t时刻待充电节点的请求集
合;基站B按实际需求部署在合适的位置,网络中部署一个可移动充电装置MC在网络区域内
可自由移动,携带电池容量为CM;速度为VM/S;移动过程中的能耗为QEJ/M;在t时刻MC的剩余
电量为Em(t);
距离通信(如4G/5G通信技术)与MC传输数据,MC是具有自主移动能力和计算能力的独立设
备,可自行规划充电序列和在移动过程中避障,由基站为MC补充能量。
learning,简称SCSDRL),该方案的工作过程是:每个传感器节点可根据能耗速率计算自身
剩余能量和平均剩余存活时间;当传感器节点剩余能量低于最小能量阈值时向基站发送充
电请求,由MC首先根据充电请求中的节点信息进行充电序列的规划,再由规划的充电序列
判断序列中的每个节点的平均剩余生存时间,通过后一节点的剩余生存时间动态调整前一
节点的充电时间。
的充电序列后,判断为节点进行完全充电或部分充电。
碍物访问每个节点为其进行一对一无线充电。至此完成一轮充电调度规划;完成一轮充电
后MC前往基站补充为自身补充能量,为下次调度做准备。
量,从当前位置返回基站充电,准备下一次调度。
最优解视为一个决策序列,使用DRL通过增加解码序列的概率来逼近最优解。SCSDRL算法可
由元组{S,A,R,S′}定义,S是状态空间;A为动作空间;R为MC执行该行为后的奖励;S′是执行
动作后的环境状态。
为:
器节点的需求和MC的剩余能量如下:
problem)问题,此类问题为NP‑hard问题,使用深度强化算法来接近最优解。
络,其输出为可选动作空间的动作概率分布,其二是带有参数θ的Critic网络。然后可以在
当前WRSN环境下从MC执行动作序列中的动作a中得到一个奖励R。根据当前的统计数据从
Critic网络中得到V值。最后,进而更新Actor和具有R和V的误差准则函数的Critic网络。
态空间;Ap为动作空间;Rp为MC执行该动作后的奖励;S′p为执行后的环境状态。将目标位置
奖励设置为最大正奖励,将障碍物和其他节点位置设置为最大负奖励,通过Q函数进行学
习。
节点坐标生成初始充电序列,由于节点能耗不均衡致使节点剩余电量不同,此时四个节点
充满能量所需的时间分别为30min,25min,15min,20min。此时若按照完全充电模式无论怎
样规划充电序列,都会有节点因等待时间过久而饥饿死亡,SCSDRL模型同时对充电序列和
充电时长动态调整,首先根据请求集合中的位置信息规划充电序列,生成序列n1→n3→n4→
n2,此时四个节点的等待时间分别为0、65、30、45(分钟),其中节点n2将饥饿死亡,通过
SCSDRL对节点n4的充电时长动态调整,为其补充70%能量,避免节点n2饥饿死亡。
提下做出各种。