空天地一体化网络中时延最小化计算任务卸载方法及系统转让专利

申请号 : CN202110720194.2

文献号 : CN113346944B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王政俞晖朱世超韦安琪

申请人 : 上海交通大学

摘要 :

本发明提供了一种空天地一体化网络中时延最小化计算任务卸载方法及系统,包括:步骤S1:建立支持计算任务卸载的空天地一体化网络的网络架构;步骤S2:基于空天地一体化网络的网络架构构建空天地一体化网络模型;步骤S3:基于构建的空天地一体化网络模型建立面向时延最小的优化问题;步骤S4:将优化问题建模为马尔科夫决策过程;步骤S5:采用CL‑MADDPG算法求解马尔科夫决策过程,输出卸载策略。本发明可以充分利用空天地一体化网络中的计算资源,输出计算任务最优卸载策略,减少计算任务的处理时延。

权利要求 :

1.一种空天地一体化网络中时延最小化计算任务卸载方法,其特征在于,包括:步骤S1:建立支持计算任务卸载的空天地一体化网络的网络架构;

步骤S2:基于空天地一体化网络的网络架构构建空天地一体化网络模型;

步骤S3:基于构建的空天地一体化网络模型建立面向时延最小的优化问题;

步骤S4:将优化问题建模为马尔科夫决策过程;

步骤S5:采用CL‑MADDPG算法求解马尔科夫决策过程,输出卸载策略;

所述空天地一体化网络的网络架构包括多个动态产生任务节点的地面节点以及为地面节点提供计算服务无人机和卫星;

所述空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型;

所述步骤S2中空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型;

所述空天地一体化网络系统模型包括:在空天地一体化网络中,有N个地面节点,表示为集合 一架无人机U;一颗卫星S;空天地一体化网络系统是分时隙的,时隙总个数为T,时隙集合为 一个时隙的长度为τ;

所述通信模型包括:在时隙t时,地面节点n和无人机之间的通信速率为 在时隙t时,地面节点和卫星之间的通信速率为所述任务模型包括:在时隙t时,节点n产生的任务表示为 其中, 表示任务输入数据大小; 表示任务计算的复杂度;

所述执行模型包括:对于任务 节点n对任务 执行进行决策;决策后,本地执行的子任务为 无人机执行的子任务为 卫星执行的子任务为 其中, 分别为任务 在本地、无人机和卫星执行的比例; 且 中至少一个为0; 表示在

时隙t时,节点n和无人机的连通关系, 为1表示时隙t时,节点n在无人机的通信范围内,为0表示不在通信范围内, 的值由节点n和无人机之间的距离 和无人机的通信半径的大小关系得出;

约束条件包括:

当任务在本地执行时,本地的任务采取串行处理的策略,子任务 在本地处理时延为当任务卸载到无人机执行时,无人机上执行子任务 的处理时延为当任务卸载到卫星执行时,卫星上执行子任务 处理时延为所述步骤S3包括:

根据任务 的各子任务的处理时延,基于子任务之间并行处理关系,将任务 的处理时延表示为:在时隙t产生的任务的总处理时延表示为:

其中, 表示在时隙t时产生任务的节点集合;

由于节点任务产生的动态性,最小化在时隙集合 的时间范围内产生的所有任务的处理时延,表示如下:其中,γ表示所有任务的决策的集合;T表示时隙总个数;

所述步骤S4中马尔科夫决策过程包括:用三元组表示马尔科夫决策过程;其中,S表示状态空间;A表示动作空间;R表示奖励函数;

所述状态空间S包括:在时隙t时地面节点n的状态表示:其中, 表示节点n完成本地缓存中的正在排队任务所需要的时间; 表示节点n附近的节点完成各自缓存中的排队任务需要的平均时间; 表示节点n和无人机的连通性;

表示节点n与无人机间的路径损耗; 表示无人机当前剩余的计算资源; 表示无人机完成缓存中的排队任务所需要的时间;

所述动作空间A包括:在时隙t时地面节点n的动作表示如下:其中, 表示节点决策将部分任务卸载到无人机, 表示节点决策将部分任务卸载到卫星; 表示任务卸载执行的比例; 表示在将部分任务卸载到无人机的情况下,预约的计算资源占无人机总的计算资源的比例;

所述奖励函数R包括:在时隙t时地面节点n的奖励表示如下:其中, 表示在时隙t时产生任务的节点的集合; 表示集合 中元素的个数, 等于在时隙t时所产生的任务的平均处理时延的负值;

所述步骤S5包括:

步骤S5.1:N0个智能体分别对应N0个地面节点,每个智能体包括Actor神经网络、Critic神经网络、Target Actor神经网络以及Target Critic神经网络;

步骤S5.2:使用MADDPG算法对N0个智能体进行训练直至收敛,得到训练后的智能体;

步骤S5.3:训练后的智能体通过复制父代网络参数和组合父代网络参数生成下一代智能体,重复执行步骤S5.2至步骤S5.3,直至智能体数量达到预设值,并使用MADDPG算法对达到预设数量的智能体进行训练直至收敛,输出每个智能体的卸载策略;

所述Actor神经网络根据当前的状态输出动作;

所述Critic神经网络根据当前的状态和采取的动作生成动作价值,表示对动作好坏的评价;

所述Target Actor神经网络根据下一时刻状态估计下一时刻动作,用于估计下一时刻动作;

所述Target Critic神经网络用于根据下一时刻状态和下一时刻动作计算下一时刻的动作价值;

所述步骤S5.2包括:

第n个智能体的Actor网络表示为μn(sn|θn),其中,sn表示智能体观察到的状态;θn表示Actor网络参数;Critic网络表示为Qn(sn,an|ωn),其中,an表示智能体观察到状态sn后执行的动作;ωn表示Critic网络参数;Target Actor网络表示为μ′n(sn|θ′n),其中,θ′n表示Target Actor网络的参数;Target Critic网络表示为Q′n(sn,an|ω′n),其中ω′n表示Target Critic网络的参数;

第n个智能体的累计期望奖励为:

μ

其中,p表示状态分布;γ∈[0,1]表示奖励的折扣因子;T表示时隙总个数;E表示期望;

t

sn表示智能体观察到的状态;γ表示γ的t次方; 表示在时隙t时地面节点n的奖励;

J(θn)关于θn的梯度表示为:

其中,经验回放缓冲区D包含元组(sn,an,rn,s′n),是对智能体过去转移轨迹的采样,s′n是智能体在状态sn采取动作an后转移到的新状态, 表示μn(sn|θn)关于θn的梯度, 表示Qn(sn,an|ωn)关于an的梯度;

根据J(θn)关于θn的梯度 使用梯度上升法更新Actor网络参数θn,使得输出的动作输入到Critic后,能够获得最大的Q值,Q值表示在状态sn下,采取动作an后,智能体能够获得的累计奖励的期望值;

对于Critic网络,使用梯度下降法最小化损失函数,更新Critic网络参数ωn,使得对于Q值的估计更为准确:其中,Ln表示第n个智能体的损失函数,yn表示目标Q值,由Target Actor网络和Target Critic网络估计得出,表达式为:每过预设时间目标网络按如下规则进行更新:

θ′n←εθn+(1‑ε)θ′n,ω′n←εωn+(1‑ε)ω′n其中,ε∈[0,1]是目标网络的学习速率;

所述步骤S5.3包括:

步骤S5.3.1:训练后的智能体中Actor网络的参数集合为 将智能体的数量增加到min{2N0,N};

步骤S5.3.2:将增加后的智能体中Actor网络参数集合表示为并对增加后的智能体中Actor网络进行初始化;

初始化的方式如下所述:当 当N0+1≤n≤min{2N0,N},随机选取父代 和 对于 中的每一个参数,随机从两个父代中的一个选取;

步骤S5.3.3:对增加后的智能体Critic网络、Target Actor网络以及Target Critic网络分别进行初始化。

2.根据权利要求1所述的空天地一体化网络中时延最小化计算任务卸载方法,其特征在于,所述步骤S1包括:在空天地一体化网络中,在目标区域的不同位置的地面上部署多个地面节点;目标区域上空部署一架无人机,无人机的通信范围覆盖以自身为中心的预设区域;太空部署一颗卫星,卫星的通信范围覆盖整片目标区域;

无人机和卫星为地面节点提供计算服务,地面节点动态产生需要计算的任务,在空天地一体化网络中,节点是任务的产生者,也是执行任务分配的决策者。

3.一种空天地一体化网络中时延最小化计算任务卸载系统,其特征在于,包括:模块M1:建立支持计算任务卸载的空天地一体化网络的网络架构;

模块M2:基于空天地一体化网络的网络架构构建空天地一体化网络模型;

模块M3:基于构建的空天地一体化网络模型建立面向时延最小的优化问题;

模块M4:将优化问题建模为马尔科夫决策过程;

模块M5:采用CL‑MADDPG算法求解马尔科夫决策过程,输出卸载策略;

所述空天地一体化网络的网络架构包括多个动态产生任务节点的地面节点以及为地面节点提供计算服务无人机和卫星;

所述空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型;

所述模块M1包括:

在空天地一体化网络中,在目标区域的不同位置的地面上部署多个地面节点;目标区域上空部署一架无人机,无人机的通信范围覆盖以自身为中心的预设区域;太空部署一颗卫星,卫星的通信范围覆盖整片目标区域;

无人机和卫星为地面节点提供计算服务,地面节点动态产生需要计算的任务,在空天地一体化网络中,节点是任务的产生者,也是执行任务分配的决策者;

所述模块M2中空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型;

所述空天地一体化网络系统模型包括:在空天地一体化网络中,有N个地面节点,表示为集合 一架无人机U;一颗卫星S;空天地一体化网络系统是分时隙的,时隙总个数为T,时隙集合为 一个时隙的长度为τ;

所述通信模型包括:在时隙t时,地面节点n和无人机之间的通信速率为 在时隙t时,地面节点和卫星之间的通信速率为所述任务模型包括:在时隙t时,节点n产生的任务表示为 其中,表示任务输入数据大小; 表示任务计算的复杂度;

所述执行模型包括:对于任务 节点n对任务 执行进行决策;决策后,本地执行的子任务为 无人机执行的子任务为 卫星执行的子任务为 其中, 分别为任务 在本地、无人机和卫星执行的比例; 且 中至少一个为0; 表示在

时隙t时,节点n和无人机的连通关系, 为1表示时隙t时,节点n在无人机的通信范围内,为0表示不在通信范围内, 的值由节点n和无人机之间的距离 和无人机的通信半径的大小关系得出;

约束条件包括:

当任务在本地执行时,本地的任务采取串行处理的策略,子任务 在本地处理时延为当任务卸载到无人机执行时,无人机上执行子任务 的处理时延为当任务卸载到卫星执行时,卫星上执行子任务 处理时延为所述模块M3包括:

根据任务 的各子任务的处理时延,基于子任务之间并行处理关系,将任务 的处理时延表示为:在时隙t产生的任务的总处理时延表示为:

其中, 表示在时隙t时产生任务的节点集合;

由于节点任务产生的动态性,最小化在时隙集合 的时间范围内产生的所有任务的处理时延,表示如下:其中,γ表示所有任务的决策的集合;T表示时隙总个数;

所述模块M4中马尔科夫决策过程包括:用三元组表示马尔科夫决策过程;其中,S表示状态空间;A表示动作空间;R表示奖励函数;

所述状态空间S包括:在时隙t时地面节点n的状态表示:其中, 表示节点n完成本地缓存中的正在排队任务所需要的时间; 表示节点n附近的节点完成各自缓存中的排队任务需要的平均时间; 表示节点n和无人机的连通性;

表示节点n与无人机间的路径损耗; 表示无人机当前剩余的计算资源; 表示无人机完成缓存中的排队任务所需要的时间;

所述动作空间A包括:在时隙t时地面节点n的动作表示如下:其中, 表示节点决策将部分任务卸载到无人机, 表示节点决策将部分任务卸载到卫星; 表示任务卸载执行的比例; 表示在将部分任务卸载到无人机的情况下,预约的计算资源占无人机总的计算资源的比例;

所述奖励函数R包括:在时隙t时地面节点n的奖励表示如下:其中, 表示在时隙t时产生任务的节点的集合; 表示集合 中元素的个数, 等于在时隙t时所产生的任务的平均处理时延的负值;

所述模块M5包括:

模块M5.1:N0个智能体分别对应N0个地面节点,每个智能体包括Actor神经网络、Critic神经网络、Target Actor神经网络以及Target Critic神经网络;

模块M5.2:使用MADDPG算法对N0个智能体进行训练直至收敛,得到训练后的智能体;

模块M5.3:训练后的智能体通过复制父代网络参数和组合父代网络参数生成下一代智能体,重复执行模块M5.2至模块M5.3,直至智能体数量达到预设值,并使用MADDPG算法对达到预设数量的智能体进行训练直至收敛,输出每个智能体的卸载策略;

所述Actor神经网络根据当前的状态输出动作;

所述Critic神经网络根据当前的状态和采取的动作生成动作价值,表示对动作好坏的评价;

所述Target Actor神经网络根据下一时刻状态估计下一时刻动作,用于估计下一时刻动作;

所述Target Critic神经网络用于根据下一时刻状态和下一时刻动作计算下一时刻的动作价值;

所述模块5.2包括:

第n个智能体的Actor网络表示为μn(sn|θn),其中,sn表示智能体观察到的状态;θn表示Actor网络参数;Critic网络表示为Qn(sn,an|ωn),其中,an表示智能体观察到状态sn后执行的动作;ωn表示Critic网络参数;Target Actor网络表示为μ′n(sn|θ′n),其中,θ′n表示Target Actor网络的参数;Target Critic网络表示为Q′n(sn,an|ω′n),其中ω′n表示Target Critic网络的参数;

第n个智能体的累计期望奖励为:

μ

其中,p表示状态分布;γ∈[0,1]表示奖励的折扣因子;T表示时隙总个数;E表示期望;

t

sn表示智能体观察到的状态;γ表示γ的t次方; 表示在时隙t时地面节点n的奖励;

J(θn)关于θn的梯度表示为:

其中,经验回放缓冲区D包含元组(sn,an,rn,s′n),是对智能体过去转移轨迹的采样,s′n是智能体在状态sn采取动作an后转移到的新状态, 表示μn(sn|θn)关于θn的梯度, 表示Qn(sn,an|ωn)关于an的梯度;

根据J(θn)关于θn的梯度 使用梯度上升法更新Actor网络参数θn,使得输出的动作输入到Critic后,能够获得最大的Q值,Q值表示在状态sn下,采取动作an后,智能体能够获得的累计奖励的期望值;

对于Critic网络,使用梯度下降法最小化损失函数,更新Critic网络参数ωn,使得对于Q值的估计更为准确:其中,Ln表示第n个智能体的损失函数,yn表示目标Q值,由Target Actor网络和Target Critic网络估计得出,表达式为:每过预设时间目标网络按如下规则进行更新:

θ′n←εθn+(1‑ε)θ′n,ω′n←εωn+(1‑ε)ω′n其中,ε∈[0,1]是目标网络的学习速率;

所述模块5.3包括:

模块5.3.1:训练后的智能体中Actor网络的参数集合为 将智能体的数量增加到min{2N0,N};

模块5.3.2:将增加后的智能体中Actor网络参数集合表示为 并对增加后的智能体中Actor网络进行初始化;

初始化的方式如下所述:当1≤n≤N0, 当N0+1≤n≤min{2N0,N},随机选取父代和 对于 中的每一个参数,随机从两个父代中的一个选取;

步骤S5.3.3:对增加后的智能体Critic网络、Target Actor网络以及Target Critic网络分别进行初始化。

说明书 :

空天地一体化网络中时延最小化计算任务卸载方法及系统

技术领域

[0001] 本发明涉及物联网、无线通信、人工智能领域,具体地,涉及空天地一体化网络中时延最小化计算任务卸载方法及系统。

背景技术

[0002] 物联网的快速发展推动着物联网设备的激增,他们在智能电网、智能交通、工业自动化等领域有着广泛的应用。物联网设备如高清摄像头、传感器等,从周围环境中收集数据,产生计算任务并进行处理。但是,受限于有限的计算能力和电池能量,对计算密集型任务的及时处理,对于物联网设备而言是个很大的挑战。
[0003] 为了解决这一问题,研究者对移动边缘计算(MEC)技术展开了广泛的研究。MEC将计算资源部署在网络边缘,能够协助物联网设备进行计算。并且物联网设备与MEC平台间的距离较短,传输时延较小。然而,随着物联网设备数量的增加,MEC平台的计算资源将会耗尽而发生拥塞。而且,在山区、草原等缺乏地面接入网络覆盖的地区,MEC平台可能会不可用。
[0004] 空天地一体化网络(SAGIN)架构被认为是消除上述限制的有效方法。通过在空基网路、天基网络放置MEC资源,结合地基网络,SAGIN可以为物联网设备提供多层次、全覆盖、灵活、异构的MEC服务。相比于建设地面基站,构建空基和天基网络能够以较低的成本覆盖更广阔的区域,同时能够支持不同类型的设备。所以,SAGIN被提出作为下一代无线网络的可能架构,为产生具有处理时延要求的计算任务的物联网设备提供MEC服务。
[0005] 现在已经有了一些在SAGIN中引入MEC的初步研究。为了弥补地面网络覆盖范围限制,文献Space/Aerial‑Assisted Computing Offloading for IoT Applications:A Learning‑Based Approach研究了在SAGIN中的资源分配和卸载决策,其中无人机提供靠近设备的边缘计算,低地球轨道卫星提供对云计算的访问,并提出一种基于深度Actor‑Critic的方法来学习最优卸载策略。然而,本场景中的所有任务是预先生成的,而且所述方法以集中式的方式进行决策,需要及时的全局信息以及高性能的控制器。在文献Delay‑Aware IoT Task Scheduling in Space‑Air‑Ground Integrated Network中,区域内物联网设备产生计算任务,使用一架沿着固定轨迹飞行的无人机对任务进行收集,并在线做出卸载决策,即本地处理,或卸载到附近的基站或卸载到低地球轨道卫星执行。该动态调度问题被建模为约束马尔可夫决策过程,采用线性规划来解决。但是,在文章中假设任务产生模式是无人机已知的。在实际的场景中,这些先验信息很难获得。文献Deep Reinforcement Learning for Delay‑Oriented IoT Task Scheduling in SAGIN在文献Delay‑Aware IoT Task Scheduling in Space‑Air‑Ground Integrated Network基础上考虑了无人机有限的能量和任务到达的动态性。为了在不超过能量约束的前提下最小化所有任务的处理时延,提出了一种风险敏感的深度强化学习算法。同文献Delay‑Aware IoT Task Scheduling in Space‑Air‑Ground Integrated Network一样,文献Deep Reinforcement Learning for Delay‑Oriented IoT Task Scheduling in SAGIN的卸载架构是无人机收集物联网设备产生的计算任务。刚被无人机经过的物联网设备产生的计算任务,需要经过长时间等待才会被无人机收集和调度,无效的等待时间会使得任务的总处理时延增大,系统性能降低。
[0006] 专利文献CN112737842A(申请号:202011592511.9)公开了一种空地一体化车联网中基于最小化时延的任务安全卸载方法,首先构建了支持移动边缘计算的空地一体化车联网模型,其次对车辆到无人机边缘服务器的安全传输方式、本地车辆和无人机边缘服务器的计算方式进行分析与建模,将空地一体化车联网任务卸载问题形式化为一个与边缘服务器选择、传输速率、资源分配、任务卸载相关,以最小化时延为目标的多目标优化问题,并结合条件松弛‑数值修约规则和拉格朗日对偶分解的方法进行求解,该方法可有效降低任务处理时延,提高任务成功处理比例。然而,此方法以集中式的方式得出卸载策略,不适用分布式的决策;此外,此方法只能适用于对预先产生的计算任务的规划,而不能在任务动态产生的场景下进行决策。

发明内容

[0007] 针对现有技术中的缺陷,本发明的目的是提供一种空天地一体化网络中时延最小化计算任务卸载方法及系统。
[0008] 根据本发明提供的一种空天地一体化网络中时延最小化计算任务卸载方法,包括:
[0009] 步骤S1:建立支持计算任务卸载的空天地一体化网络的网络架构;
[0010] 步骤S2:基于空天地一体化网络的网络架构构建空天地一体化网络模型;
[0011] 步骤S3:基于构建的空天地一体化网络模型建立面向时延最小的优化问题;
[0012] 步骤S4:将优化问题建模为马尔科夫决策过程;
[0013] 步骤S5:采用CL‑MADDPG算法求解马尔科夫决策过程,输出卸载策略;
[0014] 所述空天地一体化网络的网络架构包括多个动态产生任务节点的地面节点以及为地面节点提供计算服务无人机和卫星;
[0015] 所述空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型。
[0016] 优选地,所述步骤S1包括:
[0017] 在空天地一体化网络中,在目标区域的不同位置的地面上部署多个地面节点;目标区域上空部署一架无人机,无人机的通信范围覆盖以自身为中心的预设区域;太空部署一颗卫星,卫星的通信范围覆盖整片目标区域;
[0018] 无人机和卫星为地面节点提供计算服务,地面节点动态产生需要计算的任务,在空天地一体化网络中,节点是任务的产生者,也是执行任务分配的决策者。
[0019] 优选地,所述步骤S2中空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型;
[0020] 所述空天地一体化网络系统模型包括:在空天地一体化网络中,有N个地面节点,表示为集合 一架无人机U;一颗卫星S;空天地一体化网络系统是分时隙的,时隙总个数为T,时隙集合为 一个时隙的长度为τ;
[0021] 所述通信模型包括:在时隙t时,地面节点n和无人机之间的通信速率为 在时隙t时,地面节点和卫星之间的通信速率为
[0022] 所述任务模型包括:在时隙t时,节点n产生的任务表示为 其中, 表示任务输入数据大小; 表示任务计算的复杂度;
[0023] 所述执行模型包括:对于任务 节点n对任务 执行进行决策;决策后,本地执行的子任务为 无人机执行的子任务为 卫星执行的子任务为 其中, 分别为任务 在本地、无人机和卫星
执行的比例; 且 中至少一个为0; 表示
在时隙t时,节点n和无人机的连通关系, 为1表示时隙t时,节点n在无人机
的通信范围内,为0表示不在通信范围内, 的值由节点n和无人机之间的距离 和无人机的通信半径的大小关系得出;
[0024] 约束条件包括:
[0025]
[0026] 当任务在本地执行时,本地的任务采取串行处理的策略,子任务 在本地处理时延为
[0027] 当任务卸载到无人机执行时,无人机上执行子任务 的处理时延为
[0028] 当任务卸载到卫星执行时,卫星上执行子任务 处理时延为
[0029] 优选地,所述步骤S3包括:
[0030] 根据任务 的各子任务的处理时延,基于子任务之间并行处理关系,将任务 的处理时延表示为:
[0031]
[0032] 在时隙t产生的任务的总处理时延表示为:
[0033]
[0034] 其中, 表示在时隙t时产生任务的节点集合;
[0035] 由于节点任务产生的动态性,最小化在时隙集合 的时间范围内产生的所有任务的处理时延,表示如下:
[0036] P1:
[0037]
[0038]
[0039]
[0040]
[0041] 其中,γ表示所有任务的决策的集合;T表示时隙总个数。
[0042] 优选地,所述步骤S4中马尔科夫决策过程包括:用三元组表示马尔科夫决策过程;其中,S表示状态空间;A表示动作空间;R表示奖励函数;
[0043] 所述状态空间S包括:在时隙t时地面节点n的状态表示:
[0044]
[0045] 其中, 表示节点n完成本地缓存中的正在排队任务所需要的时间; 表示节点n附近的节点完成各自缓存中的排队任务需要的平均时间; 表示节点n和无人机的连通性; 表示节点n与无人机间的路径损耗; 表示无人机当前剩余的计算资源; 表示无人机完成缓存中的排队任务所需要的时间;
[0046] 所述动作空间A包括:在时隙t时地面节点n的动作表示如下:
[0047]
[0048] 其中, 表示节点决策将部分任务卸载到无人机, 表示节点决策将部分任务卸载到卫星; 表示任务卸载执行的比例; 表示
在将部分任务卸载到无人机的情况下,预约的计算资源占无人机总的计算资源的比例;
[0049] 所述奖励函数R包括:在时隙t时地面节点n的奖励表示如下:
[0050]
[0051] 其中, 表示在时隙t时产生任务的节点的集合; 表示集合 中元素的个数, 等于在时隙t时所产生的任务的平均处理时延的负值。
[0052] 优选地,所述步骤S5包括:
[0053] 步骤S5.1:N0个智能体分别对应N0个地面节点,每个智能体包括Actor神经网络、Critic神经网络、Target Actor神经网络以及Target Critic神经网络;
[0054] 步骤S5.2:使用MADDPG算法对N0个智能体进行训练直至收敛,得到训练后的智能体;
[0055] 步骤S5.3:训练后的智能体通过复制父代网络参数和组合父代网络参数生成下一代智能体,重复执行步骤S5.2至步骤S5.3,直至智能体数量达到预设值,并使用MADDPG算法对达到预设数量的智能体进行训练直至收敛,输出每个智能体的卸载策略;
[0056] 所述Actor神经网络根据当前的状态输出动作;
[0057] 所述Critic神经网络根据当前的状态和采取的动作生成动作价值,表示对动作好坏的评价;
[0058] 所述Target Actor神经网络根据下一时刻状态估计下一时刻动作,用于估计下一时刻动作;
[0059] 所述Target Critic神经网络用于根据下一时刻状态和下一时刻动作计算下一时刻的动作价值。
[0060] 优选地,所述步骤S5.2包括:
[0061] 第n个智能体的Actor网络表示为μn(sn|θn),其中,sn表示智能体观察到的状态;θn表示Actor网络参数;Critic网络表示为Qn(sn,an|ωn),其中,an表示智能体观察到状态sn后执行的动作;ωn表示Critic网络参数;Target Actor网络表示为μ′n(sn|θ′n),其中,θ′n表示Target Actor网络的参数;Target Critic网络表示为Q′n(sn,an|ω′n),其中ω′n表示Target Critic网络的参数;
[0062] 第n个智能体的累计期望奖励为:
[0063]
[0064] 其中,pμ表示状态分布;γ∈[0,1]表示奖励的折扣因子;T表示时隙总个数;E表示t期望;sn表示智能体观察到的状态;γ表示γ的t次方; 表示在时隙t时地面节点n的奖励;
[0065] J(θn)关于θn的梯度表示为:
[0066]
[0067] 其中,经验回放缓冲区D包含元组(sn,an,rn,s′n),是对智能体过去转移轨迹的采样,s′n是智能体在状态sn采取动作an后转移到的新状态, 表示μn(sn|θn)关于θn的梯度, 表示Qn(sn,an|ωn)关于an的梯度;
[0068] 根据J(θn)关于θn的梯度 使用梯度上升法更新Actor网络参数θn,使得输出的动作输入到Critic后,能够获得最大的Q值,Q值表示在状态sn下,采取动作an后,智能体能够获得的累计奖励的期望值;
[0069] 对于Critic网络,使用梯度下降法最小化损失函数,更新Critic网络参数ωn,使得对于Q值的估计更为准确:
[0070]
[0071] 其中,Ln表示第n个智能体的损失函数,yn表示目标Q值,由Target Actor网络和Target Critic网络估计得出,表达式为:
[0072]
[0073] 每过预设时间目标网络按如下规则进行更新:
[0074] θ′n←εθn+(1‑ε)θ′n,ω′n←εωn+(1‑ε)ω′n
[0075] 其中,ε∈[0,1]是目标网络的学习速率。
[0076] 优选地,所述步骤S5.3包括:
[0077] 步骤S5.3.1:训练后的智能体中Actor网络的参数集合为 将智能体的数量增加到min{2N0,N};
[0078] 步骤S5.3.2:将增加后的智能体中Actor网络参数集合表示为并对增加后的智能体中Actor网络进行初始化;
[0079] 初始化的方式如下所述:当1≤n≤N0, 当N0+1≤n≤min{2N0,N},随机选取父代 和 对于 中的每一个参数,随机从两个父代中的一个选取;
[0080] 步骤S5.3.3:对增加后的智能体Critic网络、Target Actor网络以及Target Critic网络分别进行初始化。
[0081] 根据本发明提供的一种空天地一体化网络中时延最小化计算任务卸载系统,包括:
[0082] 模块M1:建立支持计算任务卸载的空天地一体化网络的网络架构;
[0083] 模块M2:基于空天地一体化网络的网络架构构建空天地一体化网络模型;
[0084] 模块M3:基于构建的空天地一体化网络模型建立面向时延最小的优化问题;
[0085] 模块M4:将优化问题建模为马尔科夫决策过程;
[0086] 模块M5:采用CL‑MADDPG算法求解马尔科夫决策过程,输出卸载策略;
[0087] 所述空天地一体化网络的网络架构包括多个动态产生任务节点的地面节点以及为地面节点提供计算服务无人机和卫星;
[0088] 所述空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型。
[0089] 优选地,所述模块M1包括:
[0090] 在空天地一体化网络中,在目标区域的不同位置的地面上部署多个地面节点;目标区域上空部署一架无人机,无人机的通信范围覆盖以自身为中心的预设区域;太空部署一颗卫星,卫星的通信范围覆盖整片目标区域;
[0091] 无人机和卫星为地面节点提供计算服务,地面节点动态产生需要计算的任务,在空天地一体化网络中,节点是任务的产生者,也是执行任务分配的决策者;
[0092] 所述模块M2中空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型;
[0093] 所述空天地一体化网络系统模型包括:在空天地一体化网络中,有N个地面节点,表示为集合 一架无人机U;一颗卫星S;空天地一体化网络系统是分时隙的,时隙总个数为T,时隙集合为 一个时隙的长度为τ;
[0094] 所述通信模型包括:在时隙t时,地面节点n和无人机之间的通信速率为 在时隙t时,地面节点和卫星之间的通信速率为
[0095] 所述任务模型包括:在时隙t时,节点n产生的任务表示为 其中, 表示任务输入数据大小; 表示任务计算的复杂度;
[0096] 所述执行模型包括:对于任务 节点n对任务 执行进行决策;决策后,本地执行的子任务为 无人机执行的子任务为 卫星执行的子任务为 其中, 分别为任务 在本地、无人机和卫
星执行的比例; 且 中至少一个为0; 表
示在时隙t时,节点n和无人机的连通关系, 为1表示时隙t时,节点n在无人
机的通信范围内,为0表示不在通信范围内, 的值由节点n和无人机之间的距离 和无人机的通信半径的大小关系得出;
[0097] 约束条件包括:
[0098]
[0099] 当任务在本地执行时,本地的任务采取串行处理的策略,子任务 在本地处理时延为
[0100] 当任务卸载到无人机执行时,无人机上执行子任务 的处理时延为
[0101] 当任务卸载到卫星执行时,卫星上执行子任务 处理时延为
[0102] 所述模块M3包括:
[0103] 根据任务 的各子任务的处理时延,基于子任务之间并行处理关系,将任务 的处理时延表示为:
[0104]
[0105] 在时隙t产生的任务的总处理时延表示为:
[0106]
[0107] 其中, 表示在时隙t时产生任务的节点集合;
[0108] 由于节点任务产生的动态性,最小化在时隙集合 的时间范围内产生的所有任务的处理时延,表示如下:
[0109] P1:
[0110]
[0111]
[0112]
[0113]
[0114] 其中,γ表示所有任务的决策的集合;T表示时隙总个数;
[0115] 所述模块M4中马尔科夫决策过程包括:用三元组表示马尔科夫决策过程;其中,S表示状态空间;A表示动作空间;R表示奖励函数;
[0116] 所述状态空间S包括:在时隙t时地面节点n的状态表示:
[0117]
[0118] 其中, 表示节点n完成本地缓存中的正在排队任务所需要的时间; 表示节点n附近的节点完成各自缓存中的排队任务需要的平均时间; 表示节点n和无人机的连通性; 表示节点n与无人机间的路径损耗; 表示无人机当前剩余的计算资源; 表示无人机完成缓存中的排队任务所需要的时间;
[0119] 所述动作空间A包括:在时隙t时地面节点n的动作表示如下:
[0120]
[0121] 其中, 表示节点决策将部分任务卸载到无人机, 表示节点决策将部分任务卸载到卫星; 表示任务卸载执行的比例; 表示在
将部分任务卸载到无人机的情况下,预约的计算资源占无人机总的计算资源的比例;
[0122] 所述奖励函数R包括:在时隙t时地面节点n的奖励表示如下:
[0123]
[0124] 其中, 表示在时隙t时产生任务的节点的集合; 表示集合 中元素的个数, 等于在时隙t时所产生的任务的平均处理时延的负值;
[0125] 所述模块M5包括:
[0126] 模块M5.1:N0个智能体分别对应N0个地面节点,每个智能体包括Actor神经网络、Critic神经网络、Target Actor神经网络以及Target Critic神经网络;
[0127] 模块M5.2:使用MADDPG算法对N0个智能体进行训练直至收敛,得到训练后的智能体;
[0128] 模块M5.3:训练后的智能体通过复制父代网络参数和组合父代网络参数生成下一代智能体,重复执行模块M5.2至模块M5.3,直至智能体数量达到预设值,并使用MADDPG算法对达到预设数量的智能体进行训练直至收敛,输出每个智能体的卸载策略;
[0129] 所述Actor神经网络根据当前的状态输出动作;
[0130] 所述Critic神经网络根据当前的状态和采取的动作生成动作价值,表示对动作好坏的评价;
[0131] 所述Target Actor神经网络根据下一时刻状态估计下一时刻动作,用于估计下一时刻动作;
[0132] 所述Target Critic神经网络用于根据下一时刻状态和下一时刻动作计算下一时刻的动作价值。
[0133] 与现有技术相比,本发明具有如下的有益效果:
[0134] 1、本发明基于分布式的方式进行计算任务的卸载决策,相比集中式决策,不需要实时的全局信息,只需要节点的局部观察,在实际应用中,更具有可操作性;相比无人机统一收集节点产生的任务进行决策,消除了等待无人机收集任务的时间,任务可以更加及时的得到调度;
[0135] 2、本发明提出CL‑MADDPG算法得出卸载策略,对于节点数量很多的情况,相比于MADDPG算法,算法能够快速收敛,大大缩短了训练所花费的时间;相比于MADDPG算法及其他卸载策略,任务的平均处理时延更小,性能优越。

附图说明

[0136] 通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0137] 图1为空天地一体化网络架构示意图;
[0138] 图2为空天地一体化网络中时延最小化计算任务卸载方法流程图;
[0139] 图3为CL‑MADDPG算法的流程图。

具体实施方式

[0140] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
[0141] 实施例1
[0142] 根据本发明提供的一种空天地一体化网络中时延最小化计算任务卸载方法,如图1至3所示,包括:
[0143] 步骤S1:建立支持计算任务卸载的空天地一体化网络的网络架构;
[0144] 步骤S2:基于空天地一体化网络的网络架构构建空天地一体化网络模型;
[0145] 步骤S3:基于构建的空天地一体化网络模型建立面向时延最小的优化问题;
[0146] 步骤S4:将优化问题建模为马尔科夫决策过程;
[0147] 步骤S5:采用CL‑MADDPG算法求解马尔科夫决策过程,输出卸载策略;
[0148] 所述空天地一体化网络的网络架构包括多个动态产生任务节点的地面节点以及为地面节点提供计算服务无人机和卫星;
[0149] 所述空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型。
[0150] 具体地,所述步骤S1包括:
[0151] 在空天地一体化网络中,在目标区域的不同位置的地面上部署多个地面节点;目标区域上空部署一架无人机,无人机的通信范围覆盖以自身为中心的预设区域;太空部署一颗卫星,卫星的通信范围覆盖整片目标区域;
[0152] 无人机和卫星为地面节点提供计算服务,地面节点动态产生需要计算的任务,本发明可以充分利用空天地一体化网络中的计算资源,输出计算任务最优卸载策略,减少计算任务的处理时延。在空天地一体化网络中,节点是任务的产生者,也是执行任务分配的决策者。
[0153] 具体地,所述步骤S2中空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型;
[0154] 所述空天地一体化网络系统模型包括:在空天地一体化网络中,有N个地面节点,表示为集合 一架无人机U;一颗卫星S;空天地一体化网络系统是分时隙的,时隙总个数为T,时隙集合为 一个时隙的长度为τ;
[0155] 所述通信模型包括:在时隙t时,地面节点n和无人机之间的通信速率为 在时隙t时,地面节点和卫星之间的通信速率为
[0156] 所述任务模型包括:在时隙t时,节点n产生的任务表示为 其中, 表示任务输入数据大小,单位是byte; 表示任务计算的复杂度,即每byte所需的CPU的周期数。在本建模过程中忽略任务的输出数据;
[0157] 所述执行模型包括:对于任务 节点n对任务 执行进行决策;决策后,本地执行的子任务为 无人机执行的子任务为 卫星执行的子任务为 其中, 分别为任务 在本地、无人机和卫星
执行的比例; 且 中至少一个为0; 表示
在时隙t时,节点n和无人机的连通关系, 为1表示时隙t时,节点n在无人机
的通信范围内,为0表示不在通信范围内, 的值由节点n和无人机之间的距离 和无人机的通信半径的大小关系得出;
[0158] 约束条件包括:
[0159]
[0160] 当任务在本地执行时,节点的计算资源有限,因此对本地的任务采取串行处理的策略,子任务 在本地处理时延为
[0161] 当任务卸载到无人机执行时,无人机上执行子任务 的处理时延为
[0162] 当任务卸载到卫星执行时,卫星上执行子任务 处理时延为
[0163] 具体地,所述步骤S3包括:
[0164] 根据任务 的各子任务的处理时延,基于子任务之间并行处理关系,将任务 的处理时延表示为:
[0165]
[0166] 将在时隙t时产生任务的节点记为集合 则在时隙t产生的任务的总处理时延表示为:
[0167]
[0168] 其中, 表示在时隙t时产生任务的节点集合;
[0169] 由于节点任务产生的动态性,我们的目标是最小化在时隙集合 的时间范围内产生的所有任务的处理时延,表示如下:
[0170] P1:
[0171]
[0172]
[0173]
[0174]
[0175] 其中,γ表示所有任务的决策的集合;T表示时隙总个数。
[0176] 具体地,所述步骤S4中马尔科夫决策过程包括:为了解决优化问题P1,将此问题重新建模为马尔科夫决策过程(MDP)。用三元组表示马尔科夫决策过程;其中,S表示状态空间;A表示动作空间;R表示奖励函数;
[0177] 所述状态空间S包括:在时隙t时地面节点n的状态表示:
[0178]
[0179] 其中, 表示节点n完成本地缓存中的正在排队任务所需要的时间; 表示节点n附近的节点完成各自缓存中的排队任务需要的平均时间; 表示节点n和无人机的连通性; 表示节点n与无人机间的路径损耗; 表示无人机当前剩余的计算资源; 表示无人机完成缓存中的排队任务所需要的时间;
[0180] 所述动作空间A包括:在时隙t时地面节点n的动作表示如下:
[0181]
[0182] 其中, 表示节点决策将部分任务卸载到无人机, 表示节点决策将部分任务卸载到卫星; 表示任务卸载执行的比例; 表示在
将部分任务卸载到无人机的情况下,预约的计算资源占无人机总的计算资源的比例;
[0183] 所述奖励函数R包括:在时隙t时地面节点n的奖励表示如下:
[0184]
[0185] 其中, 表示在时隙t时产生任务的节点的集合; 表示集合 中元素的个数, 等于在时隙t时所产生的任务的平均处理时延的负值。强化学习的目标是最大化累计奖励,在此体现为最小化处理时延。对于在时隙t时产生任务的节点,它们共同利用系统中的计算资源处理任务,将获得相同的奖励。
[0186] 具体地,所述步骤S5包括:
[0187] 步骤S5.1:N0个智能体分别对应N0个地面节点,每个智能体包括Actor神经网络、Critic神经网络、Target Actor神经网络以及Target Critic神经网络;
[0188] 步骤S5.2:使用MADDPG算法对N0个智能体进行训练直至收敛,得到训练后的智能体;
[0189] 步骤S5.3:训练后的智能体通过复制父代网络参数和组合父代网络参数生成下一代智能体,重复执行步骤S5.2至步骤S5.3,直至智能体数量达到预设值,并使用MADDPG算法对达到预设数量的智能体进行训练直至收敛,输出每个智能体的卸载策略;
[0190] 所述Actor神经网络根据当前的状态输出动作;
[0191] 所述Critic神经网络根据当前的状态和采取的动作生成动作价值,表示对动作好坏的评价;
[0192] 所述Target Actor神经网络根据下一时刻状态估计下一时刻动作,用于估计下一时刻动作;
[0193] 所述Target Critic神经网络用于根据下一时刻状态和下一时刻动作计算下一时刻的动作价值。
[0194] 具体地,所述步骤S5.2包括:
[0195] 第n个智能体的Actor网络表示为μn(sn|θn),其中,sn表示智能体观察到的状态;θn表示Actor网络参数;Critic网络表示为Qn(sn,an|ωn),其中,an表示智能体观察到状态sn后执行的动作;ωn表示Critic网络参数;Target Actor网络表示为μ′n(Sn|θ′n),其中,θ′n表示Target Actor网络的参数;Target Critic网络表示为Q′n(sn,an|ω′n),其中ω′n表示Target Critic网络的参数;
[0196] 第n个智能体的累计期望奖励为:
[0197]
[0198] 其中,pμ表示状态分布;γ∈[0,1]表示奖励的折扣因子;T表示时隙总个数;E表示t期望;sn表示智能体观察到的状态;γ表示γ的t次方; 表示在时隙t时地面节点n的奖励;
[0199] J(θn)关于θn的梯度表示为:
[0200]
[0201] 其中,经验回放缓冲区D包含元组(sn,an,rn,s′n),是对智能体过去转移轨迹的采样,s′n是智能体在状态sn采取动作an后转移到的新状态, 表示μn(sn|θn)关于θn的梯度, 表示Qn(sn,an|ωn)关于an的梯度;
[0202] 根据J(θn)关于θn的梯度 使用梯度上升法更新Actor网络参数θn,使得输出的动作输入到Critic后,能够获得最大的Q值,Q值表示在状态sn下,采取动作an后,智能体能够获得的累计奖励的期望值;
[0203] 对于Critic网络,使用梯度下降法最小化损失函数,更新Critic网络参数ωn,使得对于Q值的估计更为准确:
[0204]
[0205] 其中,Ln表示第n个智能体的损失函数,yn表示目标Q值,由Target Actor网络和Target Critic网络估计得出,表达式为:
[0206]
[0207] 每过预设时间目标网络按如下规则进行更新:
[0208] θ′n←εθn+(1‑ε)θ′n,ω′n←εωn+(1‑ε)ω′n
[0209] 其中,ε∈[0,1]是目标网络的学习速率。
[0210] 具体地,所述步骤S5.3包括:
[0211] 步骤S5.3.1:在前一个阶段得到N0个训练好的智能体,训练后的智能体中Actor网络的参数集合为 在下一个阶段的初始时,将智能体的数量增加到min{2N0,N};
[0212] 步骤S5.3.2:将增加后的智能体中Actor网络参数集合表示为并对增加后的智能体中Actor网络进行初始化;
[0213] 初始化的方式如下所述:当1≤n≤N0, 当N0+1≤n≤min{2N0,N},随机选取父代 和 对于 中的每一个参数,随机从两个父代中的一个选取;Critic、Target Actor和Target Critic网络参数的初始化与Actor网络参数初始化方法类似;令N0←min{2N0,N};
[0214] 步骤S5.3.3:对增加后的智能体Critic网络、Target Actor网络以及Target Critic网络分别进行初始化。
[0215] 卸载策略是分布式的,每个节点都有自己的卸载策略,而我们的训练是分阶段的,所以只有所有智能体都被训练后,每个节点才能有各自的策略。
[0216] 根据本发明提供的一种空天地一体化网络中时延最小化计算任务卸载系统,包括:
[0217] 模块M1:建立支持计算任务卸载的空天地一体化网络的网络架构;
[0218] 模块M2:基于空天地一体化网络的网络架构构建空天地一体化网络模型;
[0219] 模块M3:基于构建的空天地一体化网络模型建立面向时延最小的优化问题;
[0220] 模块M4:将优化问题建模为马尔科夫决策过程;
[0221] 模块M5:采用CL‑MADDPG算法求解马尔科夫决策过程,输出卸载策略;
[0222] 所述空天地一体化网络的网络架构包括多个动态产生任务节点的地面节点以及为地面节点提供计算服务无人机和卫星;
[0223] 所述空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型。
[0224] 具体地,所述模块M1包括:
[0225] 在空天地一体化网络中,在目标区域的不同位置的地面上部署多个地面节点;目标区域上空部署一架无人机,无人机的通信范围覆盖以自身为中心的预设区域;太空部署一颗卫星,卫星的通信范围覆盖整片目标区域;
[0226] 无人机和卫星为地面节点提供计算服务,地面节点动态产生需要计算的任务,本发明可以充分利用空天地一体化网络中的计算资源,输出计算任务最优卸载策略,减少计算任务的处理时延。在空天地一体化网络中,节点是任务的产生者,也是执行任务分配的决策者。
[0227] 具体地,所述模块M2中空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型;
[0228] 所述空天地一体化网络系统模型包括:在空天地一体化网络中,有N个地面节点,表示为集合 一架无人机U;一颗卫星S;空天地一体化网络系统是分时隙的,时隙总个数为T,时隙集合为 一个时隙的长度为τ;
[0229] 所述通信模型包括:在时隙t时,地面节点n和无人机之间的通信速率为 在时隙t时,地面节点和卫星之间的通信速率为
[0230] 所述任务模型包括:在时隙t时,节点n产生的任务表示为 其中, 表示任务输入数据大小,单位是byte; 表示任务计算的复杂度,即每byte所需的CPU的周期数。在本建模过程中忽略任务的输出数据;
[0231] 所述执行模型包括:对于任务 节点n对任务 执行进行决策;决策后,本地执行的子任务为 无人机执行的子任务为 卫星执行的子任务为 其中, 分别为任务 在本地、无人机和卫
星执行的比例; 且 中至少一个为0; 表
示在时隙t时,节点n和无人机的连通关系, 为1表示时隙t时,节点n在无人
机的通信范围内,为0表示不在通信范围内, 的值由节点n和无人机之间的距离 和无人机的通信半径的大小关系得出;
[0232] 约束条件包括:
[0233]
[0234] 当任务在本地执行时,节点的计算资源有限,因此对本地的任务采取串行处理的策略,子任务 在本地处理时延为
[0235] 当任务卸载到无人机执行时,无人机上执行子任务 的处理时延为
[0236] 当任务卸载到卫星执行时,卫星上执行子任务 处理时延为
[0237] 具体地,所述模块M3包括:
[0238] 根据任务 的各子任务的处理时延,基于子任务之间并行处理关系,将任务 的处理时延表示为:
[0239]
[0240] 将在时隙t时产生任务的节点记为集合 则在时隙t产生的任务的总处理时延表示为:
[0241]
[0242] 其中, 表示在时隙t时产生任务的节点集合;
[0243] 由于节点任务产生的动态性,我们的目标是最小化在时隙集合 的时间范围内产生的所有任务的处理时延,表示如下:
[0244] P1:
[0245]
[0246]
[0247]
[0248]
[0249] 其中,γ表示所有任务的决策的集合;T表示时隙总个数。
[0250] 具体地,所述模块M4中马尔科夫决策过程包括:为了解决优化问题P1,将此问题重新建模为马尔科夫决策过程(MDP)。用三元组表示马尔科夫决策过程;其中,S表示状态空间;A表示动作空间;R表示奖励函数;
[0251] 所述状态空间S包括:在时隙t时地面节点n的状态表示:
[0252]
[0253] 其中, 表示节点n完成本地缓存中的正在排队任务所需要的时间; 表示节点n附近的节点完成各自缓存中的排队任务需要的平均时间; 表示节点n和无人机的连通性; 表示节点n与无人机间的路径损耗; 表示无人机当前剩余的计算资源; 表示无人机完成缓存中的排队任务所需要的时间;
[0254] 所述动作空间A包括:在时隙t时地面节点n的动作表示如下:
[0255]
[0256] 其中, 表示节点决策将部分任务卸载到无人机, 表示节点决策将部分任务卸载到卫星; 表示任务卸载执行的比例; 表示
在将部分任务卸载到无人机的情况下,预约的计算资源占无人机总的计算资源的比例;
[0257] 所述奖励函数R包括:在时隙t时地面节点n的奖励表示如下:
[0258]
[0259] 其中, 表示在时隙t时产生任务的节点的集合; 表示集合 中元素的个数, 等于在时隙t时所产生的任务的平均处理时延的负值。强化学习的目标是最大化累计奖励,在此体现为最小化处理时延。对于在时隙t时产生任务的节点,它们共同利用系统中的计算资源处理任务,将获得相同的奖励。
[0260] 具体地,所述模块M5包括:
[0261] 模块M5.1:N0个智能体分别对应N0个地面节点,每个智能体包括Actor神经网络、Critic神经网络、Target Actor神经网络以及Target Critic神经网络;
[0262] 模块M5.2:使用MADDPG算法对N0个智能体进行训练直至收敛,得到训练后的智能体;
[0263] 模块M5.3:训练后的智能体通过复制父代网络参数和组合父代网络参数生成下一代智能体,重复执行模块M5.2至模块M5.3,直至智能体数量达到预设值,并使用MADDPG算法对达到预设数量的智能体进行训练直至收敛,输出每个智能体的卸载策略;
[0264] 所述Actor神经网络根据当前的状态输出动作;
[0265] 所述Critic神经网络根据当前的状态和采取的动作生成动作价值,表示对动作好坏的评价;
[0266] 所述Target Actor神经网络根据下一时刻状态估计下一时刻动作,用于估计下一时刻动作;
[0267] 所述Target Critic神经网络用于根据下一时刻状态和下一时刻动作计算下一时刻的动作价值。
[0268] 具体地,所述模块M5.2包括:
[0269] 第n个智能体的Actor网络表示为μn(sn|θn),其中,sn表示智能体观察到的状态;θn表示Actor网络参数;Critic网络表示为Qn(sn,an|ωn),其中,an表示智能体观察到状态sn后执行的动作;ωn表示Critic网络参数;Target Actor网络表示为μ′n(sn|θ′n),其中,θ′n表示Target Actor网络的参数;Target Critic网络表示为Q′n(sn,an|ω′n),其中ω′n表示Target Critic网络的参数;
[0270] 第n个智能体的累计期望奖励为:
[0271]
[0272] 其中,pμ表示状态分布;γ∈[0,1]表示奖励的折扣因子;T表示时隙总个数;E表示t期望;sn表示智能体观察到的状态;γ 表示γ的t次方; 表示在时隙t时地面节点n的奖励;
[0273] J(θn)关于θn的梯度表示为:
[0274]
[0275] 其中,经验回放缓冲区D包含元组(sn,an,rn,s′n),是对智能体过去转移轨迹的采样,s′n是智能体在状态sn采取动作an后转移到的新状态, 表示μn(sn|θn)关于θn的梯度, 表示Qn(sn,an|ωn)关于an的梯度;
[0276] 根据J(θn)关于θn的梯度 使用梯度上升法更新Actor网络参数θn,使得输出的动作输入到Critic后,能够获得最大的Q值,Q值表示在状态sn下,采取动作an后,智能体能够获得的累计奖励的期望值;
[0277] 对于Critic网络,使用梯度下降法最小化损失函数,更新Critic网络参数ωn,使得对于Q值的估计更为准确:
[0278]
[0279] 其中,Ln表示第n个智能体的损失函数,yn表示目标Q值,由Target Actor网络和Target Critic网络估计得出,表达式为:
[0280]
[0281] 每过预设时间目标网络按如下规则进行更新:
[0282] θ′n←εθn+(1‑ε)θ′n,ω′n←εωn+(1‑ε)ω′n
[0283] 其中,ε∈[0,1]是目标网络的学习速率。
[0284] 具体地,所述模块M5.3包括:
[0285] 模块M5.3.1:在前一个阶段得到N0个训练好的智能体,训练后的智能体中Actor网络的参数集合为 在下一个阶段的初始时,将智能体的数量增加到min{2N0,N};
[0286] 模块M5.3.2:将增加后的智能体中Actor网络参数集合表示为并对增加后的智能体中Actor网络进行初始化;
[0287] 初始化的方式如下所述:当1≤n≤N0, 当N0+1≤n≤min{2N0,N},随机选取父代 和 对于 中的每一个参数,随机从两个父代中的一个选取;Critic、Target Actor和Target Critic网络参数的初始化与Actor网络参数初始化方法类似;令N0←min{2N0,N};
[0288] 模块M5.3.3:对增加后的智能体Critic网络、Target Actor网络以及Target Critic网络分别进行初始化。
[0289] 卸载策略是分布式的,每个节点都有自己的卸载策略,而我们的训练是分阶段的,所以只有所有智能体都被训练后,每个节点才能有各自的策略。
[0290] 实施例2
[0291] 实施例2是实施例1的优选例
[0292] 根据本发明提供的采用CL‑MADDPG算法求解计算任务卸载决策问题,输出卸载策略,包括:
[0293] 步骤M1:建立空天地一体化网络的网络架构:
[0294] 在该空天地一体化网络中,地面上多个地面节点部署在区域的不同位置;区域上空部署一架无人机,无人机的通信范围能够覆盖以自身为中心的部分区域;太空中有一颗卫星,它的通信范围能够覆盖整片区域。无人机和卫星为地面节点提供计算服务。地面节点动态产生需要计算的任务,为了减少计算任务的时延,节点可以将一定比例的任务卸载到无人机或者卫星执行,剩余部分在本地执行。因为通信接口的限制,对于每个计算任务,节点只能选择将部分任务卸载到无人机或者卫星中的一个。
[0295] 在本网络中,节点是任务的产生者,也是执行任务分配的决策者。对于部分任务卸载到无人机上的情况,节点需要对无人机上所需的计算资源进行预约。当任务传输到无人机后,无人机上空闲计算资源大于等于所需的计算资源,则任务立即被执行,否则需要等待,直到空闲计算资源满足需求。对于部分任务卸载到卫星的情况,卫星会自动为任务分配一定的计算资源。
[0296] 步骤M2:根据网络架构进行建模,包括系统模型、通信模型、任务模型和执行模型:
[0297] 步骤M2.1:建立系统模型:
[0298] 在该区域中,总共有N个地面节点,表示为集合 一架无人机,用U表示;一颗卫星,表示为S。系统是分时隙的,时隙总个数为T,时隙集合记为 一个时隙的长度为τ;
[0299] 步骤M2.2:建立通信模型:
[0300] 在时隙t时,地面节点n和无人机之间的通信速率为
[0301] 在时隙t时,地面节点n和卫星之间的通信速率为
[0302] 步骤M2.3:建立任务模型:
[0303] 在时隙t时,节点n产生的任务表示为 其中 表示任务输入数据大小,单位是byte; 表示任务计算的复杂度,即每byte所需的CPU的周期数。在本建模过程中忽略任务的输出数据;
[0304] 步骤M2.4:建立执行模型:
[0305] 对于任务 节点n对其执行进行决策。决策后,本地执行的子任务为无人机执行的子任务为 卫星执行的子任务为
其中 分别为 在本地、无人机和卫星执行的比例,
且 中至少一个为0。
[0306] 用 表示在时隙t时,节点n和无人机的连通关系, 为1表示时隙t时,节点n在无人机的通信范围内,为0表示不在通信范围内,其值由节点n和无人机之间的距离 和无人机的通信半径的大小关系得出。由以上内容得到卸载约束条件:
[0307]
[0308] (1)本地执行
[0309] 节点的计算资源有限,因此对本地的任务采取串行处理的策略。当 产生时,如果节点的任务队列Qn中还有任务需要执行,则 的执行需要排队等待。排队时延的大小等于Qn中已经存在的任务的总计算时间,表示为
[0310] 在等待完成后, 由节点n执行计算。将节点n的计算能力表示为fn,则 的计算时延为:
[0311]
[0312] 所以,子任务 在本地处理的总时延为:
[0313]
[0314] (2)卸载到无人机执行
[0315] 对于卸载到无人机上执行的子任务 首先经过无线链路的传输到达无人机,其传输时延为:
[0316]
[0317] 因为无人机和地面节点间距离较近,任务的传播时延可以忽略。
[0318] 在 中,含有节点n对于计算此子任务所需的无人机计算资源的决策量表示预约的计算资源占无人机总计算资源的比例。如果无人机上空闲的
计算资源大于等于预约的计算资源,则 立即被执行;否则需要排队等待,直至需要的计算资源首次出现。将 的排队时延可以表示为
[0319] 当 获得所需的计算资源时,进入计算阶段,其计算时延为:
[0320]
[0321] 其中fU为无人机的总计算资源。
[0322] 当 的计算完成时,节点n可能不在无人机通信范围内,计算结果不能被立刻返回,需要等待直至节点n再次出现在无人机通信范围内。将等待 的计算结果返回的时间表示为
[0323] 所以,处理 的总时延为:
[0324]
[0325] (3)卸载到卫星执行
[0326] 对于卸载到卫星上执行的子任务 首先要经过无线链路的传输到达卫星。由于地面节点和卫星间距离较长,其传播时延不可忽略,将传播时延表示为cd,则将 发送到卫星并将计算结果返回所需要的时延为:
[0327]
[0328] 当子任务 到达卫星后,卫星立即分配计算资源fS, 进入计算阶段,其计算时延为:
[0329]
[0330] 因此,处理 的总时延为:
[0331]
[0332] 步骤M3:建立面向时延最小的优化问题:
[0333] 根据步骤M2得到任务 的各子任务的处理时延,考虑到子任务之间并行处理的关系,将 的处理时延定义为:
[0334]
[0335] 将在时隙t时产生任务的节点记为集合 则在时隙t产生的任务的总处理时延为
[0336]
[0337] 由于节点任务产生的动态性,我们的目标是最小化在时隙集合 的时间范围内产生的所有任务的处理时延。将对所有任务的决策的集合表示为γ,则此处理时延最小化问题表述如下:
[0338] P1:
[0339]
[0340]
[0341]
[0342]
[0343] 步骤M4:将优化问题建模为马尔科夫决策过程:
[0344] 为了解决优化问题P1,将此问题重新建模为马尔科夫决策过程(MDP)。MDP可以用三元组表示,其中S是状态空间,A是动作空间,R是奖励函数。
[0345] (1)状态
[0346] 在时隙t时地面节点n的状态用下式表示:
[0347]
[0348] 其中, 表示节点n完成本地缓存中的正在排队任务所需要的时间; 表示节点n附近的节点完成各自缓存中的排队任务需要的平均时间; 表示节点n和无人机的连通性; 表示节点n与无人机间的路径损耗; 表示无人机当前剩余的计算资源; 表示无人机完成缓存中的排队任务所需要的时间。
[0349] (2)动作
[0350] 在时隙t时地面节点n的动作用下式表示:
[0351]
[0352] 其中, 表示节点决策将部分任务卸载到无人机, 表示节点决策将部分任务卸载到卫星; 表示任务卸载执行的比例;
表示在将部分任务卸载到无人机的情况下,预约的计算资源占无人机总的计算资源的比例。
[0353] (3)奖励函数
[0354] 在时隙t时地面节点n的奖励用下式表示:
[0355]
[0356] 其中, 是在时隙t时产生任务的节点的集合, 表示集合 中元素的个数,则 等于在时隙t时所产生的任务的平均处理时延的负值。强化学习的目标是最大化累计奖励,在此体现为最小化处理时延。对于在时隙t时产生任务的节点,它们共同利用系统中的计算资源处理任务,将获得相同的奖励。
[0357] 步骤M5:采用CL‑MADDPG算法求解计算任务卸载决策问题,输出卸载策略:
[0358] 步骤M5.1:在初始阶段使用MADDPG算法对N0个智能体进行训练,直至收敛;
[0359] 步骤M5.2:开始一个新的阶段,通过复制和组合生成下一代智能体,使智能体的数量增加:
[0360] 在前一个阶段得到N0个训练好的智能体,它们的Actor网络的参数集合为在下一阶段的初始时,智能体的数量增加到min{2N0,N},将它们的Actor网络参
数集合表示为 需要对这些智能体的Actor网络进行初始化。初始化
的方式如下所述:当1≤n≤N0, 当N0+1≤n≤min{2N0,N},随机选取父代 和
对于 中的每一个参数,随机从两个父代中的一个选取。Critic、Target Actor和Target Critic网络参数的初始化与Actor网络参数初始化方法类似。令N0←min{2N0,N};
[0361] 步骤M5.3:使用MADDPG算法对新一代N0个智能体进行训练,直至收敛:
[0362] MADDPG算法如步骤M5.1所述;
[0363] 步骤M5.4:如果没有达到预定的智能体数量,则返回步骤M5.2进行迭代;如果达到预定的智能体数量,则停止迭代,输出卸载策略。
[0364] 为了更清晰的表述方法流程,给出步骤M5的伪代码:
[0365]
[0366]
[0367] 本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
[0368] 以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。