无人机辅助的易故障移动边缘计算资源调度优化方法转让专利

申请号 : CN202310249124.2

文献号 : CN116257361B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 潘春雨方禹李学华

申请人 : 北京信息科技大学

摘要 :

本发明公开了无人机辅助的易故障移动边缘计算资源调度优化方法,包括:对神经网络的参数和经验回放池进行初始化;获取各无人机的位置参数,调用服务器状态实时更新系统,获取第一数据信息;将各无人机的位置参数和第一数据信息输入所述神经网络,输出任务执行位置;基于任务执行位置执行服务器状态实时更新系统的计算任务,更新服务器状态实时更新系统;将各无人机的位置参数、第一数据信息和任务执行位置打包成一条信息存入经验回放池;对存入经验回放池中的数据量进行阈值判断,符合阈值范围则优化神经网络参数不符合则返回步骤二;判断优化神经网络参数后的神经网络是否收敛,收敛则完成资源调度优化,不收敛则返回步骤二。

权利要求 :

1.无人机辅助的易故障移动边缘计算资源调度优化方法,其特征在于,包括以下步骤:

步骤一、构建神经网络和经验回放池,并对所述神经网络的参数和所述经验回放池进行初始化;

步骤二、获取各无人机的位置参数,并调用服务器状态实时更新系统,获取第一数据信息;所述第一数据信息包括各无人机的工作状态信息和服务器状态实时更新系统的计算任务;所述各无人机的工作状态信息包括服务器当前执行的任务数和剩余计算资源;

步骤三、将所述各无人机的位置参数和所述第一数据信息输入所述神经网络,获取任务执行位置;

步骤四、基于所述任务执行位置执行所述服务器状态实时更新系统的计算任务,更新所述服务器状态实时更新系统;

步骤五、将所述各无人机的位置参数、所述第一数据信息和所述任务执行位置打包成一条信息存入所述经验回放池;

步骤六、对存入经验回放池中的数据量进行阈值判断,符合阈值范围则优化所述神经网络参数,不符合则返回步骤二;

步骤七、判断优化神经网络参数后的所述神经网络是否收敛,收敛则完成资源调度优化,不收敛则返回步骤二;判断优化神经网络参数后的所述神经网络是否收敛的方法包括:其中,η是状态价值函数和优势函数共享的网络参数,α和β分别为状态价值函数和优势函数的参数,神经网络的输入是状态s包括计算任务信息和服务器状态信息,输出是每个卸载决策用a表示,a’为下一时刻的动作,Q为状态s下a的评估值,V(s)为状态值函数,A(s,a)为优势函数,|A|所有动作a的数量。

2.如权利要求1所述的无人机辅助的易故障移动边缘计算资源调度优化方法,其特征在于,所述步骤一中,采用高斯分布对所述神经网络的参数进行初始化。

3.如权利要求1所述的无人机辅助的易故障移动边缘计算资源调度优化方法,其特征在于,所述步骤六中,采用小批量随机梯度下降方式所述神经网络参数进行优化。

4.如权利要求1所述的无人机辅助的易故障移动边缘计算资源调度优化方法,其特征在于,所述步骤二中,所述服务器状态实时更新系统,用于通过构建具备增减的列表存储所述服务器当前执行的任务数和剩余计算资源,实时更新各服务器并行任务信息和剩余计算资源,并计算崩溃概率反馈给所述神经网络。

5.如权利要求1所述的无人机辅助的易故障移动边缘计算资源调度优化方法,其特征在于,所述步骤六中,对存入经验回放池中的数据量进行阈值判断的方法包括:基于所述存入经验回放池中的数据量,设定阈值范围为大于所述经验回放池的存储量的二分之一,当所述存入经验回放池的数据量大于所述经验回放池的存储量的二分之一时,对所述神经网络参数进行优化;当存入经验回放池的数据量不大于所述经验回放池的存储量的二分之一时,返回步骤二。

说明书 :

无人机辅助的易故障移动边缘计算资源调度优化方法

技术领域

[0001] 本发明属于人工智能技术领域,尤其涉及无人机辅助的易故障移动边缘计算资源调度优化方法。

背景技术

[0002] 随着移动通信和互联网的发展,包含工业在内的产业进行数字化、信息化、智能化转型成为重要的产业升级方向。与消费互联网不同,工业互联网更加关注的是实时数据的传输、处理和数据保护,而不仅是信息的传递。这意味着工业互联网的网络和设备必须具有更高的可靠性和安全性,以确保在保障数据隐私性的前提下快速处理计算任务。工业互联网系统内生成的计算任务主要为非独立同分布任务,任务的数据大小、种类、需求差异度高,要求执行设备具有执行任务所需功能。但是工业互联网终端设备具有计算资源不足和长续航的需求,难以仅通过设备自身资源执行计算任务。移动边缘计算技术弥补了终端自身计算资源不足的问题,让终端借助网络边缘侧的计算资源执行任务,并且将数据保留在系统内降低数据泄露的风险。但是移动边缘计算服务器能够提供的计算资源仍然有限,面对快速增长的终端数量和数据任务,需要设计算法优化计算资源的分配。近年来,已有相关工作对移动边缘计算的计算资源分配进行了优化研究,目前研究系统内时延优化的工作中大部分没有引入服务器动态崩溃概率,少有的引入服务器动态崩溃概率的研究工作适用于固定、微型的网络结构。这些工作不适用于当前复杂多变的网络结构和动态生成复杂计算任务的场景。移动边缘计算服务器的稳定性对任务的按时执行具有重要意义。现有技术在研究动态崩溃概率服务器时,没有考虑网络规模变化并且服务器状态更新频率不足,对研究系统稳定性具有重大影响。服务器状态更新过慢导致对崩溃概率的预估存在偏差;受场景需求的影响,网络规模动态变化,算法的普适性降低应用成本。因此需要设计一种对网络规模变化不敏感并且服务器状态更新频率高的算法解决易故障移动边缘计算的计算资源调度问题,达到降低系统内总时延的目的。

发明内容

[0003] 为解决上述技术问题,本发明提出了无人机辅助的易故障移动边缘计算资源调度优化方法,降低系统内总时延。
[0004] 为实现上述目的,本发明提供了无人机辅助的易故障移动边缘计算资源调度优化方法,包括以下步骤:
[0005] 步骤一、构建神经网络和经验回放池,并对所述神经网络的参数和所述经验回放池进行初始化;
[0006] 步骤二、获取各无人机的位置参数,并调用服务器状态实时更新系统,获取第一数据信息;
[0007] 步骤三、将所述各无人机的位置参数和所述第一数据信息输入所述神经网络,获取任务执行位置;
[0008] 步骤四、基于所述任务执行位置执行所述服务器状态实时更新系统的计算任务,更新所述服务器状态实时更新系统;
[0009] 步骤五、将所述各无人机的位置参数、所述第一数据信息和所述任务执行位置打包成一条信息存入所述经验回放池;
[0010] 步骤六、对存入经验回放池中的数据量进行阈值判断,符合阈值范围则优化所述神经网络参数,不符合则返回步骤二;
[0011] 步骤七、判断优化神经网络参数后的所述神经网络是否收敛,收敛则完成资源调度优化,不收敛则返回步骤二。
[0012] 可选的,所述步骤一中,采用高斯分布对所述神经网络的参数进行初始化。
[0013] 可选的,所述步骤二中,所述第一数据信息包括各无人机的工作状态信息和服务器状态实时更新系统的计算任务。
[0014] 可选的,所述各无人机的工作状态信息包括服务器当前执行的任务数和剩余计算资源。
[0015] 可选的,所述步骤六中,采用小批量随机梯度下降方式所述神经网络参数进行优化。
[0016] 可选的,所述步骤二中,所述服务器状态实时更新系统,用于通过构建具备增减的列表存储所述服务器当前执行的任务数和剩余计算资源,实时更新各服务器并行任务信息和剩余计算资源,并计算崩溃概率反馈给所述神经网络。
[0017] 可选的,所述步骤六中,对存入经验回放池中的数据量进行阈值判断的方法包括:
[0018] 基于所述存入经验回放池中的数据量,设定阈值范围为大于所述经验回放池的存储量的二分之一,当所述存入经验回放池的数据量大于所述经验回放池的存储量的二分之一时,对所述神经网络参数进行优化;当存入经验回放池的数据量不大于所述经验回放池的存储量的二分之一时,返回步骤二。
[0019] 可选的,所述步骤七中,判断优化神经网络参数后的所述神经网络是否收敛的方法包括:
[0020] 其中,η是状态价值函数和优势函数共享的网络参数,α和β分别为状态价值函数和优势函数的参数;神经网络的输入是状态s包括计算任务信息和服务器状态信息,输出是每个卸载决策用a表示,a’为下一时刻的动作,Q为状态s下a的评估值,V(s)为状态值函数,A(s,a)为优势函数,|A|所有动作a的数量。
[0021] 本发明技术效果:本发明公开了无人机辅助的易故障移动边缘计算资源调度优化方法,更高频率的服务器状态信息更新和调用,保障服务器动态崩溃概率值的计算准确,使输入资源调度分配算法的参数准确真实,从而保障输出准确的策略;更加有效的基于人工智能的资源分配优化算法,在进一步降低系统内时延的同时增加了对网络规模的适应性。

附图说明

[0022] 构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0023] 图1为本发明实施例无人机辅助的易故障移动边缘计算资源调度优化方法的流程示意图;
[0024] 图2为本发明实施例引入崩溃概率的三层UAV非独立同分布计算任务执行系统示意图;
[0025] 图3为本发明实施例SFC链路长度和时延的关系图;
[0026] 图4为本发明实施例崩溃概率系数和时延关系图;
[0027] 图5为本发明实施例任务数据量和时延关系图;
[0028] 图6为本发明实施例执行UAVs计算能力和时延关系图;
[0029] 图7为本发明实施例时延敏感型SFC数量和时延关系图。

具体实施方式

[0030] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0031] 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0032] 如图1所示,本实施例中提供无人机辅助的易故障移动边缘计算资源调度优化方法,包括以下步骤:
[0033] 步骤一、构建神经网络和经验回放池,并对所述神经网络的参数和所述经验回放池进行初始化;
[0034] 步骤二、获取各无人机的位置参数,并调用服务器状态实时更新系统,获取第一数据信息;
[0035] 步骤三、将所述各无人机的位置参数和所述第一数据信息输入所述神经网络,获取任务执行位置;
[0036] 步骤四、基于所述任务执行位置执行所述服务器状态实时更新系统的计算任务,更新所述服务器状态实时更新系统;
[0037] 步骤五、将所述各无人机的位置参数、所述第一数据信息和所述任务执行位置打包成一条信息存入所述经验回放池;
[0038] 步骤六、对存入经验回放池中的数据量进行阈值判断,符合阈值范围则优化所述神经网络参数,不符合则返回步骤二;
[0039] 步骤七、判断优化神经网络参数后的所述神经网络是否收敛,收敛则完成资源调度优化,不收敛则返回步骤二。
[0040] 其中,所述步骤一中,采用高斯分布对神经网络的参数进行初始化。使用高斯分布N(0,σ2)对神经网络的每个参数进行随机初始化。对神经网络进行初始化的方式有全零初始化和高斯分布初始化等,将训练任务比作:y=ax+b,则神经网络参数就是其中的参数a和b,神经网络的输入为x输出为y,初始化神经网络参数为高斯分布在大量的训练中证明,提升神经网络的收敛效果。
[0041] 所述步骤二中,第一数据信息包括各无人机的工作状态信息和服务器状态实时更新系统的计算任务。各无人机的工作状态信息包括服务器当前执行的任务数和剩余计算资源。
[0042] 所述步骤六中,采用小批量随机梯度下降方式所述神经网络参数进行优化。
[0043] 所述步骤二中,服务器状态实时更新系统,用于通过构建具备增减的列表存储所述服务器当前执行的任务数和剩余计算资源,实时更新各服务器并行任务信息和剩余计算资源,并计算崩溃概率反馈给所述神经网络。
[0044] 所述步骤六中,对存入经验回放池中的数据量进行阈值判断的方法包括:
[0045] 基于存入经验回放池中的数据量,设定阈值范围为大于经验回放池的存储量的二分之一,当存入经验回放池的数据量大于经验回放池的存储量的二分之一时,对神经网络参数进行优化;当存入经验回放池的数据量不大于所述经验回放池的存储量的二分之一时,返回步骤二。
[0046] 所述步骤七中,判断优化神经网络参数后的神经网络是否收敛的方法包括:
[0047]
[0048] 其中,η是状态价值函数和优势函数共享的网络参数,α和β分别为状态价值函数和优势函数的参数,神经网络的输入是状态s包括计算任务信息和服务器状态信息,输出是每个卸载决策用a表示,a’为下一时刻的动作,Q为状态s下a的评估值,V(s)为状态值函数,A(s,a)为优势函数,|A|所有动作a的数量。
[0049] 步骤二中具体包括:首先获取各无人机的位置参数,并调用服务器状态实时更新系统,通过服务器状态实时更新系统得到当前各无人机的工作状态,包含服务器当前执行的任务数和剩余计算资源,获取系统内当前时隙生成的所有非独立同分布计算任务。
[0050] 将各无人机的位置参数和各无人机的工作状态信息和服务器状态实时更新系统的计算任务输入神经网络,输出任务执行位置,具体包括:将Q值函数分解为状态值函数和优势函数,从而可以更好地估计每个动作的价值。在本专利中,神经网络的输入是状态s,输出是每个动作的Q值。在网络的最后一层,将输出分成两个部分:状态值函数V(s)和优势函数A(s,a),其中a表示动作。状态值函数表示在状态s下采取任何动作的价值,而优势函数表示在状态s下采取动作a相对于其他动作的价值。本发明的Q值函数可以表示为Q(s,a)=V(s)+A(s,a)‑mean(A(s,:)),其中mean(A(s,:))表示优势函数的均值。在选择动作时,选择具有最大Q值的动作a,即argmax(Q(s,a))。
[0051] 本发明如图2所示,引入崩溃概率的三层UAV非独立同分布计算任务执行系统,采用三层UAVs群结构,三层UAVs分别具有不同的功能,最下层UAVs的功能为任务收集,不负责执行计算任务,仅通过自身采集设备生成相应带有任务类型要求的计算任务,并将任务卸载至传输层UAVs。多个收集UAVs间的任务类型互不影响但存在相关性,需要按照一定的顺序接续执行,才能得到结果。其中,收集层UAV i的位置信息表示为Lc,i=[xc,i,yc,i,zc,i]。假设有|Υ|个不同种类的VNF被部署于执行层UAVs中,由Υ={f1,f2,...,f|T|}表示虚拟网络功能集。每个执行层UAV部署其中一个VNF。传输给传输层UAV的信息为VNF i=[ti,fi,di,pi],其中,ti表示任务生成时间,fi表示任务需要的VNF类型,di表示任务的计算数据大小,pi为时延敏感型情况标记。传输层UAVs处于三层UAVs系统的中间层,接收收集层UAVs卸载的计算任务,并按照规则合成计算任务SFC发送给执行层UAVs。其中每个传输层UAV只接收被分配的收集层UAVs所卸载的计算任务。设Γ为传输层无人机发送的SFC任务请求,则将其定义为一个(fj,tj,Rj,dj,pj)。其中fj代表需求的VNF类别集合,tj代表SFC任务发送时间,Rj代表请求rj的任务可靠性需求概率,其范围为0<Rj≤1,dj为计算数据大小集合,pj为时延敏感情况标记。
[0052] 本发明包括服务器状态实时更新系统,对执行层UAV引入系统崩溃性和动态崩溃率,崩溃概率数值与设备同时执行的任务数呈正相关。每个执行UAV的崩溃概率会随着自身的负载量动态更新,设UAV i具有基础崩溃概率ρ′i,由于崩溃概率随着同时执行的任务数正比例增大,设每增加一个任务崩溃概率增大Δ(ρi),最终崩溃概率表示为:ρi=ρ′i+n*Δ(ρi),其中n表示该UAV同时执行任务数。假设一个UAV的崩溃不会影响其他UAVs,所以一个γ γSFC的可靠性R 是它所使用的UAVs的可靠性的乘积:R =Πri,其中ri表示SFC需要使用的执行层UAVs中UAVi的可靠率,可靠率ri表示为:ri=1‑ρi。系统内的SFC分为时延敏感型和非时延敏感型,在代码中通过特定位置数值标记。时延敏感型SFC通过被分配更多的计算资源和添加备份SFC两种方式提升任务的执行速度和稳定性,保障时延敏感型SFC完成任务的时效。以一条备份SFC为例,在执行任务时,时延敏感型SFC首先根据算法策略选择最优的执行层UAVs执行任务,同时备份SFC根据算法策略选择次优的执行层UAVs同时执行任务。同一个SFC被多条不同的设备链并行执行的好处是,某一条链路设备的崩溃不影响其余链路的执行,可以很大程度上降低由于终端设备崩溃导致的高时延问题。
[0053] 本发明执行层UAVs位于三层UAVs系统的最上层。传输层UAVs传输的每条SFC任务执行位置由人工智能系统进行规划调度。在同一个SFC中,先前部分计算任务的执行UAV,将任务计算结果和链中其他任务原始数据转发给后续任务的执行UAV,直至任务全部完成,UAV之间的视距链路的信道增益表示为:
[0054]
[0055] 其中,g为信道增益,α0为参考距离d=1m处的信道增益,dk,l(i)为接收UAV k与发送UAV L之间的欧氏距离,i表示时隙索引,q(i)的整体表示发送UAV l的平面方向坐标,pk,l(i)整体表示接受UAV k在平面方向的坐标,H为UAV l与UAV k在高度上的差值,其中,l,k均为UAV的序号。由于障碍物遮挡,无线传输速率表示为:
[0056]
[0057] 其中,B表示通信带宽,pup表示发送计算任务数据的UAVs在上传链路的传输功率,2
σ表示噪声功率,
[0058] Dueling DQN强制最优动作的优势函数的实际输出为0,计算如下:
[0059]
[0060] 其中,η是状态价值函数和优势函数共享的网络参数,α和β分别为状态价值函数和优势函数的参数。
[0061] 此时,确保值建模的唯一性。在实现过程中,用平均代替最大化操作,即:
[0062]
[0063] 其中,η是状态价值函数和优势函数共享的网络参数,α和β分别为状态价值函数和优势函数的参数;神经网络的输入是状态s包括计算任务信息和服务器状态信息,输出是每个卸载决策用a表示,a’为下一时刻的动作,Q为状态s下a的评估值,V(s)为状态值函数,A(s,a)为优势函数,|A|所有动作a的数量。
[0064] Dueling DQN会比DQN好的部分原因在于Dueling DQN能更高效学习状态价值函数。每一次更新时,函数都会被更新,影响到其他动作的值。而传统的DQN只会更新某个动作的值,其他动作的值就不会更新。因此,Dueling DQN能够更加频繁、准确地学习状态价值函数。
[0065] 通过在三层无人机组成FP‑MEC‑II系统下进行仿真实验,根据实验结果评估所提出的算法性能,主要参数如表1所示。
[0066] 表1
[0067]
[0068] 其中,中心的三角表示基站和MEC服务器的位置,圆点表示服从随机分布的IIN设备位置,IIN设备到基站的距离不超过200米。本发明将所提出的算法与其他四种方法在如下仿真场景下进行了比较:其中“全本地”是指所有的IIN设备都通过自身资源执行计算任务;“完全卸载”表示所有IIN设备将其计算任务卸载到MEC服务器执行,并且MEC服务器将计算资源F平均分配给每个任务;“随机卸载”是指所有的IIN设备计算任务随机地选择在本地执行或卸载到MEC服务器执行,同时MEC服务器的计算资源F平均分配给每个卸载到服务器的计算任务;“Q学习”表示利用Q‑learning算法决定任务的卸载位置分配。
[0069] 如图3所示,绘制的每个点,均是在任务数据在一定范围内随机生成的情况下,通过大量次数的仿真,最终得到的均值。在这种随机性的情况下,更能反映出算法的优劣。从图中可以得出,本发明提出的DRDOA算法在SFC链路长度参数变化的过程中,均取得更接近遍历搜索法的结果。当SFC链路长度较短时,相应系统内生成的计算任务也更少,此时的各执行层UAVs剩余计算资源较多,所以四种算法之间的差距最小。随着SFC链路长度的不断增大,系统内生成的计算任务增多,给服务器带来资源不足的压力。DRDOA算法将生成的计算任务情况和服务器资源使用情况进行分析,然后将任务执行位置进行灵活调度分配的优势得到体现。Q‑learning虽然将计算任务和服务器状态作为算法的输入,但是由于算法内部设计缺陷,每次训练迭代只能更新一个状态动作对的Q值,而其他动作的值就不会更新。因此对比Q‑learning,DRDOA能够更加频繁、准确地学习状态价值函数,选择更优动作。
[0070] 如图4所示,从图中可以看出,最近搜索法,由于仅选择最近的执行层UAV进行任务卸载执行,系统时延受崩溃概率系数的影响较大。Q‑learning、DRDOA和遍历搜索算法根据系统内所有执行层UAV的工作状态,调度计算任务的执行位置,降低崩溃概率系数对系统总时延的影响。并且DRDOA算法的增长曲线更接近遍历搜索算法,具有很好的性能。
[0071] 如图5所示,仿真参数的设定中,将传输层UAVs数量更改为6个,这也将SFC的条数增加为6条,并且仅有一条SFC为时延敏感型SFC。通过仿真结果可以看出,最近搜索法,在多任务数、大数据量的情况下,对系统内整体资源的利用效率依然不高。而本发明所提DRDOA,在面对多任务数、大数据量的任务情况下,依然能够相比Q‑learning和最近搜索法,更加接近遍历算法的结果,具有更低的时延。所以在面对多SFC的复杂工作场景中,本发明所提DRDOA算法能够为用户提供更低时延的资源调度服务。
[0072] 如图6所示,仿真参数的设定中,传输层UAVs数量为6个,等同于有6条SFC的任务需要被执行,其中仅有一条SFC为时延敏感型SFC。通过仿真结果可以看出,四种算法下的系统时延,均随着设备计算能力的提升而降低。并且降低的幅度减缓,这是因为面对固定的计算任务,过多的计算资源会存在资源浪费的现象。本发明所提DRDOA在降低幅度上,依然能够相比Q‑learning和最近搜索法,更加接近遍历算法,具有更低的时延,验证了算法的卓越性能。
[0073] 如图7所示,仿真参数的设定中,传输层UAVs数量为6个,等价于有6条SFC任务需要被执行。在本次仿真中,引入拒绝任务机制,如果选择的执行设备综合可靠率可以满足任务对可靠率的需求。则接收该任务,反之拒绝接收任务。仿真图中的时延计算公式为:执行任务的时延+(拒绝任务的数量×200)。拒绝一个任务导致时延的增加,相比正常执行任务的时延会增多,这样做的好处是让Q‑learning和DRDRO算法尽量通过统筹调度系统内算力,满足计算任务的可靠率需求,减少拒绝接收任务的数量。通过仿真结果可以看出,四种算法下的系统时延,均随着时延敏感型任务的比重增大而增大。最近搜索法由于对系统内计算资源的利用不足,导致拒绝接收任务的数量随着计算任务的密集程度而增多,导致综合时延增大。而本发明所提DRDOA对系统资源的利用相比Q‑learning更高效。在三种算法中,DRDOA算法更加接近遍历算法,具有更低的时延,验证了算法的卓越性能。
[0074] 本发明公开了无人机辅助的易故障移动边缘计算资源调度优化方法,更高频率的服务器状态信息更新和调用,保障服务器动态崩溃概率值的计算准确,使输入资源调度分配算法的参数准确真实,从而保障输出准确的策略;更加有效的基于人工智能的资源分配优化算法,在进一步降低系统内时延的同时增加了对网络规模的适应性。
[0075] 以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。