无人机通信网络移动控制方法、装置、设备及存储介质转让专利

申请号 : CN201811182897.9

文献号 : CN111045443B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 曹先彬杜文博杨朋席星吴大鹏

申请人 : 北京航空航天大学

摘要 :

本发明实施例提供的无人机通信网络移动控制方法、装置、设备及存储介质,该方法包括:通过确定当前时刻的观察信息;所述观察信息包括下述信息中的一种或多种:各无人机的能量开销信息、基于所述无人机提供的网络中各用户的覆盖指示信息或所述网络的覆盖公平信息;根据所述观察信息,采用深度确定性策略梯度DDPG模型,确定所述观察信息对应的控制信息;所述DDPG模型为采用DDPG算法带入样本信息生成的模型,所述样本信息指示样本观察信息与样本控制信息的映射关系,本实施例通过深度确定性策略梯度DDPG模型确定的移动策略的取值是连续的,从而解决了由于移动策略的取值是离散的,而导致对于无人机的移动控制不精确的问题。

权利要求 :

1.一种无人机通信网络移动控制方法,其特征在于,包括:确定当前时刻的观察信息;所述观察信息包括下述信息中的一种或多种:各无人机的能量开销信息、基于所述无人机提供的无人机网络中各用户的覆盖指示信息或所述无人机网络的覆盖公平信息;

根据所述观察信息,采用深度确定性策略梯度DDPG模型,确定所述观察信息对应的控制信息;所述DDPG模型为采用DDPG算法带入样本信息生成的模型,所述样本信息指示样本观察信息与样本控制信息的映射关系;

根据所述控制信息控制所述无人机移动;

所述DDPG模型的回报函数包括如下参数中的一个或多个:当前时刻用户总的服务质量QoS需求参数、当前时刻无人机网络的覆盖公平参数、前一时刻至当前时刻各无人机的能量开销参数;

所述回报函数满足如下公式(1):其中,rt表示在时刻t所述DDPG模型的回报函数,A表示所述用户总的服务质量QoS需求,ft表示在时刻t所述无人机网络的覆盖公平指数, 表示所述前一时刻t‑1至当前时刻t总的无人机的能量开销。

2.根据权利要求1所述的方法,其特征在于,所述用户总的服务质量QoS需求A具体表示为: 其中,

表示在时刻t集合Uk中的用户 是否被覆盖, 表示集合Uk中用户的服务质量QoS需求门限,et‑1,j(mt‑1,j)表示前一时刻t‑1至当前时刻t无人机j的能量开销;

更进一步的,t表示某一个时刻,t=1,2,…,T,即把总的时间划分为T个时间步长,每个时间步长的开始为一个时刻,j表示某一架无人机,J表示一个集合,代表无人机全集,满足j∈J,所述集合Uk表示所述无人机网络中用户全集的第k个子集,k=1,...,K,且所述集合Uk中的所有用户的服务质量QoS需求相同,进一步的,所述用户全集包括所述无人机网络的全部用户,且所述用户全集包括K个子集,且所述子集间的服务质量QoS需求不同。

3.根据权利要求2所述的方法,其特征在于,所述集合Uk中用户的服务质量QoS需求满足如下公式(2):

其中, 表示在时刻t第j架无人机给所述集合Uk中的用户ik提供的服务质量QoS,M1表示一个比最大的 稍大的常数, 表示所述集合Uk中用户的服务质量QoS需求门限,表示在时刻t集合Uk中的用户 是否被覆盖。

4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:当提供所述网络的所有无人机中存在目标空域边界或之外的无人机时,更新所述回报函数;

和/或,

当所述无人机网络中两架无人机之间无法通信时,更新所述回报函数;

其中,更新后的所述回报函数确定的回报值小于更新前的所述回报函数确定的回报值;

当存在目标空域边界或之外的无人机时,更新所述回报函数,包括:当存在目标空域边界或之外的无人机时,采用如下公式(3)更新所述回报函数;

其中,α=1/(12500|J|)与β=3/|J|‑9/(25|J|)是两个调整回报函数的系数,|J|表示所述网络的无人机的架数,而且,

进一步的,xt,j表示在时刻t第j架无人机的经度,yt,j表示在时刻t第j架无人机的纬度,ht,j表示在时刻t第j架无人机的高度,xl表示xt,j的最小值,xu表示xt,j的最大值,yl表示所述yt,j的最小值,yu表示所述yt,j的最大值,hl表示所述ht,j的最小值,hu表示所述ht,j的最大值,υ1表示一个常数。

5.根据权利要求1所述的方法,其特征在于,所述回报函数满足如下公式(4)对应的条件;

其中,所述公式(4)的约束条件为:满足 且所述无人机网络是连通的,且所述无人机网络的无人机的位置都在目标空域内,且所述无人机网络的无人机在所述时刻t‑1到时刻t之前的移动距离mt‑1,j不超过两个时刻间的最大移动距离。

6.一种无人机通信网络移动控制装置,其特征在于,包括:观察信息确定模块,用于确定当前时刻的观察信息;所述观察信息包括下述信息中的一种或多种:各无人机的能量开销信息、基于所述无人机提供的无人机网络中各用户的覆盖指示信息或所述无人机网络的覆盖公平信息;

控制信息确定模块,用于根据所述观察信息,采用深度确定性策略梯度DDPG模型,确定所述观察信息对应的控制信息;所述DDPG模型为采用DDPG算法带入样本信息生成的模型,所述样本信息指示样本观察信息与样本控制信息的映射关系;

控制模块,根据所述控制信息控制所述无人机移动;

其中,所述DDPG模型的回报函数包括如下参数中的一个或多个:当前时刻用户总的服务质量QoS需求参数、当前时刻无人机网络的覆盖公平参数、前一时刻至当前时刻各无人机的能量开销参数;

所述回报函数满足如下公式(1):其中,rt表示在时刻t所述DDPG模型的回报函数,A表示所述用户总的服务质量QoS需求,ft表示在时刻t所述无人机网络的覆盖公平指数, 表示所述前一时刻t‑1至当前时刻t总的无人机的能量开销。

7.一种无人机通信网络移动控制设备,其特征在于,包括:至少一个处理器和存储器;

所述存储器存储计算机执行指令;

所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至5任一项所述的无人机通信网络移动控制方法。

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至5任一项所述的无人机通信网络移动控制方法。

说明书 :

无人机通信网络移动控制方法、装置、设备及存储介质

技术领域

[0001] 本发明涉及控制领域,尤其涉及一种无人机通信网络移动控制方法、装置、设备及存储介质。

背景技术

[0002] 目前,可以通过在无人机上设置电信服务设施(例如,基站)提供通信服务。
[0003] 现有技术中,为了使得无人机上设置的电信服务设施所提供的通信网络能够适应用户需求,需要调整无人机的部署,即控制无人机移动。通常,可以采用Q‑学习(Q‑
learning)实时确定无人机在立体空间中的位置。具体的,通过Q‑学习可以得到不同条件下
固定的移动策略中各移动策略与回报的对应关系,进一步的,可以根据当前状态下的条件
以及该对应关系,确定回报最大的移动策略,并根据该移动策略控制无人机移动。
[0004] 因此,现有技术中,由于Q‑学习只能得到固定的移动策略,移动策略的取值是离散的,因此存在对于无人机的移动控制不精确的问题。

发明内容

[0005] 本发明实施例提供一种无人机通信网络移动控制方法、装置、设备及存储介质,以解现有技术中由于移动策略的取值是离散的,而导致对于无人机的移动控制不精确的问
题。
[0006] 第一方面,本发明实施例提供一种无人机通信网络移动控制方法,包括:
[0007] 确定当前时刻的观察信息;所述观察信息包括下述信息中的一种或多种:各无人机的能量开销信息、基于所述无人机提供的网络中各用户的覆盖指示信息或所述网络的覆
盖公平信息;
[0008] 根据所述观察信息,采用深度确定性策略梯度DDPG模型,确定所述观察信息对应的控制信息;所述DDPG模型为采用DDPG算法带入样本信息生成的模型,所述样本信息指示
样本观察信息与样本控制信息的映射关系;
[0009] 根据所述控制信息控制所述无人机移动。
[0010] 在一种可能的设计中,所述DDPG模型的回报函数包括如下参数中的一个或多个:
[0011] 当前时刻用户总的服务质量QoS需求参数、当前时刻网络的覆盖公平参数、前一时刻至当前时刻各无人机的能量开销参数。
[0012] 在一种可能的设计中,所述回报函数满足如下公式(1):
[0013]
[0014] 其中,rt表示在时刻t所述DDPG模型的回报函数, 表示在时刻t所述用户总的服务质量QoS需求,ft表示在时刻t所述网络的覆盖公平指数, 表示所
述前一时刻t‑1至当前时刻t总的无人机的能量开销。
[0015] 进一步的, 表示在时刻t集合Uk中的用户 是否被覆盖, 表示集合Uk中用户的服务质量QoS需求门限,et‑1,j(mt‑1,j)表示前一时刻t‑1至当前时刻t无人
机j的能量开销。
[0016] 更进一步的,t表示某一个时刻,t=1,2,…,T,即把总的时间划分为几个时间步长,每个时间步长的开始为一个时刻,j表示某一架无人机,J表示一个集合,代表无人机全
集,满足j∈J,所述集合Uk表示所述网络中用户全集的第k个子集,且所述集合Uk中的所有用
户的服务质量QoS需求相同,进一步的,所述用户全集包括所述网络的全部用户,且所述用
户全集包括k个子集, k=1,...,K,且所述子集间的服务质量QoS需求不同。
[0017] 在一种可能的设计中,上面定义的集合Uk中用户的服务质量QoS需求 满足如下公式(2):
[0018]
[0019] 其中, 表示在时刻t第j架无人机给所述集合Uk中的用户 提供的服务质量QoS,M1表示一个比最大的 稍大的常数, 表示所述集合Uk中用户的服务质量QoS需求门
限, 表示在时刻t集合Uk中的用户 是否被覆盖。
[0020] 在一种可能的设计中,所述方法还包括:当提供所述网络的所有无人机中存在目标空域边界或之外的无人机时,更新所述回报函数;
[0021] 和/或,
[0022] 当所述网络中两架无人机之间无法通信时,更新所述回报函数;
[0023] 其中,更新后的所述回报函数确定的回报值小于更新前的所述回报函数确定的回报值。
[0024] 在一种可能的设计中,所述当存在目标空域边界或之外的无人机时,更新所述回报函数,包括:
[0025] 当存在目标空域边界或之外的无人机时,采用如下公式(3)更新所述回报函数;
[0026]
[0027] 其中,α=1/(12500|J|)与β=3/|J|‑9/(25|J|)是两个调整回报函数的系数, |J|表示所述网络的无人机的架数,而且,
[0028]
[0029]
[0030]
[0031] 进一步的,xt,j表示在时刻t第j架无人机的经度,yt,j表示在时刻t第j架无人机的纬度,ht,j表示在时刻t第j架无人机的高度,xl表示所述xt,j的最小值, xu表示所述xt,j的最
大值,yl表示所述yt,j的最小值,yu表示所述yt,j的最大值, hl表示所述ht,j的最小值,hu表示
所述ht,j的最大值,υ1表示一个常数。
[0032] 在一种可能的设计中,所述回报函数满足如下公式(4)对应的条件;
[0033]
[0034] 其中,所述公式(4)的约束条件为:满足 且所述网络的无人机网络是连通的,且所述网络的无人机的位置都在所述目标空域内,且所述网络的无人机
在所述时刻t‑1到时刻t之前的移动距离mt‑1,j不超过两个时刻间的最大移动距离。
[0035] 第二方面,本发明实施例提供一种无人机通信网络移动控制装置,包括:
[0036] 观察信息确定模块,用于确定当前时刻的观察信息;所述观察信息包括下述信息中的一种或多种:各无人机的能量开销信息、基于所述无人机提供的网络中各用户的覆盖
指示信息或所述网络的覆盖公平信息;
[0037] 控制信息确定模块,用于根据所述观察信息,采用深度确定性策略梯度 DDPG模型,确定所述观察信息对应的控制信息;所述DDPG模型为采用 DDPG算法带入样本信息生成
的模型,所述样本信息指示样本观察信息与样本控制信息的映射关系;
[0038] 控制模块,根据所述控制信息控制所述无人机移动。
[0039] 第三方面,本发明实施例提供一种无人机通信网络移动控制设备,包括:至少一个处理器和存储器;
[0040] 所述存储器存储计算机执行指令;
[0041] 所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行上述第一方面所述的方法。
[0042] 第四方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上
第一方面以及第一方面各种可能的设计所述的无人机通信网络移动控制方法。
[0043] 本发明实施例提供的无人机通信网络移动控制方法、装置、设备及存储介质,通过确定当前时刻的观察信息;所述观察信息包括下述信息中的一种或多种:各无人机的能量
开销信息、基于所述无人机提供的网络中各用户的覆盖指示信息或所述网络的覆盖公平信
息;根据所述观察信息,采用深度确定性策略梯度DDPG模型,确定所述观察信息对应的控制
信息;所述DDPG 模型为采用DDPG算法带入样本信息生成的模型,所述样本信息指示样本观
察信息与样本控制信息的映射关系,本实施例通过深度确定性策略梯度 DDPG模型确定的
移动策略的取值是连续的,从而解决了由于移动策略的取值是离散的,而导致对于无人机
的移动控制不精确的问题。

附图说明

[0044] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发
明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以
根据这些附图获得其他的附图。
[0045] 图1为本发明实施例提供的无人机部署及提供通信服务的场景示意图;
[0046] 图2为本发明实施例提供的无人机通信网络移动控制方法的流程示意图一;
[0047] 图3为本发明实施例提供的无人机通信网络移动控制方法的流程示意图二;
[0048] 图4为本发明实施例提供的无人机通信网络移动控制方法的流程示意图三;
[0049] 图5为本发明实施例提供的无人机通信网络移动控制方法的流程示意图四;
[0050] 图6为本发明实施例提供的无人机通信网络移动控制装置的结构示意图;
[0051] 图7为本发明实施例提供的无人机通信网络移动控制设备的硬件结构示意图。

具体实施方式

[0052] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053] 图1为本发明实施例提供的无人机部署及提供通信服务的场景示意图;如图1所示,空域中存在一定数目的无人机,所述无人机上设置了电信服务设施可以为地面用户提
供通信服务,所述空域中每架所述无人机都有一定的通信服务覆盖范围,由于所述地面用
户服务质量QoS需求的变化,所述无人机需要在所述空域中进行移动,完成所述移动后,所
述无人机的通信服务覆盖范围发生变化,从而更好的为所述地面用户提供通信服务。
[0054] 具体的,所述无人机在所述空域的移动控制信息是由一个控制台发出的,所述控制台能够实时获取当前时刻的观察信息,然后快速计算出所述无人机的移动控制信息并把
所述移动控制信息发送给所述无人机,所述无人机根据所述移动控制信息进行移动,所述
无人机完成所述移动后在空域中保持不动并持续提供通信服务,在下个时刻,所述控制台
根据获取到的最新的观察信息计算所述无人机的新的移动控制信息并把所述新的移动控
制信息发送给所述无人机,所述无人机根据所述新的移动控制信息进行新的移动,所述无
人机完成所述新的移动后继续在空域中保持不动并持续提供通信服务,在接下来的时间,
所述控制台和所述无人机按照所述前两个时刻的方法进行工作。
[0055] 进一步的,所述控制台可以是空域中的某一架无人机,也可能是地面上的某一个控制设备。若所述控制台是所述空域中的所述无人机,则此所述无人机的配置一般比较高,
即处理性能、通信能力、存储能力等配置比较高。若所述控制台是所述地面上的所述控制设
备,则此所述控制设备的配置一般也比较高,并能够保证此所述控制设备与所述无人机的
实时通信。
[0056] 图2为本发明实施例提供的无人机通信网络移动控制方法的流程示意图,本实施例的执行主体可以为某一架无人机,也可以为地面控制设备,本实施例此处不做特别限制,
本实施例把所述执行主体称为控制台。如图2所示,该方法包括:
[0057] S201、控制台确定当前时刻的观察信息。
[0058] 本步骤中,所述观察信息包括下述信息中的一种或多种:各无人机的能量开销信息、基于所述无人机提供的网络中各用户的覆盖指示信息或所述网络的覆盖公平信息。
[0059] 本实施例中,假设所述网络中无人机有|J|架,存在第j架无人机,且满足j∈J,假设所述网络中所有用户为用户全集U,且所述用户全集U包括K个用户子集,且所述用户子集
间的服务质量QoS需求不同,用集合Uk表示所述用户全集U的第k个用户子集,且所述集合Uk
中的所有用户的服务质量QoS 需求相同,且满足k∈{1,...,K},进一步的,用 表示所述
集合Uk中的第ik个用户,进一步的,在本实施例中,把时间按照一定时间步长进行划分,每个
所述时间步长的起点为一个时刻,例如时刻t为第t个时间步长的起点。
[0060] 所述观察信息中可能包括的所述各无人机的能量开销信息可以用如下方法确定:
[0061]
[0062] 公式(1)中,et‑1,j(mt‑1,j)表示在前一时刻t‑1至当前时刻t无人机j的能量开销,mt‑1,j表示在前一时刻t‑1至当前时刻t第j架无人机的移动距离,mmax表示在两个时刻之间无
人机的最大移动距离,er表示一架无人机在两个时刻之间以最大移动距离飞行的能量开销
与悬停在当前位置的能量开销的比值, eh表示一架无人机悬停在当前位置的能量开销。另
外,本发明令m0,j=0,这样,e0,j(m0,j)=eh表示第j架无人机初始的能耗。
[0063] 所述观察信息中可能包括的所述基于无人机提供的网络中各用户的覆盖指示信息可以用 确定,所述 表示在时刻t集合Uk中的第ik个用户 是否被覆盖。
[0064] 可选的,当所述用户 被一架或一架以上的无人机覆盖时, 否则,
[0065] 进一步可选的,当所述用户 被一架或一架以上的无人机覆盖时,那么至少存在一架无人机例如第j架无人机给所述用户 提供的服务质量QoS大于或者等于此所述用户
的服务质量QoS需求门限,可以用如下公式表示:
[0066]
[0067] 公式(2)中, 表示在时刻t第j架无人机给所述用户 提供的服务质量QoS,表示所述用户 的服务质量QoS需求门限,M1表示一个比最大的服务质量QoS需求门限稍
大的常数,
[0068] 本实施例采用用户的接收速率表示用户的服务质量QoS需求,那么根据香农公式,所述用户 的接收速率可以用如下公式表示:
[0069]
[0070] 公式(3)中,Bw表示第j架无人机在时刻t分配给所述用户 的传输带宽,表示在时刻t所述用户 接收所述第j架无人机提供的通信服务时的接收信噪比,所述接
收信噪比 可以用如下公式表示:
[0071]
[0072] 公式(4)中,PN(单位:分贝毫瓦)表示噪声功率,Pt表示无人机的信号发射功率,表示在不考虑所述用户的高度以及所述用户与第j架无人机的天线高度的情
况下,在时刻t所述第j架无人机给所述用户 提供通信服务时的空地链路传输损耗,所述
空地链路传输损耗 可以用如下公式表示:
[0073]
[0074] 公式(5)中,fc表示所述第j架无人机提供通信服务的载波频率,ht,j表示在时刻t第j架无人机的高度, 表示在时刻t所述用户 与所述第j 架无人机之间的水平距离,
表示在时刻t所述用户 与所述第j架无人机之间存在视距(Line‑of‑Sight,LoS)
传播的概率, 表示在时刻t所述用户 与所述第j架无人机之间存在非视距(Non 
Line‑of‑Sight, NLoS)传播的概率,ηLoS(单位:分贝)与ηNLoS(单位:分贝)是环境参数,分别
表示的是与LoS传输以及NLoS传输相对应的传输损耗。
[0075] 进一步的,公式(5)中 可以用如下方法计算:
[0076] 其中 表示在时刻t所述用户 的经度,xt,j表示在时刻t所述第j架无人机的经度, 表示在时刻t所述用户 的纬度, yt,j表示在时
刻t所述第j架无人机的纬度。
[0077] 进一步的,公式(5)中 可以用如下方法计算:其中λ1与λ2是依赖于环境类型(如农村、郊区与城区等)
的两个常数, 表示所述用户 与所述第j架无人机之间的俯仰角, 的计算方法可以
为: 其中ht,j和 这两个参数表示的含义及计算方法同前面公式
(5)的描述说明。
[0078] 进一步的,公式(5)中 可以用如下方法计算: 其中计算方法同上一步的描述说明。
[0079] 另外,公式(5)可以等效计算为:
[0080]
[0081] 其中,E与F是常数,而且,E=ηLoS‑ηNLoS,
[0082] 所述观察信息可能包括的所述网络的覆盖公平信息反应了所述网络的无人机的覆盖公平性信息,可以通过简氏公平指数方法确定,具体的,所述网络的所述覆盖公平信息
的计算方法为: 其中,ft表示所述网络的所述覆盖公平信息, 表示
在时刻t所述用户 的被覆盖率,|Uk|表示所述集合Uk的用户个数,|U|表示所述用户全集U
的用户个数。进一步的,所述 的计算方法为:
[0083] S202、控制台根据观察信息,采用深度确定性策略梯度DDPG模型确定所述观察信息对应的控制信息,所述DDPG模型为采用DDPG算法带入样本信息生成的模型,所述样本信
息指示样本观察信息与样本控制信息的映射关系;
[0084] 所述控制信息可以包括下述信息中的一种或多种:各无人机移动的俯仰角、各无人机移动的方向角、各无人机的移动距离。
[0085] 可选的,所述各无人机移动的俯仰角可以用θt,j表示,即在时刻t第j架无人机开始移动时的俯仰角,满足θt,j∈[0°,180°],所述各无人机移动的方向角可以用φt,j表示,即在
时刻t第j架无人机开始移动时的方向角,满足φt,j∈(0°,360°],所述各无人机的移动距离
可以用mt,j表示,即在时刻t第j架无人机开始移动后将要移动的距离,满足mt,j∈[0,mmax],
其中mmax表示两个时刻间的最大移动距离,如果无人机收到的所述移动距离为mt,j=0,则表
示无人机将继续悬停在当前所在空域位置。
[0086] S203、控制台把控制信息发送给所有无人机,所述无人机根据所述控制信息进行移动。
[0087] 所述无人机移动到一个新的空域位置后,所述无人机把收集到的信息发送给所述控制台,所述控制台根据收到的所述信息确定下一个时刻的观察信息。
[0088] 本实施例提供的无人机通信网络移动控制方法采用的深度确定性策略梯度DDPG模型确定的移动策略的取值是连续的,从而解决了由于移动策略的取值是离散的,而导致
对于无人机的移动控制不精确的问题。
[0089] 图3为本发明实施例提供的无人机通信网络移动控制方法的流程示意图二,本实施例的执行主体可以为一台服务器,也可以为一台配置比较高的台式机,本实施例此处不
做特别限制。本实施例在图2实施例的基础上,对图 2用到的DDPG模型的生成过程进行了详
细说明。如图3所示,该方法包括:
[0090] S301、获取样本信息;
[0091] 所述样本信息中每一个样本信息可以是一个四元组,所述四元组包括观察信息、控制信息、回报值、下一个时刻的观察信息,例如(st,at,rt,st+1)表示一个样本信息,st表示
在时刻t的观察信息,at表示在时刻t根据策略函数确定的控制信息,rt表示在时刻t执行所
述控制信息at后得到的回报值,st+1表示执行所述控制信息at后在下一个时刻t+1的观察信
息。
[0092] S302、从样本信息中随机采样M组样本信息;
[0093] S303、使用M组样本信息训练DDPG模型的参数;
[0094] 具体的,DDPG模型包括裁判评价网络Q(s,a|θQ)、行动者评价网络μ(s|θμ)、裁判目Q′ μ′ Q
标网络Q′(s,a|θ)、行动者目标网络μ′(s|θ ),其中s表示观察信息,a 表示控制信息,θ表
Q u μ Q′
示裁判评价网络Q(s,a|θ)的参数,θ表示行动者评价网络μ(s|θ)的参数,θ 表示裁判目标
Q′ μ′ μ′
网络Q′(s,a|θ )的参数,θ 表示行动者目标网络μ′(s|θ )的参数。进一步的,所述裁判评
Q
价网络Q(s,a|θ)的输入信息可以为所述观察信息s和所述控制信息a,所述裁判评价网络Q
Q Q′
(s,a|θ)的输出信息为Q值,所述裁判目标网络Q′(s,a|θ)的输入信息都是所述观察信息s
Q′
和所述控制信息a,所述裁判目标网络Q′(s,a|θ )的输出信息为Q值,所述行动者评价网络μ
μ μ
(s|θ)的输入信息可以为所述观察信息s,所述行动者评价网络μ(s|θ)的输出信息可以为
μ′
所述控制信息a,所述行动者目标网络μ′(s|θ )输入信息可以为所述观察信息s,所述行动
μ′
者目标网络μ′(s|θ )输出信息可以为所述控制信息a。更进一步的,所述Q值可以用来表示
在观察信息为s采用控制信息a时可以得到的未来回报,具体的,所述Q值可以用以下公式来
Q
表示: yt=r(st,at)+γQ(st+1,μ(st+1)|θ)。
[0095] 可选的,所述裁判评价网络Q(s,a|θQ)、行动者评价网络μ(s|θμ)、裁判目标网络Q′Q′ μ′
(s,a|θ )和行动者目标网络μ′(s|θ )都是两层全连通的前向神经网络,即所述前向神经
网络存在两个隐藏层,第一个隐藏层的神经元的个数可以是 400个,第二个隐藏层的神经
元的个数可以是300个,所述前向神经网络的激活函数可以用ReLU函数,所述前向神经网络
可以采用L2归一化策略来缓解过拟合现象,所述行动者评价网络和所述行动者目标网络在
进行参数更新时的学习速率可以设置为0.0001,所述裁判评价网络和所述裁判目标网络在
进行参数更新时的学习速率可以设置为0.001。
[0096] 可选的,所述参数θQ、θu、θQ′和θμ′之间可以存在如下关系:
[0097] θQ′=τθQ+(1‑τ)θQ′      (6)
[0098] θμ′=τθμ+(1‑τ)θμ′      (7)
[0099] 其中,公式(6)和公式(7)中的τ是一个常数。
[0100] 可选的,所述裁判评价网络Q(s,a|θQ)、行动者评价网络μ(s|θμ)、裁判目标网络Q′Q′ μ′ Q u Q′ μ′
(s,a|θ )和行动者目标网络μ′(s|θ)中的所述参数θ、θ、θ 和θ 可以是在生成样本时已
经更新过的参数。
[0101] 可选的,可以使用Q(s,a|θQ)表示所述裁判评价网络Q(s,a|θQ)的输出信息,使用μμ μ
(s|θ)表示所述行动者评价网络μ(s|θ)的输出信息,可以采用所述M组样本信息(sm,am,rm,
Q μ
sm+1)训练所述裁判评价网络Q(s,a|θ)、行动者评价网络μ(s|θ)、裁判目标网络Q′(s,a|
Q′ μ′ Q u Q′ μ′
θ)和行动者目标网络μ′(s|θ )中的所述参数θ、θ、θ 和θ ,其中m∈{1,...,M}。具体的,
μ′ Q′ Q
可以令ym=rm+γQ′(sm+1,μ′(sm+1|θ )|θ ),然后可以通过最小化损耗L(θ)来更新所述参
Q Q
数θ,所述最小化损耗L(θ)可以为 同时可以根据所述
Q′ μ
公式(6)更新θ ,同时采用样本梯度下降法更新θ,所述样本梯度下降法的公式可以为
同时可以根据所述公式(7) 更
μ′
新θ 。
[0102] S304、DDPG模型参数更新完毕后,可以把更新后的DDPG模型写入控制台;
[0103] 图4为本发明实施例提供的无人机通信网络移动控制方法的流程示意图三,本实施例的执行主体可以为一台服务器,也可以为一台配置比较高的台式机,本实施例此处不
做特别限制。本实施例在图3实施例的基础上,对图 3用到的样本信息的生成过程进行了详
细说明。如图4所示,该方法包括:
[0104] S401、初始化DDPG模型的参数、初始化经验回放缓冲器R、初始化无人机网络拓扑图G及无人机移动的目标空域范围、初始化用户模型;
[0105] 具体的,可以采用Xavier初始化方法初始化裁判评价网络Q(s,a|θQ)与行动者评μ Q μ
价网络μ(s|θ)的参数θ与θ;
[0106] 具体的,可以采用以下方法初始化无人机网络拓扑图G及无人机移动的目标空域范围:
[0107] 首先初始化无人机的空域位置,例如假设初始化后的无人机集合为J,然后初始化无人机移动的目标空域范围,即所述无人机的只能在所述目标空域范围内进行移动,然后
根据所述无人机的空域位置构建无人机网络拓扑图G,具体的,所述无人机集合J中的每一
架飞机可以作为所述无人机网络拓扑图G的一个顶点,假设所述无人机网络拓扑图的顶点
集合为V(G),如果所述无人机网络拓扑图的任意两个所述顶点之间存在可以连通的空空链
路,那么所述这两个顶点之间存在一条连线,所有的连线构成了所述无人机网络拓扑图的
边,假设所述无人机网络拓扑图的边的集合为E(G),进一步的,对任意的两个顶点j,j′∈V
(G),如果所述无人机网络拓扑图G中存在一条从j到j′的路径,那么图G是连通图,否则图G
是不连通图。
[0108] 进一步的,可以采用以下方法判断所述无人机网络拓扑图的任意两个所述顶点之间是否存在可以连通的空空链路:
[0109] 假设任意的两个顶点即任意的两架无人机分别为j和j′,假设不考虑无人机机身的遮挡,那么所述两架无人机j和j′之间将存在视距传播 (Line‑of‑Sight,LoS),可以采用
自由空间路径损耗方法计算所述两架无人机j和j′之间的空空链路传输损耗,其计算公式
如下:
[0110]
[0111] 其中,Lt,jj′(ωt,j,ωt,j′)表示所述两架无人机j和j′之间的空空链路传输损耗,fc是载波频率,单位是赫兹,c是光速,单位是米每秒,ωt,j表示在时刻t第j架无人机的空域位
置,ωt,j′表示在时刻t第j′架无人机的空域位置, d(ωt,j,ωt,j′)=||ωt,j‑ωt,j′||2表示
所述两架无人机j和j′之间的距离。当且仅当所述Lt,jj′(ωt,j,ωt,j′)小于或者等于传输损
耗门限γ1时,所述两架无人机之间存在可以连通的空空链路。
[0112] 可选的,初始化用户模型,包括初始化所述用户的物理位置及所述用户的服务质量QoS需求门限 具体的,初始化所述用户的服务质量QoS 需求门限 的方法如下:
[0113] 假设所述用户 属于用户集合Uk的概率为ρk,满足ρ1+ρ2+...+ρK=1,本实施例采用一个轮盘赌游戏确定每个用户的QoS需求,在所述轮盘赌游戏中,每个用户只允许转动轮
盘一次,轮盘转动结束后,如果轮盘的指针停留在区间 2≤k≤K,那么令所述
用户 的QoS需求为 且将该所述用户 添加到所述用户集合Uk中。如果所述轮盘的指
针停留在区间(0,ρ1]内,则该所述用户 的QoS需求为
[0114] S402、确定第一组观察信息并初始化动作探索噪声;
[0115] 根据初始化的无人机空域位置及初始化的用户模型,采用S202所描述的确定观察信息的方法确定第一组观察信息,假设所述第一组观察信息为s1,采用Ornstein‑
Uhlenbeck确定噪声过程N,所述噪声均值为0,方差为 0.3。
[0116] S403、根据观察信息、移动策略与动作探索噪声确定一个控制信息;
[0117] 具体的,把S402所述观察信息s1,输入给S402所述DDPG模型的所述行动者评价网络和所述行动者目标网络,所述行动者评价网络确定了无人机的移动策略,假设所述移动
μ μ
策略为μ(s1|θ),根据所述移动策略为μ(s1|θ)和 S402所述噪声N确定一个控制信息a1,即
μ
所述控制信息a1=μ(s1|θ)+N1。
[0118] S404、执行控制信息,得到回报值,所有无人机到达一个新的空域位置,并观察到一个新的观察信息;
[0119] 执行S403确定的控制信息a1,得到回报值r1,计算公式如下:
[0120]
[0121] 所述无人机根据所述控制信息a1进行移动后,所述无人机到达一个新的空域位置,所述无人机在所述新的空域位置观察到一个新的观察信息并发给控制台,所述控制台
根据所有所述无人机发送的所述观察信息得到一个新的观察信息s2。
[0122] S405、更新回报值,并进一步更新观察信息;
[0123] 在S404已得到回报值r1,可以根据如下方法更新所述回报值r1并进一步更新观察值s2:
[0124] 当所述无人机按照所述控制信息a1进行移动后,如果所述无人机中存在目标空域边界或之外的无人机时,更新所述回报函数r1,进一步的,当所述无人机按照所述控制信息
a1进行移动后,如果所述网络中两架无人机之间无法通信时,再次更新所述回报函数r1。同
时,当所述无人机按照所述控制信息a1进行移动后,如果所述无人机中存在目标空域之外
的无人机时,所述目标空域之外的无人机需要取消本次无人机的移动,并回到所述移动前
所在的空域位置,并更新所述取消移动的无人机的观察信息。
[0125] S406、把得到的控制信息、更新后的回报值、更新后的新的观察信息、及执行控制信息前的观察信息存储在R中,并更新DDPG模型参数;
[0126] 具体的,根据S402确定了所述执行控制信息前的观察信息即s1、根据 S403确定了所述控制信息a1、根据S405确定了更新后的回报值r1及更新后的观察信息s2,把所述s1、a1、
r1及s2组成一个四元组存储到R中。
[0127] 可选的,可以使用梯度下降法更新DDPG模型的参数。
[0128] S407、把S406确定的观察信息和更新后的DDPG模型的参数发给S402 继续执行,如此循环执行1000次;
[0129] S407、继续从S402开始执行,如次循环执行500次;
[0130] 图5为本发明实施例提供的无人机通信网络移动控制方法的流程示意图四,本实施例的执行主体可以为一台服务器,也可以为一台配置比较高的台式机,本实施例此处不
做特别限制。本实施例在图4实施例的基础上,对图4中S405过程中更新回报值并进一步更
新观察信息的方法进行了详细说明。如图5所示,该方法包括:
[0131] S501、执行控制信息,得到回报值,所有无人机到达一个新的空域位置,并观察到一个新的观察信息;
[0132] S502、对于每一架无人机判断边界空白策略是否被激活;若否,则执行S505,若是,则执行S503。
[0133] 具体的,所述判断边界空白策略是否被激活的方法如下:
[0134] 当所述无人机到达一个新的空域位置后,判断所述无人机是否存在目标空域边界或之外的无人机,所述目标空域边界是压缩所述无人机移动的目标空域范围后的新的3维
空域,所述压缩的比例是υ1。
[0135] S503、利用边界空白策略更新回报值,并进一步判断无人机是否飞出预先设定的目标空域范围,若否,则执行S505,若是,则执行S504。
[0136] 可选的,可以采用如下公式(8)更新所述回报函数;
[0137]
[0138] 其中,α=1/(12500|J|)与β=3/|J|‑9/(25|J|)是两个调整回报函数的系数, |J|表示所述网络的无人机的架数,而且,
[0139]
[0140]
[0141]
[0142] 进一步的,xt,j表示在时刻t第j架无人机的经度,yt,j表示在时刻t第j架无人机的纬度,ht,j表示在时刻t第j架无人机的高度,xl表示所述xt,j的最小值, xu表示所述xt,j的最
大值,yl表示所述yt,j的最小值,yu表示所述yt,j的最大值, hl表示所述ht,j的最小值,hu表示
所述ht,j的最大值,υ1表示一个常数。
[0143] S504、取消所述存在目标空域边界或之外的无人机的本次移动,所述无人机的位置变为移动前的位置,更新观察信息;
[0144] S505、得到更新后的回报值、所有无人机的空域位置及更新后的观察信息;
[0145] S506、基于无人机的空域位置,判断任意两架无人机是否连通;若否,则执行S508,若是,则执行S507。
[0146] S507、将连通的空空链路添加到图G中;
[0147] S508、不需要对图G执行任何动作;
[0148] S509、根据空域中任意两架无人机的连通性更新完图G后,检测无人机网络图G是否连通,若否,则执行S510,若是,则执行S511。
[0149] 可选的,可以采用迪克斯特拉算法判断任意两架无人机是否连通,对任意的j,j′∈J,在时间时刻t,如果第j架无人机与第j′架无人机之间不存在一条传输路径,那么所述
无人机网络在时刻t是不连通的。
[0150] S510、利用不连通策略更新回报值,同时,所述无人机的位置变为移动前的位置,更新观察信息;
[0151] 具体的,可以采用如下公式更新回报值:rt=rt‑υ2|rt|,其中,υ2>>1是一个较大的系数,此外,所述无人机需要取消本次无人机的移动,并回到所述移动前所在的空域位置,
并更新观察信息。
[0152] S511、回报值不用更新;
[0153] S512、得到更新后的回报值及进一步更新后的观察信息。
[0154] 本实施例提供的无人机通信网络移动控制方法,获取样本信息;从样本信息中随机采样M组样本信息;使用M组样本信息训练DDPG模型的参数;DDPG 模型参数更新完毕后,
可以把更新后的DDPG模型写入控制台。本实施例提供的无人机通信网络移动控制方法,在
与随机环境进行交互的过程中可以产生大量的训练数据集,不要求输入大量的训练数据
集。
[0155] 进一步地,本实施例提供的无人机通信网络移动控制方法,在结束训练后能够适用于多种新的通信覆盖场景,对新的通信场景不需要重新训练强化学习的网络模型参数。
另外,本实施例提供的移动控制方法的训练过程可以离线完成,在线实现的复杂度较低。
[0156] 图6为本发明实施例提供的无人机通信网络移动控制装置的结构示意图。如图6所示,该无人机通信网络移动控制装置包括:
[0157] 观察信息确定模块,用于确定当前时刻的观察信息;所述观察信息包括下述信息中的一种或多种:各无人机的能量开销信息、基于所述无人机提供的网络中各用户的覆盖
指示信息或所述网络的覆盖公平信息;
[0158] 控制信息确定模块,用于根据所述观察信息,采用深度确定性策略梯度 DDPG模型,确定所述观察信息对应的控制信息;所述DDPG模型为采用 DDPG算法带入样本信息生成
的模型,所述样本信息指示样本观察信息与样本控制信息的映射关系;
[0159] 控制模块,根据所述控制信息控制所述无人机移动。
[0160] 本实施例提供的无人机通信网络移动控制装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
[0161] 图7为本发明实施例提供的无人机通信网络移动控制设备的硬件结构示意图。如图7所述,本实施例提供的无人机通信网络移动控制设备70包括:
[0162] 处理器701、存储器702;其中
[0163] 存储器702,用于存储计算机执行指令。
[0164] 处理器701,用于执行存储器存储的计算机执行指令。
[0165] 处理器701通过执行存储器存储的计算机执行指令,实现了上述实施例中无人机通信网络移动控制设备所执行的各个步骤。具体可以参见上述方法实施例中的相关描述。
[0166] 可选地,存储器702既可以是独立的,也可以跟处理器701集成在一起,本实施例不做具体限定。
[0167] 当存储器702独立设置时,该无人机通信网络移动控制设备还包括总线 703,用于连接所述存储器702、处理器701。
[0168] 本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的移动控制量方
法。
[0169] 在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅
仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者
可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之
间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连
接,可以是电性,机械或其它的形式。
[0170] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目
的。
[0171] 另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的
单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0172] 上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机
设备(可以是个人计算机,服务器,或者网络设备等) 或处理器(英文:processor)执行本申
请各个实施例所述方法的部分步骤。
[0173] 应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,
简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:
ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发
明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软
件模块组合执行完成。
[0174] 存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
[0175] 总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(Extended 
Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制
总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
[0176] 上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器 (EEPROM),可擦除可编
程只读存储器(EPROM),可编程只读存储器 (PROM),只读存储器(ROM),磁存储器,快闪存储
器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0177] 一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存
储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:
ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
[0178] 本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程
序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或
者光盘等各种可以存储程序代码的介质。
[0179] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依
然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进
行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术
方案的范围。