基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置转让专利

申请号 : CN202210011530.0

文献号 : CN114339842B

文献日 : 2022-12-20

本发明提供一种基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置，方法包括：用户分簇步骤，基于分簇结果确定各个无人机所服务的用户；用户时变数据预测步骤，预测当前服务过程中每个时隙内用户的时变数据；无人机飞行动作获取步骤，在每份时隙内基于无人机位置和每个用户的时变数据计算得出满足预设的约束条件的无人机飞行动作，使无人机进行飞行动作后网络吞吐量在下个时隙内达到最大值；无人机动态轨迹设计步骤，基于在各个时隙内执行无人机飞行动作获取步骤获得的多个无人机飞行动作来获得在当前服务过程中的无人机动态轨迹设计。本发明考虑了地面用户的移动性和通信请求的时变性，保证用户服务质量的同时最大化无人机吞吐量。

1.一种基于深度强化学习无人机集群在时变场景下动态轨迹设计方法，其特征在于，所述方法包括以下步骤：用户分簇步骤，中心无人机按照无人机集群中无人机的数量和用户的位置数据利用聚类算法对多个用户进行分簇，以基于分簇结果确定各个无人机所服务的用户，每个簇的水平位置作为服务该簇的无人机的初始水平位置，所述中心无人机为无人机集群中负责动态轨迹设计的无人机；

用户时变数据预测步骤，每个无人机利用第一神经网络基于用户的历史时变数据预测当前服务过程中一个或多个时隙内用户的时变数据；所述时变数据包括位置数据和通信请求概率数据；

用户上行通信速率计算步骤，基于无人机基站与地面用户之间服从的空地概率信道模型和用户通信请求概率，计算用户的上行通信速率；

无人机飞行动作获取步骤，利用第二神经网络在每份时隙内基于每个无人机当前状态和每个无人机预测的每个用户的时变数据计算满足预设的约束条件的下个时隙的每个无人机飞行动作，使得无人机在下个时隙内进行飞行动作后网络吞吐量达到最大值；其中，所述网络吞吐量基于当前服务过程中的用户数量和每个用户的上行通信速率计算获得；所述预设的约束条件包括无人机进行飞行动作时满足的飞行限制和无人机提供的用户服务质量保证；

无人机集群动态轨迹设计步骤，基于在各个时隙内执行无人机飞行动作获取步骤获得的多个无人机各自的多个飞行动作来获得在当前服务过程中的无人机集群的动态轨迹设计。

2.根据权利要求1所述的方法，其特征在于，所述第二神经网络的架构包括输入端和输出端，每个用户的时变数据和每个无人机的位置为输入端的输入数据，每个无人机飞行动作对应的网络吞吐量期望值为输出端的输出数据。

3.根据权利要求1所述的方法，其特征在于，所述无人机飞行动作获取步骤还包括：

在每个时隙中，仿真计算在当前时隙中第二神经网络在预设数量的训练周期中最后一个训练周期输出的预设数量个期望值以获得下个时隙中无人机位于不同位置时的网络吞吐量，并输出无人机基于当前实际位置到达下个时隙中网络吞吐量的最大值对应的位置所需的飞行动作作为无人机在当前时隙的实际飞行动作，所述期望值基于每个训练周期中无人机在不同位置的网络吞吐量计算得到。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：无人机在当前时隙时，利用第一神经网络基于用户历史时变数据预测下个时隙内用户的时变数据。

5.根据权利要求1所述的方法，其特征在于，所述方法包括：

所述无人机的飞行限制为无人机的飞行动作不能使得无人机处于无人机服务区域外。

6.根据权利要求1所述的方法，其特征在于，所述用户服务质量保证为无人机进行飞行动作后的位置保证下个时隙内每个用户通信速率不小于预设的最小上行通信速率。

7.根据权利要求1所述的方法，其特征在于，所述通信请求概率数据为当前时隙中用户累计通信时间与当前时隙的比值。

8.根据权利要求1所述的方法，其特征在于，所述第一神经网络为回声状态网络ESN或长短期记忆循环神经网络LSTM，所述第二神经网络为双重深度Q学习神经网络DDQN或确定性策略强化学习算法神经网络DPG。

9.一种基于深度强化学习无人机时变场景下动态轨迹设计装置，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1‑8中任意一项所述方法的步骤。

基于深度强化学习无人机集群在时变场景下动态轨迹设计方

法和装置

技术领域

[0001] 本发明涉及无人机、人工神经网络等技术领域，尤其涉及一种基于深度强化学习无人机时变场景下动态轨迹设计方法。

背景技术

[0002] 无人机由于其高机动性、易于部署和低成本等特性，在民用和军事领域的应用都得到了显著扩展。一般来说，无人机飞行在高空中通常具有更高的概率与地面用户建立视距链路，与地面衰落信道相比，它可以提供更好的信道条件,甚至可以基于它的实时位置预测信道状态信息。

[0003] 目前的无人机基站位置部署与飞行轨迹设计方案，考虑的应用场景基本为简单固定的，认为无人机基站与服务对象之间的信道不具有时变特性，即不考虑无人机通信场景下用户的移动性和通信请求的时变性，将无人机作为空中基站，固定部署位置，为地面用户提供通信需求。这种情况下无人机的轨迹设计或位置部署具有很大的局限性，由于没有考虑到无人机通信场景的时变因素，不能够将无人机的高机动性和通信场景的时变性相结合，与实际场景下大相径庭，极大的限制了无人机基站的优势。

[0004] 实际上，采用具有处理实际场景中用户时变特性的无人机轨迹设计方法，对于优化网络吞吐量、提高用户服务质量，使无人机能够在实际通信应用中表现出更优越的性能具有重要的意义。因此，如何考虑用户的移动性和通信请求的时变性来提供一种考虑了处理实际场景中用户时变特性的无人机集群轨迹设计方案，保证用户服务质量的同时最大化网络吞吐量的成为亟待解决的技术问题。

发明内容

[0005] 有鉴于此，本发明实施例提供了一种基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置，以在真实地面用户时变场景中使得网络吞吐量最大化并保证用户服务质量。

[0006] 本发明的一个方面提供了一种基于深度强化学习无人机时变场景下动态轨迹设计方法，该方法包括以下步骤：

[0007] 用户分簇步骤，中心无人机按照无人机集群中无人机的数量和用户的位置数据利用聚类算法对多个用户进行分簇，以基于分簇结果确定各个无人机所服务的用户，每个簇的水平位置作为服务该簇的无人机的初始水平位置，所述中心无人机为无人机集群中负责动态轨迹设计的无人机；

[0008] 用户时变数据预测步骤，每个无人机利用第一神经网络基于用户的历史时变数据预测当前服务过程中一个或多个时隙内用户的时变数据；所述时变数据包括位置数据和通信请求概率数据；

[0009] 用户上行通信速率计算步骤，基于无人机基站与地面用户之间服从的空地概率信道模型和用户通信请求概率，计算用户的上行通信速率；

[0010] 无人机飞行动作获取步骤，利用第二神经网络在每份时隙内基于每个无人机当前状态和每个无人机预测的每个用户的时变数据计算满足预设的约束条件的下个时隙的每个无人机飞行动作，使得无人机在下个时隙内进行飞行动作后网络吞吐量达到最大值；其中，所述网络吞吐量基于当前服务过程中的用户数量和每个用户的上行通信速率计算获得；所述预设的约束条件包括无人机进行飞行动作时满足的飞行限制和无人机提供的用户服务质量保证；

[0011] 无人机集群动态轨迹设计步骤，基于在各个时隙内执行无人机飞行动作获取步骤获得的多个无人机各自的多个飞行动作来获得在当前服务过程中的无人机集群的动态轨迹设计。

[0012] 在本发明的一些实施例中，所述第二神经网络的架构包括输入端和输出端，每个用户的时变数据和每个无人机的位置为输入端的输入数据，每个无人机飞行动作对应的网络吞吐量期望值为输出端的输出数据。

[0013] 在本发明的一些实施例中，所述无人机飞行动作获取步骤还包括：

[0014] 在每个时隙中，仿真计算在当前时隙中第二神经网络在预设数量的训练周期中最后一个训练周期输出的预设数量个期望值以获得下个时隙中无人机位于不同位置时的网络吞吐量，并输出无人机基于当前实际位置到达下个时隙中网络吞吐量的最大值对应的位置所需的飞行动作作为无人机在当前时隙的实际飞行动作，所述期望值基于每个训练周期中无人机在不同位置的网络吞吐量计算得到。

[0015] 在本发明的一些实施例中，所述方法还包括：无人机在当前时隙时，利用第一神经网络基于用户历史时变数据预测下个时隙内用户的时变数据。

[0016] 在本发明的一些实施例中，所述方法包括：所述无人机的飞行限制为无人机的飞行动作不能使得无人机处于无人机服务区域外。

[0017] 在本发明的一些实施例中，所述用户服务质量保证为无人机进行飞行动作后的位置保证下个时隙内每个用户通信速率不小于预设的最小上行通信速率。

[0018] 在本发明的一些实施例中，所述通信请求概率数据为当前时隙中用户累计通信时间与当前时隙的比值。

[0019] 在本发明的一些实施例中，所述第一神经网络为回声状态网络(ESN)或长短期记忆循环神经网络(LSTM)，所述第二神经网络为双重深度Q学习神经网络(DDQN)或确定性策略强化学习算法神经网络(DPG)。

[0020] 本发明的另一方面，提供一种基于深度强化学习无人机时变场景下动态轨迹设计装置，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现上述任一项实施例所述方法的步骤。

[0021] 本发明的再一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述任一实施例所述方法的步骤。

[0022] 本发明的基于深度强化学习无人机集群在时变场景下动态轨迹设计方法，能够解决地面用户具有时变性时，保证用户服务质量同时最大化网络吞吐量，如此不仅能够将无人机的高机动性和通信场景的时变性相结合，且充分发挥了无人机基站的优势。

[0023] 本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

[0024] 本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

[0025] 此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

[0026] 图1为本发明一实施例中基于深度强化学习无人机时变场景下动态轨迹设计方法的逻辑流程图。

[0027] 图2为本发明一实施例中DDQN算法的逻辑框架图。

具体实施方式

[0028] 为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

[0029] 在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

[0030] 应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

[0031] 为了解决现有技术中，部署无人机(智能体)通信基站时未考虑用户的移动性和通信请求的时变性导致的无人机通信基站性能发挥不充分的问题，本发明提供了一种基于深度强化学习无人机集群在时变场景下动态轨迹设计方法，其适用于在各个地面用户请求通信的时间及通信时长不同，并且随时间的推移地面用户会按照自己的轨迹运动的实际情景。现有技术中，在确认信道条件满足空地概率信道模型的情况下，无人机作为通信基站与用户建立相较于地面衰落信道能够提供更好的信道条件的空地概率信道并在后续的通信过程中不再对无人机位置进行调整。当得知无人机的位置、地面用户的位置、地面用户的通信请求概率等数据后可基于空地信道概率模型对应的通信速率计算公式和地面用户的通信请求概率计算求出地面用户的上行通信速率，利用该上行通信速率可计算得出评估无人机为用户提供的服务质量的指标参数网络吞吐量。在无人机作为通信基站进行服务时，故无人机提供的服务质量主要取决于无人机的位置，也即优化无人机轨迹即可优化服务质量。

[0032] 本发明中通过动态调整每个无人机的位置来优化每个无人机与其服务的用户的网络吞吐量，使得无人机集群与多个用户组成的系统的总网络吞吐量达到最大值。而位置调整需要一系列的飞行动作(即动态轨迹)的优化，故完成动态轨迹的设计即可优化网络吞吐量。

[0033] 在本发明中，在无人机集群为用户提供服务过程中，将服务过程分为多个时隙，所述时隙为预设长度的一段时间。作为示例，该时隙的预设长度在实验数据以及计算量与计算准确率的权衡下预设为一分钟，但本发明并不限于此，可以是其他预设长度的时隙。在一个时隙中，本发明认为地面用户的时变数据不发生改变或其改变幅度对计算结果产生的影响可以忽略不计，在此地面用户的时变数据可包括地面用户的位置和地面用户的通信请求概率，所述通信请求概率为当前时隙中该用户的累计通信时间与当前时隙的比值。在一个时隙内，求解每个无人机的优化部署位置即可最大化当前时隙内的网络吞吐量，当下个时隙到来，地面用户的位置和/或通信请求概率发生改变，可依据改变后的地面用户的位置和/或通信请求概率求得下个时隙的每个无人机的优化部署位置，并输出从当前时隙的每个无人机优化部署位置到达下个时隙的每个无人机的优化部署位置所需的所有飞行动作，依次在每个时隙进行上述步骤即可在每个时隙最大化网络吞吐量，服务过程的每个时隙都达到其最大化的网络吞吐量时，服务过程中的总网络吞吐量亦达到最大值，其中，总网络吞吐量描述为每个无人机在整个服务过程中为其服务的用户提供的上行通信数据量之和。此时每个时隙的每个无人机各自飞行动作相连即完成了无人机集群中所有无人机的动态轨迹设计。

[0034] 计算网络吞吐量需要的基本参数包括无人机的位置、地面用户的位置和地面用户的通信请求概率。首先，需要获得地面用户的时变数据，也即每个时隙内地面用户的位置和地面用户的通信请求概率。本发明提出的轨迹计算方法基于第一深度学习网络，如回声状态网络(Echo State Network，ESN)，来预测无人机服务过程中每个时隙的所有用户的时变数据，基于预测得到的每个时隙中所有用户的时变数据和无人机的位置使用双重深度Q学习神经网络(Double Deep Q Network，DDQN，也称为双重DQN)仿真计算下个时隙内无人机最佳部署位置并输出无人机的到达最佳部署位置的无人机飞行动作，其中，该最佳部署位置使得在已知用户位置和用户的通信请求概率的情况下，无人机位于该最佳部署位置时该时隙的网络吞吐量达到最大值。在服务过程中重复在每个时隙都执行获取无人机的在当前时隙对应下个时隙最佳部署位置的飞行动作的步骤且无人机执行该飞行动作，通过DDQN计算得出的每个时隙的每个无人机飞行动作共同构成无人机集群的动态轨迹。

[0035] 如图1为本发明的基于深度强化学习无人机时变场景下动态轨迹设计方法的流程图，如图1所示，该方法包括步骤S110‑S150。

[0036] 用户分簇步骤S110，本发明中使用无人机集群来优化网络吞吐量，在包括给定数量的无人机的无人机集群中，中心无人机首先利用K‑means分簇算法(聚类算法)基于无人机的数量对多个用户的位置数据利用聚类算法对多个用户进行分簇；簇的数量预设为无人机集群中无人机的数量，也即基于分簇结果确定各个无人机所服务的用户。分好簇后，每个簇的水平位置作为服务该簇的无人机的初始水平位置，所述中心无人机为无人机集群中负责动态轨迹设计的无人机；无人机的初始高度为在合理区间范围内随机选择的值，无人机的飞行高度在合理区间为能够保持无人机飞行和受地面障碍物影响较小高度范围。在本发明的一实施例中，无人机仅服务其分得的簇内的用户。

[0037] 用户时变数据预测步骤S120，每个无人机利用第一神经网络基于用户的历史时变数据预测当前服务过程中一个或多个时隙内用户的时变数据；所述时变数据包括位置数据和通信请求概率数据。

[0038] 在本发明实施例中，预先建立了无人机辅助网络在时变场景下系统模型，以后续基于建立的系统模型来分析信道条件并获得地面用户的上行通信速率。在建立的系统模型中，在无人机三维(3D)飞行场景下，可将无人机基站为用户提供服务的服务时长分为很多个小的时隙，从而可以认为在每份时隙内移动的地面用户位置不发生变化，用户的通信请求概率不发生改变。作为示例，每份时隙长度例如可以是1分钟，但并不限于此。在整个通信时间内，以t代表第t个时隙，则无人机的3D飞行轨迹q(t)可表示为：q(t)＝[x(t)，y(t)，h(t)]，地面用户i按照自己的轨迹的运动，轨迹可表示为ui(t)＝[xi(t),yi(t),0]，用户i的通信请求概率为pi(t)。

[0039] 在本发明实施例中，将基于所有用户的历史时变数据预测当前服务过程中一个或多个时隙内所有用户的时变数据，这在后面将详细描述。

[0040] 用户上行通信速率计算步骤S130，基于无人机基站与地面用户之间服从的空地概率信道模型和用户通信请求概率，计算各用户的上行通信速率。

[0041] 本发明实施例中，认为无人机基站与地面用户之间的信道服从现有的空地概率信道模型，根据现有空地概率信道模型的通信速率计算公式和用户通信请求概率，可求出用户的上行通信速率。计算用户通信速率的目的是为了后续计算优化目标“网络吞吐量”。由于空地概率信道模型为现有模型，在此不再赘述。

[0042] 无人机飞行动作获取步骤S140，中心无人机利用第二神经网络在每份时隙内基于每个无人机当前状态和每个无人机预测的每个用户的时变数据计算满足预设的约束条件的下个时隙的每个无人机飞行动作，使得无人机在下个时隙内进行飞行动作后网络吞吐量达到最大值。

[0043] 在本发明中，执行无人机飞行动作获取步骤的为无人机集群中的中心无人机，无人机集群中除中心无人机以外的无人机仅执行第一神经网络预测其服务的用户的时变数据，由于无人机基站之间使用相同的频段，无人机之间存在的同频干扰会使无人机给用户提供的服务质量下降，故在步骤S140中，每个无人机都将向中心无人机广播自己簇中的信息，每个无人机广播的簇中的信息包括：当前簇对应的无人机的位置，当前簇中地面用户的时变数据。

[0044] 其中，上述网络吞吐量基于当前服务过程中的用户数量和每个用户的上行通信速率计算获得；所述预设的约束条件包括无人机进行飞行动作时满足的飞行限制和无人机提供的用户服务质量保证。

[0045] 在本发明实施例中，构建有无人机轨迹控制模型，该模型以最大化网络吞吐量(为所有用户提供的上行通信数据量)为优化目标，以无人机实际飞行限制、用户服务质量保证为约束条件。其中，无人机实际飞行限制例如包括无人机的飞行区域限制和高度限制等，使得无人机的飞行不超出无人机服务区域外。用户服务质量保证约束条件例如包括用户须满足：用户上行通信速率大于最小上行通信速率。

[0046] 在本发明实施例中，可设置无人机的状态、动作空间和奖励函数，以建立马尔可夫决策过程(Markov Decision Process,MDP)，并采用第二神经网络(如DDQN)算法实现无人机轨迹的控制。马尔可夫决策过程是序贯决策的数学模型，用于在系统状态具有马尔可夫性质的环境中模拟智能体(本发明中智能体为无人机集群)可实现的随机性策略与回报。本发明实施例中马尔可夫决策过程描述为：当智能体做出动作(本发明中的动作为所有无人机进行一次作动)导致智能体状态由第一状态(如状态s)转化为第二状态(如状态s′)时，交互环境给予智能体反馈奖励函数r。奖励函数可描述为本次步进得到的总网络吞吐量与上一次步进得到的总网络吞吐量的差值；当本次步进得到的吞吐量不满足任一用户的服务质量时，本次步进得到的吞吐量设定为零。其中，步进描述为：所有无人机执行一次动作，即每个无人机向前或后、左、右、上、下或停留飞行一段距离，但无人机之间的动作可以是不同的。

[0047] 在本发明实施例中，智能体状态可包括以下参数：每个无人机的3D位置(x,y,h)，2
每个用户的位置(x1，y1)，(x2，y2)，…，(xi，yi)，以及每个用户的通信请求概率p1，p，...，pi。

[0048] 本步骤中使用无人机当前状态和利用第一神经网络预测的每个用户的时变数据作为状态空间的一部分利用神经网络进行训练来得到最佳部署位置以最大化吞吐量。

[0049] 无人机集群动态轨迹设计步骤S150，基于在各个时隙内执行无人机飞行动作获取步骤获得的每个无人机在不同时隙的各自的多个飞行动作，来获得在当前服务过程中的无人机集群的动态轨迹设计。

[0050] 在本发明的实施例中，每个无人机都具有运算能力，每个无人机都执行第一神经网络预测其服务用户的时变数据，并在每次步进后广播自己簇中的信息。无人机飞行动作获取步骤计算过程由中心无人机依据实时采集到的数据进行计算输出无人机集群中其他无人机的飞行动作，在本实施例中，由于无人机具有运算能力，可预设时隙长度，可根据实时数据利用ESN预测下一时隙的用户时变数据。本发明实施例中，可无需预设无人机的服务时长，仅需预设时隙长度，无人机的服务时长取决于无人机的性能限制或停止服务的指令。

[0051] 在本发明的一实施例中，可使用ESN作为第一神经网络预测用户的时变数据，但本发明并不限于此，其他基于历史状态预测未来状态的神经网络也可使用在本发明中，例如长短期记忆循环神经网络LSTM。在本发明中主要以ESN作为第一神经网络的示例进行动态轨迹设计。

[0052] 在本发明的一实施例中，在步骤S120，无人机基于地面用户的历史时变数据(该历史时变数据可以是统计得到的上次服务过程中的时变数据，也可以是本次服务过程中历史时隙的时变数据)利用ESN预测当前时隙对应的下个时隙内的用户时变数据。在本发明的另一实施例中，无人机基于地面用户的历史时变数据可利用ESN预测多个时隙的用户时变数据，如本次服务中所有时隙的用户时变数据，这种情况需要预设无人机基站的服务时间以确定需要预测多少个时隙的时变数据。在本发明的一实施例中，可使用两个ESN分别获取用户的位置数据和通信请求概率数据。其中，ESN输入、输出的量的形式是一样的，输入量是观测到的真实的历史时变数据，输出量是预测用户将要发生的时变数据。如图2所示，在交互环境中，观测到用户的历史时变数据；在当前时隙，历史数据作为ESN的输入，ESN输出在未来多个时隙内每个用户的位置与其通信请求概率的预测。具体表示为(xi，yi)和pi，其中(xi，yi)表示第i个地面用户在当前时隙的位置，其中pi表示第i个地面用户在当前时隙的通信请求概率。

[0053] 在获得计算网络吞吐量的所需的两个基本参数地面用户的位置和地面用户的通信请求概率数据之后，接下来对本发明的无人机飞行动作获取步骤进行详细描述。在本发明的一实施例中，主要使用DDQN作为第二神经网络进行阐述，但本发明并不限于此，其他求解最优路径类的神经网络也可适用于本发明，例如确定性策略梯度(Deterministic policy gradient，DPG)强化学习算法神经网络。

[0054] 在本发明实施例中，在步骤S140，进行动态轨迹的设计的目的是为了最大化网络吞吐量，但在飞行动作获取步骤中需要对计算得出的飞行动作进行约束，该约束条件为预设的约束条件，其包括：每个无人机进行飞行动作后的位置必须保证下个时隙内当前无人机服务的用户的通信速率不小于预设的最小上行通信速率(保证用户服务质量的方法)和无人机进行飞行动作后不能使得无人机处于无人机服务区域外，在步骤S140中输出满足预设的约束条件的飞行动作。接下来将详细描述如何获得每个时隙内的飞行动作以使得无人机进行飞行动作后处于下个时隙内的最佳部署位置。

[0055] 在本发明的一实施例中，在建立马尔可夫决策过程中，如图2所示，设置智能体的状态为s，状态s中包括每个无人机的三维空间位置、每个用户的地面平面位置和每个用户的通信请求概率。由于无人机基站与地面用户建立了空地概率信道，故可虚拟计算无人机进行飞行动作后的位置对应的网络吞吐量。马尔可夫决策过程描述为：当智能体做出动作a导致智能体状态由s转化为s′时，交互环境给予智能体反馈奖励函数r。奖励函数r描述为执行一次步进后的当前时隙的总网络吞吐量(当前时隙所有用户的吞吐量的和)与上一次步进得到的当前时隙的总网络吞吐量的差值；当本次步进得到的吞吐量不满足用户服务质量时，本次步进得到的吞吐量设定为零。

[0056] 在每个时隙中心无人机多次进行虚拟计算以执行多次马尔可夫决策过程(此时所有的无人机实际上并不执行飞行动作，中心无人机仅在计算下一时隙的每个无人机的优化部署位置，当计算得出到达下一时隙最佳部署位置的飞行动作时每个无人机将直接执行该飞行动作并悬停至下一时隙结束)并比较其得到的奖励函数大小，在比较各个部署位置奖励函数大小后进而得到在下个时隙每个无人机的优化部署位置，即可求出每个无人机在当前时隙时进入下一时隙的优化部署位置所需的飞行动作。

[0057] 具体的，利用DDQN基于当前的智能体状态输出可靠的动作a，详细描述如下。首先，初始化DDQN网络架构，即设定输入DDQN的数据s的维度为3，其包括M个无人机的三维坐标位置、每个地面用户的位置和每个地面用户的通信请求概率，设定DDQN输出的维度为7的M次方；即每个无人机的具有7个飞行动作，其包括：向上、向下、向左、向右、向前、向后、悬停。为方便理解，在此距离无人机集群具有两个无人机，则DDQN的输出维度为第一个无人机的七个飞行动作与第二个无人机的七个飞行动作的乘积，故DDQN的输出维度为7的M次方。其次，初始化两个DQN网络的权重参数w，w′。

[0058] 在完成初始化DDQN网络架构后，对DDQN进行训练，首先在每个时隙设置多个训练周期，设置每个训练周期内智能体需要的步进次数；每次步进将目前状态s输入如图2所示的两个DQN网络之一的当前网络Q(s，a)，当前网络依据输入的s输出7的M次方个期望值。所述期望值为累计奖励的期望值，具体为：当前训练周期中从第一次步进前的位置开始，每次步进后得到奖励r，期望值为当前训练周期中当前步进后所得的奖励r与之前所有步进后所得的奖励r的和。选择其中最大期望值对应的动作作为本次智能体步进的动作a，基于动作a获得新位置的智能体状态s′并得到新位置的奖励r；需要注意的是，原本的基于期望值选择的动作过程其实质上是为了选择所有无人机飞行动作的集合，故在本发明中为方便描述，在下文中将直接描述为的当前网络输出飞行动作集合。在一个步进过程中，如图2所示实线框所示，每次步进后收集步进前的智能体状态s、动作a、步进后到达的新位置的智能体状态s′和依据状态s′和状态s求得的奖励r生成一个[s，a，r，s′]样本存入经验回放池中；在每次步进后，还需对DDQN进行训练，如图2虚线框所示，具体为，在经验回放池中随机取出多个样本[s，a，r，s′]参与训练，且每次步进后取出的样本数量相同，每次步进后基于取出的所有样本训练得到的所有损失方程求得损失方程的均值，并使用梯度回传的方式最小化损失方程来训练当前网络Q(s，a)的参数w以完成本次步进后对DDQN的训练；以其中的一个样本举例说明，将该样本的状态s输入当前网络Q(s，a)并输出7的M次方个飞行动作集合，并选择输出的飞行动作与当前样本中的飞行动作集合a相同的当前网络记为Q*(s，a)参与训练，将该样本的s′输入目标网络和当前网络，并依据贪婪法则选择当前网络Q(s′，a)输出的飞行动作a中期望值最大的飞行动作记作a′*作为参考，选择目标网络Q′(s′,a)中输出的飞行动作a与a′*相同的目标网络记作Q*(s′，a)参与训练；如图2所示，训练方式为：将Q*(s′，a)与衰减因子γ的乘积与当前样本的奖励r的和记作y，将y与Q*(s，a)作差计算损失方程，在一个训练周期内，当步进次数满足预设的步进次数时，将当前网络Q(s，a)的参数w赋值给目标网络的参数w′完成一个训练周期的神经网络训练。

[0059] 在接下来的每个训练周期中，重复上述训练周期内的多次步进过程以继续训练DDQN，当在一个时隙中，进行了预设数量次的训练周期时，如图2所示，在图2中上方实线方框中，选择当前时隙中最后一个训练周期的DDQN输出的多个飞行动作a中使用贪心法则选择使得期望值最大的飞行动作集合作为输出实际飞行动作集合a*，即本发明认为在一个时隙内经过预设数量次的训练周期后完成了对DDQN的训练，此时DDQN依据当前的智能体状态s输出的飞行动作集合a是可靠的。也即，在每个时隙中，仿真计算在当前时隙中第二神经网络在预设数量的训练周期中最后一个训练周期输出的预设数量个飞行动作以获得下个时隙中无人机位于不同位置时的网络吞吐量，并选择下个时隙中到达网络吞吐量的最大值对应的位置所需的飞行动作集合作为无人机集群在当前时隙的实际飞行动作a*。进入新的时隙时，无人机集群依据该实际飞行动作集合进行作动到达下个时隙内的优化部署位置，具体的，中心无人机将计算得出的飞行动作集合拆分为每个无人机的动作，并通过专用信道发送给各个无人机，各个无人机收到其度一应的飞行动作并执行。

[0060] 在步骤S150，在进入新的时隙时，无需初始化DDQN网络架构，但需初始化DDQN的参数w和w′，这是由于在当前的无人机位置时，每个无人机的位置相对于上个时隙发生了改变，且用户的时变数据也发生了改变，故寻找下个时隙的优化部署位置的路径的逻辑与上个时隙寻找当前时隙优化部署位置的路径的逻辑不同。在新的时隙内，依旧重复进行预设数量次的训练周期以训练DDQN的参数，并选择新的时隙内的最后一次训练周期训练好的DDQN输出实际飞行动作集合，并在接下来的每个时隙如此循环往复，所有时隙的每个无人机的实际飞行动作首尾相连即为本发明设计的动态轨迹。

[0061] 本发明与现有技术相比，具有的能够在用户具有时变特性的实际场景中，对无人机的动态轨迹进行设计，从而能够使无人机在实际通信应用中基于其高机动性的特点更好的发挥其性能，且由于使用了无人机集群进行服务，使得服务范围相较于单个无人机的服务范围更大，也解决了实际场景中，由于地面用户发生位置改变等因素导致用户服务质量下降无法保证用户服务质量的问题。

[0062] 与上述方法相应地，本发明还提供了一种基于深度强化学习无人机时变场景下动态轨迹设计装置，该装置包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

[0063] 本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD‑ROM、或技术领域内所公知的任意其它形式的存储介质。

[0064] 本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

[0065] 需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

[0066] 本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

[0067] 以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置转让专利

申请号 : CN202210011530.0

文献号 : CN114339842B

文献日 : 2022-12-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 郭莉 , 李庆亚 , 董超 , 慕熹东

申请人 : 北京邮电大学

摘要 :

权利要求 :

说明书 :