一种无人机路径规划方法及装置转让专利

申请号 : CN201910251403.6

文献号 : CN109990790B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王莉费爱国宋颖祥李宛苡宋梅

申请人 : 北京邮电大学

摘要 :

本发明实施例提供一种无人机路径规划方法及装置,该方法包括:获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设无人机路径规划模型是通过最小最大化信息年龄模型和无人机的样本行为选择进行训练得到的。通过最小最大化信息年龄模型来对预设无人机路径规划模型进行训练,充分优化无人机的样本行为选择对于待收集数据信息寿命的影响,训练完毕后的预设无人机路径规划模型可以根据无人机当前位置信息自动规划最优路径,此时的最优路径会使得过期数据包的数量最小化,减少了数据信息因为过期而导致的信息丢失。

权利要求 :

1.一种无人机路径规划方法,其特征在于,包括:获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;

将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;

其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的;

所述最小化最大信息年龄模型为:其中, 为数据包年龄信息, tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵,矩阵元素 是二元变量,

表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m;j为数据包编号,J为每个传感器最多可存储的数据包数量。

2.根据权利要求1所述方法,其特征在于,所述将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息的步骤之前,所述方法还包括:根据无人机样本位置信息生成随机概率信息;

根据所述随机概率信息和预设概率信息,确定无人机的样本行为选择;

将无人机的每一个样本行为选择作为一个训练样本,获得多个训练样本,根据多个训练样本和所述最小化最大信息年龄模型对预设无人机路径规划模型进行训练。

3.根据权利要求2所述方法,其特征在于,所述根据多个训练样本和所述最小化最大信息年龄模型对预设无人机路径规划模型进行训练的步骤,具体包括:对于任意一个训练样本,根据所述训练样本和所述最小化最大信息年龄模型得到所述训练样本所对应的Q函数值;

根据所述Q函数值对预设无人机路径规划模型进行更新;

在满足预设条件时,完成对预设无人机路径规划模型的训练。

4.根据权利要求3所述方法,其特征在于,对任意一个训练样本,将所述训练样本输入最小化最大信息年龄模型的步骤之前,所述方法还包括:获取数据传输速率信息、无人机行为选择时间信息和数据包丢失数量信息,以建立最小丢失包模型;

获取数据包年龄信息,根据所述数据包年龄信息对所述最小丢失包模型进行优化,得到最小化最大信息年龄模型,其中所述最小化最大信息年龄模型中包括最大化信息年龄函数信息。

5.根据权利要求4所述方法,其特征在于,对于任意一个训练样本,根据所述训练样本和所述最小化最大信息年龄模型得到所述训练样本所对应的Q函数值的步骤,具体包括:根据任意一个训练样本和所述最大化信息年龄函数信息,得到所述训练样本的奖惩值;

根据所述训练样本的奖惩值得到所述训练样本对应的Q函数值。

6.根据权利要求4所述方法,其特征在于,所述最小丢失包模型为:其中, tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵, 矩阵元素 是二元变量, 表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m。

7.一种无人机路径规划装置,其特征在于,包括:定位模块,用于获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;

规划模块,用于将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;

其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的行为选择进行训练得到的;

所述最小化最大信息年龄模型为:其中, 为数据包年龄信息, tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵,矩阵元素 是二元变量,

表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m;j为数据包编号,J为每个传感器最多可存储的数据包数量。

8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述无人机路径规划方法。

9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一项所述无人机路径规划方法。

说明书 :

一种无人机路径规划方法及装置

技术领域

[0001] 本发明实施例涉及无人机技术领域,尤其涉及一种无人机路径规划方法及装置。

背景技术

[0002] 当前,利用低空无人机(unmanned aerial vehicle,UAV)进行辅助的数据信息采集展现出很大吸引力和潜力,UAV具有许多优点,一方面具有按需部署和快速部署的能力,
高度灵活性,完全可控的空中移动性;另一方面,无人机具有能与地面终端建立视距通信链
路的能力;除此之外,由于无人机机身集成了的众多不同类型的传感器设备,这些硬件设备
为感测环境以及采样和收集数据提供了极大的便利。因此,无人机逐渐被开发应用于环境
检测、交通管控、救援救灾和军事侦查等场景当中。
[0003] 而在现有技术中,UAV在进行信息采集以辅助后续数据分析的应用过程中,待采集的数据包通常具有数据信息寿命这一约束条件,若待采集的数据包在其信息年龄超过了数
据包寿命的时候仍然未被无人机携带走,那么数据包会过期失效,进而导致数据信息的丢
失;因此为了减少数据因为过期而导致的信息丢失,如何对无人机进行数据采集的飞行路
线进行有效规划已经成为业界亟待解决的问题。

发明内容

[0004] 本发明实施例提供一种无人机路径规划方法及装置,用以解决上述背景技术中存在的技术问题,或至少部分解决上述背景技术中存在的技术问题。
[0005] 第一方面,本发明实施例提供一种无人机路径规划方法,包括:
[0006] 获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;
[0007] 将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;
[0008] 其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。第二方面,本发明实施例提供一种无人机路径规划装置,包
括:
[0009] 定位模块,用于获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;
[0010] 规划模块,用于将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;
[0011] 其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。
[0012] 第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面的无人机
路径规划方法。
[0013] 第四方面,一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面所述无人机路径规划方法。
[0014] 本发明实施例提供的一种无人机路径规划方法及装置,通过将无人机选择下一个传感器的动作作为无人机的行为选择,并将无人机的行为选择为一个训练样本,获取多个
训练样本后,通过最小化最大信息年龄模型来对预设无人机路径规划模型进行训练,充分
考虑无人机的行为选择对于待收集数据信息寿命的影响这要素来进行优化,训练完毕后的
预设无人机路径规划模型可以根据无人机当前位置信息自动规划最优路径,此时的最优路
径会使得过期数据信息包的数量最小化,有效减少了数据信息因为过期而导致的信息丢
失。

附图说明

[0015] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发
明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根
据这些附图获得其他的附图。
[0016] 图1为本发明一实施例所提供的无人机路径规划方法流程图;
[0017] 图2为本发明一实施例所提供的预设无人机路径规划模型训练流程图;
[0018] 图3为本发明一实施例所提供的无人机路径规划装置结构示意图;
[0019] 图4为本发明一实施例所提供的电子设备结构示意图。

具体实施方式

[0020] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0021] 本发明实施例中所描述的无人机路径规划方法的实施是基于被派遣出去的无人机只能一个接一个地访问系统中的所有传感器这一基础,且在本发明实施例的实施场景中
无人机每次只能访问一个传感器,而无人机也不会对同一传感器进行重复访问。
[0022] 图1为本发明一实施例所提供的无人机路径规划方法流程图,如图1所示,包括:
[0023] 步骤S1,获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;
[0024] 步骤S2,将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;
[0025] 其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型对无人机的样本行为选择进行训练得到的。具体的,本发明实施例中所描述的无人机当前位置信息具
体是指在任意时刻无人机在信息采集场景中的位置信息。
[0026] 本发明实施例中所描述的无人机路径规划信息是指对于数据传感器采集的顺序选择,即无人机在当前信息采集场景中确定对于数据传感器采集顺序后,得到对于数据传
感器的数据信息采集所需要经过的路径;本发明实施例中所描述的无人机路径规划信息在
环境数据采集领域,可以根据无人机处于待采集的具体环境数据中的位置,和传感器的各
个位置信息,确定无人机的对于传感器数据信息采集的顺序关系,从而有效避免传感器可
能会出现的因数据信息寿命导致的信息丢失,有效提高环境信息数据采集的质量。
[0027] 本发明实施例中所描述的无人机的行为选择具体是在指无人机对于下个将要访问传感器的选择行为;本发明实施例中所描述的样本行为选择是指将其作为训练样本的行
为选择。
[0028] 本发明实施例中所描述的预设无人机路径规划模型是通过最小化最大信息年龄模型对无人机的样本行为选择进行训练得到,具体为,无人机根据当前环境状态,在每个时
刻t进行行为选择,将每个时刻t执行的样本行为选择定义为at;假设 是每个时刻t的
系统状态,其中 表示信息采集场景,由于无人机需要根据当前环境状态选择路径,本发明
实施例将环境状态设定为无人机在时刻t所访问的传感器,而由于在信息采集场景中传感
器的位置是固定的,因为可以根据无人机当前位置信息确定其当前所访问的传感器,从而
可以根据无人机当前位置信息确定当前环境状态。
[0029] 本发明实施例中所描述的最小化最大信息年龄模型是指用于将当前采集场景下所有传感器数据包的最大信息年龄情况进行最小化的模型,该模型中具体包括当前采集场
景下所有传感器的最大化信息年龄函数信息F(X)。
[0030] 最小化最大信息年龄模型是根据数据包信息年龄这一概念建立的,具体为:数据包年龄信息是指传感器中的数据信息在传感器m生成的时刻开始,到被无人机采集的时刻
为止所经过的时间量,可以表示为:
[0031]
[0032] 如果这个数据包无法在寿命结束之前被无人机收集走,那么这个数据包就会过期,信息将会丢失,那么它的信息年龄也失去了意义。因此,在这里用无人机飞行的总时间
Ttotal来定义这些过期的数据包的信息年龄,并将其作为所有数据包的信息年龄的上限。因
此,信息年龄可以重新表达为:
[0033]
[0034] 其中,
[0035] 于此同时, 和 的衡量方式可以改写为如下形式:
[0036]
[0037] 其中,Ttotal为无人机飞行的总时间, 传感器m中包j的产生时刻。
[0038] 以最小化过期数据包数量为目标的无人机飞行路径规划可以转换为最小化最大信息年龄的最优飞行路径规划。
[0039] 可以注意到,通过带入ζm(X),以及利用零范数的定义,原问题 可以松弛为:
[0040]
[0041] 其中, ||·||0表示零范数。由于本发明的目标是最小化过期数据包的数量,因此对于信息年龄的最差情况是 为了提高路径规划
的性能,这里需要改善这个最差的信息年龄的情况。
[0042] 同时可以知道,如果信息年龄超过了数据包的寿命,那么在 变量会变成1。通过联合 和 的定义和 可以把原问题改写为一个最小化最大问题:
[0043]
[0044] 这里, 表示传感器m在时刻tn-1的所有数据包的个数。因此,复杂变量 和会被取代完毕。接着,定义f(X)和f2(X):
[0045]
[0046]
[0047] 以及把问题 分解为两个联合问题 和
[0048]
[0049]
[0050] 如上所述,本发明需要在路径规划中改善所有数据包的最大信息年龄的情况。由ex
于I , 和J不会在时刻tn发生变化,上面的问题 和 等价于:
[0051]
[0052]
[0053] 显然, 和 不会在时刻tn发生变化。注意到, 的取值会被 所影响,但是不意味着局部最优值 必须在每一步都求解出来,因为本发明的目标是最优化X的全
局变量,这一数据会由 之间的所有数值共同影响。因此,根据上述分析,可
以把原始问题 转化为
[0054]
[0055]
[0056]
[0057] 其中,F(X)为最大化信息年龄函数信息。无人机的样本行为选择是根据策略π(at,st)=Pr(at=a|st=s)来实现,策略具体是指当环境状态st=s的情况下,无人机的样本行
为选择at=a的概率,Pr表示概率。
[0058] 在这样的策略下,无人机根据当前环境状态进行样本行为选择,然后得到相应的奖惩值;而由于本发明实施例是为了减少因为过期而导致的数据信息丢失,因此本发明实
施例可以将每个时刻t的奖惩值 定义为来自高信息年龄的惩罚,即r(st,at)=-
F(X),其中F(X)是指最大化信息年龄函数信息,即根据最小化最大信息年龄模型可以确定
最大化信息年龄函数信息。通过成败多次反复的试错和学习后,算法收敛,预设无人机路径
规划模型训练完成,此时只需要根据无人机当前位置信息即可确定当前环境状态,然后根
据当前环境状态来得到所有传感器最小化最大信息年龄的无人机路径规划。
[0059] 本发明实施例通过将无人机选择下一个传感器的动作作为无人机的样本行为选择,并将无人机的行为选择为一个训练样本,获取多个训练样本后,通过最小化最大信息年
龄模型来对预设无人机路径规划模型进行训练,充分针对无人机的行为选择对于待收集数
据信息寿命的影响进行优化,训练完毕后的预设无人机路径规划模型可以根据无人机当前
位置信息自动规划最优路径,此时的最优路径会使得过期数据信息包的数量最小化,有效
减少了数据信息因为过期而导致的信息丢失。
[0060] 在上述实施例的基础上,在将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息的步骤之前,所述方法还包括:
[0061] 根据无人机样本位置信息生成随机概率信息;
[0062] 根据所述随机概率信息和预设概率信息,确定无人机的样本行为选择;
[0063] 将无人机的每一个样本行为选择作为一个训练样本,获得多个训练样本,根据多个训练样本和所述最小化最大信息年龄模型对预设无人机路径规划模型进行训练。
[0064] 具体的,本发明实施例中所描述的预设概率信息∈是可以预先设定的,且在模型训练过程中可以对于预设概率信息∈进行调整;本发明实施例中所描述的随机概率信息是
根据在获得一个无人机样本位置信息时,将其作为生成随机概率信息的触发条件,生成随
机概率编码信息具体是可以预设编码随机得到的;在每获得一个无人机样本位置信息时,
则生成一个其对应的随机概率信息,获取多个不同的无人机样本位置信息时,则对应生成
与多个不同样本位置信息对应的多个随机概率信息。
[0065] 将随机概率信息和预设概率信息进行比较,若随机概率信息大于预设概率信息∈,则选取预设路径库中奖惩值最大的路径规划信息,以确定下次要访问的传感器,即确定
无人机的样本行为选择;若随机概率信息小于预设概率信息∈,则在预设路径库中随机选
取一个路径规划信息,并确定无人机的样本行为选择;本发明实施例中所描述的预设路径
库可以是根据信息采集场景中传感器的固定位置,所预先设定的路径规划合集。
[0066] 本发明实施例中所描述的无人机样本位置信息是指训练过程中作为样本的无人机的位置信息,根据无人机样本位置信息可以确定无人机此时所对应的传感器位置信息,
从而可以获取多种不同的随机概率,同时也能获得多种不同的行为选择,因此可以获取多
个训练样本,可以根据多个训练样本和最小化最大信息年龄模型,将每一个训练样本输入
最小化最大信息年龄模型从而得到每一个训练样本奖惩值及其所对应的Q函数值,最终满
足预设条件时,完成对于预设无人机路径规划模型的训练。
[0067] 本发明实施例通过每获取无人机的样本位置信息时,则将其作为触发条件,生成一个随机概率信息因此不同的无人机样本位置信息会得到其对应的不同随机概率,并且通
过与预设概率信息进行比较,帮助模型统计奖惩值最大的路径规划信息,有助于模型在训
练过程中实现最大化奖惩值的目的,并有利于后续步骤的进行。
[0068] 在上述实施例的基础上,所述根据多个训练样本和所述最小化最大信息年龄模型对预设无人机路径规划模型进行训练的步骤,具体包括:
[0069] 对于任意一个训练样本,根据所述训练样本和和最小化最大信息年龄模型得到所述训练样本所对应的Q函数值;
[0070] 根据所述Q函数值对预设无人机路径规划模型进行更新;
[0071] 在满足预设条件时,完成对预设无人机路径规划模型的训练。
[0072] 具体的,本发明实施例中所描述的预设条件可以是指满足预设的训练次数,例如训练达到500次后,则判定完成训练;预设条件也可以是指满足预设的时间,例如训练达到
24小时后,则判定完成训练。
[0073] 本发明实施例中所描述的Q函数值是指Q学习的算法核心——Q函数的值,而在训练过程中,无人机行为选择目的是为了最大化奖惩值, 其中r(·)是
奖励函数,γ∈(0,1)是折扣因子,因此可以得到 Q函数为:
[0074]
[0075] 其中, 表示求函数的期望值,st为环境状态,at为行为选择,γ∈(0,1)是折扣因子。
[0076] 与此同时,Q学习算法是一种典型的异策略学习法,在Q学习算法中,预设无人机路径规划模型一边学习最优的目标政策,同时根据行为政策β(非最优策略)进行不断的探索。
在本发明实施例当中,采取了贪心算法 作为目标策略π,而行
为政策β则选取∈-greedy的方法,其给出如下:
[0077]
[0078] 这里,本发明实施例使用了一个改善的∈-greedy方法,在这个方法里,∈参数会根据训练过程逐渐进行调整,以加速算法的收敛速度。根据上述策略的定义,Q函数可以重
新改写如下:
[0079]
[0080] 其中, 是时间差分项,θ是学习速率。
[0081] 因此根据无人机的样本行为选择和最小化最大信息年龄模型得到该样本行为选择所对应测惩戒值,并结合上述Q函数,即可得到该样本行为选择所对应的Q函数值,并将该
行为选择所对应的Q函数值记录在预设无人机路径规划模型中。
[0082] 本发明实施例通过Q函数的建立,并根据不同的训练样本从而进一步更新完善预设无人机路径规划模型,在预设无人机路径规划模型训练完成后,可以根据预设无人机路
径规划模型迅速判断最优无人机路径规划信息。
[0083] 在上述实施例的基础上,对任意一个训练样本,将所述训练样本输入最小化最大信息年龄模型的步骤之前,所述方法还包括:
[0084] 获取数据传输速率信息、无人机行为选择时间信息和数据包丢失数量信息,以建立最小丢失包模型;
[0085] 获取数据包年龄信息,以根据所述数据包年龄信息对所述最小丢失包模型进行优化,得到最小化最大信息年龄模型,其中所述最小化最大信息年龄模型中包括最大化信息
年龄函数信息。
[0086] 具体的,本发明实施例中所描述的数据传输速率信息是无人机通过低空视距通信链路与传感器通信的速率
[0087]
[0088] 其中, 为传感器m在时间tn瞬时发射功率,g为传感器到无人机的视距通信链路的信道功率增益,g=βh-2,σ2为无人机接收器的噪声功率,h为无人机飞行高度,β为参考距
离处的无人机的视距通信链路的信道增益;B为系统带宽。
[0089] 本发明实施例中所描述的无人机行为选择时间信息具体是指无人机从一个传感器起飞的时候到下一个传感器起飞的时刻所经过的时间长度,其中包括无人机的飞行时间
和数据传输时间:
[0090]
[0091] 其中,tn无人机从每个传感器起飞的时刻, 是指数据传输速率信息, 表示无人机在时刻tn从传感器m带走的包数量,
[0092] 传感器m从时刻tn-1到tn这段时间内所丢失的包数为 具体计算如下:
[0093]
[0094] 其中,(x)+=max{0,x}, 数字“1”表示包过期; 数字“1”表示包非过期;在传感器m中从时刻tn-1到tn这段时间内新到达的包数量,服从泊松分布,均值为
λm;表示无人机决定下一个时间节点选择访问哪个传感器, 是二进制变量,其值为1时表
示在时间tn-1处访问传感器i的无人机在时间tn选择访问传感器m。
[0095] 因此建立最小丢失包模型为:
[0096]
[0097]
[0098]
[0099] 其中, m≤M:表示无人机决定下一个时间节点选择访问哪个传感器,其中 是二进制变量,其值为1时表示在时间tn-1处访
问传感器i的无人机在时间tn选择访问传感器m。
[0100] 而由于多个离散变量、多维约束以及复杂嵌套函数,导致最小丢失包模型难以解决。因此,在问题求解中,需要把最小丢失包模型转换为最小化最大信息年龄模型。
[0101] 本发明实施例中所描述的数据包年龄信息是指传感器中的数据信息在传感器m生成的时刻开始,到被无人机采集的时刻为止所经过的时间量,可以表示为:
[0102]
[0103] 如果这个数据包无法在寿命结束之前被无人机收集走,那么这个数据包就会过期,信息将会丢失,那么它的信息年龄也失去了意义。因此,在这里用无人机飞行的总时间
Ttotal来定义这些过期的数据包的信息年龄,并将其作为所有数据包的信息年龄的上限。因
此,信息年龄可以重新表达为:
[0104]
[0105] 其中,
[0106] 于此同时, 和 的衡量方式可以改写为如下形式:
[0107]
[0108] 其中,Ttotal为无人机飞行的总时间, 传感器m中包j的产生时刻。本发明实施例可以理解为在路径规划中改善所有数据包年龄的情况,因此可以得到最小化最大信息年
龄模型:
[0109]
[0110]
[0111]
[0112] 其中,F(X)为最大化信息年龄函数信息。
[0113] 本发明实施例通过建立最小丢失包模型的建立和优化,最后得到最大化信息年龄模型,以及最大化信息年龄函数,通过最大信息年龄函数有利于后续步骤中对于奖惩值得
确定,从而有利于后续对于预设无人机路径规划模型的训练。
[0114] 在上述实施例的基础上,对于任意一个训练样本,将所述训练样本输入最小化最大信息年龄模型,以得到所述训练样本所对应的Q函数值的步骤,具体包括:
[0115] 根据所述任意一个训练样本和所述最大化信息年龄函数信息,得到所述训练样本的奖惩值;
[0116] 根据所述训练样本的奖惩值得到所述训练样本对应的Q函数值。
[0117] 具体的,本发明实施例中所描述的训练样本的奖惩值具体是指在无人机做出一次样本行为选择时,当前信息采集场景中所有传感器的奖惩值的总和。
[0118] 由于最大化信息年龄函数为F(X),而X又是指无人机下个时间节点选择访问传感器的集合,因此在得知无人机的行为做出行为选择时,很容易此时所有传感器奖惩值的总
和,既训练样本的奖惩值;而根据Q函数的公式和该奖惩值则很容易得到该训练样本所对应
的Q函数值。
[0119] 本发明实施例通过训练样本和最大化信息年龄函数信息可以确定Q函数值信息,即此时可以完成一次训练,有利于对于预设无人机路径规划模型的训练。
[0120] 在上述实施例的基础上,所述最小丢失包模型为:
[0121]
[0122]
[0123]
[0124] 其中, tn为无人机从每个传感器起飞的时刻,其中 t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选
择访问传感器的决策矩阵, m≤M,矩阵元素
是二元变量, 表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m。
[0125] 具体的, 表示无人机决定下一个时间节点选择访问传感器的集合,其中 m≤M,其值为1时表示在时间tn-1处访问传感器i的
无人机在时间tn选择访问传感器m。
[0126] 本发明实施例中所描述的最小丢失包模型的建立有利于后续步骤的进行。
[0127] 在上述实施例的基础上,所述最小化最大信息年龄模型为:
[0128]
[0129]
[0130]
[0131] 其中, 为数据包年龄信息, tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M 为传感器总个数,X为无人
机决定下一个时间节点选择访问传感器的决策矩阵,
m≤M,矩阵元素 是二元变量, 表
示在时间tn-1处访问传感器i的无人机在时间tn选择访问传感器m;J为每个传感器最多可存
储的数据包数量。
[0132] 具体的, m≤M:表示无人机决定下一个时间节点选择访问传感器的集合,其中 是二进制变量,其值为1时表示在时间tn-1
处访问传感器i的无人机在时间tn选择访问传感器 m。
[0133] 本发明实施例中所描述的最小化最大信息年龄模型的建立有利于后续步骤的进行。
[0134] 图2为本发明一实施例所提供的预设无人机路径规划模型训练流程图,如图2所示,包括:
[0135] 步骤210,获取无人机样本位置信息;然后进入步骤220,判断随机概率信息与预设概率信息的大小,若随机概率信息大于预设概率信息则进入步骤 230,将其判断为最大回
报行为,这里所描述的最大回报行为是指记录该位置信息所对应的多种不同行为选择所对
应的奖惩值,并将其作为有效数据,若随机概率信息小于预设概率信息则进入步骤240,此
时将此次预设样本作为一个随机行为,不对其进行记录。
[0136] 然后进入步骤250,确定行为选择,根据样本的奖惩值,在多种不同行为选择所对应的奖惩值最大值,以确定行为选择,然后进入步骤260,在确定行为选择后,此时即可以确
定下一个将要访问的传感器;然后进入步骤270,根据当前样本的当前位置信息和行为选
择,即可以得到当前样本所对应的Q 函数值,并对其进行记录,随后进入步骤280,进行预设
条件判断,此处所描述的预设条件可以是预先设定好的预设条件,若满足预设条件则进入
步骤 290,结束训练,若不满足预设条件,则回到步骤210,继续对预设无人机路径规划模型
进行训练,进行下一个循环。
[0137] 本发明实施通过将无人机选择下一个传感器的动作作为无人机的行为选择,并将无人机的行为选择为一个训练样本,获取多个训练样本后,通过最小化最大信息年龄模型
来对预设无人机路径规划模型进行训练,充分考虑无人机的行为选择对于待收集数据信息
寿命的影响这要素来进行优化,训练完毕后的预设无人机路径规划模型可以根据无人机当
前位置信息自动规划最优路径,此时的最优路径会使得过期数据信息包的数量最小化,有
效减少了数据信息因为过期而导致的信息丢失。
[0138] 图3为本发明一实施例所提供的无人机路径规划装置结构示意图,如图 3所示,包括定位模块310和规划模型320,其中,定位模块310用于获取无人机当前位置信息,根据所
述无人机当前位置信息得到无人机的行为选择;其中,规划模块320用于将所述无人机的行
为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设无人机
路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。
[0139] 本发明实施例提供的装置是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
[0140] 具体的,本发明实施例中所描述的无人机当前位置信息具体是指无人机在开始采集信息数据时刻无人机在信息采集场景中的位置信息。
[0141] 本发明实施例中所描述的无人机路径规划信息是指无人机在当前信息采集场景中对于数据传感器的数据信息采集所需要经过的路径,即对于数据传感器采集的顺序选
择。
[0142] 本发明实施例中所描述的无人机的行为选择具体是在指无人机对于下个将要访问传感器的选择行为。
[0143] 本发明实施例通过将无人机选择下一个传感器的动作作为无人机的行为选择,并将无人机的行为选择为一个训练样本,获取多个训练样本后,通过最小化最大信息年龄模
型来对预设无人机路径规划模型进行训练,充分针对无人机的行为选择对于待收集数据信
息寿命的影响进行优化,训练完毕后的预设无人机路径规划模型可以根据无人机当前位置
信息自动规划最优路径,此时的最优路径会使得过期数据信息包的数量最小化,有效减少
了数据信息因为过期而导致的信息丢失。
[0144] 图4为本发明一实施例所提供的电子设备结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器
(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404
完成相互间的通信。处理器 401可以调用存储器403中的逻辑指令,以执行如下方法:获取
无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将所述无人
机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设
无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练
得到的。此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独
立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发
明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软
件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使
得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例
所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,
Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
[0145] 本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被
计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取无人机当
前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将所述无人机的行为
选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设无人机路
径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。本
发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务
器指令,该计算机指令使计算机执行上述实施例所提供的一种无人机路径规划方法,例如
包括:获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将
所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,
所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择
进行训练得到的。
[0146] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
[0147] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
[0148] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。