一种无人机路径规划方法及装置转让专利
申请号 : CN201910251403.6
文献号 : CN109990790B
文献日 : 2021-03-12
发明人 : 王莉 , 费爱国 , 宋颖祥 , 李宛苡 , 宋梅
申请人 : 北京邮电大学
摘要 :
权利要求 :
1.一种无人机路径规划方法,其特征在于,包括:获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;
将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;
其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的;
所述最小化最大信息年龄模型为:其中, 为数据包年龄信息, tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵,矩阵元素 是二元变量,
表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m;j为数据包编号,J为每个传感器最多可存储的数据包数量。
2.根据权利要求1所述方法,其特征在于,所述将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息的步骤之前,所述方法还包括:根据无人机样本位置信息生成随机概率信息;
根据所述随机概率信息和预设概率信息,确定无人机的样本行为选择;
将无人机的每一个样本行为选择作为一个训练样本,获得多个训练样本,根据多个训练样本和所述最小化最大信息年龄模型对预设无人机路径规划模型进行训练。
3.根据权利要求2所述方法,其特征在于,所述根据多个训练样本和所述最小化最大信息年龄模型对预设无人机路径规划模型进行训练的步骤,具体包括:对于任意一个训练样本,根据所述训练样本和所述最小化最大信息年龄模型得到所述训练样本所对应的Q函数值;
根据所述Q函数值对预设无人机路径规划模型进行更新;
在满足预设条件时,完成对预设无人机路径规划模型的训练。
4.根据权利要求3所述方法,其特征在于,对任意一个训练样本,将所述训练样本输入最小化最大信息年龄模型的步骤之前,所述方法还包括:获取数据传输速率信息、无人机行为选择时间信息和数据包丢失数量信息,以建立最小丢失包模型;
获取数据包年龄信息,根据所述数据包年龄信息对所述最小丢失包模型进行优化,得到最小化最大信息年龄模型,其中所述最小化最大信息年龄模型中包括最大化信息年龄函数信息。
5.根据权利要求4所述方法,其特征在于,对于任意一个训练样本,根据所述训练样本和所述最小化最大信息年龄模型得到所述训练样本所对应的Q函数值的步骤,具体包括:根据任意一个训练样本和所述最大化信息年龄函数信息,得到所述训练样本的奖惩值;
根据所述训练样本的奖惩值得到所述训练样本对应的Q函数值。
6.根据权利要求4所述方法,其特征在于,所述最小丢失包模型为:其中, tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵, 矩阵元素 是二元变量, 表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m。
7.一种无人机路径规划装置,其特征在于,包括:定位模块,用于获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;
规划模块,用于将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;
其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的行为选择进行训练得到的;
所述最小化最大信息年龄模型为:其中, 为数据包年龄信息, tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵,矩阵元素 是二元变量,
表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m;j为数据包编号,J为每个传感器最多可存储的数据包数量。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述无人机路径规划方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一项所述无人机路径规划方法。
说明书 :
一种无人机路径规划方法及装置
技术领域
背景技术
高度灵活性,完全可控的空中移动性;另一方面,无人机具有能与地面终端建立视距通信链
路的能力;除此之外,由于无人机机身集成了的众多不同类型的传感器设备,这些硬件设备
为感测环境以及采样和收集数据提供了极大的便利。因此,无人机逐渐被开发应用于环境
检测、交通管控、救援救灾和军事侦查等场景当中。
据包寿命的时候仍然未被无人机携带走,那么数据包会过期失效,进而导致数据信息的丢
失;因此为了减少数据因为过期而导致的信息丢失,如何对无人机进行数据采集的飞行路
线进行有效规划已经成为业界亟待解决的问题。
发明内容
括:
路径规划方法。
训练样本后,通过最小化最大信息年龄模型来对预设无人机路径规划模型进行训练,充分
考虑无人机的行为选择对于待收集数据信息寿命的影响这要素来进行优化,训练完毕后的
预设无人机路径规划模型可以根据无人机当前位置信息自动规划最优路径,此时的最优路
径会使得过期数据信息包的数量最小化,有效减少了数据信息因为过期而导致的信息丢
失。
附图说明
明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根
据这些附图获得其他的附图。
具体实施方式
本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
无人机每次只能访问一个传感器,而无人机也不会对同一传感器进行重复访问。
体是指在任意时刻无人机在信息采集场景中的位置信息。
感器的数据信息采集所需要经过的路径;本发明实施例中所描述的无人机路径规划信息在
环境数据采集领域,可以根据无人机处于待采集的具体环境数据中的位置,和传感器的各
个位置信息,确定无人机的对于传感器数据信息采集的顺序关系,从而有效避免传感器可
能会出现的因数据信息寿命导致的信息丢失,有效提高环境信息数据采集的质量。
为选择。
刻t进行行为选择,将每个时刻t执行的样本行为选择定义为at;假设 是每个时刻t的
系统状态,其中 表示信息采集场景,由于无人机需要根据当前环境状态选择路径,本发明
实施例将环境状态设定为无人机在时刻t所访问的传感器,而由于在信息采集场景中传感
器的位置是固定的,因为可以根据无人机当前位置信息确定其当前所访问的传感器,从而
可以根据无人机当前位置信息确定当前环境状态。
景下所有传感器的最大化信息年龄函数信息F(X)。
为止所经过的时间量,可以表示为:
Ttotal来定义这些过期的数据包的信息年龄,并将其作为所有数据包的信息年龄的上限。因
此,信息年龄可以重新表达为:
的性能,这里需要改善这个最差的信息年龄的情况。
于I , 和J不会在时刻tn发生变化,上面的问题 和 等价于:
局变量,这一数据会由 之间的所有数值共同影响。因此,根据上述分析,可
以把原始问题 转化为
为选择at=a的概率,Pr表示概率。
施例可以将每个时刻t的奖惩值 定义为来自高信息年龄的惩罚,即r(st,at)=-
F(X),其中F(X)是指最大化信息年龄函数信息,即根据最小化最大信息年龄模型可以确定
最大化信息年龄函数信息。通过成败多次反复的试错和学习后,算法收敛,预设无人机路径
规划模型训练完成,此时只需要根据无人机当前位置信息即可确定当前环境状态,然后根
据当前环境状态来得到所有传感器最小化最大信息年龄的无人机路径规划。
龄模型来对预设无人机路径规划模型进行训练,充分针对无人机的行为选择对于待收集数
据信息寿命的影响进行优化,训练完毕后的预设无人机路径规划模型可以根据无人机当前
位置信息自动规划最优路径,此时的最优路径会使得过期数据信息包的数量最小化,有效
减少了数据信息因为过期而导致的信息丢失。
根据在获得一个无人机样本位置信息时,将其作为生成随机概率信息的触发条件,生成随
机概率编码信息具体是可以预设编码随机得到的;在每获得一个无人机样本位置信息时,
则生成一个其对应的随机概率信息,获取多个不同的无人机样本位置信息时,则对应生成
与多个不同样本位置信息对应的多个随机概率信息。
无人机的样本行为选择;若随机概率信息小于预设概率信息∈,则在预设路径库中随机选
取一个路径规划信息,并确定无人机的样本行为选择;本发明实施例中所描述的预设路径
库可以是根据信息采集场景中传感器的固定位置,所预先设定的路径规划合集。
从而可以获取多种不同的随机概率,同时也能获得多种不同的行为选择,因此可以获取多
个训练样本,可以根据多个训练样本和最小化最大信息年龄模型,将每一个训练样本输入
最小化最大信息年龄模型从而得到每一个训练样本奖惩值及其所对应的Q函数值,最终满
足预设条件时,完成对于预设无人机路径规划模型的训练。
过与预设概率信息进行比较,帮助模型统计奖惩值最大的路径规划信息,有助于模型在训
练过程中实现最大化奖惩值的目的,并有利于后续步骤的进行。
24小时后,则判定完成训练。
奖励函数,γ∈(0,1)是折扣因子,因此可以得到 Q函数为:
在本发明实施例当中,采取了贪心算法 作为目标策略π,而行
为政策β则选取∈-greedy的方法,其给出如下:
新改写如下:
行为选择所对应的Q函数值记录在预设无人机路径规划模型中。
径规划模型迅速判断最优无人机路径规划信息。
年龄函数信息。
离处的无人机的视距通信链路的信道增益;B为系统带宽。
和数据传输时间:
λm;表示无人机决定下一个时间节点选择访问哪个传感器, 是二进制变量,其值为1时表
示在时间tn-1处访问传感器i的无人机在时间tn选择访问传感器m。
问传感器i的无人机在时间tn选择访问传感器m。
Ttotal来定义这些过期的数据包的信息年龄,并将其作为所有数据包的信息年龄的上限。因
此,信息年龄可以重新表达为:
龄模型:
确定,从而有利于后续对于预设无人机路径规划模型的训练。
和,既训练样本的奖惩值;而根据Q函数的公式和该奖惩值则很容易得到该训练样本所对应
的Q函数值。
择访问传感器的决策矩阵, m≤M,矩阵元素
是二元变量, 表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m。
无人机在时间tn选择访问传感器m。
机决定下一个时间节点选择访问传感器的决策矩阵,
m≤M,矩阵元素 是二元变量, 表
示在时间tn-1处访问传感器i的无人机在时间tn选择访问传感器m;J为每个传感器最多可存
储的数据包数量。
处访问传感器i的无人机在时间tn选择访问传感器 m。
报行为,这里所描述的最大回报行为是指记录该位置信息所对应的多种不同行为选择所对
应的奖惩值,并将其作为有效数据,若随机概率信息小于预设概率信息则进入步骤240,此
时将此次预设样本作为一个随机行为,不对其进行记录。
定下一个将要访问的传感器;然后进入步骤270,根据当前样本的当前位置信息和行为选
择,即可以得到当前样本所对应的Q 函数值,并对其进行记录,随后进入步骤280,进行预设
条件判断,此处所描述的预设条件可以是预先设定好的预设条件,若满足预设条件则进入
步骤 290,结束训练,若不满足预设条件,则回到步骤210,继续对预设无人机路径规划模型
进行训练,进行下一个循环。
来对预设无人机路径规划模型进行训练,充分考虑无人机的行为选择对于待收集数据信息
寿命的影响这要素来进行优化,训练完毕后的预设无人机路径规划模型可以根据无人机当
前位置信息自动规划最优路径,此时的最优路径会使得过期数据信息包的数量最小化,有
效减少了数据信息因为过期而导致的信息丢失。
述无人机当前位置信息得到无人机的行为选择;其中,规划模块320用于将所述无人机的行
为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设无人机
路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。
择。
型来对预设无人机路径规划模型进行训练,充分针对无人机的行为选择对于待收集数据信
息寿命的影响进行优化,训练完毕后的预设无人机路径规划模型可以根据无人机当前位置
信息自动规划最优路径,此时的最优路径会使得过期数据信息包的数量最小化,有效减少
了数据信息因为过期而导致的信息丢失。
(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404
完成相互间的通信。处理器 401可以调用存储器403中的逻辑指令,以执行如下方法:获取
无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将所述无人
机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设
无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练
得到的。此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独
立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发
明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软
件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使
得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例
所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,
Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取无人机当
前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将所述无人机的行为
选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设无人机路
径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。本
发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务
器指令,该计算机指令使计算机执行上述实施例所提供的一种无人机路径规划方法,例如
包括:获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将
所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,
所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择
进行训练得到的。
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。