基于人机交互的无人机集群导航方法、装置和设备转让专利
申请号 : CN202111125458.6
文献号 : CN113566831B
文献日 : 2021-12-07
发明人 : 何华 , 周鑫 , 王彦锋 , 李小波 , 杨松 , 井田
申请人 : 中国人民解放军国防科技大学
摘要 :
权利要求 :
1.一种基于人机交互的无人机集群导航方法,其特征在于,所述方法包括:构建人机协同导航框架;所述人机协同导航框架中包括:搜索价值、搜索代价和回报值;所述搜索价值是无人机对区域进行探索得到的反馈值,所述区域是对地理环境进行网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的资源消耗确定的;所述回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无人机低空探测所采集到的反馈值以及人机交互时接收到的反馈值;
将无人机定义为动态规划中的智能体;所述智能体能够根据已探索的区域选择回报值最大的区域作为导航方案;
根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数;所述系统状态评估函数为已探索区域对应的方案信息对应的已知价值集合和未探索区域对应的方案信息在预设状态时,多智能体执行导航方案的期望回报值;
采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,根据每个智能体的导航方案,得到无人机集群的导航路径;
根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数,包括:将所述系统状态评估函数分解为每个智能体的期望回报值为:其中, , 表示第k个智能体的子系统状态评估函数, 表示每个智能体的方案选择不同;
根据无人机探测时反馈值的类型,构建每个智能体的迭代公式如下:其中, 表示无人机选择低空探测时的系统状态评估函数, 表示无人机选择人机交互时的系统状态评估函数;
无人机选择低空探测时的系统状态评估函数为:无人机选择人机交互时的系统状态评估函数为:其中,p表示指挥员响应并成功分析出执行行动 的方案价值的概率; 分别表示对于方案i,智能体执行行动 和行动 所耗费的成本,当系统状态为 时,第k个智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效果后继续探索未知方案i。
2.根据权利要求1所述的方法,其特征在于,所述将无人机定义为动态规划中的智能体,包括:
确定每个智能体的导航方案为:
其中,表示已探索的区域对应的已探索方案, 表示智能体的输入。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:定义无人机选择低空探测时的系统状态评估函数的期望状态评估值为:其中, 的概率为 , 的概率为 ;
定义无人机选择人机交互时的系统状态评估函数的期望状态评估值为:其中, 的概率为 , 的概率为 。
4.根据权利要求3所述的方法,其特征在于,在采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案之前,还包括:根据低空探测时的系统状态评估函数和系统状态评估函数的期望状态评估值,以及人机交互时的系统状态评估函数和系统状态评估函数的期望状态评估值,确定执行行动 和行动 的决策指标分别记为 和 为:进一步化简得到:
根据系统状态 和指标集合 ,确定搜索规则;所述搜索规则包括:判断规则和停止规则;所述判断规则指示智能体探索未探索区域而执行动作,所述停止规则当前最大价值大于所有未知方案的决策指标时,则停止搜索并选择具有最大价值的导航方案作为最终导航方案。
5.根据权利要求4所述的方法,其特征在于,所述采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,包括:计算所有方案的行动指标对应的决策指标,并保存至决策指标集合中;
基于SADP算法设置探索程序和仿真程序求解所述系统状态评估函数,得到每个智能体的导航方案;所述探索程序用于计算在决策指标集合中最大决策指标,以及根据最大决策指标输出的导航方案、行动以及代价,若最大反馈值大于最大决策指标,则输出最终导航方案,若最大反馈值小于或等于最大决策指标,则启动仿真程序,仿真指挥员是否响应并成功分析出执行行动 的方案价值的结果,以及响应的反馈值的结果。
6.一种基于人机交互的无人机集群导航装置,其特征在于,所述装置包括:框架搭建模块,用于构建人机协同导航框架;所述人机协同导航框架中包括:搜索价值、搜索代价和回报值;所述搜索价值是无人机对区域进行探索得到的反馈值,所述区域是对地理环境进行网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的资源消耗确定的;所述回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无人机低空探测所采集到的反馈值以及人机交互时接收到的反馈值;
规划模块,用于将无人机定义为动态规划中的智能体;所述智能体能够根据已探索的区域选择回报值最大的区域作为导航方案;
系统状态转化模块,用于根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数;所述系统状态评估函数为已探索区域对应的方案信息对应的已知价值集合和未探索区域对应的方案信息在预设状态时,多智能体执行导航方案的期望回报值;
导航模块,用于采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,根据每个智能体的导航方案,得到无人机集群的导航路径;
系统状态转化模块,还用于将所述系统状态评估函数分解为每个智能体的期望回报值为:
其中, , 表示第k个智能体的子系统状态评估函数, 表示每个智能体的方案选择不同;
根据无人机探测时反馈值的类型,构建每个智能体的迭代公式如下:其中, 表示无人机选择低空探测时的系统状态评估函数, 表示无人机选择人机交互时的系统状态评估函数;
无人机选择低空探测时的系统状态评估函数为:无人机选择人机交互时的系统状态评估函数为:其中,p表示指挥员响应并成功分析出执行行动 的方案价值的概率; 分别表示对于方案i,智能体执行行动 和行动 所耗费的成本,当系统状态为 时,第k个智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效果后继续探索未知方案i。
7.根据权利要求6所述的装置,其特征在于,所述规划模块还用于确定每个智能体的导航方案为:
其中,表示已探索的区域对应的已探索方案, 表示智能体的输入。
8.根据权利要求6所述的装置,其特征在于,所述系统状态转化模块还用于将所述系统状态评估函数分解为每个智能体的期望回报值为:其中, , 表示第k个智能体的子系统状态评估函数, 表示每个智能体的方案选择不同;
根据无人机探测时反馈值的类型,构建每个智能体的迭代公式如下:其中, 表示无人机选择低空探测时的系统状态评估函数, 表示无人机选择人机交互时的系统状态评估函数;
无人机选择低空探测时的系统状态评估函数为:无人机选择人机交互时的系统状态评估函数为:其中,p表示指挥员响应并成功分析出执行行动 的方案价值的概率; 分别表示对于方案i,智能体执行行动 和行动 所耗费的成本,当系统状态为 时,第k个智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效果后继续探索未知方案i。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
说明书 :
基于人机交互的无人机集群导航方法、装置和设备
技术领域
背景技术
集群、无人车集群。在无人集群自动规划领域,无人平台会根据其当前状态和附近环境,与
相邻无人平台相互交互以及自己的局部控制规则进行自动规划。人机交互系统在未知远程
环境和高度非结构化的任务中具有卓越性能,能够减少了人员工作量,完成单个无人平台
无法完成的任务,且具有更高的故障鲁棒性和可扩展性,然而在进行无人机集群的导航规
划时,传统的任务规划算法或者导航算法无法进行人机交互情况下的导航规划。
发明内容
网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的资源消耗确定的;所述
回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无人机低空探测所采集
到的反馈值以及人机交互时接收到的反馈值;
案信息对应的已知价值集合和未探索区域对应的方案信息在预设状态时,多智能体执行导
航方案的期望回报值;
智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效果
后继续探索未知方案i。
的决策指标分别记为 和 为:
止规则当前最大价值大于所有未知方案的决策指标时,则停止搜索并选择具有最大价值的
导航方案作为最终导航方案。
决策指标输出的导航方案、行动以及代价,若最大反馈值大于最大决策指标,则输出最终导
航方案,若最大反馈值小于或等于最大决策指标,则启动仿真程序,仿真指挥员是否响应并
成功分析出执行行动 的方案价值的结果,以及响应的反馈值的结果。
是对地理环境进行网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的资源
消耗确定的;所述回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无人机
低空探测所采集到的反馈值以及人机交互时接收到的反馈值;
数为已探索区域对应的方案信息对应的已知价值集合和未探索区域对应的方案信息在预
设状态时,多智能体执行导航方案的期望回报值;
智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效
果后继续探索未知方案i。
网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的资源消耗确定的;所述
回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无人机低空探测所采集
到的反馈值以及人机交互时接收到的反馈值;
案信息对应的已知价值集合和未探索区域对应的方案信息在预设状态时,多智能体执行导
航方案的期望回报值;
人机人机交互时对导航的影响,由于无人机集群中每个无人机都是独立的,因此引入了智
能体的概念,以智能体的行动作为无人机决策的动作,来进行无人机导航的动态规划,在进
行任务规划时,将各个区域分为已探索区域和未探索区域分开考虑,从而将动态规划问题,
化解为系统状态评估问题,最终通过SADP算法求解系统状态评估函数,得到无人机集群导
航的整体导航方案。
附图说明
具体实施方式
用于限定本申请。
机对区域进行探索时的资源消耗确定的;回报值是搜索价值和搜索代价的差值;反馈值包
括:无人机低空探测所采集到的反馈值以及人机交互时接收到的反馈值。
域。假设每个区域的价值是独立的,在被无人集群探测之前具体数值是未知的。以此为基
础,定义搜索价值、搜索代价和回报值。以下进行展开说明:
事先是不确定的。假设不同区域的价值是相互独立的。对于区域 ,其价值 服从概率分
布 ,其中U表示所有备选区域,或称为方案空间。无人集群可以采用抵近侦察或者高空
侦察的方式获取信息。其中,抵近侦察能够获取区域的确切价值,高空侦察数据需要成功咨
询指挥员后才可能获得确切价值。另外,不同行动耗费的成本是不一致的,比如抵近侦察就
存在被击落的风险,而高空侦察则不易被击落。
要权衡搜索价值和搜索代价的关系,即回报值。回报值可以认为是净效益,在本发明中无人
集群的目标是使得回报值最大化。
群探测过,已经查明了确切价值;状态分析是指该地区正在被无人集探测,无人集群正向指
挥员请求数据分析。可以采用多种手段进行探测,不失一般性,无人集群主要有如下两种手
段:①无人集群前往目标区域u进行抵近侦察,采用多个视角和多种传感器收集和处理数
据,记为 ;②无人集群前往目标区域u进行高空侦察,并请求指挥员进行大数据分析,记
为 。所有行动集合记为 。
分为两个互斥集合:一个为不断增加的已探索方案集合 ,另一个是未探索方案集合
, , 。每个Agent在决策时,可以选择是否从集合 中选择一个未探索
方案进行探索,此时可以采用抵近侦察和咨询指挥员两种方式获得确切回报值;或者该
Agent停止探索并从集合 中选择一个已探索方案作为最终方案。设定整个集群一共选取
个方案,每个Agent只能够选择一个最有价值的方案。
对导航的影响,由于无人机集群中每个无人机都是独立的,因此引入了智能体的概念,以智
能体的行动作为无人机决策的动作,来进行无人机导航的动态规划,在进行任务规划时,将
各个区域分为已探索区域和未探索区域分开考虑,从而将动态规划问题,化解为系统状态
评估问题,最终通过SADP算法求解系统状态评估函数,得到无人机集群导航的整体导航方
案。
为将Agent系统多动态规划问题即转化为系统状态评估函数的依据。
智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效
果后继续探索未知方案i。
数 需要满足上述迭代关系。
如果 ,出现此情况的概率为 ,那么当前的最高采样价值将更新为 ,
期望状态评估值为 。
。
策指标分别记为 和 为:
大价值大于所有未知方案的决策指标时,则停止搜索并选择具有最大价值的导航方案作为
最终导航方案。
能体的导航方案;探索程序用于计算在决策指标集合中最大决策指标,以及根据最大决策
指标输出的导航方案、行动以及代价,若最大反馈值大于最大决策指标,则输出最终导航方
案,若最大反馈值小于或等于最大决策指标,则启动仿真程序,仿真指挥员是否响应并成功
分析出执行行动 的方案价值的结果,以及响应的反馈值的结果。
最终方案 和累积搜索代价;反之则进入仿真程序G,获取是否咨询成功 以及
采样价值x。如果获得确切采样价值,那么更新集合 、 、 和累积搜索代价 。
~
采样。
案代价分别为 ,搜索价值概率分布为 。一旦得到方案i的采样回报值,则将两
个方案 移入已探索集合I。此外,本文采用基于指标的搜索策略,即如果要继续探索,则
选择具有最高指标的架构;如果停止搜索,则选择具有最大已知采样值的架构,SADP算法的
时间复杂度取决于排序算法的时间复杂度。算法的执行过程是基于方案指标值大小而执行
的,这个顺序在整个探索过程中是不会发生改变的。换句话说,该算法的计算复杂度等于排
序算法的计算复杂度。现有排序算法,如堆排序、冒泡排序,都是多项式时间的计算复杂度。
因此,SADP算法是一种多项式时间最优算法。
执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分
步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行
完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,
而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
区域是对地理环境进行网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的
资源消耗确定的;所述回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无
人机低空探测所采集到的反馈值以及人机交互时接收到的反馈值;
估函数为已探索区域对应的方案信息对应的已知价值集合和未探索区域对应的方案信息
在预设状态时,多智能体执行导航方案的期望回报值;
个智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效
果后继续探索未知方案i。
定执行行动 和行动 的决策指标分别记为 和 为:
止规则当前最大价值大于所有未知方案的决策指标时,则停止搜索并选择具有最大价值的
导航方案作为最终导航方案。
态评估函数,得到每个智能体的导航方案;所述探索程序用于计算在决策指标集合中最大
决策指标,以及根据最大决策指标输出的导航方案、行动以及代价,若最大反馈值大于最大
决策指标,则输出最终导航方案,若最大反馈值小于或等于最大决策指标,则启动仿真程
序,仿真指挥员是否响应并成功分析出执行行动 的方案价值的结果,以及响应的反馈值
的结果。
导航装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬
件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中
的存储器中,以便于处理器调用执行以上各个模块对应的操作。
屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存
储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程
序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算
机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以
实现一种基于人机交互的无人机集群导航方法。该计算机设备的显示屏可以是液晶显示屏
或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是
计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,
本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可
包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM
(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括
随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,
诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强
型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM
(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
盾,都应当认为是本说明书记载的范围。
说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护
范围。因此,本申请专利的保护范围应以所附权利要求为准。