基于人机交互的无人机集群导航方法、装置和设备转让专利

申请号 : CN202111125458.6

文献号 : CN113566831B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 何华周鑫王彦锋李小波杨松井田

申请人 : 中国人民解放军国防科技大学

摘要 :

本申请涉及一种基于人机交互的无人机集群导航方法、装置和设备。所述方法包括:构建人机协同导航框架,将无人机定义为动态规划中的智能体,根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数,采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,根据每个智能体的导航方案,得到无人机集群的导航路径。采用本方法,可以实现人机交互情况下无人机集群的导航规划。

权利要求 :

1.一种基于人机交互的无人机集群导航方法,其特征在于,所述方法包括:构建人机协同导航框架;所述人机协同导航框架中包括:搜索价值、搜索代价和回报值;所述搜索价值是无人机对区域进行探索得到的反馈值,所述区域是对地理环境进行网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的资源消耗确定的;所述回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无人机低空探测所采集到的反馈值以及人机交互时接收到的反馈值;

将无人机定义为动态规划中的智能体;所述智能体能够根据已探索的区域选择回报值最大的区域作为导航方案;

根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数;所述系统状态评估函数为已探索区域对应的方案信息对应的已知价值集合和未探索区域对应的方案信息在预设状态时,多智能体执行导航方案的期望回报值;

采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,根据每个智能体的导航方案,得到无人机集群的导航路径;

根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数,包括:将所述系统状态评估函数分解为每个智能体的期望回报值为:其中, , 表示第k个智能体的子系统状态评估函数, 表示每个智能体的方案选择不同;

根据无人机探测时反馈值的类型,构建每个智能体的迭代公式如下:其中, 表示无人机选择低空探测时的系统状态评估函数, 表示无人机选择人机交互时的系统状态评估函数;

无人机选择低空探测时的系统状态评估函数为:无人机选择人机交互时的系统状态评估函数为:其中,p表示指挥员响应并成功分析出执行行动 的方案价值的概率; 分别表示对于方案i,智能体执行行动 和行动 所耗费的成本,当系统状态为 时,第k个智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效果后继续探索未知方案i。

2.根据权利要求1所述的方法,其特征在于,所述将无人机定义为动态规划中的智能体,包括:

确定每个智能体的导航方案为:

其中,表示已探索的区域对应的已探索方案, 表示智能体的输入。

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:定义无人机选择低空探测时的系统状态评估函数的期望状态评估值为:其中, 的概率为 , 的概率为 ;

定义无人机选择人机交互时的系统状态评估函数的期望状态评估值为:其中, 的概率为 , 的概率为 。

4.根据权利要求3所述的方法,其特征在于,在采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案之前,还包括:根据低空探测时的系统状态评估函数和系统状态评估函数的期望状态评估值,以及人机交互时的系统状态评估函数和系统状态评估函数的期望状态评估值,确定执行行动 和行动 的决策指标分别记为 和 为:进一步化简得到:

根据系统状态 和指标集合 ,确定搜索规则;所述搜索规则包括:判断规则和停止规则;所述判断规则指示智能体探索未探索区域而执行动作,所述停止规则当前最大价值大于所有未知方案的决策指标时,则停止搜索并选择具有最大价值的导航方案作为最终导航方案。

5.根据权利要求4所述的方法,其特征在于,所述采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,包括:计算所有方案的行动指标对应的决策指标,并保存至决策指标集合中;

基于SADP算法设置探索程序和仿真程序求解所述系统状态评估函数,得到每个智能体的导航方案;所述探索程序用于计算在决策指标集合中最大决策指标,以及根据最大决策指标输出的导航方案、行动以及代价,若最大反馈值大于最大决策指标,则输出最终导航方案,若最大反馈值小于或等于最大决策指标,则启动仿真程序,仿真指挥员是否响应并成功分析出执行行动 的方案价值的结果,以及响应的反馈值的结果。

6.一种基于人机交互的无人机集群导航装置,其特征在于,所述装置包括:框架搭建模块,用于构建人机协同导航框架;所述人机协同导航框架中包括:搜索价值、搜索代价和回报值;所述搜索价值是无人机对区域进行探索得到的反馈值,所述区域是对地理环境进行网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的资源消耗确定的;所述回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无人机低空探测所采集到的反馈值以及人机交互时接收到的反馈值;

规划模块,用于将无人机定义为动态规划中的智能体;所述智能体能够根据已探索的区域选择回报值最大的区域作为导航方案;

系统状态转化模块,用于根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数;所述系统状态评估函数为已探索区域对应的方案信息对应的已知价值集合和未探索区域对应的方案信息在预设状态时,多智能体执行导航方案的期望回报值;

导航模块,用于采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,根据每个智能体的导航方案,得到无人机集群的导航路径;

系统状态转化模块,还用于将所述系统状态评估函数分解为每个智能体的期望回报值为:

其中, , 表示第k个智能体的子系统状态评估函数, 表示每个智能体的方案选择不同;

根据无人机探测时反馈值的类型,构建每个智能体的迭代公式如下:其中, 表示无人机选择低空探测时的系统状态评估函数, 表示无人机选择人机交互时的系统状态评估函数;

无人机选择低空探测时的系统状态评估函数为:无人机选择人机交互时的系统状态评估函数为:其中,p表示指挥员响应并成功分析出执行行动 的方案价值的概率; 分别表示对于方案i,智能体执行行动 和行动 所耗费的成本,当系统状态为 时,第k个智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效果后继续探索未知方案i。

7.根据权利要求6所述的装置,其特征在于,所述规划模块还用于确定每个智能体的导航方案为:

其中,表示已探索的区域对应的已探索方案, 表示智能体的输入。

8.根据权利要求6所述的装置,其特征在于,所述系统状态转化模块还用于将所述系统状态评估函数分解为每个智能体的期望回报值为:其中, , 表示第k个智能体的子系统状态评估函数, 表示每个智能体的方案选择不同;

根据无人机探测时反馈值的类型,构建每个智能体的迭代公式如下:其中, 表示无人机选择低空探测时的系统状态评估函数, 表示无人机选择人机交互时的系统状态评估函数;

无人机选择低空探测时的系统状态评估函数为:无人机选择人机交互时的系统状态评估函数为:其中,p表示指挥员响应并成功分析出执行行动 的方案价值的概率; 分别表示对于方案i,智能体执行行动 和行动 所耗费的成本,当系统状态为 时,第k个智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效果后继续探索未知方案i。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

说明书 :

基于人机交互的无人机集群导航方法、装置和设备

技术领域

[0001] 本申请涉及人机交互条件下无人机导航技术领域,特别是涉及一种基于人机交互的无人机集群导航方法、装置和设备。

背景技术

[0002] 在进行无人机探测导航时,人机交互系统是由指挥员与机器人组成的复杂系统,他们相互协作以实现一个共同的目标。无人集群是由多个无人平台组成的群体,如无人机
集群、无人车集群。在无人集群自动规划领域,无人平台会根据其当前状态和附近环境,与
相邻无人平台相互交互以及自己的局部控制规则进行自动规划。人机交互系统在未知远程
环境和高度非结构化的任务中具有卓越性能,能够减少了人员工作量,完成单个无人平台
无法完成的任务,且具有更高的故障鲁棒性和可扩展性,然而在进行无人机集群的导航规
划时,传统的任务规划算法或者导航算法无法进行人机交互情况下的导航规划。

发明内容

[0003] 基于此,有必要针对上述技术问题,提供一种基于人机交互的无人机集群导航方法、装置和设备。
[0004] 一种基于人机交互的无人机集群导航方法,所述方法包括:
[0005] 构建人机协同导航框架;所述人机协同导航框架中包括:搜索价值、搜索代价和回报值;所述搜索价值是无人机对区域进行探索得到的反馈值,所述区域是对地理环境进行
网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的资源消耗确定的;所述
回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无人机低空探测所采集
到的反馈值以及人机交互时接收到的反馈值;
[0006] 将无人机定义为动态规划中的智能体;所述智能体能够根据已探索的区域选择回报值最大的区域作为导航方案;
[0007] 根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数;所述系统状态评估函数为已探索区域对应的方
案信息对应的已知价值集合和未探索区域对应的方案信息在预设状态时,多智能体执行导
航方案的期望回报值;
[0008] 采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,根据每个智能体的导航方案,得到无人机集群的导航路径。
[0009] 在其中一个实施例中,还包括:确定每个智能体的导航方案为:
[0010]
[0011] 其中,表示已探索的区域对应的已探索方案, 表示智能体的输入。
[0012] 在其中一个实施例中,还包括:将所述系统状态评估函数分解为每个智能体的期望回报值为:
[0013]
[0014] 其中, , 表示第k个智能体的子系统状态评估函数,表示每个智能体的方案选择不同;
[0015] 根据无人机探测时反馈值的类型,构建每个智能体的迭代公式如下:
[0016]
[0017] 其中, 表示无人机选择低空探测时的系统状态评估函数,表示无人机选择人机交互时的系统状态评估函数;
[0018] 无人机选择低空探测时的系统状态评估函数为:
[0019]
[0020] 无人机选择人机交互时的系统状态评估函数为:
[0021]
[0022] 其中,p表示指挥员响应并成功分析出执行行动 的方案价值的概率; 分别表示对于方案i,智能体执行行动 和行动 所耗费的成本,当系统状态为 时,第k个
智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效果
后继续探索未知方案i。
[0023] 在其中一个实施例中,还包括:定义无人机选择低空探测时的系统状态评估函数的期望状态评估值为:
[0024]
[0025] 其中, 的概率为 , 的概率为 ;
[0026] 定义无人机选择人机交互时的系统状态评估函数的期望状态评估值为:
[0027]
[0028] 其中, 的概率为 , 的概率为 。
[0029] 在其中一个实施例中,还包括:根据低空探测时的系统状态评估函数的期望状态评估值,以及人机交互时的系统状态评估函数的期望状态评估值,确定执行行动 和行动
的决策指标分别记为 和 为:
[0030]
[0031] 进一步化简得到:
[0032]
[0033] 根据系统状态 和指标集合 ,确定搜索规则;所述搜索规则包括:判断规则和停止规则;所述判断规则指示智能体探索未探索区域而执行动作,所述停
止规则当前最大价值大于所有未知方案的决策指标时,则停止搜索并选择具有最大价值的
导航方案作为最终导航方案。
[0034] 在其中一个实施例中,还包括:计算所有方案的行动指标对应的决策指标,并保存至决策指标集合中;
[0035] 基于SADP算法设置探索程序和仿真程序求解所述系统状态评估函数,得到每个智能体的导航方案;所述探索程序用于计算在决策指标集合中最大决策指标,以及根据最大
决策指标输出的导航方案、行动以及代价,若最大反馈值大于最大决策指标,则输出最终导
航方案,若最大反馈值小于或等于最大决策指标,则启动仿真程序,仿真指挥员是否响应并
成功分析出执行行动 的方案价值的结果,以及响应的反馈值的结果。
[0036] 一种基于人机交互的无人机集群导航装置,所述装置包括:
[0037] 框架搭建模块,用于构建人机协同导航框架;所述人机协同导航框架中包括:搜索价值、搜索代价和回报值;所述搜索价值是无人机对区域进行探索得到的反馈值,所述区域
是对地理环境进行网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的资源
消耗确定的;所述回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无人机
低空探测所采集到的反馈值以及人机交互时接收到的反馈值;
[0038] 规划模块,用于将无人机定义为动态规划中的智能体;所述智能体能够根据已探索的区域选择回报值最大的区域作为导航方案;
[0039] 系统状态转化模块,用于根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数;所述系统状态评估函
数为已探索区域对应的方案信息对应的已知价值集合和未探索区域对应的方案信息在预
设状态时,多智能体执行导航方案的期望回报值;
[0040] 导航模块,用于采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,根据每个智能体的导航方案,得到无人机集群的导航路径。
[0041] 在其中一个实施例中,所述规划模块还用于确定每个智能体的导航方案为:
[0042]
[0043] 其中,表示已探索的区域对应的已探索方案, 表示智能体的输入。
[0044] 在其中一个实施例中,所述系统状态转化模块还用于将所述系统状态评估函数分解为每个智能体的期望回报值为:
[0045]
[0046] 其中, ,  , 表示第k个智能体的子系统状态评估函数, 表示每个智能体的方案选择不同;
[0047] 根据无人机探测时反馈值的类型,构建每个智能体的迭代公式如下:
[0048]
[0049] 其中, 表示无人机选择低空探测时的系统状态评估函数, 表示无人机选择人机交互时的系统状态评估函数;
[0050] 无人机选择低空探测时的系统状态评估函数为:
[0051]
[0052] 无人机选择人机交互时的系统状态评估函数为:
[0053]
[0054] 其中,p表示指挥员响应并成功分析出执行行动 的方案价值的概率; 分别表示对于方案i,智能体执行行动 和行动 所耗费的成本,当系统状态为 时,第k个
智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效
果后继续探索未知方案i。
[0055] 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现步骤如下:
[0056] 构建人机协同导航框架;所述人机协同导航框架中包括:搜索价值、搜索代价和回报值;所述搜索价值是无人机对区域进行探索得到的反馈值,所述区域是对地理环境进行
网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的资源消耗确定的;所述
回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无人机低空探测所采集
到的反馈值以及人机交互时接收到的反馈值;
[0057] 将无人机定义为动态规划中的智能体;所述智能体能够根据已探索的区域选择回报值最大的区域作为导航方案;
[0058] 根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数;所述系统状态评估函数为已探索区域对应的方
案信息对应的已知价值集合和未探索区域对应的方案信息在预设状态时,多智能体执行导
航方案的期望回报值;
[0059] 采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,根据每个智能体的导航方案,得到无人机集群的导航路径。
[0060] 上述基于人机交互的无人机集群导航方法、装置和设备,针对存在人机交互时的无人机集群的导航,构建了人机协同导航框架,在框架中,通过反馈值和搜索代价,引入无
人机人机交互时对导航的影响,由于无人机集群中每个无人机都是独立的,因此引入了智
能体的概念,以智能体的行动作为无人机决策的动作,来进行无人机导航的动态规划,在进
行任务规划时,将各个区域分为已探索区域和未探索区域分开考虑,从而将动态规划问题,
化解为系统状态评估问题,最终通过SADP算法求解系统状态评估函数,得到无人机集群导
航的整体导航方案。

附图说明

[0061] 图1为一个实施例中基于人机交互的无人机集群导航方法的流程示意图;
[0062] 图2为一个实施例中方案状态转移关系的示意图;
[0063] 图3为一个实施例中基于人机交互的无人机集群导航装置的结构框图;
[0064] 图4为一个实施例中计算机设备的内部结构图。

具体实施方式

[0065] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不
用于限定本申请。
[0066] 在一个实施例中,如图1所示,提供了一种基于人机交互的无人机集群导航方法,包括以下步骤:
[0067] 步骤102,构建人机协同导航框架。
[0068] 人机协同导航框架中包括:搜索价值、搜索代价和回报值;搜索价值是无人机对区域进行探索得到的反馈值,区域是对地理环境进行网格划分得到的;搜索代价是根据无人
机对区域进行探索时的资源消耗确定的;回报值是搜索价值和搜索代价的差值;反馈值包
括:无人机低空探测所采集到的反馈值以及人机交互时接收到的反馈值。
[0069] 具体的,无人集群在区域中寻找到高价值目标,如果包含的高价值目标越多,则这片区域就越有价值。无人集群的目标是以尽可能少的代价寻找到价值尽可能高的若干区
域。假设每个区域的价值是独立的,在被无人集群探测之前具体数值是未知的。以此为基
础,定义搜索价值、搜索代价和回报值。以下进行展开说明:
[0070] 1、对于搜索价值,是指无人集群探索某个区域的必要性的综合度量。
[0071] 搜索价值是由目标的重要程度决定的,目标越重要,那么该目标所具备的价值也就越大,探索这片区域的价值也就越大。考虑到先验态势信息的不准确性,每片区域的价值
事先是不确定的。假设不同区域的价值是相互独立的。对于区域 ,其价值 服从概率分
布 ,其中U表示所有备选区域,或称为方案空间。无人集群可以采用抵近侦察或者高空
侦察的方式获取信息。其中,抵近侦察能够获取区域的确切价值,高空侦察数据需要成功咨
询指挥员后才可能获得确切价值。另外,不同行动耗费的成本是不一致的,比如抵近侦察就
存在被击落的风险,而高空侦察则不易被击落。
[0072] 2、对于搜索代价,是指无人集群探索某个区域时的成本的综合度量。
[0073] 派遣无人集群前往目标地点搜索是需要耗费成本的,记为 。假设采用不同行动搜索不同区域的代价是已知的且相互独立的。那么,无人集群在考虑进一步探索时,需
要权衡搜索价值和搜索代价的关系,即回报值。回报值可以认为是净效益,在本发明中无人
集群的目标是使得回报值最大化。
[0074] 3、回报值,是搜索价值与探索成本之差。
[0075] 每个区域的状态分为状态未知、状态已知和状态分析三类,如图2所示。状态未知是指该区域还未被无人集群探索,确切价值尚不可知;状态已知是指该区域已经被无人集
群探测过,已经查明了确切价值;状态分析是指该地区正在被无人集探测,无人集群正向指
挥员请求数据分析。可以采用多种手段进行探测,不失一般性,无人集群主要有如下两种手
段:①无人集群前往目标区域u进行抵近侦察,采用多个视角和多种传感器收集和处理数
据,记为 ;②无人集群前往目标区域u进行高空侦察,并请求指挥员进行大数据分析,记
为 。所有行动集合记为 。
[0076] 步骤104,将无人机定义为动态规划中的智能体。
[0077] 智能体,即Agent。智能体能够根据已探索的区域选择回报值最大的区域作为导航方案。
[0078] 具体的,人与无人集群协作搜索被形式化建模为一类多Agent系统动态规划问题,其中无人平台被抽象为Agent,每个区域被称为一个方案。将备选方案集合记为 ,将其
分为两个互斥集合:一个为不断增加的已探索方案集合 ,另一个是未探索方案集合
, , 。每个Agent在决策时,可以选择是否从集合 中选择一个未探索
方案进行探索,此时可以采用抵近侦察和咨询指挥员两种方式获得确切回报值;或者该
Agent停止探索并从集合 中选择一个已探索方案作为最终方案。设定整个集群一共选取
个方案,每个Agent只能够选择一个最有价值的方案。
[0079] 步骤106,根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数。
[0080] 系统状态评估函数为已探索区域对应的方案信息对应的已知价值集合和未探索区域对应的方案信息在预设状态时,多智能体执行导航方案的期望回报值。
[0081] 系统状态评估函数为当已知价值集合为y且未探索方案集合为 时,执行最优策略能够获得的期望回报值,记为 。
[0082] 步骤108,采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,根据每个智能体的导航方案,得到无人机集群的导航路径。
[0083] 上述基于人机交互的无人机集群导航,针对存在人机交互时的无人机集群的导航,构建了人机协同导航框架,在框架中,通过反馈值和搜索代价,引入无人机人机交互时
对导航的影响,由于无人机集群中每个无人机都是独立的,因此引入了智能体的概念,以智
能体的行动作为无人机决策的动作,来进行无人机导航的动态规划,在进行任务规划时,将
各个区域分为已探索区域和未探索区域分开考虑,从而将动态规划问题,化解为系统状态
评估问题,最终通过SADP算法求解系统状态评估函数,得到无人机集群导航的整体导航方
案。
[0084] 在其中一个实施例中,确定每个智能体的导航方案为:
[0085]
[0086] 其中,表示已探索的区域对应的已探索方案, 表示智能体的输入。
[0087] 另外,在Agent系统动态规划问题中,求解问题的充分统计量记为 ,称为系统状态。系统状态分为两部分:未探索方案信息 ,和已探索方案集合 。以此作
为将Agent系统多动态规划问题即转化为系统状态评估函数的依据。
[0088] 在其中一个实施例中,将系统状态评估函数分解为每个智能体的期望回报值为:
[0089]
[0090] 其中, , 表示第k个智能体的子系统状态评估函数,表示每个智能体的方案选择不同;
[0091] 根据无人机探测时反馈值的类型,构建每个智能体的迭代公式如下:
[0092]
[0093] 其中, 表示无人机选择低空探测时的系统状态评估函数, 表示无人机选择人机交互时的系统状态评估函数;
[0094] 无人机选择低空探测时的系统状态评估函数为:
[0095]
[0096] 无人机选择人机交互时的系统状态评估函数为:
[0097]
[0098] 其中,p表示指挥员响应并成功分析出执行行动 的方案价值的概率; 分别表示对于方案i,智能体执行行动 和行动 所耗费的成本,当系统状态为 时,第k个
智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效
果后继续探索未知方案i。
[0099] 具体的,每个Agent都有局部方案空间,不同Agent的方案空间可能交叉,也可能不交叉 。对于每个子集 和价值集合 ,子系统状态评估函
数 需要满足上述迭代关系。
[0100] 在其中一个实施例中,定义无人机选择低空探测时的系统状态评估函数的期望状态评估值为:
[0101]
[0102] 其中, 的概率为 , 的概率为 ;
[0103] 定义无人机选择人机交互时的系统状态评估函数的期望状态评估值为:
[0104]
[0105] 其中, 的概率为 , 的概率为 。
[0106] 上述公式中,对于行动 ,如果采样价值 ,出现该情况的概率为,那么当前最高采样价值不变,期望状态评估值为 ;
如果 ,出现此情况的概率为 ,那么当前的最高采样价值将更新为 ,
期望状态评估值为 。
[0107] 对于行动 ,如果采样价值 ,出现该情况的概率为 ,那么期望状态评估值为 ;如果 ,那么期望状态评估值为

[0108] 通过上述定义,将人与无人集群协作搜索问题建模为一种动态规划问题。该问题特点是递归计算,因此难以直接求解状态评估函数。
[0109] 在其中一个实施例中,根据低空探测时的系统状态评估函数的期望状态评估值,以及人机交互时的系统状态评估函数的期望状态评估值,确定执行行动 和行动 的决
策指标分别记为 和 为:
[0110]
[0111] 进一步化简得到:
[0112]
[0113] 根据系统状态 和指标集合 ,确定搜索规则;搜索规则包括:判断规则和停止规则;判断规则指示智能体探索未探索区域而执行动作,停止规则当前最
大价值大于所有未知方案的决策指标时,则停止搜索并选择具有最大价值的导航方案作为
最终导航方案。
[0114] 通过该规则,复杂的系统状态函数计算问题就转化为简单的指标判断问题,且每个指标的计算都是独立的,不受其他方案价值概率分布的影响。
[0115] 在其中一个实施例中,计算所有方案的行动指标对应的决策指标,并保存至决策指标集合中;基于SADP算法设置探索程序和仿真程序求解系统状态评估函数,得到每个智
能体的导航方案;探索程序用于计算在决策指标集合中最大决策指标,以及根据最大决策
指标输出的导航方案、行动以及代价,若最大反馈值大于最大决策指标,则输出最终导航方
案,若最大反馈值小于或等于最大决策指标,则启动仿真程序,仿真指挥员是否响应并成功
分析出执行行动 的方案价值的结果,以及响应的反馈值的结果。
[0116] 具体的,探索程序如表1所示:
[0117] 表1探索程序
[0118]
[0119]
[0120] 仿真程序如表2所示:
[0121] 表2仿真程序
[0122]
[0123] 具体的,在嵌套遍历中,应先找出集合 中最大指标 ,以及对应的方案 、行动和代价 。如果最大采样价值大于最大决策指标 ,则停止搜索并返回最大采用价值 、
最终方案 和累积搜索代价;反之则进入仿真程序G,获取是否咨询成功 以及
采样价值x。如果获得确切采样价值,那么更新集合 、 、 和累积搜索代价 。
[0124] 在仿真程序G中,如果采取行动 ,则将生成的随机数r与咨询成功率p对比,以判断能否咨询成功。另外,符号“ ”表示采样, 表示对概率分布 进行一次
~
采样。
[0125] 值得说明的是,每个Agent动态规划问题的求解过程就同潘多拉问题的求解过程一致。每个已探索方案 具有价值 ;未探索方案i可以看成是两个独立的方案 ,每个方
案代价分别为 ,搜索价值概率分布为 。一旦得到方案i的采样回报值,则将两
个方案 移入已探索集合I。此外,本文采用基于指标的搜索策略,即如果要继续探索,则
选择具有最高指标的架构;如果停止搜索,则选择具有最大已知采样值的架构,SADP算法的
时间复杂度取决于排序算法的时间复杂度。算法的执行过程是基于方案指标值大小而执行
的,这个顺序在整个探索过程中是不会发生改变的。换句话说,该算法的计算复杂度等于排
序算法的计算复杂度。现有排序算法,如堆排序、冒泡排序,都是多项式时间的计算复杂度。
因此,SADP算法是一种多项式时间最优算法。
[0126] 应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的
执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分
步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行
完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,
而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0127] 在一个实施例中,如图3所示,提供了一种基于人机交互的无人机集群导航装置,包括:框架搭建模块302、规划模块304、系统状态转化模块306和导航模块308,其中:
[0128] 框架搭建模块302,用于构建人机协同导航框架;所述人机协同导航框架中包括:搜索价值、搜索代价和回报值;所述搜索价值是无人机对区域进行探索得到的反馈值,所述
区域是对地理环境进行网格划分得到的;所述搜索代价是根据无人机对区域进行探索时的
资源消耗确定的;所述回报值是所述搜索价值和所述搜索代价的差值;所述反馈值包括:无
人机低空探测所采集到的反馈值以及人机交互时接收到的反馈值;
[0129] 规划模块304,用于将无人机定义为动态规划中的智能体;所述智能体能够根据已探索的区域选择回报值最大的区域作为导航方案;
[0130] 系统状态转化模块306,用于根据已探索区域对应的方案信息和未探索区域对应的方案信息,将多个智能体的多动态规划问题转化为系统状态评估函数;所述系统状态评
估函数为已探索区域对应的方案信息对应的已知价值集合和未探索区域对应的方案信息
在预设状态时,多智能体执行导航方案的期望回报值;
[0131] 导航模块308,用于采用SADP算法求解所述系统状态评估函数,得到每个智能体的导航方案,根据每个智能体的导航方案,得到无人机集群的导航路径。
[0132] 在其中一个实施例中,规划模块304还用于确定每个智能体的导航方案为:
[0133]
[0134] 其中,表示已探索的区域对应的已探索方案, 表示智能体的输入。
[0135] 在其中一个实施例中,系统状态转化模块306还用于将所述系统状态评估函数分解为每个智能体的期望回报值为:
[0136]
[0137] 其中, , 表示第k个智能体的子系统状态评估函数,表示每个智能体的方案选择不同;
[0138] 根据无人机探测时反馈值的类型,构建每个智能体的迭代公式如下:
[0139]
[0140] 其中, 表示无人机选择低空探测时的系统状态评估函数, 表示无人机选择人机交互时的系统状态评估函数;
[0141] 无人机选择低空探测时的系统状态评估函数为:
[0142]
[0143] 无人机选择人机交互时的系统状态评估函数为:
[0144]
[0145] 其中,p表示指挥员响应并成功分析出执行行动 的方案价值的概率; 分别表示对于方案i,智能体执行行动 和行动 所耗费的成本,当系统状态为 时,第k
个智能体需要确定是停止搜索并从集合 选择最大价值 ,或是在比较行动 和行动 效
果后继续探索未知方案i。
[0146] 在其中一个实施例中,还包括:状态评估模块,用于定义无人机选择低空探测时的系统状态评估函数的期望状态评估值为:
[0147]
[0148] 其中, 的概率为 , 的概率为 ;
[0149] 定义无人机选择人机交互时的系统状态评估函数的期望状态评估值为:
[0150]
[0151] 其中, 的概率为 , 的概率为 。
[0152] 在其中一个实施例中,系统状态转化模块306还用于根据低空探测时的系统状态评估函数的期望状态评估值,以及人机交互时的系统状态评估函数的期望状态评估值,确
定执行行动 和行动 的决策指标分别记为 和 为:
[0153]
[0154] 进一步化简得到:
[0155]
[0156] 根据系统状态 和指标集合 ,确定搜索规则;所述搜索规则包括:判断规则和停止规则;所述判断规则指示智能体探索未探索区域而执行动作,所述停
止规则当前最大价值大于所有未知方案的决策指标时,则停止搜索并选择具有最大价值的
导航方案作为最终导航方案。
[0157] 在其中一个实施例中,导航模块308还用于计算所有方案的行动指标对应的决策指标,并保存至决策指标集合中;基于SADP算法设置探索程序和仿真程序求解所述系统状
态评估函数,得到每个智能体的导航方案;所述探索程序用于计算在决策指标集合中最大
决策指标,以及根据最大决策指标输出的导航方案、行动以及代价,若最大反馈值大于最大
决策指标,则输出最终导航方案,若最大反馈值小于或等于最大决策指标,则启动仿真程
序,仿真指挥员是否响应并成功分析出执行行动 的方案价值的结果,以及响应的反馈值
的结果。
[0158] 关于基于人机交互的无人机集群导航装置的具体限定可以参见上文中对于基于人机交互的无人机集群导航方法的限定,在此不再赘述。上述基于人机交互的无人机集群
导航装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬
件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中
的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0159] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示
屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存
储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程
序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算
机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以
实现一种基于人机交互的无人机集群导航方法。该计算机设备的显示屏可以是液晶显示屏
或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是
计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0160] 本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备
可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0161] 在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
[0162] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机
可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,
本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可
包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM
(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括
随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,
诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强
型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM
(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0163] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛
盾,都应当认为是本说明书记载的范围。
[0164] 以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来
说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护
范围。因此,本申请专利的保护范围应以所附权利要求为准。