一种用于飞机智能体机动决策的数据处理方法及装置转让专利

申请号 : CN202210745424.5

文献号 : CN114996856B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈敏杰孙方义张柯

申请人 : 北京鼎成智造科技有限公司

摘要 :

本发明公开了一种用于飞机智能体机动决策的数据处理方法及装置,该方法包括:启动仿真推演平台的仿真推演引擎;从仿真推演平台获取环境状态信息;环境状态信息包括若干个仿真实体;判断环境状态信息是否满足仿真终止条件,得到第一判断结果;仿真终止条件与仿真实体的状态标志相关;状态标志用于表征仿真实体在仿真推演平台中的可识别情况;当第一判断结果为否时,根据环境状态信息,确定出仿真推演指令信息;仿真推演指令信息包括若干个仿真推演指令;仿真推演指令信息用于指示仿真推演平台的仿真推演。可见,本发明有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。

权利要求 :

1.一种用于飞机智能体机动决策的数据处理方法,其特征在于,所述方法包括:启动仿真推演平台的仿真推演引擎;

从所述仿真推演平台获取环境状态信息;所述环境状态信息包括若干个仿真实体;

判断所述环境状态信息是否满足仿真终止条件,得到第一判断结果;所述仿真终止条件与所述仿真实体的状态标志相关;所述状态标志用于表征所述仿真实体在所述仿真推演平台中的可识别情况;

当所述第一判断结果为否时,根据所述环境状态信息,确定出仿真推演指令信息;所述仿真推演指令信息包括若干个仿真推演指令;所述仿真推演指令信息用于指示所述仿真推演平台的仿真推演;

其中,所述环境状态信息包括当前推进指令信息;

所述根据所述环境状态信息,确定出仿真推演指令信息,包括:根据所述环境状态信息,确定出宏动作指令信息;

根据所述环境状态信息,确定出规则动作指令信息;

对所述当前推进指令信息、所述宏动作指令信息和所述规则动作指令信息进行融合处理,得到仿真推演指令信息;

其中,所述根据所述环境状态信息,确定出宏动作指令信息,包括:判断所述环境状态信息是否满足触发条件,得到第三判断结果;

当所述第三判断结果为是时,对所述环境状态信息进行格式转换和数据筛选处理,得到态势状态信息;所述态势状态信息包括红蓝双方的距离信息、红蓝双方的角度信息、蓝方导弹与红方飞机的距离信息以及角度信息、红方飞机被锁定的信息;

对所述态势状态信息进行计算处理,得到宏动作指令信息;

其中,所述判断所述环境状态信息是否满足触发条件,得到第三判断结果的具体方式为:判断所述环境状态信息中的仿真推演引擎是否为启动状态,得到状态判断结果;

当所述状态判断结果为是时,确定第三判断结果为是;

当所述状态判断结果为否时,判断所述环境状态信息中仿真实体的火控雷达锁定信号是否发生变化,得到第一雷达判断结果;

当所述第一雷达判断结果为是时,确定第三判断结果为是;

当所述第一雷达判断结果为否时,判断所述环境状态信息中的被对方火控雷达锁定信号是否发生变化,得到第二雷达判断结果;

当所述第二雷达判断结果为是时,确定第三判断结果为是;

当所述第二雷达判断结果为否时,判断所述环境状态信息中的敌方导弹威胁信号是否发生变化,得到导弹判断结果;

当所述导弹判断结果为是时,确定第三判断结果为是;

当所述导弹判断结果为否时,判断所述环境状态信息中的队友可用性信息是否发生变化,得到队友信息判断结果;

当所述队友信息判断结果为是时,确定第三判断结果为是;

当所述队友信息判断结果为否时,判断所述环境状态信息中的敌方可用性信息是否发生变化,得到敌方信息判断结果;

当所述队友信息判断结果为是时,确定第三判断结果为是;

当所述队友信息判断结果为否时,确定第三判断结果为否。

2.根据权利要求1所述的用于飞机智能体机动决策的数据处理方法,其特征在于,所述根据所述环境状态信息,确定出规则动作指令信息,包括:判断所述环境状态信息是否满足规则动作条件,得到第二判断结果;

当所述第二判断结果为是时,确定规则动作指令信息为发射指令;

当所述第二判断结果为否时,确定所述规则动作指令信息为规则动作空缺信息;所述规则动作空缺信息表征不需要进行规则动作的仿真操作。

3.根据权利要求1所述的用于飞机智能体机动决策的数据处理方法,其特征在于,所述对所述态势状态信息进行计算处理,得到宏动作指令信息,包括:利用所述态势状态信息对预设的表演者网络进行训练,得到目标状态信息网络;

利用所述目标状态信息网络对所述态势状态信息进行计算处理,得到宏动作指令信息。

4.根据权利要求3所述的用于飞机智能体机动决策的数据处理方法,其特征在于,所述利用所述态势状态信息对预设的表演者网络进行训练,得到目标状态信息网络,包括:获取预设的表演者网络;

将所述态势状态信息输入所述表演者网络,得到网络采样动作信息;所述网络采用动作信息包括均值信息和方差信息;

根据所述网络采样动作信息,确定出样本池数据信息;所述样本池数据信息包括若干个样本池数据;所述样本池数据包括第一状态信息、动作信息、奖励信息、第二状态信息;

对所述样本池数据信息进行划区处理,得到样本池区块信息;所述样本池区块信息包括若干个样本池区块;所述样本池区块包括若干个样本池数据;

从所述样本池数据信息中筛选出目标状态信息;所述目标状态信息为所述样本池数据信息中最后一个步长计算得到的第二状态信息;

利用预设的评价者网络对所述目标状态信息进行处理,得到状态值信息;

利用预设的折扣奖励模型对所述状态值信息进行计算处理,得到折扣奖励信息;

从所述样本池区块信息中筛选出第一目标样本池区块信息;

对所述第一目标样本池区块信息和所述折扣奖励信息进行计算处理,得到优势函数信息;

从所述样本池区块信息中筛选出第二目标样本池区块信息;

利用所述第二目标样本池区块信息对所述表演者网络进行更新处理,得到当前表演者网络;

确定所述表演者网络为历史表演者网络;

对所述样本池数据信息、所述当前表演者网络和所述历史表演者网络进行计算处理,得到重要性采样率信息;

对所述重要性采样率信息、所述优势函数信息和所述网络采样动作信息进行计算处理,得到损失函数值信息;

判断所述损失函数值信息是否满足第一终止条件,得到第一终止判断结果;

当所述第一终止判断结果为否时,触发执行所述从所述样本池区块信息中筛选出第二目标样本池区块信息;

当所述第一终止判断结果为是时,根据所述折扣奖励信息,确定出折扣奖励变化信息;

判断所述折扣奖励变化信息是否满足第二终止条件,得到第二终止判断结果;

当所述第二终止判断结果为否时,利用所述当前表演者网络对所述表演者网络进行更新;触发执行所述将所述态势状态信息输入所述表演者网络,得到网络采样动作信息;

当所述第二终止判断结果为是时,确定所述当前表演者网络为目标状态信息网络。

5.根据权利要求1所述的用于飞机智能体机动决策的数据处理方法,其特征在于,在所述当所述第一判断结果为否时,根据所述环境状态信息,确定出仿真推演指令信息之后,所述方法还包括:判断所述仿真推演指令信息中仿真推演指令的数量是否大于1,得到数量判断结果;

当所述数量判断结果为否时,触发执行所述从所述仿真推演平台获取环境状态信息;

当所述数量判断结果为是时,将所述仿真推演指令信息中所有仿真推演指令输入到所述仿真推演平台。

6.一种用于飞机智能体机动决策的数据处理装置,其特征在于,所述装置包括:启动模块,用于启动仿真推演平台的仿真推演引擎;

获取模块,用于从所述仿真推演平台获取环境状态信息;所述环境状态信息包括若干个仿真实体;

第一判断模块,用于判断所述环境状态信息是否满足仿真终止条件,得到第一判断结果;所述仿真终止条件与所述仿真实体的状态标志相关;所述状态标志用于表征所述仿真实体在所述仿真推演平台中的可识别情况;

确定模块,用于当所述第一判断结果为否时,根据所述环境状态信息,确定出仿真推演指令信息;所述仿真推演指令信息包括若干个仿真推演指令;所述仿真推演指令信息用于指示所述仿真推演平台的仿真推演;

其中,所述环境状态信息包括当前推进指令信息;

所述根据所述环境状态信息,确定出仿真推演指令信息,包括:根据所述环境状态信息,确定出宏动作指令信息;

根据所述环境状态信息,确定出规则动作指令信息;

对所述当前推进指令信息、所述宏动作指令信息和所述规则动作指令信息进行融合处理,得到仿真推演指令信息;

其中,所述根据所述环境状态信息,确定出宏动作指令信息,包括:判断所述环境状态信息是否满足触发条件,得到第三判断结果;

当所述第三判断结果为是时,对所述环境状态信息进行格式转换和数据筛选处理,得到态势状态信息;所述态势状态信息包括红蓝双方的距离信息、红蓝双方的角度信息、蓝方导弹与红方飞机的距离信息以及角度信息、红方飞机被锁定的信息;

对所述态势状态信息进行计算处理,得到宏动作指令信息;

其中,所述判断所述环境状态信息是否满足触发条件,得到第三判断结果的具体方式为:判断所述环境状态信息中的仿真推演引擎是否为启动状态,得到状态判断结果;

当所述状态判断结果为是时,确定第三判断结果为是;

当所述状态判断结果为否时,判断所述环境状态信息中仿真实体的火控雷达锁定信号是否发生变化,得到第一雷达判断结果;

当所述第一雷达判断结果为是时,确定第三判断结果为是;

当所述第一雷达判断结果为否时,判断所述环境状态信息中的被对方火控雷达锁定信号是否发生变化,得到第二雷达判断结果;

当所述第二雷达判断结果为是时,确定第三判断结果为是;

当所述第二雷达判断结果为否时,判断所述环境状态信息中的敌方导弹威胁信号是否发生变化,得到导弹判断结果;

当所述导弹判断结果为是时,确定第三判断结果为是;

当所述导弹判断结果为否时,判断所述环境状态信息中的队友可用性信息是否发生变化,得到队友信息判断结果;

当所述队友信息判断结果为是时,确定第三判断结果为是;

当所述队友信息判断结果为否时,判断所述环境状态信息中的敌方可用性信息是否发生变化,得到敌方信息判断结果;

当所述队友信息判断结果为是时,确定第三判断结果为是;

当所述队友信息判断结果为否时,确定第三判断结果为否。

7.一种用于飞机智能体机动决策的数据处理装置,其特征在于,所述装置包括:存储有可执行程序代码的存储器;

与所述存储器耦合的处理器;

所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1‑5任一项所述的用于飞机智能体机动决策的数据处理方法。

8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1‑5任一项所述的用于飞机智能体机动决策的数据处理方法。

说明书 :

一种用于飞机智能体机动决策的数据处理方法及装置

技术领域

[0001] 本发明涉及数据处理技术领域,尤其涉及一种用于飞机智能体机动决策的数据处理方法及装置。

背景技术

[0002] 现有的飞机机动决策问题解决方案主要是在强化学习的框架下,分析表征空战态势的主要因素,建立空战优势函数并以此作为强化学习回报值的基础,并设计空战机动决策的强化学习模型(DQN、TD差分等),对空战机动决策的状态空间进行归一化处理将其作为强化学习的状态输入,并将飞机的机动动作离散化为左右上下等单步动作作为强化学习的基本动作空间,通过迭代优化针对于飞机的当前状态基于一个最优的动作指令。针对于单步动作指令,由于对飞机的连续动作难以表达,现有的方法均基于离散的动作空间进行决策,设置固定的步长进行决策,容易出现由于步长过小会使得飞机决策过于频繁而造成的与实际不符的抖动,或者由于补偿过大造成飞机决策过程中的战机贻误等问题。因此,提供一种用于飞机智能体机动决策的数据处理方法及装置,以解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误显得尤为重要。

发明内容

[0003] 本发明所要解决的技术问题在于,提供一种用于飞机智能体机动决策的数据处理方法及装置,能够通过对环境状态信息的综合处理得到用于指示仿真推演平台进行仿真推演的仿真推演指令,有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0004] 为了解决上述技术问题,本发明实施例第一方面公开了一种用于飞机智能体机动决策的数据处理方法,所述方法包括:
[0005] 启动仿真推演平台的仿真推演引擎;
[0006] 从所述仿真推演平台获取环境状态信息;所述环境状态信息包括若干个仿真实体;
[0007] 判断所述环境状态信息是否满足仿真终止条件,得到第一判断结果;所述仿真终止条件与所述仿真实体的状态标志相关;所述状态标志用于表征所述仿真实体在所述仿真推演平台中的可识别情况;
[0008] 当所述第一判断结果为否时,根据所述环境状态信息,确定出仿真推演指令信息;所述仿真推演指令信息包括若干个仿真推演指令;所述仿真推演指令信息用于指示所述仿真推演平台的仿真推演。
[0009] 作为一种可选的实施方式,在本发明实施例第一方面中,所述环境状态信息包括当前推进指令信息;
[0010] 根据所述环境状态信息,确定出仿真推演指令信息,包括:
[0011] 根据所述环境状态信息,确定出宏动作指令信息;
[0012] 根据所述环境状态信息,确定出规则动作指令信息;
[0013] 对所述当前推进指令信息、所述宏动作指令信息和所述规则动作指令信息进行融合处理,得到仿真推演指令信息。
[0014] 作为一种可选的实施方式,在本发明实施例第一方面中,所述根据所述环境状态信息,确定出规则动作指令信息,包括:
[0015] 判断所述环境状态信息是否满足规则动作条件,得到第二判断结果;
[0016] 当所述第二判断结果为是时,确定规则动作指令信息为发射指令;
[0017] 当所述第二判断结果为否时,确定所述规则动作指令信息为规则动作空缺信息;所述规则动作空缺信息表征不需要进行规则动作的仿真操作。
[0018] 作为一种可选的实施方式,在本发明实施例第一方面中,所述根据所述环境状态信息,确定出宏动作指令信息,包括:
[0019] 判断所述环境状态信息是否满足触发条件,得到第三判断结果;
[0020] 当所述第三判断结果为是时,对所述环境状态信息进行格式转换和数据筛选处理,得到态势状态信息;所述态势状态信息包括红蓝双方的距离信息、红蓝双方的角度信息、蓝方导弹与红方飞机的距离信息以及角度信息、红方飞机被锁定的信息;
[0021] 对所述态势状态信息进行计算处理,得到宏动作指令信息。
[0022] 作为一种可选的实施方式,在本发明实施例第一方面中,所述对所述态势状态信息进行计算处理,得到宏动作指令信息,包括:
[0023] 利用所述态势状态信息对预设的表演者网络进行训练,得到目标状态信息网络;
[0024] 利用所述目标状态信息网络对所述态势状态信息进行计算处理,得到宏动作指令信息。
[0025] 作为一种可选的实施方式,在本发明实施例第一方面中,所述利用所述态势状态信息对预设的表演者网络进行训练,得到目标状态信息网络,包括:
[0026] 获取预设的表演者网络;
[0027] 将所述态势状态信息输入所述表演者网络,得到网络采样动作信息;所述网络采用动作信息包括均值信息和方差信息;
[0028] 根据所述网络采样动作信息,确定出样本池数据信息;所述样本池数据信息包括若干个样本池数据;所述样本池数据包括第一状态信息、动作信息、奖励信息、第二状态信息;
[0029] 对所述样本池数据信息进行划区处理,得到样本池区块信息;所述样本池区块信息包括若干个样本池区块;所述样本池区块包括若干个样本池数据;
[0030] 从所述样本池数据信息中筛选出目标状态信息;所述目标状态信息为所述样本池数据信息中最后一个步长计算得到的第二状态信息;
[0031] 利用预设的评价者网络对所述目标状态信息进行处理,得到状态值信息;
[0032] 利用预设的折扣奖励模型对所述状态值信息进行计算处理,得到折扣奖励信息;
[0033] 从所述样本池区块信息中筛选出第一目标样本池区块信息;
[0034] 对所述第一目标样本池区块信息和所述折扣奖励信息进行计算处理,得到优势函数信息;
[0035] 从所述样本池区块信息中筛选出第二目标样本池区块信息;
[0036] 利用所述第二目标样本池区块信息对所述表演者网络进行更新处理,得到当前表演者网络;
[0037] 确定所述表演者网络为历史表演者网络;
[0038] 对所述样本池数据信息、所述当前表演者网络和所述历史表演者网络进行计算处理,得到重要性采样率信息;
[0039] 对所述重要性采样率信息、所述优势函数信息和所述网络采样动作信息进行计算处理,得到损失函数值信息;
[0040] 判断所述损失函数值信息是否满足第一终止条件,得到第一终止判断结果;
[0041] 当所述第一终止判断结果为否时,触发执行所述从所述样本池区块信息中筛选出第二目标样本池区块信息;
[0042] 当所述第一终止判断结果为是时,根据所述折扣奖励信息,确定出折扣奖励变化信息;
[0043] 判断所述折扣奖励变化信息是否满足第二终止条件,得到第二终止判断结果;
[0044] 当所述第二终止判断结果为否时,利用所述当前表演者网络对所述表演者网络进行更新;触发执行所述将所述态势状态信息输入所述表演者网络,得到网络采样动作信息;
[0045] 当所述第二终止判断结果为是时,确定所述当前表演者网络为目标状态信息网络。
[0046] 作为一种可选的实施方式,在本发明实施例第一方面中,在所述当所述第一判断结果为否时,根据所述环境状态信息,确定出仿真推演指令信息之后,所述方法还包括:
[0047] 判断所述仿真推演指令信息中仿真推演指令的数量是否大于1,得到数量判断结果;
[0048] 当所述数量判断结果为否时,触发执行所述从所述仿真推演平台获取环境状态信息;
[0049] 当所述数量判断结果为是时,将所述仿真推演指令信息中所有仿真推演指令输入到所述仿真推演平台。
[0050] 本发明实施例第二方面公开了一种用于飞机智能体机动决策的数据处理装置,装置包括:
[0051] 启动模块,用于启动仿真推演平台的仿真推演引擎;
[0052] 获取模块,用于从所述仿真推演平台获取环境状态信息;所述环境状态信息若干个仿真实体;
[0053] 第一判断模块,用于判断所述环境状态信息是否满足仿真终止条件,得到第一判断结果;所述仿真终止条件与所述仿真实体的状态标志相关;所述状态标志用于表征所述仿真实体在所述仿真推演平台中的可识别情况;
[0054] 确定模块,用于当所述第一判断结果为否时,根据所述环境状态信息,确定出仿真推演指令信息;所述仿真推演指令信息包括若干个仿真推演指令;所述仿真推演指令信息用于指示所述仿真推演平台的仿真推演。
[0055] 作为一种该可选的实施方式,在本发明实施例第二方面中,所述环境状态信息包括当前推进指令信息;
[0056] 所述确定模块根据所述环境状态信息,确定出仿真推演指令信息的具体方式为:
[0057] 根据所述环境状态信息,确定出宏动作指令信息;
[0058] 根据所述环境状态信息,确定出规则动作指令信息;
[0059] 对所述当前推进指令信息、所述宏动作指令信息和所述规则动作指令信息进行融合处理,得到仿真推演指令信息。
[0060] 作为一种该可选的实施方式,在本发明实施例第二方面中,所述确定模块根据所述环境状态信息,确定出规则动作指令信息的具体方式为:
[0061] 判断所述环境状态信息是否满足规则动作条件,得到第二判断结果;
[0062] 当所述第二判断结果为是时,确定规则动作指令信息为发射指令;
[0063] 当所述第二判断结果为否时,确定所述规则动作指令信息为规则动作空缺信息;所述规则动作空缺信息表征不需要进行规则动作的仿真操作。
[0064] 作为一种该可选的实施方式,在本发明实施例第二方面中,所述确定模块根据所述环境状态信息,确定出宏动作指令信息的具体方式为:
[0065] 判断所述环境状态信息是否满足触发条件,得到第三判断结果;
[0066] 当所述第三判断结果为是时,对所述环境状态信息进行格式转换和数据筛选处理,得到态势状态信息;所述态势状态信息包括红蓝双方的距离信息、红蓝双方的角度信息、蓝方导弹与红方飞机的距离信息以及角度信息、红方飞机被锁定的信息;
[0067] 对所述态势状态信息进行计算处理,得到宏动作指令信息。
[0068] 作为一种该可选的实施方式,在本发明实施例第二方面中,所述确定模块对所述态势状态信息进行计算处理,得到宏动作指令信息的具体方式为:
[0069] 利用所述态势状态信息对预设的表演者网络进行训练,得到目标状态信息网络;
[0070] 利用所述目标状态信息网络对所述态势状态信息进行计算处理,得到宏动作指令信息。
[0071] 作为一种该可选的实施方式,在本发明实施例第二方面中,所述确定模块利用所述态势状态信息对预设的表演者网络进行训练,得到目标状态信息网络的具体方式为:
[0072] 获取预设的表演者网络;
[0073] 将所述态势状态信息输入所述表演者网络,得到网络采样动作信息;所述网络采用动作信息包括均值信息和方差信息;
[0074] 根据所述网络采样动作信息,确定出样本池数据信息;所述样本池数据信息包括若干个样本池数据;所述样本池数据包括第一状态信息、动作信息、奖励信息、第二状态信息;
[0075] 对所述样本池数据信息进行划区处理,得到样本池区块信息;所述样本池区块信息包括若干个样本池区块;所述样本池区块包括若干个样本池数据;
[0076] 从所述样本池数据信息中筛选出目标状态信息;所述目标状态信息为所述样本池数据信息中最后一个步长计算得到的第二状态信息;
[0077] 利用预设的评价者网络对所述目标状态信息进行处理,得到状态值信息;
[0078] 利用预设的折扣奖励模型对所述状态值信息进行计算处理,得到折扣奖励信息;
[0079] 从所述样本池区块信息中筛选出第一目标样本池区块信息;
[0080] 对所述第一目标样本池区块信息和所述折扣奖励信息进行计算处理,得到优势函数信息;
[0081] 从所述样本池区块信息中筛选出第二目标样本池区块信息;
[0082] 利用所述第二目标样本池区块信息对所述表演者网络进行更新处理,得到当前表演者网络;
[0083] 确定所述表演者网络为历史表演者网络;
[0084] 对所述样本池数据信息、所述当前表演者网络和所述历史表演者网络进行计算处理,得到重要性采样率信息;
[0085] 对所述重要性采样率信息、所述优势函数信息和所述网络采样动作信息进行计算处理,得到损失函数值信息;
[0086] 判断所述损失函数值信息是否满足第一终止条件,得到第一终止判断结果;
[0087] 当所述第一终止判断结果为否时,触发执行所述从所述样本池区块信息中筛选出第二目标样本池区块信息;
[0088] 当所述第一终止判断结果为是时,根据所述折扣奖励信息,确定出折扣奖励变化信息;
[0089] 判断所述折扣奖励变化信息是否满足第二终止条件,得到第二终止判断结果;
[0090] 当所述第二终止判断结果为否时,利用所述当前表演者网络对所述表演者网络进行更新;触发执行所述将所述态势状态信息输入所述表演者网络,得到网络采样动作信息;
[0091] 当所述第二终止判断结果为是时,确定所述当前表演者网络为目标状态信息网络。
[0092] 作为一种该可选的实施方式,在本发明实施例第二方面中,在当所述第一判断结果为否时,所述确定模块根据所述环境状态信息,确定出仿真推演指令信息之后,所述装置还包括:
[0093] 第二判断模块,用于判断所述仿真推演指令信息中仿真推演指令的数量是否大于1,得到数量判断结果;
[0094] 触发执行模块,用于当所述数量判断结果为否时,触发执行所述从所述仿真推演平台获取环境状态信息;
[0095] 输入模块,用于当所述数量判断结果为是时,将所述仿真推演指令信息中所有仿真推演指令输入到所述仿真推演平台。
[0096] 本发明第三方面公开了另一种用于飞机智能体机动决策的数据处理装置,所述装置包括:
[0097] 存储有可执行程序代码的存储器;
[0098] 与所述存储器耦合的处理器;
[0099] 所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的用于飞机智能体机动决策的数据处理方法中的部分或全部步骤。
[0100] 本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明实施例第一方面公开的用于飞机智能体机动决策的数据处理方法中的部分或全部步骤。
[0101] 与现有技术相比,本发明实施例具有以下有益效果:
[0102] 本发明实施例中,启动仿真推演平台的仿真推演引擎;从仿真推演平台获取环境状态信息;环境状态信息包括若干个仿真实体;判断环境状态信息是否满足仿真终止条件,得到第一判断结果;仿真终止条件与仿真实体的状态标志相关;状态标志用于表征仿真实体在仿真推演平台中的可识别情况;当第一判断结果为否时,根据环境状态信息,确定出仿真推演指令信息;仿真推演指令信息包括若干个仿真推演指令;仿真推演指令信息用于指示仿真推演平台的仿真推演。可见,本发明有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。

附图说明

[0103] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0104] 图1是本发明实施例公开的一种用于飞机智能体机动决策的数据处理方法的流程示意图;
[0105] 图2是本发明实施例公开的另一种用于飞机智能体机动决策的数据处理方法的流程示意图;
[0106] 图3是本发明实施例公开的一种用于飞机智能体机动决策的数据处理装置的结构示意图;
[0107] 图4是本发明实施例公开的另一种用于飞机智能体机动决策的数据处理装置的结构示意图;
[0108] 图5是本发明实施例公开的又一种用于飞机智能体机动决策的数据处理装置的结构示意图。

具体实施方式

[0109] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0110] 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0111] 在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0112] 本发明公开了一种用于飞机智能体机动决策的数据处理方法及装置,能够通过对环境状态信息的综合处理得到用于指示仿真推演平台进行仿真推演的仿真推演指令,有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。以下分别进行详细说明。
[0113] 实施例一
[0114] 请参阅图1,图1是本发明实施例公开的一种用于飞机智能体机动决策的数据处理方法的流程示意图。其中,图1所描述的用于飞机智能体机动决策的数据处理方法应用于数据处理系统中,如用于飞机智能体机动决策的数据处理管理的本地服务器或云端服务器等,本发明实施例不做限定。如图1所示,该用于飞机智能体机动决策的数据处理方法可以包括以下操作:
[0115] 101、启动仿真推演平台的仿真推演引擎。
[0116] 102、从仿真推演平台获取环境状态信息。
[0117] 本发明实施例中,上述环境状态信息若干个仿真实体。
[0118] 103、判断环境状态信息是否满足仿真终止条件,得到第一判断结果。
[0119] 本发明实施例中,上述仿真终止条件与仿真实体的状态标志相关。
[0120] 本发明实施例中,上述状态标志用于表征仿真实体在仿真推演平台中的可识别情况。
[0121] 104、当第一判断结果为否时,根据环境状态信息,确定出仿真推演指令信息。
[0122] 本发明实施例中,上述仿真推演指令信息包括若干个仿真推演指令。
[0123] 本发明实施例中,上述仿真推演指令信息用于指示仿真推演平台的仿真推演。
[0124] 可选的,上述仿真推演指令用于指示仿真实体在仿真推演平台的仿真推演。
[0125] 可选的,上述仿真推演指令包括推进指令,和/或,宏动作指令,和/或,规则动作指令,本发明实施例不做限定。
[0126] 可选的,上述宏动作指令用于指示仿真实体进行180°S机动,和/或,用于指示仿真实体进行+90°规避,和/或,用于指示仿真实体进行‑90°规避,和/或,用于指示仿真实体进行,和/或,用于指示仿真实体进行+135°规避,和/或,用于指示仿真实体进行‑135°规避,和/或,用于指示仿真实体进行180°规避,和/或,用于指示仿真实体进行追击目标,本发明实施例不做限定。
[0127] 可见,实施本发明实施例所描述的用于飞机智能体机动决策的数据处理方法能够通过对环境状态信息的综合处理得到用于指示仿真推演平台进行仿真推演的仿真推演指令,有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0128] 在一个可选的实施例中,上述步骤104中环境状态信息包括当前推进指令信息;
[0129] 根据环境状态信息,确定出仿真推演指令信息,包括:
[0130] 根据环境状态信息,确定出宏动作指令信息;
[0131] 根据环境状态信息,确定出规则动作指令信息;
[0132] 对当前推进指令信息、宏动作指令信息和规则动作指令信息进行融合处理,得到仿真推演指令信息。
[0133] 可选的,将当前推进指令信息中的推进指令、宏动作指令信息中的宏动作指令和规则动作指令信息中的规则动作指令进行融合可形成用于指示当前仿真实体进行动作的仿真推演指令,以更为真实的推进仿真推演,提高仿真效率。
[0134] 可见,实施本发明实施例所描述的用于飞机智能体机动决策的数据处理方法能够根据环境状态信息确定出仿真推演指令,有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0135] 在另一个可选的实施例中,上述根据环境状态信息,确定出规则动作指令信息,包括:
[0136] 判断环境状态信息是否满足规则动作条件,得到第二判断结果;
[0137] 当第二判断结果为是时,确定规则动作指令信息为发射指令;
[0138] 当第二判断结果为否时,确定规则动作指令信息为规则动作空缺信息;规则动作空缺信息表征不需要进行规则动作的仿真操作。
[0139] 可选的,上述环境状态信息包括红蓝双方的距离信息。
[0140] 可选的,上述规则动作条件为红蓝双方的距离信息中的红蓝双方的距离小于等于导弹射程。
[0141] 可选的,上述发射指令用于指示仿真实体进行导弹发射。
[0142] 可见,实施本发明实施例所描述的用于飞机智能体机动决策的数据处理方法能够根据环境状态信息确定出规则动作指令信息,有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0143] 在又一个可选的实施例中,上述根据环境状态信息,确定出宏动作指令信息,包括:
[0144] 判断环境状态信息是否满足触发条件,得到第三判断结果;
[0145] 当第三判断结果为是时,对环境状态信息进行格式转换和数据筛选处理,得到态势状态信息;态势状态信息包括红蓝双方的距离信息、红蓝双方的角度信息、蓝方导弹与红方飞机的距离信息以及角度信息、红方飞机被锁定的信息;
[0146] 对态势状态信息进行计算处理,得到宏动作指令信息。
[0147] 在该可选的实施例中,上述判断环境状态信息是否满足触发条件,得到第三判断结果的具体方式为:
[0148] 判断环境状态信息中的仿真推演引擎是否为启动状态,得到状态判断结果;
[0149] 当上述状态判断结果为是时,确定第三判断结果为是;
[0150] 当上述状态判断结果为否时,判断环境状态信息中仿真实体的火控雷达锁定信号是否发生变化,得到第一雷达判断结果;
[0151] 当上述第一雷达判断结果为是时,确定第三判断结果为是;
[0152] 当上述第一雷达判断结果为否时,判断环境状态信息中的被对方火控雷达锁定信号是否发生变化,得到第二雷达判断结果;
[0153] 当上述第二雷达判断结果为是时,确定第三判断结果为是;
[0154] 当上述第二雷达判断结果为否时,判断环境状态信息中的敌方导弹威胁信号是否发生变化,得到导弹判断结果;
[0155] 当上述导弹判断结果为是时,确定第三判断结果为是;
[0156] 当上述导弹判断结果为否时,判断环境状态信息中的队友可用性信息是否发生变化,得到队友信息判断结果;
[0157] 当上述队友信息判断结果为是时,确定第三判断结果为是;
[0158] 当上述队友信息判断结果为否时,判断环境状态信息中的敌方可用性信息是否发生变化,得到敌方信息判断结果;
[0159] 当上述队友信息判断结果为是时,确定第三判断结果为是;
[0160] 当上述队友信息判断结果为否时,确定第三判断结果为否。
[0161] 可选的,只有当环境状态信息满足触发条件时才进行宏动作指令信息的生成处理,否则仅维持当前动作进行推进,不进行行为动作变更,以此来削弱由于步长过小导致的飞机决策过于频繁而产生的抖动,或者由于步长过大造成决策过程中贻误战机的问题,并打破以时间步长为驱动条件的传动方法的禁锢,使得仿真实体的机动策略更符合实际。
[0162] 可见,实施本发明实施例所描述的用于飞机智能体机动决策的数据处理方法能够根据环境状态信息确定出宏动作指令信息,更有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0163] 在又一个可选的实施例中,上述对态势状态信息进行计算处理,得到宏动作指令信息,包括:
[0164] 利用态势状态信息对预设的表演者网络进行训练,得到目标状态信息网络;
[0165] 利用目标状态信息网络对态势状态信息进行计算处理,得到宏动作指令信息。
[0166] 可选的,上述目标状态信息网络为训练后得到的表演者新网络。
[0167] 可选的,上述将态势状态信息输入到目标状态信息网络进行计算处理,可得到宏动作指令,以使仿真实体可进行180°S机动、+90°规避、‑90°规避、+135°规避、‑135°规避、180°规避和追击目标中的一种或多种更高层级的动作,而不再局限于原子动作(左转、右转、爬升、俯冲或保持状态中的一种或多种),可提高仿真推演的仿真真实性和效率。
[0168] 可见,实施本发明实施例所描述的用于飞机智能体机动决策的数据处理方法能够通过对态势状态信息进行计算处理得到宏动作指令信息,更有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0169] 在又一个可选的实施例中,上述利用态势状态信息对预设的表演者网络进行训练,得到目标状态信息网络,包括:
[0170] 获取预设的表演者网络;
[0171] 将态势状态信息输入表演者网络,得到网络采样动作信息;网络采用动作信息包括均值信息和方差信息;
[0172] 根据网络采样动作信息,确定出样本池数据信息;样本池数据信息包括若干个样本池数据;样本池数据包括第一状态信息、动作信息、奖励信息、第二状态信息;
[0173] 对样本池数据信息进行划区处理,得到样本池区块信息;样本池区块信息包括若干个样本池区块;样本池区块包括若干个样本池数据;
[0174] 从样本池数据信息中筛选出目标状态信息;目标状态信息为样本池数据信息中最后一个步长计算得到的第二状态信息;
[0175] 利用预设的评价者网络对目标状态信息进行处理,得到状态值信息;
[0176] 利用预设的折扣奖励模型对状态值信息进行计算处理,得到折扣奖励信息;
[0177] 从样本池区块信息中筛选出第一目标样本池区块信息;
[0178] 对第一目标样本池区块信息和折扣奖励信息进行计算处理,得到优势函数信息;
[0179] 从样本池区块信息中筛选出第二目标样本池区块信息;
[0180] 利用第二目标样本池区块信息对表演者网络进行更新处理,得到当前表演者网络;
[0181] 确定表演者网络为历史表演者网络;
[0182] 对样本池数据信息、当前表演者网络和历史表演者网络进行计算处理,得到重要性采样率信息;
[0183] 对重要性采样率信息、优势函数信息和网络采样动作信息进行计算处理,得到损失函数值信息;
[0184] 判断损失函数值信息是否满足第一终止条件,得到第一终止判断结果;
[0185] 当第一终止判断结果为否时,触发执行从样本池区块信息中筛选出第二目标样本池区块信息;
[0186] 当第一终止判断结果为是时,根据折扣奖励信息,确定出折扣奖励变化信息;
[0187] 判断折扣奖励变化信息是否满足第二终止条件,得到第二终止判断结果;
[0188] 当第二终止判断结果为否时,利用当前表演者网络对表演者网络进行更新;触发执行将态势状态信息输入表演者网络,得到网络采样动作信息;
[0189] 当第二终止判断结果为是时,确定当前表演者网络为目标状态信息网络。
[0190] 可选的,所述第一状态信息用于表演者网络的输入。
[0191] 可选的,所述第二状态信息为表演者网络的输出。
[0192] 可选的,上述折扣奖励模型的具体形式为:
[0193] R(t)=r(t)+γ·r(t+1)+…+γT‑t+1·r(T‑1)+γT‑t·v_;
[0194] 其中,T为一个回合中的最后一个步长;r(t)为仿真推演t时刻的奖励值;r(t+1)为仿真推演t+1时刻的奖励值;r(T‑1)为仿真推演T‑1时刻的奖励值;γ为折扣因子;v_为状态值;R(t)为仿真推演t时刻的折扣奖励。
[0195] 优选的,折扣因子为0.99。
[0196] 可选的,上述第一终止条件为损失函数值信息中的迭代次数为4。
[0197] 可选的,上述第二终止条件为折扣奖励变化信息中的折扣奖励变化值小于等于变化阈值。
[0198] 可选的,上述变化阈值可以预设的,也可以根据当前表演者网络来设置的,本发明实施例不做限定。
[0199] 在该可选的实施例中,作为一种可选的实施方式,在上述对第一目标样本池区块信息和折扣奖励信息进行计算处理,得到优势函数信息之后,上述方法还包括:
[0200] 根据第一损失函数模型,利用优势函数信息计算评价者网络对应的第一损失函数;
[0201] 基于第一损失函数,利用BP反向传播算法更新评价者网络,以优化评价者网络的权重参数。
[0202] 可选的,上述第一损失函数模型的具体形式为:
[0203] c_loss=mean(square(At));
[0204] 其中,c_loss为第一损失值;At为优势函数信息中的优势函数值。
[0205] 可选的,上述对重要性采样率信息、优势函数信息和网络采样动作信息进行计算处理是利用第二损失函数模型进行的。
[0206] 可选的,上述第二损失函数模型的具体形式为:
[0207] a_loss=mean(min(ratio·At,clip(ratio,1‑ε,1+ε))·At);
[0208] 其中,a_loss为第二损失值;clip(·)为边界函数;ratio为重要性采样率信息中的重要性采样率;ε为方差信息中的方差。
[0209] 在该可选的实施例中,作为一种可选的实施方式,上述对样本池数据信息、当前表演者网络和历史表演者网络进行计算处理,得到重要性采样率信息的具体方式为:
[0210] 将样本池数据信息输入到历史表演者网络得到第一采样概率prob1;
[0211] 将样本池数据信息输入到当前表演者网络得到第二采样概率prob2;
[0212] 将第一采样概率prob1和第二采样概率prob2进行比值处理,得到重要性采样率信息。
[0213] 可见,实施本发明实施例所描述的用于飞机智能体机动决策的数据处理方法能够利用态势状态信息对预设的表演者网络进行训练得到目标状态信息网络,更有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0214] 实施例二
[0215] 请参阅图2,图2是本发明实施例公开的另一种用于飞机智能体机动决策的数据处理方法的流程示意图。其中,图2所描述的用于飞机智能体机动决策的数据处理方法应用于数据处理系统中,如用于飞机智能体机动决策的数据处理管理的本地服务器或云端服务器等,本发明实施例不做限定。如图2所示,该用于飞机智能体机动决策的数据处理方法可以包括以下操作:
[0216] 201、启动仿真推演平台的仿真推演引擎。
[0217] 202、从仿真推演平台获取环境状态信息。
[0218] 203、判断环境状态信息是否满足仿真终止条件,得到第一判断结果。
[0219] 204、当第一判断结果为否时,根据环境状态信息,确定出仿真推演指令信息。
[0220] 205、判断仿真推演指令信息中仿真推演指令的数量是否大于1,得到数量判断结果。
[0221] 206、当数量判断结果为否时,触发执行从仿真推演平台获取环境状态信息。
[0222] 207、当数量判断结果为是时,将仿真推演指令信息中所有仿真推演指令输入到仿真推演平台。
[0223] 本发明实施例中,针对步骤201‑步骤204的具体技术细节和技术名词解释,可以参照实施例一中针对步骤101‑步骤104的详细描述,本发明实施例不再赘述。
[0224] 可选的,当仿真推演指令信息中的仿真推演指令仅为推进指令时,仿真实体维持原仿真推演状态,可使仿真实体在机动过程中动作更为规范,事件驱动更符合实际场景的决策模式,解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0225] 可见,实施本发明实施例所描述的用于飞机智能体机动决策的数据处理方法能够通过对环境状态信息的综合处理得到用于指示仿真推演平台进行仿真推演的仿真推演指令,有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0226] 实施例三
[0227] 请参阅图3,图3是本发明实施例公开的一种用于飞机智能体机动决策的数据处理装置的结构示意图。其中,图3所描述的装置能够应用于数据处理系统中,如用于飞机智能体机动决策的数据处理管理的本地服务器或云端服务器等,本发明实施例不做限定。如图3所示,该装置可以包括:
[0228] 启动模块301,用于启动仿真推演平台的仿真推演引擎;
[0229] 获取模块302,用于从仿真推演平台获取环境状态信息;环境状态信息若干个仿真实体;
[0230] 第一判断模块303,用于判断环境状态信息是否满足仿真终止条件,得到第一判断结果;仿真终止条件与仿真实体的状态标志相关;状态标志用于表征仿真实体在仿真推演平台中的可识别情况;
[0231] 确定模块304,用于当第一判断结果为否时,根据环境状态信息,确定出仿真推演指令信息;仿真推演指令信息包括若干个仿真推演指令;仿真推演指令信息用于指示仿真推演平台的仿真推演。
[0232] 可见,实施图3所描述的用于飞机智能体机动决策的数据处理装置,能够通过对环境状态信息的综合处理得到用于指示仿真推演平台进行仿真推演的仿真推演指令,有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0233] 在另一个可选的实施例中,如图4所示,环境状态信息包括当前推进指令信息;
[0234] 确定模块304根据环境状态信息,确定出仿真推演指令信息的具体方式为:
[0235] 根据环境状态信息,确定出宏动作指令信息;
[0236] 根据环境状态信息,确定出规则动作指令信息;
[0237] 对当前推进指令信息、宏动作指令信息和规则动作指令信息进行融合处理,得到仿真推演指令信息。
[0238] 可见,实施图4所描述的用于飞机智能体机动决策的数据处理装置,能够根据环境状态信息确定出仿真推演指令,有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0239] 在又一个可选的实施例中,如图4所示,确定模块304根据环境状态信息,确定出规则动作指令信息的具体方式为:
[0240] 判断环境状态信息是否满足规则动作条件,得到第二判断结果;
[0241] 当第二判断结果为是时,确定规则动作指令信息为发射指令;
[0242] 当第二判断结果为否时,确定规则动作指令信息为规则动作空缺信息;规则动作空缺信息表征不需要进行规则动作的仿真操作。
[0243] 可见,实施图4所描述的用于飞机智能体机动决策的数据处理装置,能够根据环境状态信息确定出规则动作指令信息,有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0244] 在又一个可选的实施例中,如图4所示,确定模块304根据环境状态信息,确定出宏动作指令信息的具体方式为:
[0245] 判断环境状态信息是否满足触发条件,得到第三判断结果;
[0246] 当第三判断结果为是时,对环境状态信息进行格式转换和数据筛选处理,得到态势状态信息;态势状态信息包括红蓝双方的距离信息、红蓝双方的角度信息、蓝方导弹与红方飞机的距离信息以及角度信息、红方飞机被锁定的信息;
[0247] 对态势状态信息进行计算处理,得到宏动作指令信息。
[0248] 可见,实施图4所描述的用于飞机智能体机动决策的数据处理装置,能够根据环境状态信息确定出宏动作指令信息,更有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0249] 在又一个可选的实施例中,如图4所示,确定模块304对态势状态信息进行计算处理,得到宏动作指令信息的具体方式为:
[0250] 利用态势状态信息对预设的表演者网络进行训练,得到目标状态信息网络;
[0251] 利用目标状态信息网络对态势状态信息进行计算处理,得到宏动作指令信息。
[0252] 可见,实施图4所描述的用于飞机智能体机动决策的数据处理装置,能够通过对态势状态信息进行计算处理得到宏动作指令信息,更有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0253] 在又一个可选的实施例中,如图4所示,确定模块304利用态势状态信息对预设的表演者网络进行训练,得到目标状态信息网络的具体方式为:
[0254] 获取预设的表演者网络;
[0255] 将态势状态信息输入表演者网络,得到网络采样动作信息;网络采用动作信息包括均值信息和方差信息;
[0256] 根据网络采样动作信息,确定出样本池数据信息;样本池数据信息包括若干个样本池数据;样本池数据包括第一状态信息、动作信息、奖励信息、第二状态信息;
[0257] 对样本池数据信息进行划区处理,得到样本池区块信息;样本池区块信息包括若干个样本池区块;样本池区块包括若干个样本池数据;
[0258] 从样本池数据信息中筛选出目标状态信息;目标状态信息为样本池数据信息中最后一个步长计算得到的第二状态信息;
[0259] 利用预设的评价者网络对目标状态信息进行处理,得到状态值信息;
[0260] 利用预设的折扣奖励模型对状态值信息进行计算处理,得到折扣奖励信息;
[0261] 从样本池区块信息中筛选出第一目标样本池区块信息;
[0262] 对第一目标样本池区块信息和折扣奖励信息进行计算处理,得到优势函数信息;
[0263] 从样本池区块信息中筛选出第二目标样本池区块信息;
[0264] 利用第二目标样本池区块信息对表演者网络进行更新处理,得到当前表演者网络;
[0265] 确定表演者网络为历史表演者网络;
[0266] 对样本池数据信息、当前表演者网络和历史表演者网络进行计算处理,得到重要性采样率信息;
[0267] 对重要性采样率信息、优势函数信息和网络采样动作信息进行计算处理,得到损失函数值信息;
[0268] 判断损失函数值信息是否满足第一终止条件,得到第一终止判断结果;
[0269] 当第一终止判断结果为否时,触发执行从样本池区块信息中筛选出第二目标样本池区块信息;
[0270] 当第一终止判断结果为是时,根据折扣奖励信息,确定出折扣奖励变化信息;
[0271] 判断折扣奖励变化信息是否满足第二终止条件,得到第二终止判断结果;
[0272] 当第二终止判断结果为否时,利用当前表演者网络对表演者网络进行更新;触发执行将态势状态信息输入表演者网络,得到网络采样动作信息;
[0273] 当第二终止判断结果为是时,确定当前表演者网络为目标状态信息网络。
[0274] 可见,实施图4所描述的用于飞机智能体机动决策的数据处理装置,能够利用态势状态信息对预设的表演者网络进行训练得到目标状态信息网络,更有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0275] 在又一个可选的实施例中,如图4所示,在当第一判断结果为否时,确定模块304根据环境状态信息,确定出仿真推演指令信息之后,装置还包括:
[0276] 第二判断模块305,用于判断仿真推演指令信息中仿真推演指令的数量是否大于1,得到数量判断结果;
[0277] 触发执行模块306,用于当数量判断结果为否时,触发执行从仿真推演平台获取环境状态信息;
[0278] 输入模块307,用于当数量判断结果为是时,将仿真推演指令信息中所有仿真推演指令输入到仿真推演平台。
[0279] 可见,实施图4所描述的用于飞机智能体机动决策的数据处理装置,能够通过对环境状态信息的综合处理得到用于指示仿真推演平台进行仿真推演的仿真推演指令,有利于解决周期过短使飞机操作更换过于频繁所造成的频繁抖动,以及周期过长使飞机动作缺乏足够的灵活性而导致的战机贻误。
[0280] 实施例四
[0281] 请参阅图5,图5是本发明实施例公开的又一种用于飞机智能体机动决策的数据处理装置的结构示意图。其中,图5所描述的装置能够应用于数据处理系统中,如用于飞机智能体机动决策的数据处理管理的本地服务器或云端服务器等,本发明实施例不做限定。如图5所示,该装置可以包括:
[0282] 存储有可执行程序代码的存储器401;
[0283] 与存储器401耦合的处理器402;
[0284] 处理器402调用存储器401中存储的可执行程序代码,用于执行实施例一或实施例二所描述的用于飞机智能体机动决策的数据处理方法中的步骤。
[0285] 实施例五
[0286] 本发明实施例公开了一种计算机读存储介质,其存储用于电子数据交换的计算机程序,其中,该计算机程序使得计算机执行实施例一或实施例二所描述的用于飞机智能体机动决策的数据处理方法中的步骤。
[0287] 实施例六
[0288] 本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二所描述的用于飞机智能体机动决策的数据处理方法中的步骤。
[0289] 以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0290] 通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read‑Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read‑only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only  Memory,EPROM)、一次可编程只读存储器(One‑time Programmable  Read‑Only  Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically‑Erasable Programmable Read‑Only Memory,EEPROM)、只读光盘(Compact Disc Read‑Only Memory,CD‑ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
[0291] 最后应说明的是:本发明实施例公开的一种用于飞机智能体机动决策的数据处理方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。