基于深度强化学习的多机协同空战规划方法及系统转让专利
申请号 : CN202110261574.4
文献号 : CN112861442B
文献日 : 2021-12-03
发明人 : 冯旸赫 , 程光权 , 施伟 , 黄魁华 , 黄金才 , 刘忠
申请人 : 中国人民解放军国防科技大学
摘要 :
权利要求 :
1.一种基于深度强化学习的多机协同空战规划方法,其特征在于,包括以下步骤:步骤1:基于Actor‑Critic强化学习框架下的近端策略优化PPO算法,构建Actor动作决策神经网络和Critic动作评价神经网络;
步骤2:将战机视为一个个智能体,使用仿真推演平台产生战场环境态势信息,所述战场态势信息包括敌我战机的实时飞行参数以及对空导弹的实时飞行参数,对所输入的战场环境态势信息进行预处理;
步骤:3:根据预处理后的战场环境态势信息,将待决策的第i个智能体在t时刻的局部环境态势信息st,i输入Actor动作决策神经网络,得到每个待决策智能体的动作决策信息at,i,并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作,i=
1...n,n为智能体的数量;
步骤4:将待决策智能体的局部环境态势信息st,i、智能体的动作决策信息at,i、待决策智能体执行新动作后的环境态势信息st+1,i和环境针对该动作反馈的奖励值rt+1,i按照四元组(st,i,at,i,st+1,i,rt+1,i)的形式存储进经验回放库,每一个智能体的信息均按照该格式进行存储;
步骤5:重复步骤2至4,直至经验回放库中的样本数量达到可训练所规定的数量;
步骤6:从经验回放库中选择一批样本,将同一时刻的所有智能体的联合状态信息以及所有智能体的动作信息作为一条样本输入到Critic动作评价神经网络进行网络参数的训练更新,将各智能体的局部环境态势信息作为一条样本输入到Actor动作决策神经网络进行网络参数训练更新;
步骤7:随机删除经验回放库中的一部分样本,重复步骤2至5,直至达到训练结束条件,得到训练好的强化学习智能体;
步骤8:将当前待决策智能体的局部环境态势信息输入训练好的强化学习智能体的Actor网络,得到各待决策智能体的动作决策信息,将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作;
步骤4中所述奖励值指的是使用嵌入专家经验奖励机制,奖励函数为:r=(1‑τ)·scoretotal+τ·scoreencourage其中:
scoreencourage=discur‑disnextscoretotal为传统奖励项,根据推演事件的得分来决定的,scoreencourage为基于专家经验的额外奖励项,discur表示当前时刻智能体距离目标点的距离,disnext表示下一时刻智能体距离目标点的距离,τ是衰减系数,随着训练的进行,该值按照公式τ=(τ‑τstep)/τtemp逐渐减小,τstep是递减步长,τtemp是衰减基数。
2.根据权利要求1所述的规划方法,其特征在于,步骤6中从经验回放库中选择一批样本数据的选择方法是:
1)对不同智能体分别计算每个智能体所产生的样本的采样权重,具体为:将参与采样的每个智能体产生的样本分别按照优势值的绝对值,由大至小从1到N进行排序,样本采样权重计算公式:
其中,j表示样本排序序号,Pj就是第j号样本的采样权重,N表示一个智能体包含的样本数量,所述优势值的计算公式为:
表示第i个智能体在t时刻产生的样本的优势值,φ表示Critic网络的参数,Vφ(st,i)表示Critic网络对第i个智能体在t时刻的状态st,i的评价值,rt,i表示第i个智能体在t时刻获得的环境奖励,γ表示折扣因子,T表示本局仿真推演结束时刻;
2)根据各智能体所产生的样本的采样权重,从经验回放库中对各智能体分别采集预先设定数量的样本。
3.根据权利要求2所述的规划方法,其特征在于,步骤6中对Actor动作决策神经网络进行网络参数更新的方法是:
步骤6.1:计算不同智能体产生的样本在对Actor网络训练时所产生的损失函数值,所述损失函数值为添加策略熵的损失函数值,其中,
下标i表示第i个智能体,Li表示第i个智能体的损失函数值,θi表示第i个智能体当前更CLIP
新的新策略, 表示第i个智能体采样时使用的旧策略,L (θi)表示使用标准PP0强化学习算法计算出来的第i个智能体的损失函数值, 表示第i个智能体在策略θi下的策略熵,ε是一个裁剪参数, 表示在策略θi下给定状态st,i后采取动作at,i的概率,pt(θi)表示第i个智能体在新旧策略下产生样本(st,i,at,i)的概率分布比,A表示动作空间集,clip(x,xMIN,xMAX)为裁剪函数,xMIN为x的最小值,xMAX为x的最大值;
步骤6.2:根据每个智能体产生的样本在对Actor网络训练时所产生的损失函数值Li后,经过反向传播,求解出Actor网络参数的更新梯度值JAi;
步骤6.3:将不同智能体所产生的样本计算的更新梯度值JAi进行加权,按照全局梯度公式分别计算出Actor网络下的全局梯度值为:n表示智能体总数,wi表示预先设定的智能体i对全局梯度计算的影响权重;
步骤6.4:根据Actor网络下的全局梯度值对Actor网络参数进行更新。
4.根据权利要求3所述的规划方法,其特征在于,步骤6中对Critic动作评价神经网络进行网络参数更新的方法是:
步骤6.5:计算样本在对Critic动作评价神经网络模型训练时所产生的损失函数值,所述损失函数值计算的具体方法为:
φ
Loss =rt+1+γVφ(st+1)‑Vφ(st)φ
Loss 表示在Critic的网络参数为φ的条件下,t时刻所有智能体的联合状态信息的损失函数值;
φ
步骤6.6:计算Critic动作评价神经网络模型训练时所产生的损失函数值Loss 后,经过反向传播,求解出Critic动作评价神经网络的更新梯度值JC;
步骤6.7:根据Critic动作评价网络下的更新梯度值JC对Critic动作评价网络参数进行更新。
5.一种基于深度强化学习的多机协同空战规划系统,其特征在于,包括以下模块:神经网络模型构建模块:采用Actor‑Critic强化学习框架下的近端策略优化PPO算法作为内核,包含Actor动作决策神经网络和Critic动作评价神经网络;
态势信息处理模块:用于接收仿真推演平台产生的未经过加工处理的战场环境态势信息,所述战场态势信息包括敌我战机的实时飞行参数以及对空导弹的实时飞行参数,并对这些信息数据进行预处理;
动作决策模块:用于根据预处理后的战场环境态势信息,将待决策的第i个智能体在t时刻的局部环境态势信息st,i输入Actor动作决策神经网络,得到每个待决策智能体的动作决策信息at,i,并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作,i=1...n,n为智能体的数量;
经验回放库存储模块:用于管理样本的产生、加工、存储与提取,将待决策智能体的局部环境态势信息st,i、智能体的动作决策信息at,i、待决策智能体执行新动作后的环境态势信息st+1,i和环境针对该动作反馈的奖励值rt+1,i按照四元组(st,i,at,i,st+1,i,rt+1,i)的形式存储进经验回放库;所述奖励值指的是使用嵌入专家经验奖励机制,奖励函数为:r=(1‑τ)·scoretotal+τ·scoreencourage其中:
scoreencourage=discur‑disnextscoretotal为传统奖励项,根据推演事件的得分来决定的,scoreencourage为基于专家经验的额外奖励项,discur表示当前时刻智能体距离目标点的距离,disnext表示下一时刻智能体距离目标点的距离,τ是衰减系数,随着训练的进行,该值按照公式τ=(τ‑τstep)/τtemp逐渐减小,τstep是递减步长,τtemp是衰减基数;
深度强化学习网络训练模块:用于从经验回放库存储模块中采集每个智能体所产生的一批样本,计算各样本的损失函数和网络参数的更新梯度,将同一时刻的各智能体的环境态势信息作为全局环境态势信息输入到Critic动作评价神经网络进行网络参数更新,将各智能体的局部环境态势信息输入到Actor动作决策神经网络进行网络参数更新;
动作预测模块:用于获取当前待决策智能体的局部环境态势信息输入训练好的深度强化学习网络训练模块中的Actor动作决策神经网络模型中,得到各待决策智能体的动作决策信息,将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作。
说明书 :
基于深度强化学习的多机协同空战规划方法及系统
技术领域
背景技术
对现代战争中日趋复杂的战场环境,单一战机因为探测、跟踪和攻击目标的能力十分有限,
没有办法独立完成指定的对空作战任务,所以需要多架战机协同作战发挥最大作战效能。
空、天、电一体化作战模式在多机空战中的具体体现。因此,提高多机协同效率,对于掌握战
场制空权、提高对空作战任务成功率和减少作战伤亡都具有重大意义。世界各国也越来越
关注和重视有助于提高机群整体作战效能的协同空战的研究。然而,相较于单架战机的空
战决策,多机协同问题涉及的实体类型更多、决策空间更大、复杂程度更高,国内外对多机
协同战术的研究也尚在起步阶段,其解决多机协同空战决策问题的思路主要分为两类:基
于传统规划算法和基于人工智能的方法。
及路径规划等方向。
单机空战研究的基础上,建立了多机协同空战优势评价指标体系和目标分配模型,并设计
了基于交叉、嫁接、分裂和拼接算子的改进合作协同进化算法,优化目标分配方案;Li Fu等
人认为专家系统、最优化理论和信息论等理论是解决目标分配和多机协同空战的主要方
法,但其研究并未真正解决模型设计等实际问题,只是描述了一种理论架构;奚之飞等人利
用威力势场取代优势函数评估态势,引入目标重要性系数和收益比重系数进行目标分配,
最后使用粒子群算法结算指标函数。
后引入离散粒子群优化算法求解最优方案;Benjamin在文章中介绍了一种贝叶斯重用的方
法,通过重用现有策略库中的策略来高效响应新任务实例,但最佳响应的计算在许多情况
下都是难以解决的;为突出飞机间的对抗性,姚宗信等人将博弈论模型引入决策方法,构建
博弈模型,但这种模型是基于完全信息的静态模型,其实战应用价值不高;BingzhenSun等
将该问题抽象化为多元属性模糊决策问题,阐明了一种基于可变精度多元属性多粒模糊粗
糙集和维克尔方法的多属性决策方法。
法,用于寻找编队协同决策与中距空战结果的相关性;丁达理等在文章[自适应预测权重的
空战鲁棒机动决策方法]中设计鲁棒态势函数来表征空战态势,利用可达集理论对目标机
动意图并利用改进的共生生物算法对机动决策控制量搜索最优解;Xianbing Zhang等人利
用专家经验与启发式搜索相结合的方式,指导飞机进行机动决策;周思羽等介绍了基于专
家系统、遗传学习系统、人工免疫系统和神经网络的机动决策建模方法。
制问题;Dadi等人设计了一种基于人工势的航路规划方法,并引入种子概念改进航路生成
模型的多样性,提高了模型决策的适应性和自动化程度,能够实现实时、高效地进行飞机航
迹规划。
作为当前人工智能领域最重要的研究方向之一,该算法同时具备深度学习的感知能力和强
化学习的决策能力,这种特性与多机协同空战问题状态空间巨大、要求实时决策等性质相
契合,是解决问题的理想方法。
学习在处理协同攻击机动决策问题时的优越性;闫实等人设计了目标运动过程中的实时威
胁隶属度函数,并在强化学习框架下对目标分派问题建模,利用神经网络逼近动作‑值函
数,相比传统调度方法,该方法有效提升了任务成功率;
空战场景下智能协同对抗的要求,但与理想效果仍有较大差距,主要体现在:
完全信息对抗;
挑战。
发明内容
行多机系统空战决策时,计算量大,求解困难,不能满足实时决策的技术问题。
信息进行预处理;
息at,i,并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作,i
=1...n,n为智能体的数量;
四元组(st,i,at,i,st+1,i,rt+1,i)的形式存储进经验回放库,每一个智能体的信息均按照该格
式进行存储;
的训练更新,将各智能体的局部环境态势信息作为一条样本输入到Actor动作决策神经网
络进行网络参数训练更新;
的操作指令控制各智能体执行新的动作。
数据进行进行预处理;
动作决策信息at,i,并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行
新的动作,i=1...n,n为智能体的数量;
态势信息st+1,i和环境针对该动作反馈的奖励值rt+1,i按照四元组(st,i,at,i,st+1,i,rt+1,i)的
形式存储进经验回放库;
Critic动作评价神经网络进行网络参数的训练更新,将各智能体的局部环境态势信息作为
一条样本输入到Actor动作决策神经网络进行网络参数训练更新;
作决策信息,将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动
作。
构建Actor动作决策神经网络和Critic动作评价神经网络,通过对多智能体分别使用Actor
网络进行分布式独立决策,然后各智能体在分布式执行过程中产生的动作以及执行新动作
前后的状态及奖励值分别作为一条样本保存在经验回放库中,使用这种分布式决策弥补不
同实体间的动作区分度不大,模型探索性不强的缺点。而集中式训练的方式,其优点在于所
有智能体共享一套网络参数,在训练网络时考虑实体间的耦合关系,将同一时刻的各智能
体的环境态势信息作为全局环境态势信息和所有智能体的动作信息输入到critic网络进
行参数更新,防止一个实体的策略影响其他实体的策略,解决算法较难收敛的问题。在计算
奖励值时,考虑到专家经验的重要性,奖励值的计算嵌入专家经验,使得神经网络模型的训
练更接近于多机协同的空战实际,训练效果更好。所有智能体共享一套网络参数和经验回
放池,训练网络时增加优先经验回放机制,并添加策略熵提高智能体的探索能力。真正意义
上实现多机决策的协同关系,解决现有空战决策研究只适用于简单的一对一空战场景,泛
化性较差,需要大量专家经验支撑,如评价函数、态势估计、飞行动力学模型的设计等等,或
者只是简单地将多机问题分解为单机问题,较难提炼出协同战法的缺点。从而使得将当前
战场态势信息输入训练好的神经网络模型后,所得到的动作决策方案更有效,且不需要对
空战环境以及战机飞行动力学进行建模、对专家经验的需求较小、具有实时决策的能力、模
型训练效率高且稳定,实现了使用强化学习算法解决多机协同空战决策问题的技术途径。
使用本方法可以解决多机协同作战实体类型众多、状态和动作空间大、协同合作关系复杂
程度高等问题,在有限的训练次数下达到良好的效果。
附图说明
具体实施方式
人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
公海区域。想定推演的过程为飞机自基地起飞,对己方基地进行护卫,同时对敌方的战斗机
和基地进行摧毁。各个实体的具体型号和损失得分见表1和表2。
击毁一架飞机 139
损失一架飞机 ‑139
击毁基地 1843
损失基地 ‑1843
进行预处理;
和敌方同类型实体的状态信息会有不一致,其中缺失的信息补零处理,数据全部按照去量
纲的方式进行缩放。具体见表3。
失效。为了降低决策动作的维度,本实施例中对航向、高度、速度和自动开火距离进行了离
散化处理,具体见表4。动作空间维度为6x3x3x6x2为648维。
飞行航向 0°、60°、120°、180°、240°、300°
飞行高度 7620米、10973米、15240米
飞行速度 低速、巡航、加力
自动开火距离 35海里、40海里、45海里、50海里、60海里、70海里、
导弹齐射数量 1枚、2枚
分别经过多层归一化层、卷积层对特征进行压缩与提取,将两部分获得的中间层信息进行
拼接,再经过全连接层后输出。Actor网络输出648维动作概率分布,Critic网络输出1维状
态评价值。实验超参数设置如表5所示。
学习率 5e‑5 批大小 200
折扣率 0.9 τ初始值 1.0
裁剪率 0.2 τstep 1e‑4
训练开始样本数 1400 τtemp 50000
at,i,并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作,i=
1...n,n为智能体的数量;
四元组(st,i,at,i,st+1,i,rt+1,i)的形式存储进经验回放库,每一个智能体的信息均按照该格
式进行存储;
能体距离目标点的距离,τ是衰减系数,随着训练的进行,该值按照公式τ=(τ‑τstep)/τtemp逐
渐减小,τstep是递减步长,τtemp是衰减基数。为了避免量纲不统一,将战损得分与嵌入式专家
经验的额外奖励值进行归一化,防止变量量纲对计算结果的影响。
励函数通常根据实体间交战的输赢判定得分,进而将战损分值scoretotal作为奖励值r用于
网络训练。但是这样的奖励设置最大的问题是过于稀疏,算法很难收敛。为解决这一问题,
对奖励函数进行改进,将专家经验嵌入奖励函数中,使得神经网络模型的训练更接近于多
机协同的空战实际,训练效果更好。考虑到战机靠近目标点时,神经网络收到的奖励反馈应
该变大,所以设计奖励函数在传统奖励基础上增加一个额外奖励项scoreencourage。本实施例
嵌入专家经验的奖励函数,在训练初期以额外奖励部分占主导,引导战机飞往目标点。随着
训练迭代次数增加,传统奖励渐渐占据主导,侧重探索空战的战法战术。解决现有空战决策
研究只适用于简单的一对一空战场景,泛化性较差,需要大量专家经验支撑,如评价函数、
态势估计、飞行动力学模型的设计等等,或者只是简单地将多机问题分解为单机问题,较难
提炼出协同战法的缺点。从而使得将当前战场态势信息输入训练好的神经网络模型后,所
得到的动作决策方案更有效,且不需要对空战环境以及战机飞行动力学进行建模、对专家
经验的需求较小、具有实时决策的能力、模型训练效率高且稳定,实现了使用强化学习算法
解决多机协同空战决策问题的技术途径。
的训练更新,将各智能体的局部环境态势信息作为一条样本输入到Actor动作决策神经网
络进行网络参数训练更新;
智能体状态的转移依赖于所有智能体的动作;并且,在多智能体系统中,每个智能体所获得
的回报不只与自身的动作有关,还与其他智能体有关,通过学习改变其中一个智能体的策
略将会影响其他智能体最优策略的选取,且值函数的估计也将不准,这样将很难保证算法
的收敛性。因此,我们采用集中式训练‑分布式执行的架构,如图3所示,“集中式训练”是指
在训练中使用联合状态‑动作值函数将同一时刻的所有智能体的联合状态信息以及所有智
能体的动作信息作为一条样本Vφ(s,a1,a2,…,an)输入到Critic动作评价神经网络对智能
体进行训练。跟分布式训练(使用局部动作值函数Vφ(si,ai)训练,输入单个智能体的局部状
态si和动作ai)相比,联合动作值函数输入的是全局态势信息s和所有实体的动作信息(a1,
a2,…,an),是真正对于联合状态‑策略的评估。集中式训练的方式,其优点在于所有智能体
共享一套网络参数,在训练网络时考虑实体间的耦合关系,使训练更接近于多机协同的空
战实际,训练效果更好。
决策网络Actor的是单智能体的局部观测信息,输出的是单智能体的决策动作,这就是“分
布式执行”。这种决策方式可以弥补不同实体间的动作区分度不大,模型探索性不强的缺
点。
采样权重计算公式:
t时刻获得的环境奖励,γ表示折扣因子,T表示本局仿真推演结束时刻;
响,使奖励值极大或极小的样本都能影响神经网络的训练,加快算法收敛速度。又能充分发
挥探索与利用的关系,平衡不同样本采样概率。本实施例在采样时并非将经验库中的所有
样本统一计算权重并采样,而是不同智能体分别计算各自产生的样本的采样权重,并根据
权重进行采样。这种优先采样机制能够采集不同实体产生的样本,体现不同实体间的合作
关系,促使不同智能体向逐渐收敛到相同目标。
样本,用于更新网络参数。这种优先采样机制能够采集不同智能体产生的样本,体现不同智
能体间的合作关系,促使不同智能体逐渐收敛到相同目标。
前更新的新策略, 表示第i个智能体采样时使用的旧策略,L (θi)表示使用标准PPO
强化学习算法计算出来的第i个智能体的损失函数值, 表示第i个智能体在策
略θi下的策略熵,ε是一个裁剪参数, 表示在策略θi下给定状态st,i后采取动作
at,i的概率,pt(θi)表示第i个智能体在新旧策略下产生样本(st,i,at,i)的概率分布比,A表示
动作空间集,clip(x,xMIN,xMAX)为裁剪函数,xMIN为x的最小值,xMAX为x的最大值。
度上限制智能体的探索能力,如何在算法收敛速度与智能体探索能力之间权衡是值得思考
的问题。因为本发明针对的问题背景是多机协同空战决策,主要强调不同实体间的配合协
作,所以在计算损失函数时,使用一种添加策略熵的损失函数值,增加网络的探索能力,并
适当减缓执行器网络的收敛速度。并且在计算损失函数时,不是直接计算全局损失,而是结
合优先采样机制和经验共享机制,求解不同智能体各自产生的样本的损失值。相应地,其策
略熵也单独计算。
不只取决于自身的策略和环境的反馈,同时还受到其他智能体的动作及与其合作关系的影
响,所以设计经验共享机制,该机制包含共享样本经验库和共享网络参数两个方面。
励值rt+1,i按照四元组(st,i,at,i,st+1,i,rt+1,i)的形式存储进经验回放库,每一个智能体的信
息均按照该格式进行存储,每一个智能体的信息均按照该格式进行存储。
关系,防止一个智能体的策略影响其他实体的策略,解决算法较难收敛的问题。本实施例
中,使用一套网络参数得到所有智能体产生的训练样本。
后,继续循环。
的操作指令控制各智能体执行新的动作。使用本方法可以解决多机协同作战实体类型众
多、状态和动作空间大、协同合作关系复杂程度高等问题,在有限的训练次数下达到良好的
效果。
数据进行进行预处理;预处理是指对这些信息数据进行清洗、筛选、提取、打包、归一化以及
格式化表示,输出加工后的数据;
动作决策信息at,i,并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行
新的动作,i=1...n,n为智能体的个数;
态势信息st+1,i和环境针对该动作反馈的奖励值rt+1,i按照四元组(st,i,at,i,st+1,i,rt+1,i)的
形式存储进经验回放库;
Critic动作评价神经网络进行网络参数的训练更新,将各智能体的局部环境态势信息作为
一条样本输入到Actor动作决策神经网络进行网络参数训练更新;
作决策信息,将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作
式执行”框架;传统规划方法采用的是人工势场避障算法与0‑1规划相结合的规则模型;人
类高级水平数据来源于第三届全国兵棋推演大赛决赛前三名选手的比赛模型的平均得分。
轮左右开始收敛,得分达到最大值,即无损失全歼敌方实体。相比而言,传统PPO算法效果较
差,得分始终为负,远不及传统规划算法水平线。如表6,是DRL‑MACACDF和传统PPO算法的实
验数据统计。
DRL‑MACACDF 18.929 10.835 91.472
传统PPO ‑21.179 1.698 0
得分标准差偏高,但实验发现,模型在经过训练后,对战能力迅速提升,比赛得分快速变化,
所以造成了高标准差。当经过6000轮训练,DRL‑MACACDF模型开始收敛后,重新计算DRL‑
MACACDF模型的得分标准差则仅有1.313,反映出该模型性能稳定,波动较小。实验结果证
明,未加改进且缺乏专家经验的传统PPO算法难以解决多机协同对抗决策问题,算法效果比
传统规划算法效果还差。相较而言,本发明提出的DRL‑MACACDF算法及决策框架,实验效果
超过了传统强化学习算法和传统规划算法,性能良好且效果稳定,验证了算法框架的有效
性。
同模型效果。经过简单试验,在未使用嵌入式专家经验奖励机制的情况下,不同模型得分都
很低,其他机制对算法性能的影响效果并不明显,难以比较性能差异。因此消融实验改为在
DRL‑MACACDF模型基础上分别去除某一机制,根据实验结果,间接比较不同机制的作用。四
种对比算法的设置如表7所示。
DRL‑MACCDF的基础上不考虑自适应权重和优先采样机制的模型,DRL‑MACCDF‑E表示在本发
明模型DRL‑MACCDF的基础上不考虑鼓励探索机制的模型。
添加嵌入式专家经验奖励机制的模型性能最差,仅稍优于传统PPO算法水平,所以说专家经
验在强化学习中的指导意义巨大,可以给实验性能带来显著提升;未添加经验共享机制的
模型与原始DRL‑MACACDF模型学习曲线大致相当,但收敛速度相对较慢,且最终收敛得分稍
低;无自适应权重及优先采样机制和无鼓励探索机制的模型性能依次降低,其中未添加鼓
励探索机制的DRL‑MACACDF‑E模型前期性能提升较快,但大约在6000轮左右就开始收敛并
陷入局部最优,最终落后于DRL‑MACACDF‑S曲线,不包含自适应权重及优先采样机制的DRL‑
MACACDF‑S模型,前期收敛速度很慢,但模型性能一直在提高,训练到10000轮左右时,反超
DRL‑MACACDF‑E模型。表8统计了四个对比算法相较于传统PPO算法平均得分提高的百分比。
机协同空战决策问题。
线斜率越大,则学习效率越高。如图7可以看出,实验开始时算法更新迅速,模型性能提升较
快,经过2500轮左右的训练,累计胜率就达到了50%,至6000轮左右时,已经基本完成训练,
更新效率开始下降,模型趋于收敛。
着训练进行,模型性能有着明显的变化趋势,以最左侧列为例,从500轮训练增加到1000轮
训练,新模型就能以高达90.1%的概率赢得胜利,相较于传统强化学习算法,本发明提出的
模型能够以很快的速度提升决策能力,随着训练次数增加,模型基本上能以将近100%的概
率获胜。当训练从5 000轮增加到10 000轮,模型仅有53.6%的概率获胜,此时胜负基本上
是按照相等概率随机分布的。这说明当达到最优解时,模型收敛稳定,且性能没有过大幅度
的波动。
分别前往作战区域包围敌方飞机,而采用三机编队时,智能体更倾向于从中路挺进,高速机
动至交战区主动迎敌。
战术表明智能体已经具备控制多机,探索和实现复杂战法的能力。
机,则再次靠近敌方飞机,重新组织进攻。该战术动作既能有效节约弹药,充分发挥导弹效
能,又能最大限度减少己方伤亡。4)快速机动避弹动作
向垂直于导弹瞄准基线的方向机动,之后再重新飞往目标点。采用突然变向的战术动作,大
幅降低了战机被击落的概率,经过统计,初始模型中击落一架战机平均需要1‑2枚弹,使用
经过训练的智能体进行避弹,平均需要4‑5枚弹。
敌方攻击范围外,超出敌方导弹射程,待失去导弹攻击的威胁后,会再次进入敌方火力覆盖
范围。该策略可以同时控制多架战机诱骗敌方弹药,能够在短时间内大量消耗敌方导弹。
点,设计嵌入专家经验的奖励函数、自适应权重的优先采样机制、经验共享机制、鼓励探索
的策略熵机制,针对性提高了多机协同对抗场景下深度强化学习算法的效果,有效解决了
多机协同空中作战实体类型众多、状态和动作空间巨大、协同合作关系复杂程度高等问题。
实验结果证明,本发明方法相较于传统规划算法和PPO算法具有明显优势,进一步,消融实
验验证四种性能提升机制都不同程度上增强了算法性能,并且算法效率较高,能在有限的
训练次数下达到良好的效果。模型在训练过程中涌现出的大量鲜明的战术战法表明,本发
明决策流程框架具有良好的探索能力,能充分挖掘、利用多机空战场景下,不同实体间协同
合作的机制以及合作与竞争的战术战法,在战场辅助决策领域具有巨大的应用价值。
然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进
行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术
方案的范围。