一种多智能体对抗动作预测方法及装置转让专利
申请号 : CN202010490881.5
文献号 : CN111723931B
文献日 : 2021-12-17
发明人 : 徐新海 , 李晟泽 , 张峰 , 刘逊韵 , 张帅 , 李豪
申请人 : 中国人民解放军军事科学院战争研究院
摘要 :
权利要求 :
1.一种多智能体对抗动作预测方法,其特征在于,包括:步骤一,确定多智能体对抗场景的计算图,所述计算图包括全局属性特征,以及各智能体的节点信息和关系信息;
步骤二,将所述计算图输入至对抗动作预测模型中,得到所述对抗动作预测模型输出的各智能体的执行动作信息,具体公式为:式中, 为第i个智能体的当前节点特征, 为第i个智能体的上一节点特征, 为第i个智能体为被动智能体rk的汇聚关系特征,u为全局属性特征, 为节点更新神经网络,θl为该神经网络的超参数, 为该神经网络的权值,ReLU为该神经网络的激活函数,CONCAT为向量拼接函数;
其中,所述对抗动作预测模型是基于样本计算图,以及所述样本计算图中各样本智能体的样本执行动作信息训练得到的;
所述对抗动作预测模型用于融合所述全局属性特征以及各智能体的节点信息和关系信息,以更新各智能体的节点信息,并基于更新后的节点信息,确定各智能体的执行动作信息;
所述对抗动作预测模型的损失函数是基于各智能体的执行动作回报值、当前时刻执行动作的效用估计值、下一时刻执行动作的效用估计值以及衰减系数确定的,损失函数的具体公式如下:
式中,r为执行动作回报值,γ为衰减系数, 为第i个智能体下一时刻的执行动作效用估计值, 为第i个智能体当前时刻的执行动作效用估计值,t为当前时刻,t+1为下一时刻;
并且,步骤二具体包括:
编码层:将所述计算图中各智能体的节点信息和关系信息输入至所述对抗动作预测模型的编码层,得到所述编码层输出的各智能体的初始节点特征和初始关系特征,其中,编码层中初始节点特征的确定公式如下:初始关系特征的确定公式如下:
融合层:将各智能体的初始节点特征和初始关系特征,以及所述全局属性特征输入至所述对抗动作预测模型的融合层,得到所述融合层输出的各智能体的预测节点特征,其中,各智能体的预测节点特征为融合层中各智能体的节点特征最后一次迭代更新得到的各智能体更新后的节点特征;
解码层:将任一智能体的预测节点特征输入至所述对抗动作预测模型的解码层,得到所述解码层输出的所述任一智能体的执行动作信息,其中,解码层的具体公式如下:
2.根据权利要求1所述的多智能体对抗动作预测方法,其特征在于,所述融合层包括多个串联的融合子层;
所述将各智能体的初始节点特征和初始关系特征,以及所述全局属性特征输入至所述对抗动作预测模型的融合层,得到所述融合层输出的各智能体的预测节点特征,具体包括:将上一融合子层更新的各智能体的上一节点特征和上一关系特征,以及所述全局属性特征输入至当前融合子层,得到当前融合子层输出的各智能体的当前节点特征和当前关系特征;
其中,首个融合子层的输入为各智能体的初始节点特征和初始关系特征,以及所述全局属性特征;各智能体的预测节点特征为最末融合子层输出的各智能体的当前节点特征。
3.根据权利要求2所述的多智能体对抗动作预测方法,其特征在于,所述将上一融合子层更新的各智能体的上一节点特征和上一关系特征,以及所述全局属性特征输入至当前融合子层,得到当前融合子层输出的各智能体的当前节点特征和当前关系特征,具体包括:将上一融合子层更新的各智能体的上一节点特征和上一关系特征,以及所述全局属性特征输入至当前融合子层的关系更新层,得到所述关系更新层输出的各智能体的当前关系特征;
将任一智能体为被动智能体时的当前关系特征输入至当前融合子层的关系汇聚层,得到所述关系汇聚层输出的所述任一智能体的汇聚关系特征;
将所述任一智能体的汇聚关系特征和上一节点特征,以及所述全局属性特征输入至当前融合子层的节点更新层,得到所述节点更新层输出的所述任一智能体的当前节点特征。
4.根据权利要求1至3任一项所述的多智能体对抗动作预测方法,其特征在于,所述将所述计算图输入至对抗动作预测模型中,得到所述对抗动作预测模型输出的各智能体的执行动作信息,之后还包括:
基于各智能体的执行动作信息控制各智能体执行动作,并基于动作执行后的各智能体的节点信息和关系信息,更新所述计算图。
5.根据权利要求1至3任一项所述的多智能体对抗动作预测方法,其特征在于,所述节点信息包括智能体的速度信息和/或位置信息,所述关系信息包括智能体之间的距离信息和/或威胁程度信息。
6.一种多智能体对抗动作预测装置,其特征在于,包括:计算图确定模块,用于确定多智能体对抗场景的计算图,所述计算图包括全局属性特征,以及各智能体的节点信息和关系信息;
对抗动作预测模块,用于将所述计算图输入至对抗动作预测模型中,得到所述对抗动作预测模型输出的各智能体的执行动作信息,具体公式为:式中, 为第i个智能体的当前节点特征, 为第i个智能体的上一节点特征, 为第i个智能体为被动智能体rk的汇聚关系特征,u为全局属性特征, 为节点更新神经网络,θl为该神经网络的超参数, 为该神经网络的权值,ReLU为该神经网络的激活函数,CONCAT为向量拼接函数;
其中,所述对抗动作预测模型是基于样本计算图,以及所述样本计算图中各样本智能体的样本执行动作信息训练得到的;
所述对抗动作预测模型用于融合所述全局属性特征以及各智能体的节点信息和关系信息,以更新各智能体的节点信息,并基于更新后的节点信息,确定各智能体的执行动作信息;
所述对抗动作预测模型的损失函数是基于各智能体的执行动作回报值、当前时刻执行动作的效用估计值、下一时刻执行动作的效用估计值以及衰减系数确定的,损失函数的具体公式如下:
式中,r为执行动作回报值,γ为衰减系数, 为第i个智能体下一时刻的执行动作效用估计值, 为第i个智能体当前时刻的执行动作效用估计值,t为当前时刻,t+1为下一时刻;
并且,对抗动作预测模块,具体包括:编码层子模块,用于将所述计算图中各智能体的节点信息和关系信息输入至所述对抗动作预测模型的编码层,得到所述编码层输出的各智能体的初始节点特征和初始关系特征,其中,编码层中初始节点特征的确定公式如下:初始关系特征的确定公式如下:
融合层子模块,用于将各智能体的初始节点特征和初始关系特征,以及所述全局属性特征输入至所述对抗动作预测模型的融合层,得到所述融合层输出的各智能体的预测节点特征,其中,各智能体的预测节点特征为融合层中各智能体的节点特征最后一次迭代更新得到的各智能体更新后的节点特征;
解码层子模块,用于将任一智能体的预测节点特征输入至所述对抗动作预测模型的解码层,得到所述解码层输出的所述任一智能体的执行动作信息,其中,解码层的具体公式如下:
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的多智能体对抗动作预测方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述的多智能体对抗动作预测的步骤。
说明书 :
一种多智能体对抗动作预测方法及装置
技术领域
背景技术
和编队成员属性基础上,驱动该编队对进入该区域的敌方目标进行对抗。由此可知,多智能
体对抗问题实际上也是一种典型的多智能体协作问题,其核心是对编队内智能体进行协同
决策。深度强化学习是实现多智能体协同决策的手段之一,在具体应用时,对于不同的任务
指令,任务区域、任务时间、编队成员数量和成员属性是动态变化的,因此,需要神经网络模
型的数据输入维度能够随着智能体特征的变化而改变。
度,并以该输入维度确定神经网络结构;第二种是使用卷积神经网络,将多智能体环境转变
为类似图像的数据结构,以固定的维度对智能体特征进行学习;第三种是使用循环神经网
络,通过智能体特征的相互叠加来实现对可变特征的学习。上述三种方法在处理多智能体
对抗问题时均缺乏足够的灵活性,计算冗余度较高,无法满足多智能体对抗时针对不同任
务的通用性要求,无法对可变维度的智能体特征进行有效处理。
发明内容
作信息。
包括:
关系特征;
征。
点特征和当前关系特征,具体包括:
关系特征;
征。
作信息。
的多智能体对抗动作预测方法。
法。
测模型中,使得各智能体之间共享模型参数,实现了对可变维度的多智能体特征的有效处
理,同时简化了模型结构,提升了特征融合的能力。通过对抗动作预测模型融合全局属性特
征以及各智能体的节点信息和关系信息,以更新各智能体的节点信息,有利于己方智能体
编队协同决策,以实现对抗任务。
附图说明
明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根
据这些附图获得其他的附图。
具体实施方式
本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通过相互通信、合作、竞争等方式,完成单个智能体不能完成的复杂的、大规模的任务。多智
能体对抗场景是指多智能体组成的智能体编队与敌方进行对抗的场景,例如游戏中的作战
场景,在多智能体对抗场景中,己方智能体编队需要协同决策完成与敌方的对抗任务,例如
防守某一区域,抵御敌方对该区域的攻陷。
系信息。其中,全局属性特征可以用于表征多智能体对抗场景的环境信息、任务信息等,计
算图中一个节点(即智能体)对应一个节点信息,节点信息用于表征智能体的属性,节点信
息可以包括智能体的速度信息和/或位置信息,一条边对应一个关系信息,关系信息用于表
征该条边连接的两个智能体之间的关系,例如敌对关系、竞争关系、保护关系等,关系信息
可以包括智能体之间的距离信息和/或威胁程度信息,每一条边连接的两个智能体包括一
个主动智能体和一个被动智能体。
用于融合全局属性特征,以及各智能体的节点信息和关系信息,以更新各智能体的节点信
息,并基于更新后的节点信息,输出各智能体的执行动作信息。其中,各智能体的执行动作
信息用于控制各智能体执行的动作,执行动作信息可以包括对应智能体的执行动作,还可
以包括执行动作的效用估计值。
考虑了各智能体自身状态,而且考虑了多智能体对抗场景的环境、任务,以及各智能体与其
他智能体之间的关系。在此基础上,基于更新后的节点信息,得到的各智能体的执行动作信
息有利于己方智能体编队协同决策,以实现对抗任务。
型参数能够支持计算图中全局属性特征,以及各智能体节点信息和关系信息的快速变更,
以实现对抗动作预测模型对可变维度的多智能体特征的有效处理。其中,对抗动作预测模
型可以为神经网络模型,相应地,模型参数可以为神经网络权值。
样本执行动作信息。随即,将基于样本计算图,以及样本计算图中各样本智能体的样本执行
动作信息输入至初始模型进行训练,从而得到对抗动作预测模型。
得各智能体之间共享模型参数,实现了对可变维度的多智能体特征的有效处理,同时简化
了模型结构,提升了特征融合的能力。通过对抗动作预测模型融合全局属性特征以及各智
能体的节点信息和关系信息,以更新各智能体的节点信息,有利于己方智能体编队协同决
策,以实现对抗任务。
为该神经网络的权值,ReLU为该神经网络的激活函数,编码层可以基于MLP(Multi‑
layer Perceptron,多层感知机)构建。
络的权值,ReLU为该神经网络的激活函数。
预测节点特征为融合层中各智能体的节点特征最后一次迭代更新得到的各智能体更新后
的节点特征。
为softmax函数,解码层可以基于MLP构建。
和当前关系特征;
1211的操作。
子层对各智能体的节点特征和关系特征进行进一步的更新,并输出进一步更新得到的各智
能体的节点特征和关系特征,作为下一融合子层的输入,而且每一融合子层的输入均包含
全局属性特征。
始节点特征和初始关系特征,以及全局属性特征。最末融合子层为多个串联的融合子层中
最后一个融合子层,将最末融合子层更新得到的各智能体的节点特征作为各智能体的预测
节点特征。
各智能体与多智能体对抗场景以及其他智能体的关系,有利于己方智能体编队协同决策,
以实现对抗任务。
前关系特征。
为全局属性特征, 为第l层融合子层的关系更新神经网络,θl为该神经网络的超参数,
为该神经网络的权值,ReLU为该神经网络的激活函数,CONCAT为向量拼接函数,关系更
新层可以基于MLP构建。
智能体rk的当前关系特征的数量。作为优选,关系汇聚函数可以为求和函数SUM。
经网络,θl为该神经网络的超参数, 为该神经网络的权值,ReLU为该神经网络的激活函
数,CONCAT为向量拼接函数,节点更新层可以基于MLP构建。
关系特性进行汇聚,节点更新层基于各智能体的汇聚关系特征,更新各智能体的节点特征,
使得各智能体更新后的节点特征不仅考虑了各智能体自身状态,而且考虑了多智能体对抗
场景的环境、任务,以及各智能体与其他智能体之间的关系,有利于己方智能体编队协同决
策,以实现对抗任务,各智能体之间共享模型参数,降低了模型调参的难度,提升了特征融
合的能力。同时在汇聚关系特征的过程中,去除了特征间的顺序相关性,提升了对抗动作预
测模型对不同任务的适应性。
行动作的效用估计值以及衰减系数确定的。
行动作的效用估计值的近似值,进而计算该近似值与当前时刻执行动作的效用估计值的差
值,此处差值越小,则对抗动作预测模型计算得到的当前时刻执行动作的效用估计值更精
确。
式如下:
下一时刻。
关系信息也随之变化,基于动作执行后的各智能体的节点信息和关系信息,对变化后的多
智能体对抗场景对应的计算图进行更新,以实现多智能体与环境的动态交互。
测模型,对抗动作预测模型中编码层基于计算图的各智能体的节点信息和关系信息,以及
全局属性特征,确定各智能体的初始节点特征和初始关系特征。对抗动作预测模型中融合
层基于各智能体的初始节点特征和初始关系特征,以及全局属性特征,通过多个串联的融
合子层对各智能体的节点特征的关系特征进行迭代更新,输出得到各智能体的预测节点特
征。对抗动作预测模型中解码层对各智能体的预测节点特征进行动作映射,得到各智能体
的执行动作信息。各智能体按照执行动作信息执行相应的动作,基于动作执行后的各智能
体的节点信息和关系信息,对计算图进行更新,以实现与环境的动态交互。
速变化时,共享模型参数能够支持计算图中全局属性特征,以及各智能体节点信息和关系
信息的快速变更,以实现对抗动作预测模型对可变维度的多智能体特征的有效处理。
红方包括四个成员,蓝方包括两个成员,该对抗场景中存在预设规则:若某一成员被敌方两
个或两个以上成员包围,则该成员被消灭,该对抗场景对应的计算图的全局属性特征包括
的环境信息为红方领土区域范围,任务信息为消灭进入红方领土的蓝方成员,计算图中节
点信息为每一成员的位置,关系信息为六个成员中任意两个成员之间的距离和威胁程度,
红方或蓝方成员之间的威胁程度为0,红方成员与蓝方成员之间的威胁程度为1。将该对抗
场景对应的计算图输入至对抗动作预测模型,输出得到各个成员的执行动作信息。基于上
述任务信息,对抗动作预测模型输出得到的红方成员的执行动作信息可以为红方四个成员
分为两组,分别移动包围一名蓝方成员。
作信息。
得各智能体之间共享模型参数,实现了对可变维度的多智能体特征的有效处理,同时简化
了模型结构,提升了特征融合的能力。通过对抗动作预测模型融合全局属性特征以及各智
能体的节点信息和关系信息,以更新各智能体的节点信息,有利于己方智能体编队协同决
策,以实现对抗任务。
系特征;
节点特征;
关系特征;
征。
各智能体与多智能体对抗场景以及其他智能体的关系,有利于己方智能体编队协同决策,
以实现对抗任务。
层,得到当前融合子层输出的各智能体的当前节点特征和当前关系特征,具体包括:
关系特征;
征。
刻执行动作的效用估计值以及衰减系数确定的。
402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻
辑指令,以执行如下方法:确定多智能体对抗场景的计算图,计算图包括全局属性特征,以
及各智能体的节点信息和关系信息;将计算图输入至对抗动作预测模型中,得到对抗动作
预测模型输出的各智能体的执行动作信息;其中,对抗动作预测模型是基于样本计算图,以
及样本计算图中各样本智能体的样本执行动作信息训练得到的;对抗动作预测模型用于融
合全局属性特征以及各智能体的节点信息和关系信息,以更新各智能体的节点信息,并基
于更新后的节点信息,确定各智能体的执行动作信息。
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以
使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施
例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,
Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
确定多智能体对抗场景的计算图,计算图包括全局属性特征,以及各智能体的节点信息和
关系信息;将计算图输入至对抗动作预测模型中,得到对抗动作预测模型输出的各智能体
的执行动作信息;其中,对抗动作预测模型是基于样本计算图,以及样本计算图中各样本智
能体的样本执行动作信息训练得到的;对抗动作预测模型用于融合全局属性特征以及各智
能体的节点信息和关系信息,以更新各智能体的节点信息,并基于更新后的节点信息,确定
各智能体的执行动作信息。
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。