一种面向博弈对抗的多智能模型融合方法转让专利

申请号 : CN202111364658.7

文献号 : CN114254722B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 徐新海李渊李晟泽张峰章杰元

申请人 : 中国人民解放军军事科学院国防科技创新研究院

摘要 :

本发明提供一种面向博弈对抗的多智能模型融合方法,其中,所述方法包括:获取博弈对手的至少一种状态信息;基于所述状态信息,确定所述博弈对手的行为特征;基于所述行为特征,通过智能模型选择机制确定对抗模型,其中,所述对抗模型与所述行为特征相适应。通过本发明所述的面向博弈对抗的多智能模型融合方法,能够在面对复杂多变的博弈对手类型时,可以有效处理博弈对抗任务。

权利要求 :

1.一种面向博弈对抗的多智能模型融合方法,其特征在于,所述方法包括:获取博弈对手的至少一种状态信息;

基于所述状态信息,确定所述博弈对手的行为特征,其中,所述基于所述状态信息,确定所述博弈对手的行为特征,包括:将所述状态信息离散化为态势矩阵;

基于所述态势矩阵,通过卷积网络模型确定所述博弈对手的行为特征;

基于所述行为特征,通过智能模型选择机制确定对抗模型,其中,所述对抗模型与所述行为特征相适应,所述基于所述行为特征,通过智能模型选择机制确定对抗模型,包括:基于所述行为特征,通过所述智能模型选择机制确定多个备选对抗模型以及所述备选对抗模型的评估值;

基于贪心策略与所述评估值,确定所述对抗模型,

其中,采用以下方式获取博弈对手的至少一种状态信息:获取探测所述博弈对手的探测位置;

基于所述探测位置的综合势场值,确定探测路径,其中,所述探测路径通过以下公式确定:其中,xi表示所述探测位置,xi+1表示下一时间步探测位置,α表示移动步长, 表示综合势场梯度;

按照所述探测路径获取博弈对手的至少一种状态信息;

其中,所述综合势场值通过以下公式实现:

f(x)=fa(x)+fb(x)

其中,f(x)表示所述综合势场值,fa(x)表示引力场值,fb(x)表示斥力场值,ε表示引力系数, 表示所述探测位置距离所述博弈对手所有可见单元距离的平均值,δ表示斥力系数, 表示所述探测位置距离所述博弈对手最近的火力单元的距离, 表示所述博弈对手最近的火力单元的火力范围。

2.根据权利要求1所述的面向博弈对抗的多智能模型融合方法,其特征在于,所述智能模型选择机制包括感知机神经网络模型,所述卷积网络模型和所述感知机神经网络模型通过训练获取,所述训练的过程采用如下方式确定:实例化仿真模拟博弈对抗场景,所述仿真模拟博弈对抗场景包括仿真博弈对手;

通过所述对抗模型,确定与所述仿真博弈对手的状态信息相对抗的对抗行为;

基于所述对抗行为确定对抗结果,并基于所述对抗结果确定所述对抗结果的评估值;

基于所述评估值,更新所述卷积网络模型和所述感知机神经网络模型。

3.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一项所述面向博弈对抗的多智能模型融合方法的步骤。

4.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述面向博弈对抗的多智能模型融合方法的步骤。

5.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述面向博弈对抗的多智能模型融合方法的步骤。

说明书 :

一种面向博弈对抗的多智能模型融合方法

技术领域

[0001] 本发明涉及博弈对抗技术领域,尤其涉及一种面向博弈对抗的多智能模型融合方法。

背景技术

[0002] 博弈对抗过程大都是不完全信息的序列决策过程。在不完全信息博弈对抗中,参与博弈的任何一方仅能够观测到自己的状态和有限的对手信息。博弈对抗类问题的不完全信息特点使得单一的智能算法难以应对博弈对手的多变性和不确定性。
[0003] 相关技术可知,针对博弈对抗问题的研究大都集中于不同智能算法的设计。由于没有一种智能算法能够在所有情况下表现良好,因此,无法确保博弈对抗任务在不同环境下均能得到有效处理。

发明内容

[0004] 本发明提供一种面向博弈对抗的多智能模型融合方法,用以解决现有技术中面对复杂多变的博弈对手类型时,难以有效处理博弈对抗任务的缺陷,实现了在实时变化的环境下,能够有效处理博弈对抗任务。
[0005] 本发明提供一种面向博弈对抗的多智能模型融合方法,所述方法包括:获取博弈对手的至少一种状态信息;基于所述状态信息,确定所述博弈对手的行为特征;基于所述行为特征,通过智能模型选择机制确定对抗模型,其中,所述对抗模型与所述行为特征相适应。
[0006] 根据本发明提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,所述基于所述状态信息,确定所述博弈对手的行为特征,包括:将所述状态信息离散化为态势矩阵;基于所述态势矩阵,通过卷积网络模型确定所述博弈对手的行为特征。
[0007] 根据本发明提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,所述智能模型选择机制包括感知机神经网络模型,所述卷积网络模型和所述感知机神经网络模型通过训练获取,所述训练的过程采用如下方式确定:实例化仿真模拟博弈对抗场景,所述仿真模拟博弈对抗场景包括仿真博弈对手;通过所述对抗模型,确定与所述仿真博弈对手的状态信息相对抗的对抗行为;基于所述对抗行为确定对抗结果,并基于所述对抗结果确定所述对抗结果的评估值;基于所述评估值,更新所述卷积网络模型和所述感知机神经网络模型。
[0008] 根据本发明提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,采用以下方式获取博弈对手的至少一种状态信息:获取探测所述博弈对手的探测位置;基于所述探测位置的综合势场值,确定探测路径;按照所述探测路径获取博弈对手的至少一种状态信息。
[0009] 根据本发明提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,所述综合势场值通过以下公式实现:
[0010] f(x)=fa(x)+fb(x)
[0011]
[0012]
[0013] 其中,f(x)表示所述综合势场值,fa(x)表示引力场值,fb(x)表示斥力场值,ε表示引力系数, 表示所述探测位置距离所述博弈对手所有可见单元距离的平均值,δ表示斥力系数, 表示所述探测位置距离所述博弈对手最近的火力单元的距离, 表示所述博弈对手最近的火力单元的火力范围。
[0014] 根据本发明提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,所述探测路径通过以下公式确定:
[0015]
[0016] 其中,xi表示所述探测位置,xi+1表示下一时间步探测位置,α表示移动步长,表示综合势场梯度。
[0017] 根据本发明提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,所述基于所述行为特征,通过智能模型选择机制确定对抗模型,包括:基于所述行为特征,通过所述智能模型选择机制确定多个备选对抗模型以及所述备选对抗模型的评估值;基于贪心策略与所述评估值,确定所述对抗模型。
[0018] 本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述面向博弈对抗的多智能模型融合方法的步骤。
[0019] 本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述面向博弈对抗的多智能模型融合方法的步骤。
[0020] 本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述面向博弈对抗的多智能模型融合方法的步骤。
[0021] 本发明提供的一种面向博弈对抗的多智能模型融合方法,通过获取博弈对手的状态信息,确定博弈对手的行为特征,并基于行为特征选择合适的对抗模型,用以与博弈对手进行对抗。进而能够在在面对复杂多变的博弈对手类型时,可以有效处理博弈对抗任务。

附图说明

[0022] 为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023] 图1是本发明提供的面向博弈对抗的多智能模型融合方法的流程示意图之一;
[0024] 图2是本发明提供的基于状态信息,确定博弈对手的行为特征的流程示意图之一;
[0025] 图3是本发明提供的基于空间离散化的对手态势建模的示意图之一;
[0026] 图4是本发明提供的训练卷积网络模型和感知机神经网络模型的流程示意图之一;
[0027] 图5是本发明提供的通过智能模型选择机制确定对抗模型的流程示意图之一;
[0028] 图6是本发明提供的面向博弈对抗的多智能模型融合方法的示意图之一;
[0029] 图7是本发明提供的获取博弈对手的至少一种状态信息的流程示意图之一;
[0030] 图8是本发明提供的面向博弈对抗的多智能模型融合装置的结构示意图;
[0031] 图9是本发明提供的电子设备的结构示意图。

具体实施方式

[0032] 为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0033] 相关技术可知,自从AlphaGo击败人类围棋顶级选手以来,人工智能技术在博弈对抗等领域取得了许多突破性的进展。以AlphaGo为代表的智能博弈对抗方法将深度学习、强化学习等机器学习算法引入博弈对抗建模过程。在博弈对抗过程中,基于深度强化学习方法的智能体通过与环境的持续交互学习,不断更新深度神经网络,指导其行为选择,最终训练得到能够应对特定博弈对抗问题的智能体。
[0034] 然而,机器学习中存在一条普适的原则“没有免费的午餐”。针对复杂多变的博弈对手类型,没有一种算法能够在所有情况下表现良好,需要根据实际情况选择合适的决策算法。本发明提供的一种面向博弈对抗的多智能模型融合方法,基于对手行为进行分析,以选择合适的决策算法,确保能够在面对复杂多变的博弈对手类型时,可以有效处理博弈对抗任务。
[0035] 本发明将结合下述实施例对面向博弈对抗的多智能模型融合方法进行说明。
[0036] 图1是本发明提供的面向博弈对抗的多智能模型融合方法的流程示意图之一。
[0037] 在本发明一示例性实施例中,如图1所示,面向博弈对抗的多智能模型融合方法可以包括步骤110至步骤130,下面将分别介绍各步骤。
[0038] 在步骤110中,获取博弈对手的至少一种状态信息。
[0039] 在一种实施例中,可以在博弈对抗前期设计探测方法,以尽可能全面收集博弈对手的状态信息。其中,博弈对手的状态信息可以包括博弈对手所处场景信息、博弈对手的位置信息、博弈对手的生命力,以及博弈对手的类型等。需要说明的是,在本实施例中不对博弈对手的状态信息作具体限定,其中,博弈对手的状态信息可以根据实际情况进行确定。
[0040] 在步骤120中,基于状态信息,确定博弈对手的行为特征。
[0041] 在一种实施例中,可以基于博弈对手的状态信息进行特征提取,以获取关于博弈对手的行为特征。进一步的,通过行为特征确定相应的对抗模型,并基于对抗模型规划对抗博弈对手的对抗策略。
[0042] 在步骤130中,基于行为特征,通过智能模型选择机制确定对抗模型,其中,对抗模型与行为特征相适应。
[0043] 在一种实施例中,可以通过智能模型选择机制确定与博弈对手当前行为相适应的对抗模型。进一步的,并基于对抗模型规划对抗博弈对手的策略。在一示例中,智能模型选择机制可以是一种具有感知机神经网络模型的机制,在应用过程中,可以通过感知机神经网络模型,在众多备选对抗模型中选出适应博弈对手行为特征的对抗模型。
[0044] 本发明提供的面向博弈对抗的多智能模型融合方法,通过获取博弈对手的状态信息,确定博弈对手的行为特征,并基于行为特征选择合适的对抗模型,用以与博弈对手进行对抗。进而能够在在面对复杂多变的博弈对手类型时,可以有效处理博弈对抗任务。
[0045] 下面将结合下述实施例,对基于状态信息,确定博弈对手的行为特征的过程进行说明。
[0046] 图2是本发明提供的基于状态信息,确定博弈对手的行为特征的流程示意图之一。
[0047] 在本发明一示例性实施例中,如图2所示,基于状态信息,确定博弈对手的行为特征可以包括步骤210和步骤220,下面将分别介绍各步骤。
[0048] 在步骤210中,将状态信息离散化为态势矩阵。
[0049] 在步骤220中,基于态势矩阵,通过卷积网络模型确定博弈对手的行为特征。
[0050] 在一种实施例中,可以将获取的博弈对手的状态信息,例如博弈对手的位置信息、博弈对手的生命力等离散化为态势矩阵。在一示例中,可以将博弈对手的状态信息离散化为二维矩阵进行表示。在应用过程中,可以将博弈对抗空间离散化为二维网格,并以其为基础生成矩阵来表示博弈对手的态势信息。其中,每个二维矩阵表示博弈对手的一个状态信息。
[0051] 在又一实施例中,可以基于离散化的态势矩阵,通过卷积网络模型确定博弈对手的行为特征。可以理解的是,将博弈对手的状态信息进行离散化便于获取态势矩阵,确保博弈对手的数量变化不会影响状态信息的表示维度,便于态势提取网络模型的设计,进而方便卷积网络模型确定博弈对手的行为特征。
[0052] 下面将结合图3对状态信息离散化为态势矩阵的过程进行说明。
[0053] 在一实施例中,如图3所示,可以将博弈对抗空间进行离散,得到一个离散化地图。其中,白点表示我方,黑点表示博弈对手(又称敌方)。将博弈对手的状态信息(例如位置信息和生命力信息)离散化为位置矩阵和生命力矩阵。在位置矩阵中,数值为1的格子表示有一个敌方单元处于该格子中,数值为2的格子表示有两个敌方单元处于该格子中。在生命力矩阵中,各格子中的数值表示处于该格子的敌方单元的生命值之和。可以理解的是,敌方4个单元的生命值分别为1、2、3、4。单元数值为5的格子表示处于该格子中敌方单元(第1个和第4个)生命值的总和为5。
[0054] 每个二维矩阵是一个通道,博弈对手的所有状态信息可以表示为多通道的矩阵。进一步的,对于多通道的矩阵表示,可以设计基于卷积网络模型的特征提取方法,利用卷积的方法提取出局部空间的信息,例如,博弈对手的行为特征。并在此高阶特征上进行下一步的决策。
[0055] 继续以图3为例进行说明,采用了卷积核大小为2*2,滑动步长为1的卷积网络模型。其中,卷积网络模型输入层为两个通道,即3*3*2。态势矩阵通过两个相同的2*2的卷积核进行处理,分别形成了2个卷积后的矩阵,并采用最大化池化方法得到博弈对手的行为特征。根据图3可知,处理后的博弈对手的位置特征可以用特征值6表示,生命力特征可以用特征值16表示。
[0056] 在本发明一实施例中,智能模型选择机制可以包括感知机神经网络模型。在应用过程中,可以通过感知机神经网络模型,在众多备选对抗模型中选出适应博弈对手行为特征的对抗模型。其中,卷积网络模型和感知机神经网络模型往往通过训练获取。本发明将结合下述实施例对卷积网络模型和感知机神经网络模型的训练过程进行说明。
[0057] 图4是本发明提供的训练卷积网络模型和感知机神经网络模型的流程示意图之一。
[0058] 在本发明一示例性实施例中,如图4所示,训练卷积网络模型和感知机神经网络模型可以包括步骤410至步骤440,下面将分别介绍各步骤。
[0059] 在步骤410中,实例化仿真模拟博弈对抗场景,仿真模拟博弈对抗场景包括仿真博弈对手。
[0060] 在步骤420中,通过对抗模型,确定与仿真博弈对手的状态信息相对抗的对抗行为。
[0061] 在一种实施例中,可以实例化仿真模拟博弈对抗场景,以进行仿真训练。其中,仿真模拟博弈对抗场景中包括仿真博弈对手。在应用过程中,可以在仿真模拟博弈对抗场景中确定仿真博弈对手的多种状态信息。
[0062] 进一步的,可以通过对抗模型,确定与仿真博弈对手的状态信息相适应的对抗行为。换句话说,可以基于对抗模型,确定与仿真博弈对手相抗衡的对抗策略与对抗行为。
[0063] 对抗模型可以根据前文所述的方法进行确定。在一种实施例中,启动仿真训练,按照对手态势探测机制规划我方探测单元的行动路线,并按照探测路线探测仿真博弈对手的状态信息。进一步的,提取n个状态信息,并建立离散化态势矩阵。在本实施例中,离散化态势矩阵可以表示为s=(s1,s2,…sn)。将矩阵化的态势信息作为输入,经过卷积网络模型进行特征提取,并将特征输入到智能模型选择机制,计算得到所有备选对抗模型的评估值。可以理解的是,在智能模型选择机制中,主要通过多层感知机神经网络模型进行工作。
[0064] 下面将结合下述实施例,对基于行为特征,通过智能模型选择机制确定对抗模型的过程进行说明。
[0065] 图5是本发明提供的通过智能模型选择机制确定对抗模型的流程示意图之一。
[0066] 在本发明一示例性实施例中,如图5所示,通过智能模型选择机制确定对抗模型可以包括步骤510和步骤520,下面将分别介绍各步骤。
[0067] 在步骤510中,基于行为特征,通过智能模型选择机制确定多个备选对抗模型以及备选对抗模型的评估值。
[0068] 在步骤520中,基于贪心策略与评估值确定对抗模型。
[0069] 继续以前文所述的实施例进行说明,备选对抗模型的评估值可以表示为Q1,Q2,…,Qm。根据贪心策略(又称∈‑greedy策略),基于评估值,从所有备选对抗模型选择合适的对抗模型。
[0070]
[0071] 其中,a表示对抗模型的序号。
[0072] 步骤430中,基于对抗行为确定对抗结果,并基于对抗结果确定对抗结果的评估值。
[0073] 在步骤440中,基于评估值,更新卷积网络模型和感知机神经网络模型。
[0074] 在一种实施例中,通过加载选择的对抗模型控制我方各个单元的行动,以确定对抗结果。进一步的,根据对抗结果的评估值,评价对抗模型的效果,并更新卷积网络模型和感知机神经网络模型,以使基于更新后的卷积网络模型和感知机神经网络模型确定的对抗模型具有更优的对抗效果。
[0075] 继续以前文所述的实施例为例进行说明,在一种实施例中,获取对抗结果的评估值r,并将样本(s,a,r)记录到样本库中。若样本库中包含大于k个样本,随机从样本库中取出k个样本,按照如下公式计算对抗结果的损失值,并基于损失值更新卷积网络模型和感知机神经网络模型。
[0076]
[0077] 在又一种实施例中,还可以进行多次仿真训练,用以确保基于训练结果更新的卷积网络模型和感知机神经网络模型更加稳定,进而确保基于更新的卷积网络模型和感知机神经网络模型得到的对抗结果更加有效、稳定。在一实例中,若实例化仿真模拟博弈对抗场景的次数小于指定次数,可以循环进行训练,其中,指定次数可以根据实际情况进行确定。
[0078] 下面将结合图6,对面向博弈对抗的多智能模型融合方法的过程进行说明。
[0079] 图6是本发明提供的面向博弈对抗的多智能模型融合方法的示意图之一。
[0080] 在本发明一实施例中,执行本发明的面向博弈对抗的多智能模型融合方法的装置可以由对手态势探测模块、对手特征提取模块和智能模型选择机制构成。如图6所示,对手态势探测模块可以给出我方探测单元的行动规划方案。我方探测单元基于行动规划方案进行对手态势探测。进一步的,将从环境中收集到的对手态势信息,并发送至对手特征提取模块,其中,对手特征提取模块包括卷积网络模型。对手特征提取模块基于卷积网络模型提取对手态势信息的特征。进一步的,将提取到的对手特征发送至智能模型选择模块,其中,智能模型选择模块包括感知机神经网络模型。智能模型选择模块基于感知机神经网络模型从多个备选对抗模型中选择一个合适的对抗模型,并基于对抗模型控制各个单元的后续行动。在应用过程中,可以将每次博弈对抗中应用的对抗模型样本放入样本库,并通过随机抽取样本的方式,对确定对抗模型过程中应用的卷积网络模型和感知机神经网络模型进行训练。
[0081] 图7是本发明提供的获取博弈对手的至少一种状态信息的流程示意图之一。
[0082] 本发明将结合下述实施例对获取博弈对手的至少一种状态信息的过程进行说明。
[0083] 在本发明一示例性实施例中,如图7所示,获取博弈对手的至少一种状态信息可以包括步骤710至步骤730。下面将分别介绍各步骤。
[0084] 在步骤710中,获取探测博弈对手的探测位置。
[0085] 在步骤720中,基于探测位置的综合势场值,确定探测路径。
[0086] 在步骤730中,按照探测路径获取博弈对手的至少一种状态信息。
[0087] 在不完全信息博弈对抗场景中,对抗初期,博弈对手信息是不可见的,需要对我方探测单元进行合理调度和规划,从而提高对敌方的探测覆盖率。
[0088] 在本发明一示例性实施例中,用I表示我方探测单元集合,J表示敌方(又称博弈对手)攻击单元集合。我方单位i∈I的探测范围表示为pi,敌方攻击单位j∈J的火力范围为qj。dij表示我方单位i与敌方单位j之间的距离。假定探测单元i所处的位置为探测位置x,运用人工势场法,该位置的引力场值fa(x)、斥力场值fb(x)和综合势场值f(x)分被通过如下公式进行计算:
[0089] f(x)=fa(x)+fb(x)   (3)
[0090]
[0091]
[0092] 其中,f(x)表示综合势场值。fa(x)表示引力场值。fb(x)表示斥力场值。ε表示引力系数。 表示探测位置距离敌方所有可见单元距离的平均值,其中,若敌方单元j不可见,则dij=0。δ表示斥力系数。 表示探测位置距离博弈对手最近的火力单元的距离, 表示博弈对手最近的火力单元的火力范围。
[0093] 可以理解的是,我方距离敌方越近,引力场值fa(x)越小。通过引力场作用,促使我方尽可能靠近敌方以获取最大探测视野。当我方探测单元i靠近敌方火力范围时,斥力将增大,促使其远离敌方火力范围。探测位置x的综合势场值通过引力与斥力的相互作用,可以在保证自身安全的前提下,实现对敌方行为的最大探测。
[0094] 综合势场值f(x)越小的位置对我方探测单元i越有利。探测单元i应当沿着综合势场减少最快的位置移动,以形成探测路径。在应用过程中,我方探测单元i可以按照探测路径获取敌方单元的状态信息。在一示例中,我方探测单元i可以沿着势场梯度方向 移动,以形成探测路径。我方探测单元i从当前位置xi移动到下一个位置xi+1的计算公式如下:
[0095]
[0096] 其中,xi表示当前探测位置,xi+1表示下一时间步探测位置,α表示移动步长,表示综合势场梯度。
[0097] 下面将以中国电子科技集团发布的多智能体对抗环境(又称MACA)为例,对面向博弈对抗的多智能模型融合方法的过程进行说明。
[0098] 在MACA异构对抗场景中,敌我双方各自包括两个探测单元和十个战斗单元,每局对抗包含5000个时间步。给定我方的两个备选对抗模型M1和M2。
[0099] 实例化仿真模拟博弈对抗场景,按照对手态势探测机制规划我方探测单元的行动。其中,探测单元探测距离为80个单位,攻击单元开火距离为120个单位。设定ε=0.8,δ=0.2,α=0.1,我方的两个探测单元按照公式(3)‑公式(6)计算探测路径。攻击单元保持原始位置不动。
[0100] 建立对手态势信息表示矩阵。在一示例中,探测单元和攻击单元的属性包括位置、雷达频点、探测频点以及弹药数量。在应用过程中,将地图离散化为10*10网格,为每个态势信息建立一个矩阵表示。在本示例中,共建立四个通道的矩阵表示。进一步的,按照每50步记录一个对手态势,对抗进行到500步后,可以形成十个态势矩阵,并表示为s=s1,s2,…,s10,需要说明的是,每个态势矩阵都是一个4通道的矩阵表示。
[0101] 将态势矩阵s输入到卷积网络模型中,其中,卷积网络模型的输入维度是10*4*10*10,输出维度是2,对应两个备选对抗模型。基于感知机神经网络模型进行计算,从两个备选对抗模型选择一个对抗模型进行应用。
[0102] 加载选择的对抗模型,并基于对抗模型控制我方各个单元的行动,以确定对抗结果,从而完成整个对抗过程。
[0103] 进一步的,根据对抗结果的评估值,评价对抗模型的效果,并更新卷积网络模型和感知机神经网络模型,以使基于更新后的卷积网络模型和感知机神经网络模型确定的对抗模型具有更优的对抗效果。在一示例中,可以获取对抗结果的评估值r,并按照公式(2)计算对抗结果的损失值,并基于损失值更新卷积网络模型和感知机神经网络模型。
[0104] 进一步的,若实例化仿真模拟博弈对抗场景的次数小于指定次数,例如1000次,可以循环进行训练。通过此种方式,可以确保基于训练结果更新的卷积网络模型和感知机神经网络模型更加稳定,进而确保基于更新的卷积网络模型和感知机神经网络模型得到的对抗结果更加有效、稳定。
[0105] 根据上述描述可知,本发明提供的面向博弈对抗的多智能模型融合方法,通过获取博弈对手的状态信息,确定博弈对手的行为特征,并基于行为特征选择合适的对抗模型,用以与博弈对手进行对抗。进而能够在在面对复杂多变的博弈对手类型时,可以有效处理博弈对抗任务。
[0106] 基于相同的构思,本发明还提供一种面向博弈对抗的多智能模型融合装置。
[0107] 下面对本发明提供的面向博弈对抗的多智能模型融合装置进行描述,下文描述的面向博弈对抗的多智能模型融合装置与上文描述的面向博弈对抗的多智能模型融合方法可相互对应参照。
[0108] 图8是本发明提供的面向博弈对抗的多智能模型融合装置的结构示意图。
[0109] 在本发明一示例性实施例中,如图8所示,面向博弈对抗的多智能模型融合装置可以包括探测模块810、特征建模模块820和模型选择模块830,下面将分别介绍各模块。
[0110] 探测模块810可以被配置为用于获取博弈对手的至少一种状态信息。
[0111] 特征建模模块820可以被配置为用于基于状态信息,确定博弈对手的行为特征。
[0112] 模型选择模块830可以被配置为用于基于行为特征,通过智能模型选择机制确定对抗模型,其中,对抗模型与行为特征相适应。
[0113] 在本发明一示例性实施例中,特征建模模块820可以通过以下方式基于状态信息,确定博弈对手的行为特征:
[0114] 将状态信息离散化为态势矩阵;基于态势矩阵,通过卷积网络模型确定博弈对手的行为特征。
[0115] 在本发明一示例性实施例中,智能模型选择机制包括感知机神经网络模型,卷积网络模型和感知机神经网络模型可以通过训练获取,其中,训练的过程采用如下方式确定:
[0116] 实例化仿真模拟博弈对抗场景,仿真模拟博弈对抗场景包括仿真博弈对手;通过对抗模型,确定与仿真博弈对手的状态信息相对抗的对抗行为;基于对抗行为确定对抗结果,并基于对抗结果确定对抗结果的评估值;基于评估值,更新卷积网络模型和感知机神经网络模型。
[0117] 在本发明一示例性实施例中,探测模块810可以采用以下方式获取博弈对手的至少一种状态信息:
[0118] 获取探测博弈对手的探测位置;基于探测位置的综合势场值,确定探测路径;按照探测路径获取博弈对手的至少一种状态信息。
[0119] 在本发明一示例性实施例中,综合势场值可以通过以下公式实现:
[0120] f(x)=fa(x)+fb(x)   (7)
[0121]
[0122]
[0123] 其中,f(x)表示综合势场值,fa(x)表示引力场值,fb(x)表示斥力场值,ε表示引力系数, 表示探测位置距离博弈对手所有可见单元距离的平均值,δ表示斥力系数, 表示探测位置距离博弈对手最近的火力单元的距离, 表示博弈对手最近的火力单元的火力范围。
[0124] 在本发明一示例性实施例中,探测模块810可以采用以下公式确定探测路径:
[0125]
[0126] 其中,xi表示探测位置,xi+1表示下一时间步探测位置,α表示移动步长, 表示综合势场梯度。
[0127] 在本发明一示例性实施例中,模型选择模块830可以通过以下方式基于行为特征,通过智能模型选择机制确定对抗模型:
[0128] 基于行为特征,通过智能模型选择机制确定多个备选对抗模型以及备选对抗模型的评估值;基于贪心策略与评估值确定对抗模型。
[0129] 图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行面向博弈对抗的多智能模型融合方法,该方法包括:获取博弈对手的至少一种状态信息;基于状态信息,确定博弈对手的行为特征;基于行为特征,通过智能模型选择机制确定对抗模型,其中,对抗模型与行为特征相适应。
[0130] 此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0131] 另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的面向博弈对抗的多智能模型融合方法,该方法包括:获取博弈对手的至少一种状态信息;基于状态信息,确定博弈对手的行为特征;基于行为特征,通过智能模型选择机制确定对抗模型,其中,对抗模型与行为特征相适应。
[0132] 又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的面向博弈对抗的多智能模型融合方法,该方法包括:获取博弈对手的至少一种状态信息;基于状态信息,确定博弈对手的行为特征;基于行为特征,通过智能模型选择机制确定对抗模型,其中,对抗模型与行为特征相适应。
[0133] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0134] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0135] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。