一种基于情景构建的无人机自主鲁棒决策方法转让专利

申请号 : CN201310455107.0

文献号 : CN103488171B

文献日 : 2015-12-23

本发明公开了一种基于情景构建的无人机自主鲁棒决策方法，其特征包括：1、定义战场中红方无人机的决策变量和蓝方阵地的决策变量；2、情景构建；3、利用影响图建模方法构建影响图；4、计算红方无人机决策候选行动方案集中每一种决策候选行动方案在情景集中的每一个情景下的期望效用值；5、红方无人机根据期望效用值进行鲁棒决策。本发明能有效解决无人机在复杂战场环境下的自主决策能力弱的问题，使得无人机在各种情景中都能进行自主决策，从而提高无人机的自主决策效率和决策效果，实现最优的行动方案选择，并保证决策方案的可行性、有效性和安全性。

1.一种基于情景构建的无人机自主鲁棒决策方法，是应用于红方无人机攻打位于蓝方阵地中的蓝方高价值目标的复杂战场环境中，其特征在于，所述无人机自主鲁棒决策方法按如下步骤进行：

步骤1：定义复杂战场环境中红方无人机的决策变量和蓝方阵地的决策变量令红方无人机携带电子支援措施状态Red_ESMState＝{开，关}、红方无人机携带SAR雷达状态Red_SARState＝{开，关}、红方无人机机载导弹类型Red_Missile＝{A，B}、红方无人机飞行高度Red_Height＝{中，低}、红方无人机发现蓝方高价值目标位置Red_GetLocation＝{是，否}、红方无人机被击中Red_Destroyed＝{是，否}、红方无人机攻击效果Red_Result＝{蓝方高价值目标完全损毁，蓝方高价值目标高度损毁，蓝方高价值目标中度损毁，蓝方高价值目标未损毁}、红方无人机决策候选行动方案集Red_Action＝{D1,D2,...,Di,...,Dn},n∈N，N为自然数，所述红方无人机决策候选行动方案集Red_Action中，Di为第i种红方无人机决策候选行动方案，i∈n；红方无人机攻打蓝方阵地的效用＝{Utility}；

令蓝方雷达状态Blue_RadarState＝{开，关}、蓝方电子干扰设备状态Blue_ECMState＝{开，关}、蓝方高炮Blue_HasAA＝{是，否}、蓝方导弹类型Blue_Missile＝{中程导弹，近程导弹，无导弹}、蓝方发现红方无人机位置Blue_GetLocation＝{是，否}；

令红方无人机与蓝方高价值目标之间的距离Distance＝{远，中，近}；

步骤2：情景构建

利用所述红方无人机携带电子支援措施状态Red_ESMState、所述红方无人机携带SAR雷达状态Red_SARState、所述红方无人机机载导弹类型Red_Missile、所述红方无人机飞行高度Red_Height、所述蓝方雷达状态Blue_RadarState、所述蓝方电子干扰设备状态Blue_ECMState、所述蓝方高炮Blue_HasAA、所述蓝方导弹类型Blue_Missile以及红方无人机与蓝方高价值目标之间的距离Distance构建情景集S＝{S1,S2,...,Sj,...,Sm},m∈N，所述情景集S中第j个情景Sj表示为：

Sj＝ (Red_ESMState(j),Red_SARState(j),Red_Missile(j),Red_Height(j),Blue_RadarState(j),Blue_ECMState(j),Blue_HasAA(j),Blue_Missile(j),Distance(j))，j∈m；

步骤3：根据所述红方无人机的决策变量和蓝方阵地的决策变量利用影响图建模方法按如下步骤构建影响图：

步骤3.1：利用所述红方无人机的决策变量和蓝方阵地的决策变量构建有向无环图G：G＝(V,E) (1)

式(1)中，V代表所述有向无环图中节点的集合，E代表所述有向无环图中有向边的集合，并有：

V＝VC∪VD∪VU (2)

式(2)中VC代表所述有向无环图中所有的随机节点，VD代表所述有向无环图中所有的决策节点，VU代表所述有向无环图中所有的效用节点，并有：VC＝ (Red_ESMState，Red_SARState，Red_Missile，Red_Height，Blue_RadarState，Blue_ECMState，Blue_HasAA，Blue_Missile，Distance，Red_GetLocation，Blue_GetLocation，Red_Result，Red_Destroyed)；

VD＝(Red_Action)；

VU＝(Utility)；

所述有向无环图中有向边的集合E＝{(Red_Missile，Red_Action)，(Red_Height，Red_Action)，(Red_ESMState，Red_Action)，(Red_SARState，Red_Action)，(Distance，Red_Action)，(Blue_ECMState，Red_GetLocation)，(Distance，Red_GetLocation)，(Red_ESMState，Red_GetLocation)，(Red_SARState，Red_GetLocation)，(Red_GetLocation，Red_Result)，(Distance，Red_Result)，(Red_Action，Red_Result)，(Red_Height，Red_Result)，(Distance，Blue_GetLocation)，(Red_SARState，Blue_GetLocation)，(Blue_RadarState，Blue_GetLocation)，(Red_Height，Red_Destroyed)，(Blue_GetLocation，Red_Destroyed)，(Blue_Missile，Red_Destroyed)，(Distance，Red_Destroyed)，(Red_Action，Red_Destroyed)，(Blue_HasAA，Red_Destroyed)，(Red_Result，Utility)，(Red_Destroyed，Utility)}；

由所述所有的随机节点VC、所有的决策节点VD和所有的效用节点VU以及有向边的集合E构建出所述有向无环图；

步骤3.2：利用所述红方无人机的决策变量和蓝方阵地的决策变量构建变量集合X；

X＝XC∪XD (3)

式(3)中，XC是随机变量集合，并有：

XC＝ {Red_ESMState，Red_SARState，Red_Missile，Red_Height，Blue_RadarState，Blue_ECMState，Blue_HasAA，Blue_Missile，Distance，Red_GetLocation，Blue_GetLocation，Red_Result，Red_Destroyed}；

根据所述红方无人机的决策变量和蓝方阵地的决策变量获得所述随机变量集合XC中每个随机变量的状态空间Ω为：

ΩRed_ESMState＝{开，关}，ΩRed_SARState＝{开，关}，ΩRed_Missile＝{A，B}、ΩRed_Height＝{中，低}，ΩBlue_RadarState＝{开，关}，ΩBlue_ECMState＝{开，关}，ΩBlue_HasAA＝{是，否}，ΩBlue_Missile＝{中程导弹，近程导弹，无导弹}，ΩDistance＝{远，中，近}，ΩRed_GetLocation＝{是，否}，ΩBlue_GetLocation＝{是，否}，ΩRed_Result＝{蓝方高价值目标完全损毁，蓝方高价值目标高度损毁，蓝方高价值目标中度损毁，蓝方高价值目标未损毁}，ΩRed_Destroyed＝{是，否}；

式(3)中，XD是决策变量集合，并有：

XD＝{Red_Action}；

根据所述红方无人机决策候选行动方案集Red_Action获得决策变量集合XD中决策变量Red_Action的备选方案集为{D1，D2，……，Dn}，n∈N；

步骤3.3：利用所述红方无人机的决策变量和蓝方阵地的决策变量构建随机变量概率分布的集合；

所述随机变量概率分布的集合为：

Pr ＝ {P(Red_ESMState),P(Red_SARState)，P(Red_Missile),P(Red_Height)，P(Blue_RadarState),P(Blue_ECMState),P(Blue_HasAA),P(Blue_Missile)，P(Red_GetLocation|Par(Red_GetLocation)),P(Blue_GetLocation|Par(Blue_GetLocation))，P(Red_Result|Par(Red_Result)),P(Red_Destroyed|Par(Red_Destroyed)),P(Distance)}；

(4)式(4)中，Par(Red_GetLocation)为所述随机变量集合XC中随机变量Red_GetLocation的父节点集合，并有Par(Red_GetLocation)＝ {Red_ESMState，Red_SARState，Blue_ECMState，Distance}；

Par(Blue_GetLocation)为所述随机变量Blue_GetLocation的父节点集合，并有Par(Blue_GetLocation)＝{Blue_RadarState，Red_SARState，Distance}；

Par(Red_Result)为所述随机变量Red_Result的父节点集合，并有Par(Red_Result)＝{Red_Height，Red_Action，Distance，Red_GetLocation}；

Par(Red_Destoryed)为所述随机变量Red_Destoryed的父节点集合，并有Par(Red_Destoryed) ＝ {Red_Height，Blue_HasAA，Blue_Missile，Distance，Red_Action，Blue_GetLocation}；

步骤3.4：利用所述红方无人机的决策变量构建效用函数的集合；

令所述效用函数的集合为U：

U＝{U(Red_Result,Red_Destroyed)} (5)式(5)中，U(Red_Result,Red_Destroyed)为所述所有的效用节点VU中效用节点Utility的效用函数，并有：

式(6)中，U1、U2、U3、U4、U5、U6、U7和U8分别表示在不同条件下效用节点Utility的效用函数值；

利用所述有向无环图、变量集合、随机变量概率分布的集合和效用函数的集合构建出所述影响图；

步骤4：根据所述影响图利用式(7)获得红方无人机决策候选行动方案集Red_Action中每一种红方无人机决策候选行动方案在情景集S中的每一个情景下的期望效用值EU(Di,Sj)：

EU(Di,Sj)＝ΣU(Red_Result,Red_Destroyed)P(Red_Result,Red_Destroyed|e) (7)式(7)中，e代表证据，Di表示第i种红方无人机决策候选行动方案，i∈n，Sj表示第j个情景，j∈m；

步骤5：红方无人机根据所述期望效用值EU(Di,Sj)进行鲁棒决策；

步骤5.1：选择鲁棒决策候选行动方案；

令红方无人机决策候选行动方案集Red_Action中的决策候选行动方案Df，在情景集S中满足min(EU(Df,Sj))≥α，f∈n,j∈m,j＝1,2,...,m，α为预定的收益阈值，则决策候选行动方案Df为鲁棒决策候选行动方案并保留Df；

判断所有的决策候选行动方案，保留所有的鲁棒决策候选行动方案，删除剩余决策候选行动方案；

步骤5.2：识别最优鲁棒行动方案；

利用式(8)获得所述所有的鲁棒决策候选行动方案在每一个情景中的最大期望效用+

值集EU：

式(8)中：表示第j种情景下所有的鲁棒决策候选行动方案所对应的期望效用值EU(Di,Sj)中的最大期望效用值；

利用式(9)获得所述鲁棒决策候选行动方案在每一个情景中的最小期望效用值集-

EU：

式(9)中：表示第j种情景下所有的鲁棒决策候选行动方案所对应的期望效用值EU(Di,Sj)中的最小期望效用值；

利用式(10)获得所有的鲁棒决策候选行动方案与所述最大期望效用值集EU+的距离-

利用式(11)获得所有的鲁棒决策候选行动方案与所述最小期望效用值集EU的距离利用式(12)获得所有的鲁棒决策候选行动方案的贴近度ci：选择所述贴近度ci最大的鲁棒决策候选行动方案为最优鲁棒行动方案。

一种基于情景构建的无人机自主鲁棒决策方法

技术领域

[0001] 本发明涉及一种复杂战场环境下的基于情景构建的无人机自主鲁棒决策方法，属于计算机仿真与方法优化技术领域。

背景技术

[0002] 无人机在现代战争中扮演着越来越重要的角色。在无人机的应用过程中，越来越强调其智能性、自主性，即在面临多变复杂外界条件时，要求无人机能够自主决策，决定自身下一步的行动方案。如无人机在执行情报搜索、目标追踪、目标侦查和精确打击等任务
时，需要自主规划航路、自主采取机动动作、自主决定攻击方案等。这些决策行为通常是在复杂战场环境中做出的，存在巨大的风险性。因此，无人机在面临复杂战场环境时，自主决策应保证行动方案是可行的且在不同情景中能够有效执行，同时还能够最大幅度的降低风
险，即无人机自主决策的鲁棒性。

[0003] 无人机自主决策的研究目前主要集中于路径规划、任务分配和飞行控制领域。通常是根据决策任务提出路径规划算法、任务协同策略和资源分配优化算法，研究过程中很
少考虑无人机自主决策时所处的复杂战场环境。然而，由于复杂战场环境具有多变性、动态性、高风险性等特点，无人机难以在有限的战斗时间内保证有效的自主决策。现存无人机自主决策的研究内容很少针对复杂战场环境下的无人机自主决策方法进行研究，往往只考虑
某种特定环境下的无人机自主决策，导致无人机在面临复杂多变战场环境时，无法快速准
确进行决策，且很难有效执行决策的同时最大幅度的降低决策风险，即保证决策的鲁棒性。
所以，无人机在复杂战场环境下自主决策方法的研究显得尤为重要。目前还未发现复杂战
场环境下无人机自主鲁棒决策方法的相关研究。

发明内容

[0004] 本发明为了克服现有技术存在的不足之处，提出一种基于情景构建的无人机自主鲁棒决策方法，能有效解决无人机在复杂战场环境下的自主决策能力弱的问题，使得无人
机在各种情景中都能进行自主决策，从而提高无人机的自主决策效率和决策效果，实现最
优的行动方案选择，并保证决策方案的可行性、有效性和安全性。

[0005] 本发明为解决以上技术问题采用如下方案：

[0006] 本发明一种基于情景构建的无人机自主鲁棒决策方法，是应用于红方无人机攻打位于蓝方阵地中的蓝方高价值目标的复杂战场环境中，其特点是，所述无人机自主鲁棒决
策方法按如下步骤进行：

[0007] 步骤1：定义复杂战场环境中红方无人机的决策变量和蓝方阵地的决策变量

[0008] 令红方无人机携带电子支援措施状态Red_ESMState={开，关}、红方无人机携带SAR雷达状态Red_SARState={开，关}、红方无人机机载导弹类型Red_Missile={A，B}、
红方无人机飞行高度Red_Height={中，低}、红方无人机发现蓝方高价值目标位置Red_
GetLocation={是，否}、红方无人机被击中Red_Destroyed={是，否}、红方无人机攻击
效果Red_Result={蓝方高价值目标完全损毁，蓝方高价值目标高度损毁，蓝方高价值目
标中度损毁，蓝方高价值目标未损毁}、红方无人机决策候选行动方案集Red_Action＝
{D1,D2,...,Di,...,Dn},n∈N，N为自然数，所述红方无人机决策候选行动方案集Red_
Action中，Di为第i种红方无人机决策候选行动方案，i∈n；红方无人机攻打蓝方阵地的
效用={Utility}；

[0009] 令蓝方雷达状态Blue_RadarState={开，关}、蓝方电子干扰设备状态Blue_ECMState={开，关}、蓝方高炮Blue_HasAA={是，否}、蓝方导弹类型Blue_Missile={中程
导弹，近程导弹，无导弹}、蓝方发现红方无人机位置Blue_GetLocation={是，否}；

[0010] 令红方无人机与蓝方高价值目标之间的距离Distance={远，中，近}；

[0011] 步骤2：情景构建

[0012] 利用所述红方无人机携带电子支援措施状态Red_ESMState、所述红方无人机携带SAR雷达状态Red_SARState、所述红方无人机机载导弹类型Red_Missile、所述
红方无人机飞行高度Red_Height、所述蓝方雷达状态Blue_RadarState、所述蓝方电
子干扰设备状态Blue_ECMState、所述蓝方高炮Blue_HasAA、所述蓝方导弹类型Blue_
Missile以及红方无人机与蓝方高价值目标之间的距离Distance构建情景集S＝
{S1,S2,...,Sj,...,Sm},m∈N，所述情景集S中第j个情景表示为：

[0013] Sj=(Red_ESMState(j),Red_SARState(j),Red_Missile(j),Red_Height(j),Blue_RadarState(j),Blue_ECMState(j),Blue_HasAA(j),Blue_
Missile(j),Distance(j))，j∈m；

[0014] 步骤3：根据所述红方无人机的决策变量和蓝方阵地的决策变量利用影响图建模方法按如下步骤构建影响图：

[0015] 步骤3.1：利用所述红方无人机的决策变量和蓝方阵地的决策变量构建有向无环图G：

[0016] G＝(V,E) (1)

[0017] 式(1)中，V代表所述有向无环图中节点的集合，E代表所述有向无环图中有向边的集合，并有：

[0018] V＝VC∪VD∪VU (2)

[0019] 式(2)中VC代表所述有向无环图中所有的随机节点，VD代表所述有向无环图中所有的决策节点，VU代表所述有向无环图中所有的效用节点，并有：

[0020] VC=（Red_ESMState，Red_SARState，Red_Missile，Red_Height，Blue_RadarState，Blue_ECMState，Blue_HasAA，Blue_Missile，Distance，Red_GetLocation，Blue_GetLocation，Red_Result，Red_Destroyed）；

[0021] VD=（Red_Action）；

[0022] VU=（Utility）；

[0023] 所述有向无环图中有向边的集合E={(Red_Missile，Red_Action)，(Red_Height，Red_Action)，(Red_ESMState，Red_Action)，(Red_SARState，Red_Action)，(Distance，Red_Action)，(Blue_ECMState，Red_GetLocation)，(Distance，Red_GetLocation)，(Red_ESMState，Red_GetLocation)，(Red_SARState，Red_GetLocation)，(Red_GetLocation，Red_Result)，(Distance，Red_Result)，(Red_Action，Red_Result)，(Red_Height，Red_Result)，(Distance，Blue_GetLocation)，(Red_SARState，Blue_GetLocation)，(Blue_RadarState，Blue_GetLocation)，(Red_Height，Red_Destroyed)，(Blue_GetLocation，Red_Destroyed)，(Blue_Missile，Red_Destroyed)，(Distance，Red_Destroyed)，(Red_Action，Red_Destroyed)，(Blue_HasAA，Red_Destroyed)，(Red_Result，Utility)，(Red_Destroyed，Utility)}；

[0024] 由所述所有的随机节点VC、所有的决策节点VD和所有的效用节点VU以及有向边的集合E构建出所述有向无环图；

[0025] 步骤3.2：利用所述红方无人机的决策变量和蓝方阵地的决策变量构建变量集合X；

[0026] X＝XC∪XD (3)

[0027] 式(3)中，XC是随机变量集合，并有：

[0028] XC={Red_ESMState，Red_SARState，Red_Missile，Red_Height，Blue_RadarState，Blue_ECMState，Blue_HasAA，Blue_Missile，Distance，Red_GetLocation，Blue_GetLocation，Red_Result，Red_Destroyed}；

[0029] 根据所述红方无人机的决策变量和蓝方阵地的决策变量获得所述随机变量集合XC中每个随机变量的状态空间Ω为：

[0030] ΩRed_ESMState={开，关}，ΩRed_SARState={开，关}，ΩRed_Missile={A，B}、ΩRed_Height={中，低}，ΩBlue_RadarState={开，关}，ΩBlue_ECMState={开，关}，ΩBlue_HasAA={是，否}，ΩBlue_Missile={中程导弹，近程导弹，无导弹}，ΩDistance={远，中，近}，ΩRed_GetLocation={是，否}，ΩBlue_GetLocation={是，否}，ΩRed_Result={蓝方高价值目标完全损毁，蓝方高价值目标高度损毁，蓝方高价值目标中度损毁，蓝方高价值目标未损毁}，ΩRed_Destroyed={是，否}；

[0031] 式(3)中，XD是决策变量集合，并有：

[0032] XD={Red_Action}；

[0033] 根据所述红方无人机决策候选行动方案集Red_Action获得决策变量集合XD中决策变量Red_Action的备选方案集为{D1，D2，……，Dn}，n∈N；

[0034] 步骤3.3：利用所述红方无人机的决策变量和蓝方阵地的决策变量构建随机变量概率分布的集合；

[0035] 所述随机变量概率分布的集合为：

[0036] Pr={P(Red_ESMState),P(Red_SARState)，P(Red_Missile),P(Red_Height)，P(Blue_RadarState),P(Blue_ECMState),P(Blue_HasAA),P(Blue_Missile)，P(Red_
GetLocationPar(Red_GetLocation)),P(Blue_GetLocationPar(Blue_GetLocation))，
P(Red_ResultPar(Red_Result)),P(Red_DestroyedPar(Red_Destroyed)),P(Distance)}；

[0037] (4)

[0038] 式(4)中，Par(Red_GetLocation)为所述随机变量集合XC中随机变量Red_GetLocation的父节点集合，并有Par(Red_GetLocation)={Red_ESMState，Red_SARState，Blue_ECMState，Distance}；

[0039] Par(Blue_GetLocation)为所述随机变量Blue_GetLocation的父节点集合，并有Par(Blue_GetLocation)={Blue_RadarState，Red_SARState，Distance}；

[0040] Par(Red_Result)为所述随机变量Red_Result的父节点集合，并有Par(Red_Result)={Red_Height，Red_Action，Distance，Red_GetLocation}；

[0041] Par(Red_Destoryed)为所述随机变量Red_Destoryed的父节点集合，并有Par(Red_Destoryed)={Red_Height，Blue_HasAA，Blue_Missile，Distance，Red_Action，Blue_GetLocation}；

[0042] 步骤3.4：利用所述红方无人机的决策变量构建效用函数的集合；

[0043] 令所述效用函数的集合为U：

[0044] U={U(Red_Result,Red_Destroyed)} (5)

[0045] 式(5)中，U(Red_Result,Red_Destroyed)为所述所有的效用节点VU中效用节点Utility的效用函数，并有：

[0046]

[0047] 式(6)中，U1、U2、U3、U4、U5、U6、U7和U8分别表示在不同条件下效用节点Utility的效用函数值；

[0048] 利用所述有向无环图、变量集合、随机变量概率分布的集合和效用函数的集合构建出所述影响图；

[0049] 步骤4：根据所述影响图利用式(7)获得红方无人机决策候选行动方案集Red_Action中每一种红方无人机决策候选行动方案在情景集S中的每一个情景下的期望效用
值EU(Di,Sj)：

[0050] EU(Di,Sj) ＝ ΣU(Red_Result,Red_Destroyed)P(Red_Result,Red_Destroyede) (7)

[0051] 式(7)中，e代表证据，Di表示第i种红方无人机决策候选行动方案，i∈n，Sj表示第j个情景，j∈m；

[0052] 步骤5：红方无人机根据所述期望效用值EU(Di,Sj)进行鲁棒决策；

[0053] 步骤5.1：选择鲁棒决策候选行动方案；

[0054] 令红方无人机决策候选行动方案集Red_Action中的决策候选行动方案Df，在情景集S中满足min(EU(Df,Sj))≥α,(f∈n,j∈m,j＝1,2,...,m)，α为预定的收益阈值，
则决策候选行动方案Df为鲁棒决策候选行动方案并保留Df；

[0055] 判断所有的决策候选行动方案，保留所有的鲁棒决策候选行动方案，删除剩余决策候选行动方案；

[0056] 步骤5.2：识别最优鲁棒行动方案；

[0057] 利用式(8)获得所述所有的鲁棒决策候选行动方案在每一个情景中的最大期望+
效用值集EU：

[0058]

[0059] 式(8)中：表示第j种情景下所有的鲁棒决策候选行动方案所对应的期望效用值EU(Di,Sj)中的最大期望效用值；

[0060] 利用式(9)获得所述鲁棒决策候选行动方案在每一个情景中的最小期望效用值-
集EU：

[0061]

[0062] 式(9)中：表示第j种情景下所有的鲁棒决策候选行动方案所对应的期望效用值EU(Di,Sj)中的最小期望效用值；

[0063] 利用式(10)获得所有的鲁棒决策候选行动方案与所述最大期望效用值集EU+的距离

[0064]

[0065] 利用式(11)获得所有的鲁棒决策候选行动方案与所述最小期望效用值集EU-的距离

[0066]

[0067] 利用式(12)获得所有的鲁棒决策候选行动方案的贴近度ci：

[0068]

[0069] 选择所述贴近度ci最大的鲁棒决策候选行动方案为最优鲁棒行动方案。

[0070] 与已有技术相比，本发明有益效果体现在：

[0071] 1、本发明提出了一套新的解决复杂战场环境下无人机自主鲁棒决策的方法，将复杂战场环境中的各种影响因素通过决策变量来表征，利用决策变量进行情景构建，再结合影响图建模方法获得影响图，然后利用影响图得到的期望效用值进行鲁棒决策，从而获得
最优鲁棒行动方案；

[0072] 2、本发明通过情景构建将已有技术中只能在一种特定情景中实现的无人机自主决策改进为在复杂战场环境中各种情景发生时都能够进行有效决策，在复杂战场环境中
将不同情景引入无人机自主决策过程中，从而保证无人机自主决策能够适用于各种不同情
景，体现了方案的可行性；

[0073] 3、本发明将自主决策建模过程与影响图建模结合起来，能够简单、直观的描述出各决策变量间关系，利用影响图推理计算出决策候选行动方案的期望效用值，提高了无人机自主决策的准确性，保证决策方案的有效性；

[0074] 4、本发明在复杂战场环境下引入了鲁棒决策的思想，使得无人机自主决策的行动方案能够在不同情景中有效实施，同时最大幅度降低无人机执行决策过程中的风险，即保证决策的鲁棒性，从而大幅度提高了无人机在复杂战场环境中自主决策的安全性。

附图说明

[0075] 图1是本发明的决策方法流程图；

[0076] 图2是无人机决策影响图。

具体实施方式

[0077] 本发明一种基于情景构建的无人机自主鲁棒决策方法，是应用于红方无人机攻打位于蓝方阵地中的蓝方高价值目标的复杂战场环境中，蓝方阵地是以蓝方高价值目标为中
心，周围部署雷达、电子干扰设备、高炮和导弹的蓝方防空阵地，蓝方高价值目标可以是机场或油库或弹药库或桥梁或通讯中心或指挥中心等自身无打击防御能力的目标，如图1所
示，一种基于情景构建的无人机自主鲁棒决策方法按照如下步骤进行：

[0078] 步骤1：定义战场中红方无人机的决策变量和蓝方阵地的决策变量

[0079] 令红方无人机携带电子支援措施状态Red_ESMState={开，关}、红方无人机携带SAR雷达状态Red_SARState={开，关}、红方无人机机载导弹类型Red_Missile={A，B}、
红方无人机飞行高度Red_Height={中，低}、红方无人机发现蓝方高价值目标位置Red_
GetLocation={是，否}、红方无人机被击中Red_Destroyed={是，否}、红方无人机攻击
效果Red_Result={蓝方高价值目标完全损毁，蓝方高价值目标高度损毁，蓝方高价值目
标中度损毁，蓝方高价值目标未损毁}、红方无人机决策候选行动方案集Red_Action＝
{D1,D2,...,Di,...,Dn},n∈N，N为自然数，红方无人机决策候选行动方案集Red_Action
中，Di为第i种红方无人机决策候选行动方案，i∈n；具体实施中，n=4，第一种红方无人机决策候选行动方案D1=攻击蓝方高价值目标，第二种红方无人机决策候选行动方案D2=攻击
蓝方防空阵地，第三种红方无人机决策候选行动方案D3= 规避，第四种红方无人机决策候选行动方案D4=突防；红方无人机攻打蓝方阵地的效用={Utility}；

[0080] 令蓝方雷达状态Blue_RadarState={开，关}、蓝方电子干扰设备状态Blue_ECMState={开，关}、蓝方高炮Blue_HasAA={是，否}、蓝方导弹类型Blue_Missile={中程
导弹，近程导弹，无导弹}、蓝方发现红方无人机位置Blue_GetLocation={是，否}；

[0081] 令红方无人机与蓝方高价值目标之间的距离Distance={远，中，近}；

[0082] 步骤2：情景构建

[0083] 利用红方无人机携带电子支援措施状态Red_ESMState、红方无人机携带SAR雷达状态Red_SARState、红方无人机机载导弹类型Red_Missile、红方无人机飞行高度Red_
Height、蓝方雷达状态Blue_RadarState、蓝方电子干扰设备状态Blue_ECMState、蓝方高
炮Blue_HasAA、蓝方导弹类型Blue_Missile以及红方无人机与蓝方高价值目标之间的距
离Distance构建情景集S＝{S1,S2,...,Sj,...,Sm},m∈N，情景集S中第j个情景表示为：

[0084] Sj=(Red_ESMState(j),Red_SARState(j),Red_Missile(j),Red_Height(j),Blue_RadarState(j),Blue_ECMState(j),Blue_HasAA(j),Blue_
Missile(j),Distance(j))，j∈m；

[0085] 本实施例中，构建了12个典型情景如下：

[0086] S1=(开,开,A,中,开,开,是,中程导弹,中)；

[0087] S2=(开,开,A,中,开,开,是,近程导弹,中)；

[0088] S3=(开,开,A,中,开,开,是,无导弹,中)；

[0089] S4=(开,开,A,中,开,关,是,中程导弹,中)；

[0090] S5=(开,开,A,中,开,关,是,近程导弹,中)；

[0091] S6=(开,开,A,中,开,关,是,无导弹,中)；

[0092] S7=(开,开,A,中,开,开,否,中程导弹,中)；

[0093] S8=(开,开,A,中,开,开,否,近程导弹,中)；

[0094] S9=(开,开,A,中,开,开,否,无导弹,中)；

[0095] S10=(开,开,A,中,开,关,否,中程导弹,中)；

[0096] S11=(开,开,A,中,开,关,否,近程导弹,中)；

[0097] S12=(开,开,A,中,开,关,否,无导弹,中)；

[0098] 步骤3：根据红方无人机的决策变量和蓝方阵地的决策变量利用影响图建模方法构建影响图；

[0099] 影响图是一种有向无环图模型，一个影响图可被定义为四元组ID＝(G,X,Pr,U)，包括：

[0100] 1）一个有向无环图G＝(V,E)。V代表图中节点的集合，V＝VC∪VD∪VU。其中VC代表所有的随机节点，VD代表所有的决策节点，VU代表所有的效用节点，E代表图中有向边的集合。

[0101] 2）一个变量集合X,X＝XC∪XD。XC是随机变量集合，XC＝{C1,C2,...}，随机变量集合XC中任意一个随机变量Cp(p＝1,2,...)的状态空间任意一个随机变量Cp对应所有的随机节点VC中的一个随机节点；XD是决策变量集合，XD＝{D1,D2,...}，决策变量集合XD中任意一个决策变量Dq(q＝1,2,...)的备选方案集为{dq1,dq2,...}，任
意一个决策变量对应所有的决策节点VD中的一个决策节点。

[0102] 3）一个概率分布的集合Pr。任意一个随机变量Cp对应一个概率分布P(CpPar(Cp))，Par(Cp)表示Cp的父节点集合。

[0103] 4）一个效用函数的集合U。影响图中任意一个效用节点Vp∈VU(p＝1,2,...)，任意一个效用节点Vp对应一个效用函数效用节点Vp作为叶子节点存在。

[0104] 如图2所示。在影响图中，随机节点用圆形表示，决策节点用矩形表示，效用节点用菱形表示。影响图中的有向边具有不同的含义：

[0105] 指向随机节点或效用节点的有向边称为相关性弧，表达了节点之间的依赖关系，如图2中带箭头的实线所示；

[0106] 如果两个随机节点没有直接的有向边相连，说明这两个变量是条件独立的；

[0107] 指向决策节点的有向边称为信息弧，表明了信息的优先级，即在做出决策之前，决策节点的父节点的取值是知道的，如图2中带箭头的虚线所示。

[0108] 步骤3.1：利用红方无人机的决策变量和蓝方阵地的决策变量构建有向无环图；

[0109] 有向无环图为：

[0110] G＝(V,E) (1)

[0111] 式(1)中，V代表有向无环图中节点的集合，E代表有向无环图中有向边的集合，并有：

[0112] V＝VC∪VD∪VU (2)

[0113] 式(2)中VC代表有向无环图中所有的随机节点，VD代表有向无环图中所有的决策节点，VU代表有向无环图中所有的效用节点，并有：

[0114] VC=（Red_ESMState，Red_SARState，Red_Missile，Red_Height，Blue_RadarState，Blue_ECMState，Blue_HasAA，Blue_Missile，Distance，Red_GetLocation，Blue_GetLocation，Red_Result，Red_Destroyed）；

[0115] VD=（Red_Action）；

[0116] VC=（Utility）；

[0117] 有向无环图中有向边的集合E={(Red_Missile，Red_Action)，(Red_Height，Red_Action)，(Red_ESMState，Red_Action)，(Red_SARState，Red_Action)，(Distance，Red_Action)，(Blue_ECMState，Red_GetLocation)，(Distance，Red_GetLocation)，(Red_ESMState，Red_GetLocation)，(Red_SARState，Red_GetLocation)，(Red_GetLocation，Red_Result)，(Distance，Red_Result)，(Red_Action，Red_Result)，(Red_Height，Red_Result)，(Distance，Blue_GetLocation)，(Red_SARState，Blue_GetLocation)，(Blue_RadarState，Blue_GetLocation)，(Red_Height，Red_Destroyed)，(Blue_GetLocation，Red_Destroyed)，(Blue_Missile，Red_Destroyed)，(Distance，Red_Destroyed)，(Red_Action，Red_Destroyed)，(Blue_HasAA，Red_Destroyed)，(Red_Result，Utility)，(Red_Destroyed，Utility)}；

[0118] 由所有的随机节点VC、所有的决策节点VD和所有的效用节点VU以及有向边的集合E构建出一个有向无环图；

[0119] 步骤3.2：利用红方无人机的决策变量和蓝方阵地的决策变量构建变量集合；

[0120] 变量集合为：

[0121] X＝XC∪XD (3)

[0122] 式(3)中，XC是随机变量集合，有：

[0123] XC={Red_ESMState，Red_SARState，Red_Missile，Red_Height，Blue_RadarState，Blue_ECMState，Blue_HasAA，Blue_Missile，Distance，Red_GetLocation，Blue_GetLocation，Red_Result，Red_Destroyed}；

[0124] 根据红方无人机的决策变量和蓝方阵地的决策变量获得随机变量的状态空间Ω为：

[0125] ΩRed_ESMState={开，关}，ΩRed_SARState={开，关}，ΩRed_Missile={A，B}、ΩRed_Height={中，低}，ΩBlue_RadarState={开，关}，ΩBlue_ECMState={开，关}，ΩBlue_HasAA={是，否}，ΩBlue_Missile={中程导弹，近程导弹，无导弹}，ΩDistance={远，中，近}，ΩRed_GetLocation={是，否}，ΩBlue_GetLocation={是，否}，ΩRed_Result={蓝方高价值目标完全损毁，蓝方高价值目标高度损毁，蓝方高价值目标中度损毁，蓝方高价值目标未损毁}，ΩRed_Destroyed={是，否}；

[0126] 随机变量集合XC中一个随机变量对应所有的随机节点VC中一个随机节点；

[0127] 式(3)中，XD是决策变量集合，有：

[0128] XD={Red_Action}；

[0129] 根据红方无人机决策候选行动方案集Red_Action获得决策变量集合XD中决策变量Red_Action的备选方案集为{D1，D2，……，Dn}，n∈N；红方无人机决策候选行动方案集Red_Action为决策变量集合XD中的一个元素，该元素为决策变量Red_Action，其本身也是
一个集合。

[0130] 决策变量集合XD中一个决策变量对应所有的决策节点VD中的一个决策节点；

[0131] 步骤3.3：利用红方无人机的决策变量和蓝方阵地的决策变量构建随机变量概率分布的集合；

[0132] 随机变量概率分布的集合为：

[0133] Pr={P(Red_ESMState),P(Red_SARState)，P(Red_Missile),P(Red_Height)，P(Blue_RadarState),P(Blue_ECMState),P(Blue_HasAA),P(Blue_Missile)，P(Red_
GetLocationPar(Red_GetLocation)),P(Blue_GetLocationPar(Blue_GetLocation))，
P(Red_ResultPar(Red_Result)),P(Red_DestroyedPar(Red_Destroyed)),P(Distance)}；

[0134] (4)

[0135] 式(4)中，Par(Red_GetLocation)为随机变量集合XC中随机变量Red_GetLocation的父节点集合，并有Par(Red_GetLocation)={Red_ESMState，Red_SARState，Blue_ECMState，Distance}；

[0136] Par(Blue_GetLocation)为随机变量Blue_GetLocation的父节点集合，并有Par(Blue_GetLocation)={Blue_RadarState，Red_SARState，Distance}；

[0137] Par(Red_Result)为随机变量Red_Result的父节点集合，并有Par(Red_Result)={Red_Height，Red_Action，Distance，Red_GetLocation}；

[0138] Par(Red_Destoryed)为随机变量Red_Destoryed的父节点集合，并有Par(Red_Destoryed)={Red_Height，Blue_HasAA，Blue_Missile，Distance，Red_Action，Blue_
GetLocation}；

[0139] 本实施例中，随机变量概率分布的集合中的每个随机变量的概率分布设定如下：

[0140]

[0141]

[0142]

[0143] P(Blue_GetLocation|Par(Blue_GetLocation))的概率分布共有24个值分别如表1所示：

[0144] 表1 P(Blue_GetLocation|Par(Blue_GetLocation))概率分布

[0145]

[0147] 步骤3.4：利用红方无人机的决策变量构建效用函数的集合；

[0148] 令效用函数的集合为U：

[0149] U={U(Red_Result,Red_Destroyed)} (5)

[0150] 式(5)中，U(Red_Result,Red_Destroyed)为所有的效用节点VU中效用节点Utility的效用函数，并有：

[0151]

[0152] 式(6)中，U1、U2、U3、U4、U5、U6、U7和U8分别表示在不同条件下效用节点Utility的效用函数值，本实施例中，效用函数值U1=56、U2=100、U3=42、U4=80、U5=0、U6=48、U7=0和U8=48；

[0153] 利用有向无环图、变量集合、随机变量概率分布的集合和效用函数的集合构建出如图2所示的影响图；

[0154] 步骤4：根据影响图利用式(7)获得红方无人机决策候选行动方案集Red_Action中每一种红方无人机决策候选行动方案在情景集S中的每一个情景下的期望效用值
EU(Di,Sj)：

[0155] EU(Di,Sj) ＝ ΣU(Red_Result,Red_Destroyed)P(Red_Result,Red_Destroyede) (7)

[0156] 式(7)中，e代表证据，i表示第i种红方无人机决策候选行动方案，i∈n，j表示第j个情景，j∈m；

[0157] 本实施例中，利用式(7)获得的红方无人机的四种决策候选行动方案的期望效用值如表2所示：

[0158] 表2 红方无人机的四种决策候选行动方案的期望效用值

[0159]D1 D2 D3 D4
s1 28.1 28.1 38.4 21.6
s2 27.2 25.8 36.5 19.2
s3 56.1 52.5 43.2 28.8
s4 31.4 32.1 45.6 24
s5 30 28.9 40.8 23.5
s6 65.4 59.2 48 48
s7 45.5 41.7 38.4 21.6
s8 44.6 40 36.5 19.2
s9 72.7 64.2 43.2 28.8
s10 48.7 45.4 45.6 24
s11 47.3 42.5 40.8 23.5
s12 81.8 70.4 48 48

[0160] 步骤5：红方无人机根据期望效用值EU(Di,Sj)进行鲁棒决策；

[0161] 本实施例中，为了提高决策效率，可以在进行选择鲁棒决策候选行动方案之前进行劣决策候选行动方案的删除

[0162] 步骤5.1：删除劣决策候选行动方案；

[0163] 比较红方无人机决策候选行动方案集Red_Action中的红方无人机决策候选行动方案Dl与Dk在情景集S中的期望效用值，若行动方案Dl与Dk在m个情景中所对应的每个
期望效用值满足：行动方案Dl的每个期望效用值都小于或等于行动方案Dk的每个期望效用
值，且行动方案Dl的全部期望效用值不能完全等于行动方案Dk的全部期望效用值，即至少
有一个行动方案Dl的期望效用值是小于行动方案Dk的期望效用值。则决策候选行动方案
Dl为劣决策候选行动方案并删除Dl；

[0164] 由表5可以看出，本实例中没有劣决策候选行动方案，故无需删除；

[0165] 步骤5.2：选择鲁棒决策候选行动方案；

[0166] 令红方无人机决策候选行动方案集Red_Action中的决策候选行动方案Df，在情景集S中满足min(EU(Df,Sj))≥α,(f∈n,j∈m,j＝1,2,...,m)，α为预定的收益阈值，
则决策候选行动方案Df为鲁棒决策候选行动方案并保留Df；也就是说，决策候选行动方案
Df在m个情景中所对应的全部期望效用值中的最小期望效用值应大于等于预定的收益阈值
α；

[0167] 判断所有的决策候选行动方案，保留所有的鲁棒决策候选行动方案，删除剩余决策候选行动方案；

[0168] 本实施例中，设置预定的收益阈值α=20，由表5得：

[0169] min(EU(D1,Sj))＝EU(D1,S2)＝27.2＞20，故D1= 攻击蓝方高价值目标为鲁棒决策候选行动方案，保留D1方案；

[0170] min(EU(D2,Sj))＝EU(D2,S2)＝25.8＞20，故D2= 攻击蓝方防空阵地为鲁棒决策候选行动方案，保留D2方案；

[0171] min(EU(D3,Sj))＝EU(D3,S2)＝EU(D3,S8)＝36.5＞20，故D3= 规避为鲁棒决策候选行动方案，保留D3方案；

[0172] min(EU(D4,Sj))＝EU(D4,S2)＝EU(D4,S8)＝19.2＜20，故D4= 突防不满足鲁棒决策候选行动方案，删除D4方案；

[0173] 所以，全部鲁棒决策候选行动方案为：D1= 攻击蓝方高价值目标；D2= 攻击蓝方防空阵地；D3= 规避；

[0174] 步骤5.3：识别最优鲁棒行动方案；

[0175] 利用式(8)获得所有的鲁棒决策候选行动方案在每一个情景中的最大期望效用+
值集EU：

[0176]

[0177] 式(8)中：表示第j种情景下所有的鲁棒决策候选行动方案所对应的期望效用值EU(Di,Sj)中的最大期望效用值；

[0178] 利用式(9)获得鲁棒决策候选行动方案在每一个情景中的最小期望效用值集-
EU：

[0179]

[0180] 式(9)中：表示第j种情景下所有的鲁棒决策候选行动方案所对应的期望效用值EU(Di,Sj)中的最小期望效用值；

[0181] 本实施例中，利用式(8)、式(9)和表2中D1、D2、D3三种鲁棒决策候选行动方案的+期望效用值获得鲁棒决策候选行动方案在每一个情景中的最大期望效用值集EU和最小期
-
望效用值集EU，如表3所示：

[0182] 表3 最大、最小期望效用值

[0183]s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 s11 s12
EU+ 38.4 36.5 56.1 45.6 40.8 65.4 45.5 44.6 72.7 48.7 47.3 81.8
EU- 28.1 25.8 43.2 31.4 28.9 48 38.4 36.5 43.2 45.4 40.8 48
+

[0184] 利用式(10)获得鲁棒决策候选行动方案与最大期望效用值集EU的距离

[0185]-

[0186] 利用式(11)获得鲁棒决策候选行动方案与最小期望效用值集EU的距离

[0187]

[0188] 利用式(12)获得鲁棒决策候选行动方案的贴近度ci：

[0189]

[0190] 选择贴近度ci最大的鲁棒决策候选行动方案为最优鲁棒行动方案；

[0191] 本实施例中，利用式(10)、式(11)、式(12)、表2中D1、D2、D3三种鲁棒决策候选行动方案的期望效用值以及表3中鲁棒决策候选行动方案在每一个情景中的最大期望效用+ -
值集EU和最小期望效用值集EU 计算，获得鲁棒决策候选行动方案与最大期望效用值集
+ -
EU的距离鲁棒决策候选行动方案与最小期望效用值集EU的距离和鲁棒决策候选
行动方案的贴近度ci如表4所示：

[0192] 表4 最大、最小距离和贴近度

[0193]

[0194] 由表4可看出，鲁棒决策候选行动方案D1= 攻击蓝方高价值目标的贴近度c1=0.6951最大，故D1= 攻击蓝方高价值目标为最优鲁棒行动方案。

一种基于情景构建的无人机自主鲁棒决策方法转让专利

申请号 : CN201310455107.0

文献号 : CN103488171B

文献日 : 2015-12-23

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 胡笑旋 , 陈意 , 罗贺 , 马华伟 , 靳鹏 , 夏维

申请人 : 合肥工业大学

摘要 :

权利要求 :

说明书 :