一种基于情景构建的无人机自主鲁棒决策方法转让专利
申请号 : CN201310455107.0
文献号 : CN103488171B
文献日 : 2015-12-23
发明人 : 胡笑旋 , 陈意 , 罗贺 , 马华伟 , 靳鹏 , 夏维
申请人 : 合肥工业大学
摘要 :
权利要求 :
1.一种基于情景构建的无人机自主鲁棒决策方法,是应用于红方无人机攻打位于蓝方阵地中的蓝方高价值目标的复杂战场环境中,其特征在于,所述无人机自主鲁棒决策方法按如下步骤进行:
步骤1:定义复杂战场环境中红方无人机的决策变量和蓝方阵地的决策变量令红方无人机携带电子支援措施状态Red_ESMState={开,关}、红方无人机携带SAR雷达状态Red_SARState={开,关}、红方无人机机载导弹类型Red_Missile={A,B}、红方无人机飞行高度Red_Height={中,低}、红方无人机发现蓝方高价值目标位置Red_GetLocation={是,否}、红方无人机被击中Red_Destroyed={是,否}、红方无人机攻击效果Red_Result={蓝方高价值目标完全损毁,蓝方高价值目标高度损毁,蓝方高价值目标中度损毁,蓝方高价值目标未损毁}、红方无人机决策候选行动方案集Red_Action={D1,D2,...,Di,...,Dn},n∈N,N为自然数,所述红方无人机决策候选行动方案集Red_Action中,Di为第i种红方无人机决策候选行动方案,i∈n;红方无人机攻打蓝方阵地的效用={Utility};
令蓝方雷达状态Blue_RadarState={开,关}、蓝方电子干扰设备状态Blue_ECMState={开,关}、蓝方高炮Blue_HasAA={是,否}、蓝方导弹类型Blue_Missile={中程导弹,近程导弹,无导弹}、蓝方发现红方无人机位置Blue_GetLocation={是,否};
令红方无人机与蓝方高价值目标之间的距离Distance={远,中,近};
步骤2:情景构建
利用所述红方无人机携带电子支援措施状态Red_ESMState、所述红方无人机携带SAR雷达状态Red_SARState、所述红方无人机机载导弹类型Red_Missile、所述红方无人机飞行高度Red_Height、所述蓝方雷达状态Blue_RadarState、所述蓝方电子干扰设备状态Blue_ECMState、所述蓝方高炮Blue_HasAA、所述蓝方导弹类型Blue_Missile以及红方无人机与蓝方高价值目标之间的距离Distance构建情景集S={S1,S2,...,Sj,...,Sm},m∈N,所述情景集S中第j个情景Sj表示为:
Sj= (Red_ESMState(j),Red_SARState(j),Red_Missile(j),Red_Height(j),Blue_RadarState(j),Blue_ECMState(j),Blue_HasAA(j),Blue_Missile(j),Distance(j)),j∈m;
步骤3:根据所述红方无人机的决策变量和蓝方阵地的决策变量利用影响图建模方法按如下步骤构建影响图:
步骤3.1:利用所述红方无人机的决策变量和蓝方阵地的决策变量构建有向无环图G:G=(V,E) (1)
式(1)中,V代表所述有向无环图中节点的集合,E代表所述有向无环图中有向边的集合,并有:
V=VC∪VD∪VU (2)
式(2)中VC代表所述有向无环图中所有的随机节点,VD代表所述有向无环图中所有的决策节点,VU代表所述有向无环图中所有的效用节点,并有:VC= (Red_ESMState,Red_SARState,Red_Missile,Red_Height,Blue_RadarState,Blue_ECMState,Blue_HasAA,Blue_Missile,Distance,Red_GetLocation,Blue_GetLocation,Red_Result,Red_Destroyed);
VD=(Red_Action);
VU=(Utility);
所述有向无环图中有向边的集合E={(Red_Missile,Red_Action),(Red_Height,Red_Action),(Red_ESMState,Red_Action),(Red_SARState,Red_Action),(Distance,Red_Action),(Blue_ECMState,Red_GetLocation),(Distance,Red_GetLocation),(Red_ESMState,Red_GetLocation),(Red_SARState,Red_GetLocation),(Red_GetLocation,Red_Result),(Distance,Red_Result),(Red_Action,Red_Result),(Red_Height,Red_Result),(Distance,Blue_GetLocation),(Red_SARState,Blue_GetLocation),(Blue_RadarState,Blue_GetLocation),(Red_Height,Red_Destroyed),(Blue_GetLocation,Red_Destroyed),(Blue_Missile,Red_Destroyed),(Distance,Red_Destroyed),(Red_Action,Red_Destroyed),(Blue_HasAA,Red_Destroyed),(Red_Result,Utility),(Red_Destroyed,Utility)};
由所述所有的随机节点VC、所有的决策节点VD和所有的效用节点VU以及有向边的集合E构建出所述有向无环图;
步骤3.2:利用所述红方无人机的决策变量和蓝方阵地的决策变量构建变量集合X;
X=XC∪XD (3)
式(3)中,XC是随机变量集合,并有:
XC= {Red_ESMState,Red_SARState,Red_Missile,Red_Height,Blue_RadarState,Blue_ECMState,Blue_HasAA,Blue_Missile,Distance,Red_GetLocation,Blue_GetLocation,Red_Result,Red_Destroyed};
根据所述红方无人机的决策变量和蓝方阵地的决策变量获得所述随机变量集合XC中每个随机变量的状态空间Ω为:
ΩRed_ESMState={开,关},ΩRed_SARState={开,关},ΩRed_Missile={A,B}、ΩRed_Height={中,低},ΩBlue_RadarState={开,关},ΩBlue_ECMState={开,关},ΩBlue_HasAA={是,否},ΩBlue_Missile={中程导弹,近程导弹,无导弹},ΩDistance={远,中,近},ΩRed_GetLocation={是,否},ΩBlue_GetLocation={是,否},ΩRed_Result={蓝方高价值目标完全损毁,蓝方高价值目标高度损毁,蓝方高价值目标中度损毁,蓝方高价值目标未损毁},ΩRed_Destroyed={是,否};
式(3)中,XD是决策变量集合,并有:
XD={Red_Action};
根据所述红方无人机决策候选行动方案集Red_Action获得决策变量集合XD中决策变量Red_Action的备选方案集为{D1,D2,……,Dn},n∈N;
步骤3.3:利用所述红方无人机的决策变量和蓝方阵地的决策变量构建随机变量概率分布的集合;
所述随机变量概率分布的集合为:
Pr = {P(Red_ESMState),P(Red_SARState),P(Red_Missile),P(Red_Height),P(Blue_RadarState),P(Blue_ECMState),P(Blue_HasAA),P(Blue_Missile),P(Red_GetLocation|Par(Red_GetLocation)),P(Blue_GetLocation|Par(Blue_GetLocation)),P(Red_Result|Par(Red_Result)),P(Red_Destroyed|Par(Red_Destroyed)),P(Distance)};
(4)式(4)中,Par(Red_GetLocation)为所述随机变量集合XC中随机变量Red_GetLocation的 父 节 点 集 合,并 有Par(Red_GetLocation)= {Red_ESMState,Red_SARState,Blue_ECMState,Distance};
Par(Blue_GetLocation)为所述随机变量Blue_GetLocation的父节点集合,并有Par(Blue_GetLocation)={Blue_RadarState,Red_SARState,Distance};
Par(Red_Result)为所述随机变量Red_Result的父节点集合,并有Par(Red_Result)={Red_Height,Red_Action,Distance,Red_GetLocation};
Par(Red_Destoryed)为所述随机变量Red_Destoryed的父节点集合,并有Par(Red_Destoryed) = {Red_Height,Blue_HasAA,Blue_Missile,Distance,Red_Action,Blue_GetLocation};
步骤3.4:利用所述红方无人机的决策变量构建效用函数的集合;
令所述效用函数的集合为U:
U={U(Red_Result,Red_Destroyed)} (5)式(5)中,U(Red_Result,Red_Destroyed)为所述所有的效用节点VU中效用节点Utility的效用函数,并有:
式(6)中,U1、U2、U3、U4、U5、U6、U7和U8分别表示在不同条件下效用节点Utility的效用函数值;
利用所述有向无环图、变量集合、随机变量概率分布的集合和效用函数的集合构建出所述影响图;
步骤4:根据所述影响图利用式(7)获得红方无人机决策候选行动方案集Red_Action中每一种红方无人机决策候选行动方案在情景集S中的每一个情景下的期望效用值EU(Di,Sj):
EU(Di,Sj)=ΣU(Red_Result,Red_Destroyed)P(Red_Result,Red_Destroyed|e) (7)式(7)中,e代表证据,Di表示第i种红方无人机决策候选行动方案,i∈n,Sj表示第j个情景,j∈m;
步骤5:红方无人机根据所述期望效用值EU(Di,Sj)进行鲁棒决策;
步骤5.1:选择鲁棒决策候选行动方案;
令红方无人机决策候选行动方案集Red_Action中的决策候选行动方案Df,在情景集S中满足min(EU(Df,Sj))≥α,f∈n,j∈m,j=1,2,...,m,α为预定的收益阈值,则决策候选行动方案Df为鲁棒决策候选行动方案并保留Df;
判断所有的决策候选行动方案,保留所有的鲁棒决策候选行动方案,删除剩余决策候选行动方案;
步骤5.2:识别最优鲁棒行动方案;
利用式(8)获得所述所有的鲁棒决策候选行动方案在每一个情景中的最大期望效用+
值集EU:
式(8)中: 表示第j种情景下所有的鲁棒决策候选行动方案所对应的期望效用值EU(Di,Sj)中的最大期望效用值;
利用式(9)获得所述鲁棒决策候选行动方案在每一个情景中的最小期望效用值集-
EU:
式(9)中: 表示第j种情景下所有的鲁棒决策候选行动方案所对应的期望效用值EU(Di,Sj)中的最小期望效用值;
利用式(10)获得所有的鲁棒决策候选行动方案与所述最大期望效用值集EU+的距离-
利用式(11)获得所有的鲁棒决策候选行动方案与所述最小期望效用值集EU的距离利用式(12)获得所有的鲁棒决策候选行动方案的贴近度ci:选择所述贴近度ci最大的鲁棒决策候选行动方案为最优鲁棒行动方案。
说明书 :
一种基于情景构建的无人机自主鲁棒决策方法
技术领域
背景技术
时,需要自主规划航路、自主采取机动动作、自主决定攻击方案等。这些决策行为通常是在复杂战场环境中做出的,存在巨大的风险性。因此,无人机在面临复杂战场环境时,自主决策应保证行动方案是可行的且在不同情景中能够有效执行,同时还能够最大幅度的降低风
险,即无人机自主决策的鲁棒性。
少考虑无人机自主决策时所处的复杂战场环境。然而,由于复杂战场环境具有多变性、动态性、高风险性等特点,无人机难以在有限的战斗时间内保证有效的自主决策。现存无人机自主决策的研究内容很少针对复杂战场环境下的无人机自主决策方法进行研究,往往只考虑
某种特定环境下的无人机自主决策,导致无人机在面临复杂多变战场环境时,无法快速准
确进行决策,且很难有效执行决策的同时最大幅度的降低决策风险,即保证决策的鲁棒性。
所以,无人机在复杂战场环境下自主决策方法的研究显得尤为重要。目前还未发现复杂战
场环境下无人机自主鲁棒决策方法的相关研究。
发明内容
机在各种情景中都能进行自主决策,从而提高无人机的自主决策效率和决策效果,实现最
优的行动方案选择,并保证决策方案的可行性、有效性和安全性。
策方法按如下步骤进行:
红方无人机飞行高度Red_Height={中,低}、红方无人机发现蓝方高价值目标位置Red_
GetLocation={是,否}、红方无人机被击中Red_Destroyed={是,否}、红方无人机攻击
效果Red_Result={蓝方高价值目标完全损毁,蓝方高价值目标高度损毁,蓝方高价值目
标中度损毁,蓝方高价值目标未损毁}、红方无人机决策候选行动方案集Red_Action=
{D1,D2,...,Di,...,Dn},n∈N,N为自然数,所述红方无人机决策候选行动方案集Red_
Action中,Di为第i种红方无人机决策候选行动方案,i∈n;红方无人机攻打蓝方阵地的
效用={Utility};
导弹,近程导弹,无导弹}、蓝方发现红方无人机位置Blue_GetLocation={是,否};
红方无人机飞行高度Red_Height、所述蓝方雷达状态Blue_RadarState、所述蓝方电
子干扰设备状态Blue_ECMState、所述蓝方高炮Blue_HasAA、所述蓝方导弹类型Blue_
Missile以及红方无人机与蓝方高价值目标之间的距离Distance构建情景集S=
{S1,S2,...,Sj,...,Sm},m∈N,所述情景集S中第j个情景表示为:
Missile(j),Distance(j)),j∈m;
GetLocationPar(Red_GetLocation)),P(Blue_GetLocationPar(Blue_GetLocation)),
P(Red_ResultPar(Red_Result)),P(Red_DestroyedPar(Red_Destroyed)),P(Distance)};
值EU(Di,Sj):
则决策候选行动方案Df为鲁棒决策候选行动方案并保留Df;
效用值集EU:
集EU:
最优鲁棒行动方案;
将不同情景引入无人机自主决策过程中,从而保证无人机自主决策能够适用于各种不同情
景,体现了方案的可行性;
附图说明
具体实施方式
心,周围部署雷达、电子干扰设备、高炮和导弹的蓝方防空阵地,蓝方高价值目标可以是机场或油库或弹药库或桥梁或通讯中心或指挥中心等自身无打击防御能力的目标,如图1所
示,一种基于情景构建的无人机自主鲁棒决策方法按照如下步骤进行:
红方无人机飞行高度Red_Height={中,低}、红方无人机发现蓝方高价值目标位置Red_
GetLocation={是,否}、红方无人机被击中Red_Destroyed={是,否}、红方无人机攻击
效果Red_Result={蓝方高价值目标完全损毁,蓝方高价值目标高度损毁,蓝方高价值目
标中度损毁,蓝方高价值目标未损毁}、红方无人机决策候选行动方案集Red_Action=
{D1,D2,...,Di,...,Dn},n∈N,N为自然数,红方无人机决策候选行动方案集Red_Action
中,Di为第i种红方无人机决策候选行动方案,i∈n;具体实施中,n=4,第一种红方无人机决策候选行动方案D1=攻击蓝方高价值目标,第二种红方无人机决策候选行动方案D2=攻击
蓝方防空阵地,第三种红方无人机决策候选行动方案D3= 规避,第四种红方无人机决策候选行动方案D4=突防;红方无人机攻打蓝方阵地的效用={Utility};
导弹,近程导弹,无导弹}、蓝方发现红方无人机位置Blue_GetLocation={是,否};
Height、蓝方雷达状态Blue_RadarState、蓝方电子干扰设备状态Blue_ECMState、蓝方高
炮Blue_HasAA、蓝方导弹类型Blue_Missile以及红方无人机与蓝方高价值目标之间的距
离Distance构建情景集S={S1,S2,...,Sj,...,Sm},m∈N,情景集S中第j个情景表示为:
Missile(j),Distance(j)),j∈m;
意一个决策变量对应所有的决策节点VD中的一个决策节点。
一个集合。
GetLocationPar(Red_GetLocation)),P(Blue_GetLocationPar(Blue_GetLocation)),
P(Red_ResultPar(Red_Result)),P(Red_DestroyedPar(Red_Destroyed)),P(Distance)};
GetLocation};
也可以获得相关的图表,所获得的图表中,P(Red_Result|Par(Red_Result))共有48个概
率分布值,P(Red_GetLocation|Par(Red_GetLocation))共有96个概率分布值,P(Red_
Destroyed|Par(Red_Destroyed))共有576个概率分布值;
EU(Di,Sj):
s1 28.1 28.1 38.4 21.6
s2 27.2 25.8 36.5 19.2
s3 56.1 52.5 43.2 28.8
s4 31.4 32.1 45.6 24
s5 30 28.9 40.8 23.5
s6 65.4 59.2 48 48
s7 45.5 41.7 38.4 21.6
s8 44.6 40 36.5 19.2
s9 72.7 64.2 43.2 28.8
s10 48.7 45.4 45.6 24
s11 47.3 42.5 40.8 23.5
s12 81.8 70.4 48 48
期望效用值满足:行动方案Dl的每个期望效用值都小于或等于行动方案Dk的每个期望效用
值,且行动方案Dl的全部期望效用值不能完全等于行动方案Dk的全部期望效用值,即至少
有一个行动方案Dl的期望效用值是小于行动方案Dk的期望效用值。则决策候选行动方案
Dl为劣决策候选行动方案并删除Dl;
则决策候选行动方案Df为鲁棒决策候选行动方案并保留Df;也就是说,决策候选行动方案
Df在m个情景中所对应的全部期望效用值中的最小期望效用值应大于等于预定的收益阈值
α;
值集EU:
EU:
-
望效用值集EU,如表3所示:
EU+ 38.4 36.5 56.1 45.6 40.8 65.4 45.5 44.6 72.7 48.7 47.3 81.8
EU- 28.1 25.8 43.2 31.4 28.9 48 38.4 36.5 43.2 45.4 40.8 48
+
值集EU和最小期望效用值集EU 计算,获得鲁棒决策候选行动方案与最大期望效用值集
+ -
EU的距离 鲁棒决策候选行动方案与最小期望效用值集EU的距离 和鲁棒决策候选
行动方案的贴近度ci如表4所示: