一种基于信息共享的多智能体智能电子干扰方法转让专利

申请号 : CN202110169866.5

文献号 : CN113049885B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张盼黄毅金仲和皇甫江涛

申请人 : 浙江大学

摘要 :

本发明公开了一种基于信息共享的多智能体智能电子干扰方法,主要利用空间中的分布式干扰机,实现多智能体间的态势信息共享,从而实现对电磁环境的实时动态态势感知,充分的环境感知信息为后续电子干扰机的干扰参数以及干扰策略提供了先验信息,结合先验信息与Q‑Learning方法,实现电子干扰机干扰策略以及干扰参数的精准优化。本发明避免了传统电子干扰方法的静态干扰策略,该电子干扰方法能够实时动态感知外部电磁环境,并根据外部环境的变化而自主做出相应电子干扰参数(包括能量、频率、带宽、脉冲宽度以及脉冲重复周期等等参数)的自主更新。

权利要求 :

1.一种基于信息共享的多智能体智能电子干扰方法,其特征在于,包括以下步骤:步骤1.采用分布式电子干扰机群组构成一个多智能体联合感知系统,其中一个多智能体联合感知由N个单智能体电子干扰机节点组成,相邻电子干扰机之间有独立的信息共享链路,将各自感知的电磁态势信息在信息共享链路中进行共享与分析处理;第i个单智能体电子干扰机能够实现的态势信息为:Xi=Ci:Pa(P,Pw,PRF,BW,MP)

其中,Ci表示第i个单智能体的态势信息总和,Pa表示表征态势信息的参数字符,P表示信号功率,Pw表示信号脉冲宽度,PRF表示脉冲重复频率,BW表示信号有效带宽,MP表示信号调制方式;

则整个多智能体联合感知系统能感知到的全部态势信息为:

C=sum(Xi|i∈N);

步骤2.由于同一时刻不同干扰机智能体感知到的态势参数信息不完全相同,因此需要对不同智能体之间的侦察参数进行态势观察,如果不同智能体之间的侦察参数信息不平衡,则各智能体之间的侦查参数需要进行调整,获取信息共享后的多智能体态势参数;

步骤3.智能体干扰参数自主决策:对干扰参数进行实时动态自主调控使电子干扰机的干扰信号不断适应新的态势环境,并采用Q‑Learning算法确定最终电子干扰策略;具体为:假设在t时刻智能体i的干扰参数为:

t

其中,Ki 表示t时刻智能体i的干扰参数总体态势,(μP,μPw,μPRF,μBW,μMP)分别表示(P,Pw,PRF,BW,MP)对应的干扰参数值;γs用于表示各干扰参数对干扰策略的影响程度,即权重,其中s=P,Pw,PRF,BW,MP;

在上述侦察参数中,设定MP参数的调制方式的权重γMP为γ1,而其他决定电子干扰方法的侦察参数权重均相同,设为γ2,且满足:在下一时刻t+1,干扰参数通过与上一时刻调整平衡后的侦察态势信息求偏导,计算其对应的态势变化趋势并进行量化表征,其表达式如下所示:上式对下一时刻态势参数与当前时刻干扰参数求偏导,得到同一智能体在不同时刻的态势信息变化率,利用这些态势信息,得到适应当前态势环境的电子干扰参数,新的干扰参数变化过程如下式所示:上式中ε为阈值,t+1时刻新的电子干扰参数信息表示为:

基于Q‑learning的电子干扰策略如下式所示:

其中,r(s,a)表示采取动作后a的收益回报, 表示下一时刻智能体所要*

采取的最佳干扰参数调整动作,Q(s,a)表示当前时刻状态s下动作a的Q值,Q (s,a)表示在状态s采取动作a以及选取下一时刻的最佳策略时获得的最大Q值,γ为10%,是调整状态的固定参数;

至此,实现了智能体在不同时刻基于实时态势信息的电子干扰参数变化。

2.根据权利要求1所述的基于信息共享的多智能体智能电子干扰方法,其特征在于,所述的步骤2中包括:对相邻电子干扰机单智能体内的功率态势参数进行求偏导,为:

Ci|Z表示第i个智能体参数Z的态势信息,Z表示参数P,Pw,PRF,BW,MP之一,以此类推,对相邻单智能体电子干扰机之间的其他态势参数均求偏导,依次如下所示:通过上式中相邻两单智能体间态势参数求偏导结果与阈值ε比较,如果大于阈值,则表示相邻单智能体间的态势信息不平衡,有突变情况,反之则表示相邻单智能体间的侦察态势参数比较平衡。

3.根据权利要求1所述的基于信息共享的多智能体智能电子干扰方法,其特征在于,当检测到不同智能体之间的侦察参数信息不平衡,则各智能体之间的侦查参数需按如下方式进行调整:不同智能体之间的态势信息传递表达如下式所示:

其中,Ci‑Balance|Z表示第i个智能体经过调整后参数Z的态势信息,Z表示参数P,Pw,PRF,BW,MP之一, 为求所有N个智能体中参数Z的态势均值;

至此,信息共享后的多智能体态势参数为:

其中,CBalance表示平衡后的智能体态势信息,P',Pw',PRF',BW',MP'表示平衡后的智能体态势参数。

4.根据权利要求1所述的基于信息共享的多智能体智能电子干扰方法,其特征在于:电子干扰机通过感知外部电磁环境中辐射源电磁信号能量的强弱来抉择下一时刻是否进行干扰,电子干扰机对获取的态势侦察参数功率P进行实时分析,当功率P<ε时,电子干扰机立即停止对辐射源的电子干扰措施,使自身处于静默状态,当再次感知到功率P增强到阈值ε时,则再次启动电子干扰机,实现动态实时自主干扰策略。

说明书 :

一种基于信息共享的多智能体智能电子干扰方法

技术领域

[0001] 本发明属于多智能体电子干扰技术领域,涉及一种基于信息共享的多智能体智能电子干扰方法。

背景技术

[0002] 近年来,随着智能技术以及深度学习的发展,其在电子对抗博弈系统中也得到了极大地应用。军事场景中的红蓝双方对抗博弈过程是一个动态持续迭代过程,将智能技术引入到电子对抗博弈系统中,将大大提高系统决策认知效率。同时,针对战场中的高动态态势变化,基于信息共享方法的多智能体电子对抗合作博弈系统,将突破原有单智能体的有限信息感知能力,实现实时动态态势信息共享,从而极大地增强系统决策认知能力,使我方系统持续保持智能博弈对抗过程中的优势地位。
[0003] 本发明主要利用空间中的分布式干扰机,实现多智能体间的态势信息共享,从而实现对电磁环境的实时动态态势感知,充分的环境感知态势信息为后续电子干扰机的干扰参数以及干扰策略提供了先验信息,结合先验信息与Q‑Learning方法,实现电子干扰机干扰策略以及干扰参数的精准优化。传统的电子干扰方法是一种静态的干扰策略,其干扰模式通常只具有若干种固定的干扰策略,并且干扰参数并不能随着外部电磁环境的变化而动态自主更新,包括能量、频率、带宽、脉冲宽度以及脉冲重复周期等等参数。同时,传统的电子干扰机并不能够感知外部电磁能量的变化趋势,若辐射源停止探测目标,则电子干扰机的信号能量将会暴露在空间环境中,被敌方侦测到会带来致命的损失。本发明通过一种分布式动态智能电子干扰方法,该电子干扰方法能够实时动态感知外部电磁环境,并根据外部环境的变化而自主做出相应电子干扰参数的连续自主更新。该方法能够对外部电磁环境进行充分感知,并利用Q‑Learning方法实现电子干扰参数的自主更新。同时,本发明能够根据外部电磁能量的实时态势来决定电子干扰机是处于静默状态还是持续干扰状态。
[0004] 本发明基于强化学习与环境感知方法相结合,实现态势感知信息共享条件下的多智能体动态智能电子干扰系统。本发明通过电子干扰平台与外部电磁环境的交互,实现基于侦察态势信息的动态感知与智能干扰决策,从而实现一种更加自主的多智能体智能电子干扰系统。

发明内容

[0005] 本发明针对电子干扰机中干扰策略固定并且干扰方法有限的缺点,提出一种基于信息共享的多智能体智能电子干扰方法,该方法通过分布式电子干扰机实现多智能体间的态势信息共享,从而实现对电磁环境的实时动态态势感知与侦察参数态势平衡,结合先验信息与Q‑Learning方法,实现电子干扰机干扰策略以及干扰参数的精准优化。
[0006] 本发明的目的是通过以下技术方案来实现的:
[0007] 一种基于信息共享的多智能体智能电子干扰方法,包括以下步骤:
[0008] 步骤1.采用分布式电子干扰机群组构成一个多智能体联合感知系统,其中一个多智能体联合感知由N个单智能体电子干扰机节点组成,相邻电子干扰机之间有独立的信息共享链路,将各自感知的电磁态势信息在信息共享链路中进行共享与分析处理;第i个单智能体电子干扰机能够实现的态势信息为:
[0009] Xi=Ci({Information of Agent i}i∈N)
[0010] =Ci:Pa(P,Pw,PRF,BW,MP)
[0011] 其中,Ci表示第i个单智能体的态势信息总和,Pa(·)表示表征态势信息的参数字符,P表示信号功率,Pw表示信号脉冲宽度,PRF表示脉冲重复频率,BW表示信号有效带宽,MP表示信号调制方式;
[0012] 则整个多智能体联合感知系统能感知到的全部态势信息为:
[0013] C=sum(Xi|i∈N);
[0014] 步骤2.由于同一时刻不同干扰机智能体感知到的态势参数信息不完全相同,因此需要对不同智能体之间的侦察参数进行态势观察,如果不同智能体之间的侦察参数信息不平衡,则各智能体之间的侦查参数需要进行调整,获取信息共享后的多智能体态势参数;
[0015] 步骤3.智能体干扰参数自主决策:对干扰参数进行实时动态自主调控使电子干扰机的干扰信号不断适应新的态势环境,并采用Q‑Learning算法确定最终电子干扰策略。
[0016] 进一步的,所述的步骤2中包括:
[0017] 对相邻电子干扰机单智能体内的功率态势参数进行求偏导,为:
[0018]
[0019] Ci|Z表示第i个智能体参数Z的态势信息,以此类推,对相邻单智能体电子干扰机之间的其他态势参数均求偏导,依次如下所示:
[0020]
[0021]
[0022]
[0023]
[0024] 通过上式中相邻两单智能体间态势参数求偏导结果与阈值ε比较,如果大于阈值,则表示相邻单智能体间的态势信息不平衡,有突变情况,反之则表示相邻单智能体间的侦察态势参数比较平衡,其中所述的阈值通常取接近于0的常数,如可以取5%。
[0025] 进一步的,当检测到不同智能体之间的侦察参数信息不平衡,则各智能体之间的侦查参数需按如下方式进行调整:
[0026] 不同智能体之间的态势信息传递表达如下式所示:
[0027]
[0028] 其中,Ci‑Balance|Z表示第i个智能体经过调整后参数X的态势信息,为求所有N个智能体中参数Z的态势均值。
[0029] 至此,信息共享后的多智能体态势参数为:
[0030]
[0031] 其中,CBalance表示平衡后的智能体态势信息,P',Pw',PRF',BW',MP'表示平衡后的智能体态势参数。
[0032] 进一步的,信息共享后的多智能体通过合作的方式实现全域空间电磁态势信息的协同感知,同时,为了使电子干扰机的干扰信号能够不断适应新的态势环境,需要对干扰参数进行实时动态自主调控;
[0033] 所述的步骤3具体为:
[0034] 假设在t时刻智能体i的干扰参数为:
[0035]
[0036] 其中,Kit表示t时刻智能体i的干扰参数总体态势,(μP,μPw,μPRF,μBW,μMP)分别表示(P,Pw,PRF,BW,MP)对应的干扰参数值;γs用于表示各干扰参数对干扰策略的影响程度,即权重,其中s=P,Pw,PRF,BW,MP;
[0037] 在上述侦察参数中,调制方式MP能够直接决定电子干扰机的干扰策略,而其他参数则是衡量某一种干扰策略内干扰参数的变化情况,因此,设定MP参数的调制方式的权重γMP为γ1,而其他决定电子干扰方法的侦察参数权重均相同,设为γ2,且满足:
[0038]
[0039] 在下一时刻t+1,干扰参数通过与上一时刻调整平衡后的侦察态势信息求偏导,计算其对应的态势变化趋势并进行量化表征,其表达式如下所示:
[0040]
[0041] 上式对下一时刻态势参数与当前时刻干扰参数求偏导,得到同一智能体在不同时刻的态势信息变化率,利用这些态势信息,得到适应当前态势环境的电子干扰参数,新的干扰参数变化过程如下式所示:
[0042]
[0043] 上式中t+1时刻新的电子干扰参数信息表示为:
[0044]
[0045] 基于Q‑learning的电子干扰策略如下式所示:
[0046]
[0047] 其中,r(s,a)表示采取动作后a的收益回报, 表示下一时刻智能体*
所要采取的最佳干扰参数调整动作,Q(s,a)表示当前时刻状态s下动作a的Q值,Q (s,a)表示在状态s采取动作a以及选取下一时刻的最佳策略时获得的最大Q值,γ为10%,是调整状态的固定参数;
[0048] 至此,实现了智能体在不同时刻基于实时态势信息的电子干扰参数变化。
[0049] 电子干扰机通过感知外部电磁环境中辐射源电磁信号能量的强弱来抉择下一时刻是否进行干扰,电子干扰机对获取的态势侦察参数功率P进行实时分析,当功率P<ε时,电子干扰机立即停止对辐射源的电子干扰措施,使自身处于静默状态,当再次感知到功率P增强到阈值ε时,则再次启动电子干扰机,实现动态实时自主干扰策略。
[0050] 传统的电子干扰方法是一种静态的干扰策略,其干扰模式通常只具有若干种固定的干扰策略,并且干扰参数并不能随着外部电磁环境的变化而动态自主更新,包括能量、频率、带宽、脉冲宽度以及脉冲重复周期等等参数。同时,传统的电子干扰机并不能够感知外部电磁能量的变化趋势,若辐射源停止探测目标,则电子干扰机的信号能量将会暴露在空间环境中,被敌方侦测到会带来致命的损失。
[0051] 针对传统静态电子干扰方法中的缺陷与不足,本发明设计了一种分布式信息共享的多智能体协同感知与智能干扰策略实施方法,通过分布在空间中的多智能体,实现相邻智能体之间的信息共享能力,并且多智能体联合空域态势感知,达到对目标在各个维度态势信息的充分感知,为后续电子干扰机系统对被干扰目标的干扰策略以及干扰参数提供更多依据,本发明方法中电子干扰参数会随外部环境的变化而动态实时自主更新,电子干扰机的干扰模式并不局限于若干种固定干扰策略,而是根据外部电磁环境态势的变化而自主变化,其通过外部电磁环境的反馈,实现电子干扰机与环境的实时动态交互,从而实现基于Q‑Learning方法的自主电子干扰参数更新。
[0052] 本发明通过分布式多智能体联合态势感知,增强了系统的感知能力,并且利用信息共享链路实现目标态势参数的平衡处理,基于此,系统的干扰策略与干扰参数更新也更加智能与精准。与此同时,系统还能根据环境中辐射源电磁功率参数态势信息自主决策电子干扰机处于静默状态还是保持工作状态。

附图说明

[0053] 图1为电子干扰系统示意图。
[0054] 图2为基于信息共享的多智能体联合态势感知示意图。
[0055] 图3为智能体电子干扰机测量不同时刻功率测量值与理论值对比图。
[0056] 图4为智能体电子干扰机测量不同时刻脉冲宽度测量值与理论值对比图。
[0057] 图5为智能体电子干扰机测量不同时刻脉冲重复频率测量值与理论值对比图。
[0058] 图6为智能体电子干扰机测量不同时刻信号有效带宽测量值与理论值对比图。
[0059] 图7为基于环境交互的动态电子干扰策略示意图。
[0060] 图8为一个周期内奖励回报曲线图。
[0061] 图9为一个周期内损失曲线图。

具体实施方式

[0062] 下面结合附图,对本发明作进一步的详细说明。
[0063] 本实施例中主要采用计算机仿真的方法进行验证,所有步骤、结论都在MATLAB‑R2019a上验证正确;具体实施步骤如下:
[0064] 步骤1:构建不断阶段电磁态势变化模型。
[0065] 图1展示的是电子干扰系统示意图。电子干扰机通过对目标辐射源实施相应的电子干扰策略,使其不被辐射源定位或者欺骗辐射源的探测。电子干扰策略的动态更新依赖于外部环境电磁态势的变化,电子干扰机在不同阶段对外部电磁环境的态势感知结果是电子干扰机在下一时刻做出相应电子干扰策略的重要依据。因此,首先构建一个随时间变化而动态变化的电磁态势信息变化表。
[0066] 表1电磁态势变化表
[0067]
[0068] 表1为各个阶段辐射源的电磁态势信息变化表,从表中可以看出,在不同阶段,电磁辐射源发射的信号参数都不尽相同,这样可以有效地避免辐射源发射信号参数单一带来的被跟踪的问题。发射不同参数的信号,可以在回波中感知异常信息,从而识别回波中的干扰信号,进而对干扰源进行定位与追踪,因此具有参差变化的辐射源特性具有一定的抗干扰功能。而电子干扰机需要在动态复杂的电磁环境中,实时感知辐射源态势信息的变化趋势,并将这些信息作为电子干扰参数更新的先验信息与依据,使电子干扰系统成为一个自主系统,实现对目标态势信息的自主感知与动态认知干扰策略。
[0069] 步骤2:分布式电子干扰系统构建:
[0070] 分布式电子干扰机系统中包含6个独立的电子干扰智能体,其等边距地分布在辐射源周边,实现对空间全域电磁态势信息的动态感知,其示意图如图2所示。其中,相邻电子干扰机之间有独立的信息共享链路,其能够将各自的电磁态势信息在信息共享数据链中进行共享与分析处理。
[0071] 步骤3:分布式电子干扰系统态势信息参数共享与再平衡。
[0072] 基于表1中辐射源发射信号的参数态势信息,电子干扰机通过无源被动电子侦察系统,实现对辐射源电磁参数的估计与调制类型识别。假设辐射源所在环境的信噪比为2
0dB,其中噪声为(0,σ)分布的高斯白噪声。在0dB信噪比环境下,电子侦察机对被截获信号的侦察参数估计误差保持在10%以内,各个电子干扰在T0~T5时间内感知到的辐射源电磁态势信息如图3~图6所示。
[0073] 基于信息共享后的辐射源信号参数估计结果如表2所示。
[0074] 表2辐射源信号参数估计
[0075]
[0076] 表2中,测量得到的辐射源信号参数包括(P,Pw,PRI,k,MP),其中PRI与PRF、k与Pw和Bw的关系如下式所示:
[0077] PRI=1/PRF
[0078] k=B/Pw
[0079] 通过分析表2的辐射源信号参数估计可知,给基于多智能体的态势信息共享参数更能充分表征当前的电磁态势,同时可以避免单智能体观测导致的信息参数不平衡问题。
[0080] 步骤4:电子干扰参数自主更新:
[0081] 利用表2测量得到的辐射源信号参数作为环境感知信息Xi输入至电子干扰机智能体中,根据Q‑Learning方法实现对辐射源目标的实时智能动态干扰策略。图7为基于环境交互的动态电子干扰策略示意图。
[0082] 通过对多参数估计结果的更新策略以及前后时刻电子干扰机态势信息对比,实现干扰机中干扰参数的自主更新。T3~T4时间周期内基于Q‑Learning方法的奖励回报如图8所示,损失函数如图9所示。从图8与图9中可以看出,当外部电磁环境发生突变时,电子干扰机能够在极短的时间内快速达到平稳状态,并且参数更新是动态实时连续的。
[0083] 相比于传统的电子干扰方法,本发明提出的基于多智能体协同感知电磁环境的动态电子干扰方法可以实现对全域电磁态势信息的实时感知与信息共享,为后续的智能化电子干扰方式提供决策依据,同时,这些策略依据将指导电子干扰参数的精准连续变化,从而实现与外部电磁环境的“同频共振”。对所公开实例地上述说明,使本领域专业技术人员能够实现或使用本发明。本发明未详细说明部分属于本领域技术人员公知常识。