一种多智能体同步控制方法、设备及存储设备转让专利
申请号 : CN201910731427.1
文献号 : CN110554604B
文献日 : 2021-07-09
发明人 : 陈鑫 , 符浩
申请人 : 中国地质大学(武汉)
摘要 :
权利要求 :
1.一种多智能体同步控制方法,应用于多智能体同步控制系统中;所述一种多智能体同步控制系统包括:多个跟随者智能体和一个领导者智能体;其特征在于:所述一种多智能体同步控制方法,具体包括以下步骤:S101:构建观测网络对领导者智能体的动力学模型进行实时估计,得到各跟随者智能体对领导者智能体的动力学模型的估计;
步骤S101中,采用BP神经网络构建观测网络,逼近领导者智能体动力学模型;具体公式如公式(1)所示:
上式中, 表示跟随者智能体i在t时刻对领导者智能体的动力学模型的估计; 表示跟随者智能体i在t时刻对领导者智能体状态的估计,且 的初始值为预设值 表示观测网络t时刻的隐藏层到输出层的权值,且wb1(t)~wbN(t)均相等,N为跟随者智能体的总个数,且wbi(t)的初始值为预设值wbi(0); 表示观测网络的输入层到隐藏层的权值,为预设值;σbi(·)表示观测网络的激活函数,采用Hyperbolic Tangent函数,n为各跟随者智能体跟随领导者智能体同步运动的实际状态维数,hbi为观测网络的隐藏层个数,根据实际情况预设;
S102:根据所述观测网络和所述多智能体同步控制系统的实际有向通信拓扑网络结构,构建神经网络自适应分布式状态观测器,以对领导者智能体的状态进行实时估计,得到各跟随者智能体对领导者智能体状态的估计;
步骤S102中,构建的神经网络自适应分布式状态观测器具体如公式(2)所示:上式中, 为跟随者智能体i在t+1时刻对领导者智能体状态的估计; 为跟随者智能体i在上一时刻,即t时刻对领导者智能体的动力学模型的估计;
表示跟随者智能体i在t时刻的局部领域观测估计误差,为摄动信号;aij为所述多智能体同步控制系统的实际有向通信拓扑网络结构的邻接矩阵参数,bi为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者智n×n
能体通向智能体i的权重参数;i=1,2,…,N,N表示跟随者智能体总个数,k1,i∈R 表示所述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益,为预设值;x0(t)为领导者智能体在t时刻的实际状态;
S103:根据所述神经网络自适应分布式状态观测器,针对各跟随者智能体分别构建执行网络和评价网络,并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入;
步骤S103中,采用BP神经网络逼近理想执行网络的输出,执行网络的具体公式如公式(3)所示:
上式中,ui(t)表示执行网络的输出,即跟随者智能体i在t时刻的最优控制输入,为跟随者智能体i的执行网络在t时刻的输入;xi(t)为跟随者智能体i在t时刻的实际状态; 表示跟随者智能体i的执行网络在t时刻隐藏层到输出层的权值; 表示跟随者智能体i的执行网络的输入层到隐藏层的权值,为预设值,σai(·)表示执行网络的激活函数,采用Hyperbolic Tangent函数;hai为隐藏层个数,为预设值;
S104:采用观测网络的权值更新率对观测网络隐藏层到输出层的权值进行更新,采用执行网络的权值更新率对执行网络隐藏层到输出层的权值进行更新,采用评价网络的权值更新率对评价网络隐藏层到输出层的权值进行更新;
S105:根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制,得到各跟随者智能体的系统状态,进而返回步骤S101,以进行下一时刻的多智能体同步控制;如此循环迭代,以实现多智能体的同步控制。
2.如权利要求1所述的一种多智能体同步控制方法,其特征在于:步骤S103中,所述评价网络的构建过程如下:
S201:定义待优化的性能指标函数,如公式(4)所示:上式中, 表示跟随者智能体i在t时刻的奖励,γ为设计参数,Nr为最终时间常数,εr表示为设定的阈值;γ、Nr和εr均为预设值;
S202:采用BP神经网络逼近理想最优性能指标函数,以构建评价网络,评价网络的具体公式如公式(5)所示:
上式中, 为评价网络的输入, 表示跟随者智能体i的评价网络在t时刻隐藏层到输出层的权值, 表示跟随者智能体i的评价网络的输入层到隐藏层的权值,为预设值;σci(·)表示评价网络的激活函数,采用Hyperbolic Tangent函数;hci为隐藏层个数,为预设值。
3.如权利要求2所述的一种多智能体同步控制方法,其特征在于:步骤S104中,观测网络的权值更新率的具体公式如公式(6)所示:上式中,wbi(t)表示观测网络上一时刻的隐藏层到输出层的权值;ηb表示观测网络的学n×n
习率;k2,i∈R 为对称增益矩阵,αb∈R为设计参数;ηb、k2,i和αb均为预设值,且ηb>0;
表示跟随者智能体i在t时刻的局部领域观测估计误差的转置。
4.如权利要求3所述的一种多智能体同步控制方法,其特征在于:步骤S104中,执行网络的权值更新率的具体公式如公式(7)所示:n×n
上式中,ηai>0表示执行网络的学习率,为预设值;k3,i∈R 为设计常数;
T n
Jc(t)=[0 0 … 0]∈R ;
5.如权利要求4所述的一种多智能体同步控制方法,其特征在于:步骤S104中,评价网络的权值更新率的具体公式如公式(8)所示:上式中, ηci>0为评价网络的学习率,为预设值。
6.一种存储设备,其特征在于:所述存储设备存储指令及数据用于实现权利要求1~5所述的任意一种多智能体同步控制方法。
7.一种多智能体同步控制设备,其特征在于:包括:处理器及存储设备;所述处理器加载并执行存储设备中的指令及数据用于实现权利要求1~5所述的任意一种多智能体同步控制方法。
说明书 :
一种多智能体同步控制方法、设备及存储设备
技术领域
背景技术
由于领导者‑跟随者智能体模式是同步控制或最优同步控制中一种较为简便和可靠的控制
模式,所以本发明也是采用这一模式。
某个物理量与领导者智能体趋于同步,比如飞行器追踪的目标、编队控制中的队形或者集
会问题中的目的地等。或者说多智能体的同步行为使得系统中每个个体行为都能随着时间
的推移而最终都趋于领导者智能体的行为。
跟随者智能体行为趋于领导者智能体行为的要求,而且可以实现具体的最优性能指标要
求。这将有效实现多智能设备之间协同,并保证控制过程中协调性能得到优化,推动复杂大
规模系统控制的向前发展,并为工业、农业、国防军事等方面的多智能体设备提供更高效的
技术支持。
的方式进行控制,所以以离散时间系统或者离散化的系统的为对象的控制更为符合实际控
制要求。目前多智能体最优同步控制研究主要局限于已知积分器或线性系统的研究。然而,
对异构非线性系统的研究相对较少,特别是离散时间系统和无模型控制的情况下。因此,本
发明充分考虑实际研究问题,提出一种面向离散时间非线性异构多智能体系统的无模型最
优同步控制方法。
发明内容
制系统包括:多个跟随者智能体和一个领导者智能体;一种多智能体同步控制方法,主要包
括以下步骤:
到各跟随者智能体对领导者智能体状态的估计;
制输入;
权值更新率对评价网络下一时刻隐藏层到输出层的权值进行更新;
如此循环迭代,以实现多智能体的同步控制。
值为预设值 表示观测网络t时刻的隐藏层到输出层的权值,且wb1(t)~
wbN(t)均相等,N为跟随者智能体的总个数,且wbi(t)的初始值为预设值wbi(0); 表
示观测网络的输入层到隐藏层的权值,为预设值;σbi(·)表示观测网络的激活函数,采用
Hyperbolic Tangent函数,n为各跟随者智能体跟随领导者智能体同步运动的系统状态维
数,hbi为观测网络的隐藏层个数,根据实际情况预设。
表示跟随者智能体i在t时刻的局部领域观
测估计误差,为摄动信号;aij为所述多智能体同步控制系统的实际有向通信拓扑网络结构
的邻接矩阵参数,bi为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者
n×n
智能体通向智能体i的权重参数;i=1,2,…,N,N表示跟随者智能体总个数,k1,i∈R 表示
所述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益,为预设值。
者智能体i在t时刻的实际状态; 表示跟随者智能体i的执行网络在t时刻隐藏
层到输出层的权值; 表示跟随者智能体i的执行网络的输入层到隐藏层的权值,
为预设值,σai(·)表示执行网络的激活函数,采用Hyperbolic Tangent函数;hai为隐藏层
个数,为预设值。
表示跟随者智能体i的评价网络的输入层到隐藏层的权值,为预设值;σci(·)表示评价网络
的激活函数,采用Hyperbolic Tangent函数;hci为隐藏层个数,为预设值。
的学习率;k2,i∈R 为对称增益矩阵,αb∈R为设计参数;ηb、k2,i和αb均为预设值,且ηb>0;
表示跟随者智能体i在t时刻的局部领域观测估计误差的转置。
Jc(t)=[0 0 … 0]∈R;
应用价值和高优越的控制品质,对解决当前领域的技术研究所存在问题具有重要意义。
附图说明
具体实施方式
统包括:多个跟随智能体和一个领导者智能体;
到各跟随者智能体对领导者智能体状态的估计;
制输入;
权值更新率对评价网络隐藏层到输出层的权值进行更新;
如此循环迭代,以实现多智能体的同步控制。
值为预设值 表示观测网络t时刻的隐藏层到输出层的权值,且wb1(t)~
wbN(t)均相等,N为跟随者智能体的总个数,且wbi(t)的初始值为预设值wbi(0);
表示观测网络的输入层到隐藏层的权值,为预设值;σbi(·)表示观测网络的激活函数,采用
Hyperbolic Tangent函数,n为各跟随者智能体跟随领导者智能体同步运动的系统状态维
数,hbi为观测网络的隐藏层个数,根据实际情况预设。
表示跟随者智能体i在t时刻的局部领域观测
估计误差,为摄动信号;aij为所述多智能体同步控制系统的实际有向通信拓扑网络结构的
邻接矩阵参数,bi为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者智
n×n
能体通向智能体i的权重参数;i=1,2,…,N,N表示跟随者智能体总个数,k1,i∈R 表示所
述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益,为预设值。
能体i在t时刻的实际状态; 表示跟随者智能体i的执行网络在t时刻隐藏层到输
出层的权值; 表示跟随者智能体i的执行网络的输入层到隐藏层的权值,为预设
值,σai(·)表示执行网络的激活函数,采用Hyperbolic tangent函数;hai为隐藏层个数,为
预设值。
能体i的评价网络的输入层到隐藏层的权值,为预设值;σci(·)表示评价网络的激活函数,
采用Hyperbolic Tangent函数;hci为隐藏层个数,为预设值。(通常实现最优控制问题的方
式是求解贝尔曼方程。对于无模型的非线性系统而言,贝尔曼方程求解是极其困难的。为
此,基于神经网络的万能逼近特性,在本发明实施例中,采用神经网络逼近值函数的方式解
决这个问题。)
的学习率;k2,i∈R 为对称增益矩阵,αb∈R为设计参数;ηb、k2,i和αb均为预设值,且ηb>0;
表示跟随者智能体i在t时刻的局部领域观测估计误差的转置。
Jc(t)=[0 0 … 0]∈R ;
能体N,实现多智能体系统的最优同步控制,即跟随者的行为以最优的方式同步于领导者的
行为,当所有跟随者智能体i的输出均满足条件xi(t)‑x0(t)→0且 收敛时,实现最优同
步控制;当实现最优同步控制后,再循环的各权值将调整很小或者不再变化;当系统停止
时,停止循环迭代。
的BP神经网络结构。这些网络的激活函数都采用Hyperbolic tangent函数。初始权值随机
地在‑1到1之间取值。初始状态在‑1到‑2之间随机取值。另外其他参数的取值参看下表:
k1,2 ‑0.15 k2,2 0.4 k3,2 0.25 ηb 0.1
k1,3 ‑0.45 k2,3 0.1 k3,3 0.25 αb 0.001
ηc,i 0.0001 ηa,i 0.005 εr 0.02 ‑ ‑
多机械手等。而当前的技术研究大多数近似考虑系统为线性系统,显然这是严重偏离实际
问题的研究。而且,这类系统在实际应用中是很难获得其精确的动力学模型。那么,以动力
学模型为基础的现有控制方法在实际中很难实现。另外,在现有技术当中并未考虑控制系
统的最优控制性能,所以本发明具有更高的控制品质。最后,当前技术主要集中于连续时间
系统,但是这类系统的控制方法不利于应用数字计算机的控制。
领域的技术研究所存在问题具有重要意义。