基于角色分配的群体分布式控制方法及装置转让专利
申请号 : CN202110922017.2
文献号 : CN113391556B
文献日 : 2021-12-07
发明人 : 丘腾海 , 张天乐 , 蒲志强 , 刘振 , 朱金营 , 易建强 , 常红星
申请人 : 中国科学院自动化研究所
摘要 :
权利要求 :
1.一种基于角色分配的群体分布式控制方法,其特征在于,包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;
将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;
控制所述智能体执行所述动作;
其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出;
所述第一策略网络模型,包括:
环境特征提取层,基于所述观测状态,利用第一策略感知模块提取环境特征;
第一交互特征获取层,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;
角色分析层,基于所述第一交互特征,利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型;所述各智能体的角色类型表示为:
其中,ρi表示所述智能体i的角色类型,ρ表示智能体i的可选角色, 表示组成所述第一策略角色模块的全连接神经网络组成的函数, 表示组成所述第一策略值函数模块的全连接神经网络组成的函数, 表示第一交互特征;
所述第二策略网络模型,包括:
状态特征提取层,基于所述智能体的观测状态,利用第二策略感知模块将所述智能体的观测状态与所述智能体的角色类型结合,获取所述智能体的状态特征;
第二交互特征获取层,基于所述状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;
动作预测层,基于所述第二交互特征,利用第二策略值函数模块和第二策略模块对所述智能体进行状态分析,得到所述智能体对应的动作;所述动作表示为:其中,αi表示所述智能体i的动作,α表示智能体i的可选动作,表示组成所述第二策略模块的全连接神经网络组成的函数, 表示组成所述第二策略值函数模块的全连接神经网络组成的函数,表示第二交互特征。
2.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述第一交互特征表示为:
其中, 表示第一交互特征,Oi表示智能体i的观测状态,表示组成所述第一策略交互模块的全连接神经网络组成的函数, 表示环境特征, 表示局部交互信息。
3.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述智能体i的观测状态Oi表示为:
0 0
其中,Sj表示感知邻居智能体j的状态,N (i)表示智能体i在感知半径D =2.5范围的邻居智能体个数;
所述局部交互信息 表示为:
c c
其中,N (i)表示智能体i在通信半径D =3范围内的邻居智能体个数,i表示第i个智能体,i=1,2,…,n,n表示群体中智能体的总数, 表示通信邻居智能体j的第一交互特征。
4.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述状态特征表示为:
其中,表示智能体的状态特征,f表示多层全连接神经网络函数,表示组成所述第二策略感知模块的全连接神经网络组成的函数,表示智能体i的角色类型。
5.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述第二交互特征表示为:
其中,表示第二交互特征,表示组成所述第二策略交互模块的全连接神经网络组成的函数,表示环境特征, 表示第二网络交互信息。
6.一种基于角色分配的群体分布式控制装置,其特征在于,包括:第一策略网络模型模块,将获取的群体中的智能体的观测状态输入至第一策略网络模型模块中,得到所述第一策略网络模型模块输出的各智能体的角色类型;
第二策略网络模型模块,将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型模块中,得到所述第二策略网络模型模块输出对应所述智能体的动作;
控制所述智能体执行所述动作;
其中,所述第一策略网络模型模块和所述第二策略网络模型模块是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型模块的输入为所述第一策略网络模型模块的输出;
所述第一策略网络模型模块,包括:环境特征提取单元,基于所述观测状态,利用第一策略感知模块提取环境特征;
第一交互特征获取单元,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;
角色分析单元,基于所述第一交互特征,利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型;所述各智能体的角色类型表示为:
其中,ρi表示所述智能体i的角色类型,ρ表示智能体i的可选角色, 表示组成所述第一策略角色模块的全连接神经网络组成的函数, 表示组成所述第一策略值函数模块的全连接神经网络组成的函数, 表示第一交互特征;
所述第二策略网络模型,包括:
状态特征提取单元,基于所述智能体的观测状态,利用第二策略感知模块将所述智能体的观测状态与所述智能体的角色类型结合,获取所述智能体的状态特征;
第二交互特征获取单元,基于所述状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;
动作预测单元,基于所述第二交互特征,利用第二策略值函数模块和第二策略模块对所述智能体进行状态分析,得到所述智能体对应的动作;所述动作表示为:其中,表示所述智能体i的动作,α表示智能体i的可选动作,表示组成所述第二策略模块的全连接神经网络组成的函数, 表示组成所述第二策略值函数模块的全连接神经网络组成的函数,表示第二交互特征。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述基于角色分配的群体分布式控制方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于角色分配的群体分布式控制方法的步骤。
说明书 :
基于角色分配的群体分布式控制方法及装置
技术领域
背景技术
体,共同完成同一个任务,而且智能体都是比较简单,个体能力有限的,比如局部感知、局部
通信和有限的机动能力等。
随着群体中智能体数量的增多面临维数灾难的问题,尤其对于多复杂任务场景要求群体中
各智能体具有多种技能,简单群共享机制的效果不佳。
来分解任务,并定义每个角色智能体的职责,对于动态不确定环境下的群体系统适应性较
差。因此,如何构建具有群体策略扩展性和灵活性,结合先验知识,避免群体维数灾难,使得
群体能够在动态不确定环境下完成群体复杂任务具有深远意义。
发明内容
效果不佳的缺陷,实现动态不确定环境下群体无碰撞的协同控制。
体的角色类型;将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络
模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;控制所述智能体执行
所述动作;其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据
进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。
一交互特征获取层,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块
获得第一交互特征;角色分析层,基于所述第一交互特征,利用第一策略角色模块和第一策
略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型。
全连接神经网络组成的函数。
智能体的观测状态与所述智能体的角色类型结合,获取所述智能体的状态特征;第二交互
特征获取层,基于所述状态特征和第二网络交互信息,利用第二策略交互模块获得第二交
互特征;动作预测层,基于所述第二交互特征,利用第二策略值函数模块和第二策略模块对
所述智能体进行状态分析,得到所述智能体对应的动作。
经网络组成的函数。
述第一策略网络模型模块输出的各智能体的角色类型;第二策略网络模型模块,将所述智
能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型模块中,得到所述第
二策略网络模型模块输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,
所述第一策略网络模型模块和所述第二策略网络模型模块是利用智能体样本数据进行训
练得到的,其中所述第二策略网络模型模块的输入为所述第一策略网络模型模块的输出。
的群体分布式控制方法的步骤。
骤。
色获取群体中各智能体的基本动作,以执行智能体相应角色的所需执行的动作;通过构建
具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二
策略网络模型结构,实现动态不确定环境下群体无碰撞的协同控制。
附图说明
实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附
图获得其他的附图。
具体实施方式
而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳
动前提下所获得的所有其他实施例,都属于本发明保护的范围。
特征;第一交互特征获取层,基于环境特征获取得到的局部交互信息,利用第一策略交互模
块获得第一交互特征;角色分析层,基于第一交互特征,利用第一策略角色模块和第一策略
值函数模块对智能体进行角色分析,得到各智能体的角色类型。
的空间特征。
通过局部交互信息与周围同构智能体协商角色分配,且能够处理不确定智能体数量的信
息。
一策略值函数模块采用策略函数‑评价函数Actor‑Critic架构,利用分布式方法执行。另
外,第一策略值函数模块用于评估第一策略角色模块输出的各智能体的角色类型,第一策
略角色模块作为第一策略,用于选择各智能体的角色类型分配给群体中智能体。
全连接神经网络组成的函数。
略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的,其中第二策略网
络模型的输入为第一策略网络模型的输出。
智能体的观测状态,利用第二策略感知模块将智能体的观测状态与各智能体的角色类型结
合,获取智能体的状态特征;第二交互特征获取层,基于状态特征和第二网络交互信息,利
用第二策略交互模块获得第二交互特征;动作预测层,基于第二交互特征,利用第二策略值
函数模块和第二策略模块对智能体进行状态分析,得到智能体对应的动作。
态特征。
数模块采用策略函数‑评价函数Actor‑Critic架构,利用分布式方法执行。另外,第二策略
值函数模块用于评估第二策略模块输出的动作,第二策略模块作为第二策略,用于选择基
本动作控制所述群体中智能体。
经网络组成的函数。
第一外部奖惩函数表示为:
智能体总数达到要求的为止。
模块用于评估所述第二策略模块输出的动作,所述第二策略模块作为第二策略,用于选择
基本动作控制所述群体中智能体,训练时的第二外部奖惩函数表示为:
为特征被识别出来,表示变分后验估计函数,用于近似估计真是的后验概率,表示智能体
i的轨迹。
息,且角色识别网络的参数更新集为D, ;角色识别网络输出为智能体i的
角色分布概率q ,与所述智能体i的各智能体的角色类型 相结合,用于计算更新交叉熵
损失函数Lq。
传统的TCP/IP网络并列的一种高速网络。它有自己的地址分配和网络管理的体系。
色,共同完成覆盖任务中的1个子区域任务。场景2中覆盖目标点分布较为密集,以便于快速
实现群体协同控制完成覆盖任务,成功覆盖的概率接近100%。与其他方法相比,本发明的方
法进行群体协同控制的成功率等指标均优于现有方法。
行智能体相应角色的所需执行的动作;通过构建具有角色分配的第一策略网络模型结构以
及构建具有基于角色类型分配相应动作的第二策略网络模型结构,实现动态不确定环境下
群体无碰撞的协同控制。
可相互对应参照。
出。
提取环境特征;第一交互特征获取单元,基于环境特征获取得到的局部交互信息,利用第一
策略交互模块获得第一交互特征;角色分析单元,基于第一交互特征,利用第一策略角色模
块和第一策略值函数模块对智能体进行角色分析,得到各智能体的角色类型。
体的观测状态,利用第二策略感知模块将智能体的观测状态与智能体的角色类型结合,获
取智能体的状态特征;第二交互特征获取单元,基于状态特征和第二网络交互信息,利用第
二策略交互模块获得第二交互特征;动作预测单元,基于第二交互特征,利用第二策略值函
数模块和第二策略模块对智能体进行状态分析,得到智能体对应的动作。
网络模型输出的预测角色,进行交叉熵损失函数计算。需要说明的是,通过交叉熵损失函数
收敛,判断训练结束。
总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信。处理器
51可以调用存储器53中的逻辑指令,以执行基于角色分配的群体分布式控制方法,该方法
包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策
略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各智能体的角色
类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动
作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二策略网络模型
是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策
略网络模型的输出。
明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软
件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使
得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例
所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,
Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
指令被计算机执行时,计算机能够执行上述各方法所提供的基于角色分配的群体分布式控
制方法,该方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得
到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各
智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所
述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二
策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入
为所述第一策略网络模型的输出。
制方法,该方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得
到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各
智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所
述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二
策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入
为所述第一策略网络模型的输出。
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。