一种基于人在回路的多机器人系统的决策建模与协同控制方法及系统转让专利

申请号 : CN202010648652.1

文献号 : CN111596691B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄捷吴文华王武齐义文柴琴琴林琼斌李卓敏

申请人 : 福州大学

摘要 :

本发明涉及一种基于人在回路的多机器人系统的决策建模与协同控制方法及系统,包括步骤:获取机器人执行任务后的输出信息值,选择机器人位置偏差信息作为人的决策信息;使用人的漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模;设计人为决策任务,在机器人无法依赖自主控制系统完成任务的时候,执行人为决策任务,帮助机器人顺利完成任务。本发明将漂移扩散模型与基于零空间的行为控制方法相结合,提出人的漂扩散模型,通过速度‑准确性准则得到相对应的决策阈值公式,该方法能够提高人的决策准确性。

权利要求 :

1.一种基于人在回路的多机器人系统的决策建模与协同控制方法,其特征在于,包括以下步骤:

获取机器人执行任务后的输出信息值,选择机器人位置偏差信息作为人的决策信息;

使用人的漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模;

设计人为决策任务,在机器人无法依赖自主控制系统完成任务的时候,执行人为决策任务,帮助机器人顺利完成任务;

所述使用人的漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模具体为:

将机器人位置偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息作为漂移率,对基于行为控制的人机交互系统中人的决策行为建模:

式中, 是第j个机器人的位置偏差量, 是第j个机器人的速度偏差量,W(t)是标准维纳过程,σj是维纳过程中的标准差;其中,所述机器人的速度偏差信息为预设速度与机器人实际速度的偏差;

为了获得准确的人为决策时机,设定人的决策阈值,人为决策信息随着时间不断演化,当人为决策信息演化到预设阈值时,需要从人的行为集中选择人的某个行为,人为决策阈值设置如下:

式中, Cj是常数增益, 是人为决策阈值, 表示初始位置偏差。

2.根据权利要求1所述的一种基于人在回路的多机器人系统的决策建模与协同控制方法,其特征在于,所述机器人执行的任务包括运动到目标点任务和避障任务;运动到到目标点任务是由机器人团队向目标点的移动来定义的,一旦每个机器人到达各自目标点,多机器人系统就会停止;当运动到目标点过程中存在障碍物时,避障任务的目的是保持机器人与障碍物的安全距离,若机器人与障碍物之间的距离小于预设的安全距离时进行避障。

3.根据权利要求1所述的一种基于人在回路的多机器人系统的决策建模与协同控制方法,其特征在于,所述机器人位置偏差信息为机器人实际位置与预设位置的偏差。

4.根据权利要求3所述的一种基于人在回路的多机器人系统的决策建模与协同控制方法,其特征在于,所述机器人位置偏差信息采用基于零空间的行为控制方法得到。

5.根据权利要求1所述的一种基于人在回路的多机器人系统的决策建模与协同控制方法,其特征在于,所述设计人为决策任务具体为:当人为决策信息到达阈值时,操作者作出人为决策,设计人的行为集,包括监视和干预两种行为,监视的过程中不对机器人产生子任务输入,干预任务设计如下:式中,vh是人的干预任务的速度输出量, 是人的干预任务中的雅克比伪逆矩阵, 是期望人的干预任务的微分,Λh是人的干预任务增益, 是人的干预任务偏差。

6.根据权利要求1所述的一种基于人在回路的多机器人系统的决策建模与协同控制方法,其特征在于,所述在机器人无法依赖自主控制系统完成任务的时候,执行人为决策任务,帮助机器人顺利完成任务; 具体为:将人为决策任务中的干预任务设置为最高优先级任务,原机器人自主执行任务投影到人的干预任务的零空间中,最后得到机器人在人的干预下的速度输出指令:

式中,vj是第j个机器人在人的干预下的速度输出指令, 表示人的干预任务的零空间矩阵,vh是人的干预任务的速度输出量,vrj是机器人任务的总输出。

7.根据权利要求1所述的一种基于人在回路的多机器人系统的决策建模与协同控制方法,其特征在于:其决策建模与协同控制系统包括机器人输出信息采集模块、人为决策行为建模模块、协同任务控制模块,

所述输出信息采集模块获取机器人执行任务后的输出信息值,选择机器人位置偏差信息作为人的决策信息,并将人的决策信息传输至认为决策行为建模模块;

所述人为决策行为建模模块使用人的漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模;

所述协同任务控制模块设计人为决策任务,在机器人无法依赖自主控制系统完成任务的时候,执行人为决策任务,帮助机器人顺利完成任务。

8.一种基于人在回路的多机器人系统的决策建模与协同控制系统,其特征在于,包括处理器、存储器以及存储于存储器上并能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如权利要求1‑7任一项所述的方法步骤。

9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1‑7任一项所述的方法步骤。

说明书 :

一种基于人在回路的多机器人系统的决策建模与协同控制方

法及系统

技术领域

[0001] 本发明涉及机器人应用技术领域,特别是一种基于人在回路的多机器人系统的决策建模与协同控制方法及系统。

背景技术

[0002] 在过去的十年中,多机器人系统由于其松散耦合的网络结构而备受关注,机器人可以通过相互作用来解决单个机器人无法解决的问题。在多机器人系统中,机器人编队是
机器人协同执行任务的控制方法之一。行为控制作为编队控制技术之一,能够实现多机器
人系统的分布式控制,具有灵活避障等优点,但传统行为控制方法不能保证编队控制的稳
定性,为此,采用基于零空间的行为控制方法,该方法的数学模型能实现编队稳定,但由于
缺少人的监视和干预使得该行为控制方法在部分情况下无法消除任务冲突,无法保证任务
顺利执行。
[0003] 因此,为了更好实现编队控制和提高编队稳定性能,需要引入人为干预。当前人与多机器人交互已经在基于领航跟随者等编队控制方法和人机交互控制框架等应用领域取
得成功,但它们缺乏精确的人的模型。

发明内容

[0004] 有鉴于此,本发明的目的是提出一种基于人在回路的多机器人系统的决策建模与协同控制方法及系统,将漂移扩散模型与基于零空间的行为控制方法相结合,提出人的漂
扩散模型,通过速度‑准确性准则得到相对应得决策阈值公式,该方法能够提高人的决策准
确性。
[0005] 本发明采用以下方案实现:一种基于人在回路的多机器人系统的决策建模与协同控制方法,具体包括以下步骤:
[0006] 获取机器人执行任务后的输出信息值,选择机器人位置偏差信息作为人的决策信息;
[0007] 使用人的漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模;
[0008] 设计人为决策任务,在机器人无法依赖自主控制系统完成任务的时候,执行人为决策任务,帮助机器人顺利完成任务。
[0009] 进一步地,所述机器人执行的任务包括运动到目标点任务和避障任务;运动到到目标点任务是由机器人团队向目标点的移动来定义的,一旦每个机器人到达目标点,多机
器人系统就会停止;当运动到目标点过程中存在障碍物时,避障任务的目的是保持机器人
与障碍物的安全距离,若机器人与障碍物之间的距离小于预设的安全距离时进行避障。
[0010] 进一步地,所述机器人位置偏差信息为机器人实际位置与预设位置的偏差。
[0011] 进一步地,所述机器人位置偏差信息采用基于零空间的行为控制方法得到。
[0012] 进一步地,所述使用人的漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模具体为:
[0013] 将机器人位置偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息作为漂移率,对基于行为控制的人机交互系统中人的决策
行为建模:
[0014]
[0015] 式中, 是第j个机器人的位置偏差量, 是第j个机器人的速度偏差量,W(t)是标准维纳过程,σj是维纳过程中的标准差;其中,所述机器人的速度偏差信息为预设速度与机
器人实际速度的偏差;
[0016] 为了获得准确的人为决策时机,设定人的决策阈值,人为决策信息随着时间不断演化,当人为决策信息演化到预设阈值时,需要从人的行为集中选择人的某个行为,人为决
策阈值设置如下:
[0017]
[0018] 式中, Cj是常数增益, 是人为决策阈值, 表示初始位置偏差。
[0019] 进一步地,所述设计人为决策任务具体为:
[0020] 当人为决策信息到达阈值时,操作者作出人为决策,设计人的行为集,包括监视和干预两种行为,监视的过程中不对机器人产生子任务输入,干预任务设计如下:
[0021]
[0022] 式中,vh是人的干预任务的速度输出量, 是人的干预任务中的雅克比伪逆矩阵,是期望人的干预任务的微分,Λh是人的干预任务增益, 是人的干预任务偏差。
[0023] 进一步地,所述在机器人无法依赖自主控制系统完成任务的时候,执行人为决策任务,帮助机器人顺利完成任务具体为:将人为决策任务中的干预任务设置为最高优先级
任务,原机器人自主执行任务投影到人的干预任务的零空间中,最后得到机器人在人的干
预下的速度输出指令:
[0024]
[0025] 式中,vj是第j个机器人在人的干预下的速度输出指令, 表示人的干预任务的零空间矩阵,vh是人的干预任务的速度输出量。
[0026] 本发明还提供了一种基于人在回路的多机器人系统的决策建模与协同控制系统,包括机器人输出信息采集模块、人为决策行为建模模块、协同任务控制模块,
[0027] 所述输出信息采集模块获取机器人执行任务后的输出信息值,选择机器人位置偏差信息作为人的决策信息,并将人的决策信息传输至认为决策行为建模模块;
[0028] 所述人为决策行为建模模块使用人的漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模;
[0029] 所述协同任务控制模块设计人为决策任务,在机器人无法依赖自主控制系统完成任务的时候,执行人为决策任务,帮助机器人顺利完成任务。
[0030] 本发明还提供了另外一种基于人在回路的多机器人系统的决策建模与协同控制系统,包括处理器、存储器以及存储于存储器上并能够被处理器运行的计算机程序,当处理
器运行该计算机程序时,能够实现如上文所述的方法步骤。
[0031] 本发明还提供了一种计算机可读存储介质,其上存储有计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。
[0032] 与现有技术相比,本发明有以下有益效果:本发明针对人与多机器人系统中人的决策问题,通过将传统漂移扩散模型和基于零空间的行为控制方法相结合,提出人的漂移
扩散模型,适用于人与多机器人系统中实现对人的决策行为进行建模,为了获得准确的决
策时机,基于人的漂移扩散模型,提出人与多机器人交互系统中人的决策阈值设定公式,当
人的决策信息到达决策阈值时,人进行决策,该方法能够有效的提高人的决策准确性和提
高决策速度。当人进行决策后选择进行人为干预,提出将人的干预指令通过基于零空间的
行为控制方法设计为人为干预任务,并且将人为干预任务设计为具有最高优先级,使机器
人能够快速识别并完全执行人为干预任务。

附图说明

[0033] 图1为本发明实施例的方法原理示意图。
[0034] 图2为本发明实施例的人机交互中机器人轨迹图。
[0035] 图3为本发明实施例的人机交互中人的决策信息演化图。

具体实施方式

[0036] 下面结合附图及实施例对本发明做进一步说明。
[0037] 应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常
理解的相同含义。
[0038] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式
也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包
括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0039] 本实施例提供了一种基于人在回路的多机器人系统的决策建模与协同控制方法,本实施例使用三个四旋翼无人机和四个警示杆作为障碍物进行举例说明。其中四旋翼无人
机作为移动机器人(以下简称机器人),若干警示杆模拟环境中的障碍物(以下简称障碍
物)。四旋翼无人机上装备GPS定位器和传感器具体包括以下步骤:
[0040] 获取机器人执行任务后的输出信息值,选择机器人位置偏差信息作为人的决策信息;
[0041] 使用人的漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模;
[0042] 设计人为决策任务,在机器人无法依赖自主控制系统完成任务的时候,执行人为决策任务,帮助机器人顺利完成任务。
[0043] 在本实施例中,所述机器人执行的任务包括运动到目标点任务和避障任务;运动到到目标点任务是由机器人团队向目标点的移动来定义的,一旦每个机器人到达目标点,
多机器人系统就会停止;所以,设计运动到目标点任务函数与机器人位置相关。当运动到目
标点过程中存在障碍物时,避障任务的目的是保持机器人与障碍物的安全距离,假设安全
距离为D,设计避障任务函数是通过机器人与障碍物之间的距离与安全距离实时对比,若机
器人与障碍物之间的距离小于预设的安全距离时进行避障。
[0044] 在本实施例中,所述机器人位置偏差信息为机器人实际位置与预设位置的偏差。基于行为控制的多机器人系统中,机器人在执行运动到目标点任务和避障任务时,机器人
任务输出的反馈信息包含机器人位置信息,机器人速度信息,机器人位置偏差信息,机器人
速度偏差信息,机器人与障碍物间的距离信息等多种信息,需要将反馈信息进行分类,用于
人的决策信息选择。机器人任务输出的反馈信息中存在部分类型信息可直接反应机器人任
务执行进度,比如机器人位置偏差信息(实际位置与预设位置的偏差),而其余信息则无法
反应任务执行进度(机器人与障碍物的距离信息),所以选择机器人位置偏差信息作为人的
决策信息选择。
[0045] 在本实施例中,所述机器人位置偏差信息采用基于零空间的行为控制方法得到。利用基于零控制的行为控制方法将机器人的运动到目标点行为和避障行为设计为任务。运
动到目标点行为是跟机器人的位置相关,设计其目标函数为机器人的目标点,当机器人运
动到目标点时候停止运动,所以运动到目标点任务设计为:
[0046]
[0047] 式中,vmj是第j个机器人运动到目标点任务的速度输出, 是运动到目标点任务雅可比矩阵的伪逆,Λmj是运动到目标点任务增益, 表示运动到目标
点期望任务函数的偏导,ρmdj表示运动到目标点期望任务函数,ρmj表示运动到目标点任务函
数。
[0048] 避障行为跟机器人与障碍物之间的距离相关,通过设定机器人的安全避障距离,当机器人与障碍物的距离小于安全避障距离时,执行避障任务。避障任务为:
[0049]
[0050] 式中,vaj是第j个机器人避障任务的速度输出, 是避障任务雅可比矩阵的伪逆,Λaj是避障任务增益, 表示避障任务期望函数,ρaj表示避障任务函数。
[0051] 根据图1,对运动到目标点任务和避障任务的输出进行融合,由于机器人的安全性至关重要,所以设定机器人避障任务作为机器人任务的高优先级,而运动到目标点任务作
为次优先级任务,将运动到目标点的任务输出投影到避障任务输出的零空间 得
到机器人任务的总输出:
[0052]
[0053] 式中,vrj是人的干预任务的速度输出量, 是人的避障任务的零空间。
[0054] 在本实施例中,所述使用人的漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模具体为:
[0055] 将传统漂移扩散模型与基于零空间的行为控制方法结合,建立人的漂移扩散模型,将由基于零空间的行为控制方法得到的机器人位置偏差信息作为人的决策信息,为反
映决策信息在单位时间内的变化量,采用机器人的速度偏差信息作为漂移率,对基于行为
控制的人机交互系统中人的决策行为建模:
[0056]
[0057] 式中, 是第j个机器人的位置偏差量, 是第j个机器人的速度偏差量,W(t)是标准维纳过程,σj是维纳过程中的标准差;其中,所述机器人的速度偏差信息为预设速度与机
器人实际速度的偏差;
[0058] 为了获得准确的人为决策时机,根据BayesRisk的速度‑准确性准则,通过对人的决策产生的成本函数最小化得到人的决策阈值设定公式,实现速度和准确性最优,成本函
数为:
[0059] B=c1jTj+c2jEj;
[0060] 式中,c1j是人的决策时间内产生的成本,c2j是人的决策失误产生的成本,Tj是决策时间,Ej表示决策偏差,
[0061]
[0062]
[0063] 式中, 是初始位置偏差。
[0064] 设定人的决策阈值,人为决策信息随着时间不断演化,当人为决策信息演化到预设阈值时,需要从人的行为集中选择人的某个行为,人为决策阈值设置如下:
[0065]
[0066] 式中, Cj是常数增益, 是人为决策阈值。
[0067] 在本实施例中,所述设计人为决策任务具体为:
[0068] 当人为决策信息到达阈值时,操作者作出人为决策,设计人的行为集,本实施例中人的行为集包括人的监督行为和人为干预行为,由于监督行为并不对机器人产生任务输
入,所以针对人为干预行为设计任务。根据图1可知,人为干预任务被设定为最高优先级任
务,机器人任务的速度输出需要投影到人为干预任务的零空间上,保证人为干预任务的完
全执行。根据图2实例,当机器人2在避障过程中发现新的障碍物,此时机器人2与障碍物2的
距离等于机器人2与新发现障碍物的距离,此时机器人2陷入局部极值点问题,使得机器人2
依靠自主控制系统无法解决,根据图3可知,由于机器人2在陷入极值点过程中,位置偏差信
息不断演化到达决策阈值,此时需要进行人的决策选择人为干预行为。人在监督机器人执
行任务时发现障碍物2与新发现障碍物之间的距离大于机器人2本体的宽度,所以人为干预
任务被设计为运动到新目标点,有:
[0069]
[0070] 式中,vh是人的干预任务的速度输出量, 是人的干预任务中的雅克比伪逆矩阵,是期望人的干预任务的微分,Λh是人的干预任务增益, 是人的干预任务偏差。
[0071] 在本实施例中,所述在机器人无法依赖自主控制系统完成任务的时候,执行人为决策任务,帮助机器人顺利完成任务具体为:设计后的人的干预任务与机器人自主执行任
务相同,都能被机器人快速识别执行,将人为决策任务中的干预任务设置为最高优先级任
务,原机器人自主执行任务投影到人的干预任务的零空间中,最后得到机器人在人的干预
下的速度输出指令:
[0072]
[0073] 式中,vj是第j个机器人在人的干预下的速度输出指令, 表示人的干预任务的零空间矩阵,vh是人的干预任务的速度输出量。
[0074] 本实施例还提供了一种基于人在回路的多机器人系统的决策建模与协同控制系统,包括机器人输出信息采集模块、人为决策行为建模模块、协同任务控制模块,
[0075] 所述输出信息采集模块获取机器人执行任务后的输出信息值,选择机器人位置偏差信息作为人的决策信息,并将人的决策信息传输至认为决策行为建模模块;
[0076] 所述人为决策行为建模模块使用人的漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模;
[0077] 所述协同任务控制模块设计人为决策任务,在机器人无法依赖自主控制系统完成任务的时候,执行人为决策任务,帮助机器人顺利完成任务。
[0078] 本实施例还提供了另外一种基于人在回路的多机器人系统的决策建模与协同控制系统,包括处理器、存储器以及存储于存储器上并能够被处理器运行的计算机程序,当处
理器运行该计算机程序时,能够实现如上文所述的方法步骤。
[0079] 本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。
[0080] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产
品的形式。
[0081] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0082] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
[0083] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
[0084] 以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等
效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所
作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。