基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法转让专利
申请号 : CN202010422067.X
文献号 : CN111625019B
文献日 : 2021-11-26
发明人 : 鲜斌 , 韩晓薇 , 蔡佳明
申请人 : 天津大学
摘要 :
权利要求 :
1.一种基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法,其特征在于,该方法具体包括以下步骤:
步骤1,建立四旋翼无人机悬挂空运系统的动力学模型,表达式如下:T 3
其中,q(t)=[y(t),z(t),γ(t)] ∈R表示系统状态向量,y(t),z(t)分别表示四旋翼无人机y,z方向的位移,γ(t)表示悬挂负载的摆角, 分别T 3
表示整个系统的惯性矩阵、向心力矩阵以及重力向量,d(t)=[d1(t),d2(t),dγ(t)]∈R 表示飞行过程中四旋翼无人机悬挂空运系统所受到的未知外界扰动;d1(t),d2(t),dγ(t)表示未知外界扰动在y,z,γ三个方向的分量,R表示实数域;对式(1)进行展开,得到表达式如下:
其中,mq为四旋翼无人机质量 ,mp为悬挂负载质量,l为悬绳长度,g为重力加速度,u(t)T 2
=[uy(t),uz(t)] ∈R为四旋翼无人机随时间变化的升力向量,为控制输入;μy(t),μz(t)分别为四旋翼无人机总升力在y、z方向的分量,进而得到关于悬挂负载的摆角,表达式如下:其中,dγ为悬挂负载在飞行过程中所受的未知外界扰动;
步骤2,进行飞行轨迹规划设计,将四旋翼无人机期望轨迹的加速度 分为以下两个部分:
步骤2‑1、采用基于执行网‑评价网形式的强化学习方法设计期望轨迹的抗扰轨迹:选取 作为等效状态向量,将式(3)整理为非线性仿射系统,具体形式如下:
其中,
为非线性仿射系统的等效输入;
构造状态值函数J(η)作为系统的性能指标函数,表达式如下:其中,Q,R为对称的正常数矩阵;
为实现在整个飞行过程中抑制负载的摆动,根据最优控制原理,针对式(5)需要实现最优的反馈控制状态,以及针对式(6)实现最小化性能指标函数,式(6)的无穷小形式满足如下非线性Lyapunov方程:其中, 为式(6)中的J(η)对η求一阶偏导数;
定义哈密尔顿函数如下:
*
最优状态值函数J(η)定义为:则当输入为最优时,如下HJB方程成立*
假定 存在且唯一,此时,最优输入μ满足下式:将该最优控制策略代入到式(7),得到关于 的HJB方程为:通过求解式(12)得到轨迹规划的最优生成策略,采用执行网‑评价网网络结构实现最优轨迹的逼近,得到最优状态值函数J(η)表示如下:其中,Wc为评价网理想权重矩阵,εc(η)为神经网络近似误差, 为等效状态向量,σ(η)为激励函数,选取双曲正切函数tanh(·)为神经网络激励函数;
分别使用评价网络和执行网络逼近最优值函数和最优控制策略 获得状态值函数的最优解表达式如下
其中, 与 均为Wc的估计值,定义Bellman误差变量e(t)如下:定义以下误差函数
通过对误差函数 与 的迭代使得残差的平方 最小;采用梯度下降法得到评价网络输出权重 更新律为:其中,α1为正常数,
定义 且满足||β2||≤β2M,β3m≤||β3||≤β3M;执行网络输出权重更新律为:
其中,a2为正常数,Ta为正定矩阵;
为保证 的有界性,式(20)中投影算子proj(·)定义如下:其中, 为矩阵 中的元素, 与wij分别表示 的上界和下界;
步骤2‑2、设计定位轨迹:设计四旋翼无人机期望轨迹的加速度 如下:其中, 为相关参数;
式(22)中,定位轨迹部分 用于保证四旋翼无人机准确到达目标位置,因此定位轨迹的选取应满足如下条件:①定位轨迹在有限时间收敛到目标位置,目标位置表示为:yt(t),zt(t)为定位轨迹坐标,pty、ptz为目标位置坐标,t→tf表示在有限时间内;
②定位轨迹满足以下条件:
+
其中,kvy,kay,kjy,kvz,kaz,kjz∈R 为定位轨迹的相关参数,分别为设计的上界;
③设计定位轨迹的初始值为:步骤3、当期望轨迹如式(22)所示形式,且其评价网与执行网的更新律满足式(19)与式(20)时能够保证四旋翼无人机位置、速度、负载摆角以及摆角角速度收敛到一定区域内,从而通过设计执行网‑评价网的神经网络分别对最优策略、最优状态值函数进行逼近。
说明书 :
基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法
技术领域
背景技术
方法利用原非线性系统的微分形式,将原系统的状态空间映射到低维的平滑输出空间中,
是一种能够有效处理非线性欠驱动系统的方法。
采用动态反馈的方法得到四旋翼无人机的运动轨迹。在《基于微分平滑的四旋翼运输系统
轨迹跟踪控制》(2019年《控制理论与应用》,梁晓、胡欲立;第525‑532页)有关于“使用动态
规划算法来获取开环最小摆动轨迹”的记载。建立动力学模型时,研究人员将非线性悬挂负
载的模型视为球面摆,在轨迹附近线性化得到一个线性时变模型,并通过设计自适应控制
器来应对负载摆动对四旋翼无人机重心的影响。“IEEE International Conference on
Robotics and Automation”会议上发表的《Trajectory generation for swing‑free
maneuvers of a quadrotor with suspended payload:a dynamic programming
approach》(Palunko Ivana,Fierro Rafael,Cruz Patricio,2012,2691页‑2697页)。
种约束条件的同时,将增广系统转化为以加速度为控制输入的非线性仿射系统。经过离散
逼近,采用高斯伪谱法将时间最优运动规划问题转化为一个标准的非线性规划问题。最后,
采用序列二次规划方法进行求解。实验结果验证了该方法的有效性和可行性。《Dynamics
analysis and time‑optimal motion planning for unmanned quadrotor
transportation systems》(Mechatronics,Xiao Liang,Yongchun Fang,Ning Sun,2018,
16页‑29页)。
使用专门的特征向量值函数学习得到的最小残余震荡策略。“IEEE International
Conference on Robotics andAutomation”会议上发表的《Learning swing‑free
trajectories for UAVs with a suspended load》(Palunko Ivana,Faust Aleksandra,
Cruz Patricio,Tapia Lydia,Feirro Rafael,2013,4902页‑4909页)。国内研究人员提出
了一种新型的在线轨迹规划方法。基于四旋翼无人机悬挂空运系统的动力学模型,研究人
员在预先给定的定位轨迹的基础上,设计了减摆轨迹生成策略,并通过数值仿真和实际飞
行实验验证期望轨迹的减摆效果。“Chinese Control Conferenc”会议上发表的《An anti‑
swing trajectory approach for an unmanned aerial vehicle with a slung
payload》(Shizhang Wang,Bin Xian,2017,777页‑782页)。
变量信息进行反复迭代训练,运算较为复杂;2)一些轨迹生成策略对模型精度要求较高且
针对外界干扰的鲁棒性较差。3)部分四旋翼无人机悬挂空运系统在线轨迹规划方法应对未
知扰动和不明确因素的抗干扰性能未能进行理论证明与实验验证,因此其实际应有效果仍
有待检验。
发明内容
强化学习实时更新无人机的运动以实现飞行过程对负载摆角的有效抑制,最终设计的期望
轨迹主要包括抗扰轨迹和定位轨迹两个部分。
T
分别表示整个系统的惯性矩阵、向心力矩阵以及重力向量,d(t)=[d1(t),d2(t),dγ(t)] ∈
3
R表示飞行过程中四旋翼无人机悬挂空运系统所受到的未知外界扰动;d1(t),d2(t),dγ(t)
表示未知外界扰动在y,z,γ三个方向的分量,R表示实数域;对式(1)进行展开,得到表达式
如下:
(t)=[uy(t),uz(t)] ∈R 为四旋翼无人机随时间变化的升力向量,为控制输入。μy(t),μz
(t)分别为四旋翼无人机总升力在y、z方向的分量。进而得到关于悬挂负载的摆角,表达式
如下:
式如下:
足如下非线性Lyapunov方程:
经网络激励函数;
内,从而通过设计执行网‑评价网的神经网络分别对最优策略、最优状态值函数进行逼近。
附图说明
具体实施方式
网络的输出层权重,求出HJB方程的近似解,获得最优控制量。
模型,进一步考虑系统受到未知外界扰动,得到下述非线性动力学模型:
T
分别表示整个系统的惯性矩阵、向心力矩阵以及重力向量,d(t)=[d1(t),d2(t),dγ(t)] ∈
3
R表示飞行过程中四旋翼无人机悬挂空运系统所受到的未知外界扰动;d1(t),d2(t),dγ(t)
表示未知外界扰动在y,z,γ三个方向的分量,R表示实数域;对式(1)进行展开,得到表达式
如下:
(t)=[uy(t),uz(t)] ∈R 为四旋翼无人机随时间变化的升力向量,为控制输入;μy(t),μz
(t)分别为四旋翼无人机总升力在y、z方向的分量,进而得到关于悬挂负载的摆角,表达式
如下:
问题主要分为两个方面:针对外界存在未知扰动的情况,通过强化学习策略实时调整四旋
翼无人机的飞行轨迹实现悬挂负载的摆动抑制;通过设计合适的轨迹使四旋翼无人机能够
准确到达目标位置。
位置的同时快速抑制负载摆角的控制实现变得复杂。为保证实现四旋翼无人机能够安全、
精准运输负载,本发明将四旋翼无人机期望轨迹的加速度 分为两个部分:抗扰
部分、定位部分。
整理为非线性仿射系统,具体形式如下(式(5)是式(3)整理为非线性仿射系统后的形式):
足如下非线性Lyapunov方程:
(·)为神经网络激励函数;
当期望轨迹如式(22)所示形式,且其评价网与执行网的更新律满足式(19)与式(20)时能够
保证四旋翼无人机位置、速度、负载摆角以及摆角角速度收敛到一定区域内,从而通过设计
执行网‑评价网的神经网络分别对最优策略、最优状态值函数进行逼近。
的分量。
旋翼无人机滚转角 的的变化曲线。图像中实线代表本文所设计的期望轨迹下无人机悬
挂空运系统的相关实验数据,虚线为定位轨迹下的数据。根据实验图线(3a)和(3b)可以看
出,所设计的期望轨迹下四旋翼无人机可以在较短时间内到达给定目标位置,且在整个飞
行过程中负载摆角摆动较小,抗摆性能明显优于定位轨迹下的飞行效果。
实验。其中,(4a)至(4d)分别为两种轨迹下四旋翼无人机位置(t),z(t)、负载摆角γ(t)、四
旋翼无人机控制输入uy(t),uz(t)以及四旋翼无人机滚转角 的变化曲线。图像中实线
代表本文所设计的期望轨迹下无人机悬挂空运系统的相关实验数据,虚线为定位轨迹下的
数据。从(4a)和(4b)中可以看出所设计的期望轨迹在外界存在未知扰动的情况下仍能保证
四旋翼无人机快速到达目标位置,且在整个飞行过程中四旋翼无人机的悬挂负载摆角变化
明显比定位轨迹下更小。通过本组对比实验可知本文提出的轨迹生成方法对外界未知干扰
具有较强的鲁棒性。
同质量的负载情况下四旋翼无人机位置y(t),z(t)、负载摆角γ(t)、四旋翼无人机控制输
入uy(t),uz(t)以及四旋翼无人机滚转角 的变化曲线。图像中实线代表期望轨迹下负载
质量为0.066kg时无人机悬挂空运系统的相关实验数据,虚线为负载质量为0.131kg时的数
据。由(5a)可知在本文所设计的期望轨迹下负载质量的增加对四旋翼无人机到达目标位置
的调节时间无太大影响。同时由(5b)5中可以看出,在四旋翼无人机沿期望轨迹飞行的过程
中,当负载质量分别为0.066kg、0.131kg时负载摆角的摆动均能保持在较小范围内,负载质
量的改变基本未对期望轨迹的减摆效果产生影响。