一种未知伺服系统的强化学习最优跟踪控制方法转让专利

申请号 : CN201910295400.2

文献号 : CN109946975B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 任雪梅吕永峰李慧超李林伟

申请人 : 北京理工大学

摘要 :

本发明主要涉及模型未知伺服系统的强化学习最优跟踪控制器的设计方法。主要基于简化的强化学习评价‑执行结构,应用高阶神经网络逼近方法,介绍模型未知伺服系统的强化学习最优跟踪控制器的设计方法,加快电机最优跟踪控制求解速度。针对模型未知的伺服系统,首先应用多层神经网络智能辨识系统模型,求解稳态控制;给定性能指标,应用高阶神经网络逼近最优性能指标函数;根据近似的性能指标函数和辨识的系统模型建立哈密尔顿‑雅克比‑贝尔曼(HJB)方程,求得伺服系统最优反馈控制。根据求得的稳态控制和最优反馈控制,计算最优跟踪控制,使负载转角和转速快速跟踪给定信号的同时,跟踪误差积累值和系统能耗同时达到最小。

权利要求 :

1.一种未知伺服系统的强化学习最优跟踪控制方法,其特征在于:包括以下步骤:步骤一、对被控电机伺服系统进行分析,并按照机理建模方法,根据电机的结构和物理定律,建立含摩擦的电机驱动伺服系统的数学模型;建立该模型的目的是为了更好理解电机系统的特性,使设计的辨识器与建立的系统模型误差为零,进而基于辨识器设计最优跟踪控制器;所述数学模型如下:其中,q表示系统角位置,表示系统的角速度,表示系统的角加速度,J表示电机惯量,K1和K2为系统动态参数,u为输入电压,T为伺服系统摩擦、扰动和负载的总和,即T=Tf+Td+TL           (2)其中,Tf表示系统的摩擦力矩,Td表示系统的扰动力矩,TL表示系统的负载力矩;

步骤二、在上述电机系统模型未知的情况下,基于三层神经网络对系统进行逼近,并利用梯度下降法对神经网络权重参数进行估计;

隐层的激活函数为h(z)=tanh(z),输出层为线性激活函数,则n0-n1-n2神经网络的输入输出关系可以表示为:di=h(υi)               (4)其中,i和j为正整数;为步骤一建立的数学模型 的神经网络辨识器,ωij为隐层第i个神经元对输入层第j个神经元的权值,xj为神经网络输入元素, θi为隐层第i个神经元的阈值,υi为隐层第i个神经元的输入,di为隐层第i个神经元的输出,为输出层对隐层第i个神经元的权值,定义n0=2,n1=5,n2=1;

ωij、θi和 的更新律表示为

为ωij的更新值, 为 的更新值,为θ的更新值;

步骤三、基于辨识系统,设计稳态控制,并给定性能指标,用强化学习高阶神经网络逼近性能指标函数,求解近似最优控制,根据稳态控制和近似最优控制设计模型未知电机的最优跟踪控制器;

对于电机转角和转速,给定跟踪状态qd,定义跟踪误差 为了实现对电机转速的控制,稳态控制器可设计为其中, 表示电机模型的近似动态特性, 为电机系统输入动态特性的伪逆;给定性能指标为

其中 根据跟踪误差和近似最优控制确定,由近似最优控制ue和状态跟踪误差e组成,Q和R分别是维数与e和ue相匹配的正定对称矩阵;

针对逼近的神经网络辨识系统设计近似最优控制ue使得性能指标函数最小;因此,定义哈密尔顿函数为:其中 则V(e)*可以用一个高阶神经网络构逼近为:V(e)*=W1Tφ(e)+εV(e)            (12)其中, 表示理想的神经网络权值, 表示神经网络基函数向量,k表示神经网络隐含层神经元个数;其中各元素激活函数的高次连接为dk(j)为非负整数,σ(e)为sigmoid函数;式对跟踪误差e的偏微分如下所示:其中, 表示φ(e)对e的偏微分, 表示εV(e)对e的偏微分;则的近似式表示为

则HJB方程表示为

其中,em表示哈密尔顿雅可比方程误差;设计神经网络的权值 使得下列目标函数E最小,设目标函数为:使用最速下降法来在线更新神经网络的权值

其中,η>0表示神经网络的学习速率,

令 得到ue表达式如下:

根据和,最优跟踪控制策略u(t)可以设计为:u(t)=ud+ue               (20)。

说明书 :

一种未知伺服系统的强化学习最优跟踪控制方法

技术领域

[0001] 本发明涉及一种未知伺服系统的强化学习最优跟踪控制方法,属于智能控制技术领域。

背景技术

[0002] 现今针对伺服系统的控制方式主要是PID控制。为了达到更好的控制效果,自适应控制、滑模控制、自抗扰控制等控制方法被用来控制伺服系统。这些控制方法不仅要求伺服系统动态已知,而且在伺服系统跟踪给定信号的过程中,耗能较大,即不能使跟踪性能达到最优。

发明内容

[0003] 本发明的目的是为了解决现有方法在伺服系统跟踪给定信号的过程中耗能大的问题,提供一种未知伺服系统的强化学习最优跟踪控制方法。该方法基于强化学习方法,应用神经网络和自适应算法,逼近哈密尔顿-雅克比-贝尔曼(HJB,Hamilton-Jacobi-Bellman)方程的最优解,计算得到模型未知伺服系统的最优跟踪控制,保证系统稳定运行的同时,跟踪性能最优化、系统耗能最小。
[0004] 本发明的目的是通过下述技术方案实现的。
[0005] 一种未知伺服系统的强化学习最优跟踪控制方法,包括以下步骤:
[0006] 步骤一、对被控电机伺服系统进行分析,并按照机理建模方法,根据电机的结构和物理定律,建立含摩擦的电机驱动伺服系统的数学模型。建立该模型的目的是为了更好理解电机系统的特性,使设计的辨识器与建立的系统模型误差为零,进而基于辨识器设计最优跟踪控制器。所述数学模型如下:
[0007]
[0008] 其中,q表示系统角位置,表示系统的角速度,表示系统的角加速度,J表示电机惯量,K1和K2为系统动态参数,u为输入电压,T为伺服系统摩擦、扰动和负载的总和,即[0009] T=Tf+Td+TL   (2)
[0010] 其中,Tf表示系统的摩擦力矩,Td表示系统的扰动力矩,TL表示系统的负载力矩。
[0011] 步骤二、在上述电机系统模型未知的情况下,基于三层神经网络对系统进行逼近,并利用梯度下降法对神经网络权重参数进行估计。
[0012] 隐层的激活函数为h(z)=tanh(z),输出层为线性激活函数,则n0-n1-n2神经网络的输入输出关系可以表示为:
[0013]
[0014] di=h(υi)   (4)
[0015]
[0016] 其中,i和j为正整数。 为步骤一建立的数学模型 的神经网络辨识器,ωij为隐层第i个神经元对输入层第j个神经元的权值,θi为隐层第i个神经元的阈值,υi为隐层第i个神经元的输入,di为隐层第i个神经元的输出,ωi2为输出层对隐层第i个神经元的权值,本发明定义n0=2,n1=5,n2=1。
[0017] ωij、θi和ωi2的更新律表示为
[0018]
[0019]
[0020]
[0021] 为ωij的更新值, 为ωi2的更新值,为θ的更新值。
[0022] 步骤三、基于辨识系统,设计稳态控制,并给定性能指标,用强化学习高阶神经网络逼近性能指标函数,求解近似最优控制,根据稳态控制和近似最优控制设计模型未知电机的最优跟踪控制器。
[0023] 对于电机转角和转速,给定跟踪状态qd,定义跟踪误差 为了实现对电机转速的控制,稳态控制器可设计为
[0024]
[0025] 其中, 表示电机模型的近似动态特性, 为电机系统输入动态特性的伪逆。给定性能指标为
[0026]
[0027] 其中 根据跟踪误差和近似最优控制确定,由近似最优控制ue和状态跟踪误差e组成,Q和R分别是维数与e和ue相匹配的正定对称矩阵。
[0028] 针对逼近的神经网络辨识系统设计近似最优控制ue使得性能指标函数最小。因此,定义哈密尔顿函数为:
[0029]
[0030] 其中 则V(e)*可以用一个高阶神经网络构逼近为:
[0031] V(e)*=W1Tφ(e)+εV(e)   (12)
[0032] 其中, 表示理想的神经网络权值, 表示神经网络基函数向量,k表示神经网络隐含层神经元个数。其中各元素激活函数的高次连接为[0033]
[0034] dk(j)为非负整数,σ(e)为sigmoid函数。式对跟踪误差e的偏微分如下所示:
[0035]
[0036] 其中, 表示φ(e)对e的偏微分, 表示εV(e)对e的偏微分。则的近似式表示为
[0037]
[0038] 则HJB方程表示为
[0039]
[0040] 其中,em表示哈密尔顿雅可比方程误差。设计神经网络的权值 使得下列目标函数E最小,设目标函数为:
[0041]
[0042] 使用最速下降法来在线更新神经网络的权值
[0043]
[0044] 其中,η>0表示神经网络的学习速率, 令得到ue表达式如下:
[0045]
[0046] 根据和,最优跟踪控制策略u(t)可以设计为:
[0047] u(t)=ud+ue   (20)
[0048] 有益效果
[0049] 1、本发明所提出的多层神经网络辨识方法能够对物理模型未知的电机伺服系统实现较精确的智能建模。
[0050] 2、本发明所提出的最优跟踪控制方法,能够使系统在时域上的跟踪误差和最小的同时,系统耗能最小。
[0051] 3、本发明所设计最优跟踪控制器,能使伺服系统跟踪速度快、时间短,系统稳定性能较强。

附图说明

[0052] 图1为本发明的电机最优跟踪控制系统结构图;
[0053] 图2为辨识神经网络估计权值
[0054] 图3为辨识神经网络估计权值
[0055] 图4为辨识神经网络估计阈值
[0056] 图5为系统辨识误差;
[0057] 图6为评价神经网络的权值 参数;
[0058] 图7为伺服系统跟踪预定轨迹的跟踪效果图;
[0059] 图8为跟踪误差;
[0060] 图9最优跟踪控制策略。

具体实施方式

[0061] 已知条件:电机伺服系统用在电动智能机器人各关节。关节按照预定目标轨迹转动,需要设计控制器。传统的PID控制器、滑模控制器会使关节转动过程出现超调抖动,能耗较大等问题。为使关节转动过程平稳,耗能最小,从而延长电池耐用时间,本发明通过求解最优控制,最小化包含跟踪误差和输入的性能指标,达到关节运行过程中积累误差最优、能耗最小的目的。
[0062] 一种未知伺服系统的强化学习最优跟踪控制方法,包括以下步骤:
[0063] 步骤一、按照机理建模方法,根据电机的结构和物理定律,建立含摩擦的电机驱动伺服系统的数学模型,具体如下:
[0064]
[0065] 其中,q表示系统角位置,表示系统的角速度,表示系统的角加速度,J表示电机惯量,K1和K2为系统动态参数,u为输入电压,T为伺服系统摩擦、扰动和负载的总和,即[0066] T=Tf+Td+TL   (22)
[0067] 其中,Tf表示系统的摩擦力矩,Td表示系统的扰动力矩,TL表示系统的负载力矩。
[0068] 步骤二、在上述电机系统模型未知的情况下,基于三层神经网络对系统进行逼近,并利用梯度下降法对神经网络权重参数进行估计。
[0069] 隐层的激活函数为h(z)=tanh(z),输出层为线性激活函数,则n0-n1-n2神经网络的输入输出关系可以表示为:
[0070]
[0071] di=h(υi)   (24)
[0072]
[0073] 其中,i和j为正整数。 为神经网络辨识器,ωij为隐层第i个神经元对输入层第j个神经元的权值,θi为隐层第i个神经元的阈值,υi为隐层第i个神经元的输入,di为隐层第i个神经元的输出,ωi2为输出层对隐层第i个神经元的权值, 本发明定义n0=2,n1=5,n2=1。
[0074] 各权值更新表示为
[0075]
[0076]
[0077]
[0078] 为ωij的更新值, 为ωi2的更新值,为θ的更新值。
[0079] 步骤三、基于辨识系统,设计稳态控制,并给定性能指标,用强化学习神经网络逼近性能指标函数,求解近似最优控制,根据稳态控制和近似最优控制设计模型未知电机的最优跟踪控制器。
[0080] 对于电机转角和转速,给定跟踪状态qd,定义跟踪误差 为了实现对电机转速的控制,稳态控制器可设计为
[0081]
[0082] 其中, 表示电机模型的近似动态特性, 为电机系统输入动态特性的伪逆。给定性能指标为
[0083]
[0084] 其中 根据跟踪误差和近似最优控制确定,由近似最优控制ue和状态跟踪误差e组成,Q和R分别是维数与e和ue相匹配的正定对称矩阵。
[0085] 针对逼近的神经网络辨识系统设计近似最优控制ue使得性能指标函数最小。因此,定义哈密尔顿函数为:
[0086]
[0087] 其中 则V(e)*可以用一个神经网络构逼近为:
[0088] V(e)*=W1Tφ(e)+εV(e)   (32)
[0089] 其中, 表示理想的神经网络权值, 表示神经网络基函数向量,k表示神经网络隐含层神经元个数。其中各元素激活函数的高次连接为[0090]
[0091] dk(j)为非负整数,σ(e)为sigmoid函数。式对跟踪误差e的偏微分如下所示:
[0092]
[0093] 其中, 表示φ(e)对e的偏微分, 表示εV(e)对e的偏微分。则的近似式表示为
[0094]
[0095] 则HJB方程表示为
[0096]
[0097] 设计神经网络的权值 使得下列目标函数E最小:
[0098]
[0099] 使用最速下降法来在线更新神经网络的权值 表示为:
[0100]
[0101] 其中,η>0表示神经网络的学习速率,
[0102] 令 得到ue表达式如下:
[0103]
[0104] 根据和,最优跟踪控制策略u(t)可以设计为:
[0105] u(t)=ud+ue   (40)
[0106] 仿真结果
[0107] 对上述处理结果进行仿真验证。假设伺服系统动力学模型为:
[0108]
[0109] 其中 , 表 示摩 擦力 矩 ,预定 的跟 踪 轨迹设 为 :首先对伺服系统进行在线辨识。BP神经网络中,隐含层对输入层神经网
络权值参数初始值设置为W(0)=[0.7818 0.9186;-0.7014-0.4850;0.6286-0.5130;-
2
0.6068-0.4978;-0.2967 0.6617],输出层对隐含层神经网络权值参数初始值设置为W (0)=[0.8344-0.4283 0.5144 0.5075-0.2351]T,隐含层神经元的阈值初始值设置为θ(0)=[0.5 0.5 0.5 0.5 0.5]T。图2为辨识神经网络估计权值 图3为辨识神经网络估计权值ωi2,图4为辨识神经网络估计阈值 图5为系统辨识误差。
[0110] 用一个评价神经网络逼近性能指标函数,使用最速下降法进行权值更新,评价神3 2 T
经网络的激励函数选择为φ(e)=[3S(e),2S (e),S(e)] ,S(x)表示Sigmoid函数。在仿真中,将仿真参数设置如下:学习因子η=0.1,神经网络权值参数初值为W1(0)=[0,0,0]T,初始状态设置为 求解近似最优反馈控制ue时,所估计的评价神经网络的权值参数如图6所示,可以得出神经网络权值收敛。图7表示伺服系统跟踪预定轨迹的跟踪效果图,图8表示跟踪误差,由仿真图可知所提出的最优跟踪控制策略能够使伺服系统跟踪上预定轨迹。图9所示为最优跟踪控制策略。
[0111] 本发明针对系统模型未知伺服系统,根据发明中提出的基于强化学习的辨识-评价方法,应用一种自适应梯度算法,能够对未知伺服系统模型精确辨识,对基于跟踪误差的性能指标精确逼近,进而求得伺服系统的最优跟踪控制输入。通过仿真可以看出,本发明具有良好的控制性能和较强的实用价值。