基于神经元增益调制的机器人运动控制方法、系统、装置转让专利
申请号 : CN202011589016.2
文献号 : CN112731812B
文献日 : 2022-01-28
发明人 : 钟汕林 , 周俊杰 , 乔红 , 吴伟
申请人 : 中国科学院自动化研究所
摘要 :
权利要求 :
1.一种基于神经元增益调制的机器人运动控制方法,其特征在于,该方法包括以下步骤:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
其中,所述受增益调控的循环神经网络动力学模型为:其中,xi(t)表示t时刻的神经元膜电位幅值, 表示xi(t)的一阶导数,Wik∈W,i和k为行列号,f(xk(t), 为受增益调控的神经元发放率函数, 为平移量,rmax为神经元的最大发放频率,xk(t)为第k个神经元在时刻t的神经元膜电位幅值,γ表示形状因子,τ表示循环神经网络中设定的时间尺度常量,N表示神经网络循环层所包含的神经元数量,W表示连接矩阵, 表示t时刻神经元频率‑电流增益, 表示t时刻神经元动作电位阈值,t表示时间,T表示转置;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率‑电流增益;
步骤A80,循环执行步骤A60、A70,直至得到最终训练好的循环神经网络动力学模型。
2.根据权利要求1所述的基于神经元增益调制的机器人运动控制方法,其特征在于,所述连接矩阵W包含N/2个正数列和N/2个负数列,正数列表示兴奋性神经元,负数列表示抑制性神经元;所述正数列的取值为0或 所述负数列的取值为0或其中,N表示神经网络循环层所包含的神经元数量,PW表示神经元的连接概率,φ、ρ为设定的常量。
3.根据权利要求2所述的基于神经元增益调制的机器人运动控制方法,其特征在于,所述能量函数为:
其中,ε()表示能量函数,a表示设定的网络初始状态,s表示松弛变量,T表示转置,τ表示循环神经网络中设定的时间尺度常量,t表示时间,I为单位矩阵,Q(W,s)表示矩阵积分项。
4.根据权利要求3所述的基于神经元增益调制的机器人运动控制方法,其特征在于,步骤A40中“采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系”,其方法为:
μC=0.5(GU‑GL)
其中, 表示t时刻神经元频率‑电流增益, 表示t时刻神经元动作电位阈值, 表示正常情况下神经元的增益幅度, 是神经元动作电位阈值的下界,对应于神经元频率‑电流增益上界GU, 是神经元动作电位阈值的上界,对应于神经元频率‑电流增益下界GL,ζ表示引起神经元产生神经元信号值的频率强度。
5.根据权利要求4中所述的基于神经元增益调制的机器人运动控制方法,其特征在于,“结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值”,其方法为:
xi(t)=τ·Wfi(θT)
fi(θT)=rmax·exp(K(cos(θT‑θi)‑1))其中,K表示神经元对方向偏差敏感度常数,θT表示目标运动方向,θi表示神经元的电活动强度。
6.根据权利要求5中所述的基于神经元增益调制的机器人运动控制方法,其特征在于,步骤A70中“更新神经元的动作电位阈值”,其方法为:rhe rhe rhe
I (t)=I (t‑1)+ΔI (t)其中, 表示t‑1时刻、t时刻更新后的神经元动作电位阈值,表示奖励函数值, 表示t‑1时刻的奖励信号值,ξ(t)为一个随机数。
7.一种基于神经元增益调制的机器人运动控制系统,其特征在于,该系统包括:获取模块、控制模块;
所述获取模块,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;
所述控制模块,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
其中,所述受增益调控的循环神经网络动力学模型为:其中,xi(t)表示t时刻的神经元膜电位幅值, 表示xi(t)的一阶导数,Wik∈W,i和k为行列号,f(xk(t), 为受增益调控的神经元发放率函数, 为平移量,rmax为神经元的最大发放频率,xk(t)为第k个神经元在时刻t的神经元膜电位幅值,γ表示形状因子,τ表示循环神经网络中设定的时间尺度常量,N表示神经网络循环层所包含的神经元数量,W表示连接矩阵, 表示t时刻神经元频率‑电流增益, 表示t时刻神经元动作电位阈值,t表示时间,T表示转置;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率‑电流增益;
步骤A80,循环执行步骤A60、A70,直至得到最终训练好的循环神经网络动力学模型。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1‑6任一项所述的基于神经元增益调制的机器人运动控制方法。
9.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1‑6任一项所述的基于神经元增益调制的机器人运动控制方法。
说明书 :
基于神经元增益调制的机器人运动控制方法、系统、装置
技术领域
背景技术
构化环境中,与人类工作人员保持安全距离,难以真正实现与人的协同合作。而相比而言,
人类的运动结构经过长期进化,拥有完备的肌肉骨骼系统以及发达的运动神经系统,使其
能够实现极其柔顺、灵巧、精准的高效运动。其中大脑运动皮层能够在保持结构不变的情况
下,通过激素的调节作用,使神经网络产生丰富的瞬态响应,从而支持生物完成轨迹、速度、
力量不同的运动任务。这一特点赋予了人类在复杂动态环境中灵活、鲁棒、自适应的运动能
力。而这一特性正是当前机器人控制领域的关键瓶颈问题,因此,通过深入研究人类躯体运
动结构和神经控制机理,将有望为设计响应更快、鲁棒性更好的机器人智能控制算法带来
重要启发。基于此,本发明提出了一种基于神经元增益调制的机器人运动控制方法。
发明内容
益调制的机器人运动控制方法,该方法包括:
行求导优化;
的连接权重和偏置常量;
阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制
信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
数列的取值为0或
分项。
应于神经元频率‑电流增益上界GU, 是神经元动作电位阈值的上界,对应于神经元频率‑
电流增益下界GL,ζ表示引起神经元产生神经元信号值的频率强度。
移量,rmax为神经元的最大发放频率,xk(t)为,γ表示形状因子。
计算神经元膜电位幅值”,其方法为:
行求导优化;
的连接权重和偏置常量;
阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制
信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
现上述的基于神经元增益调制的机器人运动控制方法。
器人运动目标编码为循环神经网络中神经元的初始状态,通过调节网络循环层神经元的增
益系数调节网络输出控制信号,实现机器人对给定复杂运动的自主学习。提高了机器人运
动控制的鲁棒性、自适应性。
种不同类型的机器人系统对复杂运动的学习。
附图说明
具体实施方式
是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前
提下所获得的所有其他实施例,都属于本发明保护的范围。
于描述,附图中仅示出了与有关发明相关的部分。
行求导优化;
的连接权重和偏置常量;
阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制
信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
述。
为:
保证网络中没有孤立节点存在。
个元素的取值为0或 其中,ω0的计算方法如公式(2)所示:
行求导优化;
科学相关研究,即神经元电活动强度,取决于该神经元的偏好方向与生物体意图运动方向
间的偏差相关,当意图运动方向与偏好方向一致,该神经元的活动最强。
小的正数。
本发明中可建模为频率‑电流增益增强并逐渐趋近于上界;反之,当神经元动作电位阈值升
高时,神经元对于强输入电流也只能够产生较弱的动作电位输出频率,但受到神经元细胞
膜两侧存在离子浓度差使离子沿浓度梯度流动,因此减弱幅度存在下限,在本发明中可建
模为频率‑电流增益减弱并逐渐趋近于下界。综上所述,本发明采用双曲正切函数来建模神
经元动作电位阈值与频率‑电流增益之间的计算关系,如式(9)所示:
元动作电位阈值的下界,对应于神经元增益上界GU, 是神经元动作电位阈值的上界,对应于
神经元增益下界GL, μC=0.5(GU‑GL),
为了简洁表达,下文中将 简写为Gk。
的连接权重和偏置常量;
层的维度。xi(t) 和 分别表示兴奋性神经元的神经元膜电位幅值和频率‑电流增益。给定
一个以θf为运动方向、 为控制信号的机器人运动控制演示样本,即训练样本,
其中Nc=L为机器人系统的控制维度,NT为控制时长,计算步骤得到网络输出的控制量of。利
用最小二乘法计算输出层神经元连接权重向量J和b,使网络输出of拟合演示样本df。
阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制
信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
样本运动结束时机器人末端参考点所在位置坐标。即目标位置,di为控制信号标签。
式计算:
其中,参数均值 和参数方差 可以利用极大似然估计根据奖励
序列 计算得到。则奖励熵(即奖励函数)可以通过下式计算:
行求导优化;
的连接权重和偏置常量;
阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制
信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,
上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描
述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各
个模块或者步骤,不视为对本发明的不当限定。
基于神经元增益调制的机器人运动控制方法。
此不再赘述。
限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计
算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便
携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储
器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、
或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程
序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本
申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,
其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限
于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可
读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于
由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的
程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述
的任意合适的组合。
+,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可
以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、
部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。
在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)
或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务
提供商来通过因特网连接)。
表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用
于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标
注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上
可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注
意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执
行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令
的组合来实现。
其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些
更改或替换之后的技术方案都将落入本发明的保护范围之内。