基于神经元增益调制的机器人运动控制方法、系统、装置转让专利

申请号 : CN202011589016.2

文献号 : CN112731812B

文献日 : 2022-01-28

相似专利: 请登录后查看

本发明属于机器人技术领域，具体涉及一种基于神经元增益基元组合优化的机器人运动控制方法、系统、装置，旨在现有的机器人运动控制方法在复杂动态环境中控制鲁棒性、自适应性较差的问题。本方法包括获取机器人待运动的目标位置及运动方向，作为输入数据；基于输入数据，通过预构建的循环神经网络动力学模型得到对应的控制信号，并控制机器人移动。本发明提高了机器人运动控制的鲁棒性、自适应性。

1.一种基于神经元增益调制的机器人运动控制方法，其特征在于，该方法包括以下步骤：

步骤S10，获取机器人待运动的目标位置及运动方向，作为输入数据；

步骤S20，基于所述输入数据，通过预构建的循环神经网络动力学模型得到对应的控制信号，并控制机器人移动；

其中，所述循环神经网络动力学模型其构建及训练方法为：步骤A10，初始化循环神经网络的连接矩阵；

步骤A20，基于所述连接矩阵、设定的松弛变量和网络初始状态，构建循环神经网络的能量函数；结合所述连接矩阵中特征值的最大实部、所述能量函数，对所述连接矩阵进行求导优化；

步骤A30，初始化循环神经网络的神经元集群编码层；

步骤A40，采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系，作为第一关系；

步骤A50，基于所述第一关系、优化的连接矩阵，结合神经元膜电位幅值，构建受增益调控的循环神经网络动力学模型；并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量；

其中，所述受增益调控的循环神经网络动力学模型为：其中，xi(t)表示t时刻的神经元膜电位幅值，表示xi(t)的一阶导数，Wik∈W，i和k为行列号，f(xk(t)，为受增益调控的神经元发放率函数，为平移量，rmax为神经元的最大发放频率，xk(t)为第k个神经元在时刻t的神经元膜电位幅值，γ表示形状因子，τ表示循环神经网络中设定的时间尺度常量，N表示神经网络循环层所包含的神经元数量，W表示连接矩阵，表示t时刻神经元频率‑电流增益，表示t时刻神经元动作电位阈值，t表示时间，T表示转置；

步骤A60，获取ND组训练样本；结合神经元的电活动强度，通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码；编码后，结合所述优化的连接矩阵，计算神经元膜电位幅值，并通过所述受增益调控的循环神经网络动力学模型，得到控制信号，作为预测信号；所述训练样本包括目标位置、目标运动方向及对应的控制信号标签；

步骤A70，计算所述预测信号与控制信号标签的误差，并通过预构建的奖励函数，更新神经元的动作电位阈值以及频率‑电流增益；

步骤A80，循环执行步骤A60、A70，直至得到最终训练好的循环神经网络动力学模型。

2.根据权利要求1所述的基于神经元增益调制的机器人运动控制方法，其特征在于，所述连接矩阵W包含N/2个正数列和N/2个负数列，正数列表示兴奋性神经元，负数列表示抑制性神经元；所述正数列的取值为0或所述负数列的取值为0或其中，N表示神经网络循环层所包含的神经元数量，PW表示神经元的连接概率，φ、ρ为设定的常量。

3.根据权利要求2所述的基于神经元增益调制的机器人运动控制方法，其特征在于，所述能量函数为：

其中，ε()表示能量函数，a表示设定的网络初始状态，s表示松弛变量，T表示转置，τ表示循环神经网络中设定的时间尺度常量，t表示时间，I为单位矩阵，Q(W，s)表示矩阵积分项。

4.根据权利要求3所述的基于神经元增益调制的机器人运动控制方法，其特征在于，步骤A40中“采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系”，其方法为：

μC＝0.5(GU‑GL)

其中，表示t时刻神经元频率‑电流增益，表示t时刻神经元动作电位阈值，表示正常情况下神经元的增益幅度，是神经元动作电位阈值的下界，对应于神经元频率‑电流增益上界GU，是神经元动作电位阈值的上界，对应于神经元频率‑电流增益下界GL，ζ表示引起神经元产生神经元信号值的频率强度。

5.根据权利要求4中所述的基于神经元增益调制的机器人运动控制方法，其特征在于，“结合神经元的电活动强度，通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码；编码后，结合所述优化的连接矩阵，计算神经元膜电位幅值”，其方法为：

xi(t)＝τ·Wfi(θT)

fi(θT)＝rmax·exp(K(cos(θT‑θi)‑1))其中，K表示神经元对方向偏差敏感度常数，θT表示目标运动方向，θi表示神经元的电活动强度。

6.根据权利要求5中所述的基于神经元增益调制的机器人运动控制方法，其特征在于，步骤A70中“更新神经元的动作电位阈值”，其方法为：rhe rhe rhe

I (t)＝I (t‑1)+ΔI (t)其中，表示t‑1时刻、t时刻更新后的神经元动作电位阈值，表示奖励函数值，表示t‑1时刻的奖励信号值，ξ(t)为一个随机数。

7.一种基于神经元增益调制的机器人运动控制系统，其特征在于，该系统包括：获取模块、控制模块；

所述获取模块，配置为获取机器人待运动的目标位置及运动方向，作为输入数据；

所述控制模块，配置为基于所述输入数据，通过预构建的循环神经网络动力学模型得到对应的控制信号，并控制机器人移动；

其中，所述循环神经网络动力学模型其构建及训练方法为：步骤A10，初始化循环神经网络的连接矩阵；

步骤A30，初始化循环神经网络的神经元集群编码层；

步骤A40，采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系，作为第一关系；

步骤A70，计算所述预测信号与控制信号标签的误差，并通过预构建的奖励函数，更新神经元的动作电位阈值以及频率‑电流增益；

步骤A80，循环执行步骤A60、A70，直至得到最终训练好的循环神经网络动力学模型。

8.一种存储装置，其中存储有多条程序，其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1‑6任一项所述的基于神经元增益调制的机器人运动控制方法。

9.一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1‑6任一项所述的基于神经元增益调制的机器人运动控制方法。

基于神经元增益调制的机器人运动控制方法、系统、装置

技术领域

[0001] 本发明属于机器人技术领域，具体涉及一种基于神经元增益调制的机器人运动控制方法、系统、装置。

背景技术

[0002] 能够快速、鲁棒、自适应地执行灵巧的运动是机器人广泛应用的重要前提。但是，现有的机器人技术在通用性方面依然差强人意。具有刚性结构的机器人系统通常工作在结
构化环境中，与人类工作人员保持安全距离，难以真正实现与人的协同合作。而相比而言，
人类的运动结构经过长期进化，拥有完备的肌肉骨骼系统以及发达的运动神经系统，使其
能够实现极其柔顺、灵巧、精准的高效运动。其中大脑运动皮层能够在保持结构不变的情况
下，通过激素的调节作用，使神经网络产生丰富的瞬态响应，从而支持生物完成轨迹、速度、
力量不同的运动任务。这一特点赋予了人类在复杂动态环境中灵活、鲁棒、自适应的运动能
力。而这一特性正是当前机器人控制领域的关键瓶颈问题，因此，通过深入研究人类躯体运
动结构和神经控制机理，将有望为设计响应更快、鲁棒性更好的机器人智能控制算法带来
重要启发。基于此，本发明提出了一种基于神经元增益调制的机器人运动控制方法。

发明内容

[0003] 为了解决现有技术中的上述问题，即为了解决现有的机器人运动控制方法在复杂动态环境中控制鲁棒性、自适应性较差的问题，本发明第一方面，提出了一种基于神经元增
益调制的机器人运动控制方法，该方法包括：

[0004] 步骤S10，获取机器人待运动的目标位置及运动方向，作为输入数据；

[0005] 步骤S20，基于所述输入数据，通过预构建的循环神经网络动力学模型得到对应的控制信号，并控制机器人移动；

[0006] 其中，所述循环神经网络动力学模型其构建及训练方法为：

[0007] 步骤A10，初始化循环神经网络的连接矩阵；

[0008] 步骤A20，基于所述连接矩阵、设定的松弛变量和网络初始状态，构建循环神经网络的能量函数；结合所述连接矩阵中特征值的最大实部、所述能量函数，对所述连接矩阵进
行求导优化；

[0009] 步骤A30，初始化循环神经网络的神经元集群编码层；

[0010] 步骤A40，采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系，作为第一关系；

[0011] 步骤A50，基于所述第一关系、优化的连接矩阵，结合神经元膜电位幅值，构建受增益调控的循环神经网络动力学模型；并利用最小二乘法拟合循环神经网络神经元到输出层
的连接权重和偏置常量；

[0012] 步骤A60，获取ND组训练样本；结合神经元的电活动强度，通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码；编码后，结合所述优化的连接矩
阵，计算神经元膜电位幅值，并通过所述受增益调控的循环神经网络动力学模型，得到控制
信号，作为预测信号；所述训练样本包括目标位置、目标运动方向及对应的控制信号标签；

[0013] 步骤A70，计算所述预测信号与控制信号标签的误差，并通过预构建的奖励函数，更新神经元的动作电位阈值以及频率‑电流增益；

[0014] 步骤A80，循环执行步骤A60、A70，直至得到最终训练好的循环神经网络动力学模型。

[0015] 在一些优选的实施方式中，所述连接矩阵W包含N/2个正数列和N/2个负数列，正数列表示兴奋性神经元，负数列表示抑制性神经元；所述正数列的取值为0或所述负
数列的取值为0或

[0016]

[0017] 其中，N表示神经网络循环层所包含的神经元数量，PW表示神经元的连接概率，φ、ρ为设定的常量。

[0018] 在一些优选的实施方式中，所述能量函数为：

[0019]

[0020] 其中，ε()表示能量函数，a表示设定的网络初始状态，s表示松弛变量，T表示转置，τ表示循环神经网络中设定的时间尺度常量，t表示时间，I为单位矩阵，Q(W，s)表示矩阵积
分项。

[0021] 在一些优选的实施方式中，步骤A40中“采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系”，其方法为：：

[0022]

[0023]

[0024]

[0025] μC＝0.5(GU‑GL)

[0026]

[0027] 其中，表示t时刻神经元频率‑电流增益，表示t时刻神经元动作电位阈值，表示正常情况下神经元的增益幅度，是神经元动作电位阈值的下界，对
应于神经元频率‑电流增益上界GU，是神经元动作电位阈值的上界，对应于神经元频率‑
电流增益下界GL，ζ表示引起神经元产生神经元信号值的频率强度。

[0028] 在一些优选的实施方式中，所述受增益调控的循环神经网络动力学模型为：

[0029]

[0030]

[0031] 其中，xi(t)表示t时刻的神经元膜电位幅值，表示xi(t)的一阶导数，Wik∈W，i和k为行列号，f(xk(t)，为受增益调控的神经元发放率函数，为平
移量，rmax为神经元的最大发放频率，xk(t)为，γ表示形状因子。

[0032] 在一些优选的实施方式中，“结合神经元的电活动强度，通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码；编码后，结合所述优化的连接矩阵，
计算神经元膜电位幅值”，其方法为：

[0033] xi(t)＝τ·Wfi(θT)

[0034] fi(θT)＝rmax·exp(K(cos(θT‑θi)‑1))

[0035] 其中，K表示神经元对方向偏差敏感度常数，θT表示目标运动方向，θi表示神经元的电活动强度。

[0036] 在一些优选的实施方式中，步骤A70中“更新神经元的动作电位阈值”，其方法为：

[0037]

[0038] Irhe(t)＝Irhe(t‑1)+ΔIrhe(t)

[0039]

[0040] 其中，表示t‑1时刻、t时刻更新后的神经元动作电位阈值，表示奖励函数值，表示t‑1时刻的奖励信号值，ξ(t)为一个随机数。

[0041] 本发明的第二方面，提出了一种基于神经元增益调制的机器人运动控制系统，该系统包括：获取模块、控制模块；

[0042] 所述获取模块，配置为获取机器人待运动的目标位置及运动方向，作为输入数据；

[0043] 所述控制模块，配置为基于所述输入数据，通过预构建的循环神经网络动力学模型得到对应的控制信号，并控制机器人移动；

[0044] 其中，所述循环神经网络动力学模型其构建及训练方法为：

[0045] 步骤A10，初始化循环神经网络的连接矩阵；

[0046] 步骤A20，基于所述连接矩阵、设定的松弛变量和网络初始状态，构建循环神经网络的能量函数；结合所述连接矩阵中特征值的最大实部、所述能量函数，对所述连接矩阵进
行求导优化；

[0047] 步骤A30，初始化循环神经网络的神经元集群编码层；

[0048] 步骤A40，采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系，作为第一关系；

[0049] 步骤A50，基于所述第一关系、优化的连接矩阵，结合神经元膜电位幅值，构建受增益调控的循环神经网络动力学模型；并利用最小二乘法拟合循环神经网络神经元到输出层
的连接权重和偏置常量；

[0050] 步骤A60，获取ND组训练样本；结合神经元的电活动强度，通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码；编码后，结合所述优化的连接矩
阵，计算神经元膜电位幅值，并通过所述受增益调控的循环神经网络动力学模型，得到控制
信号，作为预测信号；所述训练样本包括目标位置、目标运动方向及对应的控制信号标签；

[0051] 步骤A70，计算所述预测信号与控制信号标签的误差，并通过预构建的奖励函数，更新神经元的动作电位阈值以及频率‑电流增益；

[0052] 步骤A80，循环执行步骤A60、A70，直至得到最终训练好的循环神经网络动力学模型。

[0053] 本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并执行以实现上述的基于神经元增益调制的机器人运动控制方法。

[0054] 本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实
现上述的基于神经元增益调制的机器人运动控制方法。

[0055] 本发明的有益效果：

[0056] 本发明提高了机器人运动控制的鲁棒性、自适应性。

[0057] 本发明基于神经科学中生物能够在保持大脑结构相对稳定的情况下可通过激素调制神经元增益而快速产生丰富的运动模式这一实验观察，利用神经集群编码理论，将机
器人运动目标编码为循环神经网络中神经元的初始状态，通过调节网络循环层神经元的增
益系数调节网络输出控制信号，实现机器人对给定复杂运动的自主学习。提高了机器人运
动控制的鲁棒性、自适应性。

[0058] 另外，本发明可以在保持神经网络连接权重不变的情况下，通过调节增益系数实现对演示运动的学习，可实现包括轮式机器人、关节型机器人、类人肌肉骨骼型机器人等多
种不同类型的机器人系统对复杂运动的学习。

附图说明

[0059] 通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

[0060] 图1是本发明一种实施例的基于神经元增益调制的机器人运动控制方法的流程示意图；

[0061] 图2是本发明一种实施例的基于神经元增益调制的机器人运动控制系统的框架示意图；

[0062] 图3是本发明一种实施例的循环神经网络动力学模型的构建过程的流程示意图；

[0063] 图4是本发明一种实施例的循环神经网络动力学模型的训练过程的流程示意图。

具体实施方式

[0064] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不
是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前
提下所获得的所有其他实施例，都属于本发明保护的范围。

[0065] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便
于描述，附图中仅示出了与有关发明相关的部分。

[0066] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

[0067] 本发明的一种基于神经元增益调制的机器人运动控制方法，如图1所示，该方法包括：

[0068] 步骤S10，获取机器人待运动的目标位置及运动方向，作为输入数据；

[0069] 步骤S20，基于所述输入数据，通过预构建的循环神经网络动力学模型得到对应的控制信号，并控制机器人移动；

[0070] 其中，所述循环神经网络动力学模型其构建及训练方法为：

[0071] 步骤A10，初始化循环神经网络的连接矩阵；

[0072] 步骤A20，基于所述连接矩阵、设定的松弛变量和网络初始状态，构建循环神经网络的能量函数；结合所述连接矩阵中特征值的最大实部、所述能量函数，对所述连接矩阵进
行求导优化；

[0073] 步骤A30，初始化循环神经网络的神经元集群编码层；

[0074] 步骤A40，采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系，作为第一关系；

[0075] 步骤A50，基于所述第一关系、优化的连接矩阵，结合神经元膜电位幅值，构建受增益调控的循环神经网络动力学模型；并利用最小二乘法拟合循环神经网络神经元到输出层
的连接权重和偏置常量；

[0076] 步骤A60，获取ND组训练样本；结合神经元的电活动强度，通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码；编码后，结合所述优化的连接矩
阵，计算神经元膜电位幅值，并通过所述受增益调控的循环神经网络动力学模型，得到控制
信号，作为预测信号；所述训练样本包括目标位置、目标运动方向及对应的控制信号标签；

[0077] 步骤A70，计算所述预测信号与控制信号标签的误差，并通过预构建的奖励函数，更新神经元的动作电位阈值以及频率‑电流增益；

[0078] 步骤A80，循环执行步骤A60、A70，直至得到最终训练好的循环神经网络动力学模型。

[0079] 为了更清晰地对本发明基于神经元增益调制的机器人运动控制方法进行说明，下面结合附图对本发明方法一种实施例中各步骤进行展开详述。

[0080] 在下述的实施例中，先对循环神经网络动力学模型的构建以及训练过程进行详述，再对基于神经元增益基元组合优化的机器人运动控制方法获取控制信号的过程进行详
述。

[0081] 1、循环神经网络动力学模型的构建及训练过程，如图3、图4所示

[0082] 步骤A10，初始化循环神经网络的连接矩阵；

[0083] 在本实施例中，循环神经网络的连接矩阵W为一个N×N矩阵，其中N为神经网络循环层所包含的神经元数量。矩阵W初始化为一个ER随机图，每个神经元之间产生连接的概率
为：

[0084]

[0085] 其中，Na、Nb表示随机图中两个连接层的节点数量，由于循环层的连接特性，因此，Na＝Nb＝N，参数表示控制循环神经网络连接的稀疏程度，其值的选择应使得PW＞ln N/N以
保证网络中没有孤立节点存在。

[0086] 矩阵W中包含N/2个正数列和N/2个负数列。对于正数列，即兴奋性神经元，按照概率PW决定每个元素的取值为0或对于负数列，即抑制性神经元，按照概率PW决定每
个元素的取值为0或其中，ω0的计算方法如公式(2)所示：

[0087]

[0088] 其中，φ和ρ表示设定常量，为设置值。

[0089] 步骤A20，基于所述连接矩阵、设定的松弛变量和网络初始状态，构建循环神经网络的能量函数；结合所述连接矩阵中特征值的最大实部、所述能量函数，对所述连接矩阵进
行求导优化；

[0090] 在本实施例中，定义循环神经网络的能量函数为：

[0091]

[0092] 其中，a为网络初始状态，为设定值，T表示转置，τ为循环神经网络的时间常数，t表示时间，s为松弛变量，I为单位矩阵，Q(W，s)表示矩阵积分项。

[0093] 定义α(W)为W的特征值的最大实部，将松弛变量定义为以对矩阵W进行稳定优化，可利用二分搜索寻根算法对式(4)进行求解：

[0094]

[0095] 其中，参数∈初始化为使求解得到的大于α(W)的2倍以上以利于算法优化。

[0096] 通过下式对W矩阵进行优化：

[0097]

[0098] 其中， trace[·]表示矩阵的迹。

[0099] Q(W，s)和R(W，s)满足原始对偶拉普拉斯方程组：

[0100] (W‑sI)TQ(W，s)+Q(W，s)(W‑sI)＝‑2·I (6)

[0101] (W‑sI)R(W，s)+R(W，s)(W‑sI)T＝‑2·I (7)

[0102] 因此，可以通过下式更新矩阵W的以实现循环层的动态自稳定：

[0103]

[0104] 其中，η为学习率常数。

[0105] 步骤A30，初始化循环神经网络的神经元集群编码层；

[0106] 在本实施例中，神经元集群编码层B包含N个神经元。设第i个神经元的偏好方向为θi，θi的值在区间[‑π，π]之间通过均匀采样获得。所述神经元的偏好方向这一概念依据神经
科学相关研究，即神经元电活动强度，取决于该神经元的偏好方向与生物体意图运动方向
间的偏差相关，当意图运动方向与偏好方向一致，该神经元的活动最强。

[0107] 步骤A40，采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系，作为第一关系；

[0108] 在本实施例中，神经元动作电位阈值是指引起神经元产生动作电位的最小输入电流值，在本发明中定义为引起神经元产生频率强度为ζ的神经元信号值，其中ζ为一个非常
小的正数。

[0109] 当神经元动作电位阈值降低时，神经元对于弱输入电流也能够产生较强的动作电位输出频率，但受到神经元细胞膜中离子通道数量有限的约束，因此增强幅度存在上限，在
本发明中可建模为频率‑电流增益增强并逐渐趋近于上界；反之，当神经元动作电位阈值升
高时，神经元对于强输入电流也只能够产生较弱的动作电位输出频率，但受到神经元细胞
膜两侧存在离子浓度差使离子沿浓度梯度流动，因此减弱幅度存在下限，在本发明中可建
模为频率‑电流增益减弱并逐渐趋近于下界。综上所述，本发明采用双曲正切函数来建模神
经元动作电位阈值与频率‑电流增益之间的计算关系，如式(9)所示：

[0110]

[0111] 其中，为t时刻神经元动作电位阈值，为频率‑电流增益，为正常情况下神经元的增益幅度，是神经
元动作电位阈值的下界，对应于神经元增益上界GU，是神经元动作电位阈值的上界，对应于
神经元增益下界GL， μC＝0.5(GU‑GL)，
为了简洁表达，下文中将简写为Gk。

[0112] 步骤A50，基于所述第一关系、优化的连接矩阵，结合神经元膜电位幅值，构建受增益调控的循环神经网络动力学模型；并利用最小二乘法拟合循环神经网络神经元到输出层
的连接权重和偏置常量；

[0113] 在本实施例中，循环神经网络动力学方程由下列一阶微分方程所定义：

[0114]

[0115] 其中，xi(t)是时刻t神经元膜电位幅值，表示xi(t)的一阶导数；Wik∈W，i和k为行列号；f(xk(t)，为受增益调控的神经元发放率函数。

[0116] 受增益调控的神经元发放率函数具体如式(11)所示：

[0117]

[0118] 其中，为平移量，其计算公式如下：

[0119]

[0120] 其中，γ为形状因子，其计算公式如下：

[0121]

[0122] 其中，和分别为正常情况下神经元动作电位阈值和饱和发放率阈值(即神经元达到最大发放频率rmax时的输入电流阈值)。

[0123] 另外，网络的输出层将循环层产生的神经元发放频率映射为机器人系统的控制信号ol(t)，计算公式如下：

[0124]

[0125] 其中，Jli是神经元i到输出单元l的连接权重，bl是输出单元l的偏置常量，L是输出E
层的维度。xi(t) 和分别表示兴奋性神经元的神经元膜电位幅值和频率‑电流增益。给定
一个以θf为运动方向、为控制信号的机器人运动控制演示样本，即训练样本，
其中Nc＝L为机器人系统的控制维度，NT为控制时长，计算步骤得到网络输出的控制量of。利
用最小二乘法计算输出层神经元连接权重向量J和b，使网络输出of拟合演示样本df。

[0126] 步骤A60，获取ND组训练样本；结合神经元的电活动强度，通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码；编码后，结合所述优化的连接矩
阵，计算神经元膜电位幅值，并通过所述受增益调控的循环神经网络动力学模型，得到控制
信号，作为预测信号；所述训练样本包括目标位置、目标运动方向及对应的控制信号标签；

[0127] 在本实施例中，获取包含ND组演示样本的演示样本集，即训练样本。样本集中第i个样本，θi为该样本自运动起始点到运动终点的运动方向，即目标运动方向，yi∈Y为第i个
样本运动结束时机器人末端参考点所在位置坐标。即目标位置，di为控制信号标签。

[0128] 将训练样本输入循环神经网络，结合神经元的电活动强度，通过神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码：

[0129] fi(θT)＝rmax·pi(θT)＝rmax·exp(K(cos(θT‑θi)‑1)) (15)

[0130] 其中，rmax为神经元的最大发放频率，K是神经元对方向偏差敏感度常数。循环神经网络神经元的初始状态x(t0)＝τ·Wf(θT)，因此，t时刻的神经元膜电位幅值xi(t)，依据下
式计算：

[0131] xi(t)＝τ·Wfi(θT)

[0132] 将神经元膜电位幅值输入受增益调控的循环神经网络动力学模型，得到控制信号，作为预测信号ol(t)。

[0133] 步骤A70，计算所述预测信号与控制信号标签的误差，并通过预构建的奖励函数，更新神经元的动作电位阈值以及频率‑电流增益；

[0134] 在本实施例中，计算所预测信号与控制信号标签的误差εi，具体如式(16)所示：

[0135]

[0136] 其中， NT表示控制周期内控制器l的平均控制。

[0137] 定义奖励熵来描述系统的训练进度。假设网络每次训练获得的奖励信号为R(t)，在一段时间周期内的奖励服从高斯分布，设时间窗口尺度为则奖励序列可以表示为
其中，参数均值和参数方差可以利用极大似然估计根据奖励
序列计算得到。则奖励熵(即奖励函数)可以通过下式计算：

[0138]

[0139] 其中，Et表示奖励函数值。

[0140] 为了防止参数剧烈变化造成学习发散，利用神经网络时间常数对奖励熵进行一阶滤波：

[0141]

[0142] 其中，表示滤波后的奖励值。

[0143] 多巴胺激素在大脑中可以通过调节奖励预测误差基线促进生物体的学习能力。因此，本发明中，利用自适应一阶滤波系数模拟多巴胺的作用，建模为奖励熵的函数：

[0144]

[0145] 其中，αr()是函数符号，βα为常数，计算过程如上述的Et。定义外部奖励函数为：

[0146]

[0147] 其中，R(t)为外部奖励值，为预测学习误差，初始化为0，计算如下：

[0148]

[0149] 去甲肾上腺素具有平衡专注行为与探索行为权重的能力。本发明通过对节点噪声的调制模拟去甲肾上腺素的调制作用：

[0150]

[0151] 其中，为噪声采样的高斯分布方差，βσ为常数，则添加到阈值调节的噪声信号满足 ξ(t)是一个随机数。

[0152] 血清素对大脑皮层和脊髓神经元增益都有重要的调节作用。本发明将血清素的调节机理建模为奖励信号的近似二元函数：

[0153]

[0154] 其中，表示奖励信号值，βs为一个比较大的常数，使在算法收敛到较小值是能够解决参数饱和的问题。

[0155] 综上所述，神经元动作电位阈值可以根据下式进行更新：

[0156]

[0157] Irhe(t)＝Irhe(t‑1)+ΔIrhe(t) (25)

[0158]

[0159] 其中，表示更新后的神经元动作电位阈值。

[0160] 神经元的增益系数，即频率‑电流增益，可以根据神经元动作电位阈值与频率‑电流增益的关系式进行求解，即：

[0161]

[0162] 步骤A80，循环执行步骤A60、A70，直至得到最终训练好的循环神经网络动力学模型。

[0163] 本发明第二实施例的一种基于神经元增益调制的机器人运动控制系统，如图2所示，具体包括以：获取模块100、控制模块200；

[0164] 所述获取模块100，配置为获取机器人待运动的目标位置及运动方向，作为输入数据；

[0165] 所述控制模块200，配置为基于所述输入数据，通过预构建的循环神经网络动力学模型得到对应的控制信号，并控制机器人移动；

[0166] 其中，所述循环神经网络动力学模型其构建及训练方法为：

[0167] 步骤A10，初始化循环神经网络的连接矩阵；

[0168] 步骤A20，基于所述连接矩阵、设定的松弛变量和网络初始状态，构建循环神经网络的能量函数；结合所述连接矩阵中特征值的最大实部、所述能量函数，对所述连接矩阵进
行求导优化；

[0169] 步骤A30，初始化循环神经网络的神经元集群编码层；

[0170] 步骤A40，采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率‑电流增益之间的计算关系，作为第一关系；

[0171] 步骤A50，基于所述第一关系、优化的连接矩阵，结合神经元膜电位幅值，构建受增益调控的循环神经网络动力学模型；并利用最小二乘法拟合循环神经网络神经元到输出层
的连接权重和偏置常量；

[0172] 步骤A60，获取ND组训练样本；结合神经元的电活动强度，通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码；编码后，结合所述优化的连接矩
阵，计算神经元膜电位幅值，并通过所述受增益调控的循环神经网络动力学模型，得到控制
信号，作为预测信号；所述训练样本包括目标位置、目标运动方向及对应的控制信号标签；

[0173] 步骤A70，计算所述预测信号与控制信号标签的误差，并通过预构建的奖励函数，更新神经元的动作电位阈值以及频率‑电流增益；

[0174] 步骤A80，循环执行步骤A60、A70，直至得到最终训练好的循环神经网络动力学模型。

[0175] 所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0176] 需要说明的是，上述实施例提供的基于神经元增益调制的机器人运动控制系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分
配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，
上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描
述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各
个模块或者步骤，不视为对本发明的不当限定。

[0177] 本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于神经元增益调制的机器人运动控制方法。

[0178] 本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的
基于神经元增益调制的机器人运动控制方法。

[0179] 所述技术领域的技术人员可以清楚的了解到，未描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在
此不再赘述。

[0180] 需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不
限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计
算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便
携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储
器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、
或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程
序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本
申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，
其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限
于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可
读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于
由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的
程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述
的任意合适的组合。

[0181] 可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C+
+，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可
以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、
部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。
在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)
或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务
提供商来通过因特网连接)。

[0182] 附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代
表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用
于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标
注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上
可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注
意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执
行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令
的组合来实现。

[0183] 术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

[0184] 术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的
其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

[0185] 至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本
发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些
更改或替换之后的技术方案都将落入本发明的保护范围之内。

基于神经元增益调制的机器人运动控制方法、系统、装置转让专利

申请号 : CN202011589016.2

文献号 : CN112731812B

文献日 : 2022-01-28

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 钟汕林 , 周俊杰 , 乔红 , 吴伟

申请人 : 中国科学院自动化研究所

摘要 :

权利要求 :

说明书 :