
基本信息:
- 专利标题: 一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法
- 申请号:CN202510128959.1 申请日:2025-02-05
- 公开(公告)号:CN119871415A 公开(公告)日:2025-04-25
- 发明人: 刘华山 , 杨景鹏 , 肖新杰 , 张国敬 , 郑逸鉴 , 梁浩天 , 邢逸飞 , 王崇 , 冯焘
- 申请人: 东华大学
- 申请人地址: 上海市长宁区延安西路1882号
- 专利权人: 东华大学
- 当前专利权人: 东华大学
- 当前专利权人地址: 上海市长宁区延安西路1882号
- 代理机构: 上海申汇专利代理有限公司
- 代理人: 徐俊; 柏子雵
- 主分类号: B25J9/16
- IPC分类号: B25J9/16
摘要:
本发明提供了一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法。先通过引入改进型三记忆库的记忆库结构,结合在机器人运动规划技能训练中不同阶段的特征,进行记忆库两两组合采样的方式进行针对性经验回放。随后,在训练后期,采用探索记忆库经验迁移的方式,将筛选后得到的优质探索经验替换原有的专家经验,以达到自学习、避免过拟合的目的。最后,对探索记忆库中连续存储的小范围经验使用进步趋势评估方法进行训练评估,并将评估结果表示为当前机器人的进步奖励,从而在不影响学习质量的前提下提升机器人的任务技能学习效率。该方法能够在复杂障碍物场景中实现有效快速的运动规划,为机器人技能在不同场景中的泛化提供原理性支持。
IPC结构图谱:
B | 作业;运输 |
--B25 | 手动工具;轻便机动工具;手动器械的手柄;车间设备;机械手 |
----B25J | 机械手;装有操纵装置的容器 |
------B25J9/00 | 程序控制机械手 |
--------B25J9/16 | .程序控制 |