
基本信息:
- 专利标题: 训练智能体的方法、装置、设备和存储介质
- 申请号:CN202411546766.X 申请日:2024-10-31
- 公开(公告)号:CN119494383A 公开(公告)日:2025-02-21
- 发明人: 邓智睿 , 窦志成 , 文继荣 , 熊睿彬 , 王蟒 , 陈炜鹏
- 申请人: 中国人民大学 , 北京百川智能科技有限公司
- 申请人地址: 北京市海淀区中关村大街59号
- 专利权人: 中国人民大学,北京百川智能科技有限公司
- 当前专利权人: 中国人民大学,北京百川智能科技有限公司
- 当前专利权人地址: 北京市海淀区中关村大街59号
- 代理机构: 北京市柳沈律师事务所
- 代理人: 张贵东
- 主分类号: G06N3/092
- IPC分类号: G06N3/092 ; G06N3/09 ; G06N5/04
摘要:
本公开的实施例提供了一种训练智能体的方法、装置、设备和计算机可读存储介质。该智能体与大语言模型相关联,该方法包括:获得关于推理链的专家轨迹数据,该推理链包括多个推理步骤;由该智能体基于该专家轨迹数据生成关于该推理链的智能体轨迹数据;按照推理步骤顺序逐步地比较专家轨迹数据以及智能体轨迹数据以生成逐推理步骤奖励,基于该逐推理步骤奖励训练该智能体。根据本公开的训练智能体的方法可以通过逐推理步骤奖励来优化智能体的强化学习过程。具体地,根据本公开的训练智能体的方法可以比较专家轨迹中的专家动作和智能体轨迹中的智能体动作,从而自动生成中间奖励以进行细粒度的优化。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06N | 基于特定计算模型的计算机系统 |
------G06N3/00 | 基于生物学模型的计算机系统 |
--------G06N3/02 | .采用神经网络模型 |
----------G06N3/04 | ..体系结构,例如,互连拓扑 |
------------G06N3/092 | ...强化学习 |