
基本信息:
- 专利标题: 基于大模型的训练数据生成方法、模型训练方法及装置
- 申请号:CN202411899226.X 申请日:2024-12-20
- 公开(公告)号:CN119862272A 公开(公告)日:2025-04-22
- 发明人: 何伯磊 , 程鸣权 , 骆金昌 , 陈坤斌
- 申请人: 北京百度网讯科技有限公司
- 申请人地址: 北京市海淀区上地十街10号百度大厦二层
- 专利权人: 北京百度网讯科技有限公司
- 当前专利权人: 北京百度网讯科技有限公司
- 当前专利权人地址: 北京市海淀区上地十街10号百度大厦二层
- 代理机构: 北京清亦华知识产权代理事务所(普通合伙)
- 代理人: 金星玉
- 主分类号: G06F16/334
- IPC分类号: G06F16/334 ; G06F16/3329 ; G06N5/022
摘要:
本公开提供了一种基于大模型的训练数据生成方法、模型训练方法及装置,涉及自然语言处理、大模型、智能搜索、知识图谱等人工智能技术领域,可应用于知识问答等场景。该方法包括:基于历史操作数据,获取三元组数据,并从其中筛选出回答错误的三元组数据作为待修正三元组数据;基于大模型的迭代反思对待修正三元组数据中的问题进行改写,并基于改写后的问题和大模型生成修正后的检索片段;基于改写后的问题和修正后的检索片段,采用大模型生成改写后的问题对应的更正答案;基于改写后的问题、修正后的检索片段和更正答案,对待修正三元组数据进行更新,得到检索增强生成RAG训练数据。本公开可以提升训练数据质量和生成效率。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F16/00 | 信息检索;数据库结构;文件系统结构 |
--------G06F16/10 | .文件系统;文件服务器 |
----------G06F16/33 | ..查询 |
------------G06F16/332 | ...查询公式 |
--------------G06F16/334 | ....查询执行 |