
基本信息:
- 专利标题: 一种基于数据标签图结构的复杂指令生成方法
- 申请号:CN202510079150.4 申请日:2025-01-17
- 公开(公告)号:CN119884755A 公开(公告)日:2025-04-25
- 发明人: 钱程
- 申请人: 上海奇思信息技术有限公司
- 申请人地址: 上海市徐汇区龙田路190号2幢5层
- 专利权人: 上海奇思信息技术有限公司
- 当前专利权人: 上海奇思信息技术有限公司
- 当前专利权人地址: 上海市徐汇区龙田路190号2幢5层
- 代理机构: 上海申汇专利代理有限公司
- 代理人: 翁若莹
- 主分类号: G06F18/214
- IPC分类号: G06F18/214 ; G06N5/01 ; G06N5/04 ; G06F16/901 ; G06F16/903 ; G06F16/9032
摘要:
本发明涉及一种基于数据标签图结构的复杂指令生成方法,包括:收集用于指令微调的数据集,采用问答对的形式;为收集到的开源数据打上标签;基于标签结果,得到标签类别,对相似标签进行聚合去重;存在共现关系的节点,将这两个节点关联起来,形成的标签关系图;利用图遍历算法来有效地获取标签组合;进入指令生成阶段;此阶段中,将标签组合作为输入,结合具体的生成模板,调用已经微调好的大语言模型进行文本生成;最后,生成的指令需要通过一系列的人工验证过程。解决了现有大模型在执行复杂、多步骤指令时表现出的跟随能力不足的问题,提高了数据生成的灵活性和广泛适应性,增强了语言模型的复杂指令处理能力,优化了数据生成的质量和效率。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F18/00 | 模式识别 |
--------G06F18/10 | .预处理;数据清理 |
----------G06F18/21 | ..识别系统或技术的设计或设置;特征空间中的特征提取;盲源分离 |
------------G06F18/214 | ...生成训练模式;自引导方法,如捕获,促进 |