
基本信息:
- 专利标题: 一种面向开放世界稀疏语料的少样本属性抽取方法和系统
- 申请号:CN202411501842.5 申请日:2024-10-25
- 公开(公告)号:CN119558308A 公开(公告)日:2025-03-04
- 发明人: 刘曦雨 , 郭晓博 , 王鑫 , 刘泽艺 , 穆楠 , 符天枢 , 向继
- 申请人: 中国科学院信息工程研究所
- 申请人地址: 北京市海淀区树村路19号
- 专利权人: 中国科学院信息工程研究所
- 当前专利权人: 中国科学院信息工程研究所
- 当前专利权人地址: 北京市海淀区树村路19号
- 代理机构: 北京君尚知识产权代理有限公司
- 代理人: 邱晓锋
- 主分类号: G06F40/211
- IPC分类号: G06F40/211 ; G06F40/295 ; G06F40/216 ; G06F16/334
摘要:
本发明涉及一种面向开放世界稀疏语料的少样本属性抽取方法和系统。该方法首先应用无监督元模式抽取方法来指导序列到序列生成模型的训练,从而降低训练集的稀疏性;然后,设计了“生成后过滤”流程,以从输入语料中抽取所有有价值的属性三元组;使用束搜索来获取多个候选项,并通过筛选模块从候选项中选出高质量的属性三元组。此外,本发明还提出了一个名为OSN‑515的基准数据集,以帮助评估从稀疏语料库中抽取开放世界少样本属性的效果。实验结果表明,本发明的框架明显优于基线框架,消融研究证明了模型各部分的有效性。
IPC结构图谱:
G06F40/211 | 句法分析,例如基于无上下文语法 |