
基本信息:
- 专利标题: 一种适应双语种船舶事故风险影响因素信息智能化抽取的方法
- 申请号:CN202510114980.6 申请日:2025-01-24
- 公开(公告)号:CN120106203A 公开(公告)日:2025-06-06
- 发明人: 马俊 , 王黎光 , 徐鲁辉 , 赵炯
- 申请人: 西京学院
- 申请人地址: 陕西省西安市西京路1号
- 专利权人: 西京学院
- 当前专利权人: 西京学院
- 当前专利权人地址: 陕西省西安市西京路1号
- 代理机构: 西安众和至成知识产权代理事务所(普通合伙)
- 代理人: 李乃娟
- 主分类号: G06N5/025
- IPC分类号: G06N5/025 ; G06F18/213 ; G06F18/214 ; G06F18/2415 ; G06F40/30 ; G06F40/279 ; G06N3/0455 ; G06N3/096
摘要:
本发明公开了一种适应双语种船舶事故风险影响因素信息智能化抽取的方法,包括:1、根据抽取任务,制定数据标注规则;2、采用分层抽样法从数据集中抽取需要标注的船舶事故样本数据,且每次抽取的样本均涵盖中英文语料;3、利用标注软件,根据预设的标注规则标注抽取的船舶事故样本数据,并以“json”类型导出,得到文本序列;4、将标注的船舶事故样本数据划分为训练集、验证集和测试集;5、对UIE‑Multilingual模型进行训练和评估,微调模型的参数;6、根据F1分数,选出参数最优的UIE‑Multilingual模型并存储,得到微调UIE‑Multilingual模型;7、利用微调UIE‑Multilingual模型从大批量的双语种非结构化船舶事故报告中抽取事故风险影响因素,无需分别标注中文和英文语料,更加高效和准确。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06N | 基于特定计算模型的计算机系统 |
------G06N5/00 | 利用基于知识的模式的计算机系统 |
--------G06N5/02 | .知识表达 |
----------G06N5/022 | ..知识工程;知识收集 |
------------G06N5/025 | ...从数据中提取规则 |