
基本信息:
- 专利标题: 基于语义信息增强的汉字语句分类方法
- 申请号:CN202211049581.9 申请日:2022-08-30
- 公开(公告)号:CN115203422B 公开(公告)日:2025-04-18
- 发明人: 李波 , 黄焱鑫
- 申请人: 重庆理工大学
- 申请人地址: 重庆市巴南区李家沱红光大道69号
- 专利权人: 重庆理工大学
- 当前专利权人: 重庆理工大学
- 当前专利权人地址: 重庆市巴南区李家沱红光大道69号
- 代理机构: 重庆博凯知识产权代理有限公司
- 代理人: 张乙山
- 主分类号: G06F16/353
- IPC分类号: G06F16/353 ; G06F40/151 ; G06F40/242 ; G06F40/30 ; G06F18/22 ; G06F18/2415 ; G06F18/2431 ; G06F18/25 ; G06N3/045 ; G06N3/0442 ; G06N3/084
摘要:
本发明具体涉及基于语义信息增强的汉字语句分类方法,包括:将待分类的汉字语句输入经过训练的分类模型中,输出对应的预测分类标签;训练时:首先基于训练数据集构建与部首关联的区分度字典;其次对训练数据集中的汉字语句进行简繁汉字转换,得到简体和繁体的汉字语句;然后提取汉字语句的分类表示和上下文表示;同时结合区分度字典确定汉字语句中的关键字,并结合注意力机制为各个关键字赋予注意力权重,进而计算简体和繁体的文本最终表示;最后分别基于简体和繁体的文本最终表示生成预测分类标签并融合得到总体预测分类标签,以优化分类模型的模型参数。本发明能够有效考虑汉字简化过程中的汉字语义损失,并消除区分度不高的汉字对语句的干扰。
公开/授权文献:
- CN115203422A 基于语义信息增强的汉字语句分类方法 公开/授权日:2022-10-18
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F16/00 | 信息检索;数据库结构;文件系统结构 |
--------G06F16/10 | .文件系统;文件服务器 |
----------G06F16/35 | ..聚类;分类 |
------------G06F16/353 | ...到预定义的类中 |