
基本信息:
- 专利标题: 一种基于Transformer的半监督文本分类算法
- 申请号:CN202410714654.4 申请日:2024-06-04
- 公开(公告)号:CN118585646A 公开(公告)日:2024-09-03
- 发明人: 徐礼逵 , 徐艳娥
- 申请人: 六盘水师范学院
- 申请人地址: 贵州省六盘水市明湖路朝阳新村
- 专利权人: 六盘水师范学院
- 当前专利权人: 六盘水师范学院
- 当前专利权人地址: 贵州省六盘水市明湖路朝阳新村
- 代理机构: 南京中高专利代理有限公司
- 代理人: 杜文娟
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F18/214 ; G06N3/0455 ; G06N3/0895 ; G06N3/084 ; G06N3/048 ; G06N3/082
摘要:
本发明公开了一种基于Transformer的半监督文本分类算法,涉及文本分类算法技术领域,包括以下步骤:步骤1:数据预处理;步骤2:数据划分;步骤3:Transformer模型训练;步骤4:打标:步骤5:置信度筛选;步骤6:随机化;步骤7:模型训练;步骤8:模型评估。本发明中,利用置信度以及随机化技术,只需要在小部分标注数据的基础上,就能接近原先需要大量标注数据的分类效果,从而大幅提高了文本分类的效率。