基于层次注意的分层多标签文本分类模型的构建方法转让专利

申请号 : CN202110978563.8

文献号 : CN113420154B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王炜杨瀚翁文生党博

申请人 : 成都索贝数码科技股份有限公司

摘要 :

本发明公开了一种基于层次注意的分层多标签文本分类模型的构建方法,包括步骤:S1,构建多层级文本分类体系,将文本标签拆分为向量矩阵的形式;S2,将文本内容以文本为单位构建文本内容的向量矩阵;S3,计算文本‑类别注意力矩阵、文本‑类别表示;S4,生成统一文本表示和文本类别预测;S5,计算语义表示;S6,重复递归S3至S5,以获得每一文本全部的统一的文本表示和文本类别预测,用神经网络的方式训练模型以获得能够准确预测出文本相应类别的文本分类模型;本发明解决了有层级结构的文本分类问题,从而提升了文本分类预测的准确性。

权利要求 :

1.一种基于层次注意的分层多标签文本分类模型的构建方法,其特征在于,包括步骤:S1,根据文本数据的标签构建相应的多层级文本分类体系,再将每一文本数据的标签以层级为单位拆分为向量矩阵的形式;在步骤S1中,包括子步骤:S11,确定文本的分类体系,该分类体系包括每一层级的类别和不同层级的类别之间的隶属关系;

S12,根据步骤S11确定的分类体系,获取每个类别的文本;

S13,将文本的类别进行向量表示;

S2,将步骤S1中已经将标签拆分为向量矩阵的文本,将其文本内容通过分词和向量化的形式,以文本为单位构建文本内容的向量矩阵;在步骤S2中,包括子步骤:S21,将文本内容以单词的形式,使用向量化将文本单词嵌入到一个向量矩阵中;

S22,将步骤S21得到的向量矩阵,学习每个单词的隐表示,作为文本的统一表示;

S3,基于步骤S2得到的文本内容的向量矩阵以及文本的第h‑1层语义表示,分别计算第h层的文本‑类别注意力矩阵和文本‑类别表示;其中, ,为正整数,为所构建的多层级文本分类体系的最大层级,当h=1时,第h‑1层语义表示为全1向量矩阵;在步骤S3中,包括子步骤:

S31,将文本的前一级语义表示 与数据化文本内容 作处理,得到第 层包含前一级语义信息的文档表示 ;

S32,将由步骤S31得到的包含前一级语义信息的文档表示 进行激活,得到激活结果;

S33,由步骤S32得到的激活结果 与本层标签表示 计算处理后得到文本‑类别注意力矩阵 ;

S34,根据步骤S33得到的文本‑类别注意力矩阵 计算得到文本‑类别表示 ;

S4,基于步骤S3计算得到的第h层的文本‑类别表示,通过整合文本的第h‑1层语义表示,生成第h层的统一文本表示和文本类别预测;在步骤S4中,包括子步骤:S41,利用初始化权重矩阵 对步骤S3中计算得到的文本‑类别表示 处理后得到统一文本表示 ;

S42,由步骤S41得到的统一文本表示 进行处理后得到文本类别预测 ;

S5,基于步骤S3计算得到的第h层的文本‑类别注意力矩阵以及步骤S4生成的第h层的文本类别预测,计算获得用于第h+1层的语义表示;在步骤S5中,包括子步骤:S51,由步骤S33得到的文本‑类别注意力矩阵 以及步骤S42得到的文本类别预测计算后得到表示具有文本语义表征的加权注意分数 ;

S52,对步骤S51得到的加权注意分数 通过计算后得到用于下一级的语义表示 ;

S6,从h=1开始,将对于每一层的步骤S3至步骤S5合称为一个递归层,重复递归步骤S3至步骤S5,最终获得每一文本从第一层至第n层全部的统一文本表示和文本类别预测,根据文本类别预测和实际的文本类别,用神经网络的方式训练模型以获得能够准确预测出文本相应类别的文本分类模型。

2.根据权利要求1所述的基于层次注意的分层多标签文本分类模型的构建方法,其特征在于,步骤S13中所述将文本的类别进行向量表示包括步骤:使用向量化方法将第n层的标签嵌入到一个向量矩阵中。

3.根据权利要求1所述的基于层次注意的分层多标签文本分类模型的构建方法,其特征在于,在步骤S31中的所述处理包括哈达玛积计算处理;在步骤33中的所述计算处理包括乘并做归一化处理;在步骤34中的所述计算包括对类别求平均值。

4.根据权利要求1所述的基于层次注意的分层多标签文本分类模型的构建方法,其特征在于,在步骤S41中的处理包括使用非线性激活函数进行激活处理;在步骤S42中的处理包括通过初始化权重矩阵 对统一文本表示 使用sigmoid函数进行激活处理。

5.根据权利要求1所述的基于层次注意的分层多标签文本分类模型的构建方法,其特征在于,在步骤S51中的计算包括哈达玛积计算;在步骤S52中的所述计算包括平均池操作计算。

说明书 :

基于层次注意的分层多标签文本分类模型的构建方法

技术领域

[0001] 本发明涉及文本自动分类领域,更为具体的,涉及一种基于层次注意的分层多标签文本分类模型的构建方法。

背景技术

[0002] 分层多标签文本分类(HMTC)是一个基础但巨有挑战性的任务,是大量的应用程序(例如专利注释),在层次结构中,文档被分配到多个存储类别。文档的不同层级间的类别往
往具有很强的依赖关系。然而,大多数的分层多标签文本分类任务的研究使用分类器来处
理或者同时分解所有的问题转化为一组平面多标签分类子问题,忽略了文本与层级结构的
关联与层次结构不同层次之间的依赖关系。

发明内容

[0003] 本发明的目的在于克服现有技术的不足,提供一种基于层次注意的分层多标签文本分类模型的构建方法,解决了有层级结构的文本分类问题,从而提升了文本分类预测的
准确性等。
[0004] 本发明的目的是通过以下方案实现的:
[0005] 一种基于层次注意的分层多标签文本分类模型的构建方法,包括:
[0006] S1,根据文本数据的标签构建相应的多层级文本分类体系,再将每一文本数据的标签以层级为单位拆分为向量矩阵的形式;
[0007] S2,将步骤S1中已经将标签拆分为向量矩阵的文本,将其文本内容通过分词和向量化的形式,以文本为单位构建文本内容的向量矩阵;
[0008] S3,基于步骤S2得到的文本内容的向量矩阵以及文本的第h‑1层语义表示,分别计算第h层的文本‑类别注意力矩阵和文本‑类别表示;其中, ,为正整数,为所构建
的多层级文本分类体系的最大层级,当h=1时,第h‑1层语义表示为全1向量矩阵;
[0009] S4,基于步骤S3计算得到的第h层的文本‑类别表示,通过整合文本的第h‑1层语义表示,生成第h层的统一文本表示和文本类别预测;
[0010] S5,基于步骤S3计算得到的第h层的文本‑类别注意力矩阵以及步骤S4生成的第h层的文本类别预测,计算获得用于第h+1层的语义表示;
[0011] S6,从h=1开始,将对于每一层的步骤S3至步骤S5合称为一个递归层,重复递归步骤S3至步骤S5,最终获得每一文本从第一层至第n层全部的统一文本表示和文本类别预测,
根据文本类别预测和实际的文本类别,用神经网络的方式训练模型以获得能够准确预测出
文本相应类别的文本分类模型。
[0012] 进一步地,在步骤S1中,包括子步骤:
[0013] S11,确定文本的分类体系,该分类体系包括每一层级的类别和不同层级的类别之间的隶属关系;
[0014] S12,根据步骤S11确定的分类体系,获取每个类别的文本;
[0015] S13,将文本的类别进行向量表示。
[0016] 进一步地,在步骤S2中,包括子步骤:
[0017] S21,将文本内容以单词的形式,使用向量化将文本单词嵌入到一个向量矩阵中;
[0018] S22,将步骤S21得到的向量矩阵,学习每个单词的隐表示,作为文本的统一表示。
[0019] 进一步地,在步骤S3中,包括子步骤:
[0020] S31,将文本的前一级语义表示 与数据化文本内容 作处理,得到第 层包含前一级语义信息的文档表示 ;
[0021] S32,将由步骤S31得到的包含前一级语义信息的文档表示 进行激活,得到激活结果 ;
[0022] S33,由步骤S32得到的激活结果 与本层标签表示 计算处理后得到文本‑类别注意力矩阵 ;
[0023] S34,根据步骤S33得到的文本‑类别注意力矩阵 计算得到文本‑类别表示 。
[0024] 进一步地,在步骤S4中,包括子步骤:
[0025] S41,利用初始化权重矩阵 对步骤S3中计算得到的文本‑类别表示 处理后得到统一文本表示 ;
[0026] S42,由步骤S41得到的统一文本表示 进行处理后得到文本类别预测 。
[0027] 进一步地,在步骤S5中,包括子步骤:
[0028] S51,由步骤S33得到的文本‑类别注意力矩阵 以及步骤S42得到的文本类别预测 计算后得到表示具有文本语义表征的加权注意分数 ;
[0029] S52,对步骤S51得到的加权注意分数 通过计算后得到用于下一级的语义表示。
[0030] 进一步地,步骤S13中所述将文本的类别进行向量表示包括步骤:使用向量化方法将第n层的标签嵌入到一个向量矩阵中。
[0031] 进一步地,在步骤S31中的所述处理包括哈达玛积计算处理;在步骤33中的所述计算处理包括乘并做归一化处理;在步骤34中的所述计算包括对类别求平均值。
[0032] 进一步地,在步骤S41中的处理包括使用非线性激活函数进行激活处理;在步骤S42中的处理包括通过初始化权重矩阵 对统一文本表示 使用sigmoid函数进行激活处
理。
[0033] 进一步地,在步骤S51中的计算包括哈达玛积计算;在步骤S52中的所述计算包括平均池操作计算。
[0034] 本发明的有益效果包括:
[0035] 本发明解决了有层级结构的文本分类问题,从而提升了文本分类预测的准确性;具体的,在本发明实施例构建的模型中,开发了一个基于层次注意的递归层,以自顶向下的
方式对层次结构不同层次之间的依赖关系进行建模;本发明实施例还提出了一种层次注意
策略来捕捉文本与层次结构之间的关联并且设计了一种混合方法,它能够在对整个层次结
构中的所有类别进行精确分类的同时预测每个层次的类别,与通常的分层方式不同,本发
明实施例能够统合层级间的语义信息,继承上一级中所包含的语义信息并传递到下一层
中,解决了有层级结构的文本分类问题,从而提升了文本分类预测的准确性。

附图说明

[0036] 图1为本发明实施例的方法步骤流程图;
[0037] 图2为本发明实施例的三层级分类体系结构示意图;图2中的粗线代表新闻文本的分类体系的一级类别划分示意,图2中的细线代表一级类别下的二级类别划分示意和二级
类别下的三级类别划分示意。

具体实施方式

[0038] 本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
[0039] 如图1 图2所示,一种基于层次注意的分层多标签文本分类模型的构建方法,包~
括:
[0040] 步骤S1,根据文本数据的标签构建相应的多层级文本分类体系,再将每一文本数据的标签以层级为单位拆分为向量矩阵的形式;
[0041] 步骤S2,将步骤S1中已经将标签拆分为向量矩阵的文本,将其文本内容通过分词和向量化的形式,以文本为单位构建文本内容的向量矩阵;
[0042] 步骤S3,基于步骤S2得到的文本内容的向量矩阵以及文本的第h‑1层语义表示,分别计算第h层的文本‑类别注意力矩阵和文本‑类别表示;其中, ,为正整数,为所
构建的多层级文本分类体系的最大层级,当h=1时,第h‑1层语义表示为全1向量矩阵;
[0043] 步骤S4,基于步骤S3计算得到的第h层的文本‑类别表示,通过整合文本的第h‑1层语义表示,生成第h层的统一文本表示和文本类别预测;
[0044] 步骤S5,基于步骤S3计算得到的第h层的文本‑类别注意力矩阵以及步骤S4生成的第h层的文本类别预测,计算获得用于第h+1层的语义表示;
[0045] 步骤S6,从h=1开始,将对于每一层的步骤S3至步骤S5合称为一个递归层,重复递归步骤S3至步骤S5,最终获得每一文本从第一层至第n层全部的统一文本表示和文本类别
预测,根据文本类别预测和实际的文本类别,用神经网络的方式训练模型以获得能够准确
预测出文本相应类别的文本分类模型。
[0046] 在上述实施例的步骤S1中,在一个多层级的文本分类体系中,将任一文本以层级为单位拆分为向量矩阵的形式。
[0047] 在可选的实施方式中,在步骤S1中,包括子步骤:
[0048] S11,确定文本的分类体系,该分类体系采用多层级类别表示,包括每一层级的类别和不同层级的类别之间的隶属关系;
[0049] S12,根据步骤S11确定的分类体系,获取每个类别的文本;
[0050] S13,将文本的类别进行向量表示。
[0051] 在可选的实施方式中,在步骤S13中,包括子步骤:使用word2vec将第n层的标签嵌入到一个d维的向量矩阵 中,其中 为一个的矩阵,为第n层所含标签个数。
[0052] 在可选的实施方式中,在步骤S2中,包括子步骤:
[0053] S21,将文本内容以单词的形式,使用向量化将文本单词嵌入到一个向量矩阵中;在该步骤中,使用word2vec将文本单词嵌入于一个 矩阵 ,其中 为设定的向量维数参
数,为文本包含的单词个数;
[0054] S22,将步骤S21得到的向量矩阵,学习每个单词的隐表示,作为文本的统一表示;在该步骤中,将步骤S21得到的向量矩阵使用 Bi‑LSTM方法,学习每个单词的隐表示,得到
矩阵 ,作为文本的统一表示,其中 为单向LSTM中隐式层长度。其公式如下:
[0055]
[0056]
[0057]
[0058] 表示文本在第n个单词处的向前隐式向量, 表示文本在第n个单词处的向后隐式向量, 表示文本在第n‑1个单词处的向前隐式向量, 表示文本的第n个单词的词向
量。
[0059] 在可选的实施方式中,在步骤S3中,包括子步骤:
[0060] S31,将文本的前一级语义表示 与数据化文本内容 作处理,得到第 层包含前一级语义信息的文档表示 ;在该步骤中,将文本的前一级语义表示 与数据化文本内
容 作哈达玛积处理,得到第 层包含前一级语义信息的文档表示 ,其公式如下:
[0061]
[0062] S32,将由步骤S31得到的包含前一级语义信息的文档表示 进行激活,得到激活结果 ;在该步骤中,将由步骤S31得到的包含前一级语义信息的文档表示 ,将其进行转
置后,以随机产生的 初始化权重矩阵, 作为激活函数对 进行激活,得到无偏激活
结果 ,其公式如下:
[0063]
[0064] S33,由步骤S32得到的激活结果 与本层标签表示 计算处理后得到文本‑类别注意力矩阵 ;在该步骤中,由步骤S32得到的激活结果 与本层标签表示 点乘并做归
一化处理后得到文本‑类别注意力矩阵 ,其公式如下:
[0065]
[0066] S34,根据步骤S33得到的文本‑类别注意力矩阵 ,通过点乘文本语义表示 ,得到整个第h层的关联文本类别表示,再通过对类别求平均值计算得到文本‑类别表示 ,其
计算公式如下:
[0067]
[0068] 其中,是第h层语义信息的文档表示。
[0069] 在可选的实施方式中,在步骤S4中,包括子步骤:
[0070] S41,利用初始化权重矩阵 对步骤S3中计算得到的文本‑类别表示 处理后得到文本的统一表示 ;在该步骤中,利用初始化权重矩阵 对步骤S3中计算得到的文本‑
类别表示 ,使用一非线性激活函数对其进行激活处理后得到文本的统一表示 ,其公式
如下:
[0071]
[0072] 其中 为对应的偏置向量;
[0073] S42,由步骤S41得到的文本的统一表示 进行处理后得到文本的分类预测 。在该步骤中,由步骤S41得到的文本的统一表示 ,通过初始化权重矩阵 对其使用sigmoid
函数进行激活,得到文本的分类预测 ,其公式如下:
[0074]
[0075] 其中 为对应的偏置向量。
[0076] 在可选的实施方式中,在步骤S5中,包括子步骤:
[0077] S51,由步骤S33得到的文本‑类别注意力矩阵 以及步骤S42得到的分类预测计算后得到表示具有文本语义表征的加权注意分数 ;在该步骤中,由步骤S33得到的文
本‑类别注意力矩阵 以及步骤S42得到的分类预测 ,通过哈达玛积计算得到表示具有
文本语义表征的加权注意分数 ;其公式如下:
[0078]
[0079] 其中, 函数是一个将 增广为 的方法;
[0080] S52,对步骤S51得到的加权注意分数 通过计算后得到用于下一级的语义表示。在该步骤中,对步骤S51得到的加权注意分数 通过平均池操作后得到用于下一级的
语义表示 ,其公式如下:
[0081]
[0082]
[0083] 综上,本发明的模型构建过程解决了以下关键问题:1、在理解每个文档的语义时捕捉了文本和层次结构之间的联系;2、考虑了不同的层次结构中的层次间的关系(即一个
范畴的性质不仅受其父范畴的影响,而且还将影响其子类别);3、实现了预测每个级别,同
时在整个层次中对所有类别进行分类。
[0084] 本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
[0085] 上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本
发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制
性的意义。
[0086] 除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所
进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围
内。