政务资源目录主题分类方法及系统转让专利

申请号 : CN202211315936.4

文献号 : CN115374285B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 倪勇勇陈聪闵红星

申请人 : 思创数码科技股份有限公司

摘要 :

本发明公开了一种政务资源目录主题分类方法及系统,本发明先对政务资源目录主题文本编码处理,将编码结果输入至预训练的ERNIE模型中,然后将通过ERNIE模型得到的词向量集合输入到两种特征提取模型中,通过用TextCNN模型得到文本特征向量,通过BiGRU‑SelfAttention模型得到语义特征向量,采用不同的模型针对性的分别提取文本特征向量和语义特征向量,联合两种特征向量进行文本主题分类,能够有效减低短文本特征稀疏性的影响,从而兼顾有效提取文本特征和有效获取文本上下文关系信息,提升了分类结果的准确性。

权利要求 :

1.一种政务资源目录主题分类方法,其特征在于,包括:

对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合;

将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量,以及将词向量集合输入至BiGRU‑SelfAttention模型中,通过BiGRU‑SelfAttention模型输出语义特征向量;

将TextCNN模型输出的文本特征向量和BiGRU‑SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量,将第一特征向量和第二特征向量相加得到联合特征向量,其中,将TextCNN模型输出的文本特征向量C和BiGRU‑SelfAttention模型输出的语义特征向量AttBiGRU分别输入至对应全连接层,分别得到第一特征向量L1和第二特征向量L2,将第一特征向量L1和第二特征向量L2相加得到联合特征向量L,L=(z1,z2,…,zm),这里通过全连接层的处理能够实现主题维度的转化,其中,m表示主题的总数,则z1、z2、zm分别表示第1个主题对应的联合特征向量中的元素、第2个主题对应的联合特征向量中的元素、第m个主题对应的联合特征向量中的元素;

将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出;

将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量的步骤具体包括:

将词向量集合输入至TextCNN模型中,TextCNN模型使用大小为(2,3,4)的卷积核分别对词向量集合中的各个元素进行特征提取,提取的结果为C1、C2、C3,其中,C1、C2、C3分别为三种不同卷积大小提取的特征,再对C1、C2、C3进行拼接,最终输出文本特征向量C,C=cat([C1、C2、C3], dim=‑1),其中,cat为张量拼接函数,dim=‑1表示按最后一个维度进行拼接;

将词向量集合输入至BiGRU‑SelfAttention模型中,通过BiGRU‑SelfAttention模型输出语义特征向量的步骤具体包括:将词向量集合S输入至BiGRU‑SelfAttention模型中,词向量集合S先经过具有双向GRU的BiGRU层,对于S中的第i个词向量wi,由FW‑GRU输出前向计算结果 、以及由BW‑GRU输出反向计算结果 ,将 和 拼接得到结果之和 ,最后由BiGRU层输出计算结果H=(H1,H2,…,Hi,…,Hn),其中,H1、H2、Hi、Hn分别表示S中的第1个词向量、第2个词向量、第i个词向量、第n个词向量对应的结果之和;

采用SelfAttention机制对BiGRU层输出的H进行重新分配权重,其中,SelfAttention层先对注意力权重进行计算得到权重向量M,再计算BiGRU层输出的每个词向量的权重,然后将所有词向量的权重向量进行加权求和,得到语义特征向量并进行输出,语义特征向量v vAttBiGRU=MV,其中,V表示内容矩阵,V= WH,W表示与内容矩阵对应的需要学习的参数矩阵,,K表示索引矩阵,T表示转置,Q表示查询矩阵,Softmax为指数归一化函数,d表示词向量的维度。

2.根据权利要求1所述的政务资源目录主题分类方法,其特征在于,对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合的步骤具体包括:采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符,并将政务资源目录主题文本的字符总长度调整为预设长度;

将字符转换为ERNIE词表中词的序号,并生成输入序列标记索引;

根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引;

将字符的分段标记索引定义为0;

获得编码结果,并将编码结果输入至预训练的ERNIE模型中,所述编码结果包括输入序列标记索引、长度标记索引以及分段标记索引,取ERNIE模型中最后一层隐藏层的输出,得到每个字符对应的词向量,并形成词向量集合S,其中,S=(w1,w2,…,wn),w1、w2、wn分别表示第1个字符、第2个字符、第n个字符对应的词向量。

3.根据权利要求2所述的政务资源目录主题分类方法,其特征在于,将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出的步骤中,采用下式计算各个主题的概率值:其中,pk表示第k个主题的概率值,j表示第j个主题,m表示主题的总数,zk表示第k个主题对应的联合特征向量中的元素,zj表示第j个主题对应的联合特征向量中的元素。

4.一种政务资源目录主题分类系统,其特征在于,包括:

第一输入模块,用于对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合;

第二输入模块,用于将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量,以及将词向量集合输入至BiGRU‑SelfAttention模型中,通过BiGRU‑SelfAttention模型输出语义特征向量;

第三输入模块,用于将TextCNN模型输出的文本特征向量和BiGRU‑SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量,将第一特征向量和第二特征向量相加得到联合特征向量,其中,将TextCNN模型输出的文本特征向量C和BiGRU‑SelfAttention模型输出的语义特征向量AttBiGRU分别输入至对应全连接层,分别得到第一特征向量L1和第二特征向量L2,将第一特征向量L1和第二特征向量L2相加得到联合特征向量L,L=(z1,z2,…,zm),这里通过全连接层的处理能够实现主题维度的转化,其中,m表示主题的总数,则z1、z2、zm分别表示第1个主题对应的联合特征向量中的元素、第2个主题对应的联合特征向量中的元素、第m个主题对应的联合特征向量中的元素;

计算输出模块,用于将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出;

所述第二输入模块具体用于:

将词向量集合输入至TextCNN模型中,TextCNN模型使用大小为(2,3,4)的卷积核分别对词向量集合中的各个元素进行特征提取,提取的结果为C1、C2、C3,其中,C1、C2、C3分别为三种不同卷积大小提取的特征,再对C1、C2、C3进行拼接,最终输出文本特征向量C,C=cat([C1、C2、C3], dim=‑1),其中,cat为张量拼接函数,dim=‑1表示按最后一个维度进行拼接;

所述第二输入模块还用于:

将词向量集合S输入至BiGRU‑SelfAttention模型中,词向量集合S先经过具有双向GRU的BiGRU层,对于S中的第i个词向量wi,由FW‑GRU输出前向计算结果 、以及由BW‑GRU输出反向计算结果 ,将 和 拼接得到结果之和 ,最后由BiGRU层输出计算结果H=(H1,H2,…,Hi,…,Hn),其中,H1、H2、Hi、Hn分别表示S中的第1个词向量、第2个词向量、第i个词向量、第n个词向量对应的结果之和;

采用SelfAttention机制对BiGRU层输出的H进行重新分配权重,其中,SelfAttention层先对注意力权重进行计算得到权重向量M,再计算BiGRU层输出的每个词向量的权重,然后将所有词向量的权重向量进行加权求和,得到语义特征向量并进行输出,语义特征向量v vAttBiGRU=MV,其中,V表示内容矩阵,V= WH,W表示与内容矩阵对应的需要学习的参数矩阵,,K表示索引矩阵,T表示转置,Q表示查询矩阵,Softmax为指数归一化函数,d表示词向量的维度。

5.根据权利要求4所述的政务资源目录主题分类系统,其特征在于,所述第一输入模块具体用于:

采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符,并将政务资源目录主题文本的字符总长度调整为预设长度;

将字符转换为ERNIE词表中词的序号,并生成输入序列标记索引;

根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引;

将字符的分段标记索引定义为0;

获得编码结果,并将编码结果输入至预训练的ERNIE模型中,所述编码结果包括输入序列标记索引、长度标记索引以及分段标记索引,取ERNIE模型中最后一层隐藏层的输出,得到每个字符对应的词向量,并形成词向量集合S,其中,S=(w1,w2,…,wn),w1、w2、wn分别表示第1个字符、第2个字符、第n个字符对应的词向量。

6.根据权利要求5所述的政务资源目录主题分类系统,其特征在于,所述计算输出模块具有用于采用下式计算各个主题的概率值:其中,pk表示第k个主题的概率值,j表示第j个主题,m表示主题的总数,zk表示第k个主题对应的联合特征向量中的元素,zj表示第j个主题对应的联合特征向量中的元素。

说明书 :

政务资源目录主题分类方法及系统

技术领域

[0001] 本发明涉及数据处理技术领域,特别是涉及一种政务资源目录主题分类方法及系统。

背景技术

[0002] 政务资源目录主题分类就是根据资源目录名称进行资源目录主题领域分类,其分类要素属于短文本,相较与长文本,具有字数少、噪声多、特征稀疏和信息不规范等特点,因此存在有效标签提取困难、自动化主题分类难度大的问题。
[0003] 目前政务资源目录主题分类一般有两种分类方案:
[0004] 1.人工经验分类,由于个人经验认知受限,分类效果存在较大差异;
[0005] 2.机器学习自动分类,虽然能解决个人经验认知受限的问题,但是由于短文本自身的特征稀疏性,难以兼顾有效提取文本特征和有效获取文本上下文关系信息,这将影响分类结果的准确性,此外,当短文本分类类别过多时,模型训练难度、计算量会显著增大。

发明内容

[0006] 为此,本发明的一个实施例提出一种政务资源目录主题分类方法,以兼顾有效提取文本特征和有效获取文本上下文关系信息,提升分类结果的准确性。
[0007] 根据本发明一实施例的政务资源目录主题分类方法,包括:
[0008] 对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合;
[0009] 将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量,以及将词向量集合输入至BiGRU‑SelfAttention模型中,通过BiGRU‑SelfAttention模型输出语义特征向量;
[0010] 将TextCNN模型输出的文本特征向量和BiGRU‑SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量,将第一特征向量和第二特征向量相加得到联合特征向量;
[0011] 将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出。
[0012] 根据本发明实施例的政务资源目录主题分类方法,对政务资源目录主题文本编码处理后,将编码结果输入至预训练的ERNIE模型中,ERNIE模型是基于大型中文语料库训练得到的,优化了Bert模型对于中文训练的方式,预训练考虑了中文的语法和语义,增加了词与词之间的联系,通过ERNIE模型得到了词的向量表示,然后再将通过ERNIE模型得到的词向量集合输入到两种特征提取模型中,使用TextCNN模型进行文本特征提取,不同窗口的TextCNN的感受野不同,提取信息也不同,将提取的文本特征进行拼接得到文本特征向量,可以得到更丰富信息;使用BiGRU‑SelfAttention模型得到语义特征向量,能够做到看全局又聚焦重点,得到重要的上下文信息,并且能简化计算;通过不同的模型针对性的分别提取文本特征向量和语义特征向量,联合两种特征向量进行文本主题分类,能够有效减低短文本特征稀疏性的影响,从而兼顾有效提取文本特征和有效获取文本上下文关系信息,提升了分类结果的准确性。
[0013] 另外,根据本发明上述实施例的政务资源目录主题分类方法,还可以具有如下附加的技术特征:
[0014] 进一步地,对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合的步骤具体包括:
[0015] 采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符,并将政务资源目录主题文本的字符总长度调整为预设长度;
[0016] 将字符转换为ERNIE词表中词的序号,并生成输入序列标记索引;
[0017] 根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引;
[0018] 将字符的分段标记索引定义为0;
[0019] 获得编码结果,并将编码结果输入至预训练的ERNIE模型中,所述编码结果包括输入序列标记索引、长度标记索引以及分段标记索引,取ERNIE模型中最后一层隐藏层的输出,得到每个字符对应的词向量,并形成词向量集合S,其中,S=(w1,w2,…,wn),w1、w2、wn分别表示第1个字符、第2个字符、第n个字符对应的词向量。
[0020] 进一步地,将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量的步骤具体包括:
[0021] 将词向量集合输入至TextCNN模型中,TextCNN模型使用大小为(2,3,4)的卷积核分别对词向量集合中的各个元素进行特征提取,提取的结果为C1、C2、C3,其中,C1、C2、C3分别为三种不同卷积大小提取的特征,再对C1、C2、C3进行拼接,最终输出文本特征向量C,C=cat([C1、C2、C3], dim=‑1),其中,cat为张量拼接函数,dim=‑1表示按最后一个维度进行拼接。
[0022] 进一步地,将词向量集合输入至BiGRU‑SelfAttention模型中,通过BiGRU‑SelfAttention模型输出语义特征向量的步骤具体包括:
[0023] 将词向量集合S输入至BiGRU‑SelfAttention模型中,词向量集合S先经过具有双向GRU的BiGRU层,对于S中的第i个词向量wi,由FW‑GRU输出前向计算结果 、以及由BW‑GRU输出反向计算结果 ,将 和 拼接得到结果之和 ,最后由BiGRU层输出计算结果H=(H1,H2,…,Hi,…,Hn),其中,H1、H2、Hi、Hn分别表示S中的第1个词向量、第2个词向量、第i个词向量、第n个词向量对应的结果之和;
[0024] 采用SelfAttention机制对BiGRU层输出的H进行重新分配权重,其中,SelfAttention层先对注意力权重进行计算得到权重向量M,再计算BiGRU层输出的每个词向量的权重,然后将所有词向量的权重向量进行加权求和,得到语义特征向量并进行输出,v v语义特征向量AttBiGRU=MV,其中,V表示内容矩阵,V= WH,W表示与内容矩阵对应的需要学习的参数矩阵, ,K表示索引矩阵,T表示转置,Q表示查询矩阵,Softmax为指数归一化函数,d表示词向量的维度。
[0025] 进一步地,将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出的步骤中,采用下式计算各个主题的概率值:
[0026]
[0027] 其中,pk表示第k个主题的概率值,j表示第j个主题,m表示主题的总数,zk表示第k个主题对应的联合特征向量中的元素,zj表示第j个主题对应的联合特征向量中的元素。
[0028] 本发明的另一个实施例提出一种政务资源目录主题分类系统,以兼顾有效提取文本特征和有效获取文本上下文关系信息,提升分类结果的准确性。
[0029] 根据本发明一实施例的政务资源目录主题分类系统,包括:
[0030] 第一输入模块,用于对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合;
[0031] 第二输入模块,用于将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量,以及将词向量集合输入至BiGRU‑SelfAttention模型中,通过BiGRU‑SelfAttention模型输出语义特征向量;
[0032] 第三输入模块,用于将TextCNN模型输出的文本特征向量和BiGRU‑SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量,将第一特征向量和第二特征向量相加得到联合特征向量;
[0033] 计算输出模块,用于将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出。
[0034] 根据本发明实施例的政务资源目录主题分类系统,对政务资源目录主题文本编码处理后,将编码结果输入至预训练的ERNIE模型中,ERNIE模型是基于大型语料库训练得到的,增加了词与词之间的联系,然后再将通过ERNIE模型得到词向量集合输入到两种特征提取模型中,使用TextCNN模型进行文本特征提取,不同窗口的TextCNN的感受野不同,提取信息也不同,将提取的文本特征进行拼接得到文本特征向量,可以得到更丰富信息;使用BiGRU‑SelfAttention模型得到语义特征向量,能够做到看全局又聚焦重点,得到重要的上下文信息,并且能简化计算;通过不同的模型针对性的分别提取文本特征向量和语义特征向量,联合两种特征向量进行文本主题分类,能够有效减低短文本特征稀疏性的影响,从而兼顾有效提取文本特征和有效获取文本上下文关系信息,提升了分类结果的准确性。
[0035] 另外,根据本发明上述实施例的政务资源目录主题分类系统,还可以具有如下附加的技术特征:
[0036] 进一步地,所述第一输入模块具体用于:
[0037] 采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符,并将政务资源目录主题文本的字符总长度调整为预设长度;
[0038] 将字符转换为ERNIE词表中词的序号,并生成输入序列标记索引;
[0039] 根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引;
[0040] 将字符的分段标记索引定义为0;
[0041] 获得编码结果,并将编码结果输入至预训练的ERNIE模型中,所述编码结果包括输入序列标记索引、长度标记索引以及分段标记索引,取ERNIE模型中最后一层隐藏层的输出,得到每个字符对应的词向量,并形成词向量集合S,其中,S=(w1,w2,…,wn),w1、w2、wn分别表示第1个字符、第2个字符、第n个字符对应的词向量。
[0042] 进一步地,所述第二输入模块具体用于:
[0043] 将词向量集合输入至TextCNN模型中,TextCNN模型使用大小为(2,3,4)的卷积核分别对词向量集合中的各个元素进行特征提取,提取的结果为C1、C2、C3,其中,C1、C2、C3分别为三种不同卷积大小提取的特征,再对C1、C2、C3进行拼接,最终输出文本特征向量C,C=cat([C1、C2、C3], dim=‑1),其中,cat为张量拼接函数,dim=‑1表示按最后一个维度进行拼接。
[0044] 进一步地,所述第二输入模块还用于:
[0045] 将词向量集合S输入至BiGRU‑SelfAttention模型中,词向量集合S先经过具有双向GRU的BiGRU层,对于S中的第i个词向量wi,由FW‑GRU输出前向计算结果 、以及由BW‑GRU输出反向计算结果 ,将 和 拼接得到结果之和 ,最后由BiGRU层输出计算结果H=(H1,H2,…,Hi,…,Hn),其中,H1、H2、Hi、Hn分别表示S中的第1个词向量、第2个词向量、第i个词向量、第n个词向量对应的结果之和;
[0046] 采用SelfAttention机制对BiGRU层输出的H进行重新分配权重,其中,SelfAttention层先对注意力权重进行计算得到权重向量M,再计算BiGRU层输出的每个词向量的权重,然后将所有词向量的权重向量进行加权求和,得到语义特征向量并进行输出,v v语义特征向量AttBiGRU=MV,其中,V表示内容矩阵,V= WH,W表示与内容矩阵对应的需要学习的参数矩阵, ,K表示索引矩阵,T表示转置,Q表示查询矩阵,Softmax为指数归一化函数,d表示词向量的维度。
[0047] 进一步地,所述计算输出模块具有用于采用下式计算各个主题的概率值:
[0048]
[0049] 其中,pk表示第k个主题的概率值,j表示第j个主题,m表示主题的总数,zk表示第k个主题对应的联合特征向量中的元素,zj表示第j个主题对应的联合特征向量中的元素。

附图说明

[0050] 本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0051] 图1是根据本发明一实施例的政务资源目录主题分类方法的流程图;
[0052] 图2是根据本发明一实施例的政务资源目录主题分类系统的结构示意图。

具体实施方式

[0053] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0054] 请参阅图1,本发明一实施例提出的政务资源目录主题分类方法,所述方法包括步骤S101 S104:~
[0055] S101,对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合。
[0056] 其中,ERNIE模型是基于大型语料库训练得到的,增加词与词之间的联系,通过ERNIE能够得到词的向量表示。
[0057] 具体的,采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符,并将政务资源目录主题文本的字符总长度调整为预设长度,例如,使用tokenize方法将文本切成字符,并在文本前添加[CLS]字符,计算待分类的政务资源目录主题文本长度,与设置的最长文本长度进行比较,进行截长补短,过短的文本用[PAD]字符填充,对于任一个政务资源目录主题文本处理成统一的长度;
[0058] 将字符转换为ERNIE词表中词的序号,并生成输入序列标记索引input_ids;
[0059] 根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引SelfAttention_mask,其中,SelfAttention_mask=[1]*(当前的文本长度)+[0]*(设置的最长文本长度‑当前的文本长度),目的是为了避免模型关注到填充符;
[0060] 因为政务资源目录主题文本是短文本单个句子,因此将字符的分段标记索引token_type_ids定义为0;
[0061] 获得编码结果,并将编码结果输入至预训练的ERNIE模型中,所述编码结果包括输入序列标记索引input_ids、长度标记索引SelfAttention_mask以及分段标记索引token_type_ids,取ERNIE模型中最后一层隐藏层的输出,得到每个字符对应的词向量,并形成词向量集合S,其中,S=(w1,w2,…,wn),w1、w2、wn分别表示第1个字符、第2个字符、第n个字符对应的词向量。
[0062] S102,将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量,以及将词向量集合输入至BiGRU‑SelfAttention模型中,通过BiGRU‑SelfAttention模型输出语义特征向量。
[0063] 其中,将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量的步骤具体包括:
[0064] 将词向量集合输入至TextCNN模型中,TextCNN模型使用大小为(2,3,4)的卷积核分别对词向量集合中的各个元素进行特征提取,提取的结果为C1、C2、C3,其中,C1、C2、C3分别为三种不同卷积大小提取的特征,再对C1、C2、C3进行拼接,最终输出文本特征向量C,C=cat([C1、C2、C3], dim=‑1),其中,cat为张量拼接函数,dim=‑1表示按最后一个维度进行拼接。
[0065] 本实施例中,TextCNN模型具体是多窗口的TextCNN模型,通过TextCNN模型对进行文本特征提取,不同窗口的TextCNN的感受野不同,提取信息也不同,将提取的文本特征进行拼接得到文本特征向量,可以得到更丰富信息。
[0066] 将词向量集合输入至BiGRU‑SelfAttention模型中,通过BiGRU‑SelfAttention模型输出语义特征向量的步骤具体包括:
[0067] 将词向量集合S输入至BiGRU‑SelfAttention模型中,词向量集合S先经过具有双向GRU的BiGRU层,对于S中的第i个词向量wi,由FW‑GRU输出前向计算结果 、以及由BW‑GRU输出反向计算结果 ,将 和 拼接得到结果之和 ,最后由BiGRU层输出整句话计算结果H=(H1,H2,…,Hi,…,Hn),其中,H1、H2、Hi、Hn分别表示S中的第1个词向量、第2个词向量、第i个词向量、第n个词向量对应的结果之和;
[0068] 采用SelfAttention机制对BiGRU层输出的H进行重新分配权重,其中,SelfAttention层先对注意力权重进行计算得到权重向量M,再计算BiGRU层输出的每个词向量的权重,然后将所有词向量的权重向量进行加权求和,得到语义特征向量并进行输出,语义特征向量AttBiGRU=MV,其中,V表示内容矩阵。
[0069] SelfAttention机制的具体计算公式为:
[0070] K= WKH
[0071] Q= WQH
[0072] V= WvH
[0073]
[0074] 其中,K表示索引矩阵,Q表示查询矩阵,WK、WQ、Wv分别表示与索引矩阵对应的需要学习的参数矩阵、与查询矩阵对应的需要学习的参数矩阵、与内容矩阵对应的需要学习的参数矩阵,T表示转置,Q表示查询矩阵,Softmax为指数归一化函数,d表示词向量的维度。
[0075] 使用BiGRU层能够得到文本全局信息,并且能简化计算,再通过SelfAttention层可以对信息进行权重的分配,所有向量都有参与计算,这样就做到了看全局又聚焦重点,获取重要的上下文信息,得到语义特征向量。
[0076] S103,将TextCNN模型输出的文本特征向量和BiGRU‑SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量,将第一特征向量和第二特征向量相加得到联合特征向量。
[0077] 其中,将TextCNN模型输出的文本特征向量C和BiGRU‑SelfAttention模型输出的语义特征向量AttBiGRU分别输入至对应全连接(Linear)层,分别得到第一特征向量L1和第二特征向量L2,将第一特征向量L1和第二特征向量L2相加得到联合特征向量L,L=(z1,z2,…,zm),需要指出的是,这里通过全连接层的处理能够实现主题维度的转化,其中,m表示主题的总数,则z1、z2、z3分别表示第1个主题对应的联合特征向量中的元素、第2个主题对应的联合特征向量中的元素、第m个主题对应的联合特征向量中的元素。
[0078] S104,将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出。
[0079] 其中,采用下式计算各个主题的概率值:
[0080]
[0081] 其中,pk表示第k个主题的概率值,j表示第j个主题,m表示主题的总数,zk表示第k个主题对应的联合特征向量中的元素,zj表示第j个主题对应的联合特征向量中的元素。
[0082] 综上,根据本实施例提供的政务资源目录主题分类方法,对政务资源目录主题文本编码处理后,将编码结果输入至预训练的ERNIE模型中,ERNIE模型是基于大型语料库训练得到的,增加了词与词之间的联系,然后再将通过ERNIE模型得到词向量集合输入到两种特征提取模型中,使用TextCNN模型进行文本特征提取,不同窗口的TextCNN的感受野不同,提取信息也不同,将提取的文本特征进行拼接得到文本特征向量,可以得到更丰富信息;使用BiGRU‑SelfAttention模型得到语义特征向量,能够做到看全局又聚焦重点,得到重要的上下文信息,并且能简化计算;通过不同的模型针对性的分别提取文本特征向量和语义特征向量,联合两种特征向量进行文本主题分类,能够有效减低短文本特征稀疏性的影响,从而兼顾有效提取文本特征和有效获取文本上下文关系信息,提升了分类结果的准确性。
[0083] 请参阅图2,本发明一实施例提出的政务资源目录主题分类系统,所述系统包括:
[0084] 第一输入模块,用于对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合;
[0085] 第二输入模块,用于将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量,以及将词向量集合输入至BiGRU‑SelfAttention模型中,通过BiGRU‑SelfAttention模型输出语义特征向量;
[0086] 第三输入模块,用于将TextCNN模型输出的文本特征向量和BiGRU‑SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量,将第一特征向量和第二特征向量相加得到联合特征向量;
[0087] 计算输出模块,用于将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出。
[0088] 本实施例中,所述第一输入模块具体用于:
[0089] 采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符,并将政务资源目录主题文本的字符总长度调整为预设长度;
[0090] 将字符转换为ERNIE词表中词的序号,并生成输入序列标记索引;
[0091] 根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引;
[0092] 将字符的分段标记索引定义为0;
[0093] 获得编码结果,并将编码结果输入至预训练的ERNIE模型中,所述编码结果包括输入序列标记索引、长度标记索引以及分段标记索引,取ERNIE模型中最后一层隐藏层的输出,得到每个字符对应的词向量,并形成词向量集合S,其中,S=(w1,w2,…,wn),w1、w2、wn分别表示第1个字符、第2个字符、第n个字符对应的词向量。
[0094] 本实施例中,所述第二输入模块具体用于:
[0095] 将词向量集合输入至TextCNN模型中,TextCNN模型使用大小为(2,3,4)的卷积核分别对词向量集合中的各个元素进行特征提取,提取的结果为C1、C2、C3,其中,C1、C2、C3分别为三种不同卷积大小提取的特征,再对C1、C2、C3进行拼接,最终输出文本特征向量C,C=cat([C1、C2、C3], dim=‑1),其中,cat为张量拼接函数,dim=‑1表示按最后一个维度进行拼接。
[0096] 本实施例中,所述第二输入模块还用于:
[0097] 将词向量集合S输入至BiGRU‑SelfAttention模型中,词向量集合S先经过具有双向GRU的BiGRU层,对于S中的第i个词向量wi,由FW‑GRU输出前向计算结果 、以及由BW‑GRU输出反向计算结果 ,将 和 拼接得到结果之和 ,最后由BiGRU层输出计算结果H=(H1,H2,…,Hi,…,Hn),其中,H1、H2、Hi、Hn分别表示S中的第1个词向量、第2个词向量、第i个词向量、第n个词向量对应的结果之和;
[0098] 采用SelfAttention机制对BiGRU层输出的H进行重新分配权重,其中,SelfAttention层先对注意力权重进行计算得到权重向量M,再计算BiGRU层输出的每个词向量的权重,然后将所有词向量的权重向量进行加权求和,得到语义特征向量并进行输出,v v语义特征向量AttBiGRU=MV,其中,V表示内容矩阵,V= WH,W表示与内容矩阵对应的需要学习的参数矩阵, ,K表示索引矩阵,T表示转置,Q表示查询矩阵,Softmax为指数归一化函数,d表示词向量的维度。
[0099] 本实施例中,所述计算输出模块具有用于采用下式计算各个主题的概率值:
[0100]
[0101] 其中,pk表示第k个主题的概率值,j表示第j个主题,m表示主题的总数,zk表示第k个主题对应的联合特征向量中的元素,zj表示第j个主题对应的联合特征向量中的元素。
[0102] 根据本实施例提供的政务资源目录主题分类系统,对政务资源目录主题文本编码处理后,将编码结果输入至预训练的ERNIE模型中,ERNIE模型是基于大型语料库训练得到的,增加了词与词之间的联系,然后再将通过ERNIE模型得到词向量集合输入到两种特征提取模型中,使用TextCNN模型进行文本特征提取,不同窗口的TextCNN的感受野不同,提取信息也不同,将提取的文本特征进行拼接得到文本特征向量,可以得到更丰富信息;使用BiGRU‑SelfAttention模型得到语义特征向量,能够做到看全局又聚焦重点,得到重要的上下文信息,并且能简化计算;通过不同的模型针对性的分别提取文本特征向量和语义特征向量,联合两种特征向量进行文本主题分类,能够有效减低短文本特征稀疏性的影响,从而兼顾有效提取文本特征和有效获取文本上下文关系信息,提升了分类结果的准确性。
[0103] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通讯、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0104] 计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0105] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
[0106] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0107] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。