基于时间卷积网络的中文文本分类方法转让专利

申请号 : CN201910542511.9

文献号 : CN110275954A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 代明军谭莎林晓辉陈彬苏恭超王晖

申请人 : 深圳大学

摘要 :

本发明公开了一种基于时间卷积网络的中文文本分类方法,包括以下步骤:步骤S10,对目标文本进行预处理,以得到与目标文本对应的第一文本序列;步骤S20,构建基于时间卷积机制的文本分类模型,将第一文本序列导入到文本分类模型中,完成对于目标文本的类别分析,其中,文本分类模型包括输入层、嵌入层、时间卷积网络层、Dropout层和输出层。本发明,应用于中文文本的分类,能够保留更加完整的全文信息的同时,有更高的并行计算速度。

权利要求 :

1.一种基于时间卷积网络的中文文本分类方法,其特征在于,包括以下步骤:步骤S10,对目标文本进行预处理,以得到与目标文本对应的第一文本序列;

步骤S20,构建基于时间卷积机制的文本分类模型,将第一文本序列导入到文本分类模型中,完成对于目标文本的类别分析,其中,文本分类模型包括输入层、嵌入层、时间卷积网络层、Dropout层和输出层。

2.如权利要求1所述基于时间卷积网络的中文文本分类方法,其特征在于,步骤S20具体包括:步骤S21,对目标文本进行分词处理,以确定输入元素;

步骤S22,将输入文本中的每个词转化为向量分布式,并进行归一化获得词的归一化标量值,以获得文本向量序列;

步骤S23,将文本向量序列进行计算后获得的结果序列,确定输出向量并进行计算获取最终文本向量序列,对最终文本向量序列做节点丢弃处理后,进行softmax函数计算,得出标量。

3.如权利要求2所述基于时间卷积网络的中文文本分类方法,其特征在于,在步骤S23中,利用到的公式为:其中,K为Dropout层输出的节点总个数,zj为第j个节点的当前值。

4.如权利要求1所述基于时间卷积网络的中文文本分类方法,其特征在于,时间卷积网络层包含全连层和扩张的因果卷积层。

说明书 :

基于时间卷积网络的中文文本分类方法

技术领域

[0001] 本发明属于文本分类技术领域,尤其涉及一种基于时间卷积网络的中文文本分类方法。

背景技术

[0002] 目前,近年来随着深度学习的快速发展,人们经常采用神经网络来做文本分类任务,现有的热门的循环神经网络RNN及其衍生LSTM,GRU等存在计算速度低的技术问题。
[0003] 因此,现有技术有待于改善。

发明内容

[0004] 本发明的主要目的在于提出一种基于时间卷积网络的中文文本分类方法,旨在解决背景技术中所提及的技术问题,能够保留更加完整的全文信息的同时,有更高的并行计算速度。
[0005] 本发明的一种基于时间卷积网络的中文文本分类方法,包括以下步骤:
[0006] 步骤S10,对目标文本进行预处理,以得到与目标文本对应的第一文本序列;
[0007] 步骤S20,构建基于时间卷积机制的文本分类模型,将第一文本序列导入到文本分类模型中,完成对于目标文本的类别分析,其中,文本分类模型包括输入层、嵌入层、时间卷积网络层、Dropout层和输出层。
[0008] 优选地,步骤S20具体包括:
[0009] 步骤S21,对目标文本进行分词处理,以确定输入元素;
[0010] 步骤S22,将输入文本中的每个词转化为向量分布式,并进行归一化获得词的归一化标量值,以获得文本向量序列;
[0011] 步骤S23,将文本向量序列进行计算后获得的结果序列,确定输出向量并进行计算获取最终文本向量序列,对最终文本向量序列做节点丢弃处理后,进行softmax函数计算,得出标量。
[0012] 优选地,在步骤S23中,利用到的公式为: 其中,K为Dropout层输出的节点总个数,zj为第j个节点的当前值。
[0013] 优选地,时间卷积网络层包括全连层和扩张的因果卷积层。
[0014] 本发明的基于时间卷积网络的中文文本分类方法,具有以下有益效果:
[0015] 采用神经网络作为模型基础架构,结合时间卷积神经网络,在准确获取每个词的语义信息及位置信息的同时,充分保留文本的历史信息,且相比现在在处理时间序列热门的循环神经网络RNN及其衍生LSTM,GRU等有着更高的并行计算速度且准确率达99%以上,高于现有中文分类方法两到三个百分点。

附图说明

[0016] 图1为本发明基于时间卷积网络的中文文本分类方法的第一实施例的流程示意图;
[0017] 图2为本发明基于时间卷积网络的中文文本分类方法中步骤S20的细化流程示意图;
[0018] 图3为本发明基于时间卷积网络的中文文本分类方法中word2vec工具包的词的分布式表示原理;
[0019] 图4为本发明基于时间卷积网络的中文文本分类方法中全连层的原理框图。
[0020] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0021] 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。需要注意的是,相关术语如“第一”、“第二”等可以用于描述各种组件,但是这些术语并不限制该组件。这些术语仅用于区分一个组件和另一组件。例如,不脱离本发明的范围,第一组件可以被称为第二组件,并且第二组件类似地也可以被称为第一组件。术语“和/或”是指相关项和描述项的任何一个或多个的组合。
[0022] 本发明的一种基于时间卷积网络的中文文本分类方法,包括以下步骤:
[0023] 步骤S10,对目标文本进行预处理,以得到与目标文本对应的第一文本序列;
[0024] 在步骤S10中,举个例子,目标文本为“北京时间6月3日,总决赛第2场,勇士在客场以109-104战胜猛龙。勇士首发侧翼安德烈-伊戈达拉在5场比赛之后终于投进三分球(包括一个制胜三分),而勇士队在第三节展现出了一如既往的统治力。伊戈达拉的进攻一直都不太稳定,今年季后赛就是如此。今年季后赛前两轮,伊戈达拉在与快船和火箭的系列赛中三分球47投20中,命中率达到42.5%。”;
[0025] 上述目标文本,预处理包括分词处理和词的分布式处理;先经过分词,然后利用Google开源的word2vec工具包获取wordvector,即词的分布式表示,得到第一文本序列,第一文本序列为“北京:0.8921564328456217、时间:0.5641287946215834、...、达到:0.71564284932715649、42.5:0.4512398726546215”。
[0026] 步骤S20,构建基于时间卷积机制的文本分类模型,将第一文本序列导入到文本分类模型中,完成对于目标文本的类别分析,其中,文本分类模型包括输入层、嵌入层、时间卷积网络层、Dropout层和输出层。
[0027] 如图2所示,步骤S20具体包括:
[0028] 步骤S21,对目标文本进行分词处理,以确定输入元素;其中,输入层用于执行步骤S21。
[0029] 在步骤S21中,例如,目标文本为“北京时间6月3日,总决赛第2场,勇士在客场以109-104战胜猛龙。勇士首发侧翼安德烈-伊戈达拉在5场比赛之后终于投进三分球(包括一个制胜三分),而勇士队在第三节展现出了一如既往的统治力。伊戈达拉的进攻一直都不太稳定,今年季后赛就是如此。今年季后赛前两轮,伊戈达拉在与快船和火箭的系列赛中三分球47投20中,命中率达到42.5%”。
[0030] 上述目标文本,经分词处理后,确定输入元素,输入元素为“北京时间6月3日总决赛第2场勇士客场战胜猛龙勇士首发侧翼安德烈-伊戈达拉5场比赛之后终于投进三分球包括一个制胜三分勇士队第三节展现一如既往统治力伊戈达拉进攻一直不太稳定今年季后赛就是如此今年季后赛前两轮伊戈达拉快船火箭系列赛三分球命中率达到42.5%”。
[0031] 步骤S22,将输入文本中的每个词转化为向量分布式,并进行归一化获得词的归一化标量值,以获得文本向量序列;其中,嵌入层用于执行步骤S22中的“将输入元素中的每个词转化为向量分布式”;
[0032] 在步骤S22,“将输入文本中的每个词转化为向量分布式”的实施方式为,也可理解为“将输入文本中的每个词转化为向量分布式”包括将输入元素中的每个词利用Google开源的word2vec工具包获取wordvector见图3所示;即词的向量分布式表示,词xxi的向量分布式表示为xxi=[x0,x1,x2,...,xt],t代表此分布式的维度。“并进行归一化获得词的归一化标量值,以获得文本向量序列”具体包括:通过softmax函数进行归一化运算,获取词的归一化标量值xi;即 以进一步获取文本向量序列,即X=[x1...xi...xL]表示文本向量序列;比文章X:北京时间...达到42.5对应的文本向量序列为[0.8921564328456217 0.5641287946215834  ... 0.71564284932715649 
0.71564284932715649]。
[0033] 执行完步骤S22后,执行步骤S23,将文本向量序列进行计算后获得的结果序列,确定输出向量并进行计算获取最终文本向量序列,对最终文本向量序列做节点丢弃处理后,进行softmax函数计算,得出标量。
[0034] 在步骤S23中举个例子,文本向量序列为X=[x1 ... xi  ... xL];文本向量序列进行计算,通过公式 计算出结果序列;结果序列为ai;根据结果序列获取输出向量A=[a1...aL];再利用扩张的因果卷积公式 对其进行运算,以尽可能地获取全局特征,其中d表示扩张的大小,k是滤波器大小,滤波器f:{0,1,
2,...,k-1},其内部的元素都是实数R;输出向量A经过上述因果卷积公式以计算出最终文本向量序列,比如,计算出的最终文本向量序列表示为X=x11,x22,...,xLL。时间卷积网络层用于执行“将文本向量序列进行计算后获得的结果序列,确定输出向量并进行计算获取最终文本向量序列”。在步骤S23中,在获取最终文本向量序列后,对最终文本向量序列X=x11,x22,...,xLL进行节点丢弃处理,以防止过拟合,节点丢弃处理为对于最终文本向量序列中的元素进行节点丢弃处理,丢弃后序列为B=[b1,b2,...,bK];举个例子,比如最终文本向量序列中的元素为10个,经随机丢弃处理后,为6个元素,这6个元素就为丢弃后序列中元素总个数K。
[0035] 在步骤S23中,“进行softmax函数计算,得出标量”包括对丢弃后序列进行softmax函数计算,利用到的公式为 得出标量σ(b)i。其中,K为丢弃后序列中元素总个数,bk为总个数K中第j个节点的当前值;节点表示丢弃后序列中的元素;当前值表示元素对应的文本序列。
[0036] 其中,Dropout层用于执行步骤S23中的“对最终文本向量序列做节点丢弃处理”;
[0037] 输出层用于执行步骤S23中的“进行softmax函数计算,得出标量”;上述方案中,输出的标量σ(b)i代表这个文本对于这个目标的所属类别的预测,是体育类的还是娱乐类的。优选地,时间卷积网络层包括全连层和扩张的因果卷积层。
[0038] 本发明的基于时间卷积网络的中文文本分类方法,具有以下有益效果:
[0039] 采用神经网络作为模型基础架构,结合时间卷积神经网络,在准确获取每个词的语义信息及位置信息的同时,充分保留文本的历史信息,且相比现在在处理时间序列热门的循环神经网络RNN及其衍生LSTM,GRU等有着更高的并行计算速度且准确率达99%以上,高于现有中文分类方法两到三个百分点。
[0040] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。