文本主题提取方法、装置及存储介质转让专利

申请号 : CN201910008265.9

文献号 : CN109871532B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 金戈徐亮肖京

申请人 : 平安科技(深圳)有限公司

摘要 :

本发明属于人工智能技术领域,公开了一种文本主题提取方法,包括:构建文本主题提取模型;训练文本主题提取模型;获取文本样本对应的文本词向量;将文本词向量输入经过训练的文本主题提取模型;输出文本主题,其中,文本主题提取模型包括卷积神经网络和注意力机制,注意力机制包括位置注意力机制和通道注意力机制,位置注意力机制和通道注意力机制并行建立,均与卷积神经网络的激活层连接,分别施加位置注意力权重和通道注意力权重,将位置注意力机制的输出结果和通道注意力机制的输出结果均输入卷积神经网路的全连接层。本发明还公开了一种电子装置和存储介质。本发明提高了文本主题提取模型运算效率,提高了文本主题提取的精度。

权利要求 :

1.一种文本主题提取方法,应用于电子装置,其特征在于,包括以下步骤:构建文本主题提取模型;

训练所述文本主题提取模型;

获取文本样本对应的文本词向量;

将所述文本词向量输入经过训练的文本主题提取模型;

输出与所述文本样本相应的文本主题,

其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制,

所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述卷积神经网络的卷积层包括多个一维卷积核,多个所述卷积核的步长分别为1、3和5,每种步长的卷积核各占卷积核总量的1/3,通过内边距的设置实现卷积层输入和输出维度一致;

所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;其中,得到所述位置注意力特征矩阵的步骤包括:所述激活层的输出矩阵通过一个全连接隐含层输出第一转化矩阵,将所述第一转化矩阵与所述位置注意力权重矩阵进行矩阵乘法运算,得到位置注意力特征矩阵;得到所述通道注意力特征矩阵的步骤包括:所述激活层的输出矩阵通过另一个全连接隐含层输出第二转化矩阵,将所述第二转化矩阵与所述通道注意力权重矩阵进行矩阵乘法运算,得到通道注意力特征矩阵;

通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果;

将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。

2.根据权利要求1所述的文本主题提取方法,其特征在于,所述文本主题提取模型还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过所述全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵。

3.根据权利要求1所述的文本主题提取方法,其特征在于,所述文本主题提取模型还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量。

4.根据权利要求1所述的文本主题提取方法,其特征在于,获取文本样本对应的文本词向量的步骤包括:构建词向量模型,并根据语料库对所述词向量模型进行训练;

对所述文本样本进行分词;

将分词后的文本样本输入经过训练的词向量模型;

输出与所述文本样本对应的文本词向量。

5.根据权利要求1至4中任一项所述的文本主题提取方法,其特征在于,训练所述文本主题提取模型的步骤包括:初始化所述文本主题提取模型的参数,所述参数包括:输入层与卷积层的连接权值、卷积层与激活层的连接权值、激活层和全连接层的连接权值;

构建训练样本集,训练样本包括文本词向量和文本主题;

将所述训练样本集中的一个训练样本输入所述文本主题提取模型中,输出与所述训练样本对应的文本主题;

基于所述文本主题提取模型的损失函数更新所述参数;

根据更新后的参数训练下一个训练样本,并计算所述文本主题提取模型的损失函数值;

判断所述文本主题提取模型的训练是否达到收敛条件,若达到收敛条件,则结束训练,得到训练后的文本主题提取模型,若未达到收敛条件,则更新所述文本主题提取模型的参数,继续训练,其中,所述收敛条件为损失函数值的变化小于预设阈值。

6.一种电子装置,其特征在于,该电子装置包括:

处理器;

存储器,所述存储器中包括文本主题提取程序,所述文本主题提取程序被所述处理器执行时实现如下所述的文本主题提取方法的步骤:构建文本主题提取模型;

训练所述文本主题提取模型;

获取文本样本对应的文本词向量;

将所述文本词向量输入经过训练的文本主题提取模型;

输出与所述文本样本相应的文本主题,

其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制,

所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述卷积神经网络的卷积层包括多个一维卷积核,多个所述卷积核的步长分别为1、3和5,每种步长的卷积核各占卷积核总量的1/3,通过内边距的设置实现卷积层输入和输出维度一致;

所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;其中,得到所述位置注意力特征矩阵的步骤包括:所述激活层的输出矩阵通过一个全连接隐含层输出第一转化矩阵,将所述第一转化矩阵与所述位置注意力权重矩阵进行矩阵乘法运算,得到位置注意力特征矩阵;得到所述通道注意力特征矩阵的步骤包括:所述激活层的输出矩阵通过另一个全连接隐含层输出第二转化矩阵,将所述第二转化矩阵与所述通道注意力权重矩阵进行矩阵乘法运算,得到通道注意力特征矩阵;

通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果;

将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。

7.根据权利要求6所述的电子装置,其特征在于,所述文本主题提取模型还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过所述全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵。

8.根据权利要求7所述的电子装置,其特征在于,所述文本主题提取模型还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括文本主题提取程序,所述文本主题提取程序被处理器执行时,实现如权利要求1至5中任一项所述的文本主题提取方法的步骤。

说明书 :

文本主题提取方法、装置及存储介质

技术领域

[0001] 本发明涉及人工智能技术领域,尤其涉及一种文本主题提取方法、装置及存储介质。

背景技术

[0002] 随着互联网的迅速发展,越来越多的用户通过网络进行信息的共享,通过电子文本记载网络信息资源,因此,若需要快速在海量的电子文本中找到所需电子信息,则需要在文本中提取文本主题以表征该电子文本。在一个文本中提取文本主题可以帮助用户判断是否需要查看文本的全文。而海量的电子文本存在多个主题文本,包含丰富的主题信息。对于文本主题的提取大多是基于人工智能技术,利用计算机通过文本主题提取模型,从文本中自动提取内容生成文本主题。现有多数文本主题提取模型主要基于循环神经网络,而循环神经网络模型的运算效率较低,导致文本主题提取模型的运算效率较低,增加运算负担,且导致通过该文本主题提取模型进行文本主题提取的效率较低。

发明内容

[0003] 本发明提供一种基于卷积神经网络和注意力机制的文本主题提取方法、装置及存储介质,以提高文本主题提取的效率,降低文本主题提取模型的运算负担。
[0004] 为了实现上述目的,本发明的一个方面是提供一种文本主题提取方法,包括:构建文本主题提取模型;训练所述文本主题提取模型;获取文本样本对应的文本词向量;将所述文本词向量输入经过训练的文本主题提取模型;输出与所述文本样本相应的文本主题,其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果;将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0005] 优选地,所述文本主题提取模型还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过所述全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵。
[0006] 优选地,得到所述位置注意力特征矩阵的步骤包括:所述激活层的输出矩阵通过一个全连接隐含层输出第一转化矩阵,将所述第一转化矩阵与所述位置注意力权重矩阵进行矩阵乘法运算,得到位置注意力特征矩阵;得到所述通道注意力特征矩阵的步骤包括:所述激活层的输出矩阵通过另一个全连接隐含层输出第二转化矩阵,将所述第二转化矩阵与所述通道注意力权重矩阵进行矩阵乘法运算,得到通道注意力特征矩阵。
[0007] 优选地,所述文本主题提取模型还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量。
[0008] 优选地,获取文本样本对应的文本词向量的步骤包括:构建词向量模型,并根据语料库对所述词向量模型进行训练;对所述文本样本进行分词;将分词后的文本样本输入经过训练的词向量模型;输出与所述文本样本对应的文本词向量。
[0009] 优选地,训练所述文本主题提取模型的步骤包括:
[0010] 初始化所述文本主题提取模型的参数,所述参数包括:输入层与卷积层的连接权值、卷积层与激活层的连接权值、激活层和全连接层的连接权值;
[0011] 构建训练样本集,训练样本包括文本词向量和文本主题;
[0012] 将所述训练样本集中的一个训练样本输入所述文本主题提取模型中,输出与所述训练样本对应的文本主题;
[0013] 基于所述文本主题提取模型的损失函数更新所述参数;
[0014] 根据更新后的参数训练下一个训练样本,并计算所述文本主题提取模型的损失函数值;
[0015] 判断所述文本主题提取模型的训练是否达到收敛条件,若达到收敛条件,则结束训练,得到训练后的文本主题提取模型,若未达到收敛条件,则更新所述文本主题提取模型的参数,继续训练,其中,所述收敛条件为损失函数值的变化小于预设阈值。
[0016] 为了实现上述目的,本发明的另一个方面是提供一种电子装置,该电子装置包括:处理器;存储器,所述存储器中包括文本主题提取程序,所述文本主题提取程序被所述处理器执行时实现如下所述的文本主题提取方法的步骤:
[0017] 构建文本主题提取模型;训练所述文本主题提取模型;获取文本样本对应的文本词向量;将所述文本词向量输入经过训练的文本主题提取模型;输出与所述文本样本相应的文本主题,其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果;将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0018] 优选地,所述文本主题提取模型还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过所述全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵。
[0019] 优选地,所述文本主题提取模型还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量。
[0020] 为了实现上述目的,本发明的再一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中包括文本主题提取程序,所述文本主题提取程序被处理器执行时,实现如上所述的文本主题提取方法的步骤。
[0021] 相对于现有技术,本发明具有以下优点和有益效果:
[0022] 本发明通过卷积神经网络与注意力机制相结合构建文本主题提取模型,提取与文本相应的文本主题,提高了文本主题提取模型的精度,同时提高了文本主题提取模型的运算效率,从而提高了通过所述文本主题提取模型对文本样本进行主题提取的效率。

附图说明

[0023] 图1为本发明所述文本主题提取方法的流程示意图;
[0024] 图2为本发明中文本主题提取程序的模块示意图。
[0025] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0026] 下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,仅仅用以解释本发明,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
[0027] 图1为本发明所述文本主题提取方法的流程示意图,如图1所示,本发明所述文本主题提取方法,包括以下步骤:
[0028] 步骤S1、构建文本主题提取模型;
[0029] 步骤S2、训练所述文本主题提取模型;
[0030] 步骤S3、获取文本样本对应的文本词向量;
[0031] 步骤S4、将所述文本词向量输入经过训练的文本主题提取模型;
[0032] 步骤S5、输出与所述文本样本相应的文本主题,
[0033] 其中,步骤S1中构建的所述文本主题提取模型包括卷积神经网络和注意力机制,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0034] 本发明通过卷积神经网络与注意力机制相结合构建文本主题提取模型,提取与文本相应的文本主题,可以用于评语的关键词摘取。所述文本主题提取模型通过卷积神经网络进行卷积运算,并通过建立并行的位置注意力机制和通道注意力机制为不同的语义分配不同的权重,在提高文本主题提取模型的精度的同时,提高了文本主题提取模型的运算效率,从而提高了通过所述文本主题提取模型对文本样本进行主题提取的效率。
[0035] 本发明中,所述卷积神经网络的卷积层包括多个一维卷积核,每个卷积核均有128通道,多个所述卷积核的步长分别为1、3和5,每种步长的卷积核各占卷积核总量的1/3,通过内边距(padding)的设置实现卷积层输入和输出维度一致。卷积核的数量越多,通过卷积层提取的文本特征越多,后续通过对文本特征向量的处理得到的文本主题越精确。但卷积核的数量越多,会影响文本主题提取模型的运行速度,所以,卷积核不宜过量。
[0036] 本发明的一个实施例中,卷积神经网络中激活层的激活函数采用ReLU函数,但本发明并不限于此,也可以是其他的激活函数形式,例如,Sigmoid函数或Tanh函数等形式。本发明中,将激活层的输出作为卷积神经网络的输出。
[0037] 优选地,训练所述文本主题提取模型的步骤包括:
[0038] 初始化所述文本主题提取模型的参数,所述参数包括:输入层与卷积层的连接权值、卷积层与激活层的连接权值、激活层和全连接层的连接权值;
[0039] 构建训练样本集,训练样本包括文本词向量和文本主题;
[0040] 将所述训练样本集中的一个训练样本输入所述文本主题提取模型中,输出与所述训练样本对应的文本主题;
[0041] 基于所述文本主题提取模型的损失函数更新所述参数,其中,损失函数为交叉熵函数;
[0042] 根据更新后的参数训练下一个训练样本,并计算所述文本主题提取模型的损失函数值;
[0043] 判断所述文本主题提取模型的训练是否达到收敛条件,若达到收敛条件,则结束训练,得到训练后的文本主题提取模型,若未达到收敛条件,则更新所述文本主题提取模型的参数,继续训练,其中,所述收敛条件为损失函数值的变化小于预设阈值。一般,预设阈值可以取为0.02,训练学习率为0.001。
[0044] 本发明中可以通过多种方式将文本样本转化为与其相对应的文本词向量。优选地,所述主题提取模型还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量,将得到的文本词向量输入所述卷积神经网络的输入层。但本发明并不限于此,本发明还可以通过采用各种词向量模型将文本样本转化为与其对应的文本词向量,例如,Word2Vec模型、CBOW模型等。优选地,所述步骤S3中,获取文本样本对应的文本词向量的步骤包括:
[0045] 构建词向量模型,并根据语料库对所述词向量模型进行训练,其中,用于训练的语料库可以是中文维基百科语料库;
[0046] 对所述文本样本进行分词;
[0047] 将分词后的文本样本输入经过训练的词向量模型;
[0048] 输出与所述文本样本对应的文本词向量。
[0049] 根据文本样本确定文本长度,根据确定的文本长度对文本样本进行分词,本发明的一个实施例中,根据文本样本确定的文本长度为100,通过分词库(例如,jieba、Jcseg和HanLP等分词库)对文本样本进行分词,文本词向量的维度为300。
[0050] 本发明中,注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制根据文本位置特征对所述激活层的输出矩阵施加注意力,进行权重分配;所述通道注意力机制根据卷积核通道对所述激活层的输出施加注意力,进行权重分配。
[0051] 所述位置注意力机制和所述通道注意力机制并行建立,且均与所述激活层连接,所述位置注意力机制和所述通道注意力机制的输入均来源于所述激活层的输出,优选地,所述文本主题提取模型还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过不同的全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵,根据所述位置注意力权重矩阵和通道注意力权重矩阵分别对所述激活层的输出进行权重分配。
[0052] 进一步地,所述激活层的输出矩阵通过一个全连接隐含层输出第一转化矩阵,将所述第一转化矩阵与所述位置注意力权重矩阵进行矩阵乘法运算,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,输入所述全连接层;所述激活层的输出矩阵通过另一个全连接隐含层输出第二转化矩阵,将所述第二转化矩阵与所述通道注意力权重矩阵进行矩阵乘法运算,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,输入所述全连接层。
[0053] 本发明的一个实施例中,卷积神经网络的卷积核为单维卷积核,卷积核通道数总量为k,激活层的输出矩阵为k*m*1,处理时将激活层的输出矩阵转化为k*m,通过与激活层连接的不同的全连接隐含层对激活层的输出矩阵进行特征提取,将激活层的输出矩阵分别转化为维度为m*k和k*m的两个矩阵,并将两个矩阵进行乘法运算,得到维度为m*m的位置注意力权重矩阵,根据该位置注意力权重矩阵对激活层的输出进行权重分配,使得处于不同位置的语义得到不同的权重,以更加精确地提取文本主题。类似地,通过与激活层连接的不同的全连接隐含层对激活层的输出进行特征提取,将激活层的输出矩阵分别转化为维度为k*m和m*k的两个矩阵,并将两个矩阵进行乘法运算,得到维度为k*k的通道注意力权重矩阵,根据该通道注意力权重矩阵对激活层的输出进行权重分配。
[0054] 例如,卷积神经网络的卷积核为单维卷积核,卷积核通道数总量为384,卷积神经网络激活层的输出矩阵为384*100*1的三维矩阵。对于位置注意力机制,首先将激活层的输出矩阵转化为384*100的二维矩阵,通过两个并行的全连接隐含层输出维度为100*384与384*100的两个矩阵,并将两个矩阵进行矩阵乘法运算及softmax映射,得到维度为100*100的位置注意力权重矩阵。在此基础上,通过另一个并行的全连接隐含层输出维度为384*100的第一转化矩阵,将第一转化矩阵与位置注意力权重矩阵进行矩阵乘法运算,得到维度为
384*100的位置注意力特征矩阵并将其转化为384*100*1的三维矩阵,并与激活层输出的
384*100*1的三维矩阵加和,作为位置注意力机制的输出结果。对于通道注意力机制,首先将激活层的输出矩阵转化为384*100的二维矩阵,通过两个并行的全连接隐含层输出维度为384*100与100*384的两个矩阵,并将两个矩阵进行矩阵乘法运算及softmax映射,得到维度为384*384的通道注意力权重矩阵。在此基础上,通过另一个并行的全连接隐含层输出维度为100*384的第二转化矩阵,将第二转化矩阵与通道注意力权重矩阵进行矩阵乘法,得到维度为100*384的通道注意力矩阵并将其转化为384*100*1的三维矩阵,并与激活层输出的
384*100*1的三维矩阵加和,作为通道注意力机制的输出结果。将位置注意力机制和通道注意力机制的输出结果,输入全连接层,完成整个文本主题提取模型的输出,文本主题提取模型的输出维度为100,与文本样本确定的文本长度相同,对应输入的文本样本中每个词语的关键词标注。
[0055] 本发明中,通过注意力机制向激活层的输出矩阵施加不同的注意力权重,经过注意力机制得到位置注意力特征矩阵和通道注意力特征矩阵,将位置注意力特征矩阵和通道注意力特征矩阵分别与卷积神经网络的输出矩阵加和。例如,文本词向量经卷积神经网络激活层的作用得到10维输出矩阵,通过位置注意力机制向10维输出矩阵施加位置注意力得到10维的位置注意力特征矩阵,通过通道注意力机制向10维输出矩阵施加通道注意力得到10维的通道注意力特征矩阵,将10维的位置注意力特征矩阵与卷积神经网络的10维输出矩阵加和得到20维的输出矩阵,输入全连接层。类似地,将10维的通道注意力特征矩阵与卷积神经网络的10维输出矩阵加和得到20维的输出矩阵,输入全连接层,经全连接层输出文本主题。
[0056] 本发明所述文本主题提取方法应用于电子装置,所述电子装置可以是电视机、智能手机、平板电脑、计算机等终端设备。
[0057] 所述电子装置包括:处理器;存储器,用于存储文本主题提取程序,处理器执行所述文本主题提取程序,实现以下的文本主题提取方法的步骤:构建文本主题提取模型;训练所述文本主题提取模型;获取文本样本对应的文本词向量;将所述文本词向量输入经过训练的文本主题提取模型;输出与所述文本样本相应的文本主题。
[0058] 其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0059] 所述电子装置还包括网络接口和通信总线等。其中,网络接口可以包括标准的有线接口、无线接口,通信总线用于实现各个组件之间的连接通信。
[0060] 存储器包括至少一种类型的可读存储介质,可以是闪存、硬盘、光盘等非易失性存储介质,也可以是插接式硬盘等,且并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。本发明中,存储器存储的软件程序包括文本主题提取程序,并可以向处理器提供该文本主题提取程序,以使得处理器可以执行该文本主题提取程序,实现文本主题提取方法的步骤。
[0061] 处理器可以是中央处理器、微处理器或其他数据处理芯片等,可以运行存储器中的存储程序,例如,可以执行本发明中的文本主题提取程序。
[0062] 所述电子装置还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light‑Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置中处理的信息以及用于显示可视化的工作界面。
[0063] 所述电子装置还可以包括用户接口,用户接口可以包括输入单元(比如键盘)、语音输出装置(比如音响、耳机)等。
[0064] 本发明中,所述文本主题提取模型中的卷积神经网络的卷积层包括多个一维卷积核,每个卷积核均有128通道,多个所述卷积核的步长分别为1、3和5,每种步长的卷积核各占卷积核总量的1/3,通过内边距(padding)的设置实现卷积层输入和输出维度一致。
[0065] 优选地,训练所述文本主题提取模型的步骤包括:
[0066] 初始化所述文本主题提取模型的参数,所述参数包括:输入层与卷积层的连接权值、卷积层与激活层的连接权值、激活层和全连接层的连接权值;
[0067] 构建训练样本集,训练样本包括文本词向量和文本主题;
[0068] 将所述训练样本集中的一个训练样本输入所述文本主题提取模型中,输出与所述训练样本对应的文本主题;
[0069] 基于所述文本主题提取模型的损失函数更新所述参数,其中,损失函数为交叉熵函数;
[0070] 根据更新后的参数训练下一个训练样本,并计算所述文本主题提取模型的损失函数值;
[0071] 判断所述文本主题提取模型的训练是否达到收敛条件,若达到收敛条件,则结束训练,得到训练后的文本主题提取模型,若未达到收敛条件,则更新所述文本主题提取模型的参数,继续训练,其中,所述收敛条件为损失函数值的变化小于预设阈值。一般,预设阈值可以取为0.02,训练学习率为0.001。
[0072] 本发明中可以通过多种方式将文本样本转化为与其相对应的文本词向量。优选地,所述主题提取模型还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量,将得到的文本词向量输入所述卷积神经网络的输入层。但本发明并不限于此,本发明还可以通过采用各种词向量模型将文本样本转化为与其对应的文本词向量,例如,Word2Vec模型、CBOW模型等。优选地,获取文本样本对应的文本词向量的步骤包括:
[0073] 构建词向量模型,并根据语料库对所述词向量模型进行训练,其中,用于训练的语料库可以是中文维基百科语料库;
[0074] 对所述文本样本进行分词;
[0075] 将分词后的文本样本输入经过训练的词向量模型;
[0076] 输出与所述文本样本对应的文本词向量。
[0077] 根据文本样本确定文本长度,根据确定的文本长度对文本样本进行分词,本发明的一个实施例中,根据文本样本确定的文本长度为100,通过分词库(例如,jieba、Jcseg和HanLP等分词库)对文本样本进行分词,文本词向量的维度为300。
[0078] 优选地,所述文本主题提取模型还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过不同的全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵,根据所述位置注意力权重矩阵和通道注意力权重矩阵分别对所述激活层的输出进行权重分配,所述位置注意力机制和所述通道注意力机制的输入均来源于所述激活层的输出。
[0079] 进一步地,所述激活层的输出矩阵通过一个全连接隐含层输出第一转化矩阵,将所述第一转化矩阵与所述位置注意力权重矩阵进行矩阵乘法运算,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,输入所述全连接层;所述激活层的输出矩阵通过另一个全连接隐含层输出第二转化矩阵,将所述第二转化矩阵与所述通道注意力权重矩阵进行矩阵乘法运算,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,输入所述全连接层。
[0080] 本发明的一个实施例中,卷积神经网络的卷积核为单维卷积核,卷积核通道数总量为k,激活层的输出矩阵为k*m*1,处理时将激活层的输出矩阵转化为k*m,通过与激活层连接的不同的全连接隐含层对激活层的输出矩阵进行特征提取,将激活层的输出矩阵分别转化为维度为m*k和k*m的两个矩阵,并将两个矩阵进行乘法运算,得到维度为m*m的位置注意力权重矩阵,根据该位置注意力权重矩阵对激活层的输出进行权重分配,使得处于不同位置的语义得到不同的权重,以更加精确地提取文本主题。类似地,通过与激活层连接的不同的全连接隐含层对激活层的输出进行特征提取,将激活层的输出矩阵分别转化为维度为k*m和m*k的两个矩阵,并将两个矩阵进行乘法运算,得到维度为k*k的通道注意力权重矩阵,根据该通道注意力权重矩阵对激活层的输出进行权重分配。
[0081] 在其他实施例中,文本主题提取程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器中,并由处理器执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。图2为本发明中文本主题提取程序的模块示意图,如图2所示,所述文本主题提取程序可以被分割为:模型构建模块1、模型训练模块2、获取模块3、输入模块4和输出模块5。上述模块所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
[0082] 模型构建模块1,构建文本主题提取模型,其中,构建的文本主题提取模型包括卷积神经网络和注意力机制,具体构成如上文所述,在此不再赘述;
[0083] 模型训练模块2,训练所述文本主题提取模型;
[0084] 获取模块3,获取文本样本对应的文本词向量;
[0085] 输入模块4,将所述文本词向量输入经过训练的文本主题提取模型;
[0086] 输出模块5,输出与所述文本样本相应的文本主题。
[0087] 本发明的一个实施例中,计算机可读存储介质可以是任何包含或存储程序或指令的有形介质,其中的程序可以被执行,通过存储的程序指令相关的硬件实现相应的功能。例如,计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括文本主题提取程序,所述文本主题提取程序被处理器执行时,实现如下的文本主题提取方法:
[0088] 构建文本主题提取模型;训练所述文本主题提取模型;获取文本样本对应的文本词向量;将所述文本词向量输入经过训练的文本主题提取模型;输出与所述文本样本相应的文本主题。
[0089] 其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0090] 本发明之计算机可读存储介质的具体实施方式与上述文本主题提取方法、电子装置的具体实施方式大致相同,在此不再赘述。
[0091] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0092] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0093] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。