一种融合层次类别信息的事件检测方法与系统转让专利

申请号 : CN202111023710.2

文献号 : CN113468333B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘刚万仲保邬昌兴

申请人 : 华东交通大学

摘要 :

本发明提出一种融合层次类别信息的事件检测方法与系统,该方法包括:将句子中的每个词转换成词对应的语义向量表示,结合词对应的语义向量表示以计算得到词在上下文中的语义向量表示;根据事件类别的向量表示及事件类别的层次结构计算得到事件类别融合了层次信息的向量表示;通过注意力机制确定词相关的事件类别信息的向量表示,将词相关的事件类别信息的向量表示与词在上下文中的语义向量表示进行拼接,以得到词最终的语义向量表示;以词最终的语义向量表示作为输入,计算句子的每个标记序列对应的总得分,选择总得分最高的标记序列作为最终预测结果。在本发明中,充分利用了事件类别信息,可实现更为准确的事件检测效果。

权利要求 :

1.一种融合层次类别信息的事件检测方法,其特征在于,所述方法包括如下步骤:步骤一:将输入的句子中的每个词转换成词对应的语义向量表示,基于双向长短时记忆网络并结合所述词对应的语义向量表示以计算得到词在上下文中的语义向量表示;

步骤二:基于所述词对应的语义向量表示得到对应的事件类别的向量表示,根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别融合了层次信息的向量表示;

步骤三:通过注意力机制确定词相关的事件类别信息的向量表示,然后将所述词相关的事件类别信息的向量表示与所述词在上下文中的语义向量表示进行拼接,以得到词最终的语义向量表示;

步骤四:基于条件随机场层,以所述词最终的语义向量表示作为输入,计算句子的每个标记序列对应的总得分,并选择总得分最高的标记序列作为最终的预测结果;

在所述步骤二中,所述根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别融合了层次信息的向量表示的方法包括如下步骤:基于事件类别之间的层次结构进行构建以得到事件类别结构图;

基于所述事件类别结构图构建得到图神经网络层,根据所述图神经网络层在所述事件类别结构图中的结点之间传递信息,以建模结点之间的语义关系,从而最终得到事件类别融合了层次信息的向量表示;

其中,所述事件类别结构图表示为 , 是一个带权有向图, 表示事件类别结构图中所有结点的集合,每个结点对应一种事件类别, 表示事件类别结构图中所有弧的集合;

在所述事件类别结构图中,结点 与 之间的弧 定义如下:其中,1表示事件类别结构图中包含弧 ,0表示事件类别结构图中不包含弧,结点 称为弧尾,结点 称为弧头。

2.根据权利要求1所述的一种融合层次类别信息的事件检测方法,其特征在于,在所述步骤一中,词在上下文中的语义向量表示对应的符号表示为:其中, 和 均为长短时记忆网络, 表示从左至右建模词的上文信息, 表示从右至左建模词的下文信息, 为融合了词的上文信息的语义向量表示,为融合了词的下文信息的语义向量表示, 为词 对应的语义向量表示,词 在上下文中的语义向量表示为 , 表示向量拼接操作。

3.根据权利要求1所述的一种融合层次类别信息的事件检测方法,其特征在于,在所述事件类别结构图中,弧 上对应的权重 定义如下:其中, 表示在语料 中结点 对应类别的事件出现的次数, 表示在语料 中结点 对应类别的事件出现的次数。

4.根据权利要求3所述的一种融合层次类别信息的事件检测方法,其特征在于,所述事件类别融合了层次信息的向量表示对应的公式为:其中, 为结点 对应事件类别融合了层次信息的向量表示, 为类别向量层输出的结点 对应的事件类别的向量表示, 为类别向量表示 经过一个线性变换后得到的向量表示, 为类别向量层输出的结点 对应的事件类别的向量表示, 为类别向量表示 经过一个线性变换后得到的向量表示, 为与弧尾结点 有弧相连的弧头结点的下标的集合, 为非线性函数, 均为图神经网络层的参数。

5.根据权利要求1所述的一种融合层次类别信息的事件检测方法,其特征在于,在所述步骤三中,通过注意力机制确定词 相关的事件类别信息的向量表示 对应的公式为:其中, 是与词 相关的事件类别的向量表示, 是词 在上下文中的语义向量表示, 表示向量的转置, 和 分别为第 个和第 个事件类别融合了层次信息的向量表示, 是句子中第 个词与第 个事件类别的相关性权重, 为事件类别的数量;

词 最终的语义向量表示 对应的公式为:其中, 表示向量拼接操作。

6.根据权利要求5所述的一种融合层次类别信息的事件检测方法,其特征在于,在所述步骤四中,以所述词最终的语义向量表示作为输入,计算句子的每个标记序列对应的总得分的步骤中,对应的公式为:

其中, 为计算得到的序列 的总得分,是词 预测为标记 的得分,可由一个多层前馈神经网络计算得到,是预测标记 到 的转移得分,也是条件随机场层中需要学习的参数。

7.根据权利要求6所述的一种融合层次类别信息的事件检测方法,其特征在于,在所述步骤四中,选择总得分最高的标记序列作为最终的预测结果对应的公式表达为:其中, 是对应于词 的预测标记,CRF为条件随机场层。

8.一种融合层次类别信息的事件检测系统,其特征在于,所述系统包括上下文信息编码模块、层次类别信息编码模块、信息融合模块和预测模块;

所述上下文信息编码模块用于:

将输入的句子中的每个词转换成词对应的语义向量表示,基于双向长短时记忆网络并结合所述词对应的语义向量表示以计算得到词在上下文中的语义向量表示;

所述层次类别信息编码模块用于:基于所述词对应的语义向量表示得到对应的事件类别的向量表示,根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别融合了层次信息的向量表示;

所述信息融合模块用于:

通过注意力机制确定词相关的事件类别信息的向量表示,然后将所述词相关的事件类别信息的向量表示与所述词在上下文中的语义向量表示进行拼接,以得到词最终的语义向量表示;

所述预测模块用于:

基于条件随机场层,以所述词最终的语义向量表示作为输入,计算句子的每个标记序列对应的总得分,并选择总得分最高的标记序列作为最终的预测结果;

所述层次类别信息编码模块还用于:基于事件类别之间的层次结构进行构建以得到事件类别结构图;

基于所述事件类别结构图构建得到图神经网络层,根据所述图神经网络层在所述事件类别结构图中的结点之间传递信息,以建模结点之间的语义关系,从而最终得到事件类别融合了层次信息的向量表示;

其中,所述事件类别结构图表示为 , 是一个带权有向图, 表示事件类别结构图中所有结点的集合,每个结点对应一种事件类别, 表示事件类别结构图中所有弧的集合;

在所述事件类别结构图中,结点 与 之间的弧 定义如下:其中,1表示事件类别结构图中包含弧 ,0表示事件类别结构图中不包含弧,结点 称为弧尾,结点 称为弧头。

说明书 :

一种融合层次类别信息的事件检测方法与系统

技术领域

[0001] 本发明涉及计算机信息处理技术领域,特别涉及一种融合层次类别信息的事件检测方法与系统。

背景技术

[0002] 事件检测(Event detection)是文本信息抽取中的一项重要任务,其目的是找出文本中所包含的事件的触发词,同时判断事件的类别。例如,以句子“因为上网被骗了,他很
难过”为输入,一个事件检测模型应该准确找出事件的触发词是“被骗”,并判断事件的类别
为“网络诈骗”。事件检测是从非结构化的文本中抽取事件信息的第一步,也是众多自然语
言处理应用的基础,因此受到学术界和产业界越来越多的关注,是当前的研究热点之一。事
件检测通常被建模为序列标注问题,即给序列(句子)中的每个字或词指定一个标记。通过
联合预测输入句子中每个词的标记(例如,常用的BIO标记模式),并连接相应的标记就可以
得到该句子中包含事件的触发词及类别。
[0003] 早期基于人工特征的事件检测方法通常包括两个步骤:首先,根据任务的特点人工定义大量的特征,包括词特征、句法特征以及实体特征等;然后,选用合适的机器学习算
法用于预测,例如,最大熵模型、支持向量机和条件随机场等。这类方法的主要缺点是需要
人工定义特征,而人工定义是一件费时费力的事件。此外,将大量人工特征表示为高维的离
散向量(几万甚至几十万维)也容易导致过拟合问题。
[0004] 近年来,随着深度学习的迅速发展,基于神经网络的方法已经成为主流的事件检测方法。这类方法通常设计端到端的网络模型用于事件检测,使用包含丰富语言特征的词
向量(通常为低维的实数向量)作为输入,使用双向长短时记忆网络(BiLSTM)等自动提取特
定于任务的特征。基于神经网络的方法不但避免了人工设计特征的繁重工作,而且性能优
于基于人工特征的方法。现有基于神经网络的事件检测方法大致可以分为以下三大类:(1)
采用不同结构的神经网络用于学习特征,例如,卷积神经网络、注意力机制和多头注意力机
制等。(2)使用不同的学习算法优化事件检测模型,例如,对抗学习、知识蒸馏和预训练技术
等。(3)引入外部资源增强事件检测模型,例如,事件论元相关信息、文档中更多的上下文信
息、知识库中的信息和句法信息等。
[0005] 然而,现有事件检测方法在学习特征的过程中,都忽略了事件类别信息的利用,包括事件类别的名称和事件类别之间的层次关系。本质上,现有方法把所有事件类别进行编
号,而不考虑事件类别的名称,且只用于模型的分类层,这显然丢失了很多重要的信息。例
如,模型在针对句子“因为上网被骗了,他很难过”进行事件检测时,考虑事件类别的名称有
以下两个方面的作用:(1)句子中的词“被骗”和事件类别名称中的词“诈骗”在语义上很接
近,这有助于模型准确识别出触发词“被骗”;(2)句子中的词“上网”和事件类别名称中的词
“网络”在语义上很接近,这有助于模型准确识别出事件类别为“网络诈骗”。
[0006] 基于此,有必要提出一种新型的事件检测方法,通过结合考虑事件类别信息,以提高事件检测方法的准确性。

发明内容

[0007] 鉴于上述状况,有必要解决现有技术中,由于在进行事件检测时,没有将事件类别信息考虑进去,导致事件检测准确度不太理想的问题。
[0008] 本发明实施例提供了一种融合层次类别信息的事件检测方法,其中,所述方法包括如下步骤:
[0009] 步骤一:将输入的句子中的每个词转换成词对应的语义向量表示,基于双向长短时记忆网络并结合所述词对应的语义向量表示以计算得到词在上下文中的语义向量表示;
[0010] 步骤二:基于所述词对应的语义向量表示得到对应的事件类别的向量表示,根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别融合了层次信息的向
量表示;
[0011] 步骤三:通过注意力机制确定词相关的事件类别信息的向量表示,然后将所述词相关的事件类别信息的向量表示与所述词在上下文中的语义向量表示进行拼接,以得到词
最终的语义向量表示;
[0012] 步骤四:基于条件随机场层,以所述词最终的语义向量表示作为输入,计算句子的每个标记序列对应的总得分,并选择总得分最高的标记序列作为最终的预测结果。
[0013] 本发明提出的融合层次类别信息的事件检测方法,首先将输入的句子中的每个词转换成词对应的语义向量表示,基于双向长短时记忆网络并结合词对应的语义向量表示以
计算得到词在上下文中的语义向量表示;基于所述词对应的语义向量表示得到对应的事件
类别的向量表示,根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别
融合了层次信息的向量表示;通过注意力机制确定词相关的事件类别信息的向量表示,然
后将词相关的事件类别信息的向量表示与词在上下文中的语义向量表示进行拼接,以得到
词最终的语义向量表示;最后基于条件随机场层,以词最终的语义向量表示作为输入,计算
句子的每个标记序列对应的总得分,并选择总得分最高的标记序列作为最终的预测结果。
本发明提出的融合层次类别信息的事件检测方法,充分利用了事件类别信息,可实现更为
准确的事件检测效果。
[0014] 所述融合层次类别信息的事件检测方法,其中,在所述步骤一中,词在上下文中的语义向量表示对应的符号表示为:
[0015]
[0016] 其中, 和 均为长短时记忆网络, 表示从左至右建模词的上文信息, 表示从右至左建模词的下文信息, 为融合了词的上文信息的语义向量表
示, 为融合了词的下文信息的语义向量表示, 为词 对应的语义向量表示,词 在
上下文中的语义向量表示为 , 表示向量拼接操作。
[0017] 所述融合层次类别信息的事件检测方法,其中,在所述步骤二中,所述根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别融合了层次信息的向量表示
的方法包括如下步骤:
[0018] 基于事件类别之间的层次结构进行构建以得到事件类别结构图;
[0019] 基于所述事件类别结构图构建得到图神经网络层,根据所述图神经网络层在所述事件类别结构图中的结点之间传递信息,以建模结点之间的语义关系,从而最终得到事件
类别融合了层次信息的向量表示。
[0020] 所述融合层次类别信息的事件检测方法,其中,所述事件类别结构图表示为, 是一个带权有向图, 表示事件类别结构图中所有结点的集合,每个结点
对应一种事件类别, 表示事件类别结构图中所有弧的集合;
[0021] 在所述事件类别结构图中,结点 与 之间的弧 定义如下:
[0022]
[0023] 其中,1表示事件类别结构图中包含弧 ,0表示事件类别结构图中不包含弧 ,结点 称为弧尾,结点 称为弧头。
[0024] 所述融合层次类别信息的事件检测方法,其中,在所述事件类别结构图中,弧上对应的权重 定义如下:
[0025]
[0026] 其中, 表示在语料 中结点 对应类别的事件出现的次数, 表示在语料中结点 对应类别的事件出现的次数。
[0027] 所述融合层次类别信息的事件检测方法,其中,所述事件类别融合了层次信息的向量表示对应的公式为:
[0028]
[0029] 其中, 为结点 对应事件类别融合了层次信息的向量表示, 为类别向量层输出的结点 对应的事件类别的向量表示, 为类别向量表示 经过一个线性变换后得
到的向量表示, 为类别向量层输出的结点 对应的事件类别的向量表示, 为类别向
量表示 经过一个线性变换后得到的向量表示, 为与弧尾结点 有弧相连的弧头
结点的下标的集合, 为非线性函数, 均为图神经网络层的参数。
[0030] 所述融合层次类别信息的事件检测方法,其中,在所述步骤三中,通过注意力机制确定词 相关的事件类别信息的向量表示 对应的公式为:
[0031]
[0032] 其中, 是与词 相关的事件类别的向量表示, 是词 在上下文中的语义向量表示, 表示向量的转置, 和 分别为第 个和第 个事件类别融合了层次信息的
向量表示, 是句子中第 个词与第 个事件类别的相关性权重, 为事件类别的数量;
[0033] 词 最终的语义向量表示 对应的公式为:
[0034]
[0035] 其中, 表示向量拼接操作。
[0036] 所述融合层次类别信息的事件检测方法,其中,在所述步骤四中,以所述词最终的语义向量表示作为输入,计算句子的每个标记序列对应的总得分的步骤中,对应的公式为:
[0037]
[0038] 其中, 为计算得到的序列 的总得分, 是词 预测为标记 的得分,可由一个多层前馈神经网络计算得到,
是预测标记 到 的转移得分,也是条件随机场层中需要学习的参数。
[0039] 所述融合层次类别信息的事件检测方法,其中,在所述步骤四中,选择总得分最高的标记序列作为最终的预测结果,对应的公式表达为:
[0040]
[0041] 其中, 是对应于词 的预测标记,CRF为条件随机场层。
[0042] 本发明还提出一种融合层次类别信息的事件检测系统,其中,所述系统包括上下文信息编码模块、层次类别信息编码模块、信息融合模块和预测模块;
[0043] 所述上下文信息编码模块用于:
[0044] 将输入的句子中的每个词转换成词对应的语义向量表示,基于双向长短时记忆网络并结合所述词对应的语义向量表示以计算得到词在上下文中的语义向量表示;
[0045] 所述层次类别信息编码模块用于:
[0046] 基于所述词对应的语义向量表示得到对应的事件类别的向量表示,根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别融合了层次信息的向量表示;
[0047] 所述信息融合模块用于:
[0048] 通过注意力机制确定词相关的事件类别信息的向量表示,然后将所述词相关的事件类别信息的向量表示与所述词在上下文中的语义向量表示进行拼接,以得到词最终的语
义向量表示;
[0049] 所述预测模块用于:
[0050] 基于条件随机场层,以所述词最终的语义向量表示作为输入,计算句子的每个标记序列对应的总得分,并选择总得分最高的标记序列作为最终的预测结果。
[0051] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。

附图说明

[0052] 图1为本发明第一实施例提出的融合层次类别信息的事件检测方法的流程图;
[0053] 图2为本发明第一实施例提出的融合层次类别信息的事件检测方法的原理图;
[0054] 图3为本发明第一实施例提出的事件类别结构图;
[0055] 图4为本发明第二实施例提出的融合层次类别信息的事件检测系统的结构图。

具体实施方式

[0056] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0057] 参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施
例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的
实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0058] 请参阅图1至图3,本发明第一实施例提出一种融合层次类别信息的事件检测方法,其中,所述方法包括如下步骤:
[0059] S101,将输入的句子中的每个词转换成词对应的语义向量表示,基于双向长短时记忆网络并结合所述词对应的语义向量表示以计算得到词在上下文中的语义向量表示。
[0060] 如图2所示,本步骤由上下文信息编码模块执行。其中,上下文信息编码模块包括词向量层和BiLSTM层。词向量层用于将句子中的每个词转换为对应的语义向量表示,
BiLSTM层用于进一步学习词在上下文中的语义向量表示。
[0061] 词向量层把句子中的每个词转换成对应的语义向量表示:
[0062] 具体的,先基于现有词向量工具(Word2Vec或GloVe)在大规模无标注的文本上预训练好词向量矩阵 , 中的每一行对应词表中的一个词。给定含有 个词的句子
,从词向量矩阵 中找到词 对应的行向量,即为词 的语义向量表
示,记为 。也就是说,词向量层把输入的句子 转换成词向量序列 。
[0063] BiLSTM层用于进一步学习词在上下文中的语义向量表示:
[0064] 具体的,BiLSTM(双向长短时记忆网络)是一种常用于句子级上下文信息建模的神经网络,在众多自然语言处理任务上取得了较好的效果。如上所述,由于给定了句子 对应
的词向量序列 ,BiLSTM层按如下方式计算词在上下文中的语义向量表
示:
[0065]
[0066] 其中, 和 均为长短时记忆网络, 表示从左至右建模词的上文信息, 表示从右至左建模词的下文信息, 为融合了词的上文信息的语义向量表
示, 为融合了词的下文信息的语义向量表示, 为词 对应的语义向量表示。
[0067] 最后得到词 在上下文中的语义向量表示为 ,其中, 表示向量拼接操作。也就是说,BiLSTM层进一步把句子 编码为含有上下文信息的词向量序列

[0068] S102,基于所述词对应的语义向量表示得到对应的事件类别的向量表示,根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别融合了层次信息的向量
表示。
[0069] 如图2所示,本步骤由层次类别信息编码模块执行。其中,层次类别信息编码模块包括类别向量层和图神经网络层。具体的,类别向量层用于将所有事件类别转换为相应的
向量表示,图神经网络层(Graph Neural Network Layer)用于进一步学习事件类别融合层
次信息的向量表示。
[0070] 与词向量层类似,类别向量层将所有事件类别转换成相应的向量表示。由于事件类别的名称可以由一个词或多个词组成,例如,事件类别“诈骗”和“网络 诈骗”。在本发明
中,直接基于预训练好的词对应的语义向量表示得到事件类别的向量表示。
[0071] 具体地,对于仅含有一个词的事件类别,直接使用该词的向量表示作为该事件类别的向量表示;对于含有多个词的事件类别,平均这些词的向量表示作为该事件类别的向
量表示。把所有事件类别的向量表示组成的向量序列记为 ,其中, 为
第 个事件类别的向量表示, 为事件类别的数量。
[0072] 事件类别之间通常具有一定的层次结构,例如,事件类别“犯罪”中包括“诈骗”和“偷窃”等更具体的事件类别,而事件类别“诈骗”又可以进一步分为“电信 诈骗”和“网络 
诈骗”等。事件类别之间的层次结构可以认为是一种树结构,因此把事件类别“犯罪”称为事
件类别“诈骗”和“偷窃”的父类别;反之,把事件类别“诈骗”和“偷窃”称之为事件类别“犯
罪”的子类别。因此,本发明在类别向量层的基础上叠加一个图神经网络层,用于进一步学
习事件类别融合层次信息的向量表示。
[0073] 其中,根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别融合了层次信息的向量表示的方法包括如下步骤:
[0074] S1021,基于事件类别之间的层次结构进行构建以得到事件类别结构图。
[0075] S1022,基于所述事件类别结构图构建得到图神经网络层,根据所述图神经网络层在所述事件类别结构图中的结点之间传递信息,以建模结点之间的语义关系,从而最终得
到事件类别融合了层次信息的向量表示。
[0076] 首先,所构建的事件类别结构图如图3所示。事件类别结构图表示为 ,是一个带权有向图, 表示事件类别结构图中所有结点的集合,每个结点对应一种事件
类别, 表示事件类别结构图中所有弧的集合。
[0077] 在事件类别结构图中,结点 与 之间的弧 定义如下:
[0078]
[0079] 其中,1表示事件类别结构图中包含弧 ,0表示事件类别结构图中不包含弧 ,结点 称为弧尾,结点 称为弧头。
[0080] 如图3所示,事件类别“犯罪”是事件类别“诈骗”的父类别,因此在对应的结点之间存在两条边:一条由事件类别“犯罪”对应的结点指向事件类别“诈骗”对应的结点;另一条
由事件类别“诈骗”对应的结点指向事件类别“犯罪”对应的结点。
[0081] 给定标注语料 ,图3中弧 上对应的权重 定义如下:
[0082]
[0083] 其中, 表示在语料 中结点 对应类别的事件出现的次数, 表示在语料中结点 对应类别的事件出现的次数。因此,基于给定的语料 ,可统计出事件类别结
构图中所有边的权重。在此需要补充说明的是,此处的语料由所有标注了的句子所构成。
[0084] 如图3所示,由结点“犯罪”指向结点“诈骗”的弧的权重是0.6,可以理解为语料的所有“犯罪”事件中有60%的是“诈骗”事件;反之,由结点“诈骗”指向结点“犯罪”的弧的权
重是1.0,可以理解为所有“诈骗”事件都是“犯罪”事件。
[0085] 其次,基于事件类别结构图构建一个图神经网络层,通过在事件类别结构图的结点之间传递信息,可以有效地建模结点之间的语义关系,从而更好地学习结点的向量表示,
也就是融合了层次信息的类别向量表示。
[0086] 具体地,对事件类别结构图中的任一结点 ,按如下方式计算其对应的事件类别融合了层次信息的向量表示 :
[0087]
[0088] 其中, 为结点 对应事件类别融合了层次信息的向量表示, 为类别向量层输出的结点 对应的事件类别的向量表示, 为类别向量表示 经过一个线性变换后得
到的向量表示, 为类别向量层输出的结点 对应的事件类别的向量表示, 为类别向
量表示 经过一个线性变换后得到的向量表示, 为与弧尾结点 有弧相连的弧头
结点的下标的集合, 为非线性函数, 均为图神经网络层的参数。
[0089] 进一步的,图神经网络层对事件类别结构图中的每个结点进行上述运算,得到融合了层次信息的事件类别的向量表示,并记为 。
[0090] S103,通过注意力机制确定词相关的事件类别信息的向量表示,然后将所述词相关的事件类别信息的向量表示与所述词在上下文中的语义向量表示进行拼接,以得到词最
终的语义向量表示。
[0091] 如图2所示,本步骤由信息融合模块执行。信息融合模块首先使用注意力机制找出与句子中每个词相关的类别信息,然后与词在上下文中的语义向量表示进行拼接,将拼接
后得到的向量表示作为词最终的语义向量表示。
[0092] 注意力机制是一种常用的神经网络,能够自动发现与当前目标相关的信息,在自然语言处理中具有广泛的应用。具体地,对句子中的任一词 ,通过注意力机制确定的词
相关的事件类别信息的向量表示 对应的公式为:
[0093]
[0094] 其中, 是与词 相关的事件类别的向量表示, 是词 在上下文中的语义向量表示, 表示向量的转置, 和 分别为第 个和第 个事件类别融合了层次信息的
向量表示, 是句子中第 个词与第 个事件类别的相关性权重, 为事件类别的数量。
[0095] 进一步的,拼接词 在上下文中的语义向量表示 和与词 相关的事件类别信息的向量表示 ,以得到词 最终的语义向量表示 ,对应的公式为:
[0096]
[0097] 其中, 表示向量拼接操作。
[0098] 经过信息融合模块层后,句子 被编码为含有上下文信息和层次类别信息的词向量序列 ,用作预测模块的输入。
[0099] S104,基于条件随机场层,以所述词最终的语义向量表示作为输入,计算句子的每个标记序列的总得分,并选择总得分最高的标记序列作为最终的预测结果。
[0100] 如图2所示,本步骤由预测模块执行。预测模块使用一个CRF层(条件随机场层),针对句子中的每个词预测一个标记,也就是预测一个与句子长度相等的标记序列。CRF层常用
于序列标注任务中,与基于分类层分别预测每个词的标记相比,其能够有效地建模标记之
间约束关系,通常能取得更好的性能。
[0101] 具体的,以词最终的语义向量表示作为输入,计算句子的每个标记序列对应的总得分(以标记序列 为例),对应的公式为:
[0102]
[0103] 其中, 为计算得到的序列 的总得分, 是词 预测为标记 的得分,可由一个多层前馈神经网络计算得到,
是预测标记 到 的转移得分,也是条件随机场层(CRF)中需要学习的参
数。
[0104] 进一步的,选择总得分最高的标记序列作为最终的预测结果对应的公式表达为:
[0105]
[0106] 其中, 是对应于词 的预测标记, 为信息融合模块输出的含有上下文信息和层次类别信息的词向量序列。
[0107] 本发明提出的融合层次类别信息的事件检测方法,首先将输入的句子中的每个词转换成词对应的语义向量表示,基于双向长短时记忆网络并结合词对应的语义向量表示以
计算得到词在上下文中的语义向量表示;基于所述词对应的语义向量表示得到对应的事件
类别的向量表示,根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别
融合了层次信息的向量表示;通过注意力机制确定词相关的事件类别信息的向量表示,然
后将词相关的事件类别信息的向量表示与词在上下文中的语义向量表示进行拼接,以得到
词最终的语义向量表示;最后基于条件随机场,以词最终的语义向量表示作为输入,计算每
个句子的标记序列的总得分,并选择总得分最高的标记序列作为最终的预测结果。本发明
提出的融合层次类别信息的事件检测方法,充分利用了事件类别信息,可实现更为准确的
事件检测效果。
[0108] 请参阅图4,本发明第二实施例还提出一种融合层次类别信息的事件检测系统,其中,所述系统包括上下文信息编码模块、层次类别信息编码模块、信息融合模块和预测模
块;
[0109] 所述上下文信息编码模块用于:
[0110] 将输入的句子中的每个词转换成词对应的语义向量表示,基于双向长短时记忆网络并结合所述词对应的语义向量表示以计算得到词在上下文中的语义向量表示;
[0111] 所述层次类别信息编码模块用于:
[0112] 基于所述词对应的语义向量表示得到对应的事件类别的向量表示,根据所述事件类别的向量表示及事件类别的层次结构计算得到事件类别融合了层次信息的向量表示;
[0113] 所述信息融合模块用于:
[0114] 通过注意力机制确定词相关的事件类别信息的向量表示,然后将所述词相关的事件类别信息的向量表示与所述词在上下文中的语义向量表示进行拼接,以得到词最终的语
义向量表示;
[0115] 所述预测模块用于:
[0116] 基于条件随机场层,以所述词最终的语义向量表示作为输入,计算句子的每个标记序列的总得分,并选择总得分最高的标记序列作为最终的预测结果。
[0117] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件
或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下
列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路
的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场
可编程门阵列(FPGA)等。
[0118] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特
点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何
的一个或多个实施例或示例中以合适的方式结合。
[0119] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员
来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保
护范围。因此,本发明专利的保护范围应以所附权利要求为准。