基于语义网络词表示与注意力图的事件检测方法及装置转让专利

申请号 : CN202110806934.4

文献号 : CN115700583A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李鹏万辛沈亮王勇王泽辰孙晓晨杨晶超倪善金

申请人 : 国家计算机网络与信息安全管理中心中国科学院信息工程研究所

摘要 :

本发明公开了一种基于语义网络词表示与注意力图的事件检测方法及装置,包括:拼接每个词的词内容向量、词结构向量与位置特征向量,生成各句子的特征图;结合各词的POS向量进行注意力机制的计算,生成各句子的新特征图;基于新特征图生成句层面特征向量;利用句层面特征向量与词内容向量的拼接结果,获取事件检测结果。本发明综合利用了外部语料库、语义网络、词性和注意力图,并通过优化特征,更准确地抽取触发词,引入了更多信息,解决了一词多义问题,表达了同义词之间的关联信息,得到更精确地事件检测结果。

权利要求 :

1.一种基于语义网络词表示和注意力图的事件检测方法,其步骤包括:

1)利用预训练的语言模型,生成文本数据中每个词的词内容向量CWF;

2)根据样本数据集中词与词之间的语义联系,构建语义图G,并利用所述语义图G,生成每个词的词结构向量SF,其中语义图G中的顶点为词,边为词与词之间的语义关系;

3)依据每个词在文本数据的各句子中位置,生成每个词的位置特征向量PF;

4)拼接每个词的词内容向量CWF、词结构向量SF与位置特征向量PF,并基于文本数据的每个句子及拼接结果,生成每一句子的特征图;

5)生成文本数据中各词的POS向量,并基于特征图与各词的POS向量进行注意力机制的计算,生成各句子的新特征图;

6)将基于新特征图生成的句层面特征向量P与该句子中的各词内容向量CWF进行拼接,并对拼接得到的输入向量F进行分类,获取事件检测结果。

2.如权利要求1所述的方法,其特征在于,生成词内容向量CWF、词结构向量SF与位置特征向量PF之前,对文本数据进行预处理;所述预处理包括:分词处理。

3.如权利要求1所述的方法,其特征在于,通过以下步骤生成文本数据中每个词的词结构向量SF:

1)将语义图G表示为邻接矩阵M,并基于邻接矩阵M,为没有直接语义关联的词计算语义相似性分数,获取完全语义关联矩阵MG

2)对完全语义关联矩阵MG中的每一行使用L2范数进行归一化,得到变换矩阵;

3)使用主成分分析变换矩阵,生成每个词的词结构向量SF。

4.如权利要求1所述的方法,其特征在于,通过以下步骤生成位置特征向量PF:

1)按顺序遍历各句子中的每个词,并将遍历到的词设为候选触发词;

2)获得相应句子中每一个词到候选触发词的相对距离d;

3)依据相对距离d与随机生成的嵌入矩阵,生成距离向量矩阵,其中距离向量矩阵中第d行表示的向量,代表与触发词或论元距离为d的词位置向量;

4)通过反向传播,对距离向量矩阵进行随机初始化及优化,得到每个词的位置特征向量PF。

5.如权利要求1所述的方法,其特征在于,生成POS向量的方法包括:使用自然语言处理工具StanfordCoreNlp。

6.如权利要求1所述的方法,其特征在于,通过以下步骤生成新特征图:

1)设每一特征图都是长为dk的向量,生成长度为w的随机向量WQ,并计算长为dk的向量与随机向量WQ的积,生成矩阵Q;

2)平行拼接各词的POS向量生成POS矩阵,生成长为w、宽为POS向量长度的随机矩阵WK,并计算POS矩阵与随机矩阵WK的积,生成矩阵K;

3)生成长度为dk的随机向量WV,并计算随机向量WV与特征图的积,生成矩阵V;

4)利用矩阵Q、矩阵K及矩阵V,生成注意力矩阵Z;

5)将注意力矩阵Z与特征图分别相乘,生成新特征图。

7.如权利要求1所述的方法,其特征在于,通过以下步骤生成句层面特征向量P:

1)遍历各句子中的每个词,且每次选取一个词作为候选触发词;

2)以候选触发词为分界对该句子的新特征图进行划分,分别获得各触发词的前半部分新特征图及后半部分新特征图。

3)计算各前半部分新特征图及后半部分新特征图的值,分别选取一具有最大值的前半部分新特征图及一具有最大值的后半部分新特征图;

4)将各句子的具有最大值的前半部分新特征图与具有最大值的后半部分新特征图,拼接在一起,得到句层面特征向量P。

8.如权利要求1所述的方法,其特征在于,通过以下步骤得到事件检测结果:

1)构造线性分类器O=WsF+bs,其中Ws为线性分类器第一参数,bs为线性分类器第二参数;

2)将输入向量F输入线性分类器O,得到事件检测结果。

9.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1‑8中任一所述方法。

10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1‑8中任一所述方法。

说明书 :

基于语义网络词表示与注意力图的事件检测方法及装置

技术领域

[0001] 本发明涉及自然语言处理领域,具体为一种基于语义网络词表示与注意力图的事件检测方法及装置,通过自动化的方式,从新闻报导、资料文件等文本数据中发现事件和确定事件类型,是一种适用于书面化文本数据(区别于社交文本、日常交流文本等口语化文本)的事件检测方法,对事件所属领域无限制(如商业、农业、金融、娱乐等),可以应用于舆情监控和事件分析等场景。

背景技术

[0002] 事件检测是知识挖掘领域的重要内容。近年来,随着事件检测日益广泛的应用,出现了大量与事件检测相关的方法,主要分为两种:(1)传统方法,通过文本分析和语义分析提取出用于分类的特征规则(2)基于深度神经网络的方法,通过特征向量捕获用于分类的线索。针对以上问题提出了一些方法。
[0003] 传统方法分为三类:第一类方法基于词汇特征,人工生成精巧的筛选规则。而第二类考虑 POS标签等语义特征,自动生成筛选规则。第三类基于统计信息,通过建立词之间的逻辑关系,生成筛选规则。基于规则的方法原理简明,但由于单条规则中包含的信息量较少,为了有效检测事件,往往需要密集的人工工程,设计数以千计的规则。传统方法通过为单词的每一种释义制定规则,但是通过人工提炼的事件检测规则仅包含人类能够直接理解的语言规律,难以挖掘抽象的深层语义信息。因此,规则在事件检测中所能涵盖的信息量有限。
[0004] 基于深度神经网络的事件检测方法主要包含基于CNN和RNN的方法。基于CNN的事件检测模型将事件检测问题作为分类问题,将每个词分类为对应的触发词类别。典型的CNN模型包括DMCNN(Chen,Y.,Xu,L.,Liu,K.,et al.:Event extraction via dynamic multi‑pooling convolutional neural networks.In:Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,vol.1,pp.167–176(2015))和Dual‑representation CNN(Extracting Biomedical Events with Parallel Multi‑Pooling Convolutional Neural Networks Lishuang Li,Yang Liu,and Meiyue Qin),都通过最大池化的方法捕获用于为词进行分类的特征。已有的基于CNN的方法融合了句子层面的信息和词层面的信息,一定程度上增加了输入模型的信息量,但是无法解决一词多义的问题,也无法直接为语料中的同义词建立关联。基于RNN的事件检测模型将事件检测问题作为序列标注问题解决,包含LSTM(Chen,Y.,Liu,S.,He,S.,Kang,L., &Zhao,J..(2016).Event Extraction via Bidirectional Long Short‑Term Memory Tensor Neural Networks.China National Conference on Chinese Computational Linguistics International Symposium on Natural Language Processing Based on Naturally Annotated Big Data.Springer International Publishing.)和 dbRNN(Sha,L.,*Feng Qian,*Baobao Chang,&Sui,Z..Jointly Extracting Event Triggers and Arguments by Dependency‑Bridge RNN and Tensor‑Based Argument Interaction.)等典型模型,通过捕获当前词与句中其他词之间的联系,学习上下文信息包含的序列特征,并利用该特征为词语生成对应的事件元素标签。基于ELMo(Peters,M.,Neumann,M.,Iyyer,M.,Gardner,M.,& Zettlemoyer,L..(2018).Deep Contextualized  Word Representations.Proceedings of the 2018Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, Volume 1(Long Papers).)等学习模型的方法能解决一词多义问题,引入标签注意力机制的模型能够为模型引入更多有助于事件元素标注的信息,但是现有的RNN方法无法直接建立同义词之间的联系。因此,需要针对一词多义和同义词等问题进行改进,设计更准确的事件检测方法。

发明内容

[0005] 为了克服现有的方法在事件检测准确性方面的不足,本发明提供一种基于语义网络词表示与注意力图的事件检测方法及装置。在事件检测问题中,需要判断句子中是否存在触发词,若存在则为触发词确定对应事件类别。完成事件检测的难点在于,仅凭本地上下文所包含的信息,不能解决一词多义处理难、同义词关联难和信息量不足的问题,无法支持触发词的正确检测和分类。例如一词多义问题可能会导致含有多个含义的触发词被分类为错误的事件类型,不进行同义词关联会导致某些能表达事件的触发词被忽略。因此,需要解决以上问题,以提高事件检测的准确性。
[0006] 本发明采用的技术方案如下:
[0007] 一种基于语义网络词表示和注意力图的事件检测方法,其步骤包括:
[0008] 1)利用预训练的语言模型,生成文本数据中每个词的词内容向量CWF;
[0009] 2)根据样本数据集中词与词之间的语义联系,构建语义图G,并利用所述语义图G,生成每个词的词结构向量SF,其中语义图G中的顶点为词,边为词与词之间的语义关系;
[0010] 3)依据每个词在文本数据的各句子中位置,生成每个词的位置特征向量PF;
[0011] 4)拼接每个词的词内容向量CWF、词结构向量SF与位置特征向量PF,并基于文本数据的每个句子及拼接结果,生成每一句子的特征图;
[0012] 5)生成文本数据中各词的POS向量,并基于特征图与各词的POS向量进行注意力机制的计算,生成各句子的新特征图;
[0013] 6)将基于新特征图生成的句层面特征向量P与该句子中的各词内容向量CWF进行拼接,并对拼接得到的输入向量F进行分类,获取事件检测结果。
[0014] 进一步地,生成词内容向量CWF、词结构向量SF与位置特征向量PF之前,对文本数据进行预处理;所述预处理包括:分词处理。
[0015] 进一步地,通过以下步骤生成文本数据中每个词的词结构向量SF:
[0016] 1)将语义图G表示为邻接矩阵M,并基于邻接矩阵M,为没有直接语义关联的词计算语义相似性分数,获取完全语义关联矩阵MG
[0017] 2)对完全语义关联矩阵MG中的每一行使用L2范数进行归一化,得到变换矩阵;
[0018] 3)使用主成分分析变换矩阵,生成每个词的词结构向量SF。
[0019] 进一步地,通过以下步骤生成位置特征向量PF:
[0020] 1)按顺序遍历各句子中的每个词,并将遍历到的词设为候选触发词;
[0021] 2)获得相应句子中每一个词到候选触发词的相对距离d;
[0022] 3)依据相对距离d与随机生成的嵌入矩阵,生成距离向量矩阵,其中距离向量矩阵中第 d行表示的向量,代表与触发词或论元距离为d的词位置向量;
[0023] 4)通过反向传播,对距离向量矩阵进行随机初始化及优化,得到每个词的位置特征向量 PF。
[0024] 进一步地,生成POS向量的方法包括:使用自然语言处理工具StanfordCoreNlp。
[0025] 进一步地,通过以下步骤生成新特征图:
[0026] 1)设每一特征图都是长为dk的向量,生成长度为w的随机向量WQ,并计算长为dk的向量与随机向量WQ的积,生成矩阵Q;
[0027] 2)平行拼接各词的POS向量生成POS矩阵,生成长为w、宽为POS向量长度的随机矩阵 WK,并计算POS矩阵与随机矩阵WK的积,生成矩阵K;
[0028] 3)生成长度为dk的随机向量WV,并计算随机向量WV与特征图的积,生成矩阵V;
[0029] 4)利用矩阵Q、矩阵K及矩阵V,生成注意力矩阵Z;
[0030] 5)将注意力矩阵Z与特征图分别相乘,生成新特征图。
[0031] 进一步地,通过以下步骤生成句层面特征向量P:
[0032] 1)遍历各句子中的每个词,且每次选取一个词作为候选触发词;
[0033] 2)以候选触发词为分界对该句子的新特征图进行划分,分别获得各触发词的前半部分新特征图及后半部分新特征图。
[0034] 3)计算各前半部分新特征图及后半部分新特征图的值,分别选取一具有最大值的前半部分新特征图及一具有最大值的后半部分新特征图;
[0035] 4)将各句子的具有最大值的前半部分新特征图与具有最大值的后半部分新特征图,拼接在一起,得到句层面特征向量P。
[0036] 进一步地,通过以下步骤得到事件检测结果:
[0037] 1)构造线性分类器O=WsF+bs,其中Ws为线性分类器第一参数,bs为线性分类器第二参数;
[0038] 2)将输入向量F输入线性分类器O,得到事件检测结果。
[0039] 一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行以上所述方法。
[0040] 一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一所述方法。
[0041] 与现有的技术相比,本发明的优点在于:
[0042] 1)综合采用外部语料库、语义网络、词性和注意力图,完成事件检测;
[0043] 2)采用预训练语言模型生成词嵌入,利用该方式可以学习上下文词表征的特性,为在不同上下文中含义不同的同一个词语生成不同向量,以解决一词多义问题;并基于语义网络所表示的近义词间的关系,利用基于网络的向量生成方法生成词嵌入,从而表达同义词之间的关联信息;
[0044] 3)在特征变换和特征选择步骤之间,加入一个新的特征优化步骤,根据句子结构信息和句中实体词的实体类别信息,调整特征各部分的赋权,从而突出特征中更需要被关注的部分,即对应触发词的部分,进而优化特征,从而更准确地抽取触发词,引入了更多信息;
[0045] 4)设计了一种基于词性信息的注意机制,对提取的特征进行优化,使与触发词相关的特征更易于捕获。

附图说明

[0046] 图1为事件检测流程图。

具体实施方式

[0047] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明做进一步详细说明。
[0048] 本发明的技术方案主要包括:
[0049] 输入单句文本数据后,首先经过分词等预处理。再对句子中的每个词,利用预训练语言模型生成对应的词向量,同时利用语义网络词向量表示生成词向量,并对每个词在句中的位置也进行向量表示。将句子中每个词的上述向量进行拼接,生成句表示矩阵。将该矩阵输入到卷积层,生成一组特征图。基于单句文本数据生成POS标签,并转化为POS向量。将POS 向量和特征图作为Attention机制的输入,计算生成新的特征向量。拼接新的特征向量和词层面上下文特征向量,生成总特征向量。将总特征向量输入到分类器,得到触发极其时间类型,即完成对于该单句的事件检测。
[0050] 如图1所示,本发明的事件检测流程包括以下步骤:
[0051] 1.预训练语言模型生成词内容向量CWF:
[0052] 步骤一:选取适用于目标语料,且在大型语料库上经过预训练的语言模型;
[0053] 步骤二:针对目标语料对该预训练语言模型进行微调。利用该语言模型,对于具有多个含义的词,为其每个含义生成对应的词内容向量。
[0054] 2.基于语义网络生成词结构向量SF:
[0055] 步骤一:根据词与词之间的语义联系,将语义网络表示为语义图G,其中每个单词为一个顶点,词与词之间若存在语义关系,则为两个词建立一条边。
[0056] 步骤二:将语义图表示为邻接矩阵M。当G的两个节点单词wi和wj具有直接语义关系,通过一条边相关联时,则将矩阵元素Mi,j设置为1(否则设置为0)。
[0057] 步骤三:基于邻接矩阵M,采用累积迭代方法构建相似性矩阵 为没有直接语义关联的词计算语义相似性分数,以丰富矩阵M的内容。计算方法如下:
[0058]
[0059] 其中I是单位阵,对于其中每个转移矩阵Mn,计算节点i和j之间路径为长度n的关联值,表示为Gi,j,α<1是用于描述较长路径对于较短路径,所代表的词汇相似度降低程度的常数。
[0060] 对以上过程进行迭代,收敛得到完全语义关联矩阵MG。可以通过如下逆矩阵运算得到MG。
[0061]
[0062] 步骤四:对完全语义关联矩阵MG中的每一行使用L2范数进行归一化,使其对应于一个得分总和为1的向量,从而得到变换矩阵,。
[0063] 步骤五:使用主成分分析变换矩阵,减少向量的大小,并设置编码语义空间的维数,以生成基于语义网络的词表示矩阵。
[0064] 3.位置特征向量PF:
[0065] 步骤一:
[0066] 按顺序遍历句子中的每个词,遍历到的词为候选触发词。
[0067] 步骤二:
[0068] 获得句子中每一个词到候选触发词相对距离,表示为d
[0069] 步骤三:
[0070] 随机生成嵌入矩阵,矩阵第d行表示的向量,代表与触发词或论元距离为d的词的位置向量。
[0071] 步骤四:
[0072] 通过反向传播,对生成距离向量的矩阵进行随机初始化和优化。
[0073] 4.卷积生成特征图
[0074] 步骤一:将CWF、SF、PF进行平行拼接
[0075] 步骤二:生成n个滤波器,卷积生成特征图。其中卷积窗口大小为h。
[0076] 5.注意力机制计算过程
[0077] 步骤一:POS矩阵生成
[0078] 通过自然语言处理工具StanfordCoreNlp生成POS标签(词性标注),并为每一个POS标签生成一个one‑hot向量。
[0079] 步骤二:为输入的句子生成POS标注
[0080] 每一个词对应一个POS标签。
[0081] 步骤三:生成Q矩阵。
[0082] 1)设每个特征图都是长为dk的向量;
[0083] 2)随机生成长度为w的新的随机向量WQ;
[0084] 3)计算dk与WQ的积,生成新矩阵Q。
[0085] 步骤四:生成K矩阵
[0086] 1)将句子中对应的所有词的POS向量进行平行拼接,生从POS矩阵;
[0087] 2)随机生成长为w宽为POS向量长度的随机矩阵WK;
[0088] 3)POS矩阵与WK矩阵做积生成矩阵K。
[0089] 步骤五:生成V矩阵
[0090] 1)生成长度为dk的随机向量,命名为WV
[0091] 2)WV与特征图做积,生成矩阵V。
[0092] 步骤六:注意力机制计算
[0093] 利用如下公式计算注意力,生成注意力矩阵Z
[0094]
[0095] 步骤七:新特征图生成
[0096] 将Z与原特征图分别相乘,生成新的特征图。
[0097] 步骤八:训练WK、WQ、WV矩阵或向量。
[0098] 评分函数如下:
[0099]
[0100] 采用卷积生成的所有特征图参议计算,不断更新WK、WQ、WV。
[0101] 6.动态多池化
[0102] 步骤一:遍历句中每个词,每次选取一个词作为候选触发词
[0103] 步骤二:以候选触发词为分界对新特征图进行划分,分别获得触发词前半部分的新特征图和后半部分的新特征图。
[0104] 步骤三:选取各个特征图两部分的最大值,即pj,i=max(cj,i)。拼接最大值形成一个向量,得到句子的句层面特征向量P,作为动态多池化的输出。其中,j为第j个句子,i为第i个新特征图。
[0105] 7.分类器分类
[0106] 步骤一:拼接句子层面的特征向量P和词层面的特征向量CWF,生成分类器的输入向量F
[0107] 步骤二:构造线性分类器O=WsF+bs,输出O的类型包含所有的触发词类型标签和“非触发词”标签,其中Ws、bs为线性分类器的参数。
[0108] 本发明在广泛使用的ACE2005基准数据集上进行的事件检测实验表明,该方法明显优于现有的事件检测方法,在触发词检测上获得了F1=74.9的实验效果。通过对该发明的性能分析,认为该发明是一种有效的事件检测工具。
[0109] 以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。