基于句法依存图的篇章级事件嵌入方法及装置转让专利

申请号 : CN202010090488.7

文献号 : CN111274790A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨鹏季冬李幼平纪雯

申请人 : 东南大学

摘要 :

本发明公开了一种基于句法依存图的篇章级事件嵌入方法及装置。首先,对每篇新闻文本,使用自然语言处理工具对其进行句法依存分析,构建句法依存关系图;接着,利用迭代更新算法计算句法依存图中各节点词的权重;然后,基于句法依存图,采用负采样技术构造正负训练样本;之后,分别构建并训练事件要素权重和关系预测模型,获得篇章级事件的低维稠密向量表示;最后,将事件嵌入向量输入到机器学习模型,应用于事件分类、聚类等相关任务。本发明基于句法依存图,采用无监督方式学习产生的向量表示能够改善传统基于词袋模型的事件表示的高维稀疏、语义和语法结构缺失问题,进而提升下游事件分析相关任务的效果。

权利要求 :

1.基于句法依存图的篇章级事件嵌入方法,其特征在于,包括如下步骤:(1)获取事件文档语料,利用自然语言处理工具对每篇文档依次进行分词、词性标注、实体识别、代指消解和句法依存分析,并构建词汇表;

(2)基于所述句法依存分析结果,构建初始句法依存图;为图中节点赋予初始权重,迭代地更新其中各节点权重,产生最终的句法依存图;

(3)基于所述句法依存图,采用负采样方法分别构造事件要素权重正负样本和事件要素关系正负样本;其中事件要素权重样本中包括事件id、目标词和目标词权重,事件要素关系样本中包括事件id、主语、宾语、谓语、目标词和标签;

(4)构建基于Skip-Gram架构的事件要素权重预测模型,利用事件要素权重正负样本,训练事件及其要素的特征表示;

(5)构建基于CBOW架构的事件要素关系预测模型,利用事件要素关系正负样本,训练事件及其要素的特征表示;

(6)基于训练完成的事件要素权重预测模型和事件要素关系预测模型,对新输入的文本生成相应的事件嵌入向量;

(7)基于所述事件嵌入向量,将其作为机器学习算法的输入,进行事件分类或聚类。

2.根据权利要求1所述的基于句法依存图的篇章级事件嵌入方法,其特征在于,所述步骤(2)中,根据句法依存分析结果,构建初始句法依存图,具体为:每个词作为一个节点,词之间的依存关系表示对应节点之间的有向边;除动词以外,相同的词合并为同一节点,保留这些词的所有依存关系;同一命名实体下的多个词合并为一个节点,消除这些词之间的依存关系,保留这些词与其他词之间的所有依存关系。

3.根据权利要求2所述的基于句法依存图的篇章级事件嵌入方法,其特征在于,所述步骤(2)中为图中节点赋予初始权重,迭代地更新初始句法依存图中各节点权重,产生最终的句法依存图,具体步骤为:(2-1)为句法依存图中每个节点vi赋予初始权重W0(vi);最大迭代次数为K;

(2-2)更新每个节点vi的权重:

Wn+1(vi)=f(G,Wn,vi)

其中,f是权重更新函数,G是构建好的句法依存图,Wn是第n次迭代后节点权重映射函数,Wn+1(vi)是第n+1次迭代后的节点vi权重;

(2-3)如果句法依存图所有节点的权重更新前后绝对值差|Wn+1(vi)-Wn(vi)|小于阈值a,或者迭代次数达到最大迭代次数,则更新最终节点权重W(vi)=Wn+1(vi);否则执行步骤(2-2)。

4.根据权利要求1所述的基于句法依存图的篇章级事件嵌入方法,其特征在于,所述步骤(3)中,基于所述句法依存图,采用负采样方法分别构造事件要素权重正负样本和事件要素关系正负样本,具体步骤为:(3-1)构造事件要素权重正负样本:根据词性标注结果,从句法依存图中选取所有名词和动词节点,将它们的权重进行归一化处理,作为回归正样本集合;从词汇表中分别随机选取不在回归正样本集合中的L个名词和M个动词,并赋予权重为0,作为回归负样本集合;

(3-2)构造事件要素关系正负样本:对依存图中的每个动词,选取其直接主语和宾语组成三元组(主语,谓语,宾语);分别选取三元组中每个元素作为目标词,并将该元素用设定掩码字符串替换,构造一条标签为1的正样本,加入分类正样本集合;对每条正样本,根据其目标词词性,从词汇表中随机选取词性相同且不同于目标词的N个词替换该条正样本中的目标词,构造N条标签为0的负样本,加入分类负样本集合。

5.根据权利要求1所述的基于句法依存图的篇章级事件嵌入方法,其特征在于,所述步骤(4)中,构建基于Skip-Gram架构的事件要素权重预测模型,利用事件要素权重正负样本,训练事件及其要素的特征表示,具体步骤为:(4-1)对于事件id,通过查询表方式获得d维嵌入向量ve;对于目标词,利用预训练的词嵌入工具嵌入得到k维词向量(4-2)将ve和 分别进行线性变换得到 和 和 的维数相同:e t

其中,W和W是可训练的参数矩阵;

(4-3)计算 和 的内积u,作为预测的目标词权重;真实的目标词权重为y;采用均方误差作为目标函数,形式化为:loss=(y-u)2

(4-4)利用梯度下降算法优化目标函数,更新事件嵌入表示ve,参数矩阵We和Wt,以及目标词向量

6.根据权利要求1所述的基于句法依存图的篇章级事件嵌入方法,其特征在于,上述步骤(5)中,构建基于CBOW架构的事件要素关系预测模型,利用事件要素关系正负样本,训练事件及其要素的特征表示,具体步骤为:(5-1)对于事件id,通过查询表方式获得d维嵌入向量ve;对于主谓宾词以及目标词,分别利用预训练的词嵌入工具进行嵌入得到k维词向量 和(5-2)将ve, 和 分别进行线性变换,得到维数相同的 和

其中,We,Ws,Wp,Wo和Wt是可训练的参数矩阵;

(5-3)将 进行求和并取平均,得到上下文向量 计算 和 的内积,并通过sigmoid函数计算输出概率;采用交叉熵损失函数作为目标函数,形式化为:loss=-ylog(pt)-(1-y)log(1-pt)

其中,pt是目标词的输出概率分布,y是样本的真实标签;

(5-4)利用梯度下降算法优化目标函数,更新事件嵌入向量ve、参数矩阵We,Ws,Wp,Wo和Wt,以及主谓宾词向量 和目标词向量

7.根据权利要求1所述的基于句法依存图的篇章级事件嵌入方法,其特征在于,上述步骤(6)中,基于训练完成的事件要素权重预测模型和事件要素关系预测模型,对新输入的文本生成相应的事件嵌入向量,具体步骤为:(6-1)根据步骤(3)生成当前文本的构造事件要素权重正负样本和事件要素关系正负样本;

(6-2)基于事件要素权重训练样本,根据步骤(4)训练事件要素权重预测模型,更新事件嵌入向量;训练过程中,除事件嵌入向量外,所有其他参数固定不变;

(6-3)基于事件要素关系训练样本,根据步骤(5)训练事件要素关系预测模型,更新事件嵌入向量;训练过程中,除事件嵌入向量外,所有其他参数固定不变。

8.基于句法依存图的篇章级事件嵌入装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于句法依存图的篇章级事件嵌入方法。

说明书 :

基于句法依存图的篇章级事件嵌入方法及装置

技术领域

[0001] 本发明属于事件嵌入技术领域,更具体地,涉及基于句法依存图的篇章级事件嵌入方法及装置。

背景技术

[0002] 事件是人类认知世界的重要知识单元,以事件作为基本单元,进行信息处理与分析,有助于对信息的高效、智能化应用,例如对话理解、信息推荐等。互联网中存在大量描述事件的文本信息,如新闻、微博、裁判文书、电子医疗记录等。
[0003] 事件特征对于事件分析至关重要。在自然语言处理领域,词袋模型是最常见的特征表示方法,其具有简单、易于实现的特点。在篇章级文本事件分析领域,研究人员会根据事件特性,做特殊处理,比如根据词性筛选名词、动词,提取关键词、命名实体等。然而,词袋模型忽略了词的语义信息,特征表示高维且稀疏。即使语义上相近的两个词,也被认为是完全不同的词。因此,对于以不同方式描述相关事件的两个文档而言,基于词袋模型的事件特征表示,可能无法有效表征它们之间的语义关联。
[0004] 嵌入技术(亦称表示学习技术)旨在学习低维连续的向量来表示每个离散对象,通过向量运算可以表征离散对象之间的关系。在自然语言处理领域,可以针对不同的语义单元,如词语、句子、段落和文档等学习低维向量表示。在词语嵌入方面,常见的方法有Word2vec,Glove,Fasttext,Elmo,Bert等。篇章级事件通常可以当作一篇文档来处理,可以利用文档嵌入技术,如Doc2vec、XLNet等;或者在词袋模型基础上,将词id用对应的词向量替换,然后进行池化操作,比如平均池化、最大池化等。
[0005] 然而,在NLP领域,现有嵌入技术大多基于语言模型思路,通过建模上下文语义信息来预测目标词的方式训练词语或文档的低维向量表示,而忽视了显示的语义结构信息。在事件分析领域,厘清事件相关实体,以及这些实体间的关系,对于分析理解不同篇章级事件及其关系很重要。事件特征表示除了能捕获事件相关实体词、触发词的语义信息外,还应该能表征实体间的语义关系,这样有助于更深层次的分析。

发明内容

[0006] 发明目的:为了解决现有技术中篇章级事件特征表示存在的以上问题,本发明提出基于句法依存图的篇章级事件嵌入方法及装置。
[0007] 技术方案:本发明所述的基于句法依存图的篇章级事件嵌入方法,包括如下步骤:
[0008] (1)获取事件文档语料,利用自然语言处理工具对每篇文档依次进行分词、词性标注、实体识别、代指消解和句法依存分析,并构建词汇表;
[0009] (2)基于所述句法依存分析结果,构建初始句法依存图;为图中节点赋予初始权重,迭代地更新其中各节点权重,产生最终的句法依存图;
[0010] (3)基于所述句法依存图,采用负采样方法分别构造事件要素权重正负样本和事件要素关系正负样本,其中事件要素权重样本中包括事件id、目标词和目标词权重,事件要素关系样本中包括事件id、主语、宾语、谓语、目标词和标签;
[0011] (4)构建基于Skip-Gram架构的事件要素权重预测模型,利用事件要素权重正负样本,训练事件及其要素的特征表示;
[0012] (5)构建基于CBOW架构的事件要素关系预测模型,利用事件要素关系正负样本,训练事件及其要素的特征表示;
[0013] (6)基于训练完成的事件要素权重预测模型和事件要素关系预测模型,对新输入的文本生成相应的事件嵌入向量;
[0014] (7)基于所述事件嵌入向量,将其作为机器学习算法的输入,进行事件分类或聚类。
[0015] 进一步地,所述步骤(2)中,根据句法分析结果,构建初始句法依存图,具体为:
[0016] 每个词作为一个节点,词之间的依存关系表示对应节点之间的有向边;除动词以外,相同的词合并为同一节点,保留这些词的所有依存关系;同一命名实体下的多个词合并为一个节点,消除这些词之间的依存关系,保留这些词与其他词之间的所有依存关系。
[0017] 进一步地,所述步骤(2)中,基于所述句法分析结果,构建初始句法依存图;为图中节点赋予初始权重,迭代地更新其中各节点权重,产生最终的句法依存图,具体步骤为:
[0018] (2-1)为句法依存图中每个节点vi赋予初始权重W0(vi);最大迭代次数为K;
[0019] (2-2)更新每个节点vi的权重:
[0020] Wn+1(vi)=f(G,Wn,vi)
[0021] 其中,f是权重更新函数,G是构建好的句法依存图,Wn是第n次迭代后节点权重映射函数,Wn+1(vi)是第n+1次迭代后的节点vi权重;
[0022] (2-3)如果句法依存图所有节点的权重更新前后绝对值差|Wn+1(vi)-Wn(vi)|小于阈值a,或者迭代次数达到最大迭代次数,则更新最终节点权重W(vi)=Wn+1(vi);否则执行步骤(2-2)。
[0023] 进一步地,所述步骤(3)中,基于所述句法依存图,采用负采样方法分别构造事件要素权重正负样本和事件要素关系正负样本,具体步骤为:
[0024] (3-1)构造事件要素权重正负样本,每条样本的格式为:(事件id,目标词,目标词权重);根据词性标注结果,从句法依存图中选取所有名词和动词节点,将它们的权重进行归一化处理,作为回归正样本集合;从词汇表中分别随机选取不在回归正样本集合中的L个名词和M个动词,并赋予权重为0,作为回归负样本集合;
[0025] (3-2)构造事件要素关系正负样本,每条样本的格式为:(事件id,主语,谓语,宾语,目标词,标签);对依存图中的每个动词,选取其直接主语和宾语组成三元组(主语,谓语,宾语);分别选取三元组中每个元素作为目标词,并将该元素用设定掩码字符串[MASK]替换,构造一条标签为1的正样本,加入分类正样本集合;对每条正样本,根据其目标词词性,从词汇表中随机选取词性相同且不同于目标词的N个词替换该条正样本中的目标词,构造N条标签为0的负样本,加入分类负样本集合。
[0026] 进一步地,所述步骤(4)中,构建基于Skip-Gram架构的事件要素权重预测模型,利用事件要素权重正负样本,训练事件及其要素的特征表示,具体步骤为:
[0027] (4-1)对于事件id,通过查询表方式获得d维嵌入向量ve;对于目标词,利用预训练的词嵌入工具进行嵌入得到k维词向量
[0028] (4-2)将ve和 分别进行线性变换得到 和 和 的维数相同:
[0029]
[0030]
[0031] 其中,We和Wt是可训练的参数矩阵;
[0032] (4-3)计算 和 的内积u,作为预测的目标词权重;采用均方误差作为目标函数,形式化为:
[0033]
[0034] loss=(y-u)2
[0035] (4-4)利用梯度下降算法优化目标函数,更新事件嵌入表示ve,参数矩阵We和Wt,以及目标词向量
[0036] 进一步地,上述步骤(5)中,构建基于CBOW架构的事件要素关系预测模型,利用事件要素关系正负样本,训练事件及其要素的特征表示,具体步骤为:
[0037] (5-1)对于事件id,通过查询表方式获得d维嵌入向量ve;对于主谓宾词以及目标词,分别利用开源工具fasttext进行嵌入得到k维词向量 和
[0038] (5-2)将ve, 和 分别进行线性变换,得到维数相同的 和
[0039]
[0040] 其中,We,Ws,Wp,Wo和Wt是可训练的参数矩阵;
[0041] (5-3)将 进行求和并取平均,得到上下文向量 计算 和 的内积,并通过sigmoid函数计算输出概率;采用交叉熵损失函数作为目标函数,形式化为:
[0042]
[0043]
[0044] loss=-ylog(pt)-(1-y)log(1-pt)
[0045] 其中,pt是目标词的输出概率分布,y是样本的真实标签;
[0046] (5-4)利用梯度下降算法优化目标函数,更新事件特征表示ve、参数矩阵,We,Ws,Wp,Wo和Wt,以及主谓宾词向量 和目标词向量
[0047] 进一步地,上述步骤(6)中,基于所述训练完成的事件要素权重预测模型和事件要素关系预测模型模型,对新输入的文本生成相应的事件嵌入向量,具体步骤为:
[0048] (6-1)根据步骤(3)生成当前文本的构造事件要素权重正负样本和事件要素关系正负样本;
[0049] (6-2)基于事件要素权重训练样本,根据步骤(4)训练事件要素权重预测模型,更新事件嵌入向量;训练过程中,除事件嵌入向量外,所有其他参数固定不变;
[0050] (6-3)基于事件要素关系训练样本,根据步骤(5)训练事件要素关系预测模型,更新事件嵌入向量;训练过程中,除事件嵌入向量外,所有其他参数固定不变。
[0051] 基于相同的发明构思,本发明所述的基于句法依存图的篇章级事件嵌入装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于句法依存图的篇章级事件嵌入方法。
[0052] 有益效果:本发明利用嵌入技术,显示地建模事件文本中描述的实体重要性、动作重要性以及实体间关系,通过训练获得的低维事件向量表示,能够更深层次地捕获事件要素及其结构信息,有效改善传统基于词袋模型的事件特征表示存在的高维稀疏、语义和语法结构缺失问题,进而提升下游任务如事件分类、聚类的效果。

附图说明

[0053] 图1为本发明实施例的方法流程图。
[0054] 图2为本发明实施例涉及的句法依存分析图。
[0055] 图3为本发明实施例涉及的最终句法依存图。
[0056] 图4为本发明实施例涉及的基于Skip-Gram架构的事件要素权重预测模型图。
[0057] 图5为本发明实施例涉及的基于CBOW架构的事件要素关系预测模型图。

具体实施方式

[0058] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
[0059] 如图1所示,本发明实施例公开的基于句法依存图的篇章级事件嵌入方法,包括以下步骤:
[0060] (1)获取事件文档语料,利用自然语言处理工具对每篇文档依次进行分词、词性标注、实体识别、代指消解和句法依存分析,并构建词汇表;
[0061] (2)基于所述句法依存分析结果,构建初始句法依存图;为图中节点赋予初始权重,迭代地更新其中各节点权重,产生最终的句法依存图;
[0062] (3)基于所述句法依存图,采用负采样方法分别构造事件要素权重正负样本和事件要素关系正负样本,其中事件要素权重样本中包括事件id、目标词和目标词权重,事件要素关系样本中包括事件id、主语、宾语、谓语、目标词和标签;
[0063] (4)构建基于Skip-Gram架构的事件要素权重预测模型,利用事件要素权重正负样本,训练事件及其要素的特征表示;
[0064] (5)构建基于CBOW架构的事件要素关系预测模型,利用事件要素关系正负样本,训练事件及其要素的特征表示;
[0065] (6)基于训练完成的事件要素权重以及要素关系两类预测模型,对新输入的文本生成相应的事件嵌入向量;
[0066] (7)基于所述事件嵌入向量,将其作为通用机器学习算法的输入,进行事件分类、聚类。
[0067] 在本发明的一个可选实施例中,上述步骤(1)从互联网下载搜狗新闻数据集,其包含2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据。如表1所示为该数据集中部分文档信息。
[0068] 表1两条示例新闻文本
[0069]
[0070] 在本发明的一个可选实施例中,上述步骤(1)使用斯坦福CoreNLP自然语言处理工具进行分词、词性标注、实体识别、代指消解以及句法分析任务,并将数据集中提取出的所有名词和动词加入词汇表,词汇表的每一项格式为(词语,词性集合),其中词语作为键。
[0071] 如图2所示为文档1经过步骤1所获得的分析结果。
[0072] 在本发明的一个可选实施例中,上述步骤(2)根据句法依存分析结果,构建初始句法依存图,具体为:
[0073] 每个词作为一个节点,词之间的依存关系表示对应节点之间的有向边;除动词以外,相同的词合并为同一节点,保留这些词的所有依存关系;同一命名实体下的多个词合并为一个节点,消除这些词之间的依存关系,保留这些词与其他词之间的所有依存关系。
[0074] 在本发明的一个可选实施例中,上述步骤(2)中,基于初始句法依存图,利用PageRank算法,迭代地更新其中各节点权重,产生最终的句法依存图,具体步骤为:
[0075] (2-1)为句法依存图中每个节点vi赋予初始权重W0(vi)=1.0;最大迭代次数为K=100;
[0076] (2-2)更新图中各个节点的权重,权重更新公式:
[0077]
[0078] 其中,d为阻尼系数,取值为0.85,In(vi)是指向节点vi的所有节点集合,Out(vi)是节点vi指向的所有节点集合;在无向图中In(vi)=Out(vi);
[0079] (2-3)如果句法依存图所有节点的权重更新前后绝对值差|Wn+1(vi)-Wn(vi)|小于阈值a,或者迭代次数达到最大迭代次数,则更新最终节点权重W(vi)=Wn+1(vi);否则执行步骤(2-2)。
[0080] 如图3所示为其中一篇文档的最终句法依存图。
[0081] 在本发明的一个可选实施例中,上述步骤(3)中,基于所述句法依存图,采用负采样方法分别构造事件要素权重正负样本和事件要素关系正负样本,具体步骤为:(3-1)构造事件要素权重正负样本,每条样本的格式为:(事件id,目标词,目标词权重);根据词性标注结果,从句法依存图中选取所有名词和动词节点,将它们的权重进行归一化处理,作为回归正样本集合;从词汇表中分别随机选取不在回归正样本集合中的L个名词和M个动词,并赋予权重为0,作为回归负样本集合;
[0082] (3-2)构造事件要素关系正负样本,每条样本的格式为:(事件id,主语,谓语,宾语,目标词,标签);对依存图中的每个动词,选取其直接主语和宾语组成三元组(主语,谓语,宾语);分别选取三元组中每个元素作为目标词,并将该元素用设定掩码字符串[MASK]替换,构造一条标签为1的正样本,加入分类正样本集合;对每条正样本,根据其目标词词性,从词汇表中随机选取词性相同且不同于目标词的N个词替换该条正样本中的目标词,构造N条标签为0的负样本。
[0083] 在本发明的一个可选实施例中,上述步骤(4)中,采用Skip-Gram架构构造事件要素权重预测模型,根据事件特征表示预测实体词或动词的权重wi,学习篇章级事件及其要素的向量表示,如图4所示为该模型结构,训练过程具体为:
[0084] (4-1)对于事件id,通过查询表方式获得d维(如100维)嵌入向量ve;对于目标词,利用开源工具fasttext进行嵌入得到k维(如300维)词向量
[0085] (4-2)将ve和 分别进行线性变换得到 和 和 的维数相同(如都为256维):
[0086]
[0087]
[0088] 其中,We和Wt是可训练的参数矩阵;
[0089] (4-3)计算 和 的内积u,作为预测的目标词权重;采用均方误差作为目标函数,形式化为:
[0090]
[0091] loss=(y-u)2
[0092] (4-4)利用梯度下降算法优化目标函数,更新事件嵌入表示ve,参数矩阵We和Wt,以及目标词向量
[0093] 在本发明的一个可选实施例中,上述步骤(5)中,采用CBOW架构构造事件要素关系预测模型,根据事件特征表示,给定两个实体,预测它们的关系,或者给定一个实体及其关联的动词,预测另一个实体,学习篇章级事件及其要素的向量表示,如图5所示为该模型结构,训练过程具体为:
[0094] (5-1)对于事件id,通过查询表方式获得d维(如100维)嵌入向量ve;对于主谓宾词以及目标词,分别利用开源工具fasttext进行嵌入得到k维(如300维)词向量 和[0095] (5-2)将ve, 和 分别进行线性变换,得到维数相同的 和如变换后维数为256:
[0096]
[0097] 其中,We,Ws,Wp,Wo和Wt是可训练的参数矩阵;
[0098] (5-3)将 进行求和并取平均,得到上下文向量 计算 和 的内积,并通过sigmoid函数计算输出概率;采用交叉熵损失函数作为目标函数形式化为:
[0099]
[0100]
[0101] loss=-ylog(pt)-(1-y)log(1-pt)
[0102] 其中,pt是目标词的输出概率分布,y是样本的真实标签;
[0103] (5-4)利用随机梯度下降算法优化目标函数,更新事件特征表示ve、参数矩阵We,Ws,Wp,Wo和Wt,以及主谓宾词向量 和目标词向量
[0104] 在本发明的一个可选实施例中,上述步骤(6)中,基于所述训练完成的两类模型,从新闻语料中选择2000篇同一时段的体育类新闻报道,对每篇新闻文本生成相应的事件嵌入向量,具体步骤为:
[0105] (6-1)根据步骤(3)生产当前文本的构造事件要素权重正负样本和事件要素关系正负样本;
[0106] (6-2)基于事件要素权重训练样本,根据步骤(4)训练事件要素权重预测模型,更新事件嵌入向量;训练过程中,除事件嵌入向量外,所有其他参数固定不变;
[0107] (6-3)基于事件要素关系训练样本,根据步骤(5)训练事件要素关系预测模型,更新事件嵌入向量;训练过程中,除事件嵌入向量外,所有其他参数固定不变。
[0108] 在本发明的一个可选实施例中,上述步骤(7)中,基于所述事件嵌入向量,将其作为Single-Pass聚类算法的输入,对2000篇新闻文本进行事件聚类,并对比基于TF-IDF的事件特征表示的聚类效果;其中距离度量选择余弦相似度,相似度阈值设为0.8。
[0109] 基于相同的发明构思,本发明实施例公开的基于句法依存图的篇章级事件嵌入装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于句法依存图的篇章级事件嵌入方法。
[0110] 本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。