基于知识图谱的事件数据处理方法、装置、设备和介质转让专利

申请号 : CN202111144445.3

文献号 : CN113590737B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 邓劲生乔凤才宋省身赵涛孙睿豪

申请人 : 中国人民解放军国防科技大学

摘要 :

本申请涉及基于知识图谱的事件数据处理方法、装置、设备和介质,方法包括:获取查询条件;利用查询条件过滤调用的事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表,以指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。事件情报知识图谱包括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系。能够可靠完成事件情报数据的分析处理。

权利要求 :

1.一种基于知识图谱的事件数据处理方法,其特征在于,包括步骤:获取查询条件并调用构建的事件情报知识图谱;所述查询条件为针对待检索事件输入的关键词,所述事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,所述事件情报知识图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系;

利用所述查询条件过滤所述事件情报知识图谱的词语指针数组,定位到所述词语指针数组中所述查询条件对应的目标数组元素;所述词语指针数组为所述事件情报知识图谱的全部实体的名称词语构成的指针数组;

根据所述目标数组元素的指针对应的第一链表,查找所述第一链表中实体类型为事件实体的目标链表元素;所述第一链表为存储构建所述事件情报知识图谱的源情报数据的外存存储地址、所述事件情报知识图谱的实体类型与事件标识的内存存储链表;

利用所述事件情报知识图谱的事件指针数组,对所述目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;所述事件指针数组用于存储所述事件情报知识图谱的全部事件实体的事件标识,所述事件指针数组的每个元素的指针分别指向一个第二链表,每个所述第二链表均用于存储一组事件情报的要素信息,所述目标第二链表用于指示所述待检索事件在所述事件情报知识图谱中对应的目标事件情报的要素信息;

获取查询条件并调用构建的事件情报知识图谱的步骤前,还包括:将所述源情报数据存储至设定的外存存储地址;

将所述事件情报知识图谱中全部实体的名称词语取出,形成名称词语列表;

利用所述名称词语列表中的所有词语构成词语指针数组;所述词语指针数组的指针指向所述第一链表;

设置所述第一链表的第1个元素为所述外存存储地址;

对所述第一链表对应的各所述名称词语,在所述事件情报知识图谱中分别找到各所述名称词语作为实体名称出现的所有实体,形成各所述名称词语对应的名称实体列表;

根据所述名称实体列表中的每个实体,生成所述第一链表中的元素结构;所述第一链表中从第2个元素起,每个元素结构均为<实体类型,实体的事件标识>;

将所述事件情报知识图谱中的全部事件实体取出并为每个事件实体赋予唯一的事件标识,将每个事件实体的事件标识插入所述第一链表中;

获取查询条件并调用构建的事件情报知识图谱的步骤前,还包括:利用所述事件情报知识图谱中的全部事件实体构成事件指针数组;所述事件指针数组的各元素的指针分别指向各第二链表;所述第二链表为内存存储链表;

设置各所述第二链表的第1个元素为所属事件实体的名称;

设置各所述第二链表的第2个元素为所属事件实体对应的时间实体的名称;

设置各所述第二链表的第3个元素为所属事件实体对应的地点实体的名称;

设置各所述第二链表的第4个元素为所属事件实体对应的人物实体的名称;

设置各所述第二链表的第5个元素为所属事件实体对应的起因实体的名称;

设置各所述第二链表的第6个元素为所属事件实体对应的经过实体的名称;

设置各所述第二链表的第7个元素为所属事件实体对应的结果实体的名称;

设置各所述第二链表的第8个元素为所述外存存储地址。

2.根据权利要求1所述的基于知识图谱的事件数据处理方法,其特征在于,获取查询条件并调用构建的事件情报知识图谱的步骤前,还包括:获取所述源情报数据;

根据所述源情报数据,采用机器学习法进行事件要素识别模型训练,得到事件情报本体模型;所述事件情报本体模型包括时间描述模型、地点描述模型、人物描述模型、起因描述模型、经过描述模型和结果描述模型;

根据所述源情报数据和所述事件情报本体模型构建所述事件情报知识图谱。

3.根据权利要求2所述的基于知识图谱的事件数据处理方法,其特征在于,根据所述源情报数据,采用机器学习法进行事件要素识别模型训练,得到事件情报本体模型的步骤,包括:

对所述源情报数据进行目标词语抽取,得到各目标词语分别对应的词列表;各所述词列表包括关键词列表、时间词列表、地名词列表、人名词列表和动词列表;

根据所述源情报数据,利用领域专家对各所述词列表进行描述标注,标注出描述以所述关键词列表中的关键词为事件的各要素词语;各所述要素词语包括时间词语、地点词语、人物词语、起因词语、经过词语和结果词语;

利用BERT模型将各所述词列表和各所述要素词语进行向量化处理;

根据所述源情报数据、向量化后的各所述词列表和各所述要素词语,利用自回归模型进行事件要素识别模型训练,得到所述事件情报本体模型。

4.根据权利要求3所述的基于知识图谱的事件数据处理方法,其特征在于,根据所述源情报数据和所述事件情报本体模型构建所述事件情报知识图谱的步骤,包括:利用所述关键词列表构建所述事件实体;所述事件实体的实体名称为所述关键词列表中关键词的组合;

利用所述时间描述模型识别所述事件实体的时间描述词,将所述时间描述词作为构建的所述时间实体的名称,构建所述时间描述关系连接所述事件实体和所述时间实体;

利用所述地点描述模型识别所述事件实体的地点描述词,将所述地点描述词作为构建的所述地点实体的名称,构建所述地点描述关系连接所述事件实体和所述地点实体;

利用所述人物描述模型识别所述事件实体的人物描述词,将所述人物描述词作为构建的所述人物实体的名称,构建所述参与描述关系连接所述事件实体和所述人物实体;

利用所述起因描述模型识别所述事件实体的起因描述词,将所述起因描述词作为构建的所述起因实体的名称,构建所述发展描述关系连接所述事件实体和所述起因实体;

利用所述经过描述模型识别所述事件实体的经过描述词,将所述经过描述词作为构建的所述经过实体的名称,构建所述发展描述关系连接所述事件实体和所述经过实体;

利用所述结果描述模型识别所述事件实体的结果描述词,将所述结果描述词作为构建的所述结果实体的名称,构建所述发展描述关系连接所述事件实体和所述结果实体。

5.一种基于知识图谱的事件数据处理装置,其特征在于,包括:检索输入模块,用于获取查询条件并调用构建的事件情报知识图谱;所述查询条件为针对待检索事件输入的关键词,所述事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,所述事件情报知识图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系;

元素定位模块,用于利用所述查询条件过滤所述事件情报知识图谱的词语指针数组,定位到所述词语指针数组中所述查询条件对应的目标数组元素;所述词语指针数组为所述事件情报知识图谱的全部实体的名称词语构成的指针数组;

链表查找模块,用于根据所述目标数组元素的指针对应的第一链表,查找所述第一链表中实体类型为事件实体的目标链表元素;所述第一链表为存储构建所述事件情报知识图谱的源情报数据的外存存储地址、所述事件情报知识图谱的实体类型与事件标识的内存存储链表;

匹配输出模块,用于利用所述事件情报知识图谱的事件指针数组,对所述目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;所述事件指针数组用于存储所述事件情报知识图谱的全部事件实体的事件标识,所述事件指针数组的每个元素的指针分别指向一个第二链表,每个所述第二链表均用于存储一组事件情报的要素信息,所述目标第二链表用于指示所述待检索事件在所述事件情报知识图谱中对应的目标事件情报的要素信息;

检索输入模块还用于将所述源情报数据存储至设定的外存存储地址;

将所述事件情报知识图谱中全部实体的名称词语取出,形成名称词语列表;

利用所述名称词语列表中的所有词语构成词语指针数组;所述词语指针数组的指针指向所述第一链表;

设置所述第一链表的第1个元素为所述外存存储地址;

对所述第一链表对应的各所述名称词语,在所述事件情报知识图谱中分别找到各所述名称词语作为实体名称出现的所有实体,形成各所述名称词语对应的名称实体列表;

根据所述名称实体列表中的每个实体,生成所述第一链表中的元素结构;所述第一链表中从第2个元素起,每个元素结构均为<实体类型,实体的事件标识>;

将所述事件情报知识图谱中的全部事件实体取出并为每个事件实体赋予唯一的事件标识,将每个事件实体的事件标识插入所述第一链表中;

检索输入模块还用于利用所述事件情报知识图谱中的全部事件实体构成事件指针数组;所述事件指针数组的各元素的指针分别指向各第二链表;所述第二链表为内存存储链表;

设置各所述第二链表的第1个元素为所属事件实体的名称;

设置各所述第二链表的第2个元素为所属事件实体对应的时间实体的名称;

设置各所述第二链表的第3个元素为所属事件实体对应的地点实体的名称;

设置各所述第二链表的第4个元素为所属事件实体对应的人物实体的名称;

设置各所述第二链表的第5个元素为所属事件实体对应的起因实体的名称;

设置各所述第二链表的第6个元素为所属事件实体对应的经过实体的名称;

设置各所述第二链表的第7个元素为所属事件实体对应的结果实体的名称;

设置各所述第二链表的第8个元素为所述外存存储地址。

6.根据权利要求5所述的基于知识图谱的事件数据处理装置,其特征在于,还包括:数据获取模块,用于获取所述源情报数据;

本体训练模块,用于根据所述源情报数据,采用机器学习法进行事件要素识别模型训练,得到事件情报本体模型;所述事件情报本体模型包括时间描述模型、地点描述模型、人物描述模型、起因描述模型、经过描述模型和结果描述模型;

图谱构建模块,用于根据所述源情报数据和所述事件情报本体模型构建所述事件情报知识图谱。

7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述基于知识图谱的事件数据处理方法的步骤。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现权利要求1至4中任一项所述基于知识图谱的事件数据处理方法的步骤。

说明书 :

基于知识图谱的事件数据处理方法、装置、设备和介质

技术领域

[0001] 本申请涉及数据处理技术领域,特别是涉及一种基于知识图谱的事件数据处理方法、装置、设备和介质。

背景技术

[0002] 情报信息的组织、存储与检索在情报分析处理中具有重要的地位,是情报正确分析处理的前提条件。事件情报是一种重要的情报种类,可为情报分析人员对历史问题发展
规律和当前焦点问题的深刻洞悉提供数据支撑,因此针对事件情报的组织处理显得尤为重
要。知识图谱(Knowledge Graph)是通过将应用数学、图形学、信息可视化技术和信息科学
等学科的理论及方法,与计量学引文分析、共现分析等方法相结合,并利用可视化的图谱形
象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的
现代理论技术。知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知
识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,
挖掘、分析、构建、绘制和显示知识及其之间的相互联系。
[0003] 在现代情报分析处理中,传统的情报分析处理方法主要有:基于知识图谱的情报关联分析方法、基于知识图谱的网络安全应急响应方法、基于重点人物目标识别的综合认
知方法、面向情报分析的构建知识图谱的方法和面向文本数据的威胁情报知识图谱构建方
法等。然而,在实现本发明过程中,发明人发现前述传统的情报分析处理方法,存在着无法
可靠完成事件情报数据的分析处理的技术问题。

发明内容

[0004] 基于此,有必要针对上述技术问题,提供一种基于知识图谱的事件数据处理方法、一种基于知识图谱的事件数据处理装置、一种计算机设备以及一种计算机可读存储介质,
能够可靠完成事件情报数据的分析处理。
[0005] 为了实现上述目的,本发明实施例采用以下技术方案:
[0006] 一方面,本发明实施例提供一种基于知识图谱的事件数据处理方法,包括步骤:
[0007] 获取查询条件并调用构建的事件情报知识图谱;查询条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人物实体、起
因实体、经过实体和结果实体,事件情报知识图谱的关系类型包括时间描述关系、地点描述
关系、参与描述关系和发展描述关系;
[0008] 利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;词语指针数组为事件情报知识图谱的全部实体的名称词语构
成的指针数组;
[0009] 根据目标数组元素的指针对应的第一链表,查找第一链表中实体类型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数据的外存存储地址、
事件情报知识图谱的实体类型与事件标识的内存存储链表;
[0010] 利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;事件指针数组用于存储
事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别指向
一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用于指
示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。
[0011] 另一方面,还提供一种基于知识图谱的事件数据处理装置,包括:
[0012] 检索输入模块,用于获取查询条件并调用构建的事件情报知识图谱;查询条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间实体、地
点实体、人物实体、起因实体、经过实体和结果实体,事件情报知识图谱的关系类型包括时
间描述关系、地点描述关系、参与描述关系和发展描述关系;
[0013] 元素定位模块,用于利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;词语指针数组为事件情报知识图谱的全
部实体的名称词语构成的指针数组;
[0014] 链表查找模块,用于根据目标数组元素的指针对应的第一链表,查找第一链表中实体类型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数
据的外存存储地址、事件情报知识图谱的实体类型与事件标识的内存存储链表;
[0015] 匹配输出模块,用于利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;事
件指针数组用于存储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个
元素的指针分别指向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,
目标第二链表用于指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信
息。
[0016] 又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现任一项的上述基于知识图谱的事件数据处理方法的步
骤。
[0017] 再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现任一项的上述基于知识图谱的事件数据处理方法的步骤。
[0018] 上述技术方案中的一个技术方案具有如下优点和有益效果:
[0019] 上述基于知识图谱的事件数据处理方法、装置、设备和介质,所利用的事件情报知识图谱,其充分涵盖事件的时间、地点、人物、起因、经过和结果等事件要素,并且相应定义
有知识图谱中实体类型和实体之间的关系类型。该事件情报知识图谱比传统的情报知识图
谱更加适合事件类情报的准确描述。该事件情报知识图谱的存储与索引方式,充分利用了
外存存储情报文件、内存存储索引信息的设计构思,使得事件情报信息可以全部完备存储,
从而可以提供实用的快速索引能力,为高效检索事件情报提供了基础技术支撑。通过获取
给定的查询词语,利用前述事件情报知识图谱进行检索,可以快速准确地定位到事件情报
知识图谱中对应查询词语的实体并返回所查询的事件的全部情报相关要素信息,与传统的
情报分析处理方法相比,完全面向事件的要素来设计,使得检索结果可以充分展现出事件
情报的特点,赋予决策者以更深刻的情报洞察力,达到了可靠完成事件情报数据的分析处
理的预期效果。

附图说明

[0020] 图1为一个实施例中基于知识图谱的事件数据处理方法的流程示意图;
[0021] 图2为另一个实施例中基于知识图谱的事件数据处理方法的流程示意图;
[0022] 图3为一个实施例中事件情报本体模型的训练流程示意图;
[0023] 图4为一个实施例中事件情报知识图谱的构建流程示意图;
[0024] 图5为一个实施例中事件情报知识图谱的存储处理流程示意图;
[0025] 图6为一个实施例中事件情报知识图谱的索引处理流程示意图;
[0026] 图7为一个实施例中基于知识图谱的事件数据处理装置的模块结构示意图。

具体实施方式

[0027] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不
用于限定本申请。
[0028] 除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具
体的实施例的目的,不是旨在于限制本申请。
[0029] 另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这
种技术方案的结合不存在,也不在本发明要求的保护范围之内。
[0030] 传统的情报分析处理方法中,基于知识图谱的情报关联分析方法,主要是对下载的情报数据TXT文档进行解析后,构建三元组情报知识库,利用SPARQL查询返回结果。基于
知识图谱的网络安全应急响应方法,是通过构建安全情报库和知识图谱库对网络安全事件
进行匹配,给出应急处理方案。基于重点人物目标识别的综合认知方法,通过结合图像人物
识别和所构建的目标知识图谱,对重点人物社会属性、活动规律和行为习惯进行关联分析、
相互印证。面向情报分析的构建知识图谱的方法,则是利用数据清洗、实体识别等文本处理
技术对采集到的数据构建知识图谱。面向文本数据的威胁情报知识图谱构建方法,则是针
对文本中含有的威胁信息,结合对威胁种类和威胁关系种类的预定义,从文本威胁情报数
据中自动化提取出三元组,通过图数据库存储,从而构建威胁情报知识图谱。
[0031] 纵观传统的利用知识图谱分析处理情报的技术,发明人发现:(1)不能直接将现有基于知识图谱的情报分析方法应用于面向事件情报分析中,这是由于事件情报的属性要素
较为独特,通常需包含时间、地点和人物等要素,而前述的传统方法仅能满足1至2项事件情
报要素的分析处理,无法充分支撑所需的分析能力。(2)事件情报识别较为复杂,利用传统
的知识图谱构建方法无法达到预期效果。前述传统方法大多采用实体识别的方法来构建知
识图谱三元组,而事件情报由于要素众多,仅依靠实体识别构建则会发生错误,因此需要利
用更加有效且可靠的方法进行处理。
[0032] 综上,本发明针对传统的情报分析处理方法存在着的无法可靠完成事件情报数据的分析处理的技术问题,设计了一种基于知识图谱的事件数据处理方法,针对待处理的事
件情报数据,考虑利用知识图谱技术对事件情报数据进行表示、存储与检索,充分考虑了事
件的时间、地点、人物、起因、经过和结果等6要素,设计了事件情报本体并利用机器学习方
法将抽取后的实体构建事件情报知识图谱,然后基于此还进行了图谱的存储与检索设计,
有效解决了事件情报数据的可靠分析处理问题。
[0033] 请参阅图1,一方面,本发明提供一种基于知识图谱的事件数据处理方法,包括如下步骤S12至S18:
[0034] S12,获取查询条件并调用构建的事件情报知识图谱;查询条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人物实
体、起因实体、经过实体和结果实体,事件情报知识图谱的关系类型包括时间描述关系、地
点描述关系、参与描述关系和发展描述关系。
[0035] 可以理解,事件情报知识图谱可以利用给定的源情报数据,也即给定的情报原始数据(为文本数据)进行自动构建。事件情报知识图谱是在事件情报本体模型下构建的一种
知识图谱,为便于理解,例如可以但不限于将事件情报知识图谱记为eikg,即Event 
Intelligence Knowledge Graph。eikg有以下若干种类型的实体:事件实体en_event,用于
表达一个事件名称;时间实体en_time,用于描述事件实体的时间属性;地点实体en_loc,用
于描述事件实体的地点属性;人物实体en_fig,用于描述事件实体的人物属性;起因实体
en_cause,用于描述事件实体的起因属性;经过实体en_course,用于描述事件实体的经过
属性;结果实体en_ret,用于描述事件实体的结果属性。
[0036] eikg有以下若干种关系类型:时间描述关系rel_time,用于表达利用时间来描述某个对象的关系;地点描述关系rel_loc,用于表达利用地点来描述某个对象的关系;参与
描述关系rel_part,用于表达人物参与某个事件的关系;发展描述关系rel_devp,用于表达
事件的起因、经过、结果之间的脉络发展以及事件演化为另一个事件的发展关系。
[0037] S14,利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;词语指针数组为事件情报知识图谱的全部实体的名称词
语构成的指针数组。
[0038] S16,根据目标数组元素的指针对应的第一链表,查找第一链表中实体类型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数据的外存存储地
址、事件情报知识图谱的实体类型与事件标识的内存存储链表。
[0039] S18,利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;事件指针数组用于
存储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别
指向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用
于指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。
[0040] 可以理解,要素信息可以包括该事件的时间、地点、人物、起因、经过和结果等6要素。其中,源情报数据采用的是外存存储,而第二链表也为内存存储。对于每个事件实体,事
件情报知识图谱的存储方式中已为其分配了唯一的事件标识。
[0041] 上述基于知识图谱的事件数据处理方法,所利用的事件情报知识图谱,其充分涵盖事件的时间、地点、人物、起因、经过和结果等事件要素,并且相应定义有知识图谱中实体
类型和实体之间的关系类型。该事件情报知识图谱比传统的情报知识图谱更加适合事件类
情报的准确描述。该事件情报知识图谱的存储与索引方式,充分利用了外存存储情报文件、
内存存储索引信息的设计构思,使得事件情报信息可以全部完备存储,从而可以提供实用
的快速索引能力,为高效检索事件情报提供了基础技术支撑。通过获取给定的查询词语,利
用前述事件情报知识图谱进行检索,可以快速准确地定位到事件情报知识图谱中对应查询
词语的实体并返回所查询的事件的全部情报相关要素信息,与传统的情报分析处理方法相
比,完全面向事件的要素来设计,使得检索结果可以充分展现出事件情报的特点,赋予决策
者以更深刻的情报洞察力,达到了可靠完成事件情报数据的分析处理的预期效果。
[0042] 请参阅图2,在一个实施例中,关于上述基于知识图谱的事件数据处理方法,在步骤S12之前,具体还可以包括如下关于事件情报知识图谱的构建的处理步骤S09至S11:
[0043] S09,获取源情报数据;
[0044] S10,根据源情报数据,采用机器学习法进行事件要素识别模型训练,得到事件情报本体模型;事件情报本体模型包括时间描述模型、地点描述模型、人物描述模型、起因描
述模型、经过描述模型和结果描述模型;
[0045] S11,根据源情报数据和事件情报本体模型构建事件情报知识图谱。
[0046] 可以理解,针对事件情报的特点,本示例给出了事件情报本体模型。为便于理解,事件情报本体模型可以统一记为eio,即Event Intelligence Ontology,由(etime,eloc,
efig,ecause,ecourse,eret)组成,其对应的含义分别为(时间,地点,人物,起因,经过,结
果),其中,etime为时间类型数据;eloc为地理名称字符串或地理名称字符串数组,用于描
述一个事件可能存在一组地点;efig为人物姓名字符串或人物姓名字符串数组,用于描述
一个事件可能存在一组人物;ecause为以分号分隔的一组词语,用于描述事件的起因;
ecourse为以分号分隔的一组词语,用于描述事件的经过;eret为以分号分隔的一组词语,
用于描述事件的结果。
[0047] 机器学习法可以是本领域中已有的适用于事件情报本体模型训练的各类机器学习方法,可以根据训练的效率、计算量和精度等需要进行选择。源情报数据可以但不限于通
过计算设备线上收集、从数据库下载或者人工预先采集等方式获得。
[0048] 通过上述步骤,实现了针对原始情报文本进行时间、地点、人物等要素识别模型的训练后,可基于这些模型进行事件情报知识图谱的自动构建。
[0049] 请参阅图3,在一个实施例中,关于上述的步骤S10,具体可以包括如下处理步骤S101至S107:
[0050] S101,对源情报数据进行目标词语抽取,得到各目标词语分别对应的词列表;各词列表包括关键词列表、时间词列表、地名词列表、人名词列表和动词列表;
[0051] S103,根据源情报数据,利用领域专家对各词列表进行描述标注,标注出描述以关键词列表中的关键词为事件的各要素词语;各要素词语包括时间词语、地点词语、人物词
语、起因词语、经过词语和结果词语;
[0052] S105,利用BERT模型将各词列表和各要素词语进行向量化处理;
[0053] S107,根据源情报数据、向量化后的各词列表和各要素词语,利用自回归模型进行事件要素识别模型训练,得到事件情报本体模型。
[0054] 可以理解,领域专家是指本领域的业务专家,可以为计算机面对某些疑难情报术语、专业术语等情况时提供术语的答疑和注释等。BERT模型是机器学习领域中已有的一种
语言模型,可以用于处理词语的向量化,在本实施例中即直接应用该BERT模型进行所需的
向量化处理,其处理过程可以参照BERT模型本身的处理流程同理理解。
[0055] 具体的,针对源情报数据,为便于理解,可以将源情报数据记为情报文本数据I,下文相应特征同理标记。需要说明的是,本领域技术人员应该理解,前述对各特征采用的具体
英文标记作为其代号,并非是对该特征的唯一标记形式且并非是对该特征的唯一限定,本
领域技术人员可以根据描述需要而采用其他标记形式,下文各实施例的特征标记形式同
理。上述处理步骤可以展开描述为如下处理过程:
[0056] 1:对I进行关键词抽取,形成关键词列表kwlist;
[0057] 2:对I进行时间词语抽取,形成时间词列表twlist;
[0058] 3:对I进行地名实体抽取,形成地名词列表lwlist;
[0059] 4:对I进行人名实体抽取,形成人名词列表fwlist;
[0060] 5:对I进行动词抽取,形成动词列表awlist;
[0061] 6:由领域专家进行标注,结合I,给定kwlist和twlist,标注出描述以kwlist为事件的时间词语;
[0062] 7:由领域专家进行标注,结合I,给定kwlist和lwlist,标注出描述以kwlist为事件的地点词语;
[0063] 8:由领域专家进行标注,结合I,给定kwlist和fwlist,标注出描述以kwlist为事件的人物词语;
[0064] 9:由领域专家进行标注,结合I,给定kwlist和awlist,标注出描述以kwlist为事件的起因词语;
[0065] 10:由领域专家进行标注,结合I,给定kwlist和awlist,标注出描述以kwlist为事件的经过词语;
[0066] 11:由领域专家进行标注,结合I,给定kwlist和awlist,标注出描述以kwlist为事件的结果词语;
[0067] 12:利用BERT模型将kwlist、twlist、lwlist、fwlist和awlist,以及标注出的时间词语、标注出的地点词语、标注出的人物词语、标注出的起因词语、标注出的经过词语和标
注出的结果词语均进行向量化,以便于后续步骤的处理;
[0068] 13:利用自回归模型训练时间描述模型m_time,即给定I、kwlist和twlist,可映射出时间描述词语;自回归模型为本领域已有的模型,其处理过程可以参照自回归模型的现
有处理流程同理理解;
[0069] 14:利用自回归模型训练地点描述模型m_loc,即给定I、kwlist和lwlist,可映射出地点描述词语;
[0070] 15:利用自回归模型训练人物描述模型m_fig,即给定I、kwlist和fwlist,可映射出人物描述词语;
[0071] 16:利用自回归模型训练起因描述模型m_cause,即给定I、kwlist和awlist,可映射出起因描述词语;
[0072] 17:利用自回归模型训练经过描述模型m_course,即给定I、kwlist和awlist,可映射出经过描述词语;
[0073] 18:利用自回归模型训练结果描述模型m_ret,即给定I、kwlist和awlist,可映射出结果描述词语。
[0074] 通过上述步骤,实现了针对原始情报文本进行事件情报本体模型的快速训练。前述本体模型训练方法,利用实体抽取和机器学习可以对事件的时间、地点、人物、起因、经过
和结果进行识别模型(也即各描述模型)的训练,可使得后续构建的事件情报知识图谱,相
比于传统的情报知识谱图更加贴近分析事件的知识图谱,构建的事件情报知识图谱也会更
加精确。
[0075] 请参阅图4,在一个实施例中,关于上述的步骤S11,具体可以包括如下处理步骤S111至S116:
[0076] S111,利用时间描述模型识别事件实体的时间描述词,将时间描述词作为构建的时间实体的名称,构建时间描述关系连接事件实体和时间实体;
[0077] S112,利用地点描述模型识别事件实体的地点描述词,将地点描述词作为构建的地点实体的名称,构建地点描述关系连接事件实体和地点实体;
[0078] S113,利用人物描述模型识别事件实体的人物描述词,将人物描述词作为构建的人物实体的名称,构建参与描述关系连接事件实体和人物实体;
[0079] S114,利用起因描述模型识别事件实体的起因描述词,将起因描述词作为构建的起因实体的名称,构建发展描述关系连接事件实体和起因实体;
[0080] S115,利用经过描述模型识别事件实体的经过描述词,将经过描述词作为构建的经过实体的名称,构建发展描述关系连接事件实体和经过实体;
[0081] S116,利用结果描述模型识别事件实体的结果描述词,将结果描述词作为构建的结果实体的名称,构建发展描述关系连接事件实体和结果实体。
[0082] 可以理解,如前述实施例所示,针对给定的情报文本数据I:
[0083] 1:对I进行关键词抽取,形成关键词列表kwlist;
[0084] 2:对I进行时间词语抽取,形成时间词列表twlist;
[0085] 3:对I进行地名实体抽取,形成地名词列表lwlist;
[0086] 4:对I进行人名实体抽取,形成人名词列表fwlist;
[0087] 5:对I进行动词抽取,形成动词列表awlist;
[0088] 6:构建事件情报知识图谱eikg的步骤,具体可以展开描述为如下处理过程:
[0089] 7:构建事件实体en_event,实体名称为kwlist中词的组合;如kwlist中包含词“今天”,“坐车”,“公园”,则组合意味着:“今天‑坐车‑公园”,即词语的拼接。
[0090] 8:构建时间实体en_time,利用m_time识别出事件实体en_event的时间描述词作为en_time实体的名称,并且构建rel_time连接en_event和en_time;其中,m_time可认为是
一种时间识别方法,如上文的“今天”,利用m_time可以把“今天”识别成具体的年月日等日
期。而rel_time用于描述上述转换的年月日与该事件本身的关系,如rel_time可表达为该
时间为该事件的“发生时间”。
[0091] 9:构建地点实体en_loc,利用m_loc识别出事件实体en_event的地点描述词作为en_loc实体的名称,并构建rel_loc连接en_event和en_loc;
[0092] 10:构建人物实体en_fig,利用m_fig识别出事件实体en_event的人物描述词作为en_fig实体的名称,并构建rel_part连接en_event和en_fig;
[0093] 11:构建起因实体en_cause,利用m_cause识别出事件实体en_event的起因描述词作为en_cause实体的名称,并构建rel_devp连接en_event和en_cause;
[0094] 12:构建经过实体en_course,利用m_course识别出事件实体en_event的经过描述词作为en_course实体的名称,并构建rel_devp连接en_event和en_course;
[0095] 13:构建结果实体en_ret,利用m_ret识别出事件实体en_event的结果描述词作为en_ret实体的名称,并构建rel_devp连接en_event和en_ret。
[0096] 通过上述步骤,实现了基于事件情报本体模型自动构建事件情报知识图谱的目的。该构建方式,利用实体抽取和之前训练的本体模型,对给定的情报文本可以直接生成事
件情报知识图谱,是一种较为智能化的构建手段,相比传统的情报知识图谱构建方法,利用
机器学习模型生成事件要素更加准确,构建速度相比传统的构建方法也更快。
[0097] 请参阅图5,在一个实施例中,关于上述基于知识图谱的事件数据处理方法,在步骤S12之前,具体还可以包括如下处理步骤S21至S27:
[0098] S21,将源情报数据存储至设定的外存存储地址;
[0099] S22,将事件情报知识图谱中全部实体的名称词语取出,形成名称词语列表;
[0100] S23,利用名称词语列表中的所有词语构成词语指针数组;词语指针数组的指针指向第一链表;
[0101] S24,设置第一链表的第1个元素为外存存储地址;
[0102] S25,对第一链表对应的各名称词语,在事件情报知识图谱中分别找到各名称词语作为实体名称出现的所有实体,形成各名称词语对应的名称实体列表;
[0103] S26,根据名称实体列表中的每个实体,生成第一链表中的元素结构;第一链表中从第2个元素起,每个元素结构均为<实体类型,实体的事件标识>;
[0104] S27,将事件情报知识图谱中的全部事件实体取出并为每个事件实体赋予唯一的事件标识,将每个事件实体的事件标识插入第一链表中。
[0105] 具体的,上述处理步骤可以展开描述为如下处理过程:
[0106] 1:将情报文本数据I进行外存存储,其存储地址为addr_I;
[0107] 2:将eikg中全部实体的名称词语取出,形成名称词语列表list_w;
[0108] 3:list_w中的所有词语w构成一个词语指针数组ary_w,其数组元素就是该list_w中的词语w,数组的指针指向一个第一链表lik(内存存储);
[0109] 4:链表lik中第1个元素为addr_I;
[0110] 5:链表lik从第2个元素开始,每个元素结构为
[0111] 6:针对每个词语w对应的lik,找到词语w作为实体名称出现的所有的实体,形成每个w各自对应的实体列表list_w_en;
[0112] 7:针对list_w_en中的每个实体en,生成链表lik中的元素结构,其中type_en为en对应的实体类型,eventid为en所对应的事件标识(见下一步骤8中),元
素生成完毕后插入链表lik中;
[0113] 8:将eikg中全部事件类型实体取出,赋予每个事件类型实体唯一标识,作为eventid。
[0114] 通过上述步骤,实现了事件情报知识图谱的存储处理。
[0115] 请参阅图6,在一个实施例中,关于上述基于知识图谱的事件数据处理方法,在步骤S12之前,具体还可以包括如下处理步骤S31至S39:
[0116] S31,利用事件情报知识图谱中的全部事件实体构成事件指针数组;事件指针数组的各元素的指针分别指向各第二链表;第二链表为内存存储链表;
[0117] S32,设置各第二链表的第1个元素为所属事件实体的名称;
[0118] S33,设置各第二链表的第2个元素为所属事件实体对应的时间实体的名称;
[0119] S34,设置各第二链表的第3个元素为所属事件实体对应的地点实体的名称;
[0120] S35,设置各第二链表的第4个元素为所属事件实体对应的人物实体的名称;
[0121] S36,设置各第二链表的第5个元素为所属事件实体对应的起因实体的名称;
[0122] S37,设置各第二链表的第6个元素为所属事件实体对应的经过实体的名称;
[0123] S38,设置各第二链表的第7个元素为所属事件实体对应的结果实体的名称;
[0124] S39,设置各第二链表的第8个元素为外存存储地址。
[0125] 具体的,上述处理步骤可以展开描述为如下处理过程:
[0126] 1:将全部事件类型实体构成一个事件指针数组ary_en,针对每个数组元素,元素内容即为该元素对应的事件实体的唯一标识eventid,元素的指针指向一个第二链表glik
(内存存储);可以理解,元素有多个,则第二链表glik对应也有多个,对于每个的设置方式
相同而内容不同;
[0127] 2:glik第1个元素为该链表对应的事件实体(也即所属事件实体)的名称;
[0128] 3:glik第2个元素为所属事件实体对应的时间实体的名称;
[0129] 4:glik第3个元素为所属事件实体对应的地点实体的名称;
[0130] 5:glik第4个元素为所属事件实体对应的人物实体的名称;
[0131] 6:glik第5个元素为所属事件实体对应的起因实体的名称;
[0132] 7:glik第6个元素为所属事件实体对应的经过实体的名称;
[0133] 8:glik第7个元素为所属事件实体对应的结果实体的名称;
[0134] 9:glik第8个元素为addr_I。
[0135] 通过上述步骤,实现了事件情报知识图谱的索引设置处理。
[0136] 在一个实施例中,关于上述基于知识图谱的事件数据处理方法,可以给出如下检索处理的示例,以便更易于理解上述方法的内容:
[0137] 针对查询条件qw,即按照某个关键词查询事件的图谱:
[0138] 1:用qw过滤词语指针数组ary_w,定位到对应的数组元素q;
[0139] 2:沿着元素q的指针对应的链表lik,查找实体类型type_en为事件实体en_event的目标链表元素,设查找到的相应事件标识eventid列表为list_eventid;
[0140] 3:针对list_eventid中每个元素eventid,用事件指针数组ary_en进行匹配,得到对应的链表glik,从而完成对事件知识图谱的查找。
[0141] 应该理解的是,虽然图1至图6流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步
骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1至图6的至少
一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时
刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依
次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替
地执行。
[0142] 请参阅图7,在一个实施例中,还提供了一种基于知识图谱的事件数据处理装置100,包括检索输入模块11、元素定位模块13、链表查找模块15和匹配输出模块17。其中,检
索输入模块11用于获取查询条件并调用构建的事件情报知识图谱;查询条件为针对待检索
事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人
物实体、起因实体、经过实体和结果实体,事件情报知识图谱的关系类型包括时间描述关
系、地点描述关系、参与描述关系和发展描述关系。元素定位模块13用于利用查询条件过滤
事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元
素;词语指针数组为事件情报知识图谱的全部实体的名称词语构成的指针数组。
[0143] 链表查找模块15用于根据目标数组元素的指针对应的第一链表,查找第一链表中实体类型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数
据的外存存储地址、事件情报知识图谱的实体类型与事件标识的内存存储链表。匹配输出
模块17用于利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表
中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;事件指针数组用于存
储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别指
向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用于
指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。
[0144] 上述基于知识图谱的事件数据处理装置100,通过各模块的协作,所利用的事件情报知识图谱,其充分涵盖事件的时间、地点、人物、起因、经过和结果等事件要素,并且相应
定义有知识图谱中实体类型和实体之间的关系类型。该事件情报知识图谱比传统的情报知
识图谱更加适合事件类情报的准确描述。该事件情报知识图谱的存储与索引方式,充分利
用了外存存储情报文件、内存存储索引信息的设计构思,使得事件情报信息可以全部完备
存储,从而可以提供实用的快速索引能力,为高效检索事件情报提供了基础技术支撑。通过
获取给定的查询词语,利用前述事件情报知识图谱进行检索,可以快速准确地定位到事件
情报知识图谱中对应查询词语的实体并返回所查询的事件的全部情报相关要素信息,与传
统的情报分析处理方法相比,完全面向事件的要素来设计,使得检索结果可以充分展现出
事件情报的特点,赋予决策者以更深刻的情报洞察力,达到了可靠完成事件情报数据的分
析处理的预期效果。
[0145] 在一个实施例中,上述实体候选模块17可以包括数据获取模块、本体训练模块和图谱构建模块。其中,数据获取模块用于获取源情报数据。本体训练模块用于根据源情报数
据,采用机器学习法进行事件要素识别模型训练,得到事件情报本体模型;事件情报本体模
型包括时间描述模型、地点描述模型、人物描述模型、起因描述模型、经过描述模型和结果
描述模型。图谱构建模块用于根据源情报数据和事件情报本体模型构建事件情报知识图
谱。
[0146] 在一个实施例中,上述实体候选模块17的各模块,还可以用于实现上述基于知识图谱的事件数据处理方法各实施例中的其他相应子步骤。
[0147] 在一个实施例中,上述基于知识图谱的事件数据处理装置100还可以包括其他各模块,用于实现上述基于知识图谱的事件数据处理方法各实施例中增加的其他步骤。
[0148] 关于基于知识图谱的事件数据处理装置100的具体限定,可以参见上文中基于知识图谱的事件数据处理方法的相应限定,在此不再赘述。上述基于知识图谱的事件数据处
理装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬
件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存
储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领
域已有的各型数据计算分析设备。
[0149] 又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时可以实现以下步骤:获取查询条件并调用构建的事件情报知
识图谱;其中,查询条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包
括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,事件情报知
识图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系;
[0150] 利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;其中,词语指针数组为事件情报知识图谱的全部实体的名称
词语构成的指针数组;根据目标数组元素的指针对应的第一链表,查找第一链表中实体类
型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数据的外
存存储地址、事件情报知识图谱的实体类型与事件标识的内存存储链表;
[0151] 利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;其中,事件指针数组用于
存储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别
指向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用
于指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。
[0152] 在一个实施例中,处理器执行计算机程序时还可以实现上述基于知识图谱的事件数据处理方法各实施例中增加的步骤或者子步骤。
[0153] 再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取查询条件并调用构建的事件情报知识图谱;其中,查询
条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间
实体、地点实体、人物实体、起因实体、经过实体和结果实体,事件情报知识图谱的关系类型
包括时间描述关系、地点描述关系、参与描述关系和发展描述关系;
[0154] 利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;其中,词语指针数组为事件情报知识图谱的全部实体的名称
词语构成的指针数组;根据目标数组元素的指针对应的第一链表,查找第一链表中实体类
型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数据的外
存存储地址、事件情报知识图谱的实体类型与事件标识的内存存储链表;
[0155] 利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;其中,事件指针数组用于
存储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别
指向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用
于指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。
[0156] 在一个实施例中,计算机程序被处理器执行时,还可以实现上述基于知识图谱的事件数据处理方法各实施例中增加的步骤或者子步骤。
[0157] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读
取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申
请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括
非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM
(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括
随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,
诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强
型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线式动态随机存储器
(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
[0158] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛
盾,都应当认为是本说明书记载的范围。
[0159] 以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在
不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申
请专利的保护范围应以所附权利要求为准。