地震防治主题库构建方法、系统、电子设备及存储介质转让专利

申请号 : CN202110900549.6

文献号 : CN113360480B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王亮董春谢炎宏康风光

申请人 : 中国测绘科学研究院

摘要 :

本申请公开了一种地震防治主题库构建方法、系统、电子设备及存储介质,属于数据处理领域,方法包括:创建地震灾害防治语料库;定义主题库中各个主题的概念,并建立各个主题之间的关系;根据定义的各个主题的概念,将所述语料库中的词语与所述主题库中各个主题以及各个主题之间的关系一一对应,得到一一对应结果;所述各个主题、各个主题之间的关系以及所述对应结果组成为主题库。系统包括:创建语料库模块、定义模块、映射模块,组成模块;本申请解决了现有技术中的信息匹配准确度不高以及语义关联和表达困难的问题,实现了地震防治相关信息精确地进行匹配,并在检索时容易进行语义关联和表达。

权利要求 :

1.一种地震防治主题库构建方法,其特征在于,包括以下步骤:创建地震灾害防治语料库;

定义主题库中各个主题的概念,并建立各个主题之间的关系;

根据定义的各个主题的概念,将所述语料库中的词语与所述主题库中各个主题以及各个主题之间的关系一一对应,得到一一对应结果;

所述各个主题、各个主题之间的关系以及所述对应结果组成为主题库;

所述主题包括三类主题,分别为一级类主题、二级类主题、三级类主题;

所述各个主题包括:地震领域理论知识主题、地震灾害数据主题、防震减灾策略主题、地震防治功能服务主题,所述地震领域理论知识主题、地震灾害数据主题、防震减灾策略主题、地震防治功能服务主题均为一级类主题;

所述地震领域理论知识主题包括:地震基础理论、地震模型方法;

所述地震灾害数据主题包括:基础地理数据、专题监测信息、社会统计信息;

所述防震减灾策略主题:地震相关法律法规、区域防灾预案、个人抗震避难措施;

所述地震防治功能服务主题包括:相关信息服务、震灾分析评价、抗震设防服务;

所述地震基础理论、地震模型方法、基础地理数据、专题监测信息、社会统计信息、地震相关法律法规、区域防灾预案、个人抗震避难措施、相关信息服务、震灾分析评价、抗震设防服务均为二级类主题;

所述地震基础理论包括:地震基础概念以及相关原理理论;

所述地震模型方法包括:地震预报模型、地震对策模型以及风险评价模型;

所述基础地理数据包括:自然资源对象、人工地物对象、社会对象;

所述专题监测信息包括:地震监测信息、地质监测信息、气象水文监测信息;

所述社会统计信息包括:社会经济信息、地区人口信息;

所述地震相关法律法规包括:相关国家标准、国家法律法规、地方法律规范;

所述区域防灾预案包括:预防监测策略、地震应急策略、震后处理策略;

所述个人抗震避难措施包括:地震预防措施、抗震避难手段;

所述相关信息服务包括:地理信息展示、地震环境信息服务、防震减灾信息查询;

所述震灾分析评价包括:地震风险评估、震害分析、次生灾害分析;

所述抗震设防服务包括:防震减灾预案、疏散路径规划;

所述地震基础概念、相关原理理论、地震预报模型、地震对策模型、风险评价模型、自然资源对象、人工地物对象、社会对象、地震监测信息、地质监测信息、气象水文监测信息、社会经济信息、地区人口信息、相关国家标准、国家法律法规、地方法律规范、预防监测策略、地震应急策略、震后处理策略、地震预防措施、抗震避难手段、地理信息展示、地震环境信息服务、防震减灾信息查询、地震风险评估、震害分析、次生灾害分析、防震减灾预案、疏散路径规划均属于三级类主题;

所述建立各个主题之间的关系包括:主题关联关系以及主题逻辑关系;

所述主题关联关系指不同主题之间以及同一主题不同层级之间的关联关系;

所述主题逻辑关系指主题之间数据以及知识调用共享的关系;

所述主题关联关系包括:并列关系、层级关系、整体部分关系、相关关系、因果关系;

所述并列关系定义为:同一主题类型中种类相同、层级相近的地震灾害防治主题间关系;

所述层级关系定义为:同一知识体系中层次等级不同的地震防治主题间关系;

所述整体部分关系定义为:呈包含关系的两种同类型地震防治主题间关系;

所述相关关系定义为:存在逻辑关联的地震防治主题间关系;

所述因果关系定义为:地震防治主题间存在直接或间接影响对方客观状态的主题关系;

所述主题逻辑关系包括:所述地震灾害数据主题为所述防震减灾策略主题以及地震防治功能服务主题提供地震灾害数据,所述防震减灾策略主题为所述地震防治功能服务主题以及地震领域理论知识主题提供防震减灾策略,并且所述防震减灾策略主题在实际应用后得到相关应用数据补充到所述地震灾害数据主题中,所述地震领域理论知识主题为所述地震防治功能服务主题以及所述防震减灾策略主题提供地震领域理论知识,所述地震防治功能服务主题为所述地震领域理论知识主题提供地震防治功能;

所述各个主题之间的关系还包括:场景索引以及用户索引;

所述场景索引定义为:某个时间、空间下面对不同类型的灾害事件的实际情况,具体包括:地点类型场景、地形地貌场景、灾害情况场景、附近风险场景;

所述地点类型场景包括:政府机关、社区、学校、医院、闹市区、广场、火车站、乡村;

所述地形地貌场景包括:平原、丘陵、山地、盆地、高原、水边;

所述灾害情况场景包括:震中位置、震源深度、震级、波及范围、断裂方向;

所述附近风险场景包括:水坝、加油站、水库、泥石流风险、化工厂;

若采用用户索引,定义用户索引包括如下:所述用户索引包括:决策层用户、应急行动用户、普通用户;

所述决策层用户包括对地震灾情信息、次生灾害信息、防震减灾策略关注的用户;

所述应急行动用户包括对不同场景下防震减灾措施、应急疏散策略关注的用户;

所述普通用户包括对地震灾情信息、次生灾害信息、避难自救策略关注的用户。

2.根据权利要求1所述的地震防治主题库构建方法,其特征在于:所述创建地震灾害防治语料库,包括如下步骤:

采集语料;

针对所采集的语料进行预处理,得到预处理后的语料;

将所述预处理后的语料进行分词统计,得到分词统计后的语料;

根据所述分词统计后的语料,构建专业领域字典;

对所述分词统计后的语料进行标注,得到标注后的语料;

由所述专业领域字典以及所述标注后的语料,组成所述地震灾害防治语料库。

3.根据权利要求2所述的地震防治主题库构建方法,其特征在于:所述将所述预处理后语料进行分词统计,得到分词统计后的语料,包括如下步骤:去掉所述预处理后的语料中重复的语料,得到去重后的语料;

针对所述去重后的语料进行分词,得到分词后的语料;

针对所述分词后的语料进行词频统计,得到统计后的语料。

4.根据权利要求2所述的地震防治主题库构建方法,其特征在于:所述对所述分词统计后语料进行标注,得到标注后语料,包括:对所述分词统计后语料进行词性标注、语义标注、实体关系标注。

5.一种地震防治主题库系统,其特征在于:包括:创建语料库模块、定义模块、映射模块,组成模块;

所述创建语料库模块、定义模块、映射模块以及组成模块依次顺序相连接;

所述创建语料库模块用于创建地震灾害防治语料库;

所述定义模块用于定义主题库中各个主题的概念,并建立各个主题之间的关系;

所述映射模块用于根据定义的各个主题的概念,将所述语料库中的词语与所述主题库中各个主题以及各个主题之间的关系一一对应,得到一一对应结果;

所述组成模块用于将所述各个主题、各个主题之间的关系以及所述对应结果组成为主题库;

所述主题包括三类主题,分别为一级类主题、二级类主题、三级类主题;

所述各个主题包括:地震领域理论知识主题、地震灾害数据主题、防震减灾策略主题、地震防治功能服务主题,所述地震领域理论知识主题、地震灾害数据主题、防震减灾策略主题、地震防治功能服务主题均为一级类主题;

所述地震领域理论知识主题包括:地震基础理论、地震模型方法;

所述地震灾害数据主题包括:基础地理数据、专题监测信息、社会统计信息;

所述防震减灾策略主题:地震相关法律法规、区域防灾预案、个人抗震避难措施;

所述地震防治功能服务主题包括:相关信息服务、震灾分析评价、抗震设防服务;

所述地震基础理论、地震模型方法、基础地理数据、专题监测信息、社会统计信息、地震相关法律法规、区域防灾预案、个人抗震避难措施、相关信息服务、震灾分析评价、抗震设防服务均为二级类主题;

所述地震基础理论包括:地震基础概念以及相关原理理论;

所述地震模型方法包括:地震预报模型、地震对策模型以及风险评价模型;

所述基础地理数据包括:自然资源对象、人工地物对象、社会对象;

所述专题监测信息包括:地震监测信息、地质监测信息、气象水文监测信息;

所述社会统计信息包括:社会经济信息、地区人口信息;

所述地震相关法律法规包括:相关国家标准、国家法律法规、地方法律规范;

所述区域防灾预案包括:预防监测策略、地震应急策略、震后处理策略;

所述个人抗震避难措施包括:地震预防措施、抗震避难手段;

所述相关信息服务包括:地理信息展示、地震环境信息服务、防震减灾信息查询;

所述震灾分析评价包括:地震风险评估、震害分析、次生灾害分析;

所述抗震设防服务包括:防震减灾预案、疏散路径规划;

所述地震基础概念、相关原理理论、地震预报模型、地震对策模型、风险评价模型、自然资源对象、人工地物对象、社会对象、地震监测信息、地质监测信息、气象水文监测信息、社会经济信息、地区人口信息、相关国家标准、国家法律法规、地方法律规范、预防监测策略、地震应急策略、震后处理策略、地震预防措施、抗震避难手段、地理信息展示、地震环境信息服务、防震减灾信息查询、地震风险评估、震害分析、次生灾害分析、防震减灾预案、疏散路径规划均属于三级类主题;

所述建立各个主题之间的关系包括:主题关联关系以及主题逻辑关系;

所述主题关联关系指不同主题之间以及同一主题不同层级之间的关联关系;

所述主题逻辑关系指主题之间数据以及知识调用共享的关系;

所述主题关联关系包括:并列关系、层级关系、整体部分关系、相关关系、因果关系;

所述并列关系定义为:同一主题类型中种类相同、层级相近的地震灾害防治主题间关系;

所述层级关系定义为:同一知识体系中层次等级不同的地震防治主题间关系;

所述整体部分关系定义为:呈包含关系的两种同类型地震防治主题间关系;

所述相关关系定义为:存在逻辑关联的地震防治主题间关系;

所述因果关系定义为:地震防治主题间存在直接或间接影响对方客观状态的主题关系;

所述主题逻辑关系包括:所述地震灾害数据主题为所述防震减灾策略主题以及地震防治功能服务主题提供地震灾害数据,所述防震减灾策略主题为所述地震防治功能服务主题以及地震领域理论知识主题提供防震减灾策略,并且所述防震减灾策略主题在实际应用后得到相关应用数据补充到所述地震灾害数据主题中,所述地震领域理论知识主题为所述地震防治功能服务主题以及所述防震减灾策略主题提供地震领域理论知识,所述地震防治功能服务主题为所述地震领域理论知识主题提供地震防治功能;

所述各个主题之间的关系还包括:场景索引以及用户索引;

所述场景索引定义为:某个时间、空间下面对不同类型的灾害事件的实际情况,具体包括:地点类型场景、地形地貌场景、灾害情况场景、附近风险场景;

所述地点类型场景包括:政府机关、社区、学校、医院、闹市区、广场、火车站、乡村;

所述地形地貌场景包括:平原、丘陵、山地、盆地、高原、水边;

所述灾害情况场景包括:震中位置、震源深度、震级、波及范围、断裂方向;

所述附近风险场景包括:水坝、加油站、水库、泥石流风险、化工厂;

若采用用户索引,定义用户索引包括如下:所述用户索引包括:决策层用户、应急行动用户、普通用户;

所述决策层用户包括对地震灾情信息、次生灾害信息、防震减灾策略关注的用户;

所述应急行动用户包括对不同场景下防震减灾措施、应急疏散策略关注的用户;

所述普通用户包括对地震灾情信息、次生灾害信息、避难自救策略关注的用户。

6.一种电子设备,其特征在于,该电子设备包括:一个或多个处理器;

存储器;

一个或多个应用程序,其被存储在所述存储器中并被配置为由所述一个或多个处理器加载和运行以便执行权利要求1至4中任一项所述的地震防治主题库构建方法。

7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序能够被处理器加载和运行以执行权利要求1至4中任一项所述的地震防治主题库构建方法。

说明书 :

地震防治主题库构建方法、系统、电子设备及存储介质

技术领域

[0001] 本发明属于数据处理领域,具体涉及一种地震防治主题库构建方法、系统、电子设备及存储介质。

背景技术

[0002] 地震作为一种成因复杂的地质运动,其诞生时往往伴随着地陷、洪涝、火山爆发等多种类型次生灾害,在城市、平原、山地等不同环境条件下,灾害的表现形式与后果亦不尽
相同。由于地震具有灾害风险巨大、衍生危害多样、影响范围广泛等特点,提高地震防灾减
灾工作信息化水平对保护人民群众生命财产安全至关重要。
[0003] 面对地震灾害的防御决策过程中,单一部门的某一种地震防御策略无法应对随灾害链演变进程即时变化的地震防灾减灾需求。在这种情况下,需要一种信息关联工具,能够
依据灾害对象所处时间、场合、环境等场景信息,梳理其与地震灾害、次生灾害和防震减灾
策略之间的潜在关联性,从而提出当前场景下最适宜的抗震减灾策略。
[0004] 随着近十年来在地震灾害防灾减灾领域的大规模投入,众多学者在地震防御、灾情分析与防震救灾等方面的研究使得现有地震信息服务的深度与广度有很大程度的提高。
然而,其仍存在两方面不足,一是现有信息匹配准确度不高,信息服务系统无法针对用户身
处灾害场景条件提供最契合的抗震避难措施;二是地震灾害作为复杂地质活动的具象化表
现,与水灾、塌陷等次生灾害信息间语义关联错综复杂,且不同场景下地震灾害事件应对策
略和功能服务需求差异性较大,语义关联和表达困难。
[0005] 针对现有技术中的信息匹配准确度不高以及语义关联和表达困难的问题,目前尚未提出有效技术方案。

发明内容

[0006] 为解决现有技术中的不足,本申请提出一种地震防治主题库构建方法、系统、电子设备及存储介质,为了地震防治相关信息精确地进行匹配,实现在检索时容易进行语义关
联和表达,本申请建立了准确而完备的主题库,针对不同的场景和用户类型,使得地震领域
理论知识、地震防治数据、防震减灾策略、地震信息服务之间相关联,并且能够按照主题库
中设立的关联关系从语料库中调取地震理论知识和模型方法、防震减灾策略、基础信息数
据和服务功能等相关数据。
[0007] 第一方面,本申请提出一种地震防治主题库构建方法,包括如下步骤:
[0008] 创建地震灾害防治语料库;
[0009] 定义主题库中各个主题的概念,并建立各个主题之间的关系;
[0010] 根据定义的各个主题的概念,将所述语料库中的词语与所述主题库中各个主题以及各个主题之间的关系一一对应,得到一一对应结果;
[0011] 所述各个主题、各个主题之间的关系以及所述对应结果组成为主题库。
[0012] 所述创建地震灾害防治语料库,包括如下步骤:
[0013] 采集语料;
[0014] 针对所采集的预料进行预处理,得到预处理后的语料;
[0015] 将所述预处理后的语料进行分词统计,得到分词统计后的语料;
[0016] 根据所述分词统计后的语料,构建专业领域字典;
[0017] 对所述分词统计后的语料进行标注,得到标注后的语料;
[0018] 由所述专业领域字典以及所述标注后的语料,组成所述地震灾害防治语料库。
[0019] 所述采集语料,包括:运用网络爬虫技术、文字识别技术、语音识别技术获取地震灾害防治领域相关语料,并保存为统一格式。
[0020] 所述针对所采集的预料进行预处理,包括:语言转换、繁简转换、去掉停用词以及编码方式转换。
[0021] 所述将所述预处理后语料进行分词统计,得到分词统计后的语料,包括如下步骤:
[0022] 去掉所述预处理后的语料中重复的语料,得到去重后的语料;
[0023] 针对所述去重后的语料进行分词,得到分词后的语料;
[0024] 针对所述分词后的语料进行词频统计,得到统计后的语料。
[0025] 所述对所述分词统计后语料进行标注,得到标注后语料,包括:
[0026] 对所述分词统计后语料进行词性标注、语义标注、实体关系标注。
[0027] 所述各个主题包括:地震领域理论知识主题、地震灾害数据主题、防震减灾策略主题、地震防治功能服务主题;
[0028] 所述地震领域理论知识主题包括:地震基础理论、地震模型方法;
[0029] 所述地震灾害数据主题包括:基础地理数据、专题监测信息、社会统计信息;
[0030] 所述防震减灾策略主题:地震相关法律法规、区域防灾预案、个人抗震避难措施;
[0031] 所述地震防治功能服务主题包括:相关信息服务、震灾分析评价、抗震设防服务。
[0032] 所述地震基础理论包括:地震基础概念、相关原理理论。
[0033] 所述地震模型方法包括:地震预报模型、地震对策模型、风险评价模型。
[0034] 所述基础地理数据包括:自然资源对象、人工地物对象、社会对象;
[0035] 所述专题监测信息包括:地震监测信息、地质监测信息、气象水文监测信息;
[0036] 所述社会统计信息包括:社会经济信息、地区人口信息;
[0037] 所述地震相关法律法规包括:相关标准、法律法规、地方法律法规;
[0038] 所述区域防灾预案包括:预防监测策略、地震应急策略、震后处理策略;
[0039] 所述个人抗震避难措施包括:地震预防措施、抗震避难手段;
[0040] 所述相关信息服务包括:地理信息展示、地震环境信息服务、防震减灾信息查询;
[0041] 所述震灾分析评价包括:地震风险评估、震害分析、次生灾害分析;
[0042] 所述抗震设防服务包括:防震减灾预案、疏散路径规划、避难场所规划。
[0043] 所述建立各个主题之间的关系包括:主题关联关系以及主题逻辑关系;
[0044] 所述主题关联关系指不同主题之间以及同一主题不同层级之间的关联关系;
[0045] 所述主题逻辑关系指主题之间数据以及知识调用共享的关系。
[0046] 所述主题关联关系包括:并列关系、层级关系、整体部分关系、相关关系、因果关系;
[0047] 所述主题逻辑关系包括:所述地震灾害数据主题为所述防震减灾策略主题以及地震防治功能服务主题提供地震灾害数据,所述防震减灾策略主题为所述地震防治功能服务
主题以及地震领域理论知识主题提供防震减灾策略,并且所述防震减灾策略主题在实际应
用后得到相关应用数据补充到所述地震灾害数据主题中,所述地震领域理论知识主题为所
述地震防治功能服务主题以及所述防震减灾策略主题提供地震领域理论知识,所述地震防
治功能服务主题为所述地震领域理论知识主题提供地震防治功能。
[0048] 第二方面,本申请提出一种地震防治主题库系统,包括:创建语料库模块、定义模块、映射模块,组成模块;
[0049] 所述创建语料库模块、定义模块、映射模块以及组成模块依次顺序相连接;
[0050] 所述创建语料库模块用于创建地震灾害防治语料库;
[0051] 所述定义模块用于定义主题库中各个主题的概念,并建立各个主题之间的关系;
[0052] 所述映射模块用于根据定义的各个主题的概念,将所述语料库中的词语与所述主题库中各个主题以及各个主题之间的关系一一对应,得到一一对应结果;
[0053] 所述组成模块用于将所述各个主题、各个主题之间的关系以及所述对应结果组成为主题库。
[0054] 第三方面,本申请提出一种电子设备,包括:
[0055] 一个或多个处理器;
[0056] 存储器;
[0057] 一个或多个应用程序,其被存储在所述存储器中并被配置为由所述一个或多个处理器加载和运行以便执行所述的地震防治主题库构建方法。
[0058] 第四方面,本申请提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面或者第一方面任一可能的实现方式所述的地震防治主题库
构建方法。
[0059] 本申请所达到的有益效果:
[0060] 本申请提出一种地震防治主题库构建方法、系统、电子设备及存储介质,解决了现有技术中的信息匹配准确度不高以及语义关联和表达困难的问题,为了地震防治相关信息
精确地进行匹配,实现在检索时容易进行语义关联和表达,本申请建立了准确而完备的主
题库,针对不同的场景和用户类型,使得地震领域理论知识、地震防治数据、防震减灾策略、
地震信息服务之间相关联,并且能够按照主题库中设立的关联关系从语料库中调取地震理
论知识和模型方法、防震减灾策略、基础信息数据和服务功能等相关数据。

附图说明

[0061] 图1为本申请实施例的一种地震防治主题库构建方法流程图;
[0062] 图2为本申请实施例的创建地震灾害防治语料库流程图;
[0063] 图3为本申请实施例的分词统计流程图;
[0064] 图4为本申请实施例的一种地震防治主题库系统原理框图;
[0065] 图5为本申请实施例的一种电子设备示意图;
[0066] 图6为本申请实施例的专业领域词典部分示意图;
[0067] 图7为本申请实施例的防震减灾策略序列标注示意图;
[0068] 图8为本申请实施例的地震防治主题库应用实例示意图;
[0069] 图9为本申请实施例的主题逻辑关系示意图。

具体实施方式

[0070] 下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
[0071] 本申请实施例详细描述如下,本申请实验所应用软硬件环境配置如表1所示,以Visual Studio 2015为开发平台,在C++环境下开发窗体框架,功能实现部分运用python 
3.5版本以各类算法脚本的形式实现。在地震灾害防治语料库建立的过程中,地震语料数据
的获取通过BeautifulSoup库进行爬虫实现;分词和去停用词部分基于jieba库,结合自行
建立的地震灾害领域自定义词典实现。
[0072] 表1实验环境
[0073]
[0074] 本申请以四川省绵阳市平武县为例,构建地震灾害防治主题库。平武县位居涪江上游,地处盆周山区,海拔1000米以上的山地占幅员面积的94.33%,地势西北高、东南低,最
高点与最低点处高差近5000米。依据平武县地表覆盖数据,对其中的学校、机关、医院、社区
等防震减灾场景,标注其名称、建筑层数、场景类型等属性,方便避难路线规划、抗震措施设
计等功能的使用。
[0075] 依据一种地震防治主题库构建方法,主要分为三个类别,分别是以平武县1982—2020年这38年的历史地震记录为主的地震数据;地震局、防震减灾网、百度百科、文献记录
等多种渠道获取的防震减灾策略文本数据;以及2020年平武县范围内地表覆盖数据、DEM数
据、遥感影像数据等基础数据。功能服务部分主要通过端口调用各类地震相关功能,出于系
统演示需要,本申请主要接入避难场所查询和疏散路径规划功能。
[0076] 第一方面,本申请提出一种地震防治主题库构建方法,如图1所示,包括如下步骤:
[0077] 步骤S1:创建地震灾害防治语料库;
[0078] 步骤S2:定义主题库中各个主题的概念,并建立各个主题之间的关系;
[0079] 步骤S3:根据定义的各个主题的概念,将所述语料库中的词语与所述主题库中各个主题以及各个主题之间的关系一一对应,得到一一对应结果;
[0080] 步骤S4:所述各个主题、各个主题之间的关系以及所述对应结果组成为主题库。
[0081] 地震灾害防治语料库的构建有两个基本需求;一是收集地震灾害防灾减灾相关信息资料并进行处理,为地震灾害防治知识图谱的建立提供实体、属性和语义关系数据。二是
利用收集数据抽取地震灾害防治领域名词,建立地震灾害领域词典,为语义匹配过程提供
地震领域数据基础。为实现这两个目标,需要设计地震灾害领域最契合的语料处理方案。
[0082] 所述创建地震灾害防治语料库,如图2所示,包括如下步骤:
[0083] 步骤S1.1:采集语料;
[0084] 防震减灾领域语料数据收集是信息服务系统的基础,承担着为后续自然语言处理任务提供基础数据的职责。防震减灾涉及包括地震、气象、水利等多领域、多类型知识,知识
来源广泛、形式多样。既存在地震灾害数据库和地理国情数据库等数据库形式的结构化数
据;也有包括防灾减灾网、地震局等网站的公开数据和百度百科、维基百科、google等网页
百科数据在内的各类型半结构化数据;还有地震相关历史文献资料、防震减灾书籍、文本记
录等纸质形式或电子形式的非结构化数据。面对这来源广泛、类型多样的地震灾害文本数
据,需要运用多种针对性的数据采集方式,设计多策略相结合的数据采集方案,以实现快
速、批量化的数据获取和统一存储。
[0085] 为提取上述来源差异较大的防震减灾文本数据,本申请提出了针对性的数据采集方案。结构化数据作为格式统一、形式规范的存储数据,经过数据形式转换可直接查询调
用。本申请依据这一特点,通过结合地震灾害防治模式层的结构体系,实现数据记录的直接
提取。对于网站、知识百科等基于网页的半结构化数据,依据这类数据同样格式统一,但依
托于互联网的特点,运用网络爬虫技术,针对不同网站设计对应的网页爬取模板,获取地震
灾害防治领域相关知识。对于地震灾害领域文献资料、书籍、图片等非结构化数据,这类数
据格式不规则、存储形式多样,本申请选择利用应用目标数据格式对应的网络爬虫、文字识
别、语音识别等技术方法对地震灾害相关文献资料进行获取,并以统一格式进行存储使用。
[0086] 步骤S1.2:针对所采集的预料进行预处理,得到预处理后的语料;
[0087] 语料库的数据预处理是对准备入库的地震灾害语料进行格式和数据内容核对与校准的必要操作步骤。解决数据来源多样造成的地震灾害信息格式混乱问题;以及互联网
中不同来源数据差异化和语料数据的准确性问题。主要包括数据形式装换、分词处理和去
停用词等操作。数据形式转换部分主要包括语言转换、繁简转换和编码方式转换。以实现地
震灾害语料在语言形式上统一表现为简体中文,在编码方式上统一为“UTF‑8”,其形式如表
2所示。
[0088] 步骤S1.3:将所述预处理后的语料进行分词统计,得到分词统计后的语料;
[0089] 分词处理是构建地震灾害防治领域词典所必须的自然语言处理步骤。它是中文特有的句子分解形式。通过对地震灾害语料内容的句式结构进行分析,结合每个词的词性、词
义,对句子成分进行分解,标识出各部分的词性以及其中的人名、地名和领域专有名词等特
殊词汇。现有中文分词工具主要有北大pkuseg分词工具、中科院的HTTPCWS的中文分词系
统、北京理工大学的NLPIR分词系统、以及基于python第三方开源的jieba库。这些分词工具
在效率和准确度上均有不错的表现。因此,本申请选择运用jieba库进行地震相关语料的分
词处理,同时,通过结合地震领域词典、自然地理领域词库等内容获取专业名词,有效的提
升了地震领域专有名词的分词准确率。
[0090] 去停用词是在分词处理后,对文本中语气词、助词等无实际意义内容进行去除的操作。本申请的去停用词主要通过在jieba自带去停用词的基础上,导入停用词表来实现。
综合哈工大停用词表、百度停用词表、中文停用词表和四川大学停用词库中文本及符号内
容,构建综合性中文停用词表。包含中文停用词和标点符号合计2694个。对表2中文本进行
分词和去停用词的操作后结果如表3所示。
[0091] 从表3中可以看出,本申请设计分词算法准确度较高,在此基础上结合人工校正,检查分词结果。将错误内容纠正后导入分词系统词库,进一步提高分词准确率。
[0092] 本申请主要将总词表中专业词汇分为人物、地点、地震领域名词、地理领域名词和其他专业名词,各领域词表构成见表4。在地震领域词典的构建过程中,主要以互联网获取
的地震领域词典和搜狗词库等为数据基础,结合对收集到语料进行加工处理和校对后的词
语,对词库中内容进行补充与修正,构建地震领域词典。
[0093] 表2分词前地震相关文本内容示例
[0094]
[0095] 表3 地震文本分词结果示例
[0096]
[0097] 表4 地震领域词表词数统计
[0098]
[0099] 步骤S1.4:根据所述分词统计后的语料,构建专业领域字典;
[0100] 专业领域词典作为地震灾害防治词语汇总、分类存储与展示的数据集合,构建地震词典有助于了解地震领域信息分布状况,对后续语义匹配系统中关键词识别和类别划分
也有着重要作用。地震领域词典主要由总词表、各类别专用词表和领域常用词表构成。总词
表由语料库中出现的所有词汇组成,如图6所示。在此基础上,依据词汇类别划分各领域专
用词表,专用词表主要依据各类别中词语出现频率划分。
[0101] 步骤S1.5:对所述分词统计后的语料进行标注,得到标注后的语料;
[0102] 步骤S1.6:由所述专业领域字典以及所述标注后的语料,组成所述地震灾害防治语料库。
[0103] 地震灾害语料标注部分主要依据地震信息服务需求,对地震相关文本数据进行标记和注释。在地震信息服务设计过程中,灾害语料标注为三元组信息的获取提供了基础数
据。三元组作为知识图谱的数据表现单元,其以“实体—关系—实体”或“实体—属性—属性
值”的形式存在。通过点线间的图形形式直观表达实体属性信息和实体间关系。三元组的构
建流程是通过对标注后语料的关键信息进行抽取,并对抽取后实体、属性进行关联。三元组
信息抽取作为构建三元组的一个步骤,通过获取每句语料中核心字词,构造有价值的排列
序列。因此,依据地震灾害防治知识图谱的构建和信息匹配过程中的任务需求,和灾害防治
涉及领域众多的特点,本申请选择通过序列标注和类别标注相结合的方式,对地震灾害语
料进行标注,如表5所示。
[0104] 表5 BIO标注体系标签设计
[0105]
[0106]
[0107] 序列标注作为一种性能优秀的辅助中文分词的语言模型,通过对语料的每个字词位序列进行标注,将核心词特征传递给实体识别函数进行学习,通过估计标注内容为特征
序列的条件概率,从而辅助知识识别算法进行实体信息标注。类别标注则是通过对获取的
语料的分析,将其划分到事前规定语料库数据类别中并进行类别信息的标注。类别信息的
标注主要涉及粗粒度标注和人工细粒度校对两个步骤,通过地震灾害语料的数据来源,确
定地震灾害语料的大致类别范围,并进行标记,其后通过人工手段对其进行检验和纠正。
[0108] 在防震减灾相关语料标注的过程中,为获取地震灾害语料的实体信息、属性信息和语义关系,本申请将类别标注与序列标注的方法相结合,在类别预设定基础上,应用BIO
标注法对地震灾害防治相关语料进行序列标识,简言之,用不同的标识将关注内容与不关
注内容区分出来。关注内容的开头用B标注,关注内容的中部或结尾用I标注,不关注内容用
O标注。标注内容后衔接上标签,标签内容主要包括地震灾害中灾害名称、时间、地点、致灾
因子、受灾情况这五类信息类别标签,和防震策略中制度名称、人、物、场景、机构、任务这六
类信息类别标签,以及实体间关系标签。其具体BIO体系下标签信息见表5,其标注实例如图
7。
[0109] 所述将所述预处理后语料进行分词统计,得到分词统计后的语料,如图3所示,包括如下步骤:
[0110] 步骤S1.3.1:去掉所述预处理后的语料中重复的语料,得到去重后的语料;
[0111] 步骤S1.3.2:针对所述去重后的语料进行分词,得到分词后的语料;
[0112] 步骤S1.3.3:针对所述分词后的语料进行词频统计,得到统计后的语料。
[0113] 所述对所述分词统计后语料进行标注,得到标注后语料,包括:
[0114] 对所述分词统计后语料进行词性标注、语义标注、实体关系标注。
[0115] 所述各个主题包括:地震领域理论知识主题、地震灾害数据主题、防震减灾策略主题、地震防治功能服务主题;
[0116] 所述地震领域理论知识主题包括:地震基础理论、地震模型方法;
[0117] 所述地震灾害数据主题包括:基础地理数据、专题监测信息、社会统计信息;
[0118] 所述防震减灾策略主题:地震相关法律法规、区域防灾预案、个人抗震避难措施;
[0119] 所述地震防治功能服务主题包括:相关信息服务、震灾分析评价、抗震设防服务。
[0120] 所述地震基础理论包括:地震基础概念、相关原理理论。
[0121] 所述地震模型方法包括:地震预报模型、地震对策模型、风险评价模型。
[0122] 所述基础地理数据包括:自然资源对象、人工地物对象、社会对象;
[0123] 所述专题监测信息包括:地震监测信息、地质监测信息、气象水文监测信息;
[0124] 所述社会统计信息包括:社会经济信息、地区人口信息;
[0125] 所述地震相关法律法规包括:相关标准、法律法规、地方法律法规;
[0126] 所述区域防灾预案包括:预防监测策略、地震应急策略、震后处理策略;
[0127] 所述个人抗震避难措施包括:地震预防措施、抗震避难手段;
[0128] 所述相关信息服务包括:地理信息展示、地震环境信息服务、防震减灾信息查询;
[0129] 所述震灾分析评价包括:地震风险评估、震害分析、次生灾害分析;
[0130] 所述抗震设防服务包括:防震减灾预案、疏散路径规划、避难场所规划。
[0131] 地震灾害防治主题分类遵循其面向领域及防治过程中的应用对象,分为地震领域理论知识、防震减灾策略、灾害防治数据和地震防治功能服务这四种主题类型,进而设计二
级类和三级类。主题属性作为地震防治主题的深层描述,面向主题结构中不同主题类型,设
计针对性的属性信息,其中,地震领域理论知识类型的主题是地震领域各类理论概念、模型
方法的集合,内容来自各类文献资料、论文和专利成果;防震减灾策略类型主题是地震预
防、应对、控制等理论成果的应用,是对地震相关法律法规和各类防震减灾资料的总结归
纳;灾害防治数据类型主题是防震区域内各类地理主题对象和监测信息的汇总,其属性信
息是更详细的描述数据项;地震防治功能服务主题是各类地震灾害防御相关功能服务的汇
总,如表6所示。
[0132] 表6地震灾害防治主题类型、结构和属性
[0133]
[0134]
[0135] 所述建立各个主题之间的关联关系包括:
[0136] 所述建立各个主题之间的关系包括:主题关联关系以及主题逻辑关系;
[0137] 所述主题关联关系指不同主题之间以及同一主题不同层级之间的关联关系;
[0138] 有关层级的说明:所述地震领域理论知识主题、地震灾害数据主题、防震减灾策略主题、地震防治功能服务主题属于第一层级;所述地震基础理论、地震模型方法等属于第二
层级,同理,继续往下分级,所述自然资源对象、人工地物对象、社会对象属于第三层级。
[0139] 所述主题逻辑关系指主题之间数据以及知识调用共享的关系。
[0140] 所述主题关联关系包括:并列关系、层级关系、整体部分关系、相关关系、因果关系;
[0141] 所述主题逻辑关系,如图9所示,包括:所述地震灾害数据主题为所述防震减灾策略主题以及地震防治功能服务主题提供地震灾害数据,所述防震减灾策略主题为所述地震
防治功能服务主题以及地震领域理论知识主题提供防震减灾策略,并且所述防震减灾策略
主题在实际应用后得到相关应用数据补充到所述地震灾害数据主题中,所述地震领域理论
知识主题为所述地震防治功能服务主题以及所述防震减灾策略主题提供地震领域理论知
识,所述地震防治功能服务主题为所述地震领域理论知识主题提供地震防治功能。
[0142] 基于上述地震灾害防治主题层次设计及属性划分,本申请对地震灾害防治主题关系进行了梳理。地震领域理论部分作为地震灾害防治的基础理论知识,为防震减灾策略提
供所需的理论信息;同时,也允许功能服务对各类理论直接进行调用。地区基础信息部分则
作为理论研究的数据基础,一方面丰富理论研究内容,另一方面为防震减灾策略提供对应
的地理场景、社会场景、灾害场景等信息,使得防震减灾策略的使用与用户需求相契合。防
震减灾策略部分是地震灾害防治的核心,以地震领域知识为理论基础,基于地区基础信息
中各类数据成果,生成契合使用场景的防震减灾策略,并以地震功能服务为实现基础进行
成果输出与转化,以满足用户地震灾害防治需求。地震防治功能服务部分则是上述各部分
内容的输出端,遵循上述理论方法的指导,以地区基础信息为数据基础,对防震减灾策略进
行实践。主题间关系以MUC‑7 会议上提出的关系类型模板为基础,结合上述地震防治主题
分类特征,总结并归纳出地震防治主题之间的关联关系,主要包括并列关系、层级关系、整
体部分关系、相关关系和因果关系这五种类型,各关系类型的概念和示例如表7所示。
[0143] 表7地震灾害防治主题间关系设计
[0144]
[0145] 地震领域理论主题是对地震领域内各类理论研究成果和方法模型主题的概念定义、层次关系属性、实例和公理等内容的描述。为保证语义一致性和概念的权威性,本申请
对地震范围的概念语义设定遵循震级标准(GB 17740‑2017)中对地震的定义,同时,依据地
震领域知识结构设计,实体内容来自各类文献资料、论文和专利成果,类型涵盖地震活动的
全生命周期,包括地震相关基础概念、预报监测方法、应对评价模型等地震领域理论成果。
[0146] 地震领域理论的层级划分主要以地震灾害理论知识结构为依据,划分为地震基础理论和地震模型方法两个次级类型。基础理论部分是地震灾害防治相关概念定义、地质活
动规律和原理等抽象知识的集合,其属性信息主要包括相关原理的概念定义、解释说明、原
理内容、层次关系等基本内容的描述。模型方法则侧重于地震监测预报、应对处理、分析评
价过程中所应用的模型方法的集合,通过概念定义、公式、相关参数、模型结构等信息对相
关模型方法研究成果进行详细描述。依据地震领域理论实体关系的汇总分析,将其概括为
概念词条间的上下级关系、原理和方法间的关联关系和理论之间的层级关系。
[0147] 防震减灾策略主题是对各种地震场景下应急预案、决策调度、防御措施和减轻对策等信息的描述与汇总。在其主题概念下,为保证防震减灾策略下在实际应用过程中的适
用性,本申请选择按照应用对象、场景、目标多样性的实际情况,将层级划分为:地震相关法
律法规、面向不同灾害场景设计的区域防灾预案以及不同场景下民众抗震避难措施三种类
型。地震相关法律法规包含制定的相关标准、法律法规以及一些具有大范围通用性的抗震
防灾策略。区域应对预案是对不同场景下防震策略或具有区域适用性的策略规划的汇总与
描述,包含地区防震减灾规划和不同地理条件、应用场景下的区域防震减灾处理预案;个人
抗震措施是从微观角度出发,以提高居民个人抗震设防能力为目标的防灾措施,包含面向
地震及次生灾害的日常防范策略和不同场景下不同群体民众的避震防护自救措施。不同层
面的防震减灾策略相结合构成了防灾减灾策略主题。
[0148] 对于防震减灾策略之间的语义关系的表述,本申请对防震减灾策略的论述,将防震减灾策略实体间关系划分为包含、并行、互斥、约束4种。上述防震减灾策略主题及其语义
关系的规定明确了后续数据层的构建,完善有效的防震减灾策略综合体系将满足不同类型
用户在防震区域规划、日常监测、个人避险等方面的实际需求,从而提高整个群体对地震灾
害的防御水平。
[0149] 地震灾害防治功能服务是基于用户需求,以地震理论知识和防震减灾策略为理论基础,通过场景信息约束关联,在抗震救灾工作中提供最具针对性的方针策略,有效提高防
震救灾效率,降低灾区人员伤亡与财产损失。地震灾害信息服务功能主题是基于地震灾害
防治相关功能这一概念,对其层次关系、语义关联、应用实例的统一描述。依据其在地震灾
害防治进程中所处阶段,将主题的次级类型划分为相关信息服务、震灾分析评价和抗震设
防服务。相关信息服务面向地震的全阶段,针对查询内容的差异分为面向地理信息、地震环
境和防震减灾信息的查询服务。震灾分析评价主要面向震后总结分析和评价,通过风险评
估、震害分析和次生灾害分析等类型功能服务,分析区域地震活动风险,辅助防震减灾策略
的决策和制订。抗震设防服务是面向震前的防震减灾规划设计,包含防震减灾预案、疏散路
线规划和避难场所规划等功能,通过知识图谱调用场景信息、区域风险和防震减灾策略等
信息,制订相应的防震减灾策略。功能服务间语义关系设定主要依据地震实体的时间、空间
关系和功能服务内容间彼此调用,关系类型包括功能间的先后次序关系、信息服务对功能
服务的调用关系、疏散路线规划和避难场所查询间的关联关系和不同功能服务之间的并列
关系
[0150] 地震灾害数据主题是对地震灾害防治过程中所需数据实体这一概念以及其之间的层次关系、语义关联的统一描述,包括地区的地震监测数据,气象、水系等各类专题数据
以及社会经济、人口等统计数据。
[0151] 地震灾害数据主题是地震灾害防治体系中各项内容的基础,其主题概念下分类存储的各类型灾害防治数据资料,与灾害文本实体间以“灾害—数据—场景”的数据链形式进
行关联,为地震灾害防治知识图谱中的事件记录、防灾策略和功能服务等部分内容提供数
据支撑。
[0152] 由于地震灾害数据总量大、种类多样,数据间语义联系较少,数据类型涵盖文本、数据、表格、图片等多种数据形式。灾害数据实体的属性包括名称、时间范围、数据类型、数
据描述等内容,通过上述属性对地震灾害数据实体进行全面的描述。地震灾害数据实体间
语义关联关系通过语义关联度计算反映,数据间相似性的置信度越高,数据关联作用越强。
[0153] 第二方面,本申请提出一种地震防治主题库系统,如图4所示,包括:创建语料库模块、定义模块、映射模块,组成模块;
[0154] 所述创建语料库模块、定义模块、映射模块以及组成模块依次顺序相连接;
[0155] 所述创建语料库模块用于创建地震灾害防治语料库;
[0156] 所述定义模块用于定义主题库中各个主题的概念,并建立各个主题之间的关系;
[0157] 所述映射模块用于根据定义的各个主题的概念,将所述语料库中的词语与所述主题库中各个主题以及各个主题之间的关系一一对应,得到一一对应结果;
[0158] 所述组成模块用于将所述各个主题、各个主题之间的关系以及所述对应结果组成为主题库。
[0159] 以上技术描述已经建立了一种地震防治主题库系统,下面举例说明具体应用该主题库的实例:
[0160] 已经创建的所述地震防治主题库系统已经被保存在服务器上,当用户在搜索框中键入“平武县如何预防地震 ”检索系统抽取关键词:平武县、地震预防,检索系统,因为预定
义的规则在地震专业领域字典中找到平武县,并根据本实施例中设置的检索索引将其分类
到应用场景索引中,并将地震预防分类到防震减灾策略主题中的区域层面防震减灾策略
中,因为所述地震灾害数据主题为所述防震减灾策略主题以及地震防治功能服务主题提供
地震灾害数据,故从所述地震灾害信息主题中能够提取地震灾害信息,例如:平武县地表覆
盖、坡度带数据、地震监测数据,以及平武县地理信息,例如:海拔1000米以上、地势起伏较
大、建成区依涪江建立,40年以来5级以上地震6次,最高震级6.2级。
[0161] 对应的防震减灾策略调用平武县防震策略,例如:地震设防烈度、避难场所设置、避难路线规划,并且由于所述防震减灾策略为所述地震信息服务主题以及地震灾害信息主
题提供所述防震减灾策略,则调用地震信息服务主题中的地震信息查询功能、应急预案查
询功能以及避难场所查询功能,这一系列的数据并不是信息孤岛,而是因为本申请所创建
的地震防治主题库而联系起来了,使得用户在检索结果中能够寻找到满意的答案,并且缩
短了检索的时间,提高了检索的效率。
[0162] 本申请实施例中,为了实现更佳的效果,提出了场景索引,在其他应用中还可以提出另外一些索引,例如用户索引,所述场景索引定义为:某个时间、空间下面对不同类型的
灾害事件的实际情况,具体包括:地点类型场景、地形地貌场景、灾害情况场景、附近风险场
景;
[0163] 为梳理这错综复杂的灾害关系,本申请文引入了“场景”这一概念,在现代汉语词典中,场景泛指电影、戏剧作品中的各种场面,生活中特定的情景。在本申请中,设定场景为
某个时间、空间下用户面对不同类型的灾害事件的实际情况。
[0164] 所述地点类型场景包括:机关、社区、学校、医院、闹市区、广场、火车站、乡村;
[0165] 所述地形地貌场景包括:平原、丘陵、山地、盆地、高原、水边;
[0166] 所述灾害情况场景包括:震中位置、震源深度、震级、波及范围、断裂方向;
[0167] 所述附近风险场景包括:水坝、加油站、水库、泥石流风险、化工厂;
[0168] 若采用用户索引,定义用户索引包括如下:
[0169] 所示用户索引包括:决策层用户、应急行动用户、普通用户;
[0170] 所述决策层用户包括对所述地震灾情信息、次生灾害信息、防震减灾策略关注的用户;
[0171] 所述应急行动用户包括对不同场景下防震减灾措施、应急疏散策略关注的用户;
[0172] 所述普通用户包括对地震灾情信息、次生灾害信息、避难自救策略关注的用户;
[0173] 所述地震信息服务主题包括:日常功能服务、地震监测预警、地震灾害防御;
[0174] 所述日常功能服务包括:地震知识科普、地震自救手册、防震减灾法律法规;
[0175] 所述地震监测预警包括:监测台站显示、地震信息统计、地震预警系统;
[0176] 所述地震灾害防御包括:防震减灾预案、灾情信息统计、避难场所查询、疏散路径规划。
[0177] 本实施例只是举例说明了地震防治主题库在检索方面的应用,实际应用中,可以提供其他方面信息来源的应用,均属于本申请的保护范围。
[0178] 第三方面,本申请提出一种电子设备,包括:
[0179] 一个或多个处理器;
[0180] 存储器;
[0181] 一个或多个应用程序,其被存储在所述存储器中并被配置为由所述一个或多个处理器加载和运行以便执行所述的地震防治主题库构建方法。
[0182] 如图5所示,电子设备100包括:处理器101和存储器103。其中,处理器101和存储器103相连,如通过总线102相连。
[0183] 该电子设备100的结构并不构成对本申请实施例的限定。
[0184] 处理器101可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述
的各种示例性的逻辑方框,模块和电路。处理器101也可以是实现计算功能的组合,例如包
含一个或多个微处理器组合,DSP和微处理器的组合等。
[0185] 总线102可包括一通路,在上述组件之间传送信息。总线102可以是PCI总线或EISA总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗
线表示,但并不表示仅有一根总线或一种类型的总线。
[0186] 存储器103可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD‑ROM或其他光盘
存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质
或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代
码并能够由计算机存取的任何其他介质,但不限于此。
[0187] 第四方面,本申请提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面或者第一方面任一可能的实现方式所述的地震防治主题库
构建方法。
[0188] 本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为
了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发
明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。