一种地震信号检测和震相提取的方法转让专利

申请号 : CN202110151055.2

文献号 : CN112799128B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 邓攀赵宇刘俊廷汪慕澜

申请人 : 北京航空航天大学

摘要 :

本发明是一种地震信号检测和震相提取的方法,用于基于边缘设备的地震检测系统。本发明的边缘设备采用Jetson Nano芯片实现,构建轻量级深度学习模型LCANet布置在边缘设备上;设备端采集的地震波形数据输入边缘设备,实时输出地震信号时间序列、纵波震相和横波震相。本发明的LCANet模型将输入的地震波形数据经基于逆向瓶颈残差块的编码器提取描述地震数据内在物理含义的特征向量序列,再经上下文感知注意模块获取三个任务下的关注时间序列上下文信息的特征向量序列,最后经多尺度异构解码器将特征向量映射到对应任务的特征空间。本发明模型非常适合部署在边缘设备上,满足地震预警系统对数据处理低延迟、高性能的要求。

权利要求 :

1.一种地震信号检测和震相提取的方法,应用于基于边缘设备的地震检测系统,完成三个任务:识别地震信号、定位地震信号中纵波和横波的震相,其特征在于,所述方法包括如下步骤:

步骤1,监测获取具有三分量的地震波形数据;三分量分别对应东、北和垂直三个方向;

步骤2,构建轻量级深度学习模型LCANet;

所述的轻量级深度学习模型LCANet,包括基于逆向瓶颈残差块的编码器、上下文感知注意模块以及多尺度异构解码器;输入的三分量地震波形数据经基于逆向瓶颈残差块的编码器提取描述地震数据内在物理含义的特征向量序列,再经上下文感知注意模块获取分别针对三个任务下的关注时间序列上下文信息的特征向量序列;将上下文感知注意模块输出的三个特征向量序列对应输入多尺度异构解码器的三个分支中,每个分支将特征向量映射到对应任务的特征空间中,分别输出地震信号的概率、P震相到达位置概率、S震相到达位置概率;

所述的基于逆向瓶颈残差块的编码器包括深度可分离卷积层和逆向瓶颈残差块;深度可分离卷积层包含深度卷积和逐点卷积,深度可分离卷积层后添加有最大池化层;逆向瓶颈残差块由深度卷积和逐点卷积组成,其中又将逐点卷积分为扩张卷积和投影卷积;在一维深度卷积层之前使用扩张卷积以扩展输入特征向量的通道数,在逆向瓶颈残差块增加注意力模块,之后利用投影卷积缩小特征向量的通道数,还在逆向瓶颈残差块后添加最大池化层以缩小数据序列长度;

所述的上下文感知注意模块由轻量级非因果时序卷积网络和注意力机制模块组成;非因果时序卷积网络中用具有膨胀因子的一维深度可分离卷积层替换了标准卷积层;注意力机制模块为受启发的自注意机制结构,分为全局注意力机制模块和局部注意力机制模块两种,对于识别地震信号任务采用全局注意力机制模块提取特征,对于定位地震信号中纵波和横波的震相的任务采用局部注意力机制模块提取特征;

所述的多尺度异构解码器由异构注意力模块和多尺度优化模块组成;多尺度优化模块中执行上采样操作和一维深度可分离卷积操作;每个异构注意力模块对输入的特征向量进行两步处理,首先按照通道维度进行全局平均池化和一维卷积,得到具有全局感受野的特征向量,再利用sigmoid函数将每个元素映射到[0,1]的区间内,其中分数越高表示该点对应元素越重要;其次将输入的特征向量经过一维深度可分离卷积操作;最后将两步处理得到结果两者使用逐元素乘法,进行注意力加权;所述的多尺度异构解码器对应三个任务设置有三个分支;每个分支中包括三个多尺度优化模块,首先由异构注意力模块对上下文感知注意模块对应分支的输出向量处理后输入第一个多尺度优化模块,然后,利用异构注意力模块对所述编码器的中间层的输出向量特征进行处理后,再与第一个多尺度优化模块的输出向量相加后输入第二个多尺度优化模块,最后,再利用异构注意力模块对所述编码器的中间层的输出向量特征进行处理后,再与第二个多尺度优化模块的输出向量相加后输入第三个多尺度优化模块,输出高阶特征,根据高阶特征获得对应任务的概率;

步骤3,对步骤2建立的LCANet模型进行训练,将训练好的模型布置在边缘设备上,实时对设备端监测采集的地震波形数据进行识别,输出地震信号时间序列、纵波震相和横波震相。

2.根据权利要求1所述的方法,其特征在于,所述的步骤3中,边缘设备为具备Jetson Nano芯片的设备。

3.根据权利要求1所述的方法,其特征在于,所述的步骤2中,所述的基于逆向瓶颈残差块的编码器包括依次连接的一个深度可分离卷积层和六个逆向瓶颈残差块,深度可分离卷积层后添加最大池化层,前四个逆向瓶颈残差块后添加有最大池化层。

4.根据权利要求1或3所述的方法,其特征在于,所述的步骤2中,所述的逆向瓶颈残差块包括扩张层、一维深度卷积层、注意力模块和投影层;其中扩张层为扩张卷积;扩张卷积和一维深度卷积操作后执行批归一化和计算非线性激活函数,所述的非线性激活函数选择hard_swish函数;注意力模块为Squeeze‑Excitation模块,在逆向瓶颈残差块中的每一层增加注意力模块;投影层为投影卷积,用于将高维特征投影到低维子空间,投影层设置批归一化操作,未设置计算非线性激活函数操作。

5.根据权利要求1或2所述的方法,其特征在于,所述的步骤2中,所述的上下文感知注意模块中,输入的特征向量序列依次经过两个轻量级非因果时序卷积网络和第一全局注意力机制模块后,输出的特征向量序列分别输入三个支路:第一支路为非因果时序卷积模块+全局注意力机制模块,用于提取在识别地震信号任务下的特征向量;第二支路为非因果时序卷积模块+局部意力机制模块,用于提取在定位地震信号中纵波震相任务下的特征向量;

第二支路为非因果时序卷积模块+局部意力机制模块,用于提取在定位地震信号中横波震相任务下的特征向量。

6.根据权利要求1或2所述的方法,其特征在于,所述的步骤2中,所述的多尺度异构解码器中,每个分支上,首先利用异构注意力模块从上下文感知注意模块对应分支的输出特征向量进行异构特征提取,输出的特征向量输入第一个多尺度优化模块中,进行上采样和一维深度可分离卷积操作;其次,利用异构注意力模块对所述编码器第四层提取的特征向量进行异构特征提取,再与第一个多尺度优化模块输出的特征向量相加,输入第二个多尺度优化模块中进行上采样和卷积操作;最后,利用异构注意力模块对所述编码器的第二层提取的特征向量进行异构特征提取,再与第二个多尺度优化模块输出的特征向量相加,输入第三个多尺度优化模块中进行上采样和卷积操作,最后输出高阶特征。

说明书 :

一种地震信号检测和震相提取的方法

技术领域

[0001] 本发明属于地震预警技术领域,具体涉及一种地震信号检测和震相提取的方法。

背景技术

[0002] 地震预警系统是一个大型物联网系统。根据国家地震信息中心的记录,全世界每年平均发生两万次地震。世界各地的地震台站不断地生成数据并向云端服务器传输,地震
学家则通过分析地震数据进行地震研究。地震数据在地震定位、地震预警、地震信号检测、
相位提取、余震位置预测等方面有着广泛的应用。当地震发生时,它以地震波的形式释放能
量,地震波从震源向各个方向辐射。不同类型的能量波以不同的方式震动地面,也以不同的
速度穿过地球。地震信号检测和相位拾取是地震学研究中的关键问题,是实现震源定位和
震源机制解释的前提和基础。地震信号检测是指从地震传感器采集的地震信号和非地震信
号中识别出地震信号。相位拾取是指提取地震信号中纵波(P波)和横波(S波)相位的到达时
间。在地震学的研究中,到达时间的预测精度很高,即使时间偏差很小,也会导致震中位置
预测出现较大偏差。传统的地震信号检测和相位提取都是由经验丰富的地震专家人工识别
的。但随着地震数据量的增大,仅依靠人工进行数据处理是缓慢而不准确的,因此,地震学
家依靠计算机进行自动化的地震数据处理。
[0003] 一般来说,地震数据分析方法有两种基本类型:模型驱动方法和数据驱动方法。传统的模型驱动方法需要人为地建立数学模型来进行数据分析。由于地震数据中存在大量的
噪声,检测精度较低。目前,主流的数据驱动方法都是基于深度学习的。地震数据处理被看
作是一个时间序列分析问题。在时间序列分析领域有许多成熟的算法,如长短期记忆网络
(LSTM)和时间卷积网络(TCN)。Ross等人提出了广义相位检测方法,利用卷积神经网络从数
百万个地震数据中学习地震波的广义表示,并对P波、S波和噪声信号进行分类。Mousavi等
人提出了一种卷积残差网络和双向长短期存储单元,用于在时频域检测地震信号。Zhu等人
借鉴了图像分割中的全卷积神经网络,并将其应用于地震信号的检测和相位提取。这些方
法都是通过可训练的深层网络进行特征提取,由于神经网络具有很强的拟合能力,在几乎
所有的任务中都比传统的方法表现得更好。深度学习的深度意味着更多的网络层次和更多
的参数,深网络和广泛的参数也带来梯度消失问题和高计算复杂度。
[0004] 地震数据处理具有实时性要求,地震信号检测与相位提取作为地震预警系统的核心,具有时间敏感性。地震发生时,地震台站应根据地震波形数据进行地震速报。目前数据
驱动的方法仍然不完善,不能满足地震数据处理的实时性要求。在图1(a)所示的传统地震
数据处理方案中,地震台站生成的数据直接通过网络传输到云端服务器中。数据在云端被
收集、存储和处理。这种方式不仅延迟高,还会占用云端大量存储空间,造成网络拥塞,影响
地震预警的实时性和支持的应用。边缘计算则是一个更好的解决方案。边缘计算作为实时
物联网任务的一种新范式,已经成为解决响应时间、需求、节省带宽成本以及数据安全和隐
私等问题的趋势。如图1(b)所示,边缘设备实时收集和处理数据,并将小规模检测结果发送
回云端。然而,在资源有限的情况下,边缘设备端通常只将基于模型驱动的简易算法部署到
边缘设备端,但其效果较差,难以应对复杂的现实场景。而基于数据驱动的深度学习算法包
含复杂的网络结果和大量可训练参数,更加适用于复杂多变的现实场景,但由于大多数深
度学习算法计算复杂度高且占用大量存储空间,导致无法应用于资源受限的边缘设备。因
此在边缘设备上部署深度学习算法时,必须对其进行压缩以适应计算资源有限的边缘设
备。

发明内容

[0005] 本发明为了满足地震数据处理的实时性要求,结合边缘计算节点进行地震数据处理,提供了一种地震信号检测和震相提取的方法。
[0006] 本发明提供的地震信号检测和震相提取的方法,应用于基于边缘设备的地震检测系统,边缘设备采用Jetson Nano芯片实现。本发明方法实现三个任务:识别地震信号、定位
地震信号中纵波和横波的震相,包括如下步骤:
[0007] 步骤1,在台站监测获取具有三分量的地震波形数据;三分量分别对应东、北和垂直三个方向三分量是指东、北和垂直三个方向;
[0008] 步骤2,构建轻量级深度学习模型LCANet,布置在边缘设备上;
[0009] 所述的轻量级深度学习模型LCANet,包括基于逆向瓶颈残差块的编码器、上下文感知注意模块以及多尺度异构解码器;输入的三分量地震波形数据经基于逆向瓶颈残差块
的编码器提取描述地震数据内在物理含义的特征向量序列,再经上下文感知注意模块获取
分别针对三个任务下的关注时间序列上下文信息的特征向量序列;将上下文感知注意模块
输出的三个特征向量序列对应输入多尺度异构解码器的三个分支中,每个分支将特征向量
映射到对应任务的特征空间中,分别输出地震信号的概率、P震相到达位置概率、S震相到达
位置概率;
[0010] 步骤3,对步骤2建立的LCANet模型进行训练,将训练好的模型布置在边缘设备上,实时对设备端监测采集的地震波形数据进行识别,输出地震信号时间序列、纵波震相和横
波震相。
[0011] 所述的步骤2中的基于逆向瓶颈残差块的编码器包括深度可分离卷积层和逆向瓶颈残差块;深度可分离卷积层包含深度卷积和逐点卷积,深度可分离卷积层后添加有最大
池化层;逆向瓶颈残差块由深度卷积和逐点卷积组成,其中根据实际功能不同,又将逐点卷
积分为扩张卷积和投影卷积,在深度卷积层之前使用扩张卷积以扩展输入特征向量的通道
数,在逆向瓶颈残差块增加注意力模块,之后利用投影卷积缩小特征向量的通道数,还在逆
向瓶颈残差块后添加最大池化层以缩小数据序列长度。
[0012] 所述的步骤2中的上下文感知注意模块由轻量级非因果时序卷积网络和注意力机制模块组成;非因果时序卷积网络中用具有膨胀因子的一维深度可分离卷积层替换了标准
卷积层;注意力机制模块为受启发的自注意机制结构,分为全局注意力机制模块和局部注
意力机制模块,对于识别地震信号任务采用全局注意力机制模块提取特征,对于定位地震
信号中纵波和横波的震相的任务采用局部注意力机制模块提取特征。
[0013] 所述的步骤2中的多尺度异构解码器由异构注意力模块和多尺度优化模块组成;多尺度优化模块中执行上采样操作和一维深度可分离卷积操作;每个异构注意力模块对输
入的特征向量进行两步处理,首先按照通道维度进行全局平均池化和一维卷积,得到具有
全局感受野的特征向量,再利用sigmoid函数将每个元素映射到[0,1]的区间内,其中分数
越高表示该点对应元素越重要;其次将输入的特征向量经过一维深度可分离卷积操作;最
后将两步处理的结果使用逐元素乘法,进行注意力加权;所述的多尺度异构解码器对应三
个任务设置有三个分支;每个分支中包括三个多尺度优化模块,首先由异构注意力模块对
上下文感知注意模块对应分支的输出向量处理后输入第一个多尺度优化模块,然后,利用
异构注意力模块对所述编码器的中间层的输出向量特征进行处理后,再与第一个多尺度优
化模块的输出向量相加后输入第二个多尺度优化模块,最后,再利用异构注意力模块对所
述编码器的中间层的输出向量特征进行处理后,再与第二个多尺度优化模块的输出向量相
加后输入第三个多尺度优化模块,输出高阶特征,根据高阶特征获得对应任务的概率。
[0014] 相较于现有技术,本发明的优点与积极效果在于:(1)本发明实现的地震预警系统架构基于边缘计算实现,将提供的一种轻量级的深度学习模型LCANet布置在边缘设备上,
将计算任务从云服务器转移到边缘设备,地震数据在边缘采集和处理,无需云端参与,地震
台站就不需要将原始数据发送到集中的服务器,降低了云端存储时存在的浪费大量存储空
间、网络堵塞、影响地震预警实时性等问题。(2)本发明所实现的轻量级深度学习模型
LCANet的大小可仅为3.7MB,非常适合部署在存储能力和计算能力低于云服务器的边缘设
备上。并且LCANet模型能快速高效地从地震传感器的采集数据中检测地震信号和进行相位
提取,满足地震预警系统对数据处理低延迟、高性能的要求。(3)经过实验证明,本发明方法
具有较强的环境适应性,易于在其他数据库中推广,本发明所提出的LCANet模型实现了精
确的延迟权衡,相较于现有技术,大大降低了网络传输成本和存储消耗,较少的数据传输可
以有效地降低网络拥塞引起的丢包风险,提高了地震预警系统的稳定性。

附图说明

[0015] 图1是地震数据处理架构示意图;(a)为传统架构,(b)为加入边缘节点的架构;
[0016] 图2是本发明实施例实现深度学习模型LCANet的示意图;
[0017] 图3是本发明的基于逆向瓶颈残差块的编码器中所使用深度可分离卷积操作的示意图;
[0018] 图4中:(a)是本发明的逆向瓶颈残差块示例图,(b)为传统瓶颈残差块示例图;
[0019] 图5是本发明的轻量级非因果时序卷积网络示例图;
[0020] 图6是本发明的自注意力机制结构示意图;
[0021] 图7是识别出的地震信号、P波和S波的相位的示意图;
[0022] 图8是本发明方法在斯坦福大学地震数据集上的测试结果示意图;
[0023] 图9是本发明方法在日本地区公开地震数据集上的测试结果示意图。

具体实施方式

[0024] 下面将结合附图和实施例对本发明作进一步的详细说明。
[0025] 如图1(b)所示,基于边缘设备的地震检测系统由台站设备端,边缘设备端和云端组成。边缘设备端和台站设备端、云端相关联。台站设备端中配置各种地质仪器,监测地震
事件并记录地震信号。云端配备高性能数据处理中心。传统地震检测系统将任务转移到远
程云数据中心,本发明中边缘计算将地震计算任务分配给边缘节点,以提供更迅速的地震
预警。考虑到地震发生时供电不稳定,不宜在地震台上安装大功率GPU,因此边缘设备端是
最关心的部分。本发明实现一种通过边缘设备端硬件来实时检测地震的方案。
[0026] 选择基于边缘设备端的硬件平台并不容易。近年来,用于深度学习推理加速的各种硬件解决方案一直在蓬勃发展,例如片上系统,FPGA和ASIC。由于地震任务的重要性,因
此,可靠且成熟的深度学习基于边缘的平台是当务之急。NVIDIA CUDA平台在深度学习推理
方面优于其他硬件。除了数据中心解决方案和桌面开发之外,NVIDIA还提供嵌入式应用程
序,例如用于边缘计算的Jetson Nano。Jetson Nano是由NVIDIA Maxwell GPU架构提供支
持的有前途的AI芯片,可在边缘进行推理,它具有高能效,小尺寸和高吞吐量,适合嵌入式
应用。Nano具有4个ARM Cortex A57内核和128个GPU流处理器,在满负荷处理时,其功耗不
超过10W。NVIDIA官方建议使用5V‑2A充电器来供电。这意味着即使地震袭击电网,Nano也可
以使用电池来为地震台站服务。Nano还提供了便利的软件支持,包括Ubuntu操作系统以及
CUDA和cuDNN工具包。但是,使用这种微型硬件也有相应的挑战。CPU和GPU内核共享仅4GB 
DRAM内存,通常不足以支撑复杂网络的运算。本发明的地震信号检测和相位提取方法,应用
于如图1(b)所示的架构中,采用了轻量级深度学习模型部署在边缘设备上,降低了计算能
力低于云服务器的边缘设备的计算量需求,满足实际应用对低延迟、高性能的要求。本发明
方法所提出的LCANet模型中,使用的深度可分离卷积也有助于减少内存使用。最终模型使
用90%的内存并成功执行震相识别任务。
[0027] 本发明将地震信号检测和相位提取任务描述为序列到序列的学习,其中输入的时间序列映射到概率输出的时间序列,并分别对每个时间点进行预测。本发明的地震信号检
测和相位提取方法包括如下三个步骤,如图2所示。
[0028] 步骤1,通过三分量地震监测仪获取具有三分量(东、北和垂直三个方向)的地震波形数据,以此作为LCANet模型的输入。
[0029] 如图2所示,输入的是三分量地震波形数据,在每个分量上含有P波和S波的信息。
[0030] 步骤2,本发明构建一种轻量级深度学习模型LCANet,专门为边缘设备设计,布置在边缘设备上,设计深度网络参数的减少使达到预测精度与资源消耗的平衡。本发明实施
例中边缘设备采用具备Jetson Nano芯片的设备。
[0031] 本发明提供的深度学习模型LCANet借鉴了多任务学习的思想,分别处理三个任务:一个是全局级的分支,用于检测输入时间序列中的地震信号;另一个是在局部级别上的
两个分支,用于定位地震信号中P波和S波的震相。本发明的LCANet模型中包括基于逆向瓶
颈残差块的编码器、上下文感知注意模块以及多尺度异构解码器。首先,三分量地震波形数
据输入基于逆向瓶颈残差块的编码器,输出能够描述地震数据内在物理含义的特征向量;
然后,编码器的输出特征向量序列输入由轻量级的非因果时序卷积网络和注意机制组成的
上下文感知注意模块,针对三个任务,分别设置提取关注时间序列上下文信息的特征向量
序列。多尺度异构解码器包括三个分支,三个分支的结构是相同的,将上下文感知注意模块
输出的三个特征向量序列分别输入三个分支中,每个分支将特征向量映射到对应任务独有
的特征空间中,最后输出地震信号的概率、P震相到达位置概率、S震相到达位置概率。
[0032] 本发明的LCANet模型的一个实现如图2所示。图2中参数k是一维卷积核大小,d是输出通道数,e是扩张层扩展的通道数,h是隐藏层的数目。下面分步骤2.1~2.3说明本发明
建立的轻量级深度学习模型LCANet。
[0033] 步骤2.1,设计实现基于逆向瓶颈残差块的编码器。
[0034] MobileNets是移动和嵌入式视觉应用中流行和高效的神经网络体系结构之一,它基于深度可分离卷积构造轻量级的深度神经网络。MobileNetV3是轻量级网络系列中最新、
性能最好的版本。本发明受MobileNetV3的启发,设计了基于多个逆向瓶颈残差块的编码
器,以极大地压缩神经网络的规模和减少参数的数量,从而优化边缘设备的精度和延迟。
[0035] 本发明进行地震信号检测和相位拾取是每个时间点的时间序列分类任务,为了更加适应该任务,本发明所构建的基于逆向瓶颈残差块的编码器具有如下创新:(1)逆向瓶颈
残差块中的卷积层由一维深度可分离卷积中的深度卷积和逐点卷积组合而成,其中逐点卷
积根据对特征向量通道增加或减少的方式不同,可以分为扩张卷积和投影卷积,由于一维
深度可分离卷积的参数和计算量是标准一维卷积的1/d+1/k倍,因此可以有效减少网络参
数并提升计算效率;(2)为了避免非线性激活函数导致特征向量通道崩溃,丢失通道信息,
本发明通过在逆向瓶颈残差块中利用逐点卷积中的扩张卷积并更换非线性激活函数以解
决该问题;(3)为了解决降低模型参数导致的表达能力减弱的问题,本发明在逆向瓶颈残差
块中融合注意力模块,提升模型整体的表达能力;(4)为了过滤原始三分量地震图中的冗余
信息,抑制数据噪声,本发明在逆向瓶颈残差块之后增加最大池化操作,适当降低模型复杂
度的同时增加数据特征提取能力。
[0036] 如图2所示,本发明的基于逆向瓶颈残差块的编码器的结构包括依次连接的深度可分离卷积层和多个逆向瓶颈残差块。如图2中,深度可分离卷积层(Sep Conv1D)后添加最
大池化层(MaxPooling),逆向瓶颈残差块(IBottleneck)包括六个,前四个逆向瓶颈残差块
后添加有最大池化层。各逆向瓶颈残差块的卷积操作由图3所示的一维深度可分离卷积中
的深度卷积和逐点卷积组成。本发明的地震信号检测和相位拾取是每个时间点的时间序列
分类任务,因此,如图3所示,应用一维深度可分离卷积来提高计算效率并减少网络参数。
[0037] 图4提供了(a)本发明的逆向瓶颈残差块与(b)传统的瓶颈残差块的完整结构。如图4的(a)所示,本发明构建的逆向瓶颈残差块,包括扩张层(Expansion Layer)、一维深度
卷积层(DepthConv1D)、注意力模块(SE Module)和投影层(Projection layer)。其中扩张
层中的扩张卷积和投影层中的投影卷积都属于逐点卷积。
[0038] 首先,本发明的逆向瓶颈残差块设置了扩张层,并为扩张层和一维深度卷积层选择新式非线性激活函数hard_swish。扩张层为扩张卷积,通常扩张因子e大于输入通道和输
出通道的数量,从而防止非线性激活功能破坏太多的信息。
[0039] 通常,将卷积层和激活层的输出特征称为目标流形。神经网络中感兴趣的流形可以嵌入到低维子空间中。可以通过简单地减小通道的维数从而减小子空间的维数来捕获和
利用感兴趣流形。但是,当输入通道的维数太低时,非线性变换会使通道崩溃,并不可避免
地丢失通道信息。因此,本发明利用扩张层来扩展输入特征向量的通道数,然后使用轻量级
的一维深度卷积为每个通道提取特征。扩张层和深度卷积层之后是批归一化(BN)和非线性
激活函数。本发明选择一个称为hard_swish的新式非线性激活函数,定义为:
[0040]
[0041] 其中,x是特征向量。hard_swish被认为是swish的加速版本,它可以减少内存访问的次数,从而大大降低了等待时间。使用此非线性激活函数替代ReLU时,可以显着提高神经
网络的准确性。由于通道数量的增加,它可以避免非线性激活函数破坏过多的信息。
[0042] 其次,本发明为了进一步建模卷积特征通道之间的相互依赖性,提高特征的表征能力,在逆向瓶颈残差块融合了注意力模块——Squeeze‑Excitation模块(SE模块)。如图4
所示,将SE模块增加到每个逆向瓶颈残差块中,而不是仅仅只添加在某些块中。在输入层
中,使用一维标准卷积(图4中的Conv1D)来调整输入特征向量的通道数,以确保调整之后的
特征向量可以与投影层输出特征向量逐元素相加。如图4所示,SE模块中包括全池化层
(Global Pooling)、两个全连接层(FC)和hard sigmoid激活函数。
[0043] 最后,投影层(Projection layer)利用投影卷积,将高维特征投影到低维子空间中。本发明在投影层未使用非线性激活函数,以避免丢失信息。
[0044] 本发明提出的逆向瓶颈残差块受MobileNetV3的启发,不同的是,本发明在每个块后添加最大池化层以缩小数据序列长度。如图2所示,最大池化层在处理序列数据时具有许
多优势,例如压缩特征长度,去除冗余信息,简化网络复杂性,降低计算复杂性以及最重要
的是抑制噪声。由于地震序列数据可能具有干扰噪声,从而影响最终检测结果,因此最大池
化层可以有效抑制背景噪声,并使编码器提取的特征更可靠地描述数据的固有物理含义。
此外,最大池化层可以在不增加参数的情况下有效地减轻操作负担。总而言之,这些优点非
常有助于深度学习方法来处理部署在边缘设备上的地震数据。
[0045] 对本发明的基于逆向瓶颈残差块的编码器的参数进行分析。本发明尽管增加大量计算复杂度较高的卷积层,例如扩张层和SE模块,但是,逆向瓶颈残差块的高性能特性允许
特征向量的通道数在一个较少的范围内就可以获得较高的表达能力。例如,根据图2所示的
流水线结构,对于编码器中的第四个逆向瓶颈残差块,输入通道c=24,内核大小k=5,扩展
通道e=96和输出通道d=40,该块的参数总数为:
[0046] (1×c)×d+(1×c)×e+(k×1)×e+e×e/4+e/4×e+(1×e)×d=12192
[0047] 与瓶颈残差块相比,输入通道c=128,内核大小k=5,输出通道d=256,瓶颈残差块的参数总数为:
[0048] (1×c)×d+(1×c)×c/4+(k×c/4)×c/4+(c/4)×d=50176
[0049] 二者相比,本发明的逆向瓶颈残差块的参数总数减少了约4倍,但实现了类似的性能。
[0050] 如图2所示,将三分量的地震波形数据输入基于逆向瓶颈残差块的编码器,编码器输出能够描述地震数据内在物理含义的特征向量。本发明实施例中输入6000*3大小的波
形,最后输出375*48大小的特征向量。
[0051] 步骤2.2,设计实现上下文感知注意模块。
[0052] 为了对具有不同物理意义的地震信号片段进行可靠的关注,需要相对于全局和局部时间序列来计算地震信号片段中每个时间点的信息权重。这意味着需要首先拥有全局和
局部上下文知识。本发明扩展了原始的非因果时序卷积网络TCN,并提出了对长时间序列具
有强大注意力能力的上下文感知注意力模块。
[0053] 如图2所示,上下文感知注意力模块由轻量级非因果时序卷积网络TCN和注意力机制模块组成,可为不同任务提供更具针对性的功能。轻量级非因果时序卷积网络TCN采用膨
胀卷积,可实现指数级大的感受野并涵盖长期有效的历史信息。注意机制可以使特征向量
更具判别能力,以便模型可以突出显示重要特征。本发明将非因果时序卷积网络TCN用作时
间信息提取器,以捕获未来和历史信息。
[0054] 与以往TCN不同的是,本发明提出了一种轻量级的非因果时序卷积网络TCN,它用具有膨胀因子的一维深度可分离卷积层替换了标准卷积层,以最小化模型参数并最大化了
神经网络的感受野。输出时间点t的感受野rft大小计算如下:
[0055] rft=(k‑1)×2h‑1   (1)
[0056] 其中,k是卷积核大小,h是隐藏层数。这样,每个输出点由过去和将来的输入点的感受野rf确定,并且感受野根据隐藏层的数量呈指数增长。如图5所示,本发明的轻量级非
因果时序卷积网络TCN的一个示例,其中卷积内核大小k=3,隐藏层h=3,对应于输出时间
点的感受野大小为15。图5中,输入l*c大小的特征向量,第一层卷积中的膨胀因子
(Dilation)都设置为1,第二层卷积中的膨胀因子都设置为2,第三层卷积中的膨胀因子都
设置为4,经过三层卷积操作后的特征向量与经过同等映射(Identity Map)或1*1卷积操作
后的输入特征向量进行逐元素加法,最后输出l*c大小的特征向量。本发明的轻量级非因果
时序卷积网络TCN通过将序列的过去和将来都考虑在内,大大提高了计算精度和处理速度。
[0057] 为了进一步提取时序数据之间的关联性,本发明采用一种通用的自注意机制结构,如图6所示,其中序列长度(Sequence length)为94,通道(Channel)数量为32,相关矩阵
(Correlation matrix)的大小为94×94,注意权重矩阵(Attention weight matrix)大小
为94×32。与完全连接的神经网络相比,自注意力会动态生成权重矩阵并捕获序列中元素
的相关性。根据序列中的元素生成一个相关矩阵,以计算注意力矩阵。轻量级非因果时序卷
积网络TCN的输出层由 表示。et表示输入自注意机制结构的第t个特征,l是输
入特征的长度,de是特征的维度。以下公式显示了如何计算元素的相关矩阵ct,t′和注意力矩
阵a′t,t′:
[0058] ct,t′=tanh(Wcet+Wc′et′+bc)   (2)
[0059] at,t′=σ(Wact,t′+ba)   (3)
[0060]
[0061] 其中,et′是输入的第t'个特征;Wc代表与et对应的权重矩阵,Wc′代表et与et′相关矩阵的线性变换矩阵。Wa是相关矩阵ct,t′对应的权重矩阵。bc和ba是偏置向量。σ是逐元素的S
型函数。at,t′是et与et′之间的注意力矩阵,a′t,t′是对at,t′归一化处理后的注意力矩阵。
[0062] 自注意机制结构的输出层的元素ot计算如下:
[0063]
[0064] 其中,n表示输出特征向量维度。
[0065] 本发明的自注意机制结构中,使用Transformer模型中的前馈层引入非线性,前馈层包括两个完全连接的层和ReLU激活函数。
[0066] 针对不同任务目标,应用自注意机制结构时根据其中处理数据长度(Sequence length)的不同实现全局注意力机制模块(图2中标记为Transformer)和局部注意力机制模
块(图2在标记为Self‑Attention)。本发明在地震全波形识别上应用全局注意力机制,在P
波和S波的相位提取上应用局部注意力机制。全局注意力机制的感受野涵盖了整个序列,而
局部注意力机制仅关注相邻的元素。不同的感受野使网络更针对不同的任务。
[0067] 如图2所示,本发明实施例将基于逆向瓶颈残差块的编码器输出的375*48大小的特征向量序列,输入上下文感知注意模块中。在上下文感知注意模块中,首先依次通过两个
非因果时序卷积网络TCN模块获取输入特征序列在时间上的特征,输出一个大小为375*16
的特征向量序列,再使用一个全局注意力机制模块A提取捕获了特征序列中元素相关性的
特征向量序列,该全局注意力机制模块A输出的特征向量的大小为375*16。然后,针对地震
信号识别的任务,设置一组非因果时序卷积网络TCN模块+全局注意力机制模块,针对P波和
S波的相位识别的任务,分别设置一组非因果时序卷积网络TCN模块+局部意力机制模块。将
全局注意力机制模块A输出的大小为375*16的特征向量序列分别输入三组模块中,提取对
应任务下的特征向量序列。所提取的特征向量序列,进一步增强了特征之间的时间相关性,
通过关注整个或局部时间序列的上下文信息,可显著提高检测精度。
[0068] 步骤2.3,设计实现多尺度异构解码器。
[0069] 多任务学习是一种重要的机器学习范例,旨在使用其他相关任务来提高任务的泛化性能。基于所有任务或至少它们的一个子集都相关的假设,根据经验和理论上发现联合
学习多个任务比单独学习它们会带来更好的性能。Mousavi等人指出地震信号的检测和相
位的选择是密切相关的。它们利用多任务学习的优势并获得了出色的结果,但是在解码阶
段未连接低阶特征,这导致边缘细节信息的精炼能力差。与其直接应用标准的多任务学习
框架,本发明提出了一种多尺度异构解码器,该解码器由异构注意力模块和多尺度优化模
块组成。通过分离编码器生成的共享特征,探索了有益于不同任务的异构特征,并提高了地
震检测和相位拾取的准确性。
[0070] 与噪声信号相比,包含P波和S波的地震信号具有明确的物理意义和明显的特征。对于不同的体波,P波和S波具有其独特的物理含义,应分别对待。因此,编码器提取地震信
号的共享表示,并且解码器补充学习到的域相关信息。
[0071] 本发明设计了一种轻量级的异构注意力模块,从基于逆向瓶颈残差块的编码器的中间层提取不同任务的异构特征,称为异构注意力模块。如图2所示,每个异构注意力模块
包括全局池化层、一维卷积层(Conv1D)和Sigmoid激活函数。每个异构注意力模块对输入的
特征向量进行两步处理,首先按照通道维度进行全局平均池化和一维卷积,得到具有全局
感受野的特征向量,再利用sigmoid函数将每个元素映射到[0,1]的区间内,其中分数越高
表示该点对应元素越重要;其次将输入的特征向量经过一维深度可分离卷积操作;最后将
两步操作的结果使用逐元素乘法,进行注意力加权。异构注意模块是类似于SE模块的通道
注意机制,但是全连接层被核大小为1的卷积层替换,以减少参数和计算量。基于逆向瓶颈
残差块的编码器已提取了足够鲁棒的共享表示,因此简单的通道关注可以对相应任务产生
积极的推动作用。
[0072] 本发明的多尺度优化模块包括上采样操作(UpSampling)和一维深度可分离卷积操作(Sep Conv1D),主要目的是利用具有不同内核大小的卷积来捕获多尺度上下文特征并
通过连接低阶特征,从而逐渐恢复抽象的高阶特征。
[0073] 如图2所示,多尺度异构解码器分为三个分支,分别对应三个任务,也与上下文感知注意模块的三个分支相对应。在每个分支上包括三个多尺度优化模块,首先利用异构注
意力模块从上下文感知注意模块对应分支的输出特征向量进行异构特征提取,输出的特征
向量输入第一个多尺度优化模块中,进行上采样和Sep Conv1D操作,然后输出750*32大小
的特征向量;其次,利用异构注意力模块对编码器的中间层进行处理,本发明实施例为编码
器第四层提取的特征向量进行异构特征提取,再与第一个多尺度优化模块输出的特征向量
相加,输入第二个多尺度优化模块中进行上采样和卷积操作,然后输出1500*16大小的特征
向量;最后,利用异构注意力模块从编码器的中间层,本发明实施例为编码器第二层,提取
的特征向量进行异构特征提取,再与第二个多尺度优化模块输出的特征向量相加,输入第
三个多尺度优化模块中进行上采样和卷积操作,最后输出6000*1大小的特征向量。根据所
输出的6000*1特征向量获取该向量对应任务的概率。
[0074] 如图2所示,在多尺度异构解码器中,利用多尺度优化模块逐步解码,将特征向量的分辨率提高4倍,最后输出三个概率序列,分别表示每个时间点地震信号的存在概率,P相
概率和S相概率。
[0075] 步骤3,对本发明所提供的深度学习模型LCANet进行训练,利用训练好的模型对采集的地震信号数据处理,输出识别出来的地震信号时间序列,P波震相和S波震相。
[0076] 本发明使用斯坦福地震数据集(STEAD)来训练LCANet网络。本发明使用没有经过数据筛选的原始数据集进行实验验证,这使得模型能够适应复杂的边缘计算环境,并且易
于在其它地震数据集中推广,鲁棒性强。
[0077] 本发明实施例使用斯坦福大学地震数据集(STEAD)训练和测试LCANet神经网络。STEAD是标记地震和非地震信号的大规模全球数据集,目前包含没有地震信号的本地地震
波形和地震噪声波形。其地震类别包含的地震具有大约一百万个三分量地震信号样本,每
个样本1分钟长。其非地震类别包含地震噪声,包括大约300K个样本。STEAD涵盖了各种地质
情况和事件,有益于于训练和估计LCANet模型。
[0078] (1)对数据集STEAD,由地质学从业人员标记其中约70%的数据,由已有的自动识别算法模型标记30%的数据,标记地震时间窗口和相到达时间。将数据随机分为训练集
(70%),验证集(20%)和测试集(10%)。
[0079] 本发明将地震检测和相位拾取任务视为时间序列分类任务,地震时间序列中的每个点都分为正或负。对于地震信号检测而言,连续的一系列点标记为正,表示该段存在地
震,其余的点标记为负。但是,对于P波和S波的相位拾取而言,震波到达时间是长序列中的
单点,导致正负样本数量严重失衡。为了解决此问题,当模型预测时间点到真实时间点小于
0.5秒时,将其视为正确预测的正样本TP。如图7所示,在第一个到达的P和S波处,P和S的概
率设置为1,并且在每个相位到达之前的50个样本和之后的50个样本中,点的概率线性降低
为0。
[0080] (2)对本发明的LCANet模型进行训练。先对数据进行混洗,然后进行扩充和规范化,采用数据增强策略,本发明实施例将地震信号以0.3的概率随机添加到空白部分,将高
斯噪声以0.5的概率随机添加到地震波形中,以0.5的概率随机旋转、移动地震事件,以0.3
的概率随机添加噪声波形中的间隙,以0.3的概率将神经网络中一个或两个通道的值随机
设置为0。
[0081] 使用He Normal Initialization方法对LCANet模型中所有卷积层和完全连接的层进行初始化,并使用零向量初始化偏置向量。本发明的如图2所示的模型仅具有约209,
573个可训练参数,神经网络模型的整体大小仅为3.7MB。
[0082] 在Linux操作系统上使用Intel Core i9‑9900K CPU和NVIDIA GeForce GTX 1080Ti GPU进行训练,批处理参数设置为320,初始学习率设置为0.001。借助Adam优化算法
和指数衰减动态学习率策略,该模型在完整数据集上训练了50个周期。
[0083] 在每个训练周期使用F1分数对模型进行验证,然后根据验证集上的F1分数保存最优模型。F1分数是统计学中用于测量二进制分类模型的精度的分数,考虑了分类模型的精
度和召回率,如下计算:
[0084]
[0085]
[0086]
[0087] 其中,TP,FP和FN分别为正确预测的正样本,错误预测的正样本,错误预测的负样本。
[0088] (3)测试集上对LCANet模型的测试结果如图8所示,其中8(a)是震级为3.5的地震波形,震源距离为105km,信噪比(SNR)为56.4,图8(b)是震级为0.8,震源距离为54km,信噪
比为15.0的地震波形,图8(c)是震级为0.1,震源距离为22km,信噪比为5.3的地震波形,图8
(d)是震级为2.3,震源距离为61km,信噪比为15.1的地震波形。根据图8中的地震描述,
LCANet对大地震和微震均具有较高的预测性能,并且鲁棒性强。对于8(d)的波形,E和N分量
可能会损坏,不过只有一个分量时LCANet也具有出色的预测结果。其中E、N和Z分别表示东、
北和垂直三个方向。
[0089] 将本发明方法与现有技术进行比较,在同一数据集上进行地震检测,对比结果如表1~3所示。
[0090] 第一种是经典方案STA/LTA,STA和LTA分别指的是固定长度的短时间窗口和固定长度的长时间窗口中的信号平均值,短时窗口与长时窗口的比率STA/LTA反映了地震能量
的变化。当比率突然上升时,信号的短时窗口平均值变化快于信号的长时窗口平均值变化。
如果设置了适当的阈值,则当比率超过阈值时,可以准确捕捉到地震事件信号。
[0091] 第二种是经典方案AR‑AIC(Autoregressive‑AIC),AIC是Akaike信息准则,AR‑AIC被广泛用于自动相位识别系统,本实验中用于拾取震波到达时间,而STA/LTA检测整个地震
窗口。
[0092] 第三种是EQTransformer模型识别,EQTransformer是目前用于地震信号检测和震相识别性能最好的深度学习方法,但是其模型十分庞大,计算复杂度过高,难以应用在边缘
设备上。
[0093] 表1地震信号识别结果
[0094] 对比方案 Pr Re F1EQTransformer 1.0 1.0 1.0
本发明LCANet 1.0 1.0 1.0
STA/LTA 0.88 0.99 0.93
[0095] 表2 P波震相识别结果
[0096] 对比方案 μ σ Pr Re F1 MAEEQTransformer 0.00 0.03 0.99 0.99 0.99 0.01
本发明LCANet 0.00 0.01 1.0 0.99 0.99 0.00
AR‑AIC 0.02 0.36 0.84 0.67 0.74 0.18
[0097] 表3 S波震相识别结果
[0098] 对比方案 μ σ Pr Re F1 MAEEQTransformer 0.00 0.11 0.99 0.96 0.98 0.01
本发明LCANet 0.00 0.04 1.0 0.97 0.98 0.01
AR‑AIC 0.09 0.59 0.81 0.54 0.65 0.26
[0099] 表中EQTransformer的成绩来自于官方正式预训练版本。由表可知,本发明LCANet模型的性能优于经典模型,并且和EQTransformer的得分非常接近。
[0100] 对比结果时,除了模型的精度和召回率,F1分数,还加入了平均绝对误差(MAE),MAE是预测值和观察值之间的绝对误差的平均值,此处μ和σ分别是预测值与真实值之间以
秒为单位的误差的平均值和标准偏差。
[0101] 功耗和时间开销在边缘计算中很重要。近几年来,神经网络需要越来越多的计算资源和预测时间。完美的预测表现往往需要由几个NVIDIA Tesla GPU,但是每块这样的GPU
可能会占用上百每瓦。而在边缘计算的场景中,地震台站的边缘设备端只能提供有限的电
力功率,并要求实时预测结果。本发明部署在Nano上的LCANet模型功耗仅约为7.5瓦。如此
小的功率开销同时也具备高处理速度,在160毫秒处理约10个序列,各序列包含一分钟的数
据记录。
[0102] 不同地区独特的地质构造会产生不同的地震信号,这对模型的泛化能力提出了挑战。将本发明的LCANet模型在日本High Sensitivity Seismograph Network实验室提供的
公开地震数据集上进行测试。由于地震信号记录的标准在世界范围内有所不同,因此需要
对该地区的数据集进行标准化预处理。首先,通过去除均值,对1至45Hz之间的带通滤波并
进行归一化来消除所有迹线的趋势。然后,将原始的连续数据重新采样到100Hz,并每一分
钟分割一段波形,以获得6000个样本的标准信号数据。分割窗口之间的重叠率保持为0.3,
以确保检测任务的稳定性。图9中的每个波形长60秒,每秒包含100个采样点。这些图片由上
到下显示了三通道波形以及地震信号检测,P波拾取和S波拾取的模型预测。
[0103] 如图9所示,最下面图是检测结果,检测结果的竖轴表示深度学习模型预测的概率,概率越高代表深度学习模型有越高的把握认为该点为正样本。当概率超过阈值,如在实
验中设为0.3时,就会预测为正。这种概率机制提供了更多的预测信息,而经典或手动方法
将点标记为绝对正样本或绝对负样本。特别是对于地震窗口的预测而言,由于其窗口是一
个较长的时间片段,边缘的判定往往不准,这个时候给出边缘的预测概率分布比一个绝对
的分割点显然更合理,图9显示出模型预测概率在窗口边缘处平稳地变化。当包含6000个样
本点的波形中存在多个地震事件时,本发明可以理想地检测出多个地震信号并拾取多个震
波的到达时间,包括可以检测出微震。微震是一种地震强度低的地震,往往不会被人体感知
到而且也很难识别,给出微震预测的概率比一个有无的绝对判定更有价值。实验证明,本发
明方法具有地区普适性。