基于多头注意力机制的自适应机械故障诊断方法及系统转让专利

申请号 : CN202210791142.9

文献号 : CN114861740B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李沂滨郑维红宋艳汪雨晴

申请人 : 山东大学

摘要 :

本发明属于故障诊断技术领域,提供了一种基于多头注意力机制的自适应机械故障诊断方法及系统,包括获取机械故障数据并进行预处理;将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据,得到机械故障高维特征;基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断;本发明多头注意力网络能够自适应地选择与故障类型相关度更高的频率数据特征来训练网络模型,多头注意力机制的应用增加提取特征的多样性,且多头之间相互协同有助于网络学习更深层次的数据特征。

权利要求 :

1.基于多头注意力机制的自适应机械故障诊断方法,其特征在于,包括:获取机械故障数据并进行预处理;

将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;

在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;

基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断;

所述在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据,得到机械故障高维特征,具体为:使用小波包变换处理后的机械故障数据;

利用多个相同的多头注意力层同时提取同一位置的不同特征信息;

得到机械故障高维特征;

所述多头注意力层包括多头注意力机制、层归一化、全连接层;

将小波包变换后的机械故障数据特征矩阵经过多头注意力机制计算得到的结果与小波包变换后的机械故障数据特征矩阵相加,即残差连接;

经过残差连接相加后的数据经过层归一化,然后经过包含两个隐藏层的全连接层,然后再经过一个层归一化,构成了一个多头注意力层。

2.如权利要求1所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述获取机械故障数据并进行预处理,包括:获取同一故障尺寸在同一负载下的机械故障数据并进行数据分割;

对数据分割之后的数据段进行小波包变换;

基于小波包变换后的数据,得到预处理后的设备故障数据。

3.如权利要求1所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述多头注意力机制是采用缩放点积注意力函数对小波变换后的机械故障数据特征矩阵在多个不同的投影空间中建立不同的投影信息得到对应的输出矩阵,将多个输出矩阵经过残差连接后,得到拼接矩阵。

4.如权利要求1所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,训练卷积神经网络的过程,包括:获取机械故障数据进行降噪和归一化预处理;

将预处理后的数据切分为数据段,将切分后的数据段进行小波包变换,再将其按7:3划分为训练集和测试集;

在多头注意力网络中通过堆叠多个相同的多头注意力层提取训练集的高维特征数据,得到机械故障高维特征;

将多头注意力网络提取的机械故障高维特征输入卷积神经网络中计算得到故障诊断结果;

使用交叉熵损失函数计算故障诊断结果和真实故障之间的差距,并通过Adam优化器反向传播优化网络中的参数;

将测试集数据输入卷积神经网络计算模型准确率,判断卷积神经网络是否收敛,如是则训练结束,否则继续训练,保存训练好的卷积神经网络。

5.如权利要求4所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述卷积神经网络由三个依次连接的卷积网络层、全连接层以及softmax层构成;

每一个卷积网络层均包含一个卷积层和一个最大池化层;

全连接层将最后一个卷积网络层的输出展平成为一个一维的特征向量,并将其与最后一个卷积网络层的输出进行全连接;

softmax层将全连接层的输出转化为和为1的概率分布,得到最终的故障诊断分类结果。

6.如权利要求5所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述卷积层和最大池化层之间还连接有一个激活函数层;

所述激活函数层将卷积层计算得到机械故障特征图进行去线性化处理。

7.如权利要求5所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述卷积网络层还包括批标准化层;

所述批标准化层在每一个小批量机械故障数据中,先对输入进行归一化,然后对归一化的结果进行缩放和平移。

8.基于多头注意力机制的自适应机械故障诊断系统,其特征在于,包括:数据采集模块,被配置为获取机械故障数据并进行预处理;

小波包变换模块,被配置为将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;

特征提取模块,被配置为在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;

故障诊断模块,被配置为基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断;

所述在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据,得到机械故障高维特征,具体为:使用小波包变换处理后的机械故障数据;

利用多个相同的多头注意力层同时提取同一位置的不同特征信息;

得到机械故障高维特征;

所述多头注意力层包括多头注意力机制、层归一化、全连接层;

将小波包变换后的机械故障数据特征矩阵经过多头注意力机制计算得到的结果与小波包变换后的机械故障数据特征矩阵相加,即残差连接;

经过残差连接相加后的数据经过层归一化,然后经过包含两个隐藏层的全连接层,然后再经过一个层归一化,构成了一个多头注意力层。

说明书 :

基于多头注意力机制的自适应机械故障诊断方法及系统

技术领域

[0001] 本发明属于故障诊断技术领域,具体涉及一种基于多头注意力机制的自适应机械故障诊断方法及系统。

背景技术

[0002] 本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
[0003] 最近几年,随着工业对产量和生产规模需求的提高,机械设备结构趋于复杂化,自动化程度逐步提高,通过自动化的机械故障诊断系统实时精准地反馈机械设备的状态信息,是确保机械设备正常运行的重要手段。在工业生产中,通过有效的故障诊断算法对机械设备进行实时的精确监测,可以有效减小事故造成的人身安全威胁和经济损失,保障机械设备的安全运行。目前,故障诊断方法主要有基于模型和数据驱动两种,而基于数据驱动的方法又可以进一步分为基于传统机器学习算法和深度学习算法的方法。
[0004] 基于传统机器学习算法的故障诊断方法通常需要复杂的特征信息,首先在数据集上进行深度探索性数据分析,然后将对据特征进行降维处理,最后,选择最佳特征传递给机器学习算法。虽然传统机器学习算法结构简单,但当数据不平衡时会导致分类精度下降,而且易受噪声干扰,难以达到很高的准确率。
[0005] 基于深度学习的故障诊断方法通过深度神经网络自主提取信号中具有较高区别度的高维数据特征,弥补了人工提取机械故障状态特征可能导致特征质量较差的问题。但缺点是深度学习算法需要较大规模的数据集才能训练得到较为成熟的诊断模型,这需要花费大量的训练时间,而且深层神经网络易受噪声干扰,还会发生过拟合现象降低故障诊断准确率。

发明内容

[0006] 为了解决上述问题,本发明提出了一种基于多头注意力机制的自适应机械故障诊断方法及系统,本发明介绍了一种基于多头注意力机制(Multi‑head Attention Mechanism,MHA)和卷积神经网络(Convolutional Neural Network,CNN)的自适应故障诊断算法MHA‑CNN,其中,MHA‑CNN网络主要由数据预处理、多头注意力机制网络和卷积神经网络三部分组成。首先,数据预处理模块将输入数据经过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;然后,使用多头注意力机制网络进一步提取高维特征数据;最后,将提取的高维特征数据和小波包分解得到的特征矩阵经过带权重矩阵的残差连接之后输入到卷积神经网络进行故障诊断。
[0007] 根据一些实施例,本发明的第一方案提供了一种基于多头注意力机制的自适应机械故障诊断方法,采用如下技术方案:
[0008] 基于多头注意力机制的自适应机械故障诊断方法,包括:
[0009] 获取机械故障数据并进行预处理;
[0010] 将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;
[0011] 在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;
[0012] 基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断。
[0013] 进一步地,所述获取机械故障数据并进行预处理,包括:
[0014] 获取同一故障尺寸在同一负载下的机械故障数据并进行数据分割;
[0015] 对数据分割之后的数据段进行小波包变换;
[0016] 基于小波包变换后的数据,得到预处理后的机械故障数据。
[0017] 进一步地,所述在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据,得到机械故障高维特征,具体为:
[0018] 使用小波包变换处理后的机械故障数据;
[0019] 利用多个相同的多头注意力层同时提取同一位置的不同特征信息;
[0020] 得到机械故障高维特征。
[0021] 进一步地,所述多头注意力层包括多头注意力机制、归一化层、全连接层;
[0022] 将小波包变换后的机械故障数据特征矩阵经过多头注意力机制计算得到的结果与小波包变换后的机械故障数据特征矩阵相加,即残差连接;
[0023] 经过残差连接相加后的数据经过层归一化,然后经过包含两个隐藏层的全连接层,然后再经过一个层归一化,构成了一个多头注意力层。
[0024] 进一步地,所述多头注意力机制是采用缩放点积注意力函数对小波变换后的机械故障数据特征矩阵在多个不同的投影空间中建立不同的投影信息得到对应的输出矩阵,将多个输出矩阵经过残差连接后,得到拼接矩阵。
[0025] 进一步地,所述训练卷积神经网络的过程,包括:
[0026] 获取机械故障数据进行降噪和归一化预处理;
[0027] 将预处理后的数据切分为数据段,将切分后的数据段进行小波包变换,再将其按7:3划分为训练集和测试集;
[0028] 在多头注意力网络中通过堆叠多个相同的多头注意力层提取训练集的高维特征数据,得到机械故障高维特征;
[0029] 将训练集以及机械故障高维特征输入卷积神经网络中计算得到故障诊断结果;
[0030] 使用交叉熵损失函数计算故障诊断结果和真实故障之间的差距,并通过Adam优化器反向传播优化网络中的参数;
[0031] 将测试集数据输入卷积神经网络计算模型准确率,判断卷积神经网络是否收敛,如是则训练结束,否则继续训练,保存训练好的卷积神经网络。
[0032] 进一步地,所述卷积神经网络由三个依次连接的卷积网络层、全连接层以及softmax层构成;
[0033] 每一个卷积网络层均包含一个卷积层和一个最大池化层;
[0034] 全连接层将最后一个卷积网络层的输出展平成为一个一维的特征向量,并将其与最后一个卷积网络层的输出进行全连接;
[0035] softmax层将全连接层的输出转化为和为1的概率分布,得到最终的故障诊断分类结果。
[0036] 进一步地,所述卷积层和最大池化层之间还连接有一个激活函数层;
[0037] 所述激活函数层将卷积层计算得到机械故障特征图进行去线性化处理。
[0038] 进一步地,所述卷积网络层还包括批标准化层;
[0039] 所述批标准化层在每一个小批量机械故障数据中,先对输入进行归一化,然后对归一化的结果进行缩放和平移。
[0040] 根据一些实施例,本发明的第二方案提供了一种基于多头注意力机制的自适应机械故障诊断系统,采用如下技术方案:
[0041] 基于多头注意力机制的自适应机械故障诊断系统,包括:
[0042] 数据采集模块,被配置为获取机械故障数据并进行预处理;
[0043] 小波包变换模块,被配置为将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;
[0044] 特征提取模块,被配置为在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;
[0045] 故障诊断模块,被配置为基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断。
[0046] 与现有技术相比,本发明的有益效果为:
[0047] 本发明中多头注意力网络能够自适应地选择与故障类型相关度更高的频率数据特征来训练网络模型,多头注意力机制的应用增加了提取特征的多样性,且多头之间相互协同有助于网络学习更深层次的数据特征。
[0048] 本发明中带权重矩阵的残差连接可以使网络更稳定,有更强的鲁棒性,结合卷积神经网络提升了网络的故障分类准确率;
[0049] 本发明中的多头并行处理可以提升网络的训练速度,使网络能够达到更高的实时性要求。

附图说明

[0050] 构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0051] 图1是本发明实施例中所述的MHA‑CNN算法流程图;
[0052] 图2是本发明实施例中所述的MHA‑CNN网络结构图;
[0053] 图3是本发明实施例中所述的多头注意力网络结构图;
[0054] 图4是本发明实施例中所述的卷积神经网络结构图;
[0055] 图5是本发明实施例中所述的波形分割示意图。

具体实施方式

[0056] 下面结合附图与实施例对本发明作进一步说明。
[0057] 应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
[0058] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0059] 在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0060] 实施例一
[0061] 如图1所示,本实施例提供了一种基于多头注意力机制的自适应机械故障诊断方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
[0062] 基于多头注意力机制的自适应机械故障诊断方法,包括:
[0063] 获取机械故障数据并进行预处理;
[0064] 将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;
[0065] 在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;
[0066] 通过带权重矩阵的残差连接将小波包变换得到的特征矩阵和多头注意力网络提取的高维数据特征连接到一起得到特征图,再使用卷积神经网络对该特征图进行故障诊断。
[0067] 本实施例基于多头注意力机制和卷积神经网络提出一种端到端的自适应神经网络MHA‑CNN,如图2为MHA‑CNN故障诊断模型结构图。MHA‑CNN网络算法流程如图1所示,其算法流程主要步骤为:
[0068] (1)对采集的数据进行降噪和归一化预处理;
[0069] (2)将预处理后的数据切分为数据段,将切分后的数据段进行小波包变换,再将其划分为训练集和测试集数据;
[0070] (3)将训练集的数据输入故障诊断模型中计算得到预测结果;
[0071] (4)使用交叉熵损失函数计算预测结果和真实故障之间的差距,并通过Adam优化器反向传播优化网络中的参数;
[0072] 此处的真实故障指:将采集的数据根据故障类型进行分类,对应不同的标签,是预先已知的数据。预测结果指:将输入数据通过网络计算得到的结果对应一个故障类型,事先未知的数据,可能对也可能错。计算两者之间的差距,差距越小,结果越接近效果越好。
[0073] (5)将测试集数据输入网络计算模型准确率,判断网络是否收敛,如是则训练结束,否则继续训练,保存训练好的故障诊断模型。
[0074] 以Paderborn轴承数据集为例,详细叙述基于小波包变换和多头注意力机制的轴承智能故障诊断方法。
[0075] 步骤1:数据预处理
[0076] (1)数据采集
[0077] 通过加速度传感器采集轴承的振动加速度信号。本实施采用的试验台主要由电机、扭矩测量轴、滚动轴承测试模块、飞轮和负载电机五个模块组成。轴承故障类型分为健康、内圈故障和外圈故障三种,每种故障类型有5个轴承。每个轴承均在4种不同的运行条件下进行数据采集,每个条件采集20次,采样频率为64 kHz。最终得到400个数据样本。
[0078] (2)数据分割
[0079] 在采集每个数据样本中取取2000个数据段,每段数据包含2048个数据点。为了保证训练数据的随机性,每段数据的分割起始点采用在该区间内随机生成,以达到更好的训练效果。如图5所示,为数据分割的示意图。
[0080] (3)小波包变换
[0081] 对数据分割之后的数据段进行小波包变换。小波包变换的主要的思想是:在小波变换的基础上,在每一级信号分解时,除了对低频子带进行进一步分解,也对高频子带进行进一步分解。最后通过最小化一个代价函数(信息熵函数),计算出最优的信号分解路径,并以此分解路径对原始信号进行分解。
[0082] 小波包变换中尺度函数 和小波函数 关系可以表达为:
[0083] (1)
[0084] 式中, 、 为滤波器系数。
[0085] (2)
[0086] 式中:当 时, 和 。小波包 是尺度函数 以及小波函数 等具有内在联系的函数集合。
[0087] 尺度函数构成的子空间为 ,小波函数构成的子空间为 ,令:
[0088] (3)
[0089] 因为: ,所以:
[0090] (4)
[0091] 将式推广到小波包可得:
[0092] (5)
[0093] 由式可推导出小波包分解的一般形式为:
[0094] (6)
[0095] 式中: , , 。
[0096] 由上分析可推导出小波包分解公式为:
[0097] (7)
[0098] 式中: 是第j级小波包系数, 和 是第 级小波包系数, 和是分解系数。
[0099] 由式可推导出小波包重构公式为:
[0100] (8)
[0101] 式中: 和 是重构系数。
[0102] 将由数据分割得到的数据段进行小波包变换,小波函数为离散Meyer小波,分解至第五层,得到32个小波包系数,对系数进行重构得到32×2048的矩阵。
[0103] (4)建立数据集
[0104] 首先给小波包变换之后的数据加标签,根据不同故障类型将数据划分为不同类别,再给这些数据加上对应的标签。如在Paderborn数据集中,数据有三种不同故障类别,分别为健康状态(标签为:0)、内圈故障(标签为:1)和外圈故障(标签为:2)。将同一标签的数据按一定的比例划分为训练集和测试集(本发明中默认为7:3),训练集数据用于训练网络模型,测试集数据用于测试网络模型的准确率。为了保证训练集和测试集的数据无重叠,需要在将数据分割成数据段之前确定训练集和测试集的分割范围,假设样本长度为N,训练集和测试集数量的比例为 ,则训练集数据在只能在 之间抽取,测试集则只能在之间抽取。
[0105] 步骤2:构建多头注意力网络
[0106] 如图3所示,使用多头注意力网络对小波包变换之后得到的大小为32×2048的矩阵进行特征提取。多头注意力机制主要思想是使用多个相同的注意力函数同时处理输入来获取同一位置的不同特征信息,这可以增加了提取特征的多样性,且多头之间相互协同有助于网络学习更深层次的数据特征。
[0107] 本发明中的多头注意力网络结构中主要包括多头注意力机制、层归一化、全连接层。首先将输入经过多头注意力机制计算得到的结果与输入相加,即残差连接,相加后的数据经过层归一化,然后经过包含两个隐藏层的全连接层,全连接层也使用残差连接,然后再经过一个层归一化,构成了一个多头注意力层。将最后一个层归一化之后的数据经过一个权重矩阵得到多头注意力网络的输出。在多头注意力网络中可以通过堆叠多个多头注意力层来提高网络特征提取的性能,MHA‑CNN网络中使用了两层多头注意力层。
[0108] (1)注意力函数
[0109] 当输入为X时,设 、 、 ,其中 、 和 分别对应Q、K和V的权重矩阵。本发明使用的注意力函数为缩放点积注意力函数,其数学表达式为:
[0110] (9)
[0111] 式中:输入由维度为 的Q和K以及维度 的V组成,使用softmax函数计算Q和K的点积除以缩放因子 ,获得V的权重。
[0112] (2)多头注意力机制
[0113] 将Q、K和V变换为h个矩阵,即: 、 和 ,其对应维度分别为 、 和 ,网络输入维度为 。在这h组中的每一组 、 和 都对应一个注意力层,经过注意力机制处理之后的结果拼接到一起再经过线性变换得到多头注意力机制的输出。多头注意力机制的数学表达式为:
[0114] (10)
[0115] 式中: 是将矩阵纵向拼接,权重矩阵 , 的表达式为:
[0116] (11)
[0117] 式中:X为输入,权重矩阵 , , ,, , , 为缩放因子, 。
[0118] (3)残差连接与层归一化
[0119] 在多头注意力机制中使用残差连接不仅可以提升网络的收敛速度,还可以使网络更稳定。残差连接是将输入数据经过多头注意力机制计算之后的数据和输入数据相加得到残差连接的输出。因为网络中使用了残差连接,所以网络的输入维度和输出维度应该相同,则: 。将残差连接之后的数据的输出进行层归一化(Layer Normalization,LN)。设输入为X, 为输出,则多头注意力机制经过机制归一化之后的数学表达式为:
[0120] (12)
[0121] 式中: 为多头注意力机制的实现,其表达式为, 为层归一化操作, 、 、 。
[0122] 层归一化是根据样本的特征数做归一化。设H是一层中隐层节点的数量,l是网络的层数,则层归一化的归一化统计量 和 为:
[0123] (13)
[0124] (14)
[0125] 式和中: 为第l层第i个数值。统计量 和 的计算和样本数量没有关系的,它的数量只取决于隐层节点的数量,所以只要隐层节点的数量足够多,就能保证LN的归一化统计量足够具有代表性。通过 和 可以得到归一化后的值 :
[0126] (15)
[0127] 式中:l为网络中第l个网络层,本发明中取 。
[0128] (4)全连接层
[0129] 每个多头注意力层结构中的全连接层包含两个隐藏层,中间激活函数使用ReLU函数,其输入和输出的维度均为 ,隐藏内层的维度为 。则全连接层的数学表达式为:
[0130] (16)
[0131] 式中: 和 分别为第一层和第二层的权重矩阵, 和 分别为第一层和第二层的偏置向量。
[0132] 本发明中的多头注意力网络中取: , , 。所以多头注意力网络的输出为大小为32×2048的特征矩阵。
[0133] 步骤3:构建卷积神经网络
[0134] 如图4所示,使用卷积神经网络对多头注意力网络提取的高维特征数据和小波包分解得到的特征矩阵经过带权重矩阵的残差连接之后的特征图进行进一步特征提取,并构建分类器将提取的特征进行分类得到网络预测的故障类型。
[0135] 卷积神经网络是包含卷积运算且具有深度结构的前馈神经网络,网络中稀疏连接和共享权值的特性一方面减少了权值的数量使得网络更易于优化,防止网络过拟合,另一方面也降低了网络结构的复杂度,使其能够组建更深层的网络,以便提取更高维的数据特征。卷积神经网络主要由卷积层、批标准化层、激活函数层、池化层、全连接层和softmax(激活函数)层组成。
[0136] (1)卷积层
[0137] 卷积层的功能是对输入数据进行特征提取,每个卷积层包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏移量。在二维卷积中,将一个二维的矩阵作为卷积层的输入,用I表示;卷积核对应的数据也是一个二维矩阵,用K表示,K的大小为;则经过卷积计算映射得到的输出特征图也是一个二维矩阵,用S表示。则在S中坐标为 的卷积表达式为:
[0138] (17)
[0139] 式中: 表示输出特征图中的坐标为 的卷积值, 表示卷积核中坐标为 的权重值, 表示输入特征图中坐标为 的值。
[0140] (2)批标准化层
[0141] 批标标准化可以标准化每一层的输出分布,降低每层数据分布变化带来的影响,从而加快神经网络的训练速度,同时提高神经网络准确率。在每一个小批量数据中,先对输入进行归一化,设 为输入x的均值, 为输入x的方差,然后对归一化的结果进行缩放和平移。在训练期间,该层将运行其计算的平均值和方差的估计值,然后在验证期间使用这些估计值进行标准化。批标准化的数学表达式为:
[0142] (18)
[0143] 式中:和 是可学习的参数向量,分别代表尺度和平移参数,其维度与输入x的维度相同。本发明中默认 取值为 , , 。
[0144] (3)激活函数层
[0145] 由于卷积操作是特殊的线性变换,因此需要将卷积计算得到的特征图输入到池化层之前做去线性化处理,也就是需要在卷积层和池化层之间加一个激活层,使用激活函数将原本线性不可分的多维特征映射到另一空间,在这个空间中,特征的线性可分性将增强。本发明中使用的激活函数有ReLU函数。ReLU函数数学表达式如下:
[0146] (19)
[0147] 式中: 为使用激活函数计算之后的取值, 输入特征图中坐标为 的特征值。
[0148] (4)池化层
[0149] 池化层是使用池化函数对卷积操作得到的特征映射结果做进一步处理,也就是将特征图某一位置及其相邻位置的特征进行统计汇总,并将这个结果作为该池化区域的特征值输出,从而映射得到新的特征图,其本质相当于降采样操作。本发明中使用最大值池化函数,即将输入特征图中池化区域的最大值作为该区域的池化输出值。最大值池化过程的数学表达式为:
[0150] (20)
[0151] 式中: 为第l层中坐标为 的特征值;S为池化区域的面积; 为输入特征图中坐标为 的特征值,d为步长。
[0152] (5)全连接层和softmax层
[0153] 全连接层在整个卷积神经网络中起到“分类器”的作用,即将前面卷积层和池化层提取的高维特征映射到样本空间。全连接层的具体做法是将最后一个池化层的输出展平成为一个一维的特征向量作为全连接层的输入,将输入与神经元之间进行全连接,其中隐含层使用ReLU函数作为激活函数,中间可以包含多个不同神经元个数的隐藏层。在最后一个输出层采用的是激活函数是softmax函数,其目的是将输出转化为和为1的概率分布,概率的最大值对应的标签则为网络预测的故障状态。
[0154] 全连接层的正向传播公式为:
[0155] (21)
[0156] 式中: 为第l层第i个神经元与第 层第j个神经元之间的权值, 为第层第j个输出神经元的取值, 为第l层所有神经元对第 层第j个神经元的偏置值。
[0157] 当 层为输出层时,激活函数为softmax函数,其数学表达式为:
[0158] (22)
[0159] 式中: 为第 层第i个输出神经元的取值,为第l层第i个神经元的特征值。
[0160] 本发明中的卷积神经网络模块由三个卷积网络层堆叠而成,每一个卷积网络层均包含一个卷积层、一个批标准化层、一个ReLU层和一个最大池化层。第一个卷积网络层卷积核大小为2×8,步长为2×8,卷积核数量为16;第二个卷积网络层卷积核大小为2×4,步长为2×4,卷积核数量为32;第三个卷积网络层卷积核大小为2×2,步长为2×2,卷积核数量为64。第一和第二个全连接层的神经元个数分别为100和n,softmax输出节点数为n。其中n为数据集中故障类型的总数,全连接层的dropout均为0.1。
[0161] 步骤4:构建MHA‑CNN网络
[0162] 本发明基于多头注意力机制和卷积神经网络提出一种端到端的自适应神经网络MHA‑CNN,如图2为MHA‑CNN故障诊断模型结构图。MHA‑CNN网络主要由数据预处理、多头注意力网络和卷积神经网络三部分组成,网络训练的损失函数为交叉熵损失函数,优化器为Adam优化器。
[0163] 假设小波包变换之后的数据为X, 为网络预测的故障类别标签,则MHA‑CNN网络的表达式为:
[0164] (23)
[0165] 式中: 运算符为进行多次相同的操作, 、 、、 、 , 为多头注意力运算,
为层归一化运算, 为卷积运算, 批归一化运算, 为池化运算,
为矩阵展平操作。
[0166] 综上所述,本实施例所述的基于多头注意力机制的自适应机械故障诊断方法主要有以下几个关键点:
[0167] 1. 对采集的数据进行预处理。预处理模块包括:数据分割、小波包变换、建立训练集和测试集数据;
[0168] 2. 构建多头注意力网络。多头注意力网络中包括:多头注意力机制、层归一化、全连接层;
[0169] 3. 构建卷积神经网络。卷积神经网络中包括:卷积层、批归一化层、激活函数层、池化层、全连接层和softmax层;
[0170] 4. 构建MHA‑CNN网络。将多头注意力网络提取的高维特征数据和小波包分解得到的特征矩阵经过带权重矩阵的残差连接之后输入到卷积神经网络进行故障诊断。
[0171] 本实施例构建了自适应故障诊断网络MHA‑CNN;通过多头注意力网络对小波包变换之后的数据进行特征提取,自适应地选择与故障类型相关度更高的频率数据特征来训练网络模型;将多头注意力网络提取的高维特征数据和小波包分解得到的特征矩阵经过带权重矩阵的残差连接之后输入到卷积神经网络进行故障诊断。
[0172] 实施例二
[0173] 本实施例提供了一种基于多头注意力机制的自适应机械故障诊断系统,包括:
[0174] 数据采集模块,被配置为获取机械故障数据并进行预处理;
[0175] 小波包变换模块,被配置为将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;
[0176] 特征提取模块,被配置为在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;
[0177] 故障诊断模块,被配置为基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断。
[0178] 上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
[0179] 上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
[0180] 所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
[0181] 上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。