一种电力物联网终端行为异常检测方法及系统转让专利

申请号 : CN202311022009.8

文献号 : CN116738354B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李思源彭谦胡潇张尚军梁良李彬鄂驰刘小康陈欢罗坤徐滢

申请人 : 国网江西省电力有限公司信息通信分公司国网江西省电力有限公司国家电网有限公司

摘要 :

本发明提供了一种电力物联网终端行为异常检测方法及系统,通过在接近用户侧、电力生产现场侧的电力智能感知终端设备上采集数据,经预处理后去除不相关特征和噪声,再经自组织映射模型和对比学习模型构建检测行为是否正常的正负样本,继而将模型检测任务迁移到网络边缘的终端节点上,并在边缘节点上进行处理,可以减少对网络带宽的压力,加快终端异常检测的响应速度,确保终端设备稳定运行,实现对电力物联网终端设备数据的实时处理和安全检测。同时,本发明将自组织映射模型与对比学习模型进行结合,可以使正负样本间的特征更加明显,更利于样本的分类,并通过自学习自动更新知识(56)对比文件CN 112214788 A,2021.01.12CN 112345252 A,2021.02.09CN 114724043 A,2022.07.08CN 115473671 A,2022.12.13CN 116113967 A,2023.05.12CN 116431966 A,2023.07.14CN 116436551 A,2023.07.14EP 3667570 A1,2020.06.17EP 4050518 A1,2022.08.31US 2020178825 A1,2020.06.11US 2022261600 A1,2022.08.18US 2023139718 A1,2023.05.04WO 2021088377 A1,2021.05.14范守祥;姚俊萍;李晓军;马可欣.基于序列标注反馈模型的方面信息提取方法.计算机工程与设计.2020,(第09期),全文.

权利要求 :

1.一种电力物联网终端行为异常检测方法,其特征在于,包括以下步骤:对数据集进行预处理;

构建自组织映射模型和对比学习模型;

将预处理后的数据集数据输入所述自组织映射模型,基于使自组织映射模型的输出匹配对比学习模型更新自组织映射模型的参数,得到训练好的自组织映射模型;

将预处理后的数据集输入训练好的自组织映射模型,输出潜在特征分布进行数据处理后得到重构数据,并输入对比学习模型,基于增强重构数据的正负样本均衡性更新对比学习模型的参数,得到训练好的对比学习模型;

将所述训练好的自组织映射模型和所述训练好的对比学习模型下发到边缘层,采集待检测样本数据并上传到所述边缘层和云层进行实时检测处理,输出异常检测结果;

将预处理后的数据集数据输入所述自组织映射模型后,所述自组织映射模型接收样本数据向量,与竞争层中的所有的神经元权重通过计算不同向量之间的距离进行相似性度量比较,找出最相似的神经元作为获胜神经元,通过竞争学习的方式将所述获胜神经元的输出权重标记为1,将剩余神经元的输出权重标记为0,基于获胜神经元对输出权重进行调整,且调整后的神经元权重如下式所示:,

其中, 表示输入自组织映射模型接收层的标准化特征向量值, 表示神经元的输出权重,学习率 取值为(0,1],t为训练时间,随着学习维度的增加而递减,为调整后神经元的输出权重;

基于使自组织映射模型的输出匹配对比学习模型更新自组织映射模型的参数时,计算所述标准化特征向量值第一次编码和解码后输出数据的均值 和方差 ,当数据集数据在正态分布 中的 区间内,则不进行更新,否则进行正态分布权重系数以及均值和方差的更新;

执行输出潜在特征分布进行数据处理得到重构数据的步骤时,基于如下公式分析经过一次编码和解码后的潜在特征值:,

其中, 为随机数, 和 是标准化特征向量值经一次编码和解码后输出数据的均值和方差, 为潜在特征值;

基于如下公式对潜在特征值进行深度编码和深度解码:

其中,表示潜在特征值经过编码器进行深度编码后获取的潜在特征分布,表示编码得到的潜在特征分布经过解码器进行深度解码后输出的重构数据,为Sigmoid激活函数,表示编码器的权重值矩阵, 表示解码器的权重值矩阵, 表示编码器的偏置向量,表示解码器的偏置向量;

执行实时检测处理时,判断所述边缘层与所述待检测样本数据的匹配度;当所述边缘层与所述待检测样本数据匹配时,将所述待检测样本数据输入训练好的对比学习模型,输出异常检测结果并上传至所述云层进行存储及反馈至终端设备;否则,所述云层对所述待检测样本数据进行异常检测,输出异常检测结果并存储后反馈至终端设备。

2.根据权利要求1所述的一种电力物联网终端行为异常检测方法,其特征在于,执行判断边缘层与待检测样本数据的匹配度的过程中,包括:当所述待检测样本数据的计算任务小于或等于所述边缘层的计算容量时,则输出匹配结果,否则输出不匹配结果。

3.根据权利要求1所述的一种电力物联网终端行为异常检测方法,其特征在于,执行判断边缘层与待检测样本数据的匹配度的过程中,包括:计算基于所述边缘层处理所述待检测样本数据的运行时间,当所述运行时间小于或等于阈值时间时,输出匹配结果,否则输出不匹配结果。

4.根据权利要求1所述的一种电力物联网终端行为异常检测方法,其特征在于,当所述边缘层与所述待检测样本数据匹配后,将所述待检测样本数据与存储在所述云层的样本数据进行匹配,当匹配时,调用存储在所述云层的异常检测结果并反馈至终端设备;否则,将所述待检测样本数据输入训练好的对比学习模型。

5.根据权利要求1至4任一项所述的一种电力物联网终端行为异常检测方法,其特征在于,所述异常检测结果包括表示行为正常的正样本结果和表示行为异常的负样本结果。

6.根据权利要求1所述的一种电力物联网终端行为异常检测方法,其特征在于,所述对比学习模型的参数更新包含查询序列编码器和键值编码器的参数更新。

7.根据权利要求1所述的一种电力物联网终端行为异常检测方法,其特征在于,对数据集进行预处理的过程中,包括:采用独热编码将所述数据集转换为数值型数据,并进行归一化处理。

8.一种实现如权利要求1至7任一项所述电力物联网终端行为异常检测方法的系统,其特征在于,包括:数据预处理层,用于对数据集进行预处理;

构建模型层,用于构建自组织映射模型和对比学习模型;

自组织映射训练层,用于将预处理后的数据集数据输入所述自组织映射模型,基于使自组织映射模型的输出匹配对比学习模型更新自组织映射模型的参数,得到训练好的自组织映射模型;

对比学习训练层,用于将预处理后的数据集输入训练好的自组织映射模型,输出潜在特征分布进行数据处理后得到重构数据,并输入对比学习模型,基于增强重构数据的正负样本均衡性更新对比学习模型的参数,得到训练好的对比学习模型;

异常检测层,用于将所述训练好的自组织映射模型和所述训练好的对比学习模型下发到边缘层,采集待检测样本数据并上传到所述边缘层和云层进行实时检测处理,输出异常检测结果。

说明书 :

一种电力物联网终端行为异常检测方法及系统

技术领域

[0001] 本发明涉及电力物联网及人工智能技术领域,尤其涉及一种电力物联网终端行为异常检测方法及系统。

背景技术

[0002] 随着智能电网能源互联需求猛增,电网感知层的终端设备数据采集、存储和控制数量急剧增加,电力业务也呈现出多样性和时效性的发展趋势。物联网技术、新型传感器技术以及机器学习技术的广泛应用推动了电力智能终端向机器智能、感知智能和计算智能的转变,进而导致海量的终端异构数据的产生。
[0003] 异常检测是保证电力物联网可靠性和可用性的重要手段之一,及时发现异常可以避免或者减轻异常对用户体验满意度的影响;而基于行为的终端异常检测方法是以终端行为为基础,对终端行为进行存储和记录,并通过相应算法对这些行为进行分析统计,将终端的现有行为与分析统计结果进行比对,从而达到挖掘终端的异常行为目的。
[0004] 然而,公开号为CN115473671A的中国发明专利公开了一种基于流量基线的电力终端异常检测方法及系统,包括:采集电力终端所有的网络流量数据,并进行识别和解析;存储到大数据平台和结构化数据库;根据时间切片的电力终端IP流量上下限统计、协议规约流量上下限统计、应用层功能码流量大小统计对电力终端的流量维度、协议维度、应用层功能码维度进行异常检测,得到第一、二、三异常检测结果;根据第一、二、三异常检测结果计算最终异常检测结果,并确定电力终端存在异常的可能性。
[0005] 然而,现存的电力物联网终端异常检测方法采用的检测方式是将所有终端设备数据采集发送到主站管理系统,并集中进行大数据处理。但随着电力物联网终端设备数量爆发式增长、设备类型多样化,因数据具有的多样性、实时性和多维性特点而产生的复杂数据类型,给终端数据行为异常检测带来了巨大的挑战,且设备也并非一直处于异常状态,进而导致网络架构性能需求增高,需要其具备更高的计算能力和存储能力。
[0006] 因此,有必要开发出一种电力物联网终端行为异常检测方法及系统改善上述问题。

发明内容

[0007] 本发明的目的在于针对现存终端行为检测方法存在的网络架构性能低的问题,提出一种电力物联网终端行为异常检测方法及系统,通过在接近用户侧、电力生产现场侧的电力智能感知终端设备上采集数据,经预处理后去除不相关特征和噪声,再经自组织映射模型和对比学习模型构建检测行为是否正常的正负样本,继而将模型检测任务迁移到网络边缘的终端节点上,并在边缘节点上进行处理,可以减少对网络带宽的压力,加快终端异常检测的响应速度,确保终端设备稳定运行,实现对电力物联网终端设备数据的实时处理和安全检测。同时,本发明将自组织映射模型与对比学习模型进行结合,可以使正负样本间的特征更加明显,更利于样本的分类,并通过自学习自动更新知识库,能显著提高检测的准确性和效率。
[0008] 第一方面,本发明提供的一种电力物联网终端行为异常检测方法,包括以下步骤:
[0009] 对数据集进行预处理;
[0010] 构建自组织映射模型和对比学习模型;
[0011] 将预处理后的数据集数据输入所述自组织映射模型,基于使自组织映射模型的输出匹配对比学习模型更新自组织映射模型的参数,得到训练好的自组织映射模型;
[0012] 将预处理后的数据集输入训练好的自组织映射模型,输出潜在特征分布进行数据处理后得到重构数据,并输入对比学习模型,基于增强重构数据的正负样本均衡性更新对比学习模型的参数,得到训练好的对比学习模型;
[0013] 将所述训练好的自组织映射模型和所述训练好的对比学习模型下发到边缘层,采集待检测样本数据并上传到所述边缘层和云层进行实时检测处理,输出异常检测结果。
[0014] 本发明提供的一种电力物联网终端行为异常检测方法的有益效果在于:多模型的结合,可以使正负样本间的特征更加明显,更利于样本的分类,并通过自学习自动更新知识库,能显著提高检测的准确性和效率,其次,引入边缘计算,可以减少对网络带宽的压力,加快终端异常检测的响应速度,可实现对电力物联网终端设备数据的实时处理和安全检测。
[0015] 优选的,执行实时检测处理时,包括:判断所述边缘层与所述待检测样本数据的匹配度;当所述边缘层与所述待检测样本数据匹配时,将所述待检测样本数据输入训练好的对比学习模型,输出异常检测结果并上传至所述云层进行存储及反馈至终端设备;否则,所述云层对所述待检测样本数据进行异常检测,输出异常检测结果并存储后反馈至终端设备。如此,可以有效节省云层的计算资源,提高终端行为异常处理的效率,并减少网络带宽压力。
[0016] 优选的,执行判断边缘层与待检测样本数据的匹配度的过程中,包括:
[0017] 当所述待检测样本数据的计算任务小于或等于所述边缘层的计算容量时,则输出匹配结果,否则输出不匹配结果。
[0018] 优选的,执行判断边缘层与待检测样本数据的匹配度的过程中,包括:
[0019] 计算基于所述边缘层处理所述待检测样本数据的运行时间,当所述运行时间小于或等于阈值时间时,输出匹配结果,否则输出不匹配结果。如此,可以通过容量和时间的比较中的任意一项进行判断,可确保边缘层在进行终端行为异常检测处理的过程中顺利进行。
[0020] 优选的,当所述边缘层与所述待检测样本数据匹配后,将所述待检测样本数据与存储在所述云层的样本数据进行匹配,当匹配时,调用存储在所述云层的异常检测结果并反馈至终端设备;否则,将所述待检测样本数据输入训练好的对比学习模型。如此,可以避免重复计算,从而导致资源浪费,且能有效提高数据处理效率。
[0021] 优选的,所述异常检测结果包括表示行为正常的正样本结果和表示行为异常的负样本结果。
[0022] 优选的,所述自组织映射模型的参数更新包含正态分布权重系数、均值和方差的更新。如此,可以通过调整自组织映射模型中的参数,实现自适应调整网络,完成正负样本的分类。
[0023] 优选的,所述对比学习模型的参数更新包含查询序列编码器和键值编码器的参数更新。如此,可以通过调整对比学习模型中编码器的参数,达到动量更新的目的。
[0024] 优选的,对数据集进行预处理的过程中,包括:采用独热编码将所述数据集转换为数值型数据,并进行归一化处理。如此,可以在模型训练中利于模型的收敛,通过对样本数据进行归一化,可降低高量级样本数据的影响。
[0025] 第二方面,本发明提供的一种电力物联网终端行为异常检测系统,采用如下的技术方案:
[0026] 数据预处理层,用于对数据集进行预处理;
[0027] 构建模型层,用于构建自组织映射模型和对比学习模型;
[0028] 自组织映射训练层,用于将预处理后的数据集数据输入所述自组织映射模型,基于使自组织映射模型的输出匹配对比学习模型更新自组织映射模型的参数,得到训练好的自组织映射模型;
[0029] 对比学习训练层,用于将预处理后的数据集输入训练好的自组织映射模型,输出潜在特征分布进行数据处理后得到重构数据,并输入对比学习模型,基于增强重构数据的正负样本均衡性更新对比学习模型的参数,得到训练好的对比学习模型;
[0030] 异常检测层,用于将所述训练好的自组织映射模型和所述训练好的对比学习模型下发到边缘层,采集待检测样本数据并上传到所述边缘层和云层进行实时检测处理,输出异常检测结果。
[0031] 发明提供的一种电力物联网终端行为异常检测系统的有益效果:多模型的结合,可以使正负样本间的特征更加明显,更利于样本的分类,并通过自学习自动更新知识库,能显著提高检测的准确性和效率,其次,引入边缘计算,可以减少对网络带宽的压力,加快终端异常检测的响应速度,可实现对电力物联网终端设备数据的实时处理和安全检测。

附图说明

[0032] 图1为本发明实施例中提供的一种电力物联网终端异常检测方法的流程图;
[0033] 图2为本实施例中自组织映射(Self‑organizing map, SOM)模型示意图;
[0034] 图3为本实施例中提供的一种电力物联网终端异常检测方法的总体流程图;
[0035] 图4为本实施例中提供的一种电力物联网终端异常检测系统的模块流程图。

具体实施方式

[0036] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另外定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
[0037] 以下结合附图和具体实施例对本发明做优选的介绍。
[0038] 如图1所示,本发明实施例提供了一种电力物联网终端行为异常检测方法,包括以下步骤:
[0039] S1、数据预处理:对数据集进行预处理;
[0040] S2、模型构建:构建自组织映射模型和对比学习模型;
[0041] S3、训练自组织映射模型:将预处理后的数据集数据输入所述自组织映射模型,基于使自组织映射模型的输出匹配对比学习模型更新自组织映射模型的参数,得到训练好的自组织映射模型;
[0042] S4、训练对比学习模型:将预处理后的数据集输入训练好的自组织映射模型,输出潜在特征分布进行数据处理后得到重构数据,并输入对比学习模型,基于增强重构数据的正负样本均衡性更新对比学习模型的参数,得到训练好的对比学习模型;
[0043] S5、输出异常检测结果:将所述训练好的自组织映射模型和所述训练好的对比学习模型下发到边缘层,采集待检测样本数据并上传到所述边缘层和云层进行实时检测处理,输出异常检测结果。
[0044] 实际上,步骤S1中的数据集采集自接近用户侧、电力生产现场侧的电力智能感知终端设备。
[0045] 一些实施例中,执行步骤S1的过程中,可以对数据集进行数据数值化和数据归一化等本领域常规使用的数据预处理技术。通过对数据进行预处理,能够使得步骤S3和步骤S4中训练的模型更加健壮,并提高模型的泛化能力。具体的,可以采用独热编码将数据集转换为数值型数据,并进行归一化处理。
[0046] 实际上,为了有利于步骤S3和步骤S4中的模型收敛,并且提高数据集内样本数据的质量,可以预先对数据集内的样本数据进行增强处理。
[0047] 具体的,数据集内的样本数据信息包括有标签编码和IP地址数字化等信息,可以通过独热编码将非数字的特征信息转换为数值型的特征信息。例如,当数据集内的样本数据五元组为 时, 为样本数据中的源端口, 为样本数据中的目的端口, 为样本数据中的源IP地址, 为样本数据中的目的IP地址,为样本数据中的传输层协议;经过独热编码后的样本数据被转换为
,数据集 由m个数据单元组成。
[0048] 实际上,在执行步骤S1的过程中,还可以计算数据集内样本数据的平均值和方差,从而对数据集内的数据进行归一化处理,从而降低高量级样本数据对模型训练产生的影响,并可以将数据集区分为训练集和测试集,其中训练集可以用于在步骤S3和步骤S4中对模型进行训练。
[0049] 具体的,在执行步骤S1中计算样本数据的平均值和方差时,计算公式如下所示:
[0050] ,
[0051] ,
[0052] 其中, 表示第 个样本数据的第 个特征值,为样本数据特征的平均值,为样本数据的个数,为样本数据特征的方差。
[0053] 具体的,计算样本数据的平均值和方差后,再对样本数据进行标准化,其标准化的计算公式如下所示:
[0054] ,
[0055] 其中, 表示第 个样本数据的第 个标准化的特征值。
[0056] 实际上,参见图2,步骤S2中所构建自组织映射(Self‑Organizing Map,SOM)模型,是一种基于竞争性学习的神经网络模型,用于生成离散且低维的映射关系,它是通过学习输入数据来优化自身网络结构,与传统的神经网络不同,SOM模型不使用反向传播算法,而是利用竞争性学习策略来进行训练。SOM模型的二维映射保持了样本数据点之间的相对距离,以保持输入空间的拓扑结构,即可以将相邻的样本映射到相邻的输出单元。
[0057] SOM模型是由输入层和竞争层构成,输出层的神经元数量取决于输入的维度,通常一个特征由一个神经元表示。竞争层的神经元数量影响了模型整体的粒度和规模,对最终模型的准确性和泛化能力有很大影响。由于SOM模型具有强大的泛化能力,可以识别未曾见过的新输入样本。
[0058] 实际上,SOM模型能够对输入的数据集数据进行映射、编码和增强,通过编码和解码过程对数据集数据进行降维处理,并提取数据集数据的潜在特征值后输出为重构数据。
[0059] 具体的,SOM模型对输入的数据集进行数据编码,能够为每个数据字段定义具体的含义和取值范围,并与数据编码方式进行关联,可以确保数据在传输和解码过程中的一致性,将数据集中的原始数据按照所选的编码格式进行转换,根据数据的类型和编码格式,可以将数据进行二进制、十六进制或其他方式的编码转换,同时为了确保数据的完整性和准确性,可以在数据中添加校验信息,例如CRC校验码或者哈希值,将编码后的数据封装成数据包或帧,添加必要的标识符和头部信息后,以便于接收方能够正确解析和处理数据。
[0060] 具体的,SOM模型进行数据增强时,能够将来自不同终端和传感器的数据进行融合和整合,从而形成更全面和更综合的数据,再通过计算分析潜在特征值信息,完成样本数据的重构和增强,再通过计算样本数据的平均值和方差,从而得到样本数据对应的特征值,进而完成对样本数据的数据增强。
[0061] 一些实施例中,执行步骤S3中将预处理后的数据集输入到SOM模型内,SOM模型的输入层接收数据集所输入的样本数据向量后,与竞争层中所有的神经元权重进行相似性度量比较,以找出最相似的神经元作为获胜神经元。具体的,进行相似性度量比较时,可以通过比较计算两个不同向量之间的距离来比较相似性。
[0062] 一些实施例中,找出获胜神经元后,通过竞争学习的方式将获胜神经元的输出权重标记为1,并将剩下的神经元的输出权重标记为0,基于获胜神经元能够对其输出权重进行调整,且调整后神经元的输出权重如下公式所示:
[0063] ,
[0064] 其中, 表示输入SOM模型接收层的标准化特征向量值, 表示神经元的输出权重,学习率 取值为(0,1],t为训练时间,随着学习维度的增加而递减, 调整神经元的输出权重。
[0065] 具体的,SOM模型输入的预处理后的数据集进行数据增强的过程中,输入层中的标准化特征向量值 由 个数据单元组成,且可以表示为,经过SOM模型中一次编码和解码后,计算标准化特征
向量值 第一次编码和解码后输出数据的均值 和方差 ,形成正态分布,基于正态分布更新权重参数采用常用的3σ准则来确定更新阈值,当数据集数据在正态分布中的 区间内,则不进行更新,否则进行权重系数
以及均值和方差的更新。
[0066] 一些实施例中,所述自组织映射模型的参数更新包含正态分布权重系数、均值和方差的更新。
[0067] 实际上,所述自组织映射模型的参数更新过程就是SOM模型中的数据增强的过程。
[0068] 一些实施例中,执行步骤S4的过程中,将数据集输入训练好的自组织映射模型,输出潜在特征分布进行数据处理后得到重构数据,并输入对比学习模型过程中,要进行数据的降维处理。
[0069] 具体的,分析经过一次编码和解码后的潜在的特征值信息,潜在的特征值用如下公式所示:
[0070] ,
[0071] 其中, 为随机数, 和 是标准化特征向量值 经第一次编码和解码后输出数据的均值和方差, 为潜在特征值。
[0072] 对潜在特征值进行深度编码和深度解码的过程中,完成数据的降维处理,经过编码器进行深度编码和解码器进行深度解码的过程,可以以如下公式进行表示:
[0073] ,
[0074] 其中,表示潜在特征值经过编码器进行深度编码后获取的潜在特征分布,表示编码得到的潜在特征分布经过解码器进行深度解码后输出的重构数据,为激活函数,表示编码器的权重值矩阵, 表示解码器的权重值矩阵, 表示编码器的偏置向量, 表示解码器的偏置向量。具体的,激活函数 可以采用Sigmoid函数。
[0075] 一些实施例中,在将重构数据输入对比学习模型过程中,构建重构数据集,对比学习模型的训练采用小批量随机梯度下降(SGD)或其变种算法更新模型参数,从待训练的重构数据集中随机采样一批重构数据样本对,对于每个重构数据样本对中的重构数据,需从在训练过的重构数据集中选定对应的重构正样本和重构负样本,并通过InfoNCE损失函数来计算每个重构数据样本对中重构数据与其对应的重构正样本和重构负样本间的差距值,进而基于参数更新进行下一次随机采样重构数据样本对的迭代训练,直到所有待训练的重构数据都进行了训练;模型训练完成后,从训练好的对比学习模型中提取重构数据集的表示特征进行模型的优化。
[0076] 实际上,InfoNCE损失函数的定义是让每个重构数据样本对中的重构数据,在训练过的重构数据集中随机选择一个重构正样本和若干个重构负样本,并采用内积或余弦相似度计算该重构数据与重构正样本和所有重构负样本的相似性得分,将该重构数据与重构正样本的相似性得分除以该重构数据与所有训练过的重构数据集样本的相似性得分总和,得到归一化的相似性得分,使用softmax函数将归一化的相似性得分转换为概率分布,使用互信息来衡量重构正样本在概率分布下的不确定性,并对重构数据与重构正样本间的互信息和重构数据与所有重构负样本的互信息进行平均或求和。
[0077] 事实上,重构正样本是与重构数据样本中重构数据属于同一类别或具有相似特征的样本,而重构负样本则是与该重构数据属于不同类别或具有不同特征的样本。
[0078] 具体的,InfoNCE损失函数通过最大化不同相似重构数据生成的向量之间的互信息下界,使相似重构数据之间的表示更接近;通过InfoNCE损失函数计算差距值的过程可做以下描述:
[0079] 假设有待训练的重构数据样本对中的重构数据 ,训练过的包含1个重构正样本和n‑1个重构负样本的重构数据集 = ,重构数据集 由n个数据单元组成,选定重构正样本 ;则衡量重构正样本在概率分布下的不确定性互信息可以用如下公式表示:
[0080] ,
[0081] 其中, 可表示重构数据 与重构正样本 间的互信息, 表示重构数据 与重构正样本 间的联合分布, 与 分别表示重构数据 与正样本
的边缘分布;
[0082] 基于上式,对 进行最大化,可用余弦相似度进行量化,并用密度比进行表示,则重构数据 与重构正样本 间的互信息的密度比用如下式子表示:
[0083] ,
[0084] 其中 表示等比关系,表示密度比与重构数据 与重构正样本 间的互信息不直接等价,但在含义上是正相关的;为了保证 的归一性, 的定义可由log双线性模型计算公式表示如下:
[0085] ,
[0086] 其中, 为重构正样本 在特征提取后的向量空间 的表示, 为线性变换矩阵,可将 转换为 上的表示;
[0087] 基于上式,每个重构数据样本对中重构数据与其对应的重构正样本和重构负样本间的InfoNCE损失函数可用如下公式表示:
[0088] ,
[0089] 实际上,基于密度比 及重构正样本 在特征提取后的向量 ,可使自监督模型从高纬度空间进行建模;分布 与 无法直接获得,
仍可通过噪声对比估计,利用目标样本与随机负样本间的对比进行计算。
[0090] 一些进一步的实施例中,对模型进行训练的过程中,更新模型参数通过训练编码器对重构数据集进行学习,训练编码器的学习过程就是模型训练的过程当通过InfoNCE损失函数计算差距值时,需通过更新参数来进行迭代,使只有真正匹配的同一类别的重构数据更加具有相似性;所述对比学习模型的参数更新包含查询序列编码器和键值编码器的参数更新。
[0091] 具体的,计算差距值并进行参数更新的过程可以做如下描述:
[0092] 假设有待训练的重构数据q及训练过的重构数据集,重构数据集 由 个数据单元组成,且 可作为键值;编码器得到的查询序列可以被表示为 ,其中 表示查询序列的编码器;键值可以被表示为 ,其中 表
示键值的编码器, 表示用于生成键值的训练过的重构数据集中的重构数据样本;
[0093] 若训练过的重构数据集 中存在与q对应的特定键 ,特定键 为待编码的重构数据q选定的重构正样本,则可通过InfoNCE损失函数计算待编码的重构数据q和特定键的差异值,计算待编码的重构数据q和特定键 相似性高,表明待编码的重构数据q与重构正样本的相似度高,则计算得到的损失函数值较小,具体计算方式如下:
[0094] ,
[0095] 其中 为超参数,上述公式包含1个特定键 和K个重构负样本,特定键 为重构正样本,而 表示待编码的重构数据q与特定键 的相似性,即待编码的重构数据q与对应的重构正样本的相似性;而 表示待编码的重构数据q与整个训练过的重构数据集 的相似性。
[0096] 如此,基于计算差距值,可将相似重构数据在特定向量空间中的信息保留,进而提取相似重构数据共同具有的表示特征;
[0097] 而参数更新基于查询序列编码器 对 的参数对键值编码器进行更新,由于同一样本生成键值可能一致,该模型的动量更新通过以下公式实现:
[0098] ,
[0099] 其中 为键值编码器的参数, 为查询序列编码器的参数, 为超参数。
[0100] 实际上,由于只有 参与后向传播计算,因此键值编码器的更新变化幅度相对更小。
[0101] 事实上,在提取重构数据的表示特征的过程中,可以使用模型的中间层输出作为特征表示,也可以通过进一步的降维或聚类方法对特征进行处理。
[0102] 一些实施例中,在执行步骤S5的过程中,所述边缘层包括边缘设备、边缘节点和边缘服务器,考虑包括网络拓扑结构、通信协议和安全性因素。
[0103] 事实上,云层通过远程管理和自动化工具简化定期更新和维护边缘设备、边缘节点和所述训练好的自组织映射模型和对比学习模型所需的过程。
[0104] 进一步的,所述边缘层的检测处理过程中将检测处理应用划分为N个任务(记作N={1,2,3,…N}),这些任务需按顺序执行(即后序任务需前序任务的执行结果),移动用户可选择每个任务的执行方式,即本地执行或卸载到边缘计算服务器(如邻近设备或云服务器)处理;令M={0,1,...M}表示可供用户选择的任务执行方式集合(移动设备可选择将任务卸载给M个服务器),令 表示第i个任务的执行方式,若 ,第i个任务在设备本地执行;否则,该任务被卸载到第 个边缘计算服务器执行;考虑时延敏感应用,即应用对每个任务执行完成时间有需求,记作 ,其中 是第个任务的完成时间要求,任务迁移决策u需满足如下条件
[0105] ,
[0106] ,
[0107] 其中, 限制最后的第N个任务(如结果可视化)必须在设备本地执行。
[0108] 在移动边缘计算中,任务执行和卸载会带来相应开销和时延,令 表示第 个任务在 服务器执行,而第个任务在服务器执行的开销,可表示为:
[0109] ,
[0110] 其中, 表示将任务的输入数据从 服务器传输至 服务器的传输损耗,而 表示任务在设备 服务器执行的损耗;
[0111] 令 表示第 个任务在 服务器执行,而第个任务在 服务器执行的时延,可表示为:
[0112] ,
[0113] 其中, 表示将任务的输入数据从 服务器传输至服务器的时延,而 表示任务在设备 服务器执行的时延。
[0114] 一些实施例中,执行实时检测处理时,包括:
[0115] 判断所述边缘层与所述待检测样本数据的匹配度;
[0116] 当所述边缘层与所述待检测样本数据匹配时,将所述待检测样本数据输入训练好的对比学习模型,输出异常检测结果并上传至所述云层进行存储及反馈至终端设备;
[0117] 否则,所述云层对所述待检测样本数据进行异常检测,输出异常检测结果并存储后反馈至终端设备。
[0118] 一些进一步的实施例中,执行判断边缘层与待检测样本数据的匹配度的过程中,包括:
[0119] 当所述待检测样本数据的计算任务小于或等于所述边缘层的计算容量时,则输出匹配结果,否则输出不匹配结果。
[0120] 一些进一步的实施例中,执行判断边缘层与待检测样本数据的匹配度的过程中,包括:
[0121] 计算基于所述边缘层处理所述待检测样本数据的运行时间,当所述运行时间小于或等于阈值时间时,输出匹配结果,否则输出不匹配结果。
[0122] 进一步的,当所述边缘层与所述待检测样本数据匹配后,将所述待检测样本数据与存储在所述云层的样本数据进行匹配,当匹配时,调用存储在所述云层的异常检测结果并反馈至终端设备;否则,将所述待检测样本数据输入训练好的对比学习模型。
[0123] 一些实施例中,所述异常检测结果包括表示行为正常的正样本结果和表示行为异常的负样本结果。
[0124] 参见图3,本发明提供了一种电力物联网终端行为异常检测方法,总体流程为将数据集数据进行预处理,输入到自组织映射模型中,计算出经一次编码和解码后的均值和方差,一方面进行潜在特征值的编码输出潜在特征分布,另一方面,将均值和方差形成正态分布,经过鉴别器的鉴别,对权重系数进行更新减少,并对调整权重后的均值和方差进行更新;输出的潜在特征分布经解码器解码后输出重构数据,重构数据经对比学习模型中进行训练和优化,再将训练好的自组织映射模型和对比学习模型下发至边缘层,待检测样本数据上传至边缘层和云层,进行实时异常检测,输出异常检测结果。
[0125] 如图4所示,本发明提供了一种电力物联网终端行为异常检测系统,包括:
[0126] 数据预处理层,用于对数据集进行预处理;
[0127] 构建模型层,用于构建自组织映射模型和对比学习模型;
[0128] 自组织映射训练层,用于将预处理后的数据集数据输入所述自组织映射模型,基于使自组织映射模型的输出匹配对比学习模型更新自组织映射模型的参数,得到训练好的自组织映射模型;
[0129] 对比学习训练层,用于将预处理后的数据集输入训练好的自组织映射模型,输出潜在特征分布进行数据处理后得到重构数据,并输入对比学习模型,基于增强重构数据的正负样本均衡性更新对比学习模型的参数,得到训练好的对比学习模型;
[0130] 异常检测层,用于将所述训练好的自组织映射模型和所述训练好的对比学习模型下发到边缘层,采集待检测样本数据并上传到所述边缘层和云层进行实时检测处理,输出异常检测结果。
[0131] 虽然在上文中详细说明了本发明的实施方式,但是对于本领域的技术人员来说显而易见的是,能够对这些实施方式进行各种修改和变化。但是,应理解,这种修改和变化都属于权利要求书中所述的本发明的范围和精神之内。而且,在此说明的本发明可有其它的实施方式,并且可通过多种方式实施或实现。