行为特征提取方法以及行为特征提取装置转让专利
申请号 : CN202111212723.4
文献号 : CN113656797B
文献日 : 2021-12-21
发明人 : 经小川 , 杜婉茹 , 刘萱 , 王潇茵 , 李瑞群
申请人 : 航天宏康智能科技(北京)有限公司
摘要 :
权利要求 :
1.一种行为特征提取方法,其特征在于,包括:获取内网机的行为日志数据;
对所述内网机的行为日志数据进行异构图数据结构处理,获得目标异构图,所述目标异构图包含多个节点,所述多个节点中每个节点对应有原始特征,所述多个节点中不同类型的节点之间形成第一元路径;
基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集,其中,所述第一节点特征集包含所述多个节点中每个节点对应的原始特征,所述第一元路径集包含多个所述第一元路径,所述第一元路径特定节点特征集包含所述多个节点中每个节点对应的第一特定特征;
将所述第一元路径特定节点特征集输入第一注意力模块,获得所述目标异构图的第一节点表示;
将所述目标异构图的第一节点表示输入全局表示编码器,获得全局摘要向量;
将所述第一节点特征集以及所述第一元路径集输入负样本生成器,获得第二节点特征集以及第二元路径集;
基于所述第二节点特征集以及所述第二元路径集获取第二元路径特定节点特征集,其中,所述第二元路径特定节点特征集包含所述多个节点中每个节点对应的第二特定特征;
将所述第二元路径特定节点特征集输入第二注意力模块,获得所述目标异构图的第二节点表示;
利用第一训练鉴别器最大化所述目标异构图的第一节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第一互信息;
利用第二训练鉴别器最大化所述目标异构图的第二节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第二互信息;
将所述第一互信息输入正样本鉴别器,并将所述第二互信息输入负样本鉴别器,获得所述内网机的行为日志数据对应的人员行为特征。
2.如权利要求1所述的方法,其特征在于,所述基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集,包括:通过以下公式获取所述第一元路径特定节点特征集:其中, 为所述第一元路径特定节点特征集中的第i个节点对应的第一特定特征,为第一节点级的编码器,为所述第一节点特征集中第i个节点的原始特征, 为所述第一元路径集中第i个第一元路径对应的邻接矩阵, ,n为所述多个节点的数量。
3.如权利要求2所述的方法,其特征在于,所述将所述第一元路径特定节点特征集输入第一注意力模块,获得所述目标异构图的第一节点表示,包括:通过以下公式确定所述多个节点中每个节点对应的权重:其中, 为所述多个节点中第i个节点对应的权重, 为所述第一注意力模块;
基于所述每个节点对应的权重以及所述第一元路径特定节点特征集,获取所述目标异构图的第一节点表示。
4.如权利要求3所述的方法,其特征在于,所述基于所述每个节点对应的权重以及所述第一元路径特定节点特征集,获取所述目标异构图的第一节点表示,包括:通过以下公式获取所述目标异构图的第一节点表示:其中,为所述目标异构图的第一节点表示。
5.如权利要求1所述的方法,其特征在于,所述基于所述第二节点特征集以及所述第二元路径集获取第二元路径特定节点特征集,包括:通过以下公式获取所述第二元路径特定节点特征集:其中, 为所述第二元路径特定节点特征集中的第i个节点对应的第二特定特征,为第二节点级的编码器, 为所述第二节点特征集中第i个节点的原始特征, 为所述第二元路径集中第i个第二元路径对应的邻接矩阵, ,n为所述多个节点的数量。
6.如权利要求5所述的方法,其特征在于,所述将所述第二元路径特定节点特征集输入第二注意力模块,获得所述目标异构图的第二节点表示,包括:通过以下公式确定所述多个节点中每个节点对应的权重:其中, 为所述多个节点中第i个节点对应的权重, 为所述第二注意力模块;
基于所述每个节点对应的权重以及所述第二元路径特定节点特征集,获取所述目标异构图的第二节点表示。
7.如权利要求6所述的方法,其特征在于,所述基于所述每个节点对应的权重以及所述第二元路径特定节点特征集,获取所述目标异构图的第二节点表示,包括:通过以下公式获取所述目标异构图的第二节点表示:其中, 为所述目标异构图的第二节点表示。
8.一种行为特征提取装置,其特征在于,包括:第一获取模块,被配置为获取内网机的行为日志数据;
处理模块,被配置为对所述内网机的行为日志数据进行异构图数据结构处理,获得目标异构图,所述目标异构图包含多个节点,所述多个节点中每个节点对应有原始特征,所述多个节点中不同类型的节点之间形成第一元路径;
第二获取模块,被配置为基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集,其中,所述第一节点特征集包含所述多个节点中每个节点对应的原始特征,所述第一元路径集包含多个所述第一元路径,所述第一元路径特定节点特征集包含所述多个节点中每个节点对应的第一特定特征;
第一输入模块,被配置为将所述第一元路径特定节点特征集输入第一注意力模块,获得所述目标异构图的第一节点表示;
第二输入模块,被配置为将所述目标异构图的第一节点表示输入全局表示编码器,获得全局摘要向量;
第三输入模块,被配置为将所述第一节点特征集以及所述第一元路径集输入负样本生成器,获得第二节点特征集以及第二元路径集;
第三获取模块,被配置为基于所述第二节点特征集以及所述第二元路径集获取第二元路径特定节点特征集,其中,所述第二元路径特定节点特征集包含所述多个节点中每个节点对应的第二特定特征;
第四输入模块,被配置为将所述第二元路径特定节点特征集输入第二注意力模块,获得所述目标异构图的第二节点表示;
第一最大化模块,被配置为利用第一训练鉴别器最大化所述目标异构图的第一节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第一互信息;
第二最大化模块,被配置为利用第二训练鉴别器最大化所述目标异构图的第二节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第二互信息;
第五输入模块,被配置为将所述第一互信息输入正样本鉴别器,并将所述第二互信息输入负样本鉴别器,获得所述内网机的行为日志数据对应的人员行为特征。
9.如权利要求8所述的行为特征提取装置,其特征在于,所述第二获取模块被配置为:通过以下公式获取所述第一元路径特定节点特征集:其中, 为所述第一元路径特定节点特征集中的第i个节点对应的第一特定特征,为第一节点级的编码器,为所述第一节点特征集中第i个节点的原始特征, 为所述第一元路径集中第i个第一元路径对应的邻接矩阵, ,n为所述多个节点的数量。
10.如权利要求9所述的行为特征提取装置,其特征在于,所述第一输入模块被配置为:通过以下公式确定所述多个节点中每个节点对应的权重:其中, 为所述多个节点中第i个节点对应的权重, 为所述第一注意力模块;
基于所述每个节点对应的权重以及所述第一元路径特定节点特征集,获取所述目标异构图的第一节点表示。
11.如权利要求10所述的行为特征提取装置,其特征在于,所述第一输入模块被配置为:
通过以下公式获取所述目标异构图的第一节点表示:其中, 为所述目标异构图的第一节点表示。
12.如权利要求8所述的行为特征提取装置,其特征在于,所述第三获取模块被配置为:通过以下公式获取所述第二元路径特定节点特征集:其中, 为所述第二元路径特定节点特征集中的第i个节点对应的第二特定特征,为第二节点级的编码器,为所述第二节点特征集中第i个节点的原始特征, 为所述第二元路径集中第i个第二元路径对应的邻接矩阵, ,n为所述多个节点的数量。
13.如权利要求12所述的行为特征提取装置,其特征在于,所述第四输入模块被配置为:
通过以下公式确定所述多个节点中每个节点对应的权重:其中, 为所述多个节点中第i个节点对应的权重, 为所述第二注意力模块;
基于所述每个节点对应的权重以及所述第二元路径特定节点特征集,获取所述目标异构图的第二节点表示。
14.如权利要求13所述的行为特征提取装置,其特征在于,所述第四输入模块被配置为:
通过以下公式获取所述目标异构图的第二节点表示:其中, 为所述目标异构图的第二节点表示。
15.一种电子设备,其特征在于,包括:处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的行为特征提取方法。
16.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的行为特征提取方法。
说明书 :
行为特征提取方法以及行为特征提取装置
技术领域
背景技术
机的行为日志数据,可以使用图神经网络对这种非欧几里得数据进行特征挖掘,用来分析
内网机操作人员的异常操作,能够在一定程度上降低内部信息泄漏的风险。
神经网络多为同构图神经网络,无法有效的利用不同节点间的属性信息以及不同节点通过
连接所传递出的语义信息,导致提取出的人员行为特征与实际人员行为特征偏差较大。
发明内容
图神经网络,无法有效的利用不同节点间的属性信息以及不同节点通过连接所传递出的语
义信息,导致提取出的人员行为特征与实际人员行为特征偏差较大的技术问题。
所述目标异构图包含多个节点,所述多个节点中每个节点对应有原始特征,所述多个节点
中不同类型的节点之间形成第一元路径;基于第一节点特征集和第一元路径集获取第一元
路径特定节点特征集,其中,所述第一节点特征集包含所述多个节点中每个节点对应的原
始特征,所述第一元路径集包含多个所述第一元路径,所述第一元路径特定节点特征集包
含所述多个节点中每个节点对应的第一特定特征;将所述第一元路径特定节点特征集输入
第一注意力模块,获得所述目标异构图的第一节点表示;将所述目标异构图的第一节点表
示输入全局表示编码器,获得全局摘要向量;将所述第一节点特征集以及所述第一元路径
集输入负样本生成器,获得第二节点特征集以及第二元路径集;基于所述第二节点特征集
以及所述第二元路径集获取第二元路径特定节点特征集,其中,所述第二元路径特定节点
特征集包含所述多个节点中每个节点对应的第二特定特征;将所述第二元路径特定节点特
征集输入第二注意力模块,获得所述目标异构图的第二节点表示;利用第一训练鉴别器最
大化所述目标异构图的第一节点表示以及所述全局摘要向量之间的互信息,获得最大化处
理后的第一互信息;利用第二训练鉴别器最大化所述目标异构图的第二节点表示以及所述
全局摘要向量之间的互信息,获得最大化处理后的第二互信息;将所述第一互信息输入正
样本鉴别器,并将所述第二互信息输入负样本鉴别器,获得所述内网机的行为日志数据对
应的人员行为特征。
述第一元路径集中第i个第一元路径对应的邻接矩阵, ,n为所述多个节点的数量。
所述第二元路径集中第i个第二元路径对应的邻接矩阵, ,n为所述多个节点的数
量。
据进行异构图数据结构处理,获得目标异构图,所述目标异构图包含多个节点,所述多个节
点中每个节点对应有原始特征,所述多个节点中不同类型的节点之间形成第一元路径;第
二获取模块,被配置为基于第一节点特征集和第一元路径集获取第一元路径特定节点特征
集,其中,所述第一节点特征集包含所述多个节点中每个节点对应的原始特征,所述第一元
路径集包含多个所述第一元路径,所述第一元路径特定节点特征集包含所述多个节点中每
个节点对应的第一特定特征;第一输入模块,被配置为将所述第一元路径特定节点特征集
输入第一注意力模块,获得所述目标异构图的第一节点表示;第二输入模块,被配置为将所
述目标异构图的第一节点表示输入全局表示编码器,获得全局摘要向量;第三输入模块,被
配置为将所述第一节点特征集以及所述第一元路径集输入负样本生成器,获得第二节点特
征集以及第二元路径集;第三获取模块,被配置为基于所述第二节点特征集以及所述第二
元路径集获取第二元路径特定节点特征集,其中,所述第二元路径特定节点特征集包含所
述多个节点中每个节点对应的第二特定特征;第四输入模块,被配置为将所述第二元路径
特定节点特征集输入第二注意力模块,获得所述目标异构图的第二节点表示;第一最大化
模块,被配置为利用第一训练鉴别器最大化所述目标异构图的第一节点表示以及所述全局
摘要向量之间的互信息,获得最大化处理后的第一互信息;第二最大化模块,被配置为利用
第二训练鉴别器最大化所述目标异构图的第二节点表示以及所述全局摘要向量之间的互
信息,获得最大化处理后的第二互信息;第五输入模块,被配置为将所述第一互信息输入正
样本鉴别器,并将所述第二互信息输入负样本鉴别器,获得所述内网机的行为日志数据对
应的人员行为特征。
述第一元路径集中第i个第一元路径对应的邻接矩阵, ,n为所述多个节点的数
量。
所述第二元路径集中第i个第二元路径对应的邻接矩阵, ,n为所述多个节点的
数量。
的行为特征提取方法。
为特征提取方法。
实际人员行为特征偏差较小。并且,利用负样本生成器进行样本加强,可以获得足量的正样
本和负样本。
附图说明
具体实施方式
的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的
所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致
的装置和方法的例子。
情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;
(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情
况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
标签。与卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent
Neural Network,RNN)必须要使用欧几里得结构的数据进行训练不同,GNN是为了处理非欧
几里得数据而产生的神经网络模型。例如,存在于生物化学、图像处理、推荐系统和社会网
络分析等多个领域中的数据大多可以以图数据结构进行存放构建,因此在这些领域中GNN
的应用研究日益广泛。近年来,关于图神经网络在生物化学、计算机视觉、推荐系统、组合优
化、流量优化、归纳逻辑和程序验证等领域的应用已经出现。图神经网络解决的主要任务可
概括为节点(图)分类、节点(图)回归、链路预测、节点聚类、图划分和图形可视化。
日志,使用图神经网络对这种非欧几里得数据进行特征挖掘,用来分析内网机操作人员的
异常操作,能够在一定程度上降低内部信息泄漏的风险。现有算法通过内网机日志数据对
人员行为进行特征提取时,存在以下不足:
义信息,导致提取出的人员行为特征与实际人员行为特征偏差较大;目前应用广泛的图神
经网络通常以递归邻域聚合的方式来学习节点的特征向量,因而需要依赖大量有标签的训
练样本进行学习。然而实际获取到的内网机日志数据样本,因数据多样性与离散性的特征,
针对足量正负标签的获取存在很大困难。
术问题,本公开提出的行为特征提取方法对内网机的行为日志数据进行异构图数据结构处
理,可以有效的利用不同节点间的属性信息以及不同节点通过连接所传递出的语义信息,
可以使提取出的人员行为特征与实际人员行为特征偏差较小。
取方法利用负样本生成器进行样本加强,可以获得足量的正样本和负样本。
下信息:节点与数据中对象之间的映射函数 ,边与对象之间关系的映射函
数 。
不同类型的节点之间形成第一元路径。图2是示出根据本公开的示例性实施例的行为特征
提取的示意图。在图2中,左边的虚线框表示图数据局部信息表示编码器,右边的虚线框表
示图数据全局信息表示编码器。其中,图数据局部信息表示编码器主要是将图神经网络的
节点特征和元路径的邻接矩阵作为同构图进行分别的编码表示,再使用注意力机制得到节
点之间的相互影响力权重,通过聚合得到节点的最终特征表示。
集可以包含多个第一元路径,第一元路径特定节点特征集可以包含多个节点中每个节点对
应的第一特定特征。
径集中第i个第一元路径对应的邻接矩阵, ,n为多个节点的数量。即可以先根据
第一元路径集对节点对象的属性进行编码,得到基于第一元路径集的邻接矩阵。然后,可以
根据第一节点特征集以及第一元路径集的邻接矩阵经过映射编码得到第一元路径特定节
点特征集。
特定节点属性特征的影响,可以将第一元路径特定节点特征集输入语义级的注意力神经网
络,来探索每个节点的元路径特征对最终表示的贡献。
局信息进行挖掘,通过全局表示编码器对全局信息取一个摘要式的向量,以此完成局部表
示和全局表示之间的互信息。全局表示编码器的作用是从各个节点的局部信息中,将异构
图数据的全局信息进行一个摘要式的向量表示,从而能够帮助模型通过最大化局部表示和
全局表示之间的互信息来进行反向学习。在这里全局表示编码器选择基于长短时记忆
(Long Short Term Memory,LSTM)架构的Set2vec编码函数,从各个节点特征中获取完整的
综合信息,即总结每个节点的综合信息,来得到图数据的总体信息向量表示。
征。
路径集中第i个第二元路径对应的邻接矩阵, ,n为多个节点的数量。
的邻接矩阵存储的,负样本生成器在保持所有节点不变的基础上,对特征矩阵进行重组,改
变节点索引,对链接结构进行更新,生成异构图中不存在的样本作为负样本。即可以利用负
样本生成器进行样本加强,可以获得足量的正样本和负样本。
点表示。
器最大化正负节点和全局摘要向量之间的互信息,以互信息最大化为目标通过反向传播完
成模型对无监督的样本的学习。
四输入模块308、第一最大化模块309、第二最大化模块3010和第五输入模块3011。
不同类型的节点之间形成第一元路径。图2是示出根据本公开的示例性实施例的特征提取
的示意图。在图2中,左边的虚线框表示图数据局部信息表示编码器,右边的虚线框表示图
数据全局信息表示编码器。其中,图数据局部信息表示编码器主要是将图神经网络的节点
特征和元路径的邻接矩阵作为同构图进行分别的编码表示,再使用注意力机制得到节点之
间的相互影响力权重,通过聚合得到节点的最终特征表示。
路径集可以包含多个第一元路径,第一元路径特定节点特征集可以包含多个节点中每个节
点对应的第一特定特征。
径集中第i个第一元路径对应的邻接矩阵, ,n为多个节点的数量。即可以先根据
第一元路径集对节点对象的属性进行编码,得到基于第一元路径集的邻接矩阵。然后,可以
根据第一节点特征集以及第一元路径集的邻接矩阵经过映射编码得到第一元路径特定节
点特征集。
属性对特定节点属性特征的影响,可以将第一元路径特定节点特征集输入语义级的注意力
神经网络,来探索每个节点的元路径特征对最终表示的贡献。
据的全局信息进行挖掘,通过全局表示编码器对全局信息取一个摘要式的向量,以此完成
局部表示和全局表示之间的互信息。全局表示编码器的作用是从各个节点的局部信息中,
将异构图数据的全局信息进行一个摘要式的向量表示,从而能够帮助模型通过最大化局部
表示和全局表示之间的互信息来进行反向学习。在这里全局表示编码器选择基于LSTM架构
的Set2vec编码函数,从各个节点特征中获取完整的综合信息,即总结每个节点的综合信
息,来得到图数据的总体信息向量表示。
定特征。
路径集中第i个第二元路径对应的邻接矩阵, ,n为多个节点的数量。
元路径的邻接矩阵存储的,负样本生成器在保持所有节点不变的基础上,对特征矩阵进行
重组,改变节点索引,对链接结构进行更新,生成异构图中不存在的样本作为负样本。即可
以利用负样本生成器进行样本加强,可以获得足量的正样本和负样本。
表示。
鉴别器最大化正负节点和全局摘要向量之间的互信息,以互信息最大化为目标通过反向传
播完成模型对无监督的样本的学习。
例性实施例的行为特征提取方法。
任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备400还可
以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线
传输)以接口互联的便携式电子设备。
拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
采用任何已知的传输协议。
系统可使用的其他存储装置。存储器401和处理器402可在操作上进行耦合,或者可例如通
过I/O端口、网络连接等互相通信,使得处理器402能够读取存储在存储器中的文件。
接。
方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存
储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取
存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD‑ROM、CD‑R、CD+R、
CD‑RW、CD+RW、DVD‑ROM、DVD‑R、DVD+R、DVD‑RW、DVD+RW、DVD‑RAM、BD‑ROM、BD‑R、BD‑R LTH、
BD‑RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体
卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装
置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算
机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联
的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算
机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务
器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的
数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联
的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和
执行。
接所传递出的语义信息,可以使提取出的人员行为特征与实际人员行为特征偏差较小。并
且,利用负样本生成器进行样本加强,可以获得足量的正样本和负样本。
者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识
或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的
权利要求指出。