一种网络安全应急响应知识图谱实体对齐方法转让专利

申请号 : CN202210184898.7

文献号 : CN114254131B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 车洵孙捷梁小川胡牧金奎徐达刘志顺

申请人 : 南京众智维信息科技有限公司

摘要 :

本发明公开了一种网络安全应急响应知识图谱实体对齐方法,包括:将知识图谱输入到基于PARIS模型的PR模块进行计算,输出安全事件实体映射集及其相对应的等价概率;在得到的安全事件实体映射集中选择与之相对应的等价概率高的安全事件实体映射作为对齐种子,输入基于嵌入的MultiKE模型的SE模块进行训练;输出安全事件实体嵌入以及通过邻近检索算法得到的安全事件实体映射集及其相对应的每个映射的相似度得分;将获得的作为输入进行下一轮计算;经过K次迭代,PR模块输出安全事件实体映射集;本方案能将多个不同的网络安全应急响应知识图谱融合成一个知识更全面,正确性更高的知识图谱过程中。

权利要求 :

1.一种网络安全应急响应知识图谱实体对齐方法,其特征在于,包括以下步骤:S1:将知识图谱输入到基于PARIS模型的PR模块进行计算,输出安全事件实体映射集及其相对应的等价概率;

S2:在S1得到的安全事件实体映射集中选择与之相对应的等价概率高的安全事件实体映射作为对齐种子,输入基于嵌入的MultiKE模型的SE模块进行训练;

S3:训练完成后,SE模块在尚未被PR模块对齐的安全事件实体集上进行测试,输出安全事件实体嵌入以及通过邻近检索算法得到的安全事件实体映射集及其相对应的每个映射的相似度得分;

S4:将S3获得的安全事件实体映射集和安全事件实体嵌入作为输入反馈给PR模块进行下一轮计算;

S5:经过K次迭代,PR模块输出最终的安全事件实体映射集;

步骤S1:将知识图谱输入到基于PARIS模型的PR模块进行计算,输出安全事件实体映射集及其相对应的等价概率包括以下步骤:S101:将两个网络安全知识图谱G和G’输入;

S102:在PR模块进行初始化,k=0时,将知识图谱的关系三元组以函数的形式表达,PR模块计算每个关系函数作为函数的严谨性,其公式为:‑1

其中F(r)表示将关系r作为函数,即头实体指向唯一尾实体的严谨性的计算,F (r)表示将r的逆关系作为函数,即尾实体指向唯一头实体的严谨性的计算,|{(h,t)|(h,r,t)∈T+ +}|表示关系三元组与属性三元组的集合中具有r关系的实体对个数,|{h|(h,r,t)∈T}|表+示集合中具有r关系的头实体个数,|{t|(h,r,t)∈T }|表示集合中具有r关系的尾实体个数;

S103:PR模块交替计算知识图谱中安全事件实体等价概率和关系之间的包容关系概率,两个实体h和h’之间等价的概率记为P(h≡h′),由以下公式进行计算:S104:r是r’的一个子关系的概率记为 并初始化为0.1,其计算公式为:S105:PR模块通过自迭代进行优化直至收敛;

S106:生成由PR模块得到的安全事件实体映射集合 和未对齐的安全事件实体集步骤S2:在S1得到的安全事件实体映射集中选择与之相对应的等价概率高的安全事件实体映射作为对齐种子,输入基于嵌入的MultiKE模型的SE模块进行训练包括以下步骤:S201:进行K次循环迭代;

S202:在第一次迭代中,k=1,通过设置阈值δ2,从上一次迭代中PR模块输出的安全事件实体映射集合 选出该集合中实体等价概率 的映射作为对齐种子,记为Sk,其中δ2∈[0,1);

S203:将对齐种子Sk作为SE模块的输入进行训练;

S204:使用TransE模型,通过收敛以下的损失函数来学习对齐种子中实体与关系之间的向量表示,其损失函数的公式为:其中||·||表示欧几里德范数运算,中间的h,r,t分别表示h,r,t的m维嵌入;

S205:用以下分数函数来测量关系事实h,r,t的关系嵌入的合理性:frel(h,r,t)=||h+r‑t||

其中frel(·)表示在关系视图下测量关系事实h,r,t嵌入的合理性的分数函数;

S206:计算对齐种子中关系事实h,r,t真实存在的概率,公式为:(1)

Prel(ζ(h,r,t)=1|Θ )=sigmid(frel(h,r,t))(1)

其中Θ 指关系视图中的嵌入,ζ(h,r,t)=1表示(h,r,t)真实存在的标签;

(1)

S207:通过收敛以下的损失函数来学习关系视图中的嵌入Θ :+ ‑

其中χ为对齐种子中的真实关系事实集,而x表示通过将真实关系的头实体或者尾实(1)体替换为随机实体后进行采样的伪造事实集,Θ 指关系视图中的嵌入, 表示关系视图的逻辑损失函数,frel(·)表示在关系视图下测量关系事实h,r,t嵌入的合理性的分数函数,ζ(h,r,t)表示(h,r,t)的标签;

S208:将属性嵌入及对应的属性值拼接成矩阵,送至卷积核为2xc的CNN进行计算,以得到其压缩表示,并将得到的特征张量重塑为一个向量形式送入参数为W的全连接层,该过程用以下公式表示:CNN()=σ(vec(σ(*Ω)))其中CNN(·)表示卷积操作以得到属性嵌入及对应的属性值拼接成的矩阵的压缩表示,即为属性嵌入a与其对应的属性值拼接而成的矩阵,vec(·)将特征映射张量重塑为向量,Ω是一个2xc的卷积核,σ(·)是一个激活函数;

S209:用以下分数函数来测量属性事实h,a,v的嵌入合理性:fattr(h,r,t(=)=‑||h‑CNN()||其中fattr(·)表示在属性视图下测量属性事实h,a,v嵌入的合理性的分数函数;

(2)

S210:通过收敛以下的损失函数来学习属性视图中的嵌入Θ :(2)

其中Θ 指属性视图中的嵌入, 表示属性视图的逻辑损失函数,fattr(·)表示+在属性视图下测量属性事实h,a,v嵌入的合理性的分数函数,γ为对齐种子中的真实属性事实集;

S211:进行SE模块的第一次自迭代优化;

S212:采用组合嵌入策略,该组合参与了多视图嵌入的联合训练,能统一嵌入空间中的组合嵌入和视图特定嵌入之间的一致性,其损失函数如下:其中 表示多视图嵌入的联合训练的损失函数, 为对齐种子中所有安全(i)

事件实体组合嵌入矩阵,每一行代表一个安全事件实体,H 为第i个视图的安全事件实体嵌入矩阵,||·||F表示F范数;

S213:在关系视图进行对齐种子中安全事件的实体同一性推理以获得对齐信息,其损失函数如下所示:(1)

其中Θ 指关系视图中的嵌入, 表示关系视图下进行对齐种子中安全事件的实体同一性推理以获得对齐信息的损失函数,frel(·)表示在关系视图下测量关系事实h,r,t的关系嵌入的合理性的分数函数,h,是来自不同的知识图谱的头实体且存在于对齐种子中,t,是来自不同的知识图谱的尾实体且存在于对齐种子中,χ′和χ″分别指头实体和尾实体位于对齐种子中的关系事实集;

S214:在属性视图进行对齐种子中安全事件的实体同一性推理,其损失函数如下所示:(2)

其中Θ 表示属性视图中的嵌入, 表示属性视图下进行对齐种子中安全事件的实体同一性推理以获得对齐信息的损失函数,fattr(·)表示在属性视图下测量属性事实 a,v嵌入的合理性的分数函数,γ′表示属性事实的集合,表示头实体处于对齐种子中;

S215:在关系视图下进行对齐种子中安全事件的关系同一性推理,使用软对齐方法,在训练中自动找到关系和属性对齐,用以下公式进行表示:其中Srel表示软关系对齐,即:不要求对齐中的关系严格等效,r,是来自不同的知识图谱的关系, 表示它们的相似性,η表示阈值并且η∈(0,1];

S216:考虑到基于文本嵌入的名称相似度和基于关系嵌入的语义相似度,将它们合并为加权和:其中 表示关系r,的相似性,name(r)表示关系r的文本信息,φ(·)表示关系r的文本嵌入,α1,α2>0是两个权重因子,α1+α2=1,cos(·)是计算两个嵌入的余弦相似性函数;

S217:将这种相似性视为平滑系数,以减少不准确对齐的负面影响,并将其合并到交叉关系身份推断的损失中:(1)

其中Θ 指关系视图中的嵌入, 表示在关系视图下跨知识图谱关系同一性推理的损失函数, 表示关系r,的相似性,frel(·)表示在关系视图下测量关系事实h,r,t嵌入的合理性的分数函数,χ″′表示在Srel中存在关系的关系事实集,Srel表示软关系对齐,即不要求对齐中的关系严格等效;

S218:在属性视图中进行属性同一性推理,根据其软属性对齐和属性相似度计算损失函数:(2)

其中Θ 指属性视图中的嵌入, 表示在属性视图下跨知识图谱属性同一性推理的损失函数, 表示属性a,的相似性,fattr(·)表示在属性视图下测量属(4)性事实h,a,v嵌入的合理性的分数函数,χ 表示在Sattr中存在属性关系的属性事实集,Sattr表示软属性对齐,即:不要求对齐中的属性严格等效;

S219:经过k次自迭代后,SE模块训练完成。

2.根据权利要求1所述的网络安全应急响应知识图谱实体对齐方法,其特征在于,步骤S3:训练完成后,SE模块在尚未被PR模块对齐的安全事件实体集上进行测试,输出安全事件实体嵌入以及通过邻近检索算法得到的安全事件实体映射集及其相对应的每个映射的相似度得分包括以下步骤:S301:以上一轮迭代后PR模块输出的未对齐的安全事件实体集合 作为测试数据,在SE模块上进行测试,用近邻检索算法计算相似性得分,记为Sk+1(e≡e′);

S302:生成由SE模块得到的安全事件实体映射集合 和安全事件实体嵌入

3.根据权利要求2所述的网络安全应急响应知识图谱实体对齐方法,其特征在于,步骤S4:将S3获得的安全事件实体映射集和安全事件实体嵌入作为输入反馈给PR模块进行下一轮计算包括以下步骤:S401:对PR模块进行初始化,PR模块利用上一轮迭代中PR模块的输出 和SE模块的输出 吸收安全事件实体嵌入带来的增益效果,并推理扩展安全事件实体映射集,该初始化方案如下所示:i o

其中P和P分别指PR模块的输入和输出映射概率,α1,α2∈(0,1]是两个超参数,δ1∈[0,

1);

S402:使用修正估计方案来使得PR模块在自迭代过程中,充分利用安全事件实体嵌入中包含的语义和结构信息,来更新两个实体之间等价的概率,修正估计由下式给出:其中e和e′分别代表了安全事件实体e和e′的嵌入,sim(·,·)是一个相似函数,β∈(0,1)是一个折衷超参数,用来平衡嵌入相似性和由步骤S103估计的概率;

S403:使用步骤S104的公式来计算r是r’的一个子关系的概率S405:生成由PR模块得到的安全事件实体映射集合 和未对齐的安全事件实体集S406:循环迭代K次。

4.根据权利要求3所述的网络安全应急响应知识图谱实体对齐方法,其特征在于,步骤S5:经过K次迭代,PR模块输出最终的安全事件实体映射集包括以下步骤:S501:PR模块输出第K次迭代后的安全事件实体映射集合 和未对齐的安全事件实体集S502:设置阈值δf∈[0,1),选择安全事件实体映射集合中等价概率的映射作为最终的输出结果

说明书 :

一种网络安全应急响应知识图谱实体对齐方法

技术领域

[0001] 本发明涉及网络安全知识图谱领域,特别涉及一种网络安全应急响应知识图谱实体对齐方法。

背景技术

[0002] 近年来网络威胁问题日益频繁,新一代网络威胁由于其传播速度快,覆盖面积广,潜伏时间长等特点,使得网络安全应急团队的工作人员面临巨大的挑战。一次常规的事件响应往往涉及多个系统或程序,面对每天成百上千的网络攻击,需要进行大量重复的人工操作,响应效率低下。为此提出了一种新型的安全应急技术SOAR,以网络安全应急响应知识图谱为基础,根据不同的威胁场景,自动编排生成剧本以阻止攻击行为,大幅节约了响应时间,降低了人员依赖,提高了工作效率。
[0003] 作为SOAR制定、编排剧本的基础,网络安全应急响应知识图谱的构建至关重要。由于单一的网络安全应急响应知识图谱覆盖率低,泛化能力差,无法高效服务于后续对相应安全事件的深度分析,生成准确有效的剧本,实现快速高效的应急响应。由此提出可以通过知识图谱实体对齐技术将多个网络安全应急响应知识图谱融合为一个知识更综合全面,正确性更高的知识图谱,为提高网络安全突发事件的应对能力,减少由于网络安全事件造成的损失和危害,奠定了夯实基础。
[0004] 知识图谱实体对齐可以分为两种类型,第一种是基于嵌入的模型,另一种是传统的基于推理和词汇匹配的模型。具体而言,前者将知识图谱中的关系三元组,属性三元组等特征以稠密低维的向量形式编码至同一个向量空间,通过计算向量距离或者相似度对实体映射进行预测。后者则利用传统技术如逻辑推理,词汇和图形匹配进行实体对齐。
[0005] 虽然基于嵌入的模型在对实体映射的预测上表现得十分出色,但是此类模型在运用到工业部署上有一定的局限性。基于嵌入的模型依赖于一个相对理想的监督环境,即需要先在一些已知的映射上进行训练。已知映射的数量及其抽样分布对此类模型的性能影响十分显著。而这些已知映射的获取需要进行大量的手工作业,这在实际运用中往往是不易获得的。此外,该类模型对每个实体映射的预测是互相独立的,从而忽视了整体的分析与逻辑一致性,这通常会导致一些错误的映射。
[0006] 然而传统的基于推理和词汇匹配的模型,虽然弥补了前者在逻辑推理上的不足,有一定的可扩展性,并且不需要进行对已知映射的训练,但是缺乏对知识图谱的图形结构和上下文信息利用的能力。
[0007] 因此,急需提供一种网络安全应急响应知识图谱实体对齐方法以解决上述问题。

发明内容

[0008] 为此,需要提供一种能将多个不同的网络安全应急响应知识图谱融合成一个知识更全面,正确性更高的知识图谱过程中实体对齐的方法。
[0009] 为实现上述目的,发明人提供了一种网络安全应急响应知识图谱实体对齐方法,包括以下步骤:
[0010] S1:将知识图谱输入到基于PARIS模型的PR模块进行计算,输出安全事件实体映射集及其相对应的等价概率;
[0011] S2:在S1得到的安全事件实体映射集中选择与之相对应的等价概率高的安全事件实体映射作为对齐种子,输入基于嵌入的MultiKE模型的SE模块进行训练;
[0012] S3:训练完成后,SE模块在尚未被PR模块对齐的安全事件实体集上进行测试,输出安全事件实体嵌入以及通过邻近检索算法得到的安全事件实体映射集及其相对应的每个映射的相似度得分;
[0013] S4:将S3获得的安全事件实体映射集和安全事件实体嵌入作为输入反馈给PR模块进行下一轮计算;
[0014] S5:经过K次迭代,PR模块输出最终的安全事件实体映射集。
[0015] 作为本发明的一种优选方式,步骤S1:将知识图谱输入到基于PARIS模型的PR模块进行计算,输出安全事件实体映射集及其相对应的等价概率包括以下步骤:
[0016] S101:将两个网络安全知识图谱G和G’输入;
[0017] S102:在PR模块进行初始化,k=0时,将知识图谱的关系三元组以函数的形式表达,PR模块计算每个关系函数作为函数的严谨性,其公式为:
[0018]
[0019] 其中 表示将关系r作为函数,即头实体指向唯一尾实体的严谨性的计算,表示将r的逆关系作为函数,即尾实体指向唯一头实体的严谨性的计算,表示关系三元组与属性三元组的集合中具有r关系的实体对个
数, 表示集合中具有r关系的头实体个数, 表示
集合中具有r关系的尾实体个数;
[0020] S103:PR模块交替计算知识图谱中安全事件实体等价概率和关系之间的包容关系概率,两个实体h和h’之间等价的概率记为 ,由以下公式进行计算:
[0021]
[0022] S104:r是r’的一个子关系的概率记为 并初始化为0.1,其计算公式为:
[0023]
[0024] S105:PR模块通过自迭代进行优化直至收敛;
[0025] S106:生成由PR模块得到的安全事件实体映射集合 和未对齐的安全事件实体集 。
[0026] 作为本发明的一种优选方式,步骤S2:在S1得到的安全事件实体映射集中选择与之相对应的等价概率高的安全事件实体映射作为对齐种子,输入基于嵌入的MultiKE模型的SE模块进行训练包括以下步骤:
[0027] S201:进行K次循环迭代;
[0028] S202:在第一次迭代中,k=1,通过设置阈值 ,从上一次迭代中PR模块输出的安全事件实体映射集合 ,选出该集合中实体等价概率 的映射作为对齐种子,记为 ,其中 ;
[0029] S203:将对齐种子 作为SE模块的输入进行训练;
[0030] S204:使用TransE模型,通过收敛以下的损失函数来学习对齐种子中实体与关系之间的向量表示,其损失函数的公式为:
[0031] 其中 表示欧几里德范数运算,中间的h,r,t分别表示h,r,t的m维嵌入;
[0032] S205:用以下分数函数来测量关系事实h,r,t的关系嵌入的合理性:
[0033]
[0034] 其中 表示在关系视图下测量关系事实h,r,t嵌入的合理性的分数函数;
[0035] S206:计算对齐种子中关系事实h,r,t真实存在的概率,公式为:
[0036]
[0037] 其中 指关系视图中的嵌入, 表示(h,r,t) 真实存在的标签;
[0038] S207:通过收敛以下的损失函数来学习关系视图中的嵌入 :
[0039]
[0040] 其中 为对齐种子中的真实关系事实集,而 表示通过将真实关系的头实体或者尾实体替换为随机实体后进行采样的伪造事实集, 指关系视图中的嵌入,表示关系视图的逻辑损失函数, 表示在关系视图下测量关系事实h,r,t嵌入的合理性的分数函数, 表示(h,r,t)的标签;
[0041] S208:将属性嵌入及对应的属性值拼接成矩阵,送至卷积核为2xc的CNN进行计算,以得到其压缩表示,并将得到的特征张量重塑为一个向量形式送入参数为W的全连接层,该过程用以下公式表示:
[0042]
[0043] 其中 表示卷积操作以得到属性嵌入及对应的属性值拼接成的矩阵的压缩表示, 即为属性嵌入a与其对应的属性值拼接而成的矩阵, 将特征映射张量重塑为向量, 是一个2xc的卷积核, 是一个激活函数;
[0044] S209:用以下分数函数来测量属性事实h,a,v的嵌入合理性:
[0045]
[0046] 其中 表示在属性视图下测量属性事实h,a,v嵌入的合理性的分数函数;
[0047] S210:通过收敛以下的损失函数来学习属性视图中的嵌入 :
[0048]
[0049] 其中 指属性视图中的嵌入, 表示属性视图的逻辑损失函数,表示在属性视图下测量属性事实h,a,v嵌入的合理性的分数函数, 为对齐种子中的真实属性事实集;
[0050] S211:进行SE模块的第一次自迭代优化;
[0051] S212:采用组合嵌入策略,该组合参与了多视图嵌入的联合训练,能统一嵌入空间中的组合嵌入和视图特定嵌入之间的一致性,其损失函数如下:
[0052]
[0053] 其中 表示多视图嵌入的联合训练的损失函数, 为对齐种子中所有安全事件实体组合嵌入矩阵,每一行代表一个安全事件实体, 为第i个视图的安全事件实体嵌入矩阵, 表示F范数;
[0054] S213:在关系视图进行对齐种子中安全事件的实体同一性推理以获得对齐信息,其损失函数如下所示:
[0055]
[0056] 其中 指关系视图中的嵌入, 表示关系视图下进行对齐种子中安全事件的实体同一性推理以获得对齐信息的损失函数, 表示在关系视图下测量关系事实h,r,t的关系嵌入的合理性的分数函数,  是来自不同的知识图谱的头实体且存在于对齐种子中, 是来自不同的知识图谱的尾实体且存在于对齐种子中, 和分别指头实体和尾实体位于对齐种子中的关系事实集;
[0057] S214:在属性视图进行对齐种子中安全事件的实体同一性推理,其损失函数如下所示:
[0058]
[0059] 其中 表示属性视图中的嵌入, 表示属性视图下进行对齐种子中安全事件的实体同一性推理以获得对齐信息的损失函数, 表示在属性视图下测量属性事实 嵌入的合理性的分数函数, 表示属性事实的集合, 表示头实体处于对齐种子中;
[0060] S215:在关系视图下进行对齐种子中安全事件的关系同一性推理,使用软对齐方法,在训练中自动找到关系和属性对齐,用以下公式进行表示:
[0061]
[0062] 其中 表示软关系对齐,即:不要求对齐中的关系严格等效, 是来自不同的知识图谱的关系, 表示它们的相似性, 表示阈值并且 ;
[0063] S216:考虑到基于文本嵌入的名称相似度和基于关系嵌入的语义相似度,我们将它们合并为加权和:
[0064]
[0065] 其中 表示关系 的相似性, 表示关系r的文本信息,表示关系 的文本嵌入, 是两个权重因子, , 是
计算两个嵌入的余弦相似性函数;
[0066] S217:将这种相似性视为平滑系数,以减少不准确对齐的负面影响,并将其合并到交叉关系身份推断的损失中:
[0067]
[0068] 其中 指关系视图中的嵌入, 表示在关系视图下跨知识图谱关系同一性推理的损失函数, 表示关系 的相似性, 表示在关系视图
下测量关系事实h,r,t嵌入的合理性的分数函数, 表示在 中存在关系的关系事实集, 表示软关系对齐,即不要求对齐中的关系严格等效;
[0069] S218:在属性视图中进行属性同一性推理,根据其软属性对齐和属性相似度计算损失函数:
[0070]
[0071] 其中 指属性视图中的嵌入, 表示在属性视图下跨知识图谱属性同一性推理的损失函数, 表示属性 的相似性, 表示在属性视图
下测量属性事实h,a,v嵌入的合理性的分数函数, 表示在 中存在属性关系的属性事实集, 表示软属性对齐,即:不要求对齐中的属性严格等效;
[0072] S219:经过k次自迭代后,SE模块训练完成。
[0073] 作为本发明的一种优选方式,步骤S3:训练完成后,SE模块在尚未被PR模块对齐的安全事件实体集上进行测试,输出安全事件实体嵌入以及通过邻近检索算法得到的安全事件实体映射集及其相对应的每个映射的相似度得分包括以下步骤:
[0074] S301:以上一轮迭代后PR模块输出的未对齐的安全事件实体集合 作为测试数据,在SE模块上进行测试,用近邻检索算法计算相似性得分,记为 ;
[0075] S302:生成由SE模块得到的安全事件实体映射集合 和安全事件实体嵌入。
[0076] 作为本发明的一种优选方式,步骤S4:将S3获得的安全事件实体映射集和安全事件实体嵌入作为输入反馈给PR模块进行下一轮计算包括以下步骤:
[0077] S401:对PR模块进行初始化,PR模块利用上一轮迭代中PR模块的输出 和SE模块的输出 ,吸收安全事件实体嵌入带来的增益效果,并推理进一步扩展安全事件实体映射集,该初始化方案如下所示:
[0078] 其中 和 分别指PR模块的输入和输出映射概率, 是两个超参数, ;
[0079] S402:使用修正估计方案来使得PR模块在自迭代过程中,充分利用安全事件实体嵌入中包含的语义和结构信息,来更新两个实体之间等价的概率,修正估计由下式给出:
[0080]
[0081] 其中 和 分别代表了安全事件实体 和 的嵌入, 是一个相似函数,  是一个折衷超参数,用来平衡嵌入相似性和由步骤S103估计的概率;
[0082] S403:使用步骤S104的公式来计算r是r’的一个子关系的概率 ;
[0083] S405:生成由PR模块得到的安全事件实体映射集合 和未对齐的安全事件实体集 ;
[0084] S406:循环迭代K次。
[0085] 作为本发明的一种优选方式,步骤S5:经过K次迭代,PR模块输出最终的安全事件实体映射集包括以下步骤:
[0086] S501:PR模块输出第K次迭代后的安全事件实体映射集合 和未对齐的安全事件实体集  ;
[0087] S502:设置阈值 ,选择安全事件实体映射集合中实体等价概率的映射作为最终的输出结果 。
[0088] 区别于现有技术,上述技术方案所达到的有益效果有:
[0089] 本方法将传统的概率推理模型和基于嵌入的模型相结合,在网络安全应急响应知识图谱的融合过程中,因其无监督的环境,节省了人工标记对齐种子的花销,充分利用了其图结构信息,并通过概率推理提高了实体对齐的准确率。在网络安全事件发生时,通过该网络安全应急响应知识图谱对事件进行深度分析,生成准确有效的剧本,实现快速高效的应急响应,提高了SOC网络安全管理平台运营效果。

附图说明

[0090] 图1为具体实施方式所述网络安全应急响应知识图谱实体对齐方法的框架图。
[0091] 图2为具体实施方式所述PR模块示意图。
[0092] 图3为具体实施方式所述SE模块示意图。

具体实施方式

[0093] 为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
[0094] 本发明实施例提供一种网络安全应急响应知识图谱实体对齐方法,是构建一个综合全面的网络安全应急响应知识图谱过程中的关键一步,为后续对安全事件进行深度分析,生成准确有效的剧本,实现快速高效的应急响应,奠定了夯实基础,提高了SOC(网络安全管理平台)运营效果。该方法将传统推理技术和最先进的嵌入技术相结合进行知识图谱对齐,可以用PARIS(关系、实例和模式的概率对齐模型)和多个不同的基于嵌入的模型实现,本发明实施例选择的嵌入模型是MultiKE(多视图知识图谱嵌入模型)。
[0095] 如图1所示,为该方法的整体框架,主要包括如下处理过程:
[0096] 将两个网络安全知识图谱G和G’输入;
[0097] 在PR模块(概率推理模块)进行初始化(k=0)时,将知识图谱的关系三元组以函数的形式表达,考虑到信息的正确性以及现实中存在一对多的关系,使用多对一或者一对一的函数形式过于严苛,因此PR模块计算每个关系函数作为函数的严谨性,其公式为:
[0098] 其中 表示将关系r作为函数,即头实体指向唯一尾实体的严谨性的计算,表示将r的逆关系作为函数,即尾实体指向唯一头实体的严谨性的计算,表示关系三元组与属性三元组的集合中具有r关系的实体对个
数, 表示集合中具有r关系的头实体个数, 表
示集合中具有r关系的尾实体个数。
[0099] PR模块交替计算知识图谱中安全事件实体等价概率和关系之间的包容关系概率。两个实体h和h’之间等价的概率记为 由以下公式进行计算:
[0100]
[0101] r是r’的一个子关系的概率记为 ,并初始化为0.1,其计算公式为:
[0102]
[0103] PR模块通过自迭代进行优化直至收敛;
[0104] 生成由PR模块得到的安全事件实体映射集合 和未对齐的安全事件实体集 ;
[0105] 进行K次循环迭代;
[0106] 在第一次迭代中(k=1),通过设置阈值 ,从上一次迭代中PR模块输出的安全事件实体映射集合 ,选出该集合中实体等价概率 的映射作为对齐种子,记为 ,其中  ;
[0107] 将对齐种子 作为SE模块(语义嵌入模块)的输入进行训练;
[0108] 使用TransE模型(转换嵌入模型),通过收敛以下的损失函数来学习对齐种子中实体与关系之间的向量表示,其损失函数的公式为:
[0109]
[0110] 其中 表示欧几里德范数运算,  中间的h,r,t分别表示h,r,t的m维嵌入。
[0111] 用以下分数函数来测量关系事实(h,r,t)的关系嵌入的合理性:
[0112]
[0113] 其中 表示在关系视图下测量关系事实h,r,t嵌入的合理性的分数函数;
[0114] 计算对齐种子中关系事实(h,r,t)真实存在的概率,公式为:
[0115] 其中 指关系视图中的嵌入, 表示(h,r,t) 真实存在的标签。
[0116] 通过收敛以下的损失函数来学习关系视图中的嵌入 :
[0117]
[0118] 其中 为对齐种子中的真实关系事实集,而 表示通过将真实关系的头实体或者尾实体替换为随机实体后进行采样的伪造事实集, 指关系视图中的嵌入,表示关系视图的逻辑损失函数, 表示在关系视图下测量关系事实h,r,t嵌入的合理性的分数函数, 表示(h,r,t)的标签。
[0119] 将属性嵌入及对应的属性值拼接成矩阵,送至卷积核为2xc的CNN(卷积神经网络)进行计算,以得到其压缩表示,并将得到的特征张量重塑为一个向量形式送入参数为W的全连接层,该过程用以下公式表示:
[0120]
[0121] 其中 表示卷积操作以得到属性嵌入及对应的属性值拼接成的矩阵的压缩表示, 即为属性嵌入a与其对应的属性值拼接而成的矩阵, 将特征映射张量重塑为向量, 是一个2xc的卷积核, 是一个激活函数。
[0122] 用以下分数函数来测量属性事实(h,a,v)的嵌入合理性:
[0123]
[0124] 其中 表示在属性视图下测量属性事实h,a,v嵌入的合理性的分数函数;
[0125] 通过收敛以下的损失函数来学习属性视图中的嵌入 :
[0126]
[0127] 其中 指属性视图中的嵌入, 表示属性视图的逻辑损失函数,表示在属性视图下测量属性事实h,a,v嵌入的合理性的分数函数, 为对齐种子中的真实属性事实集。
[0128] 进行SE模块的第一次自迭代优化;
[0129] 为了利用到每一个视图的嵌入,采用组合嵌入策略,这种组合参与了多视图嵌入的联合训练,最大化统一嵌入空间中的组合嵌入和视图特定嵌入之间的一致性,其损失函数如下:
[0130]
[0131] 其中 表示多视图嵌入的联合训练的损失函数, 为对齐种子中所有安全事件实体的组合嵌入矩阵,每一行代表一个安全事件实体, 为第i个视图的安全事件实体嵌入矩阵, 表示F范数。
[0132] 在关系视图进行对齐种子中安全事件的实体同一性推理以获得对齐信息,其损失函数如下所示:
[0133]
[0134] 其中, 指关系视图中的嵌入, 表示关系视图下进行对齐种子中安全事件的实体同一性推理以获得对齐信息的损失函数, 表示在关系视图下测量关系事实h,r,t的关系嵌入的合理性的分数函数,  是来自不同的知识图谱的头实体且存在于对齐种子中, 是来自不同的知识图谱的尾实体且存在于对齐种子中, 和分别指头实体和尾实体位于对齐种子中的关系事实集。
[0135] 在属性视图进行对齐种子中安全事件的实体同一性推理,其损失函数如下所示:
[0136]
[0137] 其中, 表示属性视图中的嵌入, 表示属性视图下进行对齐种子中安全事件的实体同一性推理以获得对齐信息的损失函数, 表示在属性视图下测量属性事实 嵌入的合理性的分数函数, 表示属性事实的集合, 表示头实体处于对齐种子中。
[0138] 在关系视图下进行对齐种子中安全事件的关系同一性推理。由于KG(知识图谱)模式之间的异质性,查找关系和属性对齐十分困难,因此使用了一种软对齐方法,不要求对齐中的关系或属性严格等效,在训练中自动找到关系和属性对齐。用以下公式进行表示:
[0139]
[0140] 其中 表示软关系对齐,即:不要求对齐中的关系严格等效, 是来自不同的知识图谱的关系, 表示它们的相似性, 表示阈值并且 。
[0141] 考虑到基于文本嵌入的名称相似度和基于关系嵌入的语义相似度,我们将它们合并为加权和:
[0142]
[0143] 其中 表示关系 的相似性, 表示关系r的文本信息,表示关系 的文本嵌入, 是两个权重因子, , 是
计算两个嵌入的余弦相似性函数。
[0144] 我们将这种相似性视为平滑系数,以减少不准确对齐的负面影响,并将其合并到交叉关系身份推断的损失中:
[0145]
[0146] 其中 指关系视图中的嵌入, 表示在关系视图下跨知识图谱关系同一性推理的损失函数, 表示关系 的相似性, 表示在关系视图下
测量关系事实h,r,t嵌入的合理性的分数函数, 表示在 中存在关系的关系事实集,表示软关系对齐,即不要求对齐中的关系严格等效。
[0147] 与上述关系视图中的关系同一性推理类似,在属性视图中同样的方式进行属性同一性推理,根据其软属性对齐和属性相似度计算损失函数如下:
[0148]
[0149] 其中 指属性视图中的嵌入, 表示在属性视图下跨知识图谱属性同一性推理的损失函数, 表示属性 的相似性, 表示在属性视图
下测量属性事实h,a,v嵌入的合理性的分数函数, 表示在 中存在属性关系的属性事实集, 表示软属性对齐,即:不要求对齐中的属性严格等效。
[0150] 经过k次自迭代后,SE模块训练完成;
[0151] 以上一轮迭代后PR模块输出的未对齐的安全事件实体集 作为测试数据,在SE模块上进行测试,用最近邻检索算法计算相似性得分,记为 ;
[0152] 生成由SE模块得到的安全事件实体映射集合 和安全事件实体嵌入 ;
[0153] 与传统PARIS模型不同,本实施例提出了一种特定的初始化方案对PR模块进行初始化,PR模块可以直接利用上一轮迭代中PR模块的输出 和SE模块的输出 ,既吸收了安全事件实体嵌入带来的增益效果,又能通过推理进一步扩展安全事件映射集。该初始化方案如下所示:
[0154] 其中 和 分别指PR模块的输入和输出映射概率, 是两个超参数, 。
[0155] 本专利提出了一种修正估计方案来代替传统PARIS模型中实体等价概率公式,使得PR模块在自迭代过程中,充分利用安全事件实体嵌入中包含的语义和结构信息,从而更新两个实体之间等价的概率,修正估计由下式给出:
[0156]
[0157] 其中 和 分别代表了安全事件实体 和 的嵌入, 是一个相似函数, 是一个折衷超参数,用来平衡嵌入相似性和由上述步骤中计算出的两个实体h和h’之间等价的概率。
[0158] 使用上述步骤中的r是r’的一个子关系的概率的计算公式来计算r是r’的一个子关系的概率 ;
[0159] 生成由PR模块得到的安全事件实体映射集合 和未对齐的安全事件实体集;
[0160] 循环迭代K次;PR模块输出第K次迭代后的安全事件实体映射集合 和未对齐的安全事件实体集 ;
[0161] 设置阈值 ,选择安全事件实体映射集合中实体等价概率  的映射作为最终的输出结果 。
[0162] 基于上述实施例,本实施例分别在公开的5个网络安全数据集Malware Training Sets(恶意软件训练集), Aposemat IoT‑23(物联网网络流量标记数据集), ADFA(入侵检测数据集), Malicious URLs(恶意网址数据集),CTU‑13 Dataset(僵尸网络流量数据集)上测试。本模型在Malware Training Sets和ADFA上表现最好。在Malware Training Sets上,其精度达到了98.8%,召回率达到了95.5%,F1分数(精度和召回加权调和平均)为97.2%。此外,本模型的F1分数在ADFA上达到了0.711分,明显超过传统模型PARIS0.212分。与PARIS相比,在CTU‑13 Dataset和Aposemat IoT‑23上,本模型的精度略有降低,但召回率显著增加,这反映出,尽管SE模块预测的不正确安全事件映射可能会对性能产生负面影响,但SE模块提供的有用信息仍然可以帮助PR模块找到更多潜在的对齐方式;此外,本模型显著优于所有基于监督嵌入的模型,F1分数平均提高28.6%,这进一步证实了本模型的有效性,具体实验数据见下表。
[0163]
[0164] 需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。