基于大数据的网络安全感知方法与装置转让专利

申请号 : CN202211449597.9

文献号 : CN115580486B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 项翔翔蒋行健

申请人 : 宁波市镇海区大数据投资发展有限公司

摘要 :

本发明涉及信息安全检测技术领域,一种基于大数据的网络安全感知方法及装置,包括:构建感知客户端和主服务端的流量矩阵,基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集和子特征集,计算子特征集对特征值集的显著值,若显著值大于指定显著阈值,判定主服务端对感知客户端具有网络侵害风险,提取被服务端与感知客户端的时间流量指标集,将所述时间流量指标集输入至预先训练完成的网络安全感知模型执行风险预测,得到被服务端对感知客户端的网络侵害风险判定结果。本发明可解决因当下固化使用机器学习或深度学习模型而导致网络安全威胁预测准确率较低的问题。

权利要求 :

1.一种基于大数据的网络安全感知方法,其特征在于,所述方法包括:

接收网络安全感知指令,根据所述网络安全感知指令确定待检测的感知客户端;

根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端;

构建所述感知客户端和主服务端的流量矩阵,基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集,其中,所述基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集,包括:求解所述流量矩阵的转置矩阵,基于流量矩阵和转置矩阵构建流量协方差矩阵,其中流量协方差矩阵为:T

其中, 表示流量矩阵X的流量协方差矩阵,X 为转置矩阵,n为构建流量矩阵时,每个采集周期内对感知客户端和主服务端之间的流量传输的流量采集次数;

构建所述流量协方差矩阵的特征方程,求解所述特征方程得到特征值集,其中特征方程为:其中,λ为特征值集,E为单位对角矩阵,y为流量协方差矩阵的特征向量;

从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,计算所述子特征集对特征值集的显著值,若所述相关度大于指定显著阈值,判定所述主服务端对感知客户端具有网络侵害风险;其中,所述显著值的计算方法为:其中,Ta表示子特征集对特征值集的显著值,a为子特征集的特征个数,m为特征值集的特征个数,Ft为T‑test检验或卡方检验;

提取所述被服务端与感知客户端的流量交互指标集,其中流量交互指标集包括流量交互指标值和流量交互时间,基于所述流量交互时间排序所述流量交互指标集,得到时间流量指标集;

将所述时间流量指标集输入至预先训练完成的网络安全感知模型执行风险预测,得到被服务端对感知客户端的网络侵害风险判定结果,其中,所述网络安全感知模型由深度学习网络构建得到,按照网络先后连接顺序共包括七层结构,第一层结构为128个LSTM单元、第二层结构为1个dropout层、第三层结构为64个改进LSTM单元、第四层结构为1个dropout层、第五层结构为32个改进LSTM单元、第六层结构为1个dropout层、第七层结构为分类层,其中所述改进LSTM单元,包括:将LSTM单元的遗忘门的原表达式用如下改进公式替代:

其中,ft为遗忘门在时刻t的改进公式,σa为遗忘门的激活函数,ef为遗忘门的权值矩阵,df为遗忘门的偏置向量,ht‑1为上一个LSTM输出门的输出值,xl为在时刻t时的时间流量指标, 为在时刻t和时刻t‑1时两组时间流量指标的差值,γ为预设的差值偏置值,S为时间流量指标集的指标类型总数,ωj为第j个指标的权重值。

2.如权利要求1所述的基于大数据的网络安全感知方法,其特征在于,所述构建所述感知客户端和主服务端的流量矩阵,包括:获取所述感知客户端和主服务端的IP地址;

将感知客户端的IP地址作为起点,主服务端的IP地址作为终点构建得到流量链路;

设置采集所述流量链路的采集周期,根据所述采集周期采集流量链路的流量值;

将每个流量值按照采集周期对应排列,得到所述流量矩阵,其中流量矩阵如下所示:其中,X为所述流量矩阵,Xp表示第p个采集周期下流量的单位矩阵,xnp 表示第p个采集周期下对流量链路第n次执行流量采集的流量值。

3.如权利要求2所述的基于大数据的网络安全感知方法,其特征在于,所述从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,包括:根据所述特征值集构建不同的待选特征集;

根据重要性计算公式,计算每组待选特征集的重要性得分,所述重要性计算公式为:s

其中,ηb表示第s个待选特征集的重要性得分,b为第s个待选特征集的特征个数,i为每个特征的特征编号,m为特征值集的特征个数,λi表示特征值集中第i个特征;

提取重要性得分大于指定重要阈值的待选特征集,不重复的从重要性得分大于指定重要阈值的待选特征集提取每个特征,组合得到所述子特征集。

4.如权利要求3所述的基于大数据的网络安全感知方法,其特征在于,所述根据所述特征值集构建不同的待选特征集,包括:接收预先设定的集合特征最小值和集合特征最大值;

从所述特征值集不重复的选择特征,且特征总数大于或等于集合特征最小值并小于或等于集合特征最大值,构成得到不同的所述待选特征集。

5.如权利要求4所述的基于大数据的网络安全感知方法,其特征在于,所述根据所述特征值集构建不同的待选特征集,包括:接收预先设定的集合特征最小值和集合特征最大值;

从所述特征值集不重复的选择特征,且特征总数大于或等于集合特征最小值并小于或等于集合特征最大值,构成得到不同的所述待选特征集。

6.如权利要求1所述的基于大数据的网络安全感知方法,其特征在于,所述流量交互指标集包括TCP会话建立成功数、TCP会话建立失败数、上行数据包数量、下行数据包数量、平均发包长度、平均收包长度、被服务端的端口访问数、被服务端IP拥有的连接数、被服务端接收及发送RST包数量、感知客户端接收及发送RST包数量、被服务端接收及发送SYN包数。

7.如权利要求1所述的基于大数据的网络安全感知方法,其特征在于,所述根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端,包括:查询在当前时刻下感知客户端与所有服务端的TCP报文,判断在感知客户端内每个TCP报文是请求连接类型还是确认连接类型;

当TCP报文为请求连接类型时,根据TCP报文的请求目的地址确认对应的服务端为主服务端;

当TCP报文为确认连接类型时,根据TCP报文的确认目的地址确认对应的服务端为被服务端。

8.如权利要求2所述的基于大数据的网络安全感知方法,其特征在于,所述采集周期设置为24小时为一个采集周期。

9.一种基于大数据的网络安全感知装置,其特征在于,所述装置包括:

服务端分类模块,用于接收网络安全感知指令,根据所述网络安全感知指令确定待检测的感知客户端,根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端;

特征值求解模块,用于构建所述感知客户端和主服务端的流量矩阵,基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集,其中,所述基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集,包括:求解所述流量矩阵的转置矩阵,基于流量矩阵和转置矩阵构建流量协方差矩阵,其中流量协方差矩阵为:T

其中, 表示流量矩阵X的流量协方差矩阵,X 为转置矩阵,n为构建流量矩阵时,每个采集周期内对感知客户端和主服务端之间的流量传输的流量采集次数;

构建所述流量协方差矩阵的特征方程,求解所述特征方程得到特征值集,其中特征方程为:其中,λ为特征值集,E为单位对角矩阵,y为流量协方差矩阵的特征向量;

主服务端风险判断模块,用于从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,计算所述子特征集对特征值集的显著值,若所述相关度大于指定显著阈值,判定所述主服务端对感知客户端具有网络侵害风险;其中,所述显著值的计算方法为:其中,Ta表示子特征集对特征值集的显著值,a为子特征集的特征个数,m为特征值集的特征个数,Ft为T‑test检验或卡方检验;

被服务端风险判断模块,用于提取所述被服务端与感知客户端的流量交互指标集,其中流量交互指标集包括流量交互指标值和流量交互时间,基于所述流量交互时间排序所述流量交互指标集,得到时间流量指标集,将所述时间流量指标集输入至预先训练完成的网络安全感知模型执行风险预测,得到被服务端对感知客户端的网络侵害风险判定结果,其中,所述网络安全感知模型由深度学习网络构建得到,按照网络先后连接顺序共包括七层结构,第一层结构为128个LSTM单元、第二层结构为1个dropout层、第三层结构为64个改进LSTM单元、第四层结构为1个dropout层、第五层结构为32个改进LSTM单元、第六层结构为1个dropout层、第七层结构为分类层,其中所述改进LSTM单元,包括:将LSTM单元的遗忘门的原表达式用如下改进公式替代:

其中,ft为遗忘门在时刻t的改进公式,σa为遗忘门的激活函数,ef为遗忘门的权值矩阵,df为遗忘门的偏置向量,ht‑1为上一个LSTM输出门的输出值,xl为在时刻t时的时间流量指标, 为在时刻t和时刻t‑1时两组时间流量指标的差值,γ为预设的差值偏置值,S为时间流量指标集的指标类型总数,ωj为第j个指标的权重值。

说明书 :

基于大数据的网络安全感知方法与装置

技术领域

[0001] 本发明涉及信息安全技术领域,尤其涉及一种基于大数据的网络安全感知方法与装置。

背景技术

[0002] 网络安全(Cyber Security)是指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。
[0003] 不同网络安全感知方法的侧重点均有所不同,其中热门方法是通过监控流量交互情况以提前预测客户端是否存在安全风险。目前主流的流量交互监控方法主要是先收集客户端与另外一个服务端的流量交互指标数据,然后通过机器学习或深度学习根据流量交互指标数据判断该服务端是否对客户端产生网络威胁。
[0004] 这类方法虽然可实现网络安全感知,但未考虑客户端与服务端是主动连接还是被动连接,固化的使用机器学习或深度学习执行风险判断,导致网络安全感知准确率较低。

发明内容

[0005] 本发明提供一种基于大数据的网络安全感知方法与装置,其主要目的在于解决因当下固化使用机器学习或深度学习模型而导致网络安全威胁预测准确率较低的问题。
[0006] 为实现上述目的,本发明提供的一种基于大数据的网络安全感知方法,包括:
[0007] 接收网络安全感知指令,根据所述网络安全感知指令确定待检测的感知客户端;
[0008] 根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端;
[0009] 构建所述感知客户端和主服务端的流量矩阵,基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集;
[0010] 从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,计算所述子特征集对特征值集的显著值,若所述显著值大于指定显著阈值,判定所述主服务端对感知客户端具有网络侵害风险;
[0011] 提取所述被服务端与感知客户端的流量交互指标集,其中流量交互指标集包括流量交互指标值和流量交互时间,基于所述流量交互时间排序所述流量交互指标集,得到时间流量指标集;
[0012] 将所述时间流量指标集输入至预先训练完成的网络安全感知模型执行风险预测,得到被服务端对感知客户端的网络侵害风险判定结果,其中,所述网络安全感知模型由深度学习网络构建得到,按照网络先后连接顺序共包括七层结构,第一层结构为128个LSTM单元、第二层结构为1个dropout层、第三层结构为64个改进LSTM单元、第四层结构为1个dropout层、第五层结构为32个改进LSTM单元、第六层结构为1个dropout层、第七层结构为分类层。
[0013] 可选地,所述构建所述感知客户端和主服务端的流量矩阵,包括:
[0014] 获取所述感知客户端和主服务端的IP地址;
[0015] 将感知客户端的IP地址作为起点,主服务端的IP地址作为终点构建得到流量链路;
[0016] 设置采集所述流量链路的采集周期,根据所述采集周期采集流量链路的流量值;
[0017] 将每个流量值按照采集周期对应排列,得到所述流量矩阵,其中流量矩阵如下所示:
[0018]
[0019] 其中,为所述流量矩阵, 表示第 个采集周期下流量的单位矩阵, 表示第个采集周期下对流量链路第 次执行流量采集的流量值。
[0020] 可选地,所述从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,包括:
[0021] 根据所述特征值集构建不同的待选特征集;
[0022] 根据重要性计算公式,计算每组待选特征集的重要性得分,所述重要性计算公式为:
[0023]
[0024] 其中, 表示第 个待选特征集的重要性得分, 为第 个待选特征集的特征个数,为每个特征的特征编号,  为特征值集的特征个数;
[0025] 提取重要性得分大于指定重要阈值的待选特征集,不重复的从重要性得分大于指定重要阈值的待选特征集提取每个特征,组合得到所述子特征集。
[0026] 可选地,所述基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集,包括:
[0027] 求解所述流量矩阵的转置矩阵,基于流量矩阵和转置矩阵构建流量协方差矩阵,其中流量协方差矩阵为:
[0028]
[0029] 其中, 表示流量矩阵 的流量协方差矩阵, 为转置矩阵, 为构建流量矩阵时,每个采集周期内对感知客户端和主服务端之间的流量传输的流量采集次数;
[0030] 构建所述流量协方差矩阵的特征方程,求解所述特征方程得到特征值集,其中特征方程为:
[0031]
[0032] 其中, 为特征值集, 为单位对角矩阵, 为流量协方差矩阵的特征向量;
[0033] 可选地,所述根据所述特征值集构建不同的待选特征集,包括:
[0034] 接收预先设定的集合特征最小值和集合特征最大值;
[0035] 从所述特征值集不重复的选择特征,且特征总数大于或等于集合特征最小值并小于或等于集合特征最大值,构成得到不同的所述待选特征集。
[0036] 可选地,所述流量交互指标集包括TCP 会话建立成功数、TCP 会话建立失败数、上行数据包数量、下行数据包数量、平均发包长度、平均收包长度、被服务端的端口访问数、被服务端IP 拥有的连接数、被服务端接收及发送RST包数量、感知客户端接收及发送RST包数量、被服务端接收及发送SYN包数。
[0037] 可选地,所述改进LSTM单元,包括:
[0038] 将LSTM单元的遗忘门的原表达式用如下改进公式替代:
[0039]
[0040] 其中, 为遗忘门在时刻 的改进公式, 为遗忘门的激活函数, 为遗忘门的权值矩阵, 为遗忘门的偏置向量, 为上一个LSTM输出门的输出值, 为在时刻 时的时间流量指标, 为在时刻 和时刻 时两组时间流量指标的差值, 为预设的差值偏置值, 为时间流量指标集的指标类型总数, 为第 个指标的权重值。
[0041] 可选地,所述根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端,包括:
[0042] 查询在当前时刻下感知客户端与所有服务端的TCP报文,判断在感知客户端内每个TCP报文是请求连接类型还是确认连接类型;
[0043] 当TCP报文为请求连接类型时,根据TCP报文的请求目的地址确认对应的服务端为主服务端;
[0044] 当TCP报文为确认连接类型时,根据TCP报文的确认目的地址确认对应的服务端为被服务端。
[0045] 可选地,所述显著值的计算方法为:
[0046]
[0047] 其中, 表示子特征集对特征值集的显著值, 为子特征集的特征个数, 为特征值集的特征个数, 为 检验或卡方检验;
[0048] 为实现上述目的,本发明还提供一种基于大数据的网络安全感知装置,包括:
[0049] 服务端分类模块,用于接收网络安全感知指令,根据所述网络安全感知指令确定待检测的感知客户端,根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端;
[0050] 特征值求解模块,用于构建所述感知客户端和主服务端的流量矩阵,基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集;
[0051] 主服务端风险判断模块,用于从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,计算所述子特征集对特征值集的显著值,若所述显著值大于指定显著阈值,判定所述主服务端对感知客户端具有网络侵害风险;
[0052] 被服务端风险判断模块,用于提取所述被服务端与感知客户端的流量交互指标集,其中流量交互指标集包括流量交互指标值和流量交互时间,基于所述流量交互时间排序所述流量交互指标集,得到时间流量指标集,将所述时间流量指标集输入至预先训练完成的网络安全感知模型执行风险预测,得到被服务端对感知客户端的网络侵害风险判定结果,其中,所述网络安全感知模型由深度学习网络构建得到,按照网络先后连接顺序共包括七层结构,第一层结构为128个LSTM单元、第二层结构为1个dropout层、第三层结构为64个改进LSTM单元、第四层结构为1个dropout层、第五层结构为32个改进LSTM单元、第六层结构为1个dropout层、第七层结构为分类层。
[0053] 为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
[0054] 存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现上述所述的基于大数据的网络安全感知方法。
[0055] 为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于大数据的网络安全感知方法。
[0056] 本发明实施例为解决背景技术所述问题,接收网络安全感知指令,根据所述网络安全感知指令确定待检测的感知客户端,根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端,由于感知客户端主动连接服务端和被动连接服务端所受到的网络威胁概率是不同的,感知客户端主动连接服务端一般情况下所受到的网络威胁概率要小于感知客户端被动连接服务端,因此在感知客户端主动连接服务端情况下,本发明实施例通过构建感知客户端和主服务端的流量矩阵,并分析流量矩阵中特征值的显著性判断主服务端是否对感知客户端构成威胁,由于流量矩阵的构建和特征值的显著性计算简便,因此不过多占用计算资源,此外,被动连接服务端由于受到网络威胁的概率更大,因此本发明实施例先收集大量的被服务端与感知客户端的流量交互指标,并通过改进的网络安全感知模型执行预测,其中网络安全感知模型由深度学习模型构建,预测准确率更高。因此本发明提出的基于大数据的网络安全感知方法与装备,可以解决因当下固化使用机器学习或深度学习模型而导致网络安全威胁预测准确率较低的问题。

附图说明

[0057] 图1为本发明一实施例提供的基于大数据的网络安全感知方法的流程示意图;
[0058] 图2为本发明一实施例提供的基于大数据的网络安全感知装置的功能模块图;
[0059] 图3为本发明一实施例提供的实现所述基于大数据的网络安全感知方法的电子设备的结构示意图。
[0060] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0061] 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0062] 本申请实施例提供一种基于大数据的网络安全感知方法。所述基于大数据的网络安全感知方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于大数据的网络安全感知方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
[0063] 参照图1所示,为本发明一实施例提供的基于大数据的网络安全感知方法的流程示意图。在本实施例中,所述基于大数据的网络安全感知方法包括:
[0064] S1、接收网络安全感知指令,根据所述网络安全感知指令确定待检测的感知客户端;
[0065] 本发明实施例中,网络安全感知指令可由网络管理员或感知客户端使用人员发出。示例性的,张三平时使用移动笔记本开发相关软件,由于笔记本中包括重要的商业机密程序,为防止笔记本因黑客入侵或病毒侵害导致重要信息丢失或窃取,每次开机时张三点开预先安装在笔记本界面内的网络安全感知按钮生成网络安全感知指令,可理解的是,笔记本即为待检测的感知客户端。
[0066] S2、根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端;
[0067] 需解释的是,本发明实施例认为感知客户端主动连接其他服务端和被动连接其他服务端具有不同等级的网络风险,一般情况下,感知客户端主动连接的前提是根据用户需求而产生的,如用户访问某个网页或点击某个图形界面按钮等,且若为正常网页或按钮,其对感知客户端不具有威胁性,但因用户错误点击访问了非法网页,非法网页会强制建立与感知客户端的流量传输,因此强制建立的流量传输一般会长久持续且在某个时间段内会异常活跃,因此本发明实施例根据这类非法网页所在服务端的流量特征提出一种快速鉴定方法。
[0068] 进一步地,所述根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端,包括:
[0069] 查询在当前时刻下感知客户端与所有服务端的TCP报文,判断在感知客户端内每个TCP报文是请求连接类型还是确认连接类型;
[0070] 当TCP报文为请求连接类型时,根据TCP报文的请求目的地址确认对应的服务端为主服务端;
[0071] 当TCP报文为确认连接类型时,根据TCP报文的确认目的地址确认对应的服务端为被服务端。
[0072] 示例性的,在当前时刻下遍历出感知客户端内共有5条TCP报文,其中2条为请求连接类型,3条为确认连接类型,则依次可得到2台主服务端和3台被服务端,则本发明实施例后续任务即辨别2台主服务端和3台被服务端对感知客户端是否具有网络安全威胁。
[0073] S3、构建所述感知客户端和主服务端的流量矩阵,基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集;
[0074] 详细地,所述构建所述感知客户端和主服务端的流量矩阵,包括:
[0075] 获取所述感知客户端和主服务端的IP地址;
[0076] 将感知客户端的IP地址作为起点,主服务端的IP地址作为终点构建得到流量链路;
[0077] 设置采集所述流量链路的采集周期,根据所述采集周期采集流量链路的流量值;
[0078] 将每个流量值按照采集周期对应排列,得到所述流量矩阵,其中流量矩阵如下所示:
[0079]
[0080] 其中,为所述流量矩阵, 表示第 个采集周期下流量的单位矩阵, 表示第个采集周期下对流量链路第 次执行流量采集的流量值, 为构建流量矩阵时,每个采集周期内对感知客户端和主服务端之间的流量传输的流量采集次数。
[0081] 示例性的,张三所使用的笔记本共有2台主服务端,则依次建立笔记本与每一个主服务端的流量链路,并设置采集周期。需强调的是,本发明实施例所设置的采集周期为24小时,即将每一天设置为一个采集周期,且每天的采集次数越大越好,可设置24小时内采集流量链路内流量值最少为10000次。
[0082] 进一步地,所述流量值 有正负之分,当流量值为正时表示感知客户端将流量推送至主服务端,当流量值为负时表示感知客户端接收主服务端推送的流量,因此 的值可能为[12,0.1,1.2,‑67,‑79,‑0.3,19,…,11,17.2]。
[0083] 详细地,所述基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集,包括:
[0084] 求解所述流量矩阵的转置矩阵,基于流量矩阵和转置矩阵构建流量协方差矩阵,其中流量协方差矩阵为:
[0085]
[0086] 其中, 表示流量矩阵 的流量协方差矩阵, 为转置矩阵, 为构建流量矩阵时,每个采集周期内对感知客户端和主服务端之间的流量传输的流量采集次数;
[0087] 构建所述流量协方差矩阵的特征方程,求解所述特征方程得到特征值集,其中特征方程为:
[0088]
[0089] 其中, 为特征值集, 为单位对角矩阵, 为流量协方差矩阵的特征向量[0090] 本发明实施例中,基于特征方程求解特征值为已公开技术实施手段,在此不再赘述。
[0091] S4、从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,计算所述子特征集对特征值集的显著值,若所述显著值大于指定显著阈值,判定所述主服务端对感知客户端具有网络侵害风险。
[0092] 详细地,所述从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,包括:
[0093] 根据所述特征值集构建不同的待选特征集;
[0094] 根据重要性计算公式,计算每组待选特征集的重要性得分,所述重要性计算公式为:
[0095]
[0096] 其中, 表示第 个待选特征集的重要性得分, 为第 个待选特征集的特征个数,为每个特征的特征编号,  为特征值集的特征个数;
[0097] 提取重要性得分大于指定重要阈值的待选特征集,不重复的从重要性得分大于指定重要阈值的待选特征集提取每个特征,组合得到所述子特征集。
[0098] 进一步地,所述根据所述特征值集构建不同的待选特征集,包括:
[0099] 接收预先设定的集合特征最小值和集合特征最大值;
[0100] 从所述特征值集不重复的选择特征,且特征总数大于或等于集合特征最小值并小于或等于集合特征最大值,构成得到不同的所述待选特征集。
[0101] 示例性的,特征值集中共有10组特征,集合特征最小值和集合特征最大值分别为3和30,则按照排列组合依次从10组特征不重复的抽取可得到不同的待选特征集。进一步地,由于每组待选特征集的特征值均有可能互不相同,依次按照上述重要性计算公式计算得到每组待选特征集的重要性得分,并将重要性得分大于指定重要阈值的特征提取出来组建得到所述子特征集。
[0102] 进一步地,所述显著值的计算方法为:
[0103]
[0104] 其中, 表示子特征集对特征值集的显著值, 为子特征集的特征个数, 为特征值集的特征个数, 为 检验或卡方检验。
[0105] T‑test检验又称student t检验(Student's t test),是使用t分布理论来推论差异发生的概率,从而比较两组数据之间是否显著,卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小。本发明实施例可使用T‑test检验或卡方检验检测子特征集与特征值集之间的显著性,一般地,当子特征集与特征值集之间的显著性大于0.95时,即0.95为所述指定显著阈值,表明主服务端对感知客户端具有网络侵害风险。
[0106] 需解释的是,为什么子特征集与特征值集具有高显著性时,主服务端对感知客户端具有网络侵害风险,因为流量矩阵的特征值集表示的是主服务端与感知客户端之间的流量交互过程,正常情况下感知客户端主动连接主服务端一般是寻求主服务端的帮助,是无序且无规律的,如主服务端是程序分享网页,当张三在软件开发过程中有部分程序bug需要解决时访问该程序分享网页;或主服务端是视频资源下载网页,张三在软件开发过程中需要学习开发算法,因此从该视频资源下载网页中下载对应的开发算法等。而特征值是表示流量矩阵变动频率的程度,特指流量矩阵在特征向量所指的方向上会产生恒定的变换频率,因此子特征集与特征值集具有高显著性时,则表明该流量矩阵在朝向某个被特征向量所指明的方向发展,如在固定采集周期其流量变动均为固定增加的数值等方向,而在主动连接的背景下,主服务端与感知客户端之间的流量交互过程应该是无序的,但却表现出具有规律性,因此可能主服务端对感知客户端具有安全侵害的风险。
[0107] S5、提取所述被服务端与感知客户端的流量交互指标集,其中流量交互指标集包括流量交互指标值和流量交互时间,基于所述流量交互时间排序所述流量交互指标集,得到时间流量指标集。
[0108] 需解释的是,被服务端是主动寻求与感知客户端建立流量连接,因此风险系数一般情况下会大于主服务端,故本发明实施例采用另外一种风险感知方法。流量交互指标集是被服务端与感知客户端之间数据传输过程的一系列指标,包括但不限于TCP 会话建立成功数、TCP 会话建立失败数、上行数据包数量、下行数据包数量、平均发包长度、平均收包长度、被服务端的端口访问数、被服务端IP 拥有的连接数、被服务端接收及发送RST包数量、感知客户端接收及发送RST包数量、被服务端接收及发送SYN包数等。
[0109] 且可理解的是,每个指标均对应有发生时间,即流量交互时间。如被服务端在2022年8月10日晚八点的平均发包长度为20Bytes。
[0110] 本发明实施例中,根据流量交互时间按照先手发生顺序对每组流量交互指标执行排序,得到包括时间的时间流量指标集,如被服务端的平均发包长度:20Bytes(2022年8月10日晚八点)、25Bytes(2022年8月10日晚八点10分)、500Bytes(2022年8月10日晚八点20分)等。
[0111] S6、将所述时间流量指标集输入至预先训练完成的网络安全感知模型执行风险预测,得到被服务端对感知客户端的网络侵害风险判定结果。
[0112] 需解释的是,所述网络安全感知模型由深度学习网络构建得到,按照网络先后连接顺序共包括七层结构,第一层结构为128个LSTM单元、第二层结构为1个dropout层、第三层结构为64个改进LSTM单元、第四层结构为1个dropout层、第五层结构为32个改进LSTM单元、第六层结构为1个dropout层、第七层结构为分类层。
[0113] 需解释的是,LSTM(Long Short‑Term Memory)指长短期记忆人工神经网络,是一种时间循环神经网络,具有高效提取数据特征并预测的作用,因此本发明实施例中,在网络安全感知模型第一层结构中首尾相连128个LSTM单元,其次,为了防止过拟合现象的发生,同时第二层结构为1个dropout层,dropout层用于适当的移出部分模型参数,使得时间流量指标集之间的协同作用被减弱。
[0114] 需格外注意的是,本发明实施例根据时间流量指标集的数据特征改进了LSTM单元得到改进LSTM单元并放置于网络安全感知模型的第三层及第五层。
[0115] 详细地,所述改进LSTM单元,包括:
[0116] 将LSTM单元的遗忘门的表达式用如下改进公式替代:
[0117]
[0118] 其中, 为遗忘门在时刻 的改进公式, 为遗忘门的激活函数, 为遗忘门的权值矩阵, 为遗忘门的偏置向量, 为上一个LSTM输出门的输出值, 为在时刻 时的时间流量指标, 为在时刻 和时刻 时两组时间流量指标的差值, 为预设的差值偏置值, 为时间流量指标集的指标类型总数, 为第 个指标的权重值。
[0119] 将LSTM单元的遗忘门的表达式用如下改进公式替代:
[0120]
[0121] 本发明实施例精细化偏置向量,因为原来的遗忘门表达式的偏置向量为固定值,只能通过训练得到,并未考虑数据集之间的差异性对偏置向量的影响,由于被服务端与感知客户端的流量指标变化频率高,因此引入时刻 和时刻  时共两组时间流量指标的差值和权重值调整偏置向量的改变,可提高网络安全感知模型的预测准确率。
[0122] 本发明实施例为解决背景技术所述问题,接收网络安全感知指令,根据所述网络安全感知指令确定待检测的感知客户端,根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端,由于感知客户端主动连接服务端和被动连接服务端所受到的网络威胁概率是不同的,感知客户端主动连接服务端一般情况下所受到的网络威胁概率要小于感知客户端被动连接服务端,因此在感知客户端主动连接服务端情况下,本发明实施例通过构建感知客户端和主服务端的流量矩阵,并分析流量矩阵中特征值的显著性判断主服务端是否对感知客户端构成威胁,由于流量矩阵的构建和特征值的显著性计算简便,因此不过多占用计算资源,此外,被动连接服务端由于受到网络威胁的概率更大,因此本发明实施例先收集大量的被服务端与感知客户端的流量交互指标,并通过改进的网络安全感知模型执行预测,其中网络安全感知模型由深度学习模型构建,预测准确率更高。因此本发明提出的基于大数据的网络安全感知方法与装置,可以解决因当下固化使用机器学习或深度学习模型而导致网络安全威胁预测准确率较低的问题。
[0123] 如图2所示,是本发明一实施例提供的基于大数据的网络安全感知装置的功能模块图。
[0124] 本发明所述基于大数据的网络安全感知装置100可以安装于电子设备中。根据实现的功能,所述基于大数据的网络安全感知装置100可以包括服务端分类模块101、特征值求解模块102、主服务端风险判断模块103及被服务端风险判断模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0125] 所述服务端分类模块101,用于接收网络安全感知指令,根据所述网络安全感知指令确定待检测的感知客户端,根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端;
[0126] 所述特征值求解模块102,用于构建所述感知客户端和主服务端的流量矩阵,基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集;
[0127] 所述主服务端风险判断模块103,用于从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,计算所述子特征集对特征值集的显著值,若所述显著值大于指定显著阈值,判定所述主服务端对感知客户端具有网络侵害风险;其中,所述显著值的计算方法为:
[0128]
[0129] 其中, 表示子特征集对特征值集的显著值, 为子特征集的特征个数, 为特征值集的特征个数, 为 检验或卡方检验;
[0130] 所述被服务端风险判断模块104,用于提取所述被服务端与感知客户端的流量交互指标集,其中流量交互指标集包括流量交互指标值和流量交互时间,基于所述流量交互时间排序所述流量交互指标集,得到时间流量指标集,将所述时间流量指标集输入至预先训练完成的网络安全感知模型执行风险预测,得到被服务端对感知客户端的网络侵害风险判定结果,其中,所述网络安全感知模型由深度学习网络构建得到,按照网络先后连接顺序共包括七层结构,第一层结构为128个LSTM单元、第二层结构为1个dropout层、第三层结构为64个改进LSTM单元、第四层结构为1个dropout层、第五层结构为32个改进LSTM单元、第六层结构为1个dropout层、第七层结构为分类层。
[0131] 详细地,本发明实施例中所述基于大数据的网络安全感知装置100中的所述各模块在使用时采用与上述的图1中所述的基于区块链的产品供应链管理方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
[0132] 如图3所示,是本发明一实施例提供的实现基于大数据的网络安全感知方法的电子设备的结构示意图。
[0133] 所述电子设备1可以包括处理器10、存储器11和总线12,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于大数据的网络安全感知方法程序。
[0134] 其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于大数据的网络安全感知方法程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0135] 所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于大数据的网络安全感知方法程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
[0136] 所述总线12可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线12可以分为地址总线、数据总线、控制总线等。所述总线12被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0137] 图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0138] 例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi‑Fi模块等,在此不再赘述。
[0139] 进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI‑FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
[0140] 可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light‑Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0141] 应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0142] 所述电子设备1中的所述存储器11存储的基于大数据的网络安全感知方法程序是多个指令的组合,在所述处理器10中运行时,可以实现:
[0143] 接收网络安全感知指令,根据所述网络安全感知指令确定待检测的感知客户端;
[0144] 根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端;
[0145] 构建所述感知客户端和主服务端的流量矩阵,基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集;
[0146] 从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,计算所述子特征集对特征值集的显著值,若所述显著值大于指定显著阈值,判定所述主服务端对感知客户端具有网络侵害风险;其中,所述显著值的计算方法为:
[0147]
[0148] 其中, 表示子特征集对特征值集的显著值, 为子特征集的特征个数, 为特征值集的特征个数, 为 检验或卡方检验;
[0149] 提取所述被服务端与感知客户端的流量交互指标集,其中流量交互指标集包括流量交互指标值和流量交互时间,基于所述流量交互时间排序所述流量交互指标集,得到时间流量指标集;
[0150] 将所述时间流量指标集输入至预先训练完成的网络安全感知模型执行风险预测,得到被服务端对感知客户端的网络侵害风险判定结果,其中,所述网络安全感知模型由深度学习网络构建得到,按照网络先后连接顺序共包括七层结构,第一层结构为128个LSTM单元、第二层结构为1个dropout层、第三层结构为64个改进LSTM单元、第四层结构为1个dropout层、第五层结构为32个改进LSTM单元、第六层结构为1个dropout层、第七层结构为分类层。
[0151] 具体地,所述处理器10对上述指令的具体实现方法可参考图1至图3对应实施例中相关步骤的描述,在此不赘述。
[0152] 进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read‑Only Memory)。
[0153] 本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
[0154] 接收网络安全感知指令,根据所述网络安全感知指令确定待检测的感知客户端;
[0155] 根据TCP连接规则,提取所述感知客户端在当前时刻下主动连接的服务端得到主服务端及被动连接的服务端得到被服务端;
[0156] 构建所述感知客户端和主服务端的流量矩阵,基于所述流量矩阵构建流量协方差矩阵并求解所述流量协方差矩阵的特征值集;
[0157] 从所述特征值集中挑选重要性大于指定重要阈值的子特征得到子特征集,计算所述子特征集对特征值集的显著值,若所述显著值大于指定显著阈值,判定所述主服务端对感知客户端具有网络侵害风险;其中,所述显著值的计算方法为:
[0158]
[0159] 其中, 表示子特征集对特征值集的显著值, 为子特征集的特征个数, 为特征值集的特征个数, 为 检验或卡方检验;
[0160] 提取所述被服务端与感知客户端的流量交互指标集,其中流量交互指标集包括流量交互指标值和流量交互时间,基于所述流量交互时间排序所述流量交互指标集,得到时间流量指标集;
[0161] 将所述时间流量指标集输入至预先训练完成的网络安全感知模型执行风险预测,得到被服务端对感知客户端的网络侵害风险判定结果,其中,所述网络安全感知模型由深度学习网络构建得到,按照网络先后连接顺序共包括七层结构,第一层结构为128个LSTM单元、第二层结构为1个dropout层、第三层结构为64个改进LSTM单元、第四层结构为1个dropout层、第五层结构为32个改进LSTM单元、第六层结构为1个dropout层、第七层结构为分类层。
[0162] 在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0163] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0164] 另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0165] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0166] 因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0167] 此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0168] 最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。