一种基于决策机和特征选择的快速入侵检测方法转让专利

申请号 : CN202110576400.7

文献号 : CN113283586B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 樊永显徐文枫李昌永

申请人 : 桂林电子科技大学

摘要 :

本发明公开了一种基于决策机和特征选择的快速入侵检测方法,包括如下步骤:1)预处理;2)特征选择;3)构建决策机,并对决策机模型进行训练;4)根据决策机获得重构决策树模型的参数,并重构决策树。这种方法不仅入侵检测识别率高以及训练检测模型时间短,而且提高了入侵检测系统的可解释能力。

权利要求 :

1.一种基于决策机和特征选择的快速入侵检测方法,其特征在于,包括如下步骤:

1)预处理:对数据集UNSW‑NB15进行预处理,预处理的过程为:

1.1)删除数据集中列名为”id”和”attack_cat”的列;

1.2)对列名为”proto”、”service”和”state”的列进行编码;

1.3)使用最小最大规范化方法对数据进行规范化,最小最大规范化方法定义为

2)特征选择:使用信息增益方法对数据集进行特征选择,对数据集进行特征选择的过程为:

2.1)使用信息增益对数据集中的数据进行计算,信息增益方法定义为InfoGain=H(D)‑H(D|A),其中

2.2)依据计算结果进行排序,选择信息增益值排前11的特征;

3)构建决策机,并对决策机模型进行训练:

3.1)定义决策机的总体架构,其定义的数学公式为其中,S为特征矩阵,t为阈值向量,m为决策矩阵,h为第二层的输出,B为模板矩阵;

3.2)根据公式,决策机由4层全连接网络组成:第一层为输入层;第二层定义激活函数为tanh(.),偏置做最大最小范式限制,最大最小范式限制定义为其中clip(.)为剪裁函数,主要作用是将输入限制在[0,1]区间内;desired=1×clip(norms,0,1); 第三层根据模板矩阵计算增广模板矩阵,计算公式定义为 并以softmax(.)为激活函数计算;第四层为输出层,激活函数为sigmoid(.);

4)根据决策机获得重构决策树模型的参数,并重构决策树:

4.1)一棵决策二叉树从数学层面可以定义为 其中diag(.)将向量映射到对角矩阵;向量x和t是 中的实向量;矩阵S为 中决策树的L×(L‑1)

特征矩阵;sgn(.)是sign或signum函数;矩阵B是(±1,0) 中决策树的模板矩阵;对于i=1,2,···,L,向量Bi是矩阵B的第i行;||·||1是实向量的l1范数;v是节点向量;

4.2)由决策机模型的第二层可以得到特征矩阵S和阈值向量t;由第三层可以得到模板矩阵B;由第四层可以得到决策矩阵m;

4.3)根据特征矩阵S,阈值向量t,模板矩阵B和决策矩阵m,重建决策树模型。

说明书 :

一种基于决策机和特征选择的快速入侵检测方法

技术领域

[0001] 本发明涉及信息安全领域,具体是一种基于决策机和特征选择的快速入侵检测方法。

背景技术

[0002] 网络技术快速发展的今天,人们越来越依赖网络进行信息处理。网络给人们带来便捷的同时,也存在这许多安全问题,因此网络安全技术显得尤为重要。其中,入侵检测技
术就是一个有效的方式。入侵检测技术可以主动地收集各种网络数据以及用户活动状态等
多方面的信息,进行安全性分析,从而及时的发现各种网络入侵行为并做出响应。目前的大
多数的入侵检测技术尽管在预测性能上非常的高,但是他们的无论对检测模型还是对检测
结果的可解释性能力十分的有限。

发明内容

[0003] 本发明的目的是针对现有技术中存在的不足,而提供一种基于决策机和特征选择的快速入侵检测方法。这种方法不仅入侵检测识别率高以及训练检测模型时间短,而且提
高了入侵检测系统的可解释能力。
[0004] 实现本发明目的的技术方案是:
[0005] 一种基于决策机和特征选择的快速入侵检测方法,包括如下步骤:
[0006] 1)对数据集UNSW‑NB15进行预处理,预处理的过程为:
[0007] 1.1)删除数据集中列名为”id”和”attack_cat”的列;
[0008] 1.2)对列名为”proto”、”service”和”state”的列进行编码;
[0009] 1.3)使用最小最大规范化方法对数据进行规范化,最小最大规范化方法定义为
[0010] 2)使用信息增益方法对数据集进行特征选择,对数据集进行特征选择的过程为:
[0011] 2.1)使用信息增益对数据集中的数据进行计算,信息增益方法定义为InfoGain=H(D)‑H(D|A),其中
[0012] 2.2)依据计算结果进行排序,选择信息增益值排前11的特征;
[0013] 3)构建决策机,并对决策机模型进行训练:
[0014] 3.1)定义决策机的总体架构,其定义的数学公式为
[0015] 其中,S为特征矩阵,t为阈值向量,m为决策矩阵,h为第二层的输出,B为模板矩阵;
[0016] 3.2)根据公式,决策机由4层全连接网络组成:第一层为输入层;第二层定义激活函数为tanh(.),偏置做最大最小范式限制,最大最小范式限制定义为
其中clip(.)为剪裁函数,主要作用是将输入限制在[0,1]区间内;desired=1×clip
(norms,0,1); 第三层根据模板矩阵计算增广模板矩阵,计算公
式定义为 并以softmax(.)为激活函数计算;第四层为输出
层,激活函数为sigmoid(.);
[0017] 4)根据决策机获得重构决策树模型的参数,并重构决策树:
[0018] 4.1)一棵决策二叉树从数学层面可以定义为其中diag(.)将向量映射到对角矩阵;向量x和t是 中的实向量;矩阵S为 中决策
L×(L‑1)
树的特征矩阵;sgn(.)是sign或signum函数;矩阵B是(±1,0) 中决策树的模板矩阵;
对于i=1,2,···,L,向量Bi是矩阵B的第i行;‖·‖1是实向量的l1范数;v是节点向量;
[0019] 4.2)由决策机模型的第二层可以得到特征矩阵S和阈值向量t;由第三层可以得到模板矩阵B;由第四层可以得到决策矩阵m;
[0020] 4.3)根据特征矩阵S,阈值向量t,模板矩阵B和决策矩阵m,重建决策树模型。
[0021] 本技术方案方法针对目前入侵检测的检测性能和可解释性说明的要求,用全连接网络训练决策树的相关参数,然后根据训练后的参数重建决策树。不同于传统的基于信息
增益,信息增益率和基尼系数的决策树模型,本技术方案提出的模型是基于全连接网络的
决策树模型,运用后向传播算法以获得重构决策树的参数。与其他的基于神经网络的模型
相比,本技术方案提出的模型不仅在譬如准确率和F1分数等评价指标上排名较高,而且具
有较高的可解释性。
[0022] 这种方法不仅入侵检测识别率高以及训练检测模型时间短,而且提高了入侵检测系统的可解释能力。

附图说明

[0023] 图1为实施例的流程示意图。

具体实施方式

[0024] 下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
[0025] 实施例:
[0026] 参照图1,一种基于决策机和特征选择的快速入侵检测方法,包括如下步骤:
[0027] 1)对数据集UNSW‑NB15进行预处理,预处理的过程为:
[0028] 1.1)删除数据集中列名为”id”和”attack_cat”的列;
[0029] 1.2)对列名为”proto”、”service”和”state”的列进行编码;
[0030] 1.3)使用最小最大规范化方法对数据进行规范化,最小最大规范化方法定义为
[0031] 2)使用信息增益方法对数据集进行特征选择,对数据集进行特征选择的过程为:
[0032] 2.1)使用信息增益对数据集中的数据进行计算,信息增益方法定义为InfoGain=H(D)‑H(D|A),其中
[0033] 2.2)依据计算结果进行排序,选择信息增益值排前11的特征;
[0034] 3)构建决策机,并对决策机模型进行训练:
[0035] 3.1)定义决策机的总体架构,其定义的数学公式为
[0036] 其中,S为特征矩阵,t为阈值向量,m为决策矩阵,h为第二层的输出,B为模板矩阵;
[0037] 3.2)根据公式,首先定义决策机模型的模板矩阵B,决策机由4层全连接网络组成:第一层为输入层;第二层定义激活函数为tanh(.),本例第二层数学定义为tanh(S×x‑t),
为了模型计算方便,把tanh(S×x‑t)转换为tanh(‑(‑x×S+MinMaxNorm(t))),其中S为该层
的特征矩阵,t为该层的阈值向量,阈值向量做最大最小范式限制,最大最小范式限制定义
为 其中clip(.)为剪裁函数,主要作用是将输入限制在[0,1]区间
内;desired=1×clip(norms,0,1); 第三层根据模板矩阵计算
增广模板矩阵,计算公式定义为 并以softmax(.)为激活函
数计算,本例 h为第二层的输出;第四层为输出层,激活函数为sigmoid
(.),本例sigmoid(K×m),K为第三层的输出;
[0038] 4)根据决策机获得重构决策树模型的参数,并重构决策树:
[0039] 4.1)一棵决策二叉树从数学层面可以定义为其中diag(.)将向量映射到对角矩阵;向量x和t是 中的实向量;矩阵S为 中决策
L×(L‑1)
树的特征矩阵;sgn(.)是sign或signum函数;矩阵B是(±1,0) 中决策树的模板矩阵;
对于i=1,2,···,L,向量Bi是矩阵B的第i行;‖·‖1是实向量的l1范数;v是节点向量;
[0040] 4.2)由决策机模型的第二层可以得到特征矩阵S和阈值向量t;由第三层可以得到模板矩阵B;由第四层可以得到决策矩阵m;
[0041] 4.3)根据特征矩阵S,阈值向量t,模板矩阵B和决策矩阵m,重建决策树模型。
[0042] 采用本例与其他基于神经网络的模型相比,本例提出的模型在运行时间方面表现最好,是排名第二的HYBRID‑CNN模型的1/64倍,对比结果如表1;
[0043] 表1
[0044]
[0045]