一种基于端信息扩展序列与随机森林模型的身份认证方法转让专利

申请号 : CN202010020123.7

文献号 : CN111510422B

文献日 : 2021-07-09

本发明涉及一种基于端信息扩展序列与随机森林模型的身份认证方法，所述方法在客户端基于自相关性强的基因函数F(x)生成主要特征明显的端信息扩展序列，在服务器端采用随机森林模型对各合法客户端生成的端信息扩展序列组成的数据集进行有监督学习，使用训练后得到的随机森林模型RF‑Model对监听到的端信息扩展序列执行分类操作，从而实现合法客户端的身份认证。本发明充分利用了端信息扩展序列所具有的自相关性，并隐藏数据集主要特征，增大了攻击者分析网络数据流的难度。本发明训练得到的随机森林模型具有分类精度高，认证效率快的特点，为基于端信息扩展序列的安全通信系统提供了身份认证新思路。

1.一种基于端信息扩展序列与随机森林模型的身份认证方法，其特征在于包含以下步骤：

(1)客户端输入基因函数F(x)；

(2)端信息扩展序列生成算法基于F(x)生成自相关性良好的端信息IpId、SrcPort；

(3)将(2)中生成的端信息IpId、SrcPort加载到套接字数据包中，从而得到端信息扩展序列{ExtendSeq1，ExtendSeq2，……，ExtendSeqN}，使用socket套接字发送到网络环境中；

(4)服务器端采用随机森林模型对各合法客户端生成的端信息扩展序列组成的数据集进行训练学习，得到随机森林模型RF‑Model；

(5)服务器端监听网络环境中的客户端发出的端信息扩展序列{ExtendSeq1，ExtendSeq2，……，ExtendSeqN}，提取出数据包中的端信息添加至测试集中；

(6)将(5)中得到的测试集输入(4)中得到的随机森林模型RF‑Model中进行分类；

(7)分析(6)中的分类结果，得出请求身份认证的合法客户端并提供个性化服务。

2.根据权利要求1所述的一种基于端信息扩展序列与随机森林模型的身份认证方法，其特征在于，包括在客户端输入基因函数F(x)，需要F(x)具有较好的自相关性，从而保证各合法用户生成的端信息扩展序列间保持良好的自相关性。

3.根据权利要求1所述的一种基于端信息扩展序列与随机森林模型的身份认证方法，其特征在于，包括在服务器端采用随机森林模型对各合法客户端生成的端信息扩展序列组成的数据集进行训练学习，需要服务器端根据各合法客户端所持有的基因函数生成带有标记的数据集，随后将数据集输入随机森林模型中进行有监督学习，从而得到随机森林模型RF‑Model。

一种基于端信息扩展序列与随机森林模型的身份认证方法

技术领域

[0001] 本发明涉及一种基于端信息扩展序列与随机森林模型的身份认证方法，旨在实现复杂网络环境下合法用户的身份认证，属于网络安全技术领域。

背景技术

[0002] 端信息扩展是指将通信内容或合法身份信息通过端信息扩展算法进行转换，用多项端信息组成序列的方式表示一条信息，各项端信息与所传递的信息本身无关。客户端利
用端信息扩展序列所具有的隐蔽性与抗分析能力，将通信内容或者合法身份认证信息通过
端信息扩展算法进行调制，从而实现将通信内容或合法身份认证信息隐藏在端信息扩展序
列中并发送至复杂网络。服务器监听网络数据流并识别出可信客户端发送的端信息扩展序
列，通过对识别出的端信息扩展序列进行解调，获得客户端发送的通信内容或实现合法客
户端的身份认证。

[0003] 随机森林作为新兴起的、高度灵活的一种机器学习算法，即使没有超参数调整，大多数情况下也会带来好的结果，可以用来执行分类和回归任务，拥有广泛的应用前景。随机
森林是一种集成算法(Ensemble Learning)，通过组合多个弱分类器，最终结果通过投票或
取均值，使得整体模型的结果具有较高的精确度和泛化性能。随机森林能够处理高维特征
数据集，对数据集的适应能力强，既能处理离散型数据，也能处理连续型数据。由于每棵树
可以独立、同时生成，容易做成并行化方法，具有很快的学习速度。

[0004] 认证技术是当今网络空间信息安全第一技术，使用安全可靠的身份认证技术对保证系统服务的正常运行具有重要意义。现有基于端信息扩展序列的安全通信系统中，客户
端产生的端信息扩展序列抗分析能力弱且自相关性差，服务器端的身份认证方法过度依赖
网络数据流特征且无法对各合法用户进行个性化识别与解调。为充分利用端信息扩展序列
的自相关性，提高服务器端的个性化解调能力，本发明基于随机森林模型，使用各合法用户
产生的端信息扩展序列作为数据集进行学习训练，将训练好的随机森林模型对客户端发送
的端信息扩展序列进行分类，从而实现合法用户的身份认证。本发明充分发挥了端信息扩
展序列抗分析能力的优势，利用网络数据流特征对合法客户端进行建模分析，大大提高端
信息扩展序列的抗截获与抗分析能力，使端信息扩展序列更好地适用于复杂网络环境，为
基于端信息扩展序列的安全通信系统提供身份认证新思路。

发明内容

[0005] 为了充分利用端信息扩展序列的自相关性，本发明基于随机森林模型，使用各合法用户产生的端信息扩展序列作为数据集进行学习训练，将训练好的随机森林模型对客户
端发送的端信息扩展序列进行分类，从而实现合法用户的身份认证。本发明使用的训练集
特征包括IP数据包头部中的标志位(记作IpId)、源端口号(记作SrcPort)、源IP(记作
SrcIp)、目的端口号(记作DstPort)、目的IP(记作DstIp)。随机森林模型在训练学习过程中
需要对各特征做重要性评估，筛选出重要性较高的特征，提高样本的预测效果，本发明重要
性较高的特征为IpId与SrcPort。本发明为基于端信息扩展序列的安全通信系统提供了身
份认证新思路，其特征在于以下步骤：

[0006] (1)客户端输入基因函数F(x)；

[0007] (2)端信息扩展序列生成算法基于F(x)生成自相关性良好的端信息IpId、SrcPort等；

[0008] (3)将(2)中生成的端信息IpId、SrcPort等加载到套接字数据包中，从而得到端信息扩展序列{ExtendSeq1，ExtendSeq2，……，ExtendSeqN}，使用socket套接字发送到网络
环境中；

[0009] (4)服务器端采用随机森林模型对各合法客户端生成的端信息扩展序列组成的数据集进行训练学习，得到随机森林模型RF‑Model；

[0010] (5)服务器端监听网络环境中的客户端发出的端信息扩展序列{ExtendSeq1，ExtendSeq2，……，ExtendSeqN}，提取出数据包中的端信息添加至测试集中；

[0011] (6)将(5)中得到的测试集输入(4)中得到的随机森林模型RF‑Model中进行分类；

[0012] (7)分析(6)中的分类结果，得出请求身份认证的合法客户端并提供个性化服务；

[0013] 本发明使用端信息IpId、SrcPort、SrcIP、DstPort、DstIP作为数据集特征，其中IpId与SrcPort作为主要特征，由于这两种端信息的随机性与隐蔽性，使得端信息扩展序列
组成的网络数据流不易被攻击者提取主要特征，增大了攻击者分析网络数据流的难度。本
发明基于各合法用户所特有的基因函数生成端信息扩展序列，使得端信息扩展序列间具有
良好的自相关性，本发明充分利用端信息扩展序列间所具有的相关性，基于随机森林模型
对端信息扩展序列进行特征提取，从而大大提高认证精度。随机森林模型具有分类精度高、
学习速度快的特点，能够在提高认证精度的同时，还能提高合法用户的身份认证效率。

附图说明

[0014] 为了更清楚地说明本发明实施例中的技术方案，下面结合附图与具体实施方案对本发明做进一步说明：

[0015] 图1随机森林模型示意图。

[0016] 图2基于端信息扩展序列与随机森林模型的身份认证流程图。

具体实施方式

[0017] 为使本发明的目的、技术、优点更清晰，下面结合附图对本发明作进一步详细、完整的描述。

[0018] 步骤(1)：客户端输入基因函数F(x)；

[0019] 所述步骤(1)中，客户端输入基因函数F(x)，需要F(x)具有较好的自相关性，从而保证各合法用户生成的端信息扩展序列间保持良好的自相关性。

[0020] 步骤(2)：端信息扩展序列生成算法基于F(x)生成自相关性良好的端信息IpId、SrcPort等；

[0021] 步骤(3)：将步骤(2)中生成的端信息IpId、SrcPort等加载到套接字数据包中，从而得到端信息扩展序列{ExtendSeq1，ExtendSeq2，……，ExtendSeqN}，使用socket套接字
发送到网络环境中；

[0022] 步骤(4)：服务器端采用随机森林模型对各合法客户端生成的端信息扩展序列组成的数据集进行训练学习，得到随机森林模型RF‑Model；

[0023] 所述步骤(4)中，服务器端采用随机森林模型对各合法客户端生成的端信息扩展序列组成的数据集进行训练学习，需要服务器端根据各合法客户端所持有的基因函数生成
带有标记的数据集，随后将数据集输入随机森林模型中进行有监督学习，从而得到随机森
林模型RF‑Model。

[0024] 步骤(5)：服务器端监听网络环境中的客户端发出的端信息扩展序列{ExtendSeq1，ExtendSeq2，……，ExtendSeqN}，提取出数据包中的端信息添加至测试集中；

[0025] 步骤(6)：将步骤(5)中得到的测试集输入步骤(4)中得到的随机森林模型RF‑Model中进行分类；

[0026] 步骤(7)：分析步骤(6)中的分类结果，得出请求身份认证的合法客户端并提供个性化服务；

[0027] 所述步骤(7)中，分析步骤(6)中的分类结果，需要在分类结果中出现频率最高的合法客户端作为最终的身份认证结果。

[0028] 本发明使用端信息IpId、SrcPort、SrcIP、DstPort、DstIP作为数据集特征，其中IpId与SrcPort作为主要特征，由于这两种端信息的随机性与隐蔽性，使得端信息扩展序列
组成的网络数据流不易被攻击者提取主要特征，增大了攻击者分析网络数据流的难度。本
发明基于各合法用户所特有的基因函数生成端信息扩展序列，使得端信息扩展序列间具有
良好的自相关性，本发明充分利用端信息扩展序列间所具有的相关性，基于随机森林模型
对端信息扩展序列进行特征提取，从而大大提高认证精度。随机森林模型具有分类精度高、
学习速度快的特点，能够在提高认证精度的同时，还能提高合法用户的身份认证效率。

一种基于端信息扩展序列与随机森林模型的身份认证方法转让专利

申请号 : CN202010020123.7

文献号 : CN111510422B

文献日 : 2021-07-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 段鹏飞 , 石乐义 , 兰茹 , 宋煜枭 , 侯博文 , 刘祎豪 , 马荣 , 徐兴华

申请人 : 中国石油大学(华东)

摘要 :

权利要求 :

说明书 :