一种基于应用层数据的网络数据分析方法转让专利

申请号 : CN202011565158.5

文献号 : CN112637017B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李锦基黄永权王勋符伟杰骆新坤李明东

申请人 : 深圳市高德信通信股份有限公司

摘要 :

本发明公开了一种基于应用层数据的网络数据分析方法,包括以下步骤:筛选出应用层:通过Next Generation Firewalls,NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层数据包,则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next Generation Firewalls,NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数据;本发明利用Next Generation Firewalls,NGFW捕捉读取网络数据,Next Generation Firewalls,NGFW为新一代技术,可以突破现有数据表面的加密,可以有效对网络数据进行捕捉读取,降低网络数据分析的失败率,而且分析过程中会进行聚类分析,然后按照需要分别详细分析应用层数据的情况。

权利要求 :

1.一种基于应用层数据的网络数据分析方法,其特征在于:包括以下步骤:步骤1:筛选出应用层:通过Next Generation Firewalls, NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层数据包,则用识别引擎加载并解析出每个应用层数据包的应用层数据;

步骤2:解析应用层:利用Next Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;

步骤3:聚类分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种会话过程;

步骤4:具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码方式的观测值概率分布。

2.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤1中,捕捉读取过程是对网络的主干、出入口和或数据流的汇聚点的每个数据流进行识别,并解析应用层的数据。

3.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤1中,对数据包信息进行分析判断,剔除网络层和传输层的数据包。

4.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤1中,加载并解析过程中会出现五元组,五元组包括源IP地址、目的IP地址、源端口、目的端口和运输层协议。

5.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤1中,采用列表形式展现每个数据包的五元组和应用层数据,每个数据包占用列表的一行显示。

6.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤1中,使用16进制方式显示应用层数据,或使用ASCII的方式显示应用层数据。

7.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤2中,对于连续的数据包,将前后数据出现始终不变或者呈现有规律变化的数据以设定颜色标记。

8.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤4中,利用应用层的隐马尔可夫模型,对获得的样本流进行测量,以获取样本的正常性分布和每个样本的正常性,或发现异常的样本流。

说明书 :

一种基于应用层数据的网络数据分析方法

技术领域

[0001] 本发明涉及网络数据技术领域,具体为一种基于应用层数据的网络数据分析方法。

背景技术

[0002] 网络数据分为四层:应用层、运输层、网络层和链路层。目前业界广泛使用的网络分析软件有Wireshark、Sniffer等,但是目前的网络数据分析方法捕捉读取网络数据的方
式多是基于传统的相关软件,捕捉读取的原理为多年前的技术,现有的网络数据为了增强
数据安全都对数据进行了封装加密,导致使用传统的网络数据分析方法失败率高,还容易
出错,而且没有对数据进行分类,导致分析的结果夹杂在一起,容易导致数据混乱,为此提
出一种基于应用层数据的网络数据分析方法,来解决此问题。

发明内容

[0003] 本发明的目的在于提供一种基于应用层数据的网络数据分析方法,解决了目前的网络数据分析方法捕捉读取网络数据的方式多是基于传统的相关软件,捕捉读取的原理为
多年前的技术,现有的网络数据为了增强数据安全都对数据进行了封装加密,导致使用传
统的网络数据分析方法失败率高,还容易出错,而且没有对数据进行分类,导致分析的结果
夹杂在一起,容易导致数据混乱的问题。
[0004] 为实现上述目的,本发明提供如下技术方案:一种基于应用层数据的网络数据分析方法,包括以下步骤:
[0005] 步骤1:筛选出应用层:通过Next Generation Firewalls, NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层
数据包,则用识别引擎加载并解析出每个应用层数据包的应用层数据;
[0006] 步骤2:解析应用层:利用Next Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数据,或者将满足要求的应用层数据显示为特定颜色,
突出显示符合要求的应用层数据;
[0007] 步骤3:聚类分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技
术从每种应用层数据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁
关键词序列构造代表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,
每条路径代表一种会话过程;
[0008] 步骤4:具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正
则表达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关
键词序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和
编码方式的观测值概率分布。
[0009] 优选的,所述在步骤1中,捕捉读取过程是对网络的主干、出入口和或数据流的汇聚点的每个数据流进行识别,并解析应用层的数据。
[0010] 优选的,所述在步骤1中,对数据包信息进行分析判断,剔除网络层和传输层的数据包。
[0011] 优选的,所述在步骤1中,加载并解析过程中会出现五元组,五元组包括源IP地址、目的IP地址、源端口、目的端口和运输层协议。
[0012] 优选的,所述在步骤1中,采用列表形式展现每个数据包的五元组和应用层数据,每个数据包占用列表的一行显示。
[0013] 优选的,所述在步骤1中,使用16进制方式显示应用层数据,或使用ASCII的方式显示应用层数据。
[0014] 优选的,所述在步骤2中,对于连续的数据包,将前后数据出现始终不变或者呈现有规律变化的数据以设定颜色标记。
[0015] 优选的,所述在步骤4中,利用应用层的隐马尔可夫模型,对获得的样本流进行测量,以获取样本的正常性分布和每个样本的正常性,或发现异常的样本流。
[0016] 与现有技术相比,本发明的有益效果是:本发明利用Next  Generation Firewalls, NGFW捕捉读取网络数据,Next Generation Firewalls, NGFW为新一代技术,
可以突破现有数据表面的加密,可以有效对网络数据进行捕捉读取,降低网络数据分析的
失败率,而且分析过程中会进行聚类分析,然后按照需要分别详细分析应用层数据的情况。

具体实施方式

[0017] 下面将通过实施例的方式对本发明作更详细的描述,这些实施例仅是举例说明性的而没有任何对本发明范围的限制。
[0018] 本发明提供一种技术方案:一种基于应用层数据的网络数据分析方法,包括以下步骤:
[0019] 步骤1:筛选出应用层:通过Next Generation Firewalls, NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层
数据包,则用识别引擎加载并解析出每个应用层数据包的应用层数据;
[0020] 步骤2:解析应用层:利用Next Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数据,或者将满足要求的应用层数据显示为特定颜色,
突出显示符合要求的应用层数据;
[0021] 步骤3:聚类分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技
术从每种应用层数据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁
关键词序列构造代表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,
每条路径代表一种会话过程;
[0022] 步骤4:具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正
则表达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关
键词序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和
编码方式的观测值概率分布。
[0023] 实施例一:
[0024] 筛选出应用层:通过Next Generation Firewalls, NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层数据包,
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next 
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
[0025] 实施例二:
[0026] 在实施例一中,再加上下述工序:
[0027] 在步骤1中,捕捉读取过程是对网络的主干、出入口和或数据流的汇聚点的每个数据流进行识别,并解析应用层的数据,可以读取足够的数据,保障数据的完整性。
[0028] 筛选出应用层:通过Next Generation Firewalls, NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层数据包,
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next 
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
[0029] 实施例三:
[0030] 在实施例二中,再加上下述工序:
[0031] 在步骤1中,对数据包信息进行分析判断,剔除网络层和传输层的数据包,及其剔除多余的数据,方便下一步的操作。
[0032] 筛选出应用层:通过Next Generation Firewalls, NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层数据包,
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next 
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
[0033] 实施例四:
[0034] 在实施例三中,再加上下述工序:
[0035] 在步骤1中,加载并解析过程中会出现五元组,五元组包括源IP地址、目的IP地址、源端口、目的端口和运输层协议,采用列表形式展现每个数据包的五元组和应用层数据,每
个数据包占用列表的一行显示,使用16进制方式显示应用层数据,或使用ASCII的方式显示
应用层数据,可以方便下一步的分析操作。
[0036] 筛选出应用层:通过Next Generation Firewalls, NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层数据包,
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next 
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
[0037] 实施例五:
[0038] 在实施例四中,再加上下述工序:
[0039] 在步骤2中,对于连续的数据包,将前后数据出现始终不变或者呈现有规律变化的数据以设定颜色标记,可以对需要分析的数据包进行标记,方便下一步的操作分析。
[0040] 筛选出应用层:通过Next Generation Firewalls, NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层数据包,
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next 
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
[0041] 实施例六:
[0042] 在实施例五中,再加上下述工序:
[0043] 在步骤4中,利用应用层的隐马尔可夫模型,对获得的样本流进行测量,以获取样本的正常性分布和每个样本的正常性,或发现异常的样本流,确保分析的效率。
[0044] 筛选出应用层:通过Next Generation Firewalls, NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层数据包,
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next 
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
[0045] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换
和变型,本发明的范围由所附权利要求及其等同物限定。