一种基于应用层数据的网络数据分析方法转让专利
申请号 : CN202011565158.5
文献号 : CN112637017B
文献日 : 2022-02-08
发明人 : 李锦基 , 黄永权 , 王勋 , 符伟杰 , 骆新坤 , 李明东
申请人 : 深圳市高德信通信股份有限公司
摘要 :
权利要求 :
1.一种基于应用层数据的网络数据分析方法,其特征在于:包括以下步骤:步骤1:筛选出应用层:通过Next Generation Firewalls, NGFW捕捉读取网络数据,利用识别引擎加载并解析当前数据包信息,判断是否包含应用层数据包,如果是应用层数据包,则用识别引擎加载并解析出每个应用层数据包的应用层数据;
步骤2:解析应用层:利用Next Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;
步骤3:聚类分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种会话过程;
步骤4:具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码方式的观测值概率分布。
2.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤1中,捕捉读取过程是对网络的主干、出入口和或数据流的汇聚点的每个数据流进行识别,并解析应用层的数据。
3.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤1中,对数据包信息进行分析判断,剔除网络层和传输层的数据包。
4.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤1中,加载并解析过程中会出现五元组,五元组包括源IP地址、目的IP地址、源端口、目的端口和运输层协议。
5.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤1中,采用列表形式展现每个数据包的五元组和应用层数据,每个数据包占用列表的一行显示。
6.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤1中,使用16进制方式显示应用层数据,或使用ASCII的方式显示应用层数据。
7.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤2中,对于连续的数据包,将前后数据出现始终不变或者呈现有规律变化的数据以设定颜色标记。
8.根据权利要求1所述的一种基于应用层数据的网络数据分析方法,其特征在于:所述在步骤4中,利用应用层的隐马尔可夫模型,对获得的样本流进行测量,以获取样本的正常性分布和每个样本的正常性,或发现异常的样本流。
说明书 :
一种基于应用层数据的网络数据分析方法
技术领域
背景技术
式多是基于传统的相关软件,捕捉读取的原理为多年前的技术,现有的网络数据为了增强
数据安全都对数据进行了封装加密,导致使用传统的网络数据分析方法失败率高,还容易
出错,而且没有对数据进行分类,导致分析的结果夹杂在一起,容易导致数据混乱,为此提
出一种基于应用层数据的网络数据分析方法,来解决此问题。
发明内容
多年前的技术,现有的网络数据为了增强数据安全都对数据进行了封装加密,导致使用传
统的网络数据分析方法失败率高,还容易出错,而且没有对数据进行分类,导致分析的结果
夹杂在一起,容易导致数据混乱的问题。
数据包,则用识别引擎加载并解析出每个应用层数据包的应用层数据;
突出显示符合要求的应用层数据;
术从每种应用层数据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁
关键词序列构造代表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,
每条路径代表一种会话过程;
则表达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关
键词序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和
编码方式的观测值概率分布。
可以突破现有数据表面的加密,可以有效对网络数据进行捕捉读取,降低网络数据分析的
失败率,而且分析过程中会进行聚类分析,然后按照需要分别详细分析应用层数据的情况。
具体实施方式
数据包,则用识别引擎加载并解析出每个应用层数据包的应用层数据;
突出显示符合要求的应用层数据;
术从每种应用层数据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁
关键词序列构造代表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,
每条路径代表一种会话过程;
则表达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关
键词序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和
编码方式的观测值概率分布。
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
个数据包占用列表的一行显示,使用16进制方式显示应用层数据,或使用ASCII的方式显示
应用层数据,可以方便下一步的分析操作。
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
则用识别引擎加载并解析出每个应用层数据包的应用层数据;解析应用层:利用Next
Generation Firewalls, NGFW对选中的应用层数据进行过滤,得到符合要求的应用层数
据,或者将满足要求的应用层数据显示为特定颜色,突出显示符合要求的应用层数据;聚类
分析:对选定的应用层的数据进行聚类分析,提取应用层数据特征、字符串特征,然后进行
聚类分析,把聚类得到的每个类作为一种应用层数据,采用数据挖掘技术从每种应用层数
据中挖掘关键词和频繁关键词序列,采用属于同一种应用层数据的频繁关键词序列构造代
表该应用层会话规则的前缀树,前缀树中的每条连线代表一个关键词,每条路径代表一种
会话过程;具体分析:分析应用层的报文格式,把每个数据包的应用层数据看作一个字符
串,然后对所有字符串进行语法分析,以构造代表应用层的报文格式的自动机或者正则表
达式,预测应用层的状态转移关系,采用隐马尔可夫模型参数估计算法,以各个流的关键词
序列为训练集,估计应用层的状态转移概率矩阵,以及产生包括关键词、字符串长度和编码
方式的观测值概率分布。
和变型,本发明的范围由所附权利要求及其等同物限定。