一种实时网络流量数据解析方法及系统转让专利

申请号 : CN202210509072.3

文献号 : CN114629809B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 常庭懋刘天亮

申请人 : 北京启天安信科技有限公司

摘要 :

本发明公开了一种实时网络流量数据解析方法及系统,该方法包括:接收网络接口下实时数据流;基于第一报文特征单元对所述实时数据流提取初次特征,所述第一报文特征单元基于预设匹配规则对文本数据进行匹配搜索;在初次特征提取成功的情况下基于初次特征对所述实时数据流进行报文解析;在初次特征提取失败的情况下基于第二报文特征单元对所述实时数据流提取二次特征,基于二次特征对所述实时数据流进行报文解析,所述第二报文特征单元基于语义挖掘对文本数据进行特征提取。本发明减小了面向多类型网络协议解析的复杂性,提高了报文解析效率。

权利要求 :

1.一种实时网络流量数据解析方法,其特征在于,包括:接收网络接口下实时数据流;

基于第一报文特征单元对所述实时数据流提取初次特征,所述第一报文特征单元基于预设匹配规则对文本数据进行匹配搜索;

在初次特征提取成功的情况下基于初次特征对所述实时数据流进行报文解析;

在初次特征提取失败的情况下基于第二报文特征单元对所述实时数据流提取二次特征,基于二次特征对所述实时数据流进行报文解析,所述第二报文特征单元基于语义挖掘对文本数据进行特征提取;

所述在初次特征提取失败的情况下基于第二报文特征单元对所述实时数据流提取二次特征,基于二次特征对所述实时数据流进行报文解析,包括:基于第二报文特征单元对所述实时数据流提取二次特征,所述二次特征包括直观统计特征、概率统计特征、熵值特征、频域特征中的至少一种;

基于提取的二次特征进行特征分析,获得优化特征数据;

基于优化特征数据对于报文解析结果的关联性强度,对优化特征分配权重;

基于权重数据和优化特征对所述实时数据流进行报文解析;

所述基于提取的二次特征进行特征分析,获得优化特征数据,包括:基于提取的特征的特征矩阵进行标准化处理;

基于预设线性转化矩阵对特征矩阵进行变换,得到变换后的特征矩阵;

获取变换后的特征矩阵中每个向量与非自身向量的相关性参数,得到特征矩阵对应的相关性矩阵;

对于相关性矩阵进行求解得到特征值和特征向量;

对特征值从大到小排序,得到预设数量个排序靠前的特征值及特征值对应的特征向量;

所述基于优化特征数据对于报文解析结果的关联性强度,对优化特征分配权重,包括:步骤1:在优化特征数据的集合中,选择其中一个优化特征数据A1,并对优化特征数据A1中的分量特征数据a,获取与所述优化特征数据A1同类别的优化特征数据B中的所述分量特征数据b和与所述优化特征数据A不同类别的优化特征数据C中的所述分量特征数据c,基于分量特征数据b和a的第一差值和分量特征数据c和a的第二差值,在所述第二差值大于第一差值时,增加优化特征数据中分量特征数据的权重,反之,减小优化特征数据中分量特征数据的权重;

步骤2:重新选择一个优化特征数据A2,执行步骤1的过程;

步骤3:重复执行预设次步骤2,获取优化特征数据中分量特征数据的权重;

步骤4:基于步骤1‑3,获得优化特征数据中每个分量特征数据的权重。

2.根据权利要求1所述的一种实时网络流量数据解析方法,其特征在于,所述基于第一报文特征单元对所述实时数据流提取初次特征,包括:基于实时数据流在预设规则库中进行搜索匹配,获取实时数据流中存在的预设特征字段或者符合的预设特征条件,所述预设特征字段和预设特征条件是所述预设规则库中预先配置的;

若获取到至少一个预设特征字段或预设特征条件,则初次特征提取成功,否则初次特征提取失败。

3.根据权利要求1所述的一种实时网络流量数据解析方法,其特征在于,所述在初次特征提取成功的情况下基于初次特征对所述实时数据流进行报文解析,包括:基于初次特征在预设协议数据表中的描述数据中匹配至少一个描述数据,所述预设协议数据表中包括协议名称字段和协议描述数据字段内容;

在预设协议数据表中确定描述数据对应的协议名称;

基于协议名称调用对应的报文解析方法对所述实时数据流进行报文解析。

4.根据权利要求1所述的一种实时网络流量数据解析方法,其特征在于,所述在优化特征数据的集合中,选择其中一个优化特征数据A1之前,还包括:对优化特征数据集中的数据进行聚类分析,获取多个类别的优化特征数据;

基于每个类别中的数据个数与数据集中数据的总个数的占比,确定第一聚类指标;

基于每个类别在数据集中的概率计算聚类数据的熵,记为第二聚类指标;

基于第一聚类指标与第二聚类指标对聚类结果进行评价,在聚类结果未达到预设条件时,调整聚类算法的参数后重新执行聚类算法,得到新的聚类结果,直至获得满足预设条件的聚类结果;

基于满足预设条件的聚类结果,在所有类别中选择第二聚类指标大于预设值的类别进行保留,基于保留类别中的优化特征数据作为新的优化特征数据集。

5.一种实时网络流量数据解析系统,执行权利要求1‑4任一所述的一种实时网络流量数据解析方法,其特征在于,包括:待解析数据接收单元,用于接收网络接口下实时数据流;

第一特征提取单元,用于基于第一报文特征单元对所述实时数据流提取初次特征,所述第一报文特征单元基于预设匹配规则对文本数据进行匹配搜索;

第一报文解析单元,用于在初次特征提取成功的情况下基于初次特征对所述实时数据流进行报文解析;

第二报文解析单元,用于在初次特征提取失败的情况下基于第二报文特征单元对所述实时数据流提取二次特征,基于二次特征对所述实时数据流进行报文解析,所述第二报文特征单元基于语义挖掘对文本数据进行特征提取。

6.根据权利要求5所述的一种实时网络流量数据解析系统,其特征在于,所述第一报文解析单元,包括:第一匹配单元,用于基于初次特征在预设协议数据表中的描述数据中匹配至少一个描述数据,所述预设协议数据表中包括协议名称字段和协议描述数据字段内容;

第二匹配单元,用于在预设协议数据表中确定描述数据对应的协议名称;

第一解析执行单元,用于基于协议名称调用对应的报文解析方法对所述实时数据流进行报文解析。

7.根据权利要求5所述的一种实时网络流量数据解析系统,其特征在于,所述第二报文解析单元,包括:多特征提取单元,用于基于第二报文特征单元对所述实时数据流提取二次特征,所述二次特征包括直观统计特征、概率统计特征、熵值特征、频域特征中的至少一种;

第一特征优化单元,用于基于提取的二次特征进行特征分析,获得优化特征数据;

第二特征优化单元,用于基于优化特征数据对于报文解析结果的关联性强度,对优化特征分配权重;

第二解析执行单元,用于基于权重数据和优化特征对所述实时数据流进行报文解析。

说明书 :

一种实时网络流量数据解析方法及系统

技术领域

[0001] 本发明涉及协议解析技术领域,具体涉及一种实时网络流量数据解析方法及系统。

背景技术

[0002] 协议解析是处理网络流量的基础任务,主要对常见协议进行解析,包括链路封装协议、网络基础协议、远程服务协议、远程服务协议、网络管理协议、网络路由协议、类文本传输协议、网络文件服务协议、网络流媒体协议等等。
[0003] 现有技术中,协议解析具有以下特点:
[0004] (1)网络协议的种类众多,常见的协议超过200种,而软件更是超过千种;
[0005] (2)网络协议阶段较多,例如加密协议通常会分为握手协议和加密传输阶段,握手阶段和加密传输的特点不仅相同,而有的协议还采取握手和业务流分离的方式;
[0006] (3)表明行为的数据通常位于加密数据中,大大提高了提取能够判别的行为的特征的难度。
[0007] 以上这些特点增加了对如此多的协议种类、行为类型进行解析识别的难度。

发明内容

[0008] 针对上述现有技术存在的问题,本发明提供了一种实时网络流量数据解析方法及系统,能够对种类众多的报文数据实现高效高准确率的协议解析分类。
[0009] 第一方面,本申请实施例提供了一种实时网络流量数据解析方法,该方法包括如下步骤:
[0010] 接收网络接口下实时数据流;
[0011] 基于第一报文特征单元对所述实时数据流提取初次特征,所述第一报文特征单元基于预设匹配规则对文本数据进行匹配搜索;
[0012] 在初次特征提取成功的情况下基于初次特征对所述实时数据流进行报文解析;
[0013] 在初次特征提取失败的情况下基于第二报文特征单元对所述实时数据流提取二次特征,基于二次特征对所述实时数据流进行报文解析,所述第二报文特征单元基于语义挖掘对文本数据进行特征提取。
[0014] 在一个可选的实现方式中,所述基于第一报文特征单元对所述实时数据流提取初次特征,包括:
[0015] 基于实时数据流在预设规则库中进行搜索匹配,获取实时数据流中存在的预设特征字段或者符合的预设特征条件,所述预设特征字段和预设特征条件是所述预设规则库中预先配置的;
[0016] 若获取到至少一个预设特征字段或预设特征条件,则初次特征提取成功,否则初次特征提取失败。
[0017] 在一个可选的实现方式中,所述在初次特征提取成功的情况下基于初次特征对所述实时数据流进行报文解析,包括:
[0018] 基于初次特征在预设协议数据表中的描述数据中匹配至少一个描述数据,所述预设协议数据表中包括协议名称字段和协议描述数据字段内容;
[0019] 在预设协议数据表中确定描述数据对应的协议名称;
[0020] 基于协议名称调用对应的报文解析方法对所述实时数据流进行报文解析。
[0021] 在一个可选的实现方式中,所述在初次特征提取失败的情况下基于第二报文特征单元对所述实时数据流提取二次特征,基于二次特征对所述实时数据流进行报文解析,包括:
[0022] 基于第二报文特征单元对所述实时数据流提取二次特征,所述二次特征包括直观统计特征、概率统计特征、熵值特征、频域特征中的至少一种;
[0023] 基于提取的二次特征进行特征分析,获得优化特征数据;
[0024] 基于优化特征数据对于报文解析结果的关联性强度,对优化特征分配权重;
[0025] 基于权重数据和优化特征对所述实时数据流进行报文解析。
[0026] 在一个可选的实现方式中,所述基于提取的二次特征进行特征分析,获得优化特征数据,包括:
[0027] 基于提取的特征的特征矩阵进行标准化处理;
[0028] 基于预设线性转化矩阵对特征矩阵进行变换,得到变换后的特征矩阵;
[0029] 获取变换后的特征矩阵中每个向量与非自身向量的相关性参数,得到特征矩阵对应的相关性矩阵;
[0030] 对于相关性矩阵进行求解得到特征值和特征向量;
[0031] 对特征值从大到小排序,得到预设数量个排序靠前的特征值及特征值对应的特征向量。
[0032] 在一个可选的实现方式中,所述基于优化特征数据对于报文解析结果的关联性强度,对优化特征分配权重,包括:
[0033] 步骤1:在优化特征数据的集合中,选择其中一个优化特征数据A1,并对优化特征数据A1中的分量特征数据a,获取与所述优化特征数据A1同类别的优化特征数据B中的所述分量特征数据b和与所述优化特征数据A不同类别的优化特征数据C中的所述分量特征数据c,基于分量特征数据b和a的第一差值和分量特征数据c和a的第二差值,在所述第二差值大于第一差值时,增加优化特征数据中分量特征数据的权重,反之,减小优化特征数据中分量特征数据的权重;
[0034] 步骤2:重新选择一个优化特征数据A2,执行步骤1的过程;
[0035] 步骤3:重复执行预设次步骤2,获取优化特征数据中分量特征数据的权重;
[0036] 步骤4:基于步骤1‑3,获得优化特征数据中每个分量特征数据的权重。
[0037] 在一个可选的实现方式中,所述在优化特征数据的集合中,选择其中一个优化特征数据A1之前,还包括:
[0038] 对优化特征数据集中的数据进行聚类分析,获取多个类别的优化特征数据;
[0039] 基于每个类别中的数据个数与数据集中数据的总个数的占比,确定第一聚类指标;
[0040] 基于每个类别在数据集中的概率计算聚类数据的熵,记为第二聚类指标;
[0041] 基于第一聚类指标与第二聚类指标对聚类结果进行评价,在聚类结果未达到预设条件时,调整聚类算法的参数后重新执行聚类算法,得到新的聚类结果,直至获得满足预设条件的聚类结果;
[0042] 基于满足预设条件的聚类结果,在所有类别中选择第二聚类指标大于预设值的类别进行保留,基于保留类别中的优化特征数据作为新的优化特征数据集。
[0043] 第二方面,本申请实施例提供了一种实时网络流量数据解析系统,该系统包括:
[0044] 待解析数据接收单元,用于接收网络接口下实时数据流;
[0045] 第一特征提取单元,用于基于第一报文特征单元对所述实时数据流提取初次特征,所述第一报文特征单元基于预设匹配规则对文本数据进行匹配搜索;
[0046] 第一报文解析单元,用于在初次特征提取成功的情况下基于初次特征对所述实时数据流进行报文解析;
[0047] 第二报文解析单元,用于在初次特征提取失败的情况下基于第二报文特征单元对所述实时数据流提取二次特征,基于二次特征对所述实时数据流进行报文解析,所述第二报文特征单元基于语义挖掘对文本数据进行特征提取。
[0048] 在一个可选的实现方式中,所述第一报文解析单元,包括:
[0049] 第一匹配单元,用于基于初次特征在预设协议数据表中的描述数据中匹配至少一个描述数据,所述预设协议数据表中包括协议名称字段和协议描述数据字段内容;
[0050] 第二匹配单元,用于在预设协议数据表中确定描述数据对应的协议名称;
[0051] 第一解析执行单元,用于基于协议名称调用对应的报文解析方法对所述实时数据流进行报文解析。
[0052] 在一个可选的实现方式中,所述第二报文解析单元,包括:
[0053] 多特征提取单元,用于基于第二报文特征单元对所述实时数据流提取二次特征,所述二次特征包括直观统计特征、概率统计特征、熵值特征、频域特征中的至少一种;
[0054] 第一特征优化单元,用于基于提取的二次特征进行特征分析,获得优化特征数据;
[0055] 第二特征优化单元,用于基于优化特征数据对于报文解析结果的关联性强度,对优化特征分配权重;
[0056] 第二解析执行单元,用于基于权重数据和优化特征对所述实时数据流进行报文解析。
[0057] 本发明的一种实时网络流量数据解析方法及系统,具备如下有益效果:本发明通过第一报文特征单元实现对报文特征的规则匹配,通过第二报文特征单元实现对报文特征的深层挖掘,将两种特征提取方法结合,有效减小了面向多类型网络协议解析特征提取的计算量,进而基于提取的特征进行报文解析,避免了采用匹配规则进行网络协议解析时在网络协议种类众多的情况下需要大量不同匹配规则的麻烦,减小了面向多类型网络协议解析的复杂性,提高了报文解析效率。

附图说明

[0058] 图1是本申请实施例中一种实时网络流量数据解析方法的流程示意图;
[0059] 图2是本申请实施例中初次特征提取的方法流程示意图;
[0060] 图3是本申请实施例中基于初次特征对所述实时数据流进行报文解析的方法流程示意图;
[0061] 图4是本申请实施例中提取二次特征并进行报文解析的方法流程示意图;
[0062] 图5是本申请实施例中对优化特征数据集进行缩减得到新的优化特征数据集的方法流程示意图;
[0063] 图6是本申请实施例中一种实时网络流量数据解析系统的结构框图;
[0064] 图7是本申请实施例中第一报文解析单元的结构框图。

具体实施方式

[0065] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0066] 本申请的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”、和“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0067] 参见图1,本申请实施例提供了一种实时网络流量数据解析方法,该方法包括如下步骤:
[0068] S1,接收网络接口下实时数据流;
[0069] S2,基于第一报文特征单元对所述实时数据流提取初次特征,所述第一报文特征单元基于预设匹配规则对文本数据进行匹配搜索;
[0070] S3,在初次特征提取成功的情况下基于初次特征对所述实时数据流进行报文解析;
[0071] S4,在初次特征提取失败的情况下基于第二报文特征单元对所述实时数据流提取二次特征,基于二次特征对所述实时数据流进行报文解析,所述第二报文特征单元基于语义挖掘对文本数据进行特征提取。
[0072] 本申请实施例中,考虑到协议报文的多样性采用两种报文解析方法,在一种场景中,实时数据流中的报文数据可以采用第一报文特征单元获取特征,并基于获得的特征调用对应的报文解析方法进行报文解析,可以理解,该场景下,采用的是简易模式即直接根据预设规则进行匹配,在预设规则库中可以搜索匹配得到结果,该预设规则库中存储的是常见的协议类型的报文文本匹配规则,在另一种场景中,面对实时数据流在预设规则库中不能搜索匹配得到结果,进而采用第二报文特征单元对文本数据进行深层特征挖掘,并基于该提取的深层特征基于预先训练完成的识别网络推测出报文解析结果,可以理解,该识别网络基于大量历史数据流数据对网络模型输入和输出之间的关系进行学习得到的,继而将实时数据流转换为对应的网络模型输入数据(即二次特征)就可以得到网络模型的输出数据,该输出数据表征了对实时数据流的报文解析结果。
[0073] 本申请实施例中,通过第一报文特征单元实现对报文特征的规则匹配,通过第二报文特征单元实现对报文特征的深层挖掘,将两种特征提取方法结合,有效减小了面向多类型网络协议解析特征提取的计算量,进而基于提取的特征进行报文解析,避免了采用匹配规则进行网络协议解析时在网络协议种类众多的情况下需要大量不同匹配规则的麻烦,减小了面向多类型网络协议解析的复杂性,提高了报文解析效率。
[0074] 参见图2,在一些实施方式中,上述步骤S2,基于第一报文特征单元对所述实时数据流提取初次特征,包括:
[0075] 基于实时数据流在预设规则库中进行搜索匹配,获取实时数据流中存在的预设特征字段或者符合的预设特征条件,所述预设特征字段和预设特征条件是所述预设规则库中预先配置的;
[0076] 若获取到至少一个预设特征字段或预设特征条件,则初次特征提取成功,否则初次特征提取失败。
[0077] 本申请中先基于第一报文特征单元对所述实时数据流提取初次特征,该初次特征是可以直接基于实时数据流原始数据获得的直观特征,可以是报文数据长度或者特征关键字等,基于该初次特征确定调用对应的报文解析方法进行协议解析,相比于直接基于实时数据流通过预先训练完成的深度神经网络进行报文解析,降低了特征提取的难度和深度神经网络多层隐藏层的繁杂计算量。
[0078] 参见图3,在一些实施方式中,上述步骤S3,在初次特征提取成功的情况下基于初次特征对所述实时数据流进行报文解析,包括:
[0079] S31,基于初次特征在预设协议数据表中的描述数据中匹配至少一个描述数据,所述预设协议数据表中包括协议名称字段和协议描述数据字段内容;
[0080] S32,在预设协议数据表中确定描述数据对应的协议名称;
[0081] S33,基于协议名称调用对应的报文解析方法对所述实时数据流进行报文解析。
[0082] 本申请实施例中,对于报文数据的解析为深度解析,包括了对应用层的分析,解析获取报文对应的各种应用及其内容,该深度解析包括:
[0083] 应用层协议解析:解析业务流所承载的应用层协议乃至软件。应用层协议和软件解析识别主要依赖特征识别技术,不同的应用会采用不同的协议和软件,从而使得每个应用和软件都有自己的特征,特征的选择是应用层协议和软件解析识别的关键。
[0084] 数据关联识别:解析采用控制流与业务流分离模式传输协议数据,通过控制流完成握手,而业务流没有任何特征。因此,首先要解析识别出控制流,然后根据控制流协议识别出业务流的端口等信息,从而识别业务流。
[0085] 行为识别:基于终端的行为进行分析,判断用户正在进行的动作,常用于无法通过协议判断的业务识别,如垃圾邮件等等。
[0086] 本申请实施例中,预设协议数据表中存储的字段包括协议类型、协议名称、协议描述等,对其中的协议描述字段内容的搜索匹配,基于搜索匹配到的协议描述字段进而可以搜索到协议名称和协议类型,可以理解,在预设协议数据表中搜索到的匹配数据条至少一条,可能为一条也可能为多条。
[0087] 参见图4,在一些实施方式中,上述步骤S4,述在初次特征提取失败的情况下基于第二报文特征单元对所述实时数据流提取二次特征,基于二次特征对所述实时数据流进行报文解析,包括:
[0088] S41,基于第二报文特征单元对所述实时数据流提取二次特征,所述二次特征包括直观统计特征、概率统计特征、熵值特征、频域特征中的至少一种;
[0089] S42,基于提取的二次特征进行特征分析,获得优化特征数据;
[0090] S43,基于优化特征数据对于报文解析结果的关联性强度,对优化特征分配权重;
[0091] S44,基于权重数据和优化特征对所述实时数据流进行报文解析。
[0092] 本申请实施例中,提取的特征包括但不限于直观统计特征、概率统计特征、熵值特征、频域特征,其中:
[0093] 直观统计特征包括长度、预测的分组数等;
[0094] 概率统计特征包括对字符、字节或者比特的统计数据分布概率;
[0095] 熵值特征包括:字符、字节或bit的熵值特征、包括分组间字节熵(分组间字节熵以字节为单位,计算报文中每个分组的特定位置的字节的熵。该特征可以反映报文在特定位置输出数据的随机性)、分组间比特熵(分组间比特熵与分组间字节熵类似,将报文按照分组长度分块,计算所有块中某一个特定位置的比特的熵。该特征可以反映报文在不同的比特位输出的随机性)、整体字节熵(以字节为单位,计算全部报文总体的熵。该特征在报文长度较短时,可以体现出报文输出的随机性的稳定程度)、分组内比特熵(分组内比特熵以分组为单位,计算密文中每个分组的的比特的熵);
[0096] 频域特征,包括通过离散傅立叶变换得到的频域特征,通过频域特征表征协议报文的不同位输出的随机程度;
[0097] 上述步骤中获取优化特征数据和对优化特征分配权重,可以基于神经网络训练时采用的大量训练样本数据,经过对训练样本集数据可以对提取的多种特征择优选择,以及分析不同种类特征的重要程度。
[0098] 具体的,基于提取的二次特征进行特征分析,获得优化特征数据,包括:对提取的特征去除冗余数据,在保留数据量较少的前提下保证保留数据的高价值性。
[0099] 在一些实施方式中,上述步骤S42,基于提取的二次特征进行特征分析,获得优化特征数据,包括:
[0100] 基于提取的特征的特征矩阵进行标准化处理;特征矩阵中,每一列表征一个包括多种特征参数的特征向量;
[0101] 基于预设线性转化矩阵对特征矩阵进行变换,得到变换后的特征矩阵;
[0102] 获取变换后的特征矩阵中每个向量与非自身向量的相关性参数,得到特征矩阵对应的相关性矩阵;在一个实施例中相关性矩阵采用协方差矩阵;
[0103] 对于相关性矩阵进行求解得到特征值和特征向量;
[0104] 对特征值从大到小排序,得到预设数量个排序靠前的特征值及特征值对应的特征向量。
[0105] 在一些实施方式中,上述步骤S43,基于优化特征数据对于报文解析结果的关联性强度,对优化特征分配权重,包括:
[0106] 步骤1:在优化特征数据的集合中,选择其中一个优化特征数据A1,并对优化特征数据A1中的分量特征数据a,获取与所述优化特征数据A1同类别的优化特征数据B中的所述分量特征数据b和与所述优化特征数据A不同类别的优化特征数据C中的所述分量特征数据c,基于分量特征数据b和a的第一差值和分量特征数据c和a的第二差值,在所述第二差值大于第一差值时,增加优化特征数据中分量特征数据的权重,反之,减小优化特征数据中分量特征数据的权重;
[0107] 步骤2:重新选择一个优化特征数据A2,执行步骤1的过程;
[0108] 步骤3:重复执行预设次步骤2,获取优化特征数据中分量特征数据的权重;
[0109] 步骤4:基于步骤1‑3,获得优化特征数据中每个分量特征数据的权重。
[0110] 本申请实施例中,通过基于第二差值和第一差值的比较,确定分量特征数据对于解析分析网络输出的影响程度,通过步骤3的多次重复执行,逐渐获得最佳的分量特征数据的权重数据,进一步的,在上述步骤1中,基于优化特征数据集,选择其中一个优化特征数据A1时,在一种实施方式中,在选择优化特征数据A1之前,先对优化特征数据集进行缩减,减小优化特征数据集的数据量同时提高优化特征数据集中数据的特征表征高效性,以避免步骤3中步骤2重复执行次数的不当设置导致的整个权重分配过程的复杂计算量,以及避免步骤1中随机选择优化特征数据的不当导致的权重分配偏差问题,具体的,参见图5,上述对优化特征数据集进行缩减,即:在优化特征数据的集合中,选择其中一个优化特征数据A1之前,还包括:
[0111] S431,对优化特征数据集中的数据进行聚类分析,获取多个类别的优化特征数据;
[0112] S432,基于每个类别中的数据个数与数据集中数据的总个数的占比,确定第一聚类指标;
[0113] S433,基于每个类别在数据集中的概率计算聚类数据的熵,记为第二聚类指标;
[0114] S434,基于第一聚类指标与第二聚类指标对聚类结果进行评价,在聚类结果未达到预设条件时,调整聚类算法的参数后重新执行聚类算法,得到新的聚类结果,直至获得满足预设条件的聚类结果;
[0115] S435,基于满足预设条件的聚类结果,在所有类别中选择第二聚类指标大于预设值的类别进行保留,基于保留类别中的优化特征数据作为新的优化特征数据集。
[0116] 可以理解,其中,聚类分析获取聚类结果即多个类别的优化特征数据,可以根据最终要获得聚类结果中类别的个数不同,获得多种聚类结果,进行根据多种聚类结果分别分析每种聚类结果的第一聚类指标和第二聚类指标,基于第一聚类指标和第二聚类指标获取一种最优的聚类结果,并基于该最优的聚类结果中第二聚类指标大于预设值的类别进行保留,用于选择一个优化特征数据A1,即基于上述得到的新的优化特征数据集选择一个优化特征数据A1,同理,在后续步骤2和步骤3中,每次在优化特征数据集中选择优化特征数据A1、A2、......An,An表示步骤3中最后一次执行步骤2选择一个优化特征数据。可以理解,在上述步骤S433中第二聚类指标表征聚类结果的所有类别的信息熵参数,在步骤S435中第二聚类指标表征聚类结果中单个类别的信息熵参数。可以理解,选择优化特征数据A1后还要选择与优化特征数据A1同类别的优化特征数据B、与优化特征数据A1不同类别的优化特征数据C,为了实现在选择优化特征数据A1、B、C时,能够实现各类别的有效的区分度,对特征数据的集合进行优化得到的优化特征数据集中的各个类别之间的不相似性要足够大,同时同一类别内的特征数据要足够代表所在类别的特征信息,以使得选择的优化特征数据A1能够充分表征所在类别的特征。其中,基于第一聚类指标与第二聚类指标对聚类结果进行评价,可以是基于第一聚类指标与第二聚类指标的乘积大小对聚类结果进行评价。
[0117] 参见图6,本申请实施例提供的一种实时网络流量数据解析系统,包括:
[0118] 待解析数据接收单元61,用于接收网络接口下实时数据流;
[0119] 第一特征提取单元62,用于基于第一报文特征单元对所述实时数据流提取初次特征,所述第一报文特征单元基于预设匹配规则对文本数据进行匹配搜索;
[0120] 第一报文解析单元63,用于在初次特征提取成功的情况下基于初次特征对所述实时数据流进行报文解析;
[0121] 第二报文解析单元64,用于在初次特征提取失败的情况下基于第二报文特征单元对所述实时数据流提取二次特征,基于二次特征对所述实时数据流进行报文解析,所述第二报文特征单元基于语义挖掘对文本数据进行特征提取。
[0122] 参见图7,在一种实施方式中,上述第一报文解析单元63,包括:
[0123] 第一匹配单元631,用于基于初次特征在预设协议数据表中的描述数据中匹配至少一个描述数据,所述预设协议数据表中包括协议名称字段和协议描述数据字段内容;
[0124] 第二匹配单元632,用于在预设协议数据表中确定描述数据对应的协议名称;
[0125] 第一解析执行单元633,用于基于协议名称调用对应的报文解析方法对所述实时数据流进行报文解析。
[0126] 在一种实施方式中,上述第二报文解析单元64,包括:
[0127] 多特征提取单元,用于基于第二报文特征单元对所述实时数据流提取二次特征,所述二次特征包括直观统计特征、概率统计特征、熵值特征、频域特征中的至少一种;
[0128] 第一特征优化单元,用于基于提取的二次特征进行特征分析,获得优化特征数据;
[0129] 第二特征优化单元,用于基于优化特征数据对于报文解析结果的关联性强度,对优化特征分配权重;
[0130] 第二解析执行单元,用于基于权重数据和优化特征对所述实时数据流进行报文解析。
[0131] 关于一种实时网络流量数据解析系统的具体限定可以参见上文中对于一种实时网络流量数据解析方法的限定,在此不再赘述。上述一种实时网络流量数据解析系统中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各单元可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个单元对应的操作。
[0132] 本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。