一种基于反馈聚类的网络设备识别方法及系统转让专利

申请号 : CN201611204074.2

文献号 : CN106850333B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱红松任春林丰轩白稳平闫兆腾李志孙利民

申请人 : 中国科学院信息工程研究所

摘要 :

本发明涉及一种基于反馈聚类的网络设备识别方法及系统。所述方法包括采集设备网络协议报文响应信息,对报文响应信息数据进行预处理,提取报文响应信息特征向量,利用特征向量进行聚类;建立聚类效用评估函数并对聚类结果进行验证;若本次聚类结果效用值低于目标效用值,则启动反馈模块对聚类模型进行参数调节,反之,则将得到的聚类结果用于识别网络设备品牌和型号;通过聚类效用评估模型和反馈模块能够有效地调节聚类模型,提升聚类效果。本发明能够基于网络协议响应报文采用自动聚类和反馈调节的方法识别网络设备品牌和型号,相对于现有方法,减少了设备识别的工作量,同时对于未知设备也具有识别的参考价值。

权利要求 :

1.一种基于反馈聚类的网络设备识别方法,其特征在于,其步骤包括:步骤1,对公网中存活的网络设备进行网络协议探测,获得网络协议的响应报文信息;

步骤2,从响应报文信息中选择若干对应的网络设备,对其进行人工标定;

步骤3,针对具体的网络协议类型,选择和提取响应报文信息中的特征信息,通过统计分析的方法将特征信息向量化;

步骤4,对向量化后的特征信息进行聚类;

步骤5,依照步骤2中人工标定的数据对聚类结果进行评估,得到聚类效用的评估结果;

步骤6,若聚类效用的评估结果满足给定的目标阈值,则聚类过程停止,否则调节步骤4中聚类方案的参数,并重复步骤5和步骤6,直到聚类效用的评估结果满足给定的目标阈值,从而实现网络设备的识别。

2.根据权利要求1所述的方法,其特在于,步骤1通过扫描器扫描存活的网络设备并探测设备的网络协议类型,包括使用Nmap工具、Zmap工具进行扫描;探测所用到的网络协议包括TCP协议,UDP协议,Telnet协议,HTTP协议以及RTSP协议。

3.根据权利要求1所述的方法,其特征在于,步骤1根据不同网络协议的类型,对获得的网络协议的响应报文信息进行预处理,然后进行步骤2。

4.根据权利要求3所述的方法,其特征在于,所述预处理包括筛除对于特定网络协议无意义的响应内容,以及对出现多次的协议响应内容的去重工作;对于网络设备的选择方法包括随机选择,以及根据先验知识选择各品牌各型号的经典响应报文。

5.根据权利要求1所述的方法,其特征在于,步骤3中对于响应报文信息提取的特征信息包括协议内容关键字;特征提取的方法包括使用主成分分析法或者Relief算法选择有效的特征;对于特征的向量化过程包括使用TF-IDF方法建立单词向量空间,以及通过潜语义分析方法LSA挖掘协议报文内部潜在的语义特征。

6.根据权利要求1所述的方法,其特征在于,步骤4中使用的聚类方法包括:K-means聚类方法,贝叶斯聚类方法,层次聚类算法,或者增量聚类方法。

7.根据权利要求1所述的方法,其特征在于,步骤5中对于聚类结果的评估手段包括:建立聚类效用评估模型,使用人工验证的方式验证聚类正确性,得到聚类效用的评估结果。

8.根据权利要求1所述的方法,其特征在于,步骤6中对于聚类方法的反馈调节的参数包括:调节K-mean聚类算法中聚类个数,调节层次聚类法中类间距大小,调节增量聚类中分类效用函数的度量值。

9.一种基于反馈聚类的网络设备识别系统,其特征在于,包括:

网络协议探测模块,用于对公网中存活的网络设备进行网络协议探测,获得网络协议的响应报文信息;

人工标定模块,用于从响应报文信息中选择若干对应的网络设备,对其进行人工标定;

特征提取模块,用于针对具体的网络协议类型,选择和提取响应报文信息中的特征信息,通过统计分析的方法将特征信息向量化;

聚类模块,用于对向量化后的特征信息进行聚类;

聚类效用评估模块,用于依照人工标定的数据对聚类结果进行评估,得到聚类效用的评估结果;

聚类反馈调节模块,用于在聚类效用的评估结果不满足给定的目标阈值时,调节聚类模块中聚类方案的参数,直到聚类效用的评估结果满足给定的目标阈值。

说明书 :

一种基于反馈聚类的网络设备识别方法及系统

技术领域

[0001] 本发明涉及网络安全与机器学习技术领域,尤其涉及一种基于反馈聚类的网络设备识别方法与系统。

背景技术

[0002] 随着网络终端设备的日益普及,越来越多的网络终端设备(如摄像头,打印机等)接入到公网空间为人们提供服务,这些设备在给人们带来方便的同时,本身也存在诸多安全隐患。这样的安全隐患一般不引起人们重视,而一旦爆发,往往将造成难以估量的损失(例如2016年美国大规模断网事件,始作俑者就是利用物联网设备漏洞进行DDoS攻击)。为了有效杜绝这类安全隐患,首先需要快速探测网络空间中终端设备的基本信息,进而有必要对网络设备进行品牌和型号的识别。

发明内容

[0003] 本发明所要解决的问题是针对网络空间中存在的各种各样的终端设备,提出一种通用的基于反馈聚类的方法,利用网络协议响应报文特征达到有效识别网络设备品牌和型号的目的。
[0004] 本发明解决上述技术问题的技术方案如下:
[0005] 一种通用的基于反馈聚类的网络设备识别方法,首先采集设备的网络协议响应报文信息,提取协议报文中有效的特征向量,对其按照特定方法聚类后,建立聚类效用评估模型并评估聚类结果,根据聚类结果反馈调节原有的聚类模型(包括聚类方法参数调整,或者更换聚类方法),重复聚类与评估的过程,直到获得满意的聚类结果为止。具体步骤包括:
[0006] 步骤1,通过扫描服务器探知公网中存活的网络设备,对这些网络设备进行网络协议探测,获得网络协议的响应报文信息;
[0007] 步骤2,根据不同网络协议的类型,对响应报文信息进行预处理;
[0008] 步骤3,对处理之后的响应报文信息中选择若干对应的网络设备,对其进行人工标定(进行人工识别和标记);
[0009] 步骤4,针对具体的网络协议类型,选择和提取响应报文信息中的特征信息,通过统计分析的方法将特征信息向量化;
[0010] 步骤5,对向量化后的特征信息采用特定聚类方案进行聚类,设置聚类模型中使用的初始参数;
[0011] 步骤6,对聚类结果建立聚类效用评估模型,依照步骤3中人工标定的数据,计算聚类效用结果;
[0012] 步骤7,若聚类效用结果满足给定目标,则停止,否则启动聚类反馈调节模块,调节步骤5中聚类效用评估模型中的初始参数,并重复步骤6和步骤7,直到聚类效用结果最终满足给定目标,从而实现网络设备的识别。
[0013] 在上述技术方案的基础上,本发明还可以做如下改进。
[0014] 进一步,所述步骤1中对存活网络设备的扫描方法包括但不限于使用Nmap、Zmap扫描工具。对于网络设备协议的探测,包括但不限于常见的网络协议如TCP协议,UDP协议,Telnet协议,HTTP协议以及RTSP协议等。
[0015] 进一步,所述步骤2中对于协议响应信息的预处理过程,包括但不限于筛除对聚类过程无价值的协议响应内容,对出现多次的协议响应内容的去重工作等,对于网络设备的选择方法包括但不限于随机选择,以及根据先验知识选择各品牌各型号的经典响应报文。
[0016] 进一步,所述步骤4中对于协议响应报文特征提取的信息包括但不限于协议内容关键字,特征提取的方法包括但不限于使用主成分分析法或者Relief算法选择有效的特征,对于特征的向量化过程,包括但不限于使用TF-IDF方法建立单词向量空间,通过潜语义分析方法LSA挖掘协议报文内部潜在的语义特征。
[0017] 进一步,所述步骤5中使用的聚类方法,包括但不限于使用K-means聚类方法,使用贝叶斯聚类方法,使用层次聚类算法或者使用增量聚类方法。
[0018] 进一步,所述步骤6中对于聚类结果的评估手段,包括但不限于建立聚类效用评估模型,使用人工验证的方式验证聚类正确性,得到聚类效用的评估结果。
[0019] 进一步,所述步骤7中聚类反馈调节模块对于聚类方法模块的反馈调节的参数包括但不限于调节K-mean聚类算法中聚类个数,调节层次聚类法中类间距大小,调节增量聚类中分类效用函数的度量值。
[0020] 一种基于反馈聚类的反馈聚类的网络设备识别系统,其包括:
[0021] 网络协议探测模块,用于对公网中存活的网络设备进行网络协议探测,获得网络协议的响应报文信息;
[0022] 人工标定模块,用于从响应报文信息中选择若干对应的网络设备,对其进行人工标定;
[0023] 特征提取模块,用于针对具体的网络协议类型,选择和提取响应报文信息中的特征信息,通过统计分析的方法将特征信息向量化;
[0024] 聚类模块,用于对向量化后的特征信息进行聚类;
[0025] 聚类效用评估模块,用于依照人工标定的数据对聚类结果进行评估,得到聚类效用的评估结果;
[0026] 聚类反馈调节模块,用于在聚类效用的评估结果不满足给定的目标阈值时,调节聚类模块中聚类方案的参数,直到聚类效用的评估结果满足给定的目标阈值。
[0027] 本发明的有益效果是:现有的网络设备识别技术大多依赖于人工提取设备指纹并通过正则匹配的方式进行设备识别过程,这样的识别方式不仅费时费力,识别正确率得不到保证,同时对于发现和识别未知设备也无能为力。本发明所述方法通过自动聚类的方法解决了在网络识别过程中设备类型和型号种类不清楚的问题,并且指纹提取过程中实现了自动化识别的效果。

附图说明

[0028] 图1为本发明实施例中通过反馈聚类识别网络设备的流程图;
[0029] 图2为本发明实施例中基于web页面信息进行反馈聚类识别IP设备品牌和型号的流程图。

具体实施方式

[0030] 以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0031] 本实施例涉及一种基于反馈聚类的网络设备识别框架,主要是通过采集公网中存活的视频监控设备的HTTP协议信息,提取HTTP响应信息的报头信息和报文实体信息,筛除对聚类无益的响应报文(对于HTTP协议而言,主要包括状态码为不成功的响应报文实例),对其中人工容易识别的Hikvision和Dahua等20类品牌的摄像头进行标记,将报头关键字以及特定的HTML标签(如title标签,script标签)的内容信息作为特征向量,通过TF-IDF算法转换成单词向量空间,对样本采取增量聚类的方法,设置增量聚类中的分类效用函数初始值并得到聚类结果,定义样本识别准确率和样本识别召回率作为聚类效用评估模型,通过人工验证聚类结果得到聚类效用的评价值,根据评价值调整增量聚类过程中所采用的分类效用函数的初始参数。
[0032] 根据图1给出的识别过程流程图,本实施例的方法具体包括以下步骤:
[0033] 步骤1,通过扫描服务器向探测公网存活网络视频监控设备,采集这些设备基于HTTP协议的响应报文信息。
[0034] 步骤2,筛除对于聚类无用的响应报文信息,合并相同响应报文的设备。
[0035] 步骤3,依据人工识别经验提取20余种品牌的字符串指纹信息,通过正则匹配的方式对其中部分设备进行标记。
[0036] 步骤4,择HTTP响应报文头部关键字和HTTP响应报文主体中特定标签中的内容信息作为特征。通过TF-IDF算法,将HTTP的响应报文信息映射到一个单词向量空间,利用这个特征空间展开聚类。
[0037] 步骤5,对向量化后的特征信息采用增量聚类的方式进行聚类,设置增量聚类的分类效用函数中参数的初始值。
[0038] 步骤6,将标记样本识别率和召回率作为评估模型,通过人工验证的方法对已有聚类结果求得聚类效用值。
[0039] 步骤7,若聚类效用结果满足给定目标,则停止,否则启动聚类反馈调节模块,调节步骤5中增量聚类方案中的分类效用函数的参数值。
[0040] 下面以利用HTTP协议对网络监控设备进行品牌识别为例详细说明本实例的识别过程。其具体实现过程如图2所示。
[0041] 一、信息采集与数据预处理过程
[0042] 首先通过传统的扫描器(如Nmap、Zmap等工具)扫描公网中开放80端口的网络视频监控设备,通过GET方式对设备服务器发送请求信息,采集设备返回的HTTP协议响应信息。
[0043] 筛除相应信息中对聚类无意义的部分,一般为响应报头失败的状态码(如404,301等状态码),提取响应数据报文实体中的web页面信息,计算出页面的哈希值,根据哈希值去除重复的页面,得到若干页面样本。
[0044] 依据人工经验从处理后的样本中选择容易识别的品牌(如Hikvision,Dahua,TVT等),提取这些品牌的字符串指纹,利用这些指纹对其中一部分视频监控设备进行标记,并将标记后的样本和原来的数据集混合,作为聚类最终的输入源信息。
[0045] 二、特征提取与向量化过程
[0046] 对于以web页面为主的样本信息,考虑提取页面的文本特征,首先去掉页面中无关的标签信息,提取标签中的内容信息,通过TF-IDF算法提取页面中的关键字信息,将每个关键字视为一个维度,把原来的页面内容映射到一个单词向量空间。
[0047] 三、采用聚类算法自动聚类过程
[0048] 在单词向量空间中对页面样本进行聚类,可使用增量聚类方法——增量DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)算法进行聚类。在增量聚类算法中需定义分类效用函数用于指导聚类的质量,在分类效用函数中,我们将分类效用函数的DBSCAN算法中邻域内成为核心对象的最小邻域点数进行参数调整作为反馈调节的参数,选择一个初始值进行聚类,这会得到一个初步的聚类结果。
[0049] 四、对聚类效果进行评估及反馈过程
[0050] 在这些聚类结果中,包含之前被标记过的设备信息,利用这些标记过的设备信息通过人工检验的方法计算各个品牌的识别正确率和识别召回率,并得到两者加权的聚类评估结果,如果这个聚类结果达到指定的阈值则停止,否则需启动聚类反馈模块调节DBSCAN算法中的最小邻域点数。
[0051] 以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。