基于包长概率分布与k近邻算法的物联网设备识别方法转让专利

申请号 : CN202011506245.3

文献号 : CN112633353B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨家海段晨鑫王之梁

申请人 : 清华大学

摘要 :

本发明属于计算机网络管理技术领域,尤其涉及一种基于包长概率分布与k近邻算法的物联网设备识别方法。本方法在充分挖掘不同物联网设备流量特征的基础上,以一定时间内通信设备产生的网络数据包的长度概率分布作为单一特征,并进一步设计了一种基于k近邻算法的分类器,利用k近邻算法对产生流量的源设备的类型,尤其是特定的物联网设备类型,进行分类和识别的系统。本方法能有效区分产生流量的源设备是否是物联网设备以及是哪种已知的具体设备类型。与已有的用于同类任务的方法相比,本发明不仅实现了更高的识别准确率,同时在运行效率、鲁棒性、可扩展性与对特殊场景的适应能力等性能指标上都取得了提升。

权利要求 :

1.一种基于包长概率分布与k近邻算法的物联网设备识别方法,其特征在于该方法包括以下步骤:(1)实时采集一个待识别物联网设备的流量,得到一个网络数据包集合,网络数据包集合中的元素为与网络数据包的长度和方向相对应的二元组;

(2)对步骤(1)的网络数据包集合进行特征提取,包括以下步骤:(2‑1)按照设定的时间间隔,将网络数据包集合划分为多组;

(2‑2)根据网络数据包集合中的长度和方向,将相同长度和方向的数据包合并为同一类别,统计每组网络数据包集合中的相同类别的数据包数量;

(2‑3)分别计算每组网络数据包集合中的不同类别的数据包数量各占数据包数量总和的比例,将该比例记为网络数据包二元组的概率,从而得到不同类别数据包的概率分布,即该网络数据包集合的特征;

(3)遍历所有待识别物联网设备,返回步骤(1),得到与所有待识别物联网设备相对应的网络数据包集合的特征,形成一个网络数据包集合特征集;

(4)将步骤(3)的网络数据包集合特征集输入到k近邻分类器中,k近邻分类器的距离度量方式为全变差距离或海林格距离:全变差距离:

海林格距离:

k近邻分类器输出待识别物联网设备类型的分类结果,实现基于包长概率分布与k近邻算法的物联网设备识别。

2.如权利要求1所述的物联网设备识别方法,其特征在于所述的步骤(3)与步骤(4)之间还包括以下步骤:(1)将所述的网络数据包集合特征集输入DBSCAN聚类算法,DBSCAN聚类算法的距离度量方式与权利要求1步骤(4)中的k近邻分类器的距离度量方式相同,DBCSAN聚类算法输出特征集聚类后的网络数据包集合特征簇与特征离群点;

(2)计算上述步骤(1)中得到的每个簇的几何中心点;

(3)将上述步骤(1)中的特征离群点与步骤(2)中的几何中心点作为新的特征集输入到权利要求1的步骤(4)的k近邻分类器中。

3.一种基于包长概率分布与k近邻算法的物联网设备识别方法,其特征在于包括以下步骤:(1)实时采集一个待识别物联网设备的流量,得到一个网络数据包集合,网络数据包集合中的元素为与网络数据包的长度和方向相对应的二元组;

(2)对步骤(1)的网络数据包集合进行特征提取,包括以下步骤:(2‑1)按照设定的时间间隔,将网络数据包集合划分为多组;

(2‑2)根据网络数据包集合中的长度和方向,将相同长度和方向的数据包合并为同一类别,统计每组网络数据包集合中的相同类别的数据包数量;

(2‑3)分别计算每组网络数据包集合中的不同类别的数据包数量各占数据包数量总和的比例,将该比例记为网络数据包二元组的概率,从而得到不同类别数据包的概率分布,即该网络数据包集合的特征;

(3)遍历所有待识别物联网设备,返回步骤(1),得到与所有待识别物联网设备相对应的网络数据包集合的特征,形成一个网络数据包集合特征集;

(4)对步骤(2)的网络数据包集合的特征进行标记,标记内容为产生物联网流量的待识别物联网设备的类型;

(5)遍历所有待识别物联网设备,重复步骤(1)、步骤(2)和步骤(4),得到与所有待识别物联网设备相对应的网络数据包集合的特征,形成一个包含待识别物联网设备类型的网络数据包集合特征集;

(6)将上述步骤(3)的网络数据包集合特征集和步骤(5)的包含待识别物联网设备类型的网络数据包集合特征集输入到k近邻分类器中,k近邻分类器的距离度量方式为全变差距离或海林格距离:全变差距离:

海林格距离:

k近邻分类器输出步骤(3)的网络数据包集合特征集的分类结果;

(7)将步骤(6)的网络数据包集合特征集的分类结果作为步骤(3)的网络数据包集合特征集的标记,得到一个包含待识别物联网设备类型的网络数据包集合特征集;

(8)将步骤(5)的包含待识别物联网设备类型的网络数据包集合特征集和步骤(7)的包含待识别物联网设备类型的网络数据包集合特征集合并,得到一个最终网络数据包集合特征集;

(9)将步骤(8)的最终网络数据包集合特征集输入到步骤(6)的k近邻分类器中,输出得到识别结果,实现基于包长概率分布与k近邻算法的物联网设备识别。

说明书 :

基于包长概率分布与k近邻算法的物联网设备识别方法

技术领域

[0001] 本发明属于计算机网络管理技术领域,尤其涉及一种基于包长概率分布与k近邻算法 的物联网设备识别方法。

背景技术

[0002] 随着物联网技术的快速发展,各种各样不同类型的物联网设备已经被大量部署于人类 生产生活的各个领域,如智能家居、智慧城市与工业控制系统等。在带来巨大便捷的同时, 物联网设备的使用也为网络管理带来了新的挑战。不同于通用联网设备如智能手机和笔记 本电脑,物联网设备通常仅具有受限的计算与通信能力,因此他们需要定制化的网络管理 策略,如资源分配和预留、服务质量管理、访问控制和异常检测等。用一个具体的场景作 为案例,当某种物联网设备被纰漏存在安全漏洞时,为了防止这些设备被攻击者入侵并进 一步利用,网络管理员需要立即发现当前网络中是否存在同类型的危险设备。实现这类网 络管理需求都依赖于能够从流量中快速准确识别出产生流量的源设备的类型的技术。
[0003] 识别物联网设备最直接的方法是观察设备流量中存在的具有辨识性的信息,如MAC地 址中的OUI(Organizationally Unique Identifier)字段,DNS请求中的域名,IP地址 的所有者和HTTP请求的user‑agent字段。然而,由于存在同时提供多种设备类型的厂 商以及加密流量的普及,这种方法适用范围十分有限,且由于要等待特定的数据包,通常 伴随着很大且不确定的识别延迟。因此,当前用于物联网设备分类与识别的方法的范式是 通过特征工程与机器学习算法来完成。然而,现存的方法即使能够达到较高的分类准确率, 却仍然缺少很多其他在实际场景中需求很高的特性,列举如下:
[0004] 1、运行效率:由于设备分类系统通常会被用作处理实时流量的在线运行系统,其本身 的运行时效率应该尽可能高,且尽量减少对各种计算资源的开销。然而,已有方法趋向于 从流量中提取各种不同类型的特征,不少特征都依赖于对数据包载荷的深度检查与匹配, 使得系统运行效率不高且消耗较多的计算资源。
[0005] 2、鲁棒性:目前已有的很多方法都在较为纯净的网络环境中进行评估,而在实际网络 环境中,各种易于混淆的设备类型,如同厂商生产的不同类型设备和不同厂商生产的同类 型设备,以及网络中普遍存在的扫描流量等,都可能会硬性识别系统的性能。因此,设备 识别系统应该尽可能提高自身的鲁棒性,使得其在各种干扰条件下仍然能够取得较高的分 类准确率。
[0006] 3、可拓展性:物联网技术仍然处于快速发展中,这意味着不断会有新的设备类型出现, 此外,已经部署的设备类型也可能被纰漏为存在安全隐患。因此,设备分类系统应该具有 可拓展性,每当有新的需要识别的设备类型出现时,可以在尽量不干扰运行中的系统的前 提下对系统进行扩展。然而,目前很多设备识别方法都采用了有监督的机器学习方法,这 类方法每次更新都需要重新训练并替换掉原有的系统。另一类方法采用为每一种设备训练 一个二分类器的方式,然而这种方法仍然需要额外的训练过程,且在不同的分类器给出矛 盾的结果时需要额外的处理。
[0007] 4、对特殊场景的适应能力:很多已有的分类方法能够在训练数据充足的情况下取得较 好的性能,然而,现实场景中,获得大量有标签的数据是困难的,这就意味着系统需要能 够较好的适应小样本学习的场景。或者另一个典型的场景是,采集大量的训练数据是容易 的,但是对它们进行标注是费时费力的,这就要求分类系统能够被较为容易地切换为一种 半监督学习的模式,从而充分利用有标签和无标签的数据来获得更好的分类准确率。

发明内容

[0008] 本发明的目的是提出一种基于包长概率分布与k近邻算法的物联网设备识别方法,以 克服已有基于流量的物联网设备分类识别方法普遍难以满足的特性,在保证很高的分类准 确率的基础上,使得在实际运行的系统时能够具有较高的运行效率,较小的资源占用开销, 抵抗各种潜在干扰因素的鲁棒性,便捷增加新的待识别的设备类型的可扩展性和适应小样 本学习与半监督学习的特征场景的能力。
[0009] 本发明提出的基于包长概率分布与k近邻算法的物联网设备识别方法,该方法有两种 不同方案,其中:
[0010] 第一种方案包括以下步骤:
[0011] (1)实时采集一个待识别物联网设备的流量,得到一个网络数据包集合,网络数据 包集合中的元素为与网络数据包的长度和方向相对应的二元组;
[0012] (2)对步骤(1)的网络数据包集合进行特征提取,包括以下步骤:
[0013] (2‑1)按照设定的时间间隔,将网络数据包集合划分为多组;
[0014] (2‑2)根据网络数据包集合中的长度和方向,将相同长度和方向的数据包合并为同一 类别,统计每组网络数据包集合中的相同类别的数据包数量;
[0015] (2‑3)分别计算每组网络数据包集合中的不同类别的数据包数量各占数据包数量总和 的比例,将该比例记为网络数据包二元组的概率,从而得到不同类别数据包的概率分布, 即该网络数据包集合的特征;
[0016] (3)遍历所有待识别物联网设备,返回步骤(1),得到与所有待识别物联网设备相 对应的网络数据包集合的特征,形成一个网络数据包集合特征集;
[0017] (4)将步骤(3)的网络数据包集合特征集输入到k近邻分类器中,k近邻分类器的 距离度量方式为全变差距离或海林格距离:
[0018] 全变差距离:
[0019]
[0020] 海林格距离:
[0021]
[0022] k近邻分类器输出待识别物联网设备类型的分类结果,实现基于包长概率分布与k近 邻算法的物联网设备识别。
[0023] 上述第一种方案中的步骤(3)与步骤(4)之间,还可以包括以下步骤:
[0024] (1)将所述的网络数据包集合特征集输入DBSCAN聚类算法,DBSCAN聚类算法的距离 度量方式与权利要求1步骤(4)中的k近邻分类器的距离度量方式相同,DBCSAN聚类算 法输出特征集聚类后的网络数据包集合特征簇与特征离群点;
[0025] (2)计算上述步骤(1)中得到的每个簇的几何中心点;
[0026] (3)将上述步骤(1)中的特征离群点与步骤(2)中的几何中心点作为新的特征集输 入到权利要求1的步骤(4)的k近邻分类器中。
[0027] 本发明方法的第二种方案,包括以下步骤:
[0028] (1)实时采集一个待识别物联网设备的流量,得到一个网络数据包集合,网络数据 包集合中的元素为与网络数据包的长度和方向相对应的二元组;
[0029] (2)对步骤(1)的网络数据包集合进行特征提取,包括以下步骤:
[0030] (2‑1)按照设定的时间间隔,将网络数据包集合划分为多组;
[0031] (2‑2)根据网络数据包集合中的长度和方向,将相同长度和方向的数据包合并为同一 类别,统计每组网络数据包集合中的相同类别的数据包数量;
[0032] (2‑3)分别计算每组网络数据包集合中的不同类别的数据包数量各占数据包数量总和 的比例,将该比例记为网络数据包二元组的概率,从而得到不同类别数据包的概率分布, 即该网络数据包集合的特征;
[0033] (3)遍历所有待识别物联网设备,返回步骤(1),得到与所有待识别物联网设备相 对应的网络数据包集合的特征,形成一个网络数据包集合特征集;
[0034] (4)对步骤(2)的网络数据包集合的特征进行标记,标记内容为产生物联网流量的 待识别物联网设备的类型;
[0035] (5)遍历所有待识别物联网设备,重复步骤(1)、步骤(2)和步骤(4),得到与 所有待识别物联网设备相对应的网络数据包集合的特征,形成一个包含待识别物联网设备 类型的网络数据包集合特征集;
[0036] (6)将上述步骤(3)的网络数据包集合特征集和步骤(5)的包含待识别物联网设备 类型的网络数据包集合特征集输入到k近邻分类器中,k近邻分类器的距离度量方式为全 变差距离或海林格距离:
[0037] 全变差距离:
[0038]
[0039] 海林格距离:
[0040]
[0041] k近邻分类器输出步骤(3)的网络数据包集合特征集的分类结果;
[0042] (7)将步骤(6)的网络数据包集合特征集的分类结果作为步骤(3)的网络数据包集 合特征集的标记,得到一个包含待识别物联网设备类型的网络数据包集合特征集;
[0043] (8)将步骤(5)的包含待识别物联网设备类型的网络数据包集合特征集和步骤(7) 的包含待识别物联网设备类型的网络数据包集合特征集合并,得到一个最终网络数据包集 合特征集;
[0044] (9)将步骤(8)的最终网络数据包集合特征集输入到步骤(6)的k近邻分类器中, 输出得到识别结果,实现基于包长概率分布与k近邻算法的物联网设备识别。
[0045] 本发明提出的基于包长概率分布与k近邻算法的物联网设备识别方法,其优点是:
[0046] 本发明的基于包长概率分布与k近邻算法的物联网设备识别方法,在充分挖掘不同物 联网设备流量特征的基础上,以一定时间内通信设备产生的网络数据包的长度概率分布作 为单一特征,并进一步设计了一种基于k近邻算法的分类器,利用k近邻算法对产生流量 的源设备的类型,尤其是特定的物联网设备类型,进行分类和识别的系统。本方法能有效 区分产生流量的源设备是否是物联网设备以及是哪种已知的具体设备类型。与已有的用于 同类任务的方法相比,本发明方法不仅实现了更高的识别准确率,同时在运行效率、鲁棒 性、可扩展性与对特殊场景的适应能力等性能指标上都取得了提升。

附图说明

[0047] 图1是本发明方法的流程图。

具体实施方式

[0048] 本发明提出的基于包长概率分布与k近邻算法的物联网设备识别方法,其流程框图如 图1所示,该方法有两种不同方案,其中:
[0049] 第一种方案包括以下步骤:
[0050] (1)实时采集一个待识别物联网设备的流量,得到一个网络数据包集合,网络数据 包集合中的元素为与网络数据包的长度和方向相对应的二元组;
[0051] (2)对步骤(1)的网络数据包集合进行特征提取,包括以下步骤:
[0052] (2‑1)按照设定的时间间隔,将网络数据包集合划分为多组;
[0053] (2‑2)根据网络数据包集合中的长度和方向,将相同长度和方向的数据包合并为同一 类别,统计每组网络数据包集合中的相同类别的数据包数量;
[0054] (2‑3)分别计算每组网络数据包集合中的不同类别的数据包数量各占数据包数量总和 的比例,将该比例记为网络数据包二元组的概率,从而得到不同类别数据包的概率分布, 即该网络数据包集合的特征;
[0055] (3)遍历所有待识别物联网设备,返回步骤(1),得到与所有待识别物联网设备相 对应的网络数据包集合的特征,形成一个网络数据包集合特征集;
[0056] (4)将步骤(3)的网络数据包集合特征集输入到k近邻分类器中,k近邻分类器的 距离度量方式为全变差距离或海林格(Hellinger)距离:
[0057] 全变差距离:
[0058]
[0059] 海林格距离:
[0060]
[0061] k近邻分类器输出待识别物联网设备类型的分类结果,实现基于包长概率分布与k近 邻算法的物联网设备识别。
[0062] 上述第一种方案中的步骤(3)与步骤(4)之间,还可以包括以下步骤:
[0063] (1)将所述的网络数据包集合特征集输入DBSCAN聚类算法,DBSCAN聚类算法的距离 度量方式与权利要求1步骤(4)中的k近邻分类器的距离度量方式相同,DBCSAN聚类算 法输出特征集聚类后的网络数据包集合特征簇与特征离群点;
[0064] (2)计算上述步骤(1)中得到的每个簇的几何中心点;
[0065] (3)将上述步骤(1)中的特征离群点与步骤(2)中的几何中心点作为新的特征集输 入到权利要求1的步骤(4)的k近邻分类器中。
[0066] 本发明方法的第二种方案,包括以下步骤:
[0067] (1)实时采集一个待识别物联网设备的流量,得到一个网络数据包集合,网络数据 包集合中的元素为与网络数据包的长度和方向相对应的二元组;
[0068] (2)对步骤(1)的网络数据包集合进行特征提取,包括以下步骤:
[0069] (2‑1)按照设定的时间间隔,将网络数据包集合划分为多组;
[0070] (2‑2)根据网络数据包集合中的长度和方向,将相同长度和方向的数据包合并为同一 类别,统计每组网络数据包集合中的相同类别的数据包数量;
[0071] (2‑3)分别计算每组网络数据包集合中的不同类别的数据包数量各占数据包数量总和 的比例,将该比例记为网络数据包二元组的概率,从而得到不同类别数据包的概率分布, 即该网络数据包集合的特征;
[0072] (3)遍历所有待识别物联网设备,返回步骤(1),得到与所有待识别物联网设备相 对应的网络数据包集合的特征,形成一个网络数据包集合特征集;
[0073] (4)对步骤(2)的网络数据包集合的特征进行标记,标记内容为产生物联网流量的 待识别物联网设备的类型;
[0074] (5)遍历所有待识别物联网设备,重复步骤(1)、步骤(2)和步骤(4),得到与 所有待识别物联网设备相对应的网络数据包集合的特征,形成一个包含待识别物联网设备 类型的网络数据包集合特征集;
[0075] (6)将上述步骤(3)的网络数据包集合特征集和步骤(5)的包含待识别物联网设备 类型的网络数据包集合特征集输入到k近邻分类器中,k近邻分类器的距离度量方式为全 变差距离或海林格(Hellinger)距离:
[0076] 全变差距离:
[0077]
[0078] 海林格距离:
[0079]
[0080] k近邻分类器输出步骤(3)的网络数据包集合特征集的分类结果;
[0081] (7)将步骤(6)的网络数据包集合特征集的分类结果作为步骤(3)的网络数据包集 合特征集的标记,得到一个包含待识别物联网设备类型的网络数据包集合特征集;
[0082] (8)将步骤(5)的包含待识别物联网设备类型的网络数据包集合特征集和步骤(7) 的包含待识别物联网设备类型的网络数据包集合特征集合并,得到一个最终网络数据包集 合特征集;
[0083] (9)将步骤(8)的最终网络数据包集合特征集输入到步骤(6)的k近邻分类器中, 输出得到识别结果,实现基于包长概率分布与k近邻算法的物联网设备识别。
[0084] 在实施本发明方法时,如果有新的待识别物联网设备进入,可以重复本发明方法的步 骤(1)至步骤(3),以得到一个新的待识别物联网设备的网络数据包集合特征集,然后 将该新的待识别物联网设备的网络数据包集合特征集与之前的网络数据包集合特征集合 并,以合并后的网络数据包集合特征集进行本发明方法的其他步骤,实现对新增物联网设 备的类型识别。因此,本发明方法与已有技术相比,具有对新的待识别物联网设备的可扩 展性。
[0085] 由于本方法无需任何训练过程,每当需要增删已知的待分类的设备类型时,仅需从系 统的已知特征集合中添加或删除来自对应设备类型的特征向量样本即可。在整个系统运行 的过程中,其用作相似性对比基准的特征集可以作为一个可配置的参数,系统运维人员可 以在不影响系统运行的前提下对其进行修改,实现系统的热更新。
[0086] 给定一段时间的来自某未知类型设备的流量,本方法统计流量中各种具有不同长度和 方向的数据包的数量。从设备的角度来说,数据包的方向可以是发送和接收。而由于网络 的最小帧长度和最大传输单元的限制,数据包长度的取值范围是一个有限的区间,以太网 最常用的最大传输单元设置通常是1500字节,因此考虑这两个属性的二元组,能够得到 一个维度不超过3000的特征集合。本方法将这样一个有限样本空间中的数据包长度与方 向的二元组的值视为一个离散随机变量,并采用以频率估计概率的方式,计算出该离散随 机变量的概率分布作为进行分类所采用的唯一特征。出于性能和鲁棒性的考虑,在本方法 中仅使用设备发出的数据包的长度分布也是可行的,在这种情况下,特征的维度降为一半, 且不易受到可以被其他流量发送方任意构造的数据包的影响。
[0087] 本发明方法中使用的k近邻分类器无需训练过程,只需向特征集合中添加作为对比基 准的实例特征。当一个新的待分类的实例特征被输入,k近邻分类器会逐个计算其与特征 集合中的实例的距离度量,并将距离度量值最小的k个特征集合中的实例所属的设备类型 中的多数结果或者最接近的结果作为分类结果输出。根据经验,k的取值为5以内的较小 数值即可,通常取1可以避免k个最近邻样本中无法选出多数结果的情况。
[0088] k近邻分类器中对于样本之间特征的距离度量是算法的核心。在本方法中,由于样本 的特征是一个概率分布,因此需要选取衡量两个概率分布之间相似性的度量方式。在物联 网设备分类与识别这个场景中,对于度量方式的选择还有特殊的要求。给定两个k维的离 散概率分布P={p1,p2,…,pk}和Q={q1,q2,…,qk},本方法要求相似性度量方式满足四个方面 的需求:首先,该度量需具有对称性,即度量结果不因两个特征向量的输入顺序而有所差 异;其次,该度量方式应具有较低的计算复杂度,以免引起过高的计算开销并影响算法效 率;第三,该度量方式不应考虑特征向量不同维度之间的相近关系,即位于特征向量中不 同维度的数值在度量计算中仅与在另一向量中相同维度的数值进行演算,这是因为在本方 法的设计中,每一个具有特定长度和方向的数据包都被视为独立的属性特征;最后,本方 法希望度量方式的计算结果在一个有界的范围之内,这将有利于对分类结果提供置信度判 断,即当度量结果大于某个阈值时,分类器对当前的分类结果的信心便不高,改设备有较 大可能来自于未知的设备类型。满足上述条件的距离度量方式包括:全变差距离与 Hellinger距离,其定义分别如下
[0089] 全变差距离
[0090]
[0091] Hellinger距离
[0092]
[0093] 实际部署中采用这两种度量方式均可,其中Hellinger距离是欧几里得距离在概率空间下 的类比,更为常用。本方法的实验评估中k近邻分类器给出分类结果的最小Hellinger距 离的累计分布曲线中,大部分样本的度量距离在0.2以下,因此,在实际运行中,当最终 的距离度量数值高于0.3时,便意味着较低的置信度,需要考虑该样本来自于不存在与已 知特征集合中的设备类型的可能性。
[0094] 本发明方法中,k近邻分类器的渐进时间复杂度为O(nk),其中n为已知特征集合中 的样本数量,k为样本特征向量的维数。本方法主要通过降低n的数值来进一步提升方法 的运行性能。本方法采用k近邻分类器中同样的距离度量方式与DBSCAN聚类算法对特征 集合中属于同一设备类型的样本进行聚类,仅保留聚类结果中聚点簇的几何中心与离群点 作为最终的特征集合,这样能够有效降低特征集合中相似且冗余的样本,从而提高算法的 运行效率。
[0095] 经实验验证,本方法可以在无需更改的情况下较好的适配到小样本学习的场景,仍然 保持较高的分类准确率。对于需要半监督学习的场景,本方法采用伪标签技术,利用已知 的具有标注的少量数据对大量没有标签的数据进行分类,将其分类结果作为这些数据的伪 标签,并将具有真实标签和伪标签的数据一同作为最终的特征集合,用于对未知数据进行 分类的对比基准,从而实现充分利用训练数据集中缺少标签的数据,进一步提升分类的准
[0096] 本方法经过在由近70种不同的物联网设备与几种常见非物联网设备构成的流量数据 集上进行了验证,其分类准确率在多种不同的采样时间间隔下(5分钟、15分钟和30分 钟)均能取得较高的准确率,接近100%,且在分类准确率和运行效率方面都优于已有的用 于完成同类任务的方法。
[0097] 在用于验证本方法的数据集中,存在实际网络中常见的扫描流量与易混淆的设备,本 方法在这些潜在的干扰因素下仍然能够保持较高的准确率,而其他已有的方法在分类准确 率上均有明显下降,说明了本方法在鲁棒性上的优越性。
[0098] 本方法也在能被较好的适应需要进行小样本学习与半监督学习的特殊场景中,在仅有 少量样本和少量有标注数据的情况下仍然能取得较高的分类准确率。