一种多业务网络流的成分占比分析方法转让专利

申请号 : CN202110339415.1

文献号 : CN113098791B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴梓汇谢逸

申请人 : 中山大学

摘要 :

本发明公开一种多业务网络流的成分占比分析方法及其分析装置,所述分析装置包括数据采集模块、流量预处理模块、流量分析模块、占比分析模块。所述成分占比分析方法包括采集目标链路中的混合网络流量样本;利用本发明设计的方法把分析样本转换为流量拓扑图;通过流量分析模块将预处理后的流量拓扑图进一步转化为流量画像;将所述流量画像输入至占比分析模块,获得所述分析样本中不同类型网络流的最终占比分析结果。与现有技术相比,本发明针对链路流量的实时管理和资源调度而设计,综合利用数据流的属性信息与通信结构信息,本发明适用于各种类型的分布式网络管理,包括企业网、接入网、数据中心网络、骨干网等。

权利要求 :

1.一种多业务网络流的成分占比分析方法,其特征在于:包括以下步骤:A1,数据采集模块采集目标链路中的混合网络流量数据,构成分析样本,且在所述分析样本中用于模型训练的样本上建立成分占比标签;

A2,数据预处理模块对所述分析样本进行预处理,生成流量拓扑图;

A3,将所述预处理生成的流量拓扑图输入至流量分析模块进行分析,生成流量画像;

A4,将所述流量画像输入至占比分析模块,获得所述分析样本中不同类型网络流的最终占比分析结果;

所述A3步骤具体如下:

A31,对所述流量拓扑图的节点进行编码;

A32,利用所述进行编码的流量拓扑图训练结构信息向量化模型;

A33,利用结构信息向量化模型将经过编码的、待分析的流量拓扑图的节点转换为多维向量表示,得到每一个节点在结构信息空间中的坐标;

A33步骤具体如下:

A331,将所述待分析的流量拓扑图节点的编码输入至结构信息向量化模型,得到每一个节点的向量化表示;

A332,根据节点的向量化表示,由该向量确定结构信息空间中的一个坐标点,把该节点映射为该坐标点的像素;

A34,根据所述结构信息空间中的坐标将节点映射到多维图像中,生成流量画像。

2.根据权利要求1所述的多业务网络流的成分占比分析方法,其特征在于:A2步骤具体包括以下步骤:

A21,提取所述分析样本的单IP特征 和双IP特征A22,初始化流量拓扑图,将分析样本中出现的IP作为流量拓扑图中的节点,将每一个IP的单IP特征映射为流量拓扑图中对应节点的特定向量 而将双IP特征 映射到流量拓扑图中对应节点之间的边 的权重

3.根据权利要求1所述的多业务网络流的成分占比分析方法,其特征在于:A4步骤具体包括以下步骤:

A41,利用占比标签已知的流量画像样本训练占比分析模型;

A42,将待分析的流量画像输入到占比分析模型中,进而获得分析样本中不同类型网络流的最终占比分析结果。

4.根据权利要求1所述的多业务网络流的成分占比分析方法,其特征在于:A31步骤中节点进行编码时每个节点vi的编码长度由表示邻居阶数的参数D定义,所采用的编码格式为:(vi的度,vi的一阶邻居的平均度,…,vi的D阶邻居的平均度)。

5.根据权利要求1所述的多业务网络流的成分占比分析方法,其特征在于:A32步骤具体包括以下步骤:

A321,对每个已编码流量拓扑图根据其边权重和超参数p、q进行节点有偏游走,获取多个节点游走序列,并将其加入到游走序列集合A322,对节点游走序列集合 中的每个节点游走序列样本,按照算法获取节点上下文预测模型的节点上下文片段,并将其加入到节点上下文片段集合 中;

A323,基于skip‑gram模型,输入包含D+1个神经元表示节点上下文片段中的输入节点的编码输出包含D+1个神经元,表示节点上下文片段中的上下文节点的编码,使用节点上下文片段集合 训练得到节点上下文预测模型;

A324,抽取节点上下文预测模型的输入层和隐藏层形成结构信息向量化模型。

6.根据权利要求1所述的多业务网络流的成分占比分析方法,其特征在于:A34步骤具体包括以下步骤:

A341,按照图像灰度的规格,对节点vi的特征向量 进行归一化处理;

A342,把该归一化后的特征向量作为灰度赋值给节点vi在结构信息空间中相应的像素点。

7.根据权利要求3所述的多业务网络流的成分占比分析方法,其特征在于:A41步骤采用CNN模型作为成分占比分析模型,输入为流量画像,输出为流量画像表示的分析样本中的各种流量类型的占比,使用带占比标签的流量画像集合训练该模型。

8.一种多业务网络流的成分占比分析装置,其特征在于:所述成分占比分析装置包括:数据采集模块,用于采集目标链路中的流量数据以构成至少包含两种类型的分析样本,对用于训练的分析样本建立成分占比标签;

数据预处理模块,用于提取所述分析样本的特征,并将该特征表示在与单个分析样本对应的流量拓扑图中;所述流量拓扑图由节点和无向边构成;

流量分析模块,对所述流量拓扑图中的节点根据其邻居信息进行编码;利用经过编码的样本训练向量化模型;基于向量化模型将所述节点的编码转换为结构信息空间的多维坐标,并根据所述多维坐标将节点映射到流量画像中;把节点的属性特征作为灰度赋值给流量画像中该节点相应的像素点;具体为:对所述流量拓扑图的节点进行编码;

利用所述进行编码的流量拓扑图训练结构信息向量化模型;

利用结构信息向量化模型将经过编码的、待分析的流量拓扑图的节点转换为多维向量表示,得到每一个节点在结构信息空间中的坐标;即将所述待分析的流量拓扑图节点的编码输入至结构信息向量化模型,得到每一个节点的向量化表示并根据节点的向量化表示,由该向量确定结构信息空间中的一个坐标点,把该节点映射为该坐标点的像素;

占比分析模块,利用带占比标签的流量画像训练成分占比分析模型,所述占比分析模型根据流量画像获得分析样本中不同类型网络流量的最终占比分析结果。

说明书 :

一种多业务网络流的成分占比分析方法

技术领域

[0001] 本发明属于网络技术领域,特别涉及一种多业务网络流的成分占比分析方法及其分析装置。

背景技术

[0002] 现代互联网业务的高速发展使流量管理的重要性日益显著,同时也给传统的TCP/IP通信体系带来了新的挑战,这些挑战主要来自三个方面:第一,IoT的发展带动海量的异
构终端和设备通过不同途径接入互联网,这些终端和设备给互联网带来结构复杂、种类繁
多、规模庞大的数据流。设计高效的流量管理策略,使互联网在不影响传统网络业务运营的
情况下充分发挥有限资源的潜力,满足新型异构数据流的传输需求,是亟待解决的重要问
题之一。第二,基于虚拟化的5G网络切片技术使单一物理网络能够分割为多个虚拟的端到
端网络,为具有不同需求的网络应用提供通信服务。由于虚拟切片的数据最终仍然依赖物
理网络的传输,基于TCP/IP的通信基础设施面临着前所未有的严峻挑战,设计高效快速的
流量管理、负载均衡、以及动态资源调配方法不仅关系到局部通信性能,而且影响众多上层
虚拟切片业务的性能。第三,为了满足用户日益增长的需求,服务提供商不断推出新型网络
业务与应用,这些业务不仅消耗了大量的通信资源,且它们固有的突发性、QoS/QoE需求的
多样性使基于目的地址传输的TCP/IP网络面临越来越大的通信压力与不稳定性。根据链路
上业务流量的成分结构合理地调配网络资源、动态优化数据流走向、最大化网络的整体传
输性能是流量管理迫切需要解决的另一个问题。
[0003] 互联网流量管理问题的根源来自TCP/IP网络与生俱来的局限性,主要包括两个方面:一方面是TCP/IP仅根据目的地址采用尽力而为的转发方式,这导致目的地相同的数据
流往往被转发到相同的路径,容易造成网络拥塞。另一方面是TCP/IP缺乏对传输数据的监
管机制,加密协议的广泛应用导致网络转发设备难以区分数据的来源、种类与性质,从而无
法实施有效的传输策略来优化网络的性能。
[0004] 为了解决TCP/IP体系下的流量管理问题,学术界与工业界提出了大量面向流量分类的方案。这些方案通过识别产生网络流的应用与传输网络流所使用的协议,为流量管理
提供依据。已有的流量分类方法的类型包括基于端口识别的方法、基于深度分组检测的方
法、基于统计特征和机器学习的方法。这些方法广泛应用在网络流量分析、设备负载均衡、
以及SDN流表管理等场景。但是,面对规模庞大、业务复杂的高速网络,已有的流量分类管理
方法面临着新的挑战:首先,在大规模的流量转发任务中,现有的协议分析与应用识别方法
因为计算复杂度高,难以对海量的传输数据进行实时流量分类;其次,尽管常规的协议分析
与应用识别等细粒度方法能够提供详细的流量信息,但是这些信息并非针对实时资源调配
与流量管理所设计的,从而导致在实际应用中效率低下,性能难以达到预期效果。

发明内容

[0005] 本发明为解决上述背景技术中存在的至少一种缺陷,提出了一种多业务网络流的成分占比分析方法,该方法根据不同业务成分占比条件下网络流的结构特征和属性特征,
估计出混合网络流中各种类型流量的占比,进而自动且快速地对网络中业务成分结构不平
衡的通信流量与链路资源进行合理调度,实时保证网络的稳定性与鲁棒性。
[0006] 为达到上述目的,本发明的技术方案为:
[0007] 一种多业务网络流的成分占比分析方法,包括以下步骤:
[0008] A1,数据采集模块采集目标链路中的混合网络流量数据,构成分析样本,且在所述分析样本中用于模型训练的样本上建立成分占比标签;
[0009] A2,数据预处理模块对所述分析样本进行预处理,生成流量拓扑图;
[0010] A3,将所述预处理生成的流量拓扑图输入至流量分析模块进行分析,生成流量画像;
[0011] A4,将所述流量画像输入至占比分析模块,获得所述分析样本中不同类型网络流的最终占比分析结果。
[0012] 进一步地,A2步骤具体包括以下步骤:
[0013] A21,提取所述分析样本的单IP特征 和双IP特征
[0014] A22,初始化流量拓扑图,将分析样本中出现的IP作为流量拓扑图中的节点,将每一个IP的单IP特征映射为流量拓扑图中对应节点的属性值 而将双IP特征 映射到
流量拓扑图中对应节点之间的边 的权重
[0015] 进一步地,A3步骤具体包括以下步骤:
[0016] A31,对所述流量拓扑图中的节点进行编码;
[0017] A32,利用所述经过编码的流量拓扑图训练结构信息化向量模型;
[0018] A33,利用结构信息向量化模型将经过编码的、待分析的流量拓扑图的节点转换为向量表示,得到每一个节点在结构信息空间中的坐标;
[0019] A34,根据所述结构信息空间中的坐标将节点映射到多维图像中,生成流量画像。
[0020] 进一步地,A4步骤具体包括以下步骤:
[0021] A41,利用占比标签已知的流量画像样本训练占比分析模型;
[0022] A42,将所述待分析的流量画像输入到占比分析模型中,进而获得分析样本中不同类型网络流的最终占比分析结果。
[0023] 进一步地,A31步骤中节点进行编码时每个节点vi的编码长度由表示邻居阶数的参数D定义,所采用的编码格式为:(vi的度,vi的一阶邻居的平均度,…,vi的D阶邻居的平均
度)。
[0024] 进一步地,A32步骤具体包括以下步骤:
[0025] A321,对每个已编码流量拓扑图根据其边权重和超参数p、q进行节点有偏游走,获取多个节点游走序列,并将其加入到游走序列集合
[0026] A322,对节点游走序列集合 中的每个节点游走序列样本,按照算法获取节点上下文预测模型的节点上下文片段,并将其加入到节点上下文片段集合 中;
[0027] A323,基于skip‑gram模型,输入包含D+1个神经元表示节点上下文片段中的输入节点的编码输出包含D+1个神经元,表示节点上下文片段中的上下文节点的编码,使用节点
上下文片段集合 训练得到节点上下文预测模型;
[0028] A324,抽取节点上下文预测模型的输入层和隐藏层形成结构信息向量化模型;
[0029] 进一步地,A33步骤具体包括以下步骤:
[0030] A331,将所述待分析的流量拓扑图节点的编码输入至结构信息向量化模型,得到每一个节点的向量化表示;
[0031] A332,根据节点的向量化表示,由该向量确定结构信息空间中的一个坐标点,把该节点映射该坐标点的像素。
[0032] 进一步地,A34步骤具体包括以下步骤:
[0033] A341,按照图像灰度的规格,对节点vi的特征向量 进行归一化处理;
[0034] A342,把该归一化后的特征向量作为灰度赋值给节点vi在结构信息空间中相应的像素点。灰度的图层数量由特征向量 的维度决定,一个灰度图层对应 的一个维度。
[0035] 进一步地,A41步骤采用CNN模型作为成分占比分析模型,输入为流量画像,输出为流量画像表示的分析样本中的各种类型流量的占比,使用带占比标签的流量画像集合训练
该模型。
[0036] 训练完成后,该模型可用于流量成分占比分析,流量画像被输入到CNN模型后,通过多个卷积‑池化层的计算后获得流量画像的高维特征表示,这个高维特征表示再通过全
连接层前向传播,最后使用softmax层对输出的多个流量占比进行归一化获得最终的流量
分析结果。
[0037] 本发明还提供一种多业务网络流的成分占比分析装置,包括:
[0038] 数据采集模块,用于采集目标链路中的流量数据以构成至少包含两种类型的分析样本,对用于训练的分析样本建立成分占比标签;
[0039] 数据预处理模块,用于提取所述分析样本的特征,并将该特征表示在与单个分析样本对应的流量拓扑图中;所述流量拓扑图由节点和无向边构成;
[0040] 流量分析模块,对所述流量拓扑图中的节点根据其邻居信息进行编码;利用经过编码的样本训练向量化模型;基于向量化模型将所述节点的编码转换为结构信息空间的多
维坐标,并根据所述多维坐标将节点映射到流量画像中;把节点的属性特征作为灰度赋值
给流量画像中该节点相应的像素点。
[0041] 占比分析模块,利用带占比标签的流量画像训练成分占比分析模型,所述占比分析模型根据流量画像获得分析样本中不同类型网络流量的最终占比分析结果。
[0042] 占比分析模块,用于将流量画像输入到占比分析模型中,获得分析样本中不同类型网络流的最终占比分析结果。
[0043] 与现有技术相比,本发明具有的优点和有益效果是:
[0044] 本发明首次提出综合利用数据流固有的结构特征和属性特征的方法,把流量中的成分占比分析转化为图像识别问题,基于成熟的CNN实现高效的流量成分占比分析。且根据
不同网络业务(不同类型的网络流)在分析样本中呈现的结构特征与属性特征,估计混合网
络流中各种业务流量的占比。通过分析网络流中业务成分的占比信息,可以自动且快速地
对网络中业务成分结构不平衡的通信流量与链路资源进行合理调度,实时保证网络的稳定
性与鲁棒性。此外,本发明的流量占比分析装置针对大规模高速网络的实时流量管理而设
计,无需对所测量的流量进行逐一识别,从而避免大量复杂度高的细粒度分析计算,提升大
规模复杂网络的实时流量管理能力。流量占比分析装置与应用场景无关、数据流的加密及
协议无关,适用于包括数据中心、局域网、骨干网等不同的网络环境,为实现网络管理的自
动化与智能化提供一种可行的参考方案。

附图说明

[0045] 图1为本发明一种多业务网络流的成分占比分析装置示意图;
[0046] 图2为图1所示的多业务网络流的成分占比分析装置的流量分析模块流程图;
[0047] 图3为本发明的一种多业务网络流的成分占比分析方法流程图。
[0048] 图4为图3所示的多业务网络流的成分占比分析方法的数据采集示意图;
[0049] 图5为图3所示的多业务网络流的成分占比分析方法的构造流量拓扑图示意图;
[0050] 图6为图3所示的多业务网络流的成分占比分析方法的流量拓扑图节点转移概率中αpq参数的计算示意图;
[0051] 图7为图3所示的多业务网络流的成分占比分析方法的节点上下文预测模型样本构造示意图;
[0052] 图8为图3所示的多业务网络流的成分占比分析方法的节点上下文预测模型示意图;
[0053] 图9为图3所示的多业务网络流的成分占比分析方法的占比分析模型的框架示意图;
[0054] 图10为图3所示的多业务网络流的成分占比分析方法的占比分析模型示意图。

具体实施方式

[0055] 附图仅用于示例性说明,不能理解为对本专利的限制。下面结合附图和实例对本发明的技术方案做进一步说明。
[0056] 本实施例以三种常见的网络流量为例说明方案的实施技术细节,分别为网页浏览类、P2P下载类、直播类。
[0057] 如图1,一种多业务网络流的成分占比分析装置,包括数据采集模块、流量预处理模块、流量分析模块和占比分析模块。其中,流量分析模块的流程图如图2所示。
[0058] 图3为本实施例的多业务网络流的成分占比分析方法流程图。包括以下步骤:
[0059] 第一步,采集目标链路的混合网络流量数据,构成分析样本,且对分析样本上建立成分占比标签。
[0060] 数据采集的过程如图4所示,给定采集起始时间和采集结束时间,采集工具在这段时间中采集到的混合数据流构成一个分析样本,并建立成分占比标签。其中,分析样本由相
同的源IP分组、相同的目的IP分组、相同的源端口分组、相同的目的端口分组、相同的传输
层协议分组构成。此外,本实施例使用u∈{1,2,...,U,U+1}表示流量的类型,{1,2,...,U}
表示本发明关注的U种不同的流量类型,U+1表示所有可识别之外的流量类型。为分析样本
中的每条网络流标记流量类型(如HTTP、P2P),并将样本中网络流的总数量记为N,然后计算
样本中类型为u的流量占比Lu,计算方式如下:
[0061]
[0062] 其中Nu表示样本中类型为u的网络流的数量,剩余的可识别之外的流量的占比LU+1为:
[0063]
[0064] 因此,单个流量样本的成分占比标签记为L={L1,L2,...,Lu,...,LU,LU+1}。
[0065] 在本实施例中,数据采集模块采集数据的过程更具体为:以三种常见的网络流量为例,分别为网页浏览类、P2P下载类、直播类。部署抓包工具采集汇聚链路上一段时间的流
量,每次采集的时长为30s,进行2000次采集,每次采集到的数据作为一份分析样本。计算每
个流量样本中网页流量、P2P流量、直播流量以及其他不关注流量的比例作为标签,并将4/5
的样本共1600个样本作为训练集、1/5的样本共400个样本作为测试集。
[0066] 第二步,提取所述流量样本的特征,并将特征表示在流量拓扑图中。
[0067] 分析样本的特征包括单个IP的特征、两个存在通信行为的IP之间的特征;所述单个IP的特征为对应IP的特征向量,表示为 所述存在通信行为的IP之间的特征为对应的
IP的特征向量,表示为 另外,每个分析样本提取上述的特征,并将提取到的特征映
topo
射在构造出流量拓扑图中。图5为其映射方法,分析样本中的ip1被映射为流量拓扑图G 中
topo
的1号节点v1,且1号节点的属性值 即为 同时,由于ip1和ip3(映射到G 中3号节点v3)
topo
进行通信,所以图G 中的节点v1和节点v3之间存在无向边 的权重向量 为ip1
和ip3两个IP之间的结构特征向量 其中,IP的特征作为流量拓扑图中的节点属性,
IP之间的特征则作为边的权重。
[0068] 在本实施例中,IP的特征为:
[0069] ·与该IP通信的IP数量
[0070] ·该IP与其他IP通信使用的不同的端口数量
[0071] ·其他IP与该IP通信使用的不同的端口数量
[0072] ·该IP与其他IP通信建立的流数量
[0073] ·该IP与其他IP通信建立的流的平均持续时间
[0074] 而对于IP与IP之间的特征,本发明实施例中只提取了一个特征:
[0075] ·两个IP之间建立的流的数量
[0076] 第三步,根据流量拓扑图的节点及其邻居的性质对节点进行编码。
[0077] 流量拓扑图中的节点根据其性质对其进行编码,使不同的流量拓扑图中具有相似topo
性质的节点具有相同的编码。对于G 中的每个节点vi,本方案使用节点的度描述节点的性
质。但是,如果仅仅考虑节点自身的度,那么节点的编码空间很小,编码包含的信息量很少。
因此,本发明不仅考虑节点自身的度,同时考虑节点的邻居的度。
[0078] 节点的邻居通过参数D定义,表示参考的邻居的阶数。当D为1时,表示仅考虑节点的一阶邻居,通过使用二元组 作为节点vi
的编码;而当D为2时,则多考虑节点的二阶邻居,使用三元组
作为节点vi的编码。通过调整参数D,
可以调整编码的空间,也能使编码包含不同阶数的节点邻居信息。
[0079] 第四步,将节点的编码输入结构信息向量化模型,进而输出节点在结构信息空间的向量化的二维坐标。
[0080] 将流量拓扑图中的节点的编码输入到结构信息向量化模型中,获取到节点在结构信息空间中的表示(也即节点在该空间中的坐标)。
[0081] 此外,结构信息向量化模型通过以下步骤获得:
[0082] 第一,将每个已编码流量拓扑图进行节点游走,获取多个节点游走序列,并将其加入到游走序列集合
[0083] 获取游走序列集合 的具体步骤如下:
[0084] S11,设定每个分析样本生成的已编码流量拓扑图的节点游走长度l,游走的轮数seq
r,初始化游走序列s 为空;
[0085] S12,设定游走参数p、q,并根据p、q计算流量拓扑图中进行随机游走时节点之间的转移概率:
[0086]
[0087] x表示当前节点,y表示下一跳节点,t表示当前节点x的上一跳节点。Z是归一化系数,ωyx是边(y,x)上的权重,α(t,y)是根据t,y之间的跳数dty确定的转移概率系数,图6展
示了节点x关联到的三条边的α值的计算,具体的公式如下:
[0088]
[0089] S13,随机选择一个节点作为起始节点,将该节点的编码加入到sseq中;
[0090] S14,根据节点之间的转移概率选择下一个节点,将该节点的编码加入到sseq中;
[0091] S15,如果sseq的长度不等于l,返回步骤S14;sseq的长度等于l,将sseq添加到 中,seq
清空s ,递减游走轮数r;
[0092] S16,若r为0,返回步骤S13;若r为0,则得到游走序列集合
[0093] 第二,对游走序列集合 中的每个序列,提取用于训练节点上下文预测模型的节点上下文片段,并将其加入到节点上下文片段集合 中,并使用 训练节点上下文预测
模型;
[0094] 从 获取节点上下文片段构造节点上下文片段集合 具体步骤为:
[0095] S21,设定序列下标参数J并初始化为1,表示游走序列集合sseq的中的第一个节点,seq
记s 的长度为l;
[0096] S22,将当前遍历到的节点sseq[J]作为中心点,构造以中心点为样本scont的输入;seq cont seq
若中心点的前一个节点s [J‑1]存在,则该节点作为样本的标签的训练样本s =(s
seq seq cont
[J]:s [J‑1]);若中心点后一个节点s [J+1]存在,则该节点构造另一个训练样本s '
seq seq
=(s [J]:s [J+1]),并将训练样本加入节点上下文预测模型的节点上下文片段集合
中,构造的具体流程如图7所示;
[0097] S23,递增J;
[0098] S24,若J<l,返回步骤S22;若J=l,则获得的节点上下文片段集合
[0099] 图8为节点上下文预测模型的样本构造示意图及模型示意图。该模型共三层,分别为输入层,投影层和输出层。其中,输入层输入节点的编码,维度为编码的长度D+1;投影层
的维度2,表示将节点根据其输入的编码投影到二维的空间中,投影层的神经元不设置激活
函数;输出层的输出是节点的编码,表示根据输入的节点预测的上下文节点,其维度为D+1。
使用节点的上下文片段集合 作为节点上下文预测模型的训练数据集,并通过BP算法训
练该模型,训练完成后即可获得节点上下文预测模型.
[0100] 第三,抽取节点上下文预测模型的结构参数以形成结构信息向量化模型。
[0101] 抽取出模型的输入层和投影层以及权重参数即为需要的结构信息向量化模型。结构信息向量化模型可以将输入层节点的编码投影到其对应的向量表示,该向量表示节点在
映射到的二维空间中的坐标。
[0102] 在本实施例中,游走参数p、q的设置会影响游走的倾向性,为了使模型在游走时不会陷入局部少数节点,更好地学习流量拓扑图的整体结构信息,将p、q分别设置为0.2和4。
同时,将每个流量拓扑图游走的轮数设置为1000,游走序列的长度设置为30。本实施例中训
练完成后获取到的是输入层为2维,隐藏层为2维,输出层为2维的节点上下文预测模型,抽
取出该模型的输入层和隐藏层即为结构信息向量化模型。将流量拓扑图中的每个节点的编
码输入到结构信息向量化模型中,获取到每个节点对应的向量表示,也就是节点在结构信
息空间中的坐标。
[0103] 第五步,将节点根据二维坐标映射到流量画像中。
[0104] 获取到节点在结构信息空间中的坐标后,初始化二维图像,并依次将流量拓扑图中每个节点根据其坐标映射到二维图像中的对应像素,同时,像素的取值即为节点对应的
属性值。在本实施例中,流量画像的大小为32×32,通道数为5,因此,每个流量拓扑图都可
以根据其节点的坐标和节点的特征向量映射为一个32×32×5的流量画像。
[0105] 第六步,将流量画像输入到占比分析模型中,进而获得流量样本中不同类型网络流的最终占比分析结果。
[0106] 由于生成的流量画像比较简单,故选取的CNN模型的结构也比较简单,使用LeNet作为CNN模型结构,同时,只在CNN之后拼接单层全连接网络,其框架如图9所示。占比分析模
型将流量画像作为输入,占比标签作为ground truth,使用均方根误差作为损失函数,SGD
作为优化器,训练完成后即可获得占比分析模型。对于测试集中的样本,只需要将样本处理
为流量画像后输入占比分析模块,即可获得占比分析结果。
[0107] 其中,每个样本的预测结果与ground truth的损失的计算方式如下:
[0108]
[0109] 其中,Li表示样本中类型为i的流量的真实占比,而 表示类型为i的流量的预测占比,U表示受关注的流量类型的数量。
[0110] 具体的CNN模型结构如图10所示,模型以32×32的流量画像为例,流量画像首先经过6张5×5卷积核的卷积核的处理生成6张28×28的特征图片,再使用2×2大小的最大池化
层进行下采样,将特征图片降维为14×14,再通过包含24个5×5卷积核的卷积层,处理后得
到24张10×10的特征图片,同理,使用2×2池化层进行降维将特征图片降维为5×5,最后的
卷积层使用120个5×5卷积核将24张特征图片展开为120维的高维特征表示,高维特征表示
再通过全连接网络前向传播到输出层,输出层的维度为U+1,并使用softmax函数作为激活
函数,归一化后获得最终的占比分析结果。
[0111] 综上,本发明提出一种新的轻量级多业务流量成分占比分析方案。大大提升了大规模复杂网络的实时流量管理能力,本发明根据流量在不同网络业务占比条件下呈现的结
构特征与属性特征,估计混合网络流中各种业务流量的占比。通过分析网络流中业务成分
的占比信息,自动且快速地对网络中业务成分结构不平衡的通信流量与链路资源进行合理
调度,实时保证网络的稳定性与鲁棒性。