一种流量智适应的大数据流处理方法转让专利

申请号 : CN202310564915.4

文献号 : CN116319523B

文献日 : 2023-08-04

本发明涉及大数据流处理的技术领域，揭露了一种流量智适应的大数据流处理方法，所述方法包括：对预处理后的网络流量进行一次特征提取，对提取得到的网络流量一次关联特征进行二次特征提取；根据网络流量二次加权特征判断当前流量的流量模式；对于大流量模式的网络流量，筛选得到当前流量源地址与目的地址之间的最短跳数路径集合；对最短跳数路径集合进行真实时延探测，按照真实时延对最短跳数路径选择概率分布化处理；对当前大流量模式网络流量进行采样，按照不同最短路径的选择概率进行路径选择以及路由转发。本发明通过对流量模式进行识别，进而对不同流量模式的网络流量采用不同的路由转发方案，提高通信链路的综合利用率，避免通信阻塞。

1.一种流量智适应的大数据流处理方法，其特征在于，所述方法包括：S1：采集数据中心的网络流量，并对采集的网络流量进行预处理；

对所采集的网络流量进行预处理，包括：

采集数据中心的网络流量，其中网络流量为用户访问产品页面过程中所产生的流量数据，包括用户IP地址、端口号、协议、用户操作行为数据、数据包大小以及传输字节数；

对所采集的网络流量进行预处理，其中预处理流程为：S11：过滤无关的网络流量数据，包括用户IP地址、端口号以及协议；

S12：利用one‑hot方法将用户操作行为转换为数字编码，并提取每个用户操作行为所产生数据包大小以及传输字节数，则用户操作行为ai的传输字节数为：其中：

表示用户操作行为ai的传输字节数，ai表示第i种用户操作行为的数字编码结果；

表示用户操作行为ai的结束时刻，表示用户操作行为ai的开始时刻，表示交换机端口在时刻统计的传输字节数；

S13：对每个用户操作行为所产生数据包大小进行归一化处理，归一化处理公式为：其中：

xi表示用户操作行为ai所产生数据包大小；

xmin表示预设数据包大小的最小值，xmax表示预设数据包大小的最大值；

S14：构成预处理后的网络流量：

其中：

n表示用户操作行为的数字编码结果种类数，fi表示用户操作行为ai的预处理后网络流量；

S2：对预处理后的网络流量进行一次特征提取，得到网络流量一次关联特征；

预处理后网络流量的一次特征提取流程为：

S21：构建待特征提取的网络流量向量形式：

f2＝[x′1,x′2,...,x′n]

其中：

f1表示网络流量中传输字节数的向量形式，f2表示网络流量中数据包大小的向量形式；

S22：对网络流量向量形式中的每个值进行规范化处理：其中：

∈表示极小的正数，将其设置为0.0001；

表示f1的均值，表示f1的标准差，表示f2的均值，表示f2的标准差；

为的规范化处理结果，x″i为x′i的规范化处理结果；

得到规范化处理后的网络流量向量形式：

f′2＝[x″1,x″2,...,x″n]

S23：将两种网络流量向量形式依次进行如下处理：F1(f′j)＝σ(w1f′j+b1)

F2(f′j)＝σ(w2f′j+b2)

F3(f′j)＝σ[w3(F1(f′j)+F2(f′j))+b3]F4(f′j)＝σ(w4f′j+b4)tanh(F3(f′j))其中：

j＝1,2，F4(f'j)表示规范化处理后网络流量向量形式f'j的网络流量一次关联特征；

σ(·)表示激活函数；

w1,w2,w3,w4表示权重参数，b1,b2,b3,b4表示偏置参数；

S3：对提取得到的网络流量一次关联特征进行二次特征提取得到网络流量二次加权特征；

二次特征提取流程为：

S31：分别提取网络流量一次关联特征中任意网络流量的特征值，其中预处理后网络流量fi中 x'i在网络流量一次关联特征中的特征值分别为F4(f'1,i),F4(f'2,i)，F4(f'1,i)表示网络流量一次关联特征F4(f'1)中的第i个值，F4(f'2,i)表示网络流量一次关联特征F4(f'2)中的第i个值；

S32：计算任意特征值的注意力机制权重：

其中：

att1(i)表示F4(f'1,i)的注意力机制权重，att2(i)表示F4(f'2,i)的注意力机制权重；

S33：构建网络流量二次加权特征：

F(f′j)＝[attj(1)F4(f′j,1),attj(2)F4(f′j,2),...,attj(n)F4(f′j,n)]其中：j＝1,2，F(f'j)表示规范化处理后网络流量向量形式f'j的网络流量二次加权特征；

S4：根据计算得到的网络流量二次加权特征判断当前流量的流量模式，若当前流量为小流量模式则不进行均衡化处理，否则进行均衡化处理；

根据计算得到的网络流量二次加权特征判断当前流量的流量模式，其中对预处理后网络流量fi的流量模式判断公式为：其中：

modei表示预处理后网络流量fi的流量模式判断结果；

B表示链路容量，表示结合网络流量注意力机制权重的网络流量fi传输速率，thi表示网络流量fi传输速率与链路容量的比值；

S5：对于大流量模式的网络流量，计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合；

S6：对筛选后的最短跳数路径集合进行时延探测，计算路径的真实时延，并按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率；

真实时延的计算流程为：

对于最短跳数路径集合中的任意路径，令路径初始节点向路径末尾节点发送含有时间戳的LLDP探测数据包，其中LLDP探测数据包沿着路径节点传输；

路径末尾节点接收到LLDP探测数据包的发送时间与接收时间之差为T1，并向路径初始节点发送含有时间戳的LLDP探测数据包，路径初始节点接收到LLDP探测数据包的发送时间与接收时间之差为T2；

令路径初始节点向路径末尾节点发送含有时间戳的ECHO探测数据包，其中ECHO探测数据包沿着路径节点传输；

路径末尾节点接收到ECHO探测数据包的发送时间与接收时间之差为T3，并向路径初始节点发送含有时间戳的ECHO探测数据包，路径初始节点接收到ECHO探测数据包的发送时间与接收时间之差为T4；

计算得到路径的真实时延为：

按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率，其中最短跳数路径集合中第g条最短路径的选择概率pg为：其中：

G表示最短跳数路径集合中的路径总数；

tg表示最短跳数路径集合中第g条最短路径的真实时延；

Bg表示最短跳数路径集合中第g条最短路径的链路剩余带宽之和；

S7：对当前大流量模式网络流量进行采样，按照不同最短路径的选择概率进行路径选择以及路由转发，完成网络流量的均衡化处理。

2.如权利要求1所述的一种流量智适应的大数据流处理方法，其特征在于，所述S5步骤中对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合，包括：对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合，其中大流量模式的网络流量源地址为locv，目的地址为loc*，其中最短跳数路径集合的筛选流程为：S51：构建网络拓扑图G＝(E,V)，其中V＝{vu|u∈[1,U]}表示网络拓扑图中节点的集合，E＝{euh|u,h∈[1,U],u≠h}表示网络拓扑图中节点所构成边的集合，网络拓扑图中的节点为交换机节点，vu表示网络拓扑图中的节点u，euh表示节点u与节点h构成的边，即交换机节点u与交换机节点h之间的通信链路；

S52：源地址locv向网络拓扑图中的节点上传网络流量，利用最短路径计算方法计算得到源地址到目的地址之间的最短路径L1，其中路径最短表示网络跳数最少，最短路径L1中包含M个节点，L1(m)表示其中的第m个节点，m∈[1,M]，L1(1)表示源地址locv向网络拓扑图中上传网络流量的节点，L1(M)表示将网络流量发送到目的地址的节点，L1(1)表示距离源地址locv最近的节点；所述最短路径计算方法为Dijkstra算法；

S53：将最短路径L1加入到最短跳数路径集合；

S54：令G表示最短跳数路径集合中的路径总数，更新最短跳数路径集合中的路径总数，对于最短跳数路径集合中的任意第g条路径Lg，g∈[1,G]，从Lg(1)到第m个节点Lg(m)之间的路径设置为Rg→m，在第m个节点Lg(m)后设置偏离节点，其中偏离节点在最短跳数路径集合中G条路径中节点Lg(m)后均未出现过，且偏离节点与节点Lg(m)之间链路的剩余带宽大于

50％；

S55：利用最短距离计算方法计算得到偏离节点到目的地址的最短路径，将Rg→m与最短路径进行拼接，得到新增的最短路径，并将该最短路径加入到最短跳数路径集合，返回步骤S55，直到最短跳数路径集合中的最短路径数目达到预设值。

3.如权利要求1所述的一种流量智适应的大数据流处理方法，其特征在于，所述S7步骤中对当前大流量模式网络流量进行采样，按照不同最短路径的选择概率进行路径选择以及路由转发，完成网络流量的均衡化处理，包括：对当前大流量模式网络流量进行采样，得到E组采样后的网络流量，其中E

一种流量智适应的大数据流处理方法

技术领域

[0001] 本发明涉及大数据流的技术领域，尤其涉及一种流量智适应的大数据流处理方法。

背景技术

[0002] 近年来,随着我国现代化的移动互联网和 5G 快速兴起和发展,各种移动互联网的应用也随之迅速地普及到千家万户，网络已经成了现代社会人们在工作和日常生活中一个不可或缺的重要工具。移动互联网的规模近几年增长尤其迅速，网络中承载信息业务也越来越丰富，大型互联网企业越来越开始高度重视自己互联网数据中心的建设和发展。随着大量网络流量被汇合到互联网数据中心进行处理，数据中心中的网络流量也表现出快速增长的形势。数据中心汇聚了企业大量核心业务网络流量，随着不同时段具有不同的流量模式，导致服务器产生较大的负载差异，严重影响用户体验。针对该问题，本发明提出一种流量智适应的大数据流处理方法。

发明内容

[0003] 有鉴于此，本发明提供一种流量智适应的大数据流处理方法，目的在于：1）根据用户对产品的不同操作行为所产生网络流量之间的关联性确定不同网络流量之间的一次关联特征，并结合注意力机制为不同网络流量进行赋权，根据计算得到的网络流量二次加权特征判断当前流量的流量模式，当网络流量传输速率与链路容量的比值大于阈值时，则将该网络流量判断为大流量模式，进而对不同流量模式的网络流量采用不同的路由转发方案；2）对于大流量模式的网络流量，计算当前流量源地址与目的地址之间的最短路径，并基于最短路径变异得到若干最短路径，构成最短跳数路径集合，并利用多种时延探测包得到每条路径的真实时延，按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率，对当前大流量模式网络流量进行采样，按照不同最短路径的选择概率进行路径选择以及路由转发，实现对大流量模式的网络流量实现均衡化处理，提高通信链路的综合利用率，避免通信阻塞。

[0004] 实现上述目的，本发明提供的一种流量智适应的大数据流处理方法，包括以下步骤：

[0005] S1：采集数据中心的网络流量，并对采集的网络流量进行预处理；

[0006] S2：对预处理后的网络流量进行一次特征提取，得到网络流量一次关联特征；

[0007] S3：对提取得到的网络流量一次关联特征进行二次特征提取得到网络流量二次加权特征，其中结合注意力机制的特征提取方式为所述二次特征提取的主要实施方式；

[0008] S4：根据计算得到的网络流量二次加权特征判断当前流量的流量模式，若当前流量为小流量模式则不进行均衡化处理，否则进行均衡化处理；

[0009] S5：对于大流量模式的网络流量，计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合；

[0010] S6：对筛选后的最短跳数路径集合进行时延探测，计算路径的真实时延，并按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率；

[0011] S7：对当前大流量模式网络流量进行采样，按照不同最短路径的选择概率进行路径选择以及路由转发，完成网络流量的均衡化处理。

[0012] 作为本发明的进一步改进方法：

[0013] 可选地，所述S1步骤中对所采集的网络流量进行预处理，包括：

[0014] 采集数据中心的网络流量，其中网络流量为用户访问产品页面过程中所产生的流量数据，包括用户IP地址、端口号、协议、用户操作行为数据、数据包大小以及传输字节数；

[0015] 对所采集的网络流量进行预处理，其中预处理流程为：

[0016] S11：过滤无关的网络流量数据，包括用户IP地址、端口号以及协议；

[0017] S12：利用one‑hot方法将用户操作行为转换为数字编码，并提取每个用户操作行为所产生数据包大小以及传输字节数，在本发明实施例中，用户操作行为包括用户操作所产生的行为标识以及用户操作时间戳信息，则用户操作行为的传输字节数为：

[0018] ；

[0019] 其中：

[0020] 表示用户操作行为的传输字节数，表示第种用户操作行为的数字编码结果；

[0021] 表示用户操作行为的结束时刻，表示用户操作行为的开始时刻，表示交换机端口在时刻统计的传输字节数；

[0022] S13：对每个用户操作行为所产生数据包大小进行归一化处理，归一化处理公式为：

[0023] ；

[0024] 其中：

[0025] 表示用户操作行为所产生数据包大小；

[0026] 表示预设数据包大小的最小值，表示预设数据包大小的最大值；

[0027] S14：构成预处理后的网络流量：

[0028] ；

[0029] 其中：

[0030] 表示用户操作行为的数字编码结果种类数，表示用户操作行为的预处理后网络流量。

[0031] 可选地，所述S2步骤中对预处理后的网络流量进行一次特征提取，包括：

[0032] 对预处理后的网络流量进行一次特征提取，得到网络流量一次关联特征，其中预处理后网络流量的一次特征提取流程为：

[0033] S21：构建待特征提取的网络流量向量形式：

[0034] ；

[0035] ；

[0036] 其中：

[0037] 表示网络流量中传输字节数的向量形式，表示网络流量中数据包大小的向量形式；

[0038] S22：对网络流量向量形式中的每个值进行规范化处理：

[0039] ；

[0040] ；

[0041] 其中：

[0042] 表示极小的正数，将其设置为0.0001；

[0043] 表示的均值，表示的标准差，表示的均值，表示的标准差；

[0044] 为的规范化处理结果，为的规范化处理结果；

[0045] 得到规范化处理后的网络流量向量形式：

[0046] ；

[0047] ；

[0048] S23：将两种网络流量向量形式依次进行如下处理：

[0049] ；

[0050] ；

[0051] ；

[0052] ；

[0053] 其中：

[0054] ，表示规范化处理后网络流量向量形式的网络流量一次关联特征；

[0055] 表示激活函数，在本发明实施例中，将其设置为ReLU函数；

[0056] 表示权重参数，表示偏置参数。在本发明实施例中，通过获取若干组网络流量向量形式构成训练集，基于网络流量一次关联特征与规范化处理后的网络流量向量形式的相关性，以训练集中两者相关性达到最大为目标构建目标函数，进而采用牛顿迭代法对目标函数进行迭代，得到对应的权重参数以及偏置参数结果。

[0057] 可选地，所述S3步骤中对提取得到的网络流量一次关联特征进行二次特征提取，包括：

[0058] 对提取得到的网络流量一次关联特征进行二次特征提取，得到网络流量二次加权特征，在本发明实施例中，结合注意力机制的特征提取方式为所述二次特征提取的主要实施方式，其中二次特征提取流程为：

[0059] S31：分别提取网络流量一次关联特征中任意网络流量的特征值，其中预处理后网络流量中在网络流量一次关联特征中的特征值分别为，表示网络流量一次关联特征中的第个值，表示网络流量一
次关联特征中的第个值；

[0060] S32：计算任意特征值的注意力机制权重：

[0061] ；

[0062] ；

[0063] 其中：

[0064] 表示的注意力机制权重，表示的注意力机制权重；

[0065] S33：构建网络流量二次加权特征：

[0066] ；

[0067] 其中：

[0068] ，表示规范化处理后网络流量向量形式的网络流量二次加权特征。

[0069] 可选地，所述S4步骤中根据计算得到的网络流量二次加权特征判断当前流量的流量模式，包括：

[0070] 根据计算得到的网络流量二次加权特征判断当前流量的流量模式，其中对预处理后网络流量的流量模式判断公式为：

[0071]

[0072] ；

[0073] 其中：

[0074] 表示预处理后网络流量的流量模式判断结果；

[0075] B表示链路容量，表示结合网络流量注意力机制权重的网络流量传输速率，表示网络流量传输速率与链路容量的比值。在本发明实施例中，对小流量模式的网络流量直接进行最短路由转发处理，即选取网络跳数最小的路由进行转发。

[0076] 可选地，所述S5步骤中对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合，包括：

[0077] 对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合，其中大流量模式的网络流量源地址为，目的地址为，其中最短跳数路径集合的筛选流程为：

[0078] S51：构建网络拓扑图，其中表示网络拓扑图中节点的集合，表示网络拓扑图中节点所构成边的集
合，网络拓扑图中的节点为交换机节点，表示网络拓扑图中的节点u，表示节点u与节点h构成的边，即交换机节点u与交换机节点h之间的通信链路；

[0079] S52：源地址向网络拓扑图中的节点上传网络流量，利用最短路径计算方法计算得到源地址到目的地址之间的最短路径，其中路径最短表示网络跳数最少，最短路径中包含M个节点，表示其中的第m个节点，，表示源地址向网络拓扑图中上传网络流量的节点，表示将网络流量发送到目的地址的节点，表示距离源地址最近的节点；所述最短路径计算方法为Dijkstra 算法；

[0080] S53：将最短路径加入到最短跳数路径集合；

[0081] S54：令G表示最短跳数路径集合中的路径总数，更新最短跳数路径集合中的路径总数，对于最短跳数路径集合中的任意第g条路径，，从到第m个节点之间的路径设置为，在第m个节点后设置偏离节点，其中偏离节点在
最短跳数路径集合中G条路径中节点后均未出现过，且偏离节点与节点之间链路的剩余带宽大于50%；

[0082] S55：利用最短距离计算方法计算得到偏离节点到目的地址的最短路径，将与最短路径进行拼接，得到新增的最短路径，并将该最短路径加入到最短跳数路径集合，返回步骤S55，直到最短跳数路径集合中的最短路径数目达到预设值。

[0083] 可选地，所述S6步骤中对筛选后的最短跳数路径集合进行时延探测，计算每条路径的真实时延，包括：

[0084] 对筛选后的最短跳数路径集合进行时延探测，计算每条路径的真实时延，其中真实时延的计算流程为：

[0085] 对于最短跳数路径集合中的任意路径，令路径初始节点向路径末尾节点发送含有时间戳的 LLDP 探测数据包，其中 LLDP 探测数据包沿着路径节点传输；

[0086] 路径末尾节点接收到LLDP 探测数据包的发送时间与接收时间之差为，并向路径初始节点发送含有时间戳的 LLDP 探测数据包，路径初始节点接收到LLDP 探测数据包的发送时间与接收时间之差为；

[0087] 令路径初始节点向路径末尾节点发送含有时间戳的ECHO探测数据包，其中 ECHO探测数据包沿着路径节点传输；

[0088] 路径末尾节点接收到ECHO探测数据包的发送时间与接收时间之差为，并向路径初始节点发送含有时间戳的ECHO 探测数据包，路径初始节点接收到ECHO探测数据包的发送时间与接收时间之差为；

[0089] 计算得到路径的真实时延为：。

[0090] 可选地，所述S6步骤中按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率，包括：

[0091] 按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率，其中最短跳数路径集合中第条最短路径的选择概率为：

[0092] ；

[0093] 其中：

[0094] G表示最短跳数路径集合中的路径总数；

[0095] 表示最短跳数路径集合中第条最短路径的真实时延；

[0096] 表示最短跳数路径集合中第条最短路径的链路剩余带宽之和。

[0097] 可选地，所述S7步骤中对当前大流量模式网络流量进行采样，按照不同最短路径的选择概率进行路径选择以及路由转发，完成网络流量的均衡化处理，包括：

[0098] 对当前大流量模式网络流量进行采样，得到E组采样后的网络流量，其中E

[0099] 为了解决上述问题，本发明提供一种电子设备，所述电子设备包括：

[0100] 存储器，存储至少一个指令；

[0101] 通信接口，实现电子设备通信；及处理器，执行所述存储器中存储的指令以实现上述所述的流量智适应的大数据流处理方法。

[0102] 为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的流量智适应的大数据流处理方法。

[0103] 相对于现有技术，本发明提出一种流量智适应的大数据流处理方法，该技术具有以下优势：

[0104] 首先，本方案提出一种流量模式识别方法，对提取得到的网络流量一次关联特征进行二次特征提取，得到网络流量二次加权特征，其中二次特征提取流程为：分别提取网络流量一次关联特征中任意网络流量的特征值，其中预处理后网络流量中在网络流量一次关联特征中的特征值分别为，表示网络流量一次关联特征中的第个值，表示网络流量一次关联特征中
的第个值；

[0105] S32：计算任意特征值的注意力机制权重：

[0106] ；

[0107] ；

[0108] 其中：表示的注意力机制权重，表示的注意力机制权重；构建网络流量二次加权特征：

[0109] ；

[0110] 其中：，表示规范化处理后网络流量向量形式的网络流量二次加权特征。根据计算得到的网络流量二次加权特征判断当前流量的流量模式，其中对预处理后网络流量的流量模式判断公式为：

[0111]

[0112] ；

[0113] 其中：表示预处理后网络流量的流量模式判断结果；B表示链路容量，表示结合网络流量注意力机制权重的网络流量传输速率，表示网络流量传输速率与链路容量的比值。本方案对小流量模式的网络流量直接进行最短路由转发处理，即选取网络跳数最小的路由进行转发，而对大流量模式的网络流量进行均衡化处理。本方案根据用户对产品的不同操作行为所产生网络流量之间的关联性确定不同网络流量之间的一次关联特征，并结合注意力机制为不同网络流量进行赋权，根据计算得到的网络流量二次加权特征判断当前流量的流量模式，当网络流量传输速率与链路容量的比值大于阈值时，则将该网络流量判断为大流量模式，进而对不同流量模式的网络流量采用不同的路由转发方案。

[0114] 同时，本方案提出一种大流量模式下网络流量的均衡化处理，对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合，其中大流量模式的网络流量源地址为，目的地址为，其中最短跳数路径集合的筛选流程为：构建网络拓扑图，其中表示网络拓扑图中节点的集合，表示网络拓扑图中节点所构成边的集合，网
络拓扑图中的节点为交换机节点，表示网络拓扑图中的节点u，表示节点u与节点h构成的边，即交换机节点u与交换机节点h之间的通信链路；源地址向网络拓扑图中的节点上传网络流量，利用最短路径计算方法计算得到源地址到目的地址之间的最短路径，其中路径最短表示网络跳数最少，最短路径中包含M个节点，表示其中的第m个节点，，表示源地址向网络拓扑图中上传网络流量的节点，
表示将网络流量发送到目的地址的节点，表示距离源地址最近的节
点；所述最短路径计算方法为Dijkstra 算法；将最短路径加入到最短跳数路径集合；令G表示最短跳数路径集合中的路径总数，更新最短跳数路径集合中的路径总数，对于最短跳数路径集合中的任意第g条路径，，从到第m个节点之间的路
径设置为，在第m个节点后设置偏离节点，其中偏离节点在最短跳数路径集合中G条路径中节点后均未出现过，且偏离节点与节点之间链路的剩余带宽大于50%；利用最短距离计算方法计算得到偏离节点到目的地址的最短路径，将与最短路径进行拼接，得到新增的最短路径，并将该最短路径加入到最短跳数路径集合，直到最短跳数路径集合中的最短路径数目达到预设值。按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率，其中最短跳数路径集合中第条最短路径的选择概率为：

[0115] ；

[0116] 其中：G表示最短跳数路径集合中的路径总数；表示最短跳数路径集合中第条最短路径的真实时延；表示最短跳数路径集合中第条最短路径的链路剩余带宽之和。对当前大流量模式网络流量进行采样，得到E组采样后的网络流量，其中E

附图说明

[0117] 图1为本发明一实施例提供的一种流量智适应的大数据流处理方法的流程示意图；

[0118] 图2为本发明一实施例提供的实现流量智适应的大数据流处理方法的电子设备的结构示意图。

[0119] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

[0120] 应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0121] 本申请实施例提供一种流量智适应的大数据流处理方法。所述流量智适应的大数据流处理方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述流量智适应的大数据流处理方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。实施例1

[0122] S1：采集数据中心的网络流量，并对采集的网络流量进行预处理。

[0123] 所述S1步骤中对所采集的网络流量进行预处理，包括：

[0124] 采集数据中心的网络流量，其中网络流量为用户访问产品页面过程中所产生的流量数据，包括用户IP地址、端口号、协议、用户操作行为数据、数据包大小以及传输字节数；

[0125] 对所采集的网络流量进行预处理，其中预处理流程为：

[0126] S11：过滤无关的网络流量数据，包括用户IP地址、端口号以及协议；

[0127] S12：利用one‑hot方法将用户操作行为转换为数字编码，并提取每个用户操作行为所产生数据包大小以及传输字节数，在本发明实施例中，用户操作行为包括用户操作所产生的行为标识以及用户操作时间戳信息，则用户操作行为的传输字节数为：

[0128] ；

[0129] 其中：

[0130] 表示用户操作行为的传输字节数，表示第种用户操作行为的数字编码结果；

[0131] 表示用户操作行为的结束时刻，表示用户操作行为的开始时刻，表示交换机端口在时刻统计的传输字节数；

[0132] S13：对每个用户操作行为所产生数据包大小进行归一化处理，归一化处理公式为：

[0133] ；

[0134] 其中：

[0135] 表示用户操作行为所产生数据包大小；

[0136] 表示预设数据包大小的最小值，表示预设数据包大小的最大值；

[0137] S14：构成预处理后的网络流量：

[0138] ；

[0139] 其中：

[0140] 表示用户操作行为的数字编码结果种类数，表示用户操作行为的预处理后网络流量。

[0141] S2：对预处理后的网络流量进行一次特征提取，得到网络流量一次关联特征。

[0142] 所述S2步骤中对预处理后的网络流量进行一次特征提取，包括：

[0143] 对预处理后的网络流量进行一次特征提取，得到网络流量一次关联特征，其中预处理后网络流量的一次特征提取流程为：

[0144] S21：构建待特征提取的网络流量向量形式：

[0145] ；

[0146] ；

[0147] 其中：

[0148] 表示网络流量中传输字节数的向量形式，表示网络流量中数据包大小的向量形式；

[0149] S22：对网络流量向量形式中的每个值进行规范化处理：

[0150] ；

[0151] ；

[0152] 其中：

[0153] 表示极小的正数，将其设置为0.0001；

[0154] 表示的均值，表示的标准差，表示的均值，表示的标准差；

[0155] 为的规范化处理结果，为的规范化处理结果；

[0156] 得到规范化处理后的网络流量向量形式：

[0157] ；

[0158] ；

[0159] S23：将两种网络流量向量形式依次进行如下处理：

[0160] ；

[0161] ；

[0162] ；

[0163] ；

[0164] 其中：

[0165] ，表示规范化处理后网络流量向量形式的网络流量一次关联特征；

[0166] 表示激活函数，在本发明实施例中，将其设置为ReLU函数；

[0167] 表示权重参数，表示偏置参数。

[0168] S3：对提取得到的网络流量一次关联特征进行二次特征提取得到网络流量二次加权特征，其中结合注意力机制的特征提取方式为所述二次特征提取的主要实施方式。

[0169] 所述S3步骤中对提取得到的网络流量一次关联特征进行二次特征提取，包括：

[0170] 对提取得到的网络流量一次关联特征进行二次特征提取，得到网络流量二次加权特征，其中二次特征提取流程为：

[0171] S31：分别提取网络流量一次关联特征中任意网络流量的特征值，其中预处理后网络流量中在网络流量一次关联特征中的特征值分别为，表示网络流量一次关联特征中的第个值，
表示网络流量一次关联特征中的第个值；

[0172] S32：计算任意特征值的注意力机制权重：

[0173] ；

[0174] ；

[0175] 其中：

[0176] 表示的注意力机制权重，表示的注意力机制权重；

[0177] S33：构建网络流量二次加权特征：

[0178] ；

[0179] 其中：

[0180] ，表示规范化处理后网络流量向量形式的网络流量二次加权特征。

[0181] S4：根据计算得到的网络流量二次加权特征判断当前流量的流量模式，若当前流量为小流量模式则不进行均衡化处理，否则进行均衡化处理。

[0182] 所述S4步骤中根据计算得到的网络流量二次加权特征判断当前流量的流量模式，包括：

[0183] 根据计算得到的网络流量二次加权特征判断当前流量的流量模式，其中对预处理后网络流量的流量模式判断公式为：

[0184] ；

[0185] ；

[0186] 其中：

[0187] 表示预处理后网络流量的流量模式判断结果；

[0188] B表示链路容量，表示结合网络流量注意力机制权重的网络流量传输速率，表示网络流量传输速率与链路容量的比值。

[0189] S5：对于大流量模式的网络流量，计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合。

[0190] 所述S5步骤中对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合，包括：

[0191] 对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合，其中大流量模式的网络流量源地址为，目的地址为，其中最短跳数路径集合的筛选流程为：

[0192] S51：构建网络拓扑图，其中表示网络拓扑图中节点的集合，表示网络拓扑图中节点所构成边的集
合，网络拓扑图中的节点为交换机节点，表示网络拓扑图中的节点u，表示节点u与节点h构成的边，即交换机节点u与交换机节点h之间的通信链路；

[0193] S52：源地址向网络拓扑图中的节点上传网络流量，利用最短路径计算方法计算得到源地址到目的地址之间的最短路径，其中路径最短表示网络跳数最少，最短路径中包含M个节点，表示其中的第m个节点，，表示源地址向网络拓扑图中上传网络流量的节点，表示将网络流量发送到目的地址的节点，表示距离源地址最近的节点；所述最短路径计算方法为Dijkstra 算法；

[0194] S53：将最短路径加入到最短跳数路径集合；

[0195] S54：令G表示最短跳数路径集合中的路径总数，更新最短跳数路径集合中的路径总数，对于最短跳数路径集合中的任意第g条路径，，从到第m个节点之间的路径设置为，在第m个节点后设置偏离节点，其中偏离节点在
最短跳数路径集合中G条路径中节点后均未出现过，且偏离节点与节点之间链路的剩余带宽大于50%；

[0196] S55：利用最短距离计算方法计算得到偏离节点到目的地址的最短路径，将与最短路径进行拼接，得到新增的最短路径，并将该最短路径加入到最短跳数路径集合，返回步骤S55，直到最短跳数路径集合中的最短路径数目达到预设值。

[0197] S6：对筛选后的最短跳数路径集合进行时延探测，计算路径的真实时延，并按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率。

[0198] 所述S6步骤中对筛选后的最短跳数路径集合进行时延探测，计算每条路径的真实时延，包括：

[0199] 对筛选后的最短跳数路径集合进行时延探测，计算每条路径的真实时延，其中真实时延的计算流程为：

[0200] 对于最短跳数路径集合中的任意路径，令路径初始节点向路径末尾节点发送含有时间戳的 LLDP 探测数据包，其中 LLDP 探测数据包沿着路径节点传输；

[0201] 路径末尾节点接收到LLDP 探测数据包的发送时间与接收时间之差为，并向路径初始节点发送含有时间戳的 LLDP 探测数据包，路径初始节点接收到LLDP 探测数据包的发送时间与接收时间之差为；

[0202] 令路径初始节点向路径末尾节点发送含有时间戳的ECHO探测数据包，其中 ECHO探测数据包沿着路径节点传输；

[0203] 路径末尾节点接收到ECHO探测数据包的发送时间与接收时间之差为，并向路径初始节点发送含有时间戳的ECHO 探测数据包，路径初始节点接收到ECHO探测数据包的发送时间与接收时间之差为；

[0204] 计算得到路径的真实时延为：。

[0205] 所述S6步骤中按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率，包括：

[0206] 按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率，其中最短跳数路径集合中第条最短路径的选择概率为：

[0207] ；

[0208] 其中：

[0209] G表示最短跳数路径集合中的路径总数；

[0210] 表示最短跳数路径集合中第条最短路径的真实时延；

[0211] 表示最短跳数路径集合中第条最短路径的链路剩余带宽之和。

[0212] S7：对当前大流量模式网络流量进行采样，按照不同最短路径的选择概率进行路径选择以及路由转发，完成网络流量的均衡化处理。

[0213] 所述S7步骤中对当前大流量模式网络流量进行采样，按照不同最短路径的选择概率进行路径选择以及路由转发，完成网络流量的均衡化处理，包括：

[0214] 对当前大流量模式网络流量进行采样，得到E组采样后的网络流量，其中E

[0215] 如图2所示，是本发明一实施例提供的实现流量智适应的大数据流处理方法的电子设备的结构示意图。

[0216] 所述电子设备1可以包括处理器10、存储器11、通信接口13和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如程序12。

[0217] 其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡（Smart Media Card， SMC）、安全数字（Secure Digital， SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如程序12的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

[0218] 所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心（Control Unit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块（用于实现流量智适应的大数据流处理的程序12等），以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

[0219] 所述通信接口13可以包括有线接口和/或无线接口（如WI‑FI接口、蓝牙接口等），通常用于在该电子设备1与其他电子设备之间建立通信连接，并实现电子设备内部组件之间的连接通信。

[0220] 所述总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

[0221] 图2仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图2示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

[0222] 例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi‑Fi模块等，在此不再赘述。

[0223] 可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light‑Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

[0224] 应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

[0225] 所述电子设备1中的所述存储器11存储的程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

[0226] 采集数据中心的网络流量，并对采集的网络流量进行预处理；

[0227] 对预处理后的网络流量进行一次特征提取，得到网络流量一次关联特征；

[0228] 对提取得到的网络流量一次关联特征进行二次特征提取得到网络流量二次加权特征；

[0229] 根据计算得到的网络流量二次加权特征判断当前流量的流量模式，若当前流量为小流量模式则不进行均衡化处理，否则进行均衡化处理；

[0230] 对于大流量模式的网络流量，计算当前流量源地址与目的地址之间的距离，筛选得到最短跳数路径集合；

[0231] 对筛选后的最短跳数路径集合进行时延探测，计算路径的真实时延，并按照真实时延对最短跳数路径选择概率分布化处理，得到不同最短路径的选择概率；

[0232] 对当前大流量模式网络流量进行采样，按照不同最短路径的选择概率进行路径选择以及路由转发，完成网络流量的均衡化处理。

[0233] 具体地，所述处理器10对上述指令的具体实现方法可参考图1至图2对应实施例中相关步骤的描述，在此不赘述。

[0234] 需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

[0235] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

[0236] 以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

一种流量智适应的大数据流处理方法转让专利

申请号 : CN202310564915.4

文献号 : CN116319523B

文献日 : 2023-08-04

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 胡鹏飞 , 贺雪飞 , 周涛

申请人 : 湖南承希科技有限公司

摘要 :

权利要求 :

说明书 :