一种流量智适应的大数据流处理方法转让专利
申请号 : CN202310564915.4
文献号 : CN116319523B
文献日 : 2023-08-04
发明人 : 胡鹏飞 , 贺雪飞 , 周涛
申请人 : 湖南承希科技有限公司
摘要 :
权利要求 :
1.一种流量智适应的大数据流处理方法,其特征在于,所述方法包括:S1:采集数据中心的网络流量,并对采集的网络流量进行预处理;
对所采集的网络流量进行预处理,包括:
采集数据中心的网络流量,其中网络流量为用户访问产品页面过程中所产生的流量数据,包括用户IP地址、端口号、协议、用户操作行为数据、数据包大小以及传输字节数;
对所采集的网络流量进行预处理,其中预处理流程为:S11:过滤无关的网络流量数据,包括用户IP地址、端口号以及协议;
S12:利用one‑hot方法将用户操作行为转换为数字编码,并提取每个用户操作行为所产生数据包大小以及传输字节数,则用户操作行为ai的传输字节数为:其中:
表示用户操作行为ai的传输字节数,ai表示第i种用户操作行为的数字编码结果;
表示用户操作行为ai的结束时刻, 表示用户操作行为ai的开始时刻, 表示交换机端口在 时刻统计的传输字节数;
S13:对每个用户操作行为所产生数据包大小进行归一化处理,归一化处理公式为:其中:
xi表示用户操作行为ai所产生数据包大小;
xmin表示预设数据包大小的最小值,xmax表示预设数据包大小的最大值;
S14:构成预处理后的网络流量:
其中:
n表示用户操作行为的数字编码结果种类数,fi表示用户操作行为ai的预处理后网络流量;
S2:对预处理后的网络流量进行一次特征提取,得到网络流量一次关联特征;
预处理后网络流量的一次特征提取流程为:
S21:构建待特征提取的网络流量向量形式:
f2=[x′1,x′2,...,x′n]
其中:
f1表示网络流量中传输字节数的向量形式,f2表示网络流量中数据包大小的向量形式;
S22:对网络流量向量形式中的每个值进行规范化处理:其中:
∈表示极小的正数,将其设置为0.0001;
表示f1的均值, 表示f1的标准差, 表示f2的均值, 表示f2的标准差;
为 的规范化处理结果,x″i为x′i的规范化处理结果;
得到规范化处理后的网络流量向量形式:
f′2=[x″1,x″2,...,x″n]
S23:将两种网络流量向量形式依次进行如下处理:F1(f′j)=σ(w1f′j+b1)
F2(f′j)=σ(w2f′j+b2)
F3(f′j)=σ[w3(F1(f′j)+F2(f′j))+b3]F4(f′j)=σ(w4f′j+b4)tanh(F3(f′j))其中:
j=1,2,F4(f'j)表示规范化处理后网络流量向量形式f'j的网络流量一次关联特征;
σ(·)表示激活函数;
w1,w2,w3,w4表示权重参数,b1,b2,b3,b4表示偏置参数;
S3:对提取得到的网络流量一次关联特征进行二次特征提取得到网络流量二次加权特征;
二次特征提取流程为:
S31:分别提取网络流量一次关联特征中任意网络流量的特征值,其中预处理后网络流量fi中 x'i在网络流量一次关联特征中的特征值分别为F4(f'1,i),F4(f'2,i),F4(f'1,i)表示网络流量一次关联特征F4(f'1)中的第i个值,F4(f'2,i)表示网络流量一次关联特征F4(f'2)中的第i个值;
S32:计算任意特征值的注意力机制权重:
其中:
att1(i)表示F4(f'1,i)的注意力机制权重,att2(i)表示F4(f'2,i)的注意力机制权重;
S33:构建网络流量二次加权特征:
F(f′j)=[attj(1)F4(f′j,1),attj(2)F4(f′j,2),...,attj(n)F4(f′j,n)]其中:j=1,2,F(f'j)表示规范化处理后网络流量向量形式f'j的网络流量二次加权特征;
S4:根据计算得到的网络流量二次加权特征判断当前流量的流量模式,若当前流量为小流量模式则不进行均衡化处理,否则进行均衡化处理;
根据计算得到的网络流量二次加权特征判断当前流量的流量模式,其中对预处理后网络流量fi的流量模式判断公式为:其中:
modei表示预处理后网络流量fi的流量模式判断结果;
B表示链路容量, 表示结合网络流量注意力机制权重的网络流量fi传输速率,thi表示网络流量fi传输速率与链路容量的比值;
S5:对于大流量模式的网络流量,计算当前流量源地址与目的地址之间的距离,筛选得到最短跳数路径集合;
S6:对筛选后的最短跳数路径集合进行时延探测,计算路径的真实时延,并按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率;
真实时延的计算流程为:
对于最短跳数路径集合中的任意路径,令路径初始节点向路径末尾节点发送含有时间戳的LLDP探测数据包,其中LLDP探测数据包沿着路径节点传输;
路径末尾节点接收到LLDP探测数据包的发送时间与接收时间之差为T1,并向路径初始节点发送含有时间戳的LLDP探测数据包,路径初始节点接收到LLDP探测数据包的发送时间与接收时间之差为T2;
令路径初始节点向路径末尾节点发送含有时间戳的ECHO探测数据包,其中ECHO探测数据包沿着路径节点传输;
路径末尾节点接收到ECHO探测数据包的发送时间与接收时间之差为T3,并向路径初始节点发送含有时间戳的ECHO探测数据包,路径初始节点接收到ECHO探测数据包的发送时间与接收时间之差为T4;
计算得到路径的真实时延为:
按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率,其中最短跳数路径集合中第g条最短路径的选择概率pg为:其中:
G表示最短跳数路径集合中的路径总数;
tg表示最短跳数路径集合中第g条最短路径的真实时延;
Bg表示最短跳数路径集合中第g条最短路径的链路剩余带宽之和;
S7:对当前大流量模式网络流量进行采样,按照不同最短路径的选择概率进行路径选择以及路由转发,完成网络流量的均衡化处理。
2.如权利要求1所述的一种流量智适应的大数据流处理方法,其特征在于,所述S5步骤中对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离,筛选得到最短跳数路径集合,包括:对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离,筛选得到最短跳数路径集合,其中大流量模式的网络流量源地址为locv,目的地址为loc*,其中最短跳数路径集合的筛选流程为:S51:构建网络拓扑图G=(E,V),其中V={vu|u∈[1,U]}表示网络拓扑图中节点的集合,E={euh|u,h∈[1,U],u≠h}表示网络拓扑图中节点所构成边的集合,网络拓扑图中的节点为交换机节点,vu表示网络拓扑图中的节点u,euh表示节点u与节点h构成的边,即交换机节点u与交换机节点h之间的通信链路;
S52:源地址locv向网络拓扑图中的节点上传网络流量,利用最短路径计算方法计算得到源地址到目的地址之间的最短路径L1,其中路径最短表示网络跳数最少,最短路径L1中包含M个节点,L1(m)表示其中的第m个节点,m∈[1,M],L1(1)表示源地址locv向网络拓扑图中上传网络流量的节点,L1(M)表示将网络流量发送到目的地址的节点,L1(1)表示距离源地址locv最近的节点;所述最短路径计算方法为Dijkstra算法;
S53:将最短路径L1加入到最短跳数路径集合;
S54:令G表示最短跳数路径集合中的路径总数,更新最短跳数路径集合中的路径总数,对于最短跳数路径集合中的任意第g条路径Lg,g∈[1,G],从Lg(1)到第m个节点Lg(m)之间的路径设置为Rg→m,在第m个节点Lg(m)后设置偏离节点,其中偏离节点在最短跳数路径集合中G条路径中节点Lg(m)后均未出现过,且偏离节点与节点Lg(m)之间链路的剩余带宽大于
50%;
S55:利用最短距离计算方法计算得到偏离节点到目的地址的最短路径,将Rg→m与最短路径进行拼接,得到新增的最短路径,并将该最短路径加入到最短跳数路径集合,返回步骤S55,直到最短跳数路径集合中的最短路径数目达到预设值。
3.如权利要求1所述的一种流量智适应的大数据流处理方法,其特征在于,所述S7步骤中对当前大流量模式网络流量进行采样,按照不同最短路径的选择概率进行路径选择以及路由转发,完成网络流量的均衡化处理,包括:对当前大流量模式网络流量进行采样,得到E组采样后的网络流量,其中E
说明书 :
一种流量智适应的大数据流处理方法
技术领域
背景技术
发明内容
次关联特征 中的第 个值;
合,网络拓扑图中的节点为交换机节点, 表示网络拓扑图中的节点u, 表示节点u与节点h构成的边,即交换机节点u与交换机节点h之间的通信链路;
最短跳数路径集合中G条路径中节点 后均未出现过,且偏离节点与节点 之间链路的剩余带宽大于50%;
的第 个值;
络拓扑图中的节点为交换机节点, 表示网络拓扑图中的节点u, 表示节点u与节点h构成的边,即交换机节点u与交换机节点h之间的通信链路;源地址 向网络拓扑图中的节点上传网络流量,利用最短路径计算方法计算得到源地址到目的地址之间的最短路径,其中路径最短表示网络跳数最少,最短路径 中包含M个节点, 表示其中的第m个节点, , 表示源地址 向网络拓扑图中上传网络流量的节点,
表示将网络流量发送到目的地址的节点, 表示距离源地址 最近的节
点;所述最短路径计算方法为Dijkstra 算法;将最短路径 加入到最短跳数路径集合;令G表示最短跳数路径集合中的路径总数,更新最短跳数路径集合中的路径总数,对于最短跳数路径集合中的任意第g条路径 , ,从 到第m个节点 之间的路
径设置为 ,在第m个节点 后设置偏离节点,其中偏离节点在最短跳数路径集合中G条路径中节点 后均未出现过,且偏离节点与节点 之间链路的剩余带宽大于50%;利用最短距离计算方法计算得到偏离节点到目的地址的最短路径,将 与最短路径进行拼接,得到新增的最短路径,并将该最短路径加入到最短跳数路径集合,直到最短跳数路径集合中的最短路径数目达到预设值。按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率,其中最短跳数路径集合中第 条最短路径的选择概率 为:
附图说明
具体实施方式
表示网络流量一次关联特征 中的第 个值;
合,网络拓扑图中的节点为交换机节点, 表示网络拓扑图中的节点u, 表示节点u与节点h构成的边,即交换机节点u与交换机节点h之间的通信链路;
最短跳数路径集合中G条路径中节点 后均未出现过,且偏离节点与节点 之间链路的剩余带宽大于50%;