一种基于深度强化学习的动态虚拟网络功能编排方法转让专利

申请号 : CN202110204246.0

文献号 : CN112887156B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 唐伦张亚唐浩陈前斌

申请人 : 重庆邮电大学

摘要 :

本发明涉及一种基于深度强化学习的动态虚拟网络功能编排方法,属于无线通信领域。该方法包括:针对物理网络拓扑动态变化引起的VNF编排成本高的问题,建立时延约束下的最小化VNF编排的资源成本和运行成本的数学模型;根据网络拓扑动态变化和VNF动态变化,建立MDP模型,且通过深度Q网络来求解MDP;针对MDP模型中状态空间和动作空间过大和网络负载动态变化的问题,设计动态最优的VNF编排策略以解决VNF编排成本高的问题。本发明在保证用户时延性能的前提下,受限于网络中计算资源容量和链路带宽资源容量,动态的调整各网络切片VNF的编排策略,保证了用户性能,优化VNF编排成本,提高资源利用率。

权利要求 :

1.一种基于深度强化学习的动态虚拟网络功能编排方法,其特征在于,该方法具体包括以下步骤:

S1:针对物理网络拓扑动态变化引起的VNF编排成本高的问题,建立时延约束下的最小化VNF编排的资源成本和运行成本的数学模型;

S2:根据网络拓扑动态变化和VNF动态变化,建立MDP模型;

S3:针对MDP模型中状态空间和动作空间过大和网络负载动态变化的问题,设计动态最优的VNF编排策略以解决VNF编排成本高的问题;

步骤S1中,动态VNF编排的网络模型为:物理基础设施网络用无向图G=(N,L)表示,其中N和L分别代表整个基础设施网络的物理节点集合和链路集合;

设网络中切片的集合为K,一个网络切片中通常包含多个用户业务请求,令Uk表示网络切片k中的用户业务请求集合,此外,令 表示网络切片k中的用户u的最大容忍时延,切片k中的用户u对应的所有VNF集合为Fu,k,本模型中将系统的时间维度分为若干个时隙,用表示;

VNF的编排包括以下两个阶段:第一阶段:确定将VNF和VNF间的虚拟链路映射在哪个物理节点和物理链路上;

令 表示时隙t网络切片k中的用户uVNFj映射在物理节点上的动作,其中j∈Fu,k;

表示时隙tVNFj映射在物理节点n上; 表示时隙tVNFj是利用物理链路l向下一个VNF传输业务流的动作, 表示VNFj是利用物理链路l传输数据;

第二阶段:根据每个切片的VNF映射结果为其分配资源,包括为映射在物理节点上的VNF分配计算资源和映射在物理链路上的虚拟链路分配链路带宽资源;用户在时隙t的计算资源分配策略表示为 带宽资源分配策略表示为VNF编排成本由资源成本Cres(t)和运行成本Crun(t)构成,即:C(t)=η1Cres(t)+η2Crun(t)其中,η1,η2分别为资源成本和运行成本的权重;

资源成本Cres(t)由计算资源成本Cr,c(t)和带宽资源成本Cr,b(t)构成,即:Cres(t)=Cr,c(t)+Cr,b(t)另一方面涉及时延性能指标,考虑传输时延和处理时延,得到端到端时延为:其中, 为传输时延, 为处理时延;

所以VNF编排的优化目标是联合优化资源成本和运行成本,优化目标为:其中,E[·]是求期望;

步骤S2中,建立的MDP模型为:将基础设施网络的拓扑状态ψ和网络中物理节点可用计算资源量和物理链路可用带宽资源量C,B作为状态空间 即S=(ψ,C,B);将VNF编排过程作为动作空间 为计算资源分配动作空间, 表示网络中所有用户的链路资源分配动作空间;系统状态为s(t)下,采取动作a(t)后,系统会获得一个即刻奖励R(s(t),a(t))并转移到系统状态s(t+1),设此状态转移概率为Pr(s(t),a(t),s(t+1));

*

步骤S3中,采用深度Q网络来求解MDP模型,由最优状态‑动作值函数Q (s,a)得出时隙t*

的最优VNF编排策略π(s|a)为:其中,s′表示状态s的下一个状态,a′表示s′下采取的动作,γ表示折扣因子,策略π是从状态到可能执行的动作的概率的映射,具体表示为在状态 π(a|s)为动作的一个概率分布。

说明书 :

一种基于深度强化学习的动态虚拟网络功能编排方法

技术领域

[0001] 本发明属于无线通信领域,涉及一种基于深度强化学习的动态虚拟网络功能编排方法。

背景技术

[0002] 对于网络服务提供商来说,以一种经济、绿色高效的方式为用户提供服务是一个常见的痛点,因为在硬件级别部署服务时需要较多的时间、成本并且会消耗更多的资源。对
定制硬件的依赖严重阻碍了现代通信产业的发展,现代网络产业高度要求轻量级服务提供
方法,以促进网络创新和推动长期支出削减,而网络功能虚拟化(Network Function 
Virtualization,NFV)技术的出现将成为解决上述问题的关键。网络功能虚拟化是指将网
络功能(如防火墙、路由器等)从硬件中剥离出来,并将其“软件化”到通用服务器上,作为云
计算基础设施中按需的虚拟网络功能(Virtual Network Function,VNF)。NFV支持以更可
伸缩和更灵活的方式分配网络资源,为网络功能提供更有效和灵活的管理和运行机制,从
而可以显著降低网络服务提供商的资本支出和运营成本。尽管可以利用VNF技术灵活的分
配资源,但是VNF的编排却存在挑战。
[0003] 尽管已经有学者对VNF的编排展开研究,但解决VNF资源分配问题的最流行方法之一是基于阈值的资源分配策略,如果网络条件达到某些预定义的阈值,则可以添加或删除
资源,尽管这为动态资源分配提供了一种简单且可扩展的解决方案,但是基于阈值的标准
往往会过度配置和未充分利用网络设备,从而对基础设施提供商带来高昂的成本。另外,现
有的大多数优化方法是启发式的,然而,实际网络已经变得更加复杂且动态变化,此外,这
些启发式的解决方法严重依赖先验知识,并且通常以离线的方式进行设计,牺牲了网络功
能虚拟化和软件定义网络(Software Defined Network,SDN)的灵活性。并且,一些研究还
忽略到端到端时延,尤其是处理时延,但这是服务等级协议(Service Level Agreement,
SLA)中最重要的指标之一。

发明内容

[0004] 有鉴于此,本发明的目的在于提供一种基于深度强化学习的动态虚拟网络功能编排方法,根据物理网络拓扑动态变化,在保证用户时延性能的前提下,受限于网络中计算资
源容量和链路带宽资源容量,动态的调整各网络切片VNF的编排策略,保证用户性能,优化
VNF编排成本,提高资源利用率。
[0005] 为达到上述目的,本发明提供如下技术方案:
[0006] 一种基于深度强化学习的动态虚拟网络功能编排方法,具体包括以下步骤:
[0007] S1:针对物理网络拓扑动态变化引起的虚拟网络功能(Virtual  Network Functional,VNF)编排成本高的问题,建立时延约束下的最小化VNF编排的资源成本和运行
成本的数学模型;
[0008] S2:根据网络拓扑动态变化和VNF动态变化,建立MDP模型;
[0009] S3:针对MDP模型中状态空间和动作空间过大和网络负载动态变化的问题,设计动态最优的VNF编排策略以解决VNF编排成本高的问题。
[0010] 进一步,步骤S1中,动态VNF编排的网络模型为:物理基础设施网络用无向图G=(N,L)表示,其中N和L分别代表整个基础设施网络的物理节点集合和链路集合;Cn表示为物
理节点n的计算容量,Bl为链路l的带宽容量,l.head和l.tail代表连接链路l的两个相邻物
理节点;
[0011] 设网络中切片的集合为K,一个网络切片中通常包含多个用户业务请求,令Uk表示网络切片k中的用户业务请求集合,此外,令 表示网络切片k中的用户u的最大容忍时
延,切片k中的用户u对应的所有VNF集合为 本模型中将系统的时间维度分为若干个时
隙,用 表示。
[0012] 进一步,步骤S1中,VNF的编排包括以下两个阶段:
[0013] 第一阶段:确定将VNF和VNF间的虚拟链路映射在哪个物理节点和物理链路上;
[0014] 令 表示时隙t网络切片k中的用户uVNFj映射在物理节点上的动作,其中j∈Fu,k; 表示时隙tVNFj映射在物理节点n上; 表示时隙tVNFj是利用物理链路l
向下一个VNF传输业务流的动作, 表示VNFj是利用物理链路l传输数据;
[0015] 第二阶段:根据每个切片的VNF映射结果为其分配资源,包括为映射在物理节点上的VNF分配计算资源和映射在物理链路上的虚拟链路分配链路带宽资源;用户在时隙t的计
算资源分配策略可以表示为 带宽资源分配策略可以表示为
[0016] 进一步,步骤S1中,VNF编排成本由资源成本Cres(t)和运行成本Crun(t)构成,即:
[0017] C(t)=η1Cres(t)+η2Crun(t)
[0018] 其中,η1,η2分别为资源成本和运行成本的权重;
[0019] 资源成本Cres(t)主要由计算资源成本Cr,c(t)和带宽资源成本Cr,b(t)构成,即:
[0020] Cres(t)=Cr,c(t)+Cr,b(t)
[0021] 另一方面涉及时延性能指标,考虑传输时延和处理时延,得到端到端时延为:
[0022]
[0023] 其中, 为传输时延, 为处理时延;
[0024] 所以VNF编排的优化目标是联合优化资源成本和运行成本,优化目标为:
[0025]
[0026] 其中,E[·]表示求期望。
[0027] 进一步 ,步骤 S2中 ,建 立的MD P模型为 :状态空间 为 定义 为是网络拓扑的状态空间,当物理
节点处于工作状态时 反之
则分别表示当前网络中物理节
点可用计算资源量和物理链路可用带宽资源量的状态空间。状态空间定义为
为计算资源分
配动作空间, 是切片k中的用户u的计算资源分配动作空间, 表示网络中所有用户的
链路资源分配动作空间, 为切片k中的用户u的链路资源分配动作空间。在系统状态为s
(t)下,采取动作a(t)后,系统会获得一个即刻奖励R(s(t),a(t))=‑C(t)并转移到系统状
态s(t+1),设此状态转移概率为Pr(s(t),a(t),s(t+1))。
[0028] 进一步,步骤S3中,为了适用网络拓扑动态变化和节点负载动态变化,采用结合了神经网络的深度Q网络(Deep Q Network,DQN)来解决本方法建立的MDP模型,以获得的最优
VNF编排策略,保证了用户性能,优化VNF编排成本,提高资源利用率。
[0029] 由最优状态‑动作值函数Q*(s,a)得出时隙t的最优VNF编排策略π*(s|a)为:
[0030]
[0031] 其中,s'表示状态s的下一个状态,a'表示s'下采取的动作,γ表示折扣因子,策略π是从状态到可能执行的动作的概率的映射,具体可以表示为在状态 π(a|s)为动作
的一个概率分布。
[0032] 本发明的有益效果在于:本发明针对物理网络拓扑动态变化的VNF编排,在保证用户时延性能的前提下,综合考虑了网络中计算资源容量和链路带宽资源容量,动态调整VNF
的编排策略,保证用户性能,优化VNF编排成本和提高资源利用率。
[0033] 本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可
以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和
获得。

附图说明

[0034] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0035] 图1为可应用本发明场景示意图;
[0036] 图2为本发明基于神经网络的VNF编排决策示意图;
[0037] 图3为本发明基于深度强化学习的动态虚拟网络功能编排方法流程图。

具体实施方式

[0038] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实
施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离
本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示
意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相
互组合。
[0039] 其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不
代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是
可以理解的。
[0040] 本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系
为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或
暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述
位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术
人员而言,可以根据具体情况理解上述术语的具体含义。
[0041] 本发明提供了一种基于深度强化学习的动态虚拟网络功能编排方法,包括以下步骤:
[0042] S1:针对物理网络拓扑动态变化引起的VNF编排成本高的问题,建立时延约束下的最小化VNF编排的资源成本和运行成本的数学模型。
[0043] 其中,动态VNF编排的网络模型为:物理基础设施网络用无向图G=(N,L)表示,N和L分别代表整个基础设施网络的物理节点集合和链路集合。Cn表示为基础设施节点n的计算
容量,Bl为链路l的带宽容量,l.head和l.tail代表连接链路l的两个相邻物理节点。
[0044] 设网络中切片的集合为K,一个网络切片中通常包含多个用户业务请求,令Uk表示网络切片k中的用户业务请求集合,此外,令 表示网络切片k中的用户u的最大容忍时
延,切片k中的用户u对应的所有VNF集合为Fu,k。
[0045] VNF的编排包括以下两个阶段:第一阶段是确定将VNF和VNF间的虚拟链路映射在哪个物理节点和物理链路上。 表示时隙t网络切片k中的用户uVNFj(j∈Fu,k)映射在
物理节点上的动作, 表示时隙tVNFj映射在物理节点n上。 表示时隙tVNFj是
利用物理链路l向下一个VNF传输业务流的动作, 表示VNFj是利用物理链路l传输
数据。第二阶段是根据每个切片的VNF映射结果为其分配资源,包括为映射在物理节点上的
VNF分配计算资源和映射在物理链路上的虚拟链路分配链路带宽资源。用户在时隙t的计算
资源分配策略可以表示为 带宽资源分配策略可以表示为
[0046] VNF编排成本由资源成本Cres(t)和运行成本Crun(t)构成,其中时延包含传输时延和处理时延,所以所述的VNF编排的优化目标是联合优化资源成本和运行成本为:
[0047]
[0048] S2:根据网络拓扑动态变化和VNF动态到达,建立MDP模型。
[0049] 其中,建立的MDP模型为:状态空间为 定义为是网络拓扑的状态空间,当物理节点处于工作状态时 反
之 则分别表示当前网络中物
理节点可用计算资源量和物理链路可用带宽资源量的状态空间。状态空间定义为
为计算资源分
配动作空间, 是切片k中的用户u的计算资源分配动作空间, 表示网络中所有用户的
链路资源分配动作空间, 为切片k中的用户u的链路资源分配动作空间。在系统状态为s
(t)下,采取动作a(t)后,系统会获得一个即刻奖励R(s(t),a(t))=‑C(t)并转移到系统状
态s(t+1),设此状态转移概率为Pr(s(t),a(t),s(t+1))。
[0050] S3:针对MDP中状态空间和动作空间过大,网络负载动态变化,设计动态最优的VNF编排方法以解决VNF编排成本高的问题。
[0051] 为了适用网络拓扑动态变化和节点负载动态变化,采用结合了DQN网络来解决本发明建立的MDP,以获得的最优VNF编排策略,保证了用户性能,优化VNF编排成本,提高资源
利用率。
[0052] 图1是本发明实施例的场景示意图。根据网络中可用的物理资源,利用网络功能虚拟化技术将基础设施硬件“软件化”为灵活的、高效的虚拟网络功能。且根据不同用户的业
务请求和网络中可用的资源,灵活的进行VNF的编排。
[0053] 图2是本发明基于神经网络的VNF编排决策示意图。根据当前网络环境状态s(t),智能体根据策略π(s,a)执行VNF映射与资源分配动作a(t),而后,系统会获得一个由当前策
略执行后的资源成本Cres(t)和节点运行成本Crun(t),构成VNF的编排成本C(t)=η1Cres(t)+
η2Crun(t),从而获得对应的奖励R(s(t),a(t))=‑C(t)。
[0054] 图3是本发明中基于深度强化学习的动态虚拟网络功能编排方法流程图,步骤如下:
[0055] 步骤301:生成基础物理网络环境,物理节点的计算资源和链路带宽资源随机分配给物理网络中的物理节点和物理链路上,同时生成不同性能的网络切片;
[0056] 步骤302:初始化预测网络Q(s,a)权重参数θ,对于目标网络θ‑=θ。
[0057] 步骤303:初始化经验池D,初始化ε‑greedy策略。
[0058] 步骤304:随机选择Si=(si‑ζ,...,si‑1,si)初始化作为神经网络的输入,常数ζ是一个正整数,si表示时刻i的系统状态,根据ε‑greedy策略选择动作ai。
[0059] 步骤305:执行动作ai后获得奖励回报R(si,ai),并观察下一个状态si+1。
[0060] 步骤306:将上述数据ei=(si,ai,R(si,ai),si+1)存入经验池D中。
[0061] 步骤307:从经验池D中随机抽取一批经验数据
[0062] 步骤308:利用从经验池中抽取的样本数据,预测网络中计算状态‑动作值函数Q(s,a;θ),计算目标网络的值
[0063] 步骤309:从而计算损失函数:
[0064]
[0065] 步骤310:利用损失函数L(θ)更新预测网络权重参数
[0066] 步骤311:每隔Z步更新目标网络,θ‑=θ。
[0067] 步骤312:从目标网络的输出中选择优化的VNF编排策略:
[0068]
[0069] 步骤313:根据优化策略π*(s|a)动态调整VNF的物理节点计算资源、物理链路带宽资源分配。
[0070] 最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技
术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明
的权利要求范围当中。