一种车联网中基于深度强化学习的资源联合分配方法转让专利

申请号 : CN202110174006.0

文献号 : CN112995950B

文献日 : 2022-03-29

本发明公开了一种车联网中基于深度强化学习的资源联合分配方法，步骤包括：S1、构建包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景；S2、基站收集通信小区基础设施能够分配给车辆节点的资源状态信息，作为深度强化学习网络DQN的输入状态；S3、车辆节点与基础设施的连接状态作为输出动作；S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标，建立最优化模型；S5、设计DQN奖励函数和网络结构，训练DQN；S6、根据车辆节点的输入状态，DQN输出Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略。本发明以更小的复杂度对车辆网中通信、计算和缓存资源联合分配问题进行求解。

1.一种车联网中基于深度强化学习的资源联合分配方法，其特征在于，所述的资源联合分配方法包括以下步骤：

S1、构建一个包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景，该车联网通信场景中每个基站均配置一个边缘计算服务器和缓存服务器，每个基站配置有限的频谱资源，该车联网通信场景中利用NFV和SDN技术对物理资源进行虚拟化，并根据车辆节点的时空分布为边缘计算服务器和缓存服务器配置有限的物理资源，最终由SDN集中控制物理资源的联合分配，其中，所述物理资源包括计算资源和缓存资源，SDN表示软件定义网络，NFV表示网络功能虚拟化，车联网通信场景中基于ICN技术进行内容的存储和检索，车辆具备V2I通信能力，其中，ICN表示信息中心化网络，V2I表示车辆到基础设施；

S2、针对每一车辆节点，基站收集通信小区内基础设施能够分配给车辆节点的通信、计算和缓存资源状态信息，包括基站到车辆的下行速率、基站频谱资源的占用率、边缘计算服务器分配给车辆的算力、边缘计算服务器算力资源的占用率、车辆节点请求的视频内容大小和视频内容编号，作为深度强化学习网络的输入状态，其中，深度强化学习网络简称为DQN；

S3、获取车辆节点与基础设施的连接状态，包括车辆节点与基站的连接、车辆节点与边缘计算服务器的连接，作为DQN的输出动作，其中，车辆节点与缓存服务器的连接通过规则控制；

S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标，结合约束条件，建立最优化问题模型；

S5、根据最优化问题模型，设计DQN奖励函数和DQN神经网络结构；

S6、通过步骤S5中设计得到的DQN神经网络提取输入状态的特征，拟合Q表的状态动作函数，得到各种输入状态下输出动作的Q值，并结合奖励函数训练和更新神经网络；

S7、利用训练好的DQN，根据车辆节点的输入状态，输出相应的动作Q值序列，将Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略；

其中，所述的步骤S1过程如下：S1.1、建立车辆节点与基站的通信模型，其中无线信道服从有限状态马尔可夫过程，具体如下：

车辆节点集合为基站集合为

车辆节点u接收到基站k信噪比为γu,k，将信噪比离散为集合车辆节点u在时隙t接收到基站k的信噪比的状态转移概率矩阵为表达式为：上式中，Di表示当前时隙信噪比，Dj表示下一时隙信噪比，表示信噪比由Di转变为Dj的状态转移概率；

基站k在时隙t能分配给车辆节点u的下行速率为根据香农公式可得：上式中，bu,k表示基站k分配给车辆节点u的带宽；

基站k的下行速率上限为Gk，满足以下条件：上式中，表示在时隙t车辆节点u与基站k的连接状态，取值为1或者0，当取值为1表示建立连接，当取值为0表示未建立连接；

在时隙t基站k的下行速率使用占比为表达式为：车辆节点u在时隙t请求格式为w的视频内容v，其大小为则车辆节点u向基站k请求视频(v,w)的下行传输时延为：如果车辆节点u请求的视频(v,w)不存在于本地通信小区的缓存服务器，并且也不能通过边缘计算服务器进行格式转换得到，那么基站k将通过数据中心请求视频(v,w)，则数据中心到基站k的下行时延为表达式为：上式中，为数据中心到基站k的下行传输速率；

车辆节点u与基站k的连接需要满足以下条件：上式中，ρu,k为车辆节点u驶出基站k通信范围需走的距离，ωu为车辆节点u的行驶速率，λ为常量；

S1.2、建立视频任务卸载到边缘计算服务器的计算模型，其中边缘计算服务器的算力分配服从有限状态马尔可夫过程，具体如下：边缘计算服务器集合为

边缘计算服务器m在时隙t分配给车辆节点u的算力为fu,m(t)，将算力值离散为集合边缘计算服务器m在时隙t分配给车辆节点u的算力的状态转移概率矩阵为表达式为：

上式中，Ei表示当前时隙算力，Ej表示下一时隙算力，表示算力由Ei转变为Ej的状态转移概率；

根据车辆节点的时空分布，利用SDN技术为边缘计算服务器配置有限的计算资源，边缘计算服务器m的计算资源上限为Fm，满足以下条件：上式中，表示在时隙t车辆节点u与边缘计算服务器m的连接状态，取值为1或者0，当取值为1表示建立连接，当取值为0表示未建立连接；

边缘计算服务器m在时隙t的算力使用占比为表达式为：用表示车辆节点u在时隙t请求的视频(v,w)是否需要在边缘计算服务器m进行格式转换，取值为1或者0，当时，表示需要进行格式转换，当时，表示不需要进行格式转换；

车辆节点u在时隙t请求的视频任务卸载到边缘计算服务器m的计算时延为表达式为：

上式中，β为常数，表示计算每Mb所需的CPU周期数；

S1.3、建立视频任务存储到缓存服务器的缓存模型，具体如下：基于ICN技术存储和检索视频内容，缓存服务器集合为缓存服务器c中的视频内容集合为Vc＝{v1,v2,…,vQ}，缓存服务器c中的视频格式集合为Wc＝{w1,w2,…,wQ}，Q表示缓存服务器中缓存的视频数量；

缓存服务器c中的视频列表根据视频请求受欢迎程度每隔时间Tc更新一次，根据车辆节点的时空分布，利用SDN技术为缓存服务器配置有限的缓存资源，缓存服务器c的缓存资源上限为Hc，满足以下条件：

用表示在时隙t车辆节点u与缓存服务器c的连接状态，取值为1或者0，当取值为1表示建立连接，当取值为0表示未建立连接；

用表示在时隙t车辆节点u请求的视频(v,w)是否缓存于缓存服务器c，取值为

1或者0，当时，表示在时隙t车辆节点u请求的视频(v,w)缓存于缓存服务器c，当时，表示在时隙t车辆节点u请求的视频(v,w)没有缓存于缓存服务器c；

其中，所述的步骤S2过程如下：利用步骤S1中定义的资源状态信息，构建DQN的输入状态Su(t)，表示车辆节点u在时隙t的信息状态，表示方式如下：

其中，表示基站k在时隙t能分配给车辆节点u的下行速率，表示在时隙t基站k的下行速率使用占比，fu,m(t)表示边缘计算服务器m在时隙t能分配给车辆节点u的算力，表示边缘计算服务器m在时隙t的算力使用占比，表示在时隙t车辆节点u请求的视频(v,w)是否缓存于缓存服务器c，表示车辆节点u在时隙t请求格式为w的视频内容v的视频大小，vu(t)表示车辆节点u在时隙t请求的视频内容编号；

其中，所述的步骤S3过程如下：S3.1、通过DQN预测车辆节点与基站和边缘计算服务器的连接行为：车辆节点与基站和边缘计算服务器在时隙t的连接状态作为DQN的输出动作au(t)，表达方式如下：

其中，表示车辆节点u在时隙t与通信小区所有基站的连接行为向量，表示车辆节点u在时隙t与通信小区所有边缘计算服务器的连接行为向量；

S3.2、通过规则决定车辆节点与缓存服务器的连接行为：(v,w)

缓存有视频(v,w)的缓存集合为J ＝{c|v∈Vc,w∈Wc,c∈C}，缓存有视频内容v的缓(v)

存集合为J ＝{c|v∈Vc,c∈C}，则车辆节点选择连接到某一个缓存服务器的规则如下：上式中，min()表示取集合的最小值，表示空集，k表示车辆节点接入的基站编号，此时车辆节点u与选中的缓存服务器c的值其中，所述的步骤S4过程如下：车辆节点u在时隙t请求视频(v,w)的时延为表达式如下：上式中，等号右侧第一项表示车辆节点u请求的视频(v,w)存在于缓存服务器c中，视频直接通过基站回传的时延；第二项表示车辆节点u请求的视频(v,w)需要先经过边缘计算服务器进行转码，然后再通过基站回传的时延；第三项表示车辆节点u请求的视频内容不存在于缓存服务器中，则基站向数据中心请求相应视频，然后再通过基站回传的时延；

车辆节点u在时隙t请求视频(v,w)的吞吐率为表达式如下：车辆节点u在时间T内请求的视频内容集合为车辆节点u在时间T内请求的视频格式集合为 P表示请求的视频数量，车辆节点u在时间T内请求任务的总吞吐量为Ωu，表达式如下：最大化通信小区内所有车辆节点请求任务的总吞吐量，目标函数如下：C1:

C2:

C3:

C4:

C5:

C6:

C7:

C8:

C9:

C10:

上述约束条件中，C1表示每一基站频谱资源的约束条件，C2表示每一边缘计算服务器算力资源的约束条件，C3表示每一车辆节点在每个时隙最多只能连接到一个基站，C4表示每一车辆节点在每个时隙最多只能连接到一个边缘计算服务器，C5表示每一车辆节点在每个时隙最多只能连接到一个缓存服务器，C6表示车辆与基站的连接行为，取值为0或1，当取值为1表示连接，当取值为0表示未连接，C7表示车辆与边缘计算服务器的连接行为，取值为

0或1，当取值为1表示连接，当取值为0表示未连接，C8表示车辆与缓存服务器的连接行为，取值为0或1，当取值为1表示连接，当取值为0表示未连接，C9表示缓存服务器是否缓存有请求的视频(v,w)，C10表示请求的视频(v,w)是否需要通过边缘计算服务器进行转码；

其中，所述的步骤S5过程如下：S5.1、设计DQN奖励函数如下：用表示车辆节点u在时隙t接入基站k时，是否因为基站k的资源限制导致未能连接成功，值为1表示连接成功，值为0表示连接失败；

用表示车辆节点u在时隙t接入边缘计算服务器m时，是否因为边缘计算服务器m的资源限制导致未能连接成功，值为1表示连接成功，值为0表示连接失败；

车辆节点u在时隙t的奖励函数为ru(t)，表达式如下：上式中，表示车辆节点成功接入基站的奖励，表示车辆节点未成功接入基站的奖励，值0.2表示接入边缘计算服务器对应奖励的权重，表示车辆节点成功接入边缘计算服务器的奖励，表示车辆节点未成功接入边缘计算服务器的奖励；

S5.2、设计DQN网络结构，其中，DQN的网络输入的维度为[1,H,W]，其中，1表示通道数，H表示高，W表示宽，先通过5层卷积层逐步提取输入状态的特征，然后对特征通道进行加权，之后用两个全连接层分别对加权后的输出做特征选择，最后作相加融合得到各个输出动作的Q值；

其中，所述的步骤S6中DQN神经网络的训练和更新过程如下：S6.1、初始化策略网络、目标网络权重和ε‑greedy动作选择策略参数；

S6.2、初始化系统环境，得到系统状态s(t)；

S6.3、策略网络根据系统状态作推理，并依据动作选择策略选择动作a(t)；

S6.4、动作作用于环境，得到系统奖励r(t)，并转移到下一状态s(t+1)；

S6.5、将当前状态转移对[s(t),a(t),r(t),s(t+1)]存于经验回放池；

S6.6、从经验池抽取样本对策略网络进行训练，并更新目标网络权重。

一种车联网中基于深度强化学习的资源联合分配方法

技术领域

[0001] 本发明涉及车联网资源分配技术领域，具体涉及一种车联网中基于深度强化学习的资源联合分配方法。

背景技术

[0002] 随着车联网技术的不断迭代更新，通信、计算和缓存等领域技术也不断得到改善。根据给定的车联网场景需求，如何有效地结合通信、计算和缓存技术获得问题的最优解，已
经成为了学术界的研究热点。

[0003] 在网络通信方面，SDN(Software‑defined Networking，软件定义网络)将控制平面和数据平面分离，可通过集中式软件定义控制器对网络进行编程。NFV(Network
Function Virtualization，网络功能虚拟化)将网络资源虚拟化和隔离，使得网络资源能
被多个用户灵活调度和共享。SDN和NFV技术的运用能极大提高车联网管理的效率和灵活
性。

[0004] 在计算方面，云计算、雾计算和边缘计算的发展对车联网具有深远的影响。然而，云端仍距车辆终端设备较远，难以满足低时延应用的需求。MEC(Mobile Edge Computing，
移动边缘计算)将算力资源直接部署到车辆终端附近，这能够明显提高计算型和时延敏感
型任务的服务质量。

[0005] 在缓存方面，网络缓存作为ICN(Information‑centric Networking，信息中心化网络)的关键技术之一，它能有效减少网络中重复内容的传输。研究表明，通过将内容(如视
频、歌曲等)缓存于网络边缘节点(如基站、路侧单元等)，能够大大减少流量负载、访问延迟
和网络成本。

[0006] 在现有技术中，车联网通信、计算和缓存技术往往是被分离开来研究的，主要原因是三者联合研究的复杂度极高，难以用数学方法推理出低复杂度的最优解方案。而对于一
些场景(如车辆请求视频等)，通信、计算和缓存技术的联合能够极大地增强车联网的性能。

发明内容

[0007] 本发明的目的是为了解决现有技术中的上述缺陷，提供一种车联网中基于深度强化学习的资源联合分配方法。在本发明中采用DQN(Deep Q Network，深度Q值网络)算法，考
虑了通信、计算和缓存资源的联合分配，通过DQN来拟合Q表，从而对车辆请求视频内容的连
接请求做决策。本发明在降低算法复杂度的同时，也以最大化通信小区内车辆节点请求任
务的总吞吐量为目标，做出了最优化决策。

[0008] 本发明的目的可以通过采取如下技术方案达到：

[0009] 一种车联网中基于深度强化学习的资源联合分配方法，所述的资源联合分配方法包括以下步骤：

[0010] S1、构建一个包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景，该车联网通信场景中每个基站均配置一个边缘计算服务器和缓存服务器，每个基站配
置有限的频谱资源，该车联网通信场景中利用NFV和SDN技术对物理资源进行虚拟化，并根
据车辆节点的时空分布为边缘计算服务器和缓存服务器配置有限的物理资源，最终由SDN
集中控制物理资源的联合分配，其中，所述物理资源包括计算资源和缓存资源，SDN表示软
件定义网络，NFV表示网络功能虚拟化，车联网通信场景中基于ICN技术进行内容的存储和
检索，车辆具备V2I通信能力，其中，ICN表示信息中心化网络，V2I表示车辆到基础设施；

[0011] S2、针对每一车辆节点，基站收集通信小区内基础设施能够分配给车辆节点的通信、计算和缓存资源状态信息，包括基站到车辆的下行速率、基站频谱资源的占用率、边缘
计算服务器分配给车辆的算力、边缘计算服务器算力资源的占用率、车辆节点请求的视频
内容大小和视频内容编号，作为深度强化学习网络的输入状态，其中，深度强化学习网络简
称为DQN；

[0012] S3、获取车辆节点与基础设施的连接状态，包括车辆节点与基站的连接、车辆节点与边缘计算服务器的连接，作为DQN的输出动作，其中，车辆节点与缓存服务器的连接通过
规则控制；

[0013] S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标，结合约束条件，建立最优化问题模型；

[0014] S5、根据最优化问题模型，设计DQN奖励函数和DQN神经网络结构；

[0015] S6、通过步骤S5中设计得到的DQN神经网络提取输入状态的特征，拟合Q表的状态动作函数，得到各种输入状态下输出动作的Q值，并结合奖励函数训练和更新神经网络；

[0016] S7、利用训练好的DQN，根据车辆节点的输入状态，输出相应的动作Q值序列，将Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略。

[0017] 进一步地，所述的步骤S1过程如下：

[0018] S1.1、建立车辆节点与基站的通信模型，其中无线信道服从有限状态马尔可夫过程，具体如下：

[0019] 车辆节点集合为基站集合为

[0020] 车辆节点u接收到基站k信噪比为γu，k，将信噪比离散为集合车辆节点u在时隙t接收到基站k的信噪比的状态转移概率矩阵为
表达式为：

[0021]

[0022] 上式中，Di表示当前时隙信噪比，Dj表示下一时隙信噪比，表示信噪比由Di转变为Dj的状态转移概率；

[0023] 时隙t在基站k能分配给车辆节点u的下行速率为根据香农公式可得：

[0024]

[0025] 上式中，bu，k表示基站k分配给车辆节点u的带宽，γu，k表示基站k到车辆节点u的信噪比；

[0026] 基站k的下行速率上限为Gk，满足以下条件：

[0027]

[0028] 上式中，表示在时隙t车辆节点u与基站k的连接状态，取值为1或者0，当取值为1表示建立连接，当取值为0表示未建立连接；

[0029] 在时隙t基站k的下行速率使用占比为表达式为：

[0030]

[0031] 车辆节点u在时隙t请求格式为w的视频内容v，其大小为则车辆节点u向基站k请求视频(v，w)的下行传输时延为：

[0032]

[0033] 如果车辆节点u请求的视频(v，w)不存在于本地通信小区的缓存服务器，并且也不能通过边缘计算服务器进行格式转换得到，那么基站k将通过数据中心请求视频(v，w)，则
数据中心到基站k的下行时延为表达式为：

[0034]

[0035] 上式中，为数据中心到基站k的下行传输速率；

[0036] 车辆节点u与基站k的连接需要满足以下条件：

[0037]

[0038] 上式中，ρu，k为车辆节点u驶出基站k通信范围需走的距离，ωu为车辆节点u的行驶速率，λ为常量；

[0039] S1.2、建立视频任务卸载到边缘计算服务器的计算模型，其中边缘计算服务器的算力分配服从有限状态马尔可夫过程，具体如下：

[0040] 边缘计算服务器集合为

[0041] 边缘计算服务器m在时隙t分配给车辆节点u的算力为fu，m(t)，将算力值离散为集合边缘计算服务器m在时隙t分配给车辆节点u的算力的状态转移
概率矩阵为表达式为：

[0042]

[0043] 上式中，Ei表示当前时隙算力，Ej表示下一时隙算力，表示算力由Ei转变为Ej的状态转移概率；

[0044] 根据车辆节点的时空分布，利用SDN技术为边缘计算服务器配置有限的计算资源，边缘计算服务器m的计算资源上限为Fm，满足以下条件：

[0045]

[0046] 上式中，表示在时隙t车辆节点u与边缘计算服务器m的连接状态，取值为1或者0，当取值为1表示建立连接，当取值为0表示未建立连接；

[0047] 边缘计算服务器m在时隙t的算力使用占比为表达式为：

[0048]

[0049] 用表示车辆节点u在时隙t请求的视频(v，w)是否需要在边缘计算服务器m进行格式转换，取值为1或者0，当时，表示需要进行格式转换，当
时，表示不需要进行格式转换；

[0050] 车辆节点u在时隙t请求的视频任务卸载到边缘计算服务器m的计算时延为表达式为：

[0051]

[0052] 上式中，β为常数，表示计算每Mb所需的CPU周期数；

[0053] S1.3、建立视频任务存储到缓存服务器的缓存模型，具体如下：

[0054] 基于ICN技术存储和检索视频内容，缓存服务器集合为缓存服务器c中的视频内容集合为Vc＝{v1，v2，…，vQ}，缓存服务器c中的视频格式集合为Wc＝
{w1，w2，…，wQ}，Q表示缓存服务器中缓存的视频数量；

[0055] 缓存服务器c中的视频列表根据视频请求受欢迎程度每隔时间Tc更新一次，根据车辆节点的时空分布，利用SDN技术为缓存服务器配置有限的缓存资源，缓存服务器c的缓
存资源上限为Hc，满足以下条件：

[0056]

[0057] 用表示在时隙t车辆节点u与缓存服务器c的连接状态，取值为1或者0，当取值为1表示建立连接，当取值为0表示未建立连接；

[0058] 用表示在时隙t车辆节点u请求的视频(v，w)是否缓存于缓存服务器c，取值为1或者0，当时，表示在时隙t车辆节点u请求的视频(v，w)缓存于缓存
服务器c，当时，表示在时隙t车辆节点u请求的视频(v，w)没有缓存于缓存服
务器c。

[0059] 进一步地，所述的步骤S2过程如下：

[0060] 利用步骤S1中定义的资源状态信息，构建DQN的输入状态Su(t)，表示车辆节点u在时隙t的信息状态，表示方式如下：

[0061]

[0062] 其中，表示基站k在时隙t能分配给车辆节点u的下行速率，表示在时隙t基站k的下行速率使用占比，fu，m(t)表示边缘计算服务器m在时隙t能分配给车
辆节点u的算力，表示边缘计算服务器m在时隙t的算力使用占比，表示
在时隙t车辆节点u请求的视频(v，w)是否缓存于缓存服务器c，表示车辆节点u在
时隙t请求格式为w的视频内容v的视频大小，vu(t)表示车辆节点u在时隙t请求的视频内容
编号。

[0063] 进一步地，所述的步骤S3过程如下：

[0064] S3.1、通过DQN预测车辆节点与基站和边缘计算服务器的连接行为：

[0065] 车辆节点与基站和边缘计算服务器在时隙t的连接状态作为DQN的输出动作au(t)，表达方式如下：

[0066]

[0067] 其中，表示车辆节点u在时隙t与通信小区所有基站的连接行为向量，表示车辆节点u在时隙t与通信小区所有边缘计算服务器的连接行为向量；

[0068] S3.2、通过规则决定车辆节点与缓存服务器的连接行为：

[0069] 缓存有视频(v，w)的缓存集合为J(v，w)＝{c|v∈Vc，w∈Wc，c∈C}，缓存有视频内容(v)
(v)的缓存集合为J ＝{c|v∈Vc，c∈C}，则车辆节点选择连接到某一个缓存服务器的规则
如下：

[0070]

[0071] 上式中，min()表示取集合的最小值，表示空集，k表示车辆节点接入的基站编号，此时车辆节点u与选中的缓存服务器c的值

[0072] 进一步地，所述的步骤S4过程如下：

[0073] 车辆节点u在时隙t请求视频(v，w)的时延为表达式如下：

[0074]

[0075] 上式中，等号右侧第一项表示车辆节点u请求的视频(v，w)存在于缓存服务器c中，视频直接通过基站回传的时延；第二项表示车辆节点u请求的视频(v，w)需要先经过边缘计
算服务器进行转码，然后再通过基站回传的时延；第三项表示车辆节点u请求的视频内容不
存在于缓存服务器中，则基站向数据中心请求相应视频，然后再通过基站回传的时延；

[0076] 车辆节点u在时隙t请求视频(v，w)的吞吐率为表达式如下：

[0077]

[0078] 车辆节点u在时间T内请求的视频内容集合为车辆节点u在时间T内请求的视频格式集合为 P表示请求的视频数量，车辆节点u
在时间T内请求任务的总吞吐量为Ωu，表达式如下：

[0079]

[0080] 最大化通信小区内所有车辆节点请求任务的总吞吐量，目标函数如下：

[0081]

[0082] C1：

[0083] C2：

[0084] C3：

[0085] C4：

[0086] C5：

[0087] C6：

[0088] C7：

[0089] C8：

[0090] C9：

[0091] C10：

[0092] 上述约束条件中，C1表示每一基站频谱资源的约束条件，C2表示每一边缘计算服务器算力资源的约束条件，C3表示每一车辆节点在每个时隙最多只能连接到一个基站，C4
表示每一车辆节点在每个时隙最多只能连接到一个边缘计算服务器，C5表示每一车辆节点
在每个时隙最多只能连接到一个缓存服务器，C6表示车辆与基站的连接行为，取值为0或1，
当取值为1表示连接，当取值为0表示未连接，C7表示车辆与边缘计算服务器的连接行为，取
值为0或1，当取值为1表示连接，当取值为0表示未连接，C8表示车辆与缓存服务器的连接行
为，取值为0或1，当取值为1表示连接，当取值为0表示未连接，C9表示缓存服务器是否缓存
有请求的视频(v，w)，C10表示请求的视频(v，w)是否需要通过边缘计算服务器进行转码。

[0093] 进一步地，所述的步骤S5过程如下：

[0094] S5.1、设计DQN奖励函数如下：

[0095] 用表示车辆节点u在时隙t接入基站k时，是否因为基站k的资源限制导致未能连接成功，值为1表示连接成功，值为0表示连接失败；

[0096] 用表示车辆节点u在时隙t接入边缘计算服务器m时，是否因为边缘计算服务器m的资源限制导致未能连接成功，值为1表示连接成功，值为0表示连接失败；

[0097] 车辆节点u在时隙t的奖励函数为ru(t)，表达式如下：

[0098]

[0099] 上式中，表示车辆节点成功接入基站的奖励，表示车辆节点未成功接入基站的奖励，值0.2表示接入边缘计算
服务器对应奖励的权重，表示车辆节点成功接入边缘计算服
务器的奖励，表示车辆节点未成功接入边缘计算服务器的奖励；

[0100] S5.2、设计DQN网络结构，其中，DQN的网络输入的维度为[1，H，W]，其中，1表示通道数，H表示高，W表示宽，先通过5层卷积层逐步提取输入状态的特征，然后经过通道注意力模
块来对特征通道进行加权，之后用两个全连接层分别对加权后的输出做特征选择，最后作
相加融合得到各个输出动作的Q值。

[0101] 进一步地，所述的步骤S6中DQN神经网络的训练和更新过程如下：

[0102] S6.1、初始化策略网络、目标网络权重和ε‑greedy动作选择策略参数；

[0103] S6.2、初始化系统环境，得到系统状态s(t)；

[0104] S6.3、策略网络根据系统状态作推理，并依据动作选择策略选择动作a(t)；

[0105] S6.4、动作作用于环境，得到系统奖励r(t)，并转移到下一状态s(t+1)；

[0106] S6.5、将当前状态转移对[s(t)，a(t)，r(t)，s(t+1)]存于经验回放池；

[0107] S6.6、从经验池抽取样本对策略网络进行训练，并更新目标网络权重。

[0108] 本发明相对于现有技术具有如下的优点及效果：

[0109] 1)本发明通过通信、计算和缓存资源的联合分配，结合NFV、SDN和ICN技术，物理资源被虚拟化且能够被切片以及独立分配，灵活且高效；

[0110] 2)本发明通过DQN算法对通信、计算和缓存资源联合分配作优化，针对最大化通信小区内车辆节点请求任务总吞吐量的优化问题，在较低复杂度下获得了车联网系统的次优
解；

[0111] 3)本发明根据车联网通信场景数据的特点，定义了DQN的输入状态信息，并设计有效的神经网络结构来提取输入状态的特征信息，模型的鲁棒性好；

[0112] 4)本发明考虑车辆节点的移动性，设定车辆节点接入基站的通信条件，从而保证车辆节点接收每个任务的完整性。

附图说明

[0113] 图1是本发明实施例中公开的一种车联网中基于深度强化学习的资源联合分配方法的流程图；

[0114] 图2是本发明实施例中车联网通信场景示意图；

[0115] 图3是本发明实施例中DQN的网络结构图；

[0116] 图4是本发明实施例中不同方案在不同车辆节点数时的吞吐量对比图；

[0117] 图5是本发明实施例中不同车辆节点数在不同平均内容大小时的吞吐量对比图；

[0118] 图6是本发明实施例中不同优化算法在不同车辆节点数时的吞吐量对比图。

具体实施方式

[0119] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是
本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员
在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0120] 实施例

[0121] 如图1所示为本发明中车联网中基于深度强化学习的资源联合分配方法的流程图，运用DQN算法作为优化算法，最大化通信小区内车辆节点请求视频任务的总吞吐量，具
体步骤包括：

[0122] S1、构建一个包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景，该车联网通信场景中每个基站均配置一个边缘计算服务器和缓存服务器，每个基站配
置有限的频谱资源，该车联网通信场景中利用NFV和SDN技术对物理资源进行虚拟化，并根
据车辆节点的时空分布为边缘计算服务器和缓存服务器配置有限的物理资源，最终由SDN
集中控制物理资源的联合分配，其中，所述物理资源包括计算资源和缓存资源，SDN表示软
件定义网络，NFV表示网络功能虚拟化，车联网通信场景中基于ICN技术进行内容的存储和
检索，车辆具备V2I通信能力，其中，ICN表示信息中心化网络，V2I表示车辆到基础设施；

[0123] 如图2所示为本发明车联网通信场景示意图，场景中每个基站均配置一个边缘计算服务器和缓存服务器，同时，基站、边缘计算服务器和缓存服务器配备有限的资源。数据
中心与基站间通过有线连接通信，基站与基站间也通过有线连接通信，基站与车辆节点间
则通过无线连接通信。车辆节点向基站请求视频任务，若请求的视频内容缓存于缓存服务
器中且视频格式一致，则直接将视频内容回传给车辆节点；若格式不一致，则先通过MEC转
码，然后再将视频内容回传；若请求的视频内容和格式都不存在于缓存服务器，则向数据中
心请求并回传。本实施例优化的目标为最大化通信小区内车辆节点请求任务的总吞吐量，
运用DQN算法来优化和实现通信、计算和缓存资源的联合分配。车联网通信场景的建模具体
步骤包括：

[0124] S1.1、建立车辆节点与基站的通信模型，其中无线信道服从有限状态马尔可夫过程，具体方法如下：

[0125] 车辆节点集合为基站集合为

[0126] 车辆节点u接收到基站k信噪比为γu，k，将信噪比离散为集合车辆节点u在时隙t接收到基站k的信噪比的状态转移概率矩阵为
表达式为：

[0127]

[0128] 上式中，Di表示当前时隙信噪比，Dj表示下一时隙信噪比，表示信噪比由Di转变为Dj的状态转移概率。

[0129] 车辆节点u与基站k的下行速率为根据香农公式可得：

[0130]

[0131] 上式中，bu，k表示基站k分配给车辆节点u的带宽，γu，k表示基站k到车辆节点u的信噪比。

[0132] 基站k的下行速率上限为Gk，满足以下条件：

[0133]

[0134] 上式中，表示在时隙t车辆节点u与基站k的连接状态，取值为1或者0，当取值为1表示建立连接，当取值为0表示未建立连接；

[0135] 在时隙t基站k的下行速率使用占比为表达式为：

[0136]

[0137] 车辆节点u请求格式为w的视频内容v，其大小为则车辆节点u向基站k请求视频(v，w)的下行传输时延为：

[0138]

[0139] 基站与基站间的通信为有线光纤通信，因为光纤的通信速率高，其通信时延远小于基站到车辆节点的下行时延，在此忽略基站间的通信时延。

[0140] 如果车辆节点u请求的视频(v，w)不存在于本地通信小区的缓存服务器，并且也不能通过边缘计算服务器进行格式转换得到，那么基站k将通过数据中心请求视频(v，w)，则
数据中心到基站k的下行时延为表达式为：

[0141]

[0142] 上式中，为数据中心到基站k的下行传输速率。

[0143] 车辆节点u与基站k的连接需要满足以下条件：

[0144]

[0145] 上式中，ρu，k为车辆节点u驶出基站k通信范围需走的距离，ωu为车辆节点u的行驶速率，λ为常量，取值为1.2。

[0146] S1.2、建立视频任务卸载到边缘计算服务器的计算模型，其中边缘计算服务器的算力分配服从有限状态马尔可夫过程，具体方法如下：

[0147] 边缘计算服务器集合为

[0148] 边缘计算服务器m分配给车辆节点u的算力为fu，m，将算力值离散为集合边缘计算服务器m在时隙t分配给车辆节点u的算力的状态转移概
率矩阵为表达式为：

[0149]

[0150] 上式中，Ei表示当前时隙算力，Ej表示下一时隙算力，表示算力由Ei转变为Ej的状态转移概率。

[0151] 根据车辆节点的时空分布，利用SDN技术为边缘计算服务器配置好有限的计算资源，边缘计算服务器m的计算资源上限为Fm，满足以下条件：

[0152]

[0153] 上式中，表示在时隙t车辆节点u与边缘计算服务器m的连接状态，取值为1或者0，当取值为1表示建立连接，当取值为0表示未建立连接。

[0154] 边缘计算服务器m的算力使用占比为表达式为：

[0155]

[0156] 用表示车辆节点u请求的视频(v，w)是否需要在边缘计算服务器m进行格式转换，取值为1或者0，当时，表示需要进行格式转换，当时，表示不需
要进行格式转换。

[0157] 车辆节点u请求的视频任务卸载到边缘计算服务器m的计算时延为表达式为：

[0158]

[0159] 上式中，β为常数，表示计算每Mb所需的CPU周期数。

[0160] S1.3、建立视频任务存储到缓存服务器的缓存模型，具体方法如下：

[0161] 视频内容的存储和检索基于ICN技术，视频内容的检索时延远小于传输时延，因此忽略视频内容的检索时延。

[0162] 缓存服务器集合为缓存服务器c中的视频内容集合为Vc＝{v1，v2，…，vQ}，缓存服务器c中的视频格式集合为Wc＝{w1，w2，…，wQ}，Q表示缓存服务器中
缓存的视频数量。

[0163] 缓存服务器c中的视频列表根据视频请求受欢迎程度每隔时间Tc更新一次，根据车辆节点的时空分布，利用SDN技术为缓存服务器配置有限的缓存资源，缓存服务器c的缓
存资源上限为Hc，满足以下条件：

[0164]

[0165] 用表示在时隙t车辆节点u与缓存服务器c的连接状态，取值为1或者0，当取值为1表示建立连接，当取值为0表示未建立连接。

[0166] 用表示车辆节点u请求的视频(v，w)是否缓存于缓存服务器c，取值为1或者0，当时，表示车辆节点u请求的视频(v，w)缓存于缓存服务器c，当
时，表示车辆节点u请求的视频(v，w)没有缓存于缓存服务器c。

[0167] S2、针对每一车辆节点，基站收集通信小区内基础设施能够分配给车辆节点的通信、计算和缓存资源，作为深度强化学习网络DQN的输入状态；

[0168] 利用步骤S1中定义的资源状态信息，构建深度强化学习网络DQN的输入状态Su(t)，表示车辆节点u在时隙t的信息状态，表示方式如下：

[0169]

[0170] 其中，表示基站k在时隙t能分配给车辆节点u的下行速率，表示在时隙t基站k的下行速率使用占比，fu，m(t)表示边缘计算服务器m在时隙t能分配给车
辆节点u的算力，表示边缘计算服务器m在时隙t的算力使用占比，表示
在时隙t车辆节点u请求的视频(v，w)是否缓存于缓存服务器c，表示车辆节点u在
时隙t请求格式为w的视频内容v的视频大小，vu(t)表示车辆节点u在时隙t请求的视频内容
编号。

[0171] S3、车辆节点与基础设施的连接状态作为输出动作，具体步骤如下：

[0172] S3.1、通过DQN预测车辆节点与基站和边缘计算服务器的连接行为：

[0173] 车辆节点与基站和边缘计算服务器的在时隙t的连接状态作为DQN的输出动作au(t)，表达方式如下：

[0174]

[0175] 其中，表示车辆节点u在时隙t与通信小区所有基站的连接行为向量，表示车辆节点u在时隙t与通信小区所有边缘计算服务器的连接行为向量。

[0176] S3.2、通过规则决定车辆节点与缓存服务器的连接行为：

[0177] 请求的视频内容若存在于缓存服务器或者需要通过边缘计算服务器转码再回传，此时的请求时延一般比从数据中心请求对应视频内容的时延要小得多。因此，先通过规则
在通信小区内寻找缓存有视频(v，w)的缓存服务器，再让车辆节点与其连接，将会增加缓存
内容的命中率，从而减小车辆节点的请求时延。

[0178] 缓存有视频(v，w)的缓存集合为J(v，w)＝{c|v∈Vc，w∈Wc，c∈C}，缓存有视频内容(v)
(v)的缓存集合为J ＝{c|v∈Vc，c∈C}，则车辆节点选择连接到某一个缓存服务器的规则
如下：

[0179]

[0180] 上式中，min()表示取集合的最小值，表示空集，k表示车辆节点接入的基站编号，此时车辆节点u与选中的缓存服务器c的值

[0181] S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标，结合约束条件，建立最优化问题模型；

[0182] 车辆节点u在时隙t请求视频(v，w)的时延为表达式如下：

[0183]

[0184] 上式中，等号右侧第一项表示车辆节点u请求的视频(v，w)存在于缓存服务器c中，视频直接通过基站回传的时延；第二项表示车辆节点u请求的视频(v，w)需要先经过边缘计
算服务器进行转码，然后再通过基站回传的时延；第三项表示车辆节点u请求的视频内容不
存在于缓存服务器中，则基站向数据中心请求相应视频，然后再通过基站回传的时延。

[0185] 车辆节点u在时隙t请求视频(v，w)的吞吐率为表达式如下：

[0186]

[0187] 车辆节点u在时间T内请求的视频内容集合为车辆节点u在时间T内请求的视频格式集合为 P表示请求的视频数量，车辆节点
u在时间T内请求任务的总吞吐量为Ωu，表达式如下：

[0188]

[0189] 最大化通信小区内所有车辆节点请求任务的总吞吐量，目标函数如下：

[0190]

[0191] C1：

[0192] C2：

[0193] C3：

[0194] C4：

[0195] C5：

[0196] C6：

[0197] C7：

[0198] C8：

[0199] C9：

[0200] C10：

[0201] 上述约束条件中，C1表示每一基站频谱资源的约束条件，C2表示每一边缘计算服务器算力资源的约束条件，C3表示每一车辆节点在每个时隙最多只能连接到一个基站，C4
表示每一车辆节点在每个时隙最多只能连接到一个边缘计算服务器，C5表示每一车辆节点
在每个时隙最多只能连接到一个缓存服务器，C6表示车辆与基站的连接行为，取值为0或1，
当取值为1表示连接，当取值为0表示未连接，C7表示车辆与边缘计算服务器的连接行为，取
值为0或1，当取值为1表示连接，当取值为0表示未连接，C8表示车辆与缓存服务器的连接行
为，取值为0或1，当取值为1表示连接，当取值为0表示未连接，C9表示缓存服务器是否缓存
有请求的视频(v，w)，C10表示请求的视频(v，w)是否需要通过边缘计算服务器进行转码。

[0202] S5、根据最优化问题模型，设计DQN奖励函数和网络结构，具体步骤如下：

[0203] S5.1、设计DQN奖励函数，过程如下：

[0204] 用表示车辆节点u在时隙t接入基站k时，是否因为基站k的资源限制导致未能连接成功，取值为0或者1，当取值为1表示连接成功，当取值为0表示连接失败。

[0205] 用表示车辆节点u在时隙t接入边缘计算服务器m时，是否因为边缘计算服务器m的资源限制导致未能连接成功，取值为0或者1，当取值为1表示连接成功，当取值为
0表示连接失败。

[0206] 车辆节点u在时隙t的奖励函数为ru(t)，表达式如下：

[0207]

[0208] 上式中，表示车辆节点成功接入基站的奖励，表示车辆节点未成功接入基站的奖励，值0.2表示接入边缘计算
服务器对应奖励的权重，表示车辆节点成功接入边缘计算服
务器的奖励，表示车辆节点未成功接入边缘计算服务器的奖励；

[0209] S5.2、设计DQN网络结构：

[0210] 在状态空间和动作空间均很大时，基于Q表查询值迭代强化学习算法将会及其消耗内存和及其耗时，本发明采用神经网络结构来拟合Q表的状态动作函数，从而降低算法的
复杂度。如图3所示为DQN的网络结构图，网络输入的维度为[1，H，W]，其中，1表示通道数，H
表示高，W表示宽，本实施例中H＝7，W＝5。结构图中，先通过5层卷积层逐步提取输入状态的
特征，然后经过通道注意力模块来对特征通道进行加权，之后用两个全连接层分别对加权
后的输出做特征选择，最后作相加融合得到各个输出动作的Q值。本实施例的具体车联网通
信场景仿真参数如表1所示。

[0211] 表1.车联网通信场景仿真参数表

[0212]

[0213] S6、通过神经网络提取输入状态的特征，拟合各种输入状态下输出动作的Q值，并结合奖励函数训练和更新神经网络，DQN训练具体流程如下：

[0214] S6.1、初始化策略网络、目标网络权重和ε‑greedy动作选择策略参数；

[0215] S6.2、初始化系统环境，得到系统状态s(t)；

[0216] S6.3、策略网络根据系统状态作推理，并依据动作选择策略选择动作a(t)；

[0217] S6.4、动作作用于环境，得到系统奖励r(t)，并转移到下一状态s(t+1)；

[0218] S6.5、将当前状态转移对[s(t)，a(t)，r(t)，s(t+1)]存于经验回放池；

[0219] S6.6、从经验池抽取样本对策略网络进行训练，并更新目标网络权重。

[0220] S7、利用训练好的DQN，根据车辆节点的输入状态，输出相应的动作Q值序列，将Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略；其中，车辆节点与基站和边缘
计算服务器的连接行为由DQN进行预测；车辆节点与缓存服务器的连接行为由公式(15)的
规则决定。

[0221] 图4为本实施例中不同方案在不同车辆节点数时的吞吐量比较，四种方案均采用DQN算法作优化，仿真的车辆节点数为20，系统工作时间为15秒，仿真时隙大小为0.15秒。方
案“Proposed DRL‑based scheme”考虑虚拟化、缓存和边缘计算，方案“Proposed scheme
w.o.virtualization”不考虑虚拟化，方案“Proposed scheme w.o.virtualization”不考
虑虚拟化，方案“Proposed scheme w.o.edge caching”不考虑缓存，方案“Proposed
scheme w.o.MEC offloading”不考虑边缘计算。其中虚拟化是指车辆节点在同一时隙可以
连接不同基站的边缘计算服务器和缓存服务器，若不考虑虚拟化，车辆节点在连接基站后，
其只能使用该基站配置的算力资源和缓存资源。由于存在资源的约束，各方案的吞吐量都
在车辆节点数为35左右时达到饱和状态。从仿真曲线可看出，方案“Proposed DRL‑based
scheme”在不同车辆节点数时的吞吐量均优于其他方案，说明考虑虚拟化，即资源能够被切
片并独立分配，能够使系统资源分配更加灵活和高效。

[0222] 图5为本实施例中不同车辆节点数在不同平均内容大小时的吞吐量，均采用“Proposed DRL‑based scheme”方案，系统工作时间为15秒，仿真时隙大小为0.15秒。从仿
真曲线可以看出，随着车辆节点每个时隙请求平均内容大小的不断增大，各曲线的吞吐量
趋势均是先上升后下降。因为车辆节点在每个时隙只能请求一次视频内容，平均内容大小
过小会导致传输时整体时隙利用率过低，所以会造成吞吐量过小。因为通信、计算和缓存资
源存在上限，平均内容大小过大则会导致系统资源的利用率不高，从而造成吞吐量下降。

[0223] 图6为实施例中不同优化算法在不同车辆节点数时的吞吐量比较，三种算法分别为“Random scheme”、“Greedy scheme”和“Proposed DRL‑based scheme”，均考虑虚拟化、
缓存和边缘计算。从仿真曲线可以看出，本发明提出的“Proposed DRL‑based scheme”算法
在不同车辆节点数时的吞吐量均大于另外两种算法。在系统吞吐量未达到饱和状态前，
“Greedy scheme”算法的吞吐量大于“Greedy scheme”算法的吞吐量，原因是系统资源此时
还比较富余，“Greedy scheme”算法每次取系统分配资源的最大值时，小概率会触发因资源
达到上限而分配失败的情况，因而吞吐量会优于“Random scheme”。当系统吞吐量达到饱和
状态时，“Greedy scheme”算法则会大概率触发资源达到上限这一条件，导致车辆节点在该
时隙接入失败，从而造成其饱和状态时的吞吐量较小。本发明提出的“Proposed DRL‑based
scheme”算法通过学习输入状态的特征，可以根据输入状态做出更加合理的决策，从而提高
系统的吞吐量。

[0224] 上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，
均应为等效的置换方式，都包含在本发明的保护范围之内。

一种车联网中基于深度强化学习的资源联合分配方法转让专利

申请号 : CN202110174006.0

文献号 : CN112995950B

文献日 : 2022-03-29

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 胡斌杰 , 黄铮

申请人 : 华南理工大学

摘要 :

权利要求 :

说明书 :