一种基于深度强化学习的低时延高可靠性V2V资源分配方法转让专利
申请号 : CN202110273591.X
文献号 : CN112954651B
文献日 : 2022-04-08
发明人 : 缪娟娟 , 宋晓勤 , 王书墨 , 张昕婷 , 雷磊
申请人 : 南京航空航天大学
摘要 :
权利要求 :
1.车联网中一种基于深度强化学习的低时延高可靠性V2V资源分配方法,其特征在于,包括步骤如下:
(1),考虑未被基站覆盖的区域,车与车之间(V2V)为了传输与行车安全有关的数据,使用URLLC切片资源块;
(2),训练阶段,车辆将本地观测信息,即信道增益、干扰信息、剩余V2V负载大小以及各自剩余的时间告诉计算单元,第k个智能体V2Vk在t时刻的观测信息定义如下:其中,Ik表示V2Vk接收端受到的总干扰功率,hk表示V2Vk之间的信道增益,gk′k表示其他V2V链路发射端到V2Vk接收端的信道增益,Bk表示V2Vk的剩余负载大小,Tk表示V2Vk的剩余时间,即时延门限与当前传输时间之差,e,ε分别表示训练迭代次数和ε贪心策略中的随机动作选择概率;
(3),基站使用DDQN线下训练出每辆车V2V通信的资源分配模型,资源分配目标为最大化V2V链路传输速率的同时,保证每条链路的时延和每条链路的中断概率不超过门限值,具体包括:
(3a),将每辆车看作一个智能体,对于每个智能体执行下面的操作;
(3b),随机初始化每个智能体的Q网络;
(3c),根据目前的观测值 以及ε贪心算法选择一个动作,动作维度为N×M,表示N个功率等级和M个可选子信道;
(3d),将动作施加到环境中去,得到下一个观测状态以及收益,收益计算如下:其中,Rt+1表示在第t步的收益,Rk为V2Vk智能体当前的速率,Pk(t)为V2Vk智能体的总能耗,T0为最大可容忍延迟,Tk为到目前为止V2Vk智能体传输数据所用的时间,λc和λp为两个非负权重;
(3e),更新信道的小尺度衰落信息;
(3f),将当前观测状态、动作、收益以及下一个观测状态作为一个样本储存在经验复用池中;
(3g),当经验复用池中积累了一定量的样本之后,开始学习;
(3h),从经验复用池中随机抽取小批量的样本,计算Q估计:其中,γ表示折扣因子,st+1表示智能体在t+1时刻观测到的状态,a′表示下一步动作,为目标网络的参数;
(3i),通过最小化平方误差来训练Q网络:2
Lt(θ)=(yt‑Q(st,at;θ)) ;
(3j),使用随机梯度下降算法更新网络参数θ;
(4),执行阶段,车辆根据本地观测信息使用训练好的网络进行子信道分配和功率等级的选择,具体包括:
(4a),每辆车将本地观测值作为模型的输入;
(4b),根据训练好的DDQN选择使动作价值最大的动作;
(4c),使用选择的功率等级和子信道传输数据。
说明书 :
一种基于深度强化学习的低时延高可靠性V2V资源分配方法
技术领域
分配方法。
背景技术
Intranet、Internet和移动车载网络而形成的无处不在的智能车网络。车联网根据约定的
通信协议和数据交互标准共享和交换数据。它通过对行人、路边设施、车辆、网络和云之间
的实时感知和协作,实现了智能交通管理和服务,例如改善了道路安全,增强了路况感知并
减少了交通拥堵。
优化处理,采用函数逼近的方法,可以很好地解决复杂高维状态空间中的决策问题。目前,
研究表明强化学习能够在不确定条件下高效制定决策。它提供了一种具有理论支撑的、健
壮的方法,用以处理环境的动态性,并在不确定条件下做出一系列决策。因此,深度强化学
习可以应付无线网络中越来越多样的服务需求、越来越复杂的变量以及移动环境下由于快
速变化的信道状态导致的资源分配的巨大不确定性,例如,信道状态信息的不精确导致的
性能损失。
是在安全性要求高的场景(例如:自动驾驶)。这些挑战吸引了很多研究者对V2X的资源分配
展开研究。有文献提出一种针对车载自组网(Vehicular Ad hoc Networks,VANET)的基于
C‑V2X技术的新型V2V资源分配方案,通过延迟减少的加权总和来最小化总等待时间,它可
以通过适度提高车速来提高延迟性能,但会导致高速车辆的延迟增加;有文献提出一种动
态车辆资源匹配算法以最大化活动C‑V2X用户的数量,从而减少了C‑V2X用户与VANET用户
在未许可频段中的冲突。上述所有工作都没有考虑到车联网中信道状态的快速变化特性。
因此,很多研究人员提出了使用强化学习来应对车辆位置以及信道状态信息的高速变化。
有文献提出一种在C‑V2X中,即,V2V与V2I共享频谱资源,使用深度强化学习训练出使V2I链
路总速率最大,同时保证V2V的包传输成功率的DDQN模型。有文献提出一种在保证V2V链路
时延约束的条件下,最小化它对V2I链路的干扰的深度强化学习训练方法,采用完全去中心
化的架构,将每辆车当作一个智能体,单独感知,同时邻居也会共享自己的子信道选择信
息。上述所有工作都没有考虑到V2V通信带来的能量消耗。同时,由于采用集中式强化学习
架构的资源分配方案需要将车辆信息上报给中央控制器,因此传输开销较大,且随着网络
规模的增大而急剧增加,导致该方法无法扩展到大型网络;而在采用完全去中心化强化学
习架构的资源分配方案中,每个智能体只能观测到与自己相关得部分信息,从而使得训练
出来的模型不准确。因此,本发明提出一种基于集中式训练分布式执行深度强化学习架构
的资源分配方法,并以能效最大化和通信时延约束作为收益设计的注重点。
发明内容
通信时延达到安全要求的同时,使系统总能效尽可能高。
输,比如与行车安全相关的数据,使用5G网络中URLLC切片相应的资源块以满足时延要求。
同时,为了适应车联网中快速变化的信道状态信息,使用深度强化学习先在线下训练出满
足要求的模型,再将模型交给车辆进行线上的分布式执行。其中,模型的训练要以最大化
V2V能效为目标,同时保证低时延和高可靠性需求。为了找到最佳的策略,需要进行观测值
和动作空间的设定、收益的设计以及学习算法的选择。完成上述发明通过以下技术方案实
现:一种基于深度强化学习的V2V资源分配方法,包括步骤如下:
值;
以及在训练阶段得到的Q网络调度V2V用户使用的URLLC切片资源。为了最大化V2V通信的能
量效率,并且保证通信的可靠性以及时延要求,提出了一种使用集中式训练、分布式执行的
深度强化学习架构,借助DDQN学习方法训练出满足上述要求的模型。将资源分配问题中目
标和约束的建模都转化为深度强化学习中收益的设计,可以有效解决V2V用户信道分配和
功率选择的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。
附图说明
具体实施方式
分配方法。
的。每个V2V智能体只能获取自己能够得到的部分信息,即观测信息,V2V智能体k的观测信
息定义如下:
益,Bk表示V2Vk的剩余负载大小,Tk表示V2Vk的剩余时间,即时延门限与当前传输时间之差。
e,ε分别表示训练迭代次数和ε贪心策略中的随机动作选择概率,由于e和ε会对智能体的动
作选择产生影响,所以也将其作为智能体的观测信息,与车辆对环境的观测信息合并为
使Q值最大的动作的概率为ε,随机选择一个动作的概率为1‑ε。
第k个V2V链路,其在t时刻选择信道信息为:
如,按照3GPP关于5G的标准,在采用FDD模式下,功率最大值设为23dBm,最小值设为‑
100dBm,表示V2V之间无传输。
发射端到V2Vk智能体接收端的信道增益。
免了算法在一段时间内朝着同一个方向做梯度下降,从而使得神将网络的训练陷入一个局
部的最优解中;
DQN,我们需要多次幕迭代,并且在每一幕中的每一步V2V智能体要采用ε贪心策略探索状
态‑动作空间。
使用在线网络来评估贪心策略,使用目标网络来估算其价值。Q估计由下式计算得出:
标网络则冻结参数,每隔一段时间更新一次,使得 计算Q现实。在一段时间内,目标Q
值是保持不变的,这在一定程度上降低了当前Q值和目标Q值之间的相关性,提升了算法的
稳定性。
最优的V2V用户信道分配和发射功率联合优化策略。
布式执行为线上模式,在智能体侧进行。
训练,计算Q估计。而目标网络则冻结参数,每隔8个幕更新一次,用来计算Q现实。使用目标
网络来估计目标方程中maxQ(s′,a′)的动作最大值,然后用这个估计出来的动作来选择在
线网络中的Q(s′)。同时,每个智能体的经验被存储在经验复用池中以供之后的学习过程从
中抽取样本进行学习。在分布式执行部分,每个智能体感知环境信息,根据训练得到的策略
选择动作,动作执行后获得收益并转移到下一状态。
一个状态。