一种D2D系统中基于深度强化学习的功率分配方法转让专利
申请号 : CN202110475005.X
文献号 : CN113115355B
文献日 : 2022-04-22
发明人 : 梁应敞 , 史佳琦
申请人 : 电子科技大学
摘要 :
权利要求 :
1.一种D2D系统中基于深度强化学习的功率分配方法,D2D系统中具有N对链路对,即N个智能体,其特征在于,包括以下步骤:S1、每个智能体分别从中心控制器中接收过时的信道、功率信息和其他链路的功率决策信息,得到各自的观测向量;
S2、每个智能体单独创建自己的基于深度学习的功率分配网络,并建立自己的经验存储池;每个智能体单独创建的功率分配网络具体结构为:功率分配网络包括用于训练的Main网络和用于计算的Target网络,Main网络的输入输出均与经验存储池连接;
Main网络和Target网络的结构完全相同,均分别包含一个用于接收链路的状态信息并输出一个功率决策值的actor网络和用于对本次的输出进行评价的critic网络;Main网络在Actor和Critic网络计算损失函数后进行实时更新,Target网络用于计算目标Q值,用于固定Q值稳定网络;
S3、基于步骤S1获取的上一时刻的过时观测向量,根据功率分配网络进行在线决策获得当前时刻的功率分配结果,并将智能体和环境交互获得的状态、动作、奖励和观测向量一起存储入经验池中,同时从各自的经验存储池中取出数据对网络进行训练,更新网络参数,下一次进行在线决策时使用更新网络参数后的网络;
智能体和环境交互获得的状态、动作、奖励的定义分别为:定义状态 为智能体i在时隙t的状态信息集合,K为状态信息的个数,其中, 为上一时刻从发射机i到接收机j的信道增益, 为上一时刻功率信2
息, 为本链路发送机对其他接收机的干扰,σ代表了加性高斯白噪声的功率, 为本链路接收机所受到其他链路发送机的干扰, 为上一时刻本链路的速率, 为t时刻用户i的SINR比, 为本链路周围链路的信道信息,为过去的信息,
定义动作空间 为 对于智能体i,定义 为当前智能体所要存储到经验池中的决策向量, 为智能体在时隙t的动作,智能体在[0,Pmax]的值域中任取一个实数,Pmax为最大功率;
定义奖励函数 为:
W为权重, 代表了链路j抛去链路i对其产生的干扰后的速率;
表示如果没有其余链路对当前链路i产生影响,当前链路能够取得的速率。
说明书 :
一种D2D系统中基于深度强化学习的功率分配方法
技术领域
背景技术
吞吐量,设备到设备(D2D)被认为是一种很好并可行的解决方案。在D2D网络中,多对D2D链
路对在蜂窝小区中进行全频的复用共存,导致链路之间的干扰变得非常复杂。在D2D场景
下,一般通过功率控制进行干扰管理来优化系统容量,传统功率控制算法大部分都是基于
实时信道信息通过不断迭代来实现的,耗时的信道估计和复杂的矩阵运算使得实时的功率
调整变得非常困难。
发明内容
向量一起存储入经验池中。同时,每一个链路随机地从自身经验池中挑选出一组数据对S2
中的网络进行训练,并更新网络参数,下一次进行在线决策时使用更新网络参数后的网络。
采样数据,作为检测数据。
链路对单独地从自己的经验池中拿出数据,进而进行在线的训练强化学习的输出可以建模
为后验概率,从而开发适合于功率分配的代价函数(比如,本发明设计的基于最大后验概率
的代价函数);给定训练集,通过不断地在线训练和反馈,得到训练好的网络。
会随着在线训练的进程越来越好。
息来预测当前链路周围的通信环境,让各个链路对能够相互配合进而进行实时的功率决策
以最大化全局网络的加权和速率,从而实现了无需迭代的基于深度强化学习的功率分配方
法。
附图说明
具体实施方式
移动通信系统和D2D通信系统不存在相互干扰,而宏蜂窝基站仅作为中继帮助D2D通信设备
之间进行少量且有延迟的控制信息交换。假设在此实例系统中有M个D2D通信设备,1个信
道,如图1所示。定义 为发送机i到接收机j的信道参数。信道的相关性被定义为了一个一
阶高斯马尔可夫过程。本发明用Jakes模型来表述第t帧的小尺度衰落的变化,即
2
是指均值为μ方差为σ的复高斯。ρ是指不同帧之间的信道相关系数。θij表示大尺度衰落,服
从5兆赫带宽,2.4兆赫载波频率的短距离的ITU‑1411户外模型。 表示小尺度衰落,是服
从 的独立同分布的随机变量。ρ表示相邻时隙信道的相关系数,服从 J0(2π
fdT),J0(·)表示第一类零阶贝塞尔函数,fd是最大多普勒频率。大尺度衰落和两个通信节
点的距离有关,小尺度衰落在一帧中保持不变,但是不同帧之间会发生变化。t时刻用户i的
信干噪比(SINR)为
户的功率向量。σ代表了加性高斯白噪声的功率。t时刻用户i的速率为
性。
望函数:
度强化学习利用过去信息,跳过复杂的矩阵运算直接得到功率分配结果。
息和功率决策信息,然后将处理后的信息输入到神经网络中进行功率决策。第二部分,D2D
链路对根据分配的功率进行数据传输,同时进行实时的干扰信息收集。最后,在帧尾的第三
部分将这个时刻的干扰信息和自己的功率分配信息传输到CC。
可以是一些设计好的权重选择策略。
critic网络负责对 actor本次的输出进行评价,即判断功率决策的好坏。
一段固定时间或者固定训练次数后会被Main Net网络的参数覆盖以进行参数更新。
是传统的算法所不能实现的。所以本发明中的动作空间 被定义为:
存储到经验池中的决策向量。
围的通信环境由三部分组成:自己发送机接收机之间的通信质量,本地发送机对其他接收
机产生的干扰,其他发送机对本地接收机造成的干扰。有了这三部分信息,的链路就能够对
周围的通信环境进行感知。定义 为智能体i在时隙t的状态信息集合,K为
状态信息的个数。下面具体介绍 中的各项。
数中。干扰信息的分类主要有两种,一种是链路由于发送信息而对其他链路对产生的干扰
第二种是其他链路对当前链路所产生的干扰大小
池中。
方差。另外,值得强调的是,actor网络的输出经过激活函数tanh后的取值范围为(‑1,1),与
功率的大小之间对应不上,多以设计了一个actor网络输出x与功率pi之间的映射关系:
链路对接收器和发送器之间的距离均匀分布在2m到50m之间。设定D2D发送机最大的发送功
2
率为 p=38dBm,背景噪声功率为σ=‑114dBm,多普勒频移为10Hz,相邻信道之间的相关系
数ρ=0.01。路径损耗模型为32.45+20log10(f)+20log10(d)‑Gt‑Gr(以dB为单位),其中f
(Mhz)是载波频率,d(km)是距离,Gt表示发射天线增益,Gr表示接收天线增益。本发明设置f
=2.4GHz,Gt=Gr=2.5dB。多智能体深度强化学习算法使用TensorFlow实现。
道信息的FP方案,全部以最大功率传输的AA方案。在只有4个链路对的时候本发明的网络能
够在6w次训练之后达到稳定,而性能上更是令人感到惊喜。本发明的算法能够比FP算法性
能好20%左右,而比全开AA算法更是高了大约50%。仅在四个链路上就表现出这样优秀的
性能,佐证了算法的有效性。值得强调的是,本文算法的训练是在4个链路都不断变化的情
况下进行训练的。只有这种不断变化的链路位置才能够测试出本发明的网络是否真的学习
到了利用链路周围的干扰数据来推断出实时的通信环境并做出决策。以往的一些使用强化
学习的算法都是在链路的地理位置不变的情况下进行的训练,虽然训练也能够拿到一些不
错的效果,但是这在实际的通信系统中是毫无意义的,因为链路对的位置不可能一直都不
变化,一旦链路对的位置改变,这些算法就变为无效,均需要重新训练。所以本文算法的意
义就在于此,链路对的位置在一直改变的同时网络不需要重新训练,所以这使得本发明的
算法能够一直保持有效性。
先,在图 6先展示一个链路对的actor网络的损失函数loss变化曲线。从图中可以看出在4
万次步数之前,actor网络的损失函数是在一直增长的,表示网络的性能是在一直变差的。
而在大约4万次步数的训练之后网络终于探索到了减小损失函数的策略,所以之后的网络
损失函数能够一直下降。而在6万次训练之后,网络的损失函数终于趋于稳定。其次,图7中
展示了critic 网络的损失函数,期望是最小化critic网络,以减少实际拿到的Q值和期望
拿到的Q值之间的差距。在3万次训练步骤之内,critic的损失函数的变化是没有规律的。对
应着是本发明的网络正在不断地探索,所以action的随机性比较大,本发明的网络不断地
向不同的策略上探索。而与actor网络趋势相一致的是在大概4万次训练之后,critic网络
的损失函数也趋于稳定。