一种D2D系统中基于深度强化学习的功率分配方法转让专利

申请号 : CN202110475005.X

文献号 : CN113115355B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 梁应敞史佳琦

申请人 : 电子科技大学

摘要 :

本发明属于无线通信技术领域,具体的说是涉及一种D2D系统中基于深度强化学习的功率分配方法。本发明的方案中为每个链路对都单独构建一个深度神经网络,不需要实时得到所有链路的信道信息,而是根据部分历史信息和其他链路地决策信息来预测当前链路周围的通信环境,让各个链路对能够相互配合进而进行实时的功率决策以最大化全局网络的加权和速率,从而实现了无需迭代的基于深度强化学习的功率分配方法。

权利要求 :

1.一种D2D系统中基于深度强化学习的功率分配方法,D2D系统中具有N对链路对,即N个智能体,其特征在于,包括以下步骤:S1、每个智能体分别从中心控制器中接收过时的信道、功率信息和其他链路的功率决策信息,得到各自的观测向量;

S2、每个智能体单独创建自己的基于深度学习的功率分配网络,并建立自己的经验存储池;每个智能体单独创建的功率分配网络具体结构为:功率分配网络包括用于训练的Main网络和用于计算的Target网络,Main网络的输入输出均与经验存储池连接;

Main网络和Target网络的结构完全相同,均分别包含一个用于接收链路的状态信息并输出一个功率决策值的actor网络和用于对本次的输出进行评价的critic网络;Main网络在Actor和Critic网络计算损失函数后进行实时更新,Target网络用于计算目标Q值,用于固定Q值稳定网络;

S3、基于步骤S1获取的上一时刻的过时观测向量,根据功率分配网络进行在线决策获得当前时刻的功率分配结果,并将智能体和环境交互获得的状态、动作、奖励和观测向量一起存储入经验池中,同时从各自的经验存储池中取出数据对网络进行训练,更新网络参数,下一次进行在线决策时使用更新网络参数后的网络;

智能体和环境交互获得的状态、动作、奖励的定义分别为:定义状态 为智能体i在时隙t的状态信息集合,K为状态信息的个数,其中, 为上一时刻从发射机i到接收机j的信道增益, 为上一时刻功率信2

息, 为本链路发送机对其他接收机的干扰,σ代表了加性高斯白噪声的功率, 为本链路接收机所受到其他链路发送机的干扰, 为上一时刻本链路的速率, 为t时刻用户i的SINR比, 为本链路周围链路的信道信息,为过去的信息,

定义动作空间 为 对于智能体i,定义 为当前智能体所要存储到经验池中的决策向量, 为智能体在时隙t的动作,智能体在[0,Pmax]的值域中任取一个实数,Pmax为最大功率;

定义奖励函数 为:

W为权重, 代表了链路j抛去链路i对其产生的干扰后的速率;

表示如果没有其余链路对当前链路i产生影响,当前链路能够取得的速率。

说明书 :

一种D2D系统中基于深度强化学习的功率分配方法

技术领域

[0001] 本发明属于无线通信技术领域,具体的说是涉及一种D2D系统中基于深度强化学习的功率分配方法。

背景技术

[0002] 全球的网络运营商对为5G的发展和应用表现出浓厚的兴趣。5G的基本思想是利用移动用户之间的直接连接来减轻基站的负担。为了提高蜂窝网络的能量效率并且提高系统
吞吐量,设备到设备(D2D)被认为是一种很好并可行的解决方案。在D2D网络中,多对D2D链
路对在蜂窝小区中进行全频的复用共存,导致链路之间的干扰变得非常复杂。在D2D场景
下,一般通过功率控制进行干扰管理来优化系统容量,传统功率控制算法大部分都是基于
实时信道信息通过不断迭代来实现的,耗时的信道估计和复杂的矩阵运算使得实时的功率
调整变得非常困难。

发明内容

[0003] 本发明针对以上传统功率控制中存在问题,提出了一种无需迭代的D2D系统中基于深度强化学习的功率分配方法。
[0004] 本发明的技术方案是:
[0005] 一种D2D系统中基于深度强化学习的功率分配方法,假设D2D系统中具有N对链路对,即N个智能体,包括以下步骤:
[0006] S1、信息收集:N对链路对分别从中心控制器(Central Controller,CC)中接收过时的信道,功率信息,和其他链路的决策信息,得到各自的观测向量;
[0007] S2、网络构建:每一对链路都单独创建自己的网络并建立自己的经验存储池(Replay Buffer);
[0008] S3、在线决策并训练网络:根据链路周围的通信环境中步骤S1所收集的上一时刻的过时观测向量进行在线功率决策,并将智能体和环境交互获得的状态、动作、奖励和观测
向量一起存储入经验池中。同时,每一个链路随机地从自身经验池中挑选出一组数据对S2
中的网络进行训练,并更新网络参数,下一次进行在线决策时使用更新网络参数后的网络。
[0009] 本发明提出的一种基于深度强化学习的网络的功率控制模型,主要包括在线的检测和训练:
[0010] 数据:D2D系统分别为离线模块和在线模块提供信道信息和功率数据。对于离线模块: D2D系统提供有标记的采样数据,作为训练集;对于在线模块:D2D系统提供(无标记)的
采样数据,作为检测数据。
[0011] 网络构建:根据特定的格式为每个链路单独构建一个网络,这个网络负责根据输入的信息给出具体的功率决策和网络的损失函数。
[0012] 在线训练:通过在线的训练将连续的功率分配看作一个多智能体相互配合的任务。系统为每个链路对都建立了一个固定大小的经验池(Replay Buffer)来存储数据。每个
链路对单独地从自己的经验池中拿出数据,进而进行在线的训练强化学习的输出可以建模
为后验概率,从而开发适合于功率分配的代价函数(比如,本发明设计的基于最大后验概率
的代价函数);给定训练集,通过不断地在线训练和反馈,得到训练好的网络。
[0013] 在线决策:在线训练的同时,按照网络的功率分配结果作为实时的功率分配结果。同时将在线决策所收集的数据存储入经验池中作为以后训练的训练数据。在线决策的效果
会随着在线训练的进程越来越好。
[0014] 本发明所提基于深度神经网络输入和隐藏层运用了线性整流函数(Rectified Linear Unit, ReLU)作为各层的激活函数
[0015] Relu(x)=log(1+exp x)
[0016] 输出层使用tanh函数来确定最后功率输出档位。输出的值为:
[0017]
[0018] 本发明所提基于多智能体深度强化学习的功率分配机制是一种通用的强化学习框架,其可以适用为任意类型的网络,因此可以对不同网络泛化。
[0019] 本发明的有益效果在于,本发明的方案中为每个链路对都单独构建一个深度神经网络,不需要实时得到所有链路的信道信息,而是根据部分历史信息和其他链路地决策信
息来预测当前链路周围的通信环境,让各个链路对能够相互配合进而进行实时的功率决策
以最大化全局网络的加权和速率,从而实现了无需迭代的基于深度强化学习的功率分配方
法。

附图说明

[0020] 图1示出了本发明中的D2D通信系统模型;
[0021] 图2示出了本发明中D2D通信系统的帧结构;
[0022] 图3示出了本发明中的每对链路用户功率决策流程;
[0023] 图4示出了本发明中的每对链路的网络结构;
[0024] 图5示出了本发明提出的基于强化学习的功率分配方案和其他功率分配方案的性能在测试链路个数不同的情况下做对比;
[0025] 图6示出了本发明提出的基于强化学习的功率分配方案中的一对链路的actor网络训练 loss变化。
[0026] 图7示出了本发明提出的基于强化学习的功率分配方案中的一对链路的critic网络训练 loss变化。

具体实施方式

[0027] 下面结合附图对本发明进行详细的描述。
[0028] 图1示出了本发明中的D2D网络模型,系统分别由蜂窝移动通信系统和D2D通信系统组成。在本示例中,宏蜂窝基站为D2D通信系统保留一小部分独占的蜂窝频谱。因此蜂窝
移动通信系统和D2D通信系统不存在相互干扰,而宏蜂窝基站仅作为中继帮助D2D通信设备
之间进行少量且有延迟的控制信息交换。假设在此实例系统中有M个D2D通信设备,1个信
道,如图1所示。定义 为发送机i到接收机j的信道参数。信道的相关性被定义为了一个一
阶高斯马尔可夫过程。本发明用Jakes模型来表述第t帧的小尺度衰落的变化,即
[0029]
[0030]
[0031] 其中 表示从发射机i到接收机j的信道增益,代表从发射机i到接收机j的信道参数,零时刻的信道参数 服从
2
是指均值为μ方差为σ的复高斯。ρ是指不同帧之间的信道相关系数。θij表示大尺度衰落,服
从5兆赫带宽,2.4兆赫载波频率的短距离的ITU‑1411户外模型。 表示小尺度衰落,是服
从 的独立同分布的随机变量。ρ表示相邻时隙信道的相关系数,服从 J0(2π
fdT),J0(·)表示第一类零阶贝塞尔函数,fd是最大多普勒频率。大尺度衰落和两个通信节
点的距离有关,小尺度衰落在一帧中保持不变,但是不同帧之间会发生变化。t时刻用户i的
信干噪比(SINR)为
[0032]
[0033] 其中 表示t时刻用户i的功率,用 来表示t时刻网络中所有用2
户的功率向量。σ代表了加性高斯白噪声的功率。t时刻用户i的速率为
[0034]
[0035] 本发明目标是找出一种有效的用户关联方案使所有D2D用户的速率和最大,即
[0036]
[0037]
[0038] 其中 代表了用户i在t时刻的权重,通常是根据用户的长期平均速率分配的。权重通过允许信道条件差的用户有更多的传输机会,通过分配权重来确保网络中的用户公平
性。
[0039] 在大型的D2D网络中,由于巨大的开销和回程网络的延迟,实际中很难获得实时的CSI。在这里,本发明假设只有过去的信息被拿得到,因此只能最大化实时加权和速率的期
望函数:
[0040]
[0041] 其中过去的信息 上式中的问题是非凸函数,如果使用传统的优化方法求解十分困难,需要高维积分和复杂的矩阵运算。本发明提出利用深
度强化学习利用过去信息,跳过复杂的矩阵运算直接得到功率分配结果。
[0042] 图2示出本发明中D2D网络中用户通信的帧结构。D2D链路对将在一个时隙的数据帧分成三部分。在帧头的第一部分,D2D链路对先接收从CC中接收上一个时刻的过时干扰信
息和功率决策信息,然后将处理后的信息输入到神经网络中进行功率决策。第二部分,D2D
链路对根据分配的功率进行数据传输,同时进行实时的干扰信息收集。最后,在帧尾的第三
部分将这个时刻的干扰信息和自己的功率分配信息传输到CC。
[0043] 图3示出了本算法的决策流程。
[0044] 图4示出了本发明中每对链路的强化学习网络结构。网络中有三个主要的组成部分, Replay Buffer,Main Net和Target Net。
[0045] Replay Buffer负责存储Main Net网络中产出的sample数据元组,在训练网络的过程中会从其中按照一定的策略取出其中存储的数据元组,而这个策略可以是随机的,也
可以是一些设计好的权重选择策略。
[0046] Main Net网络和Target Net网络的网络结构完全一致,均分别包含一个actor网络和一个 critic网络。actor网络负责接收链路的状态信息并输出一个功率决策值,而
critic网络负责对 actor本次的输出进行评价,即判断功率决策的好坏。
[0047] Main Net网络有两个作用:一是负责产生实时的数据元组并存储到Replay Buffer中,二是在Actor和Critic网络计算损失函数后进行实时更新。
[0048] Target Net网络只有一个作用,在计算loss function的时候中的目标Q值。用来固定Q值稳定网络,以免目标值不断跳动,网络训练的效果不好。Target Net网络的参数在
一段固定时间或者固定训练次数后会被Main Net网络的参数覆盖以进行参数更新。
[0049] 下面介绍网络中较为重要的变量:
[0050] 1)动作空间 在每一个时隙中,每个agent需要决定自己的发射功率大小。本发明中的网络不需要进行功率离散化,即本发明的网络能够进行连续动作上的功率决策,这
是传统的算法所不能实现的。所以本发明中的动作空间 被定义为:
[0051]
[0052] 因此,本发明的网络动作空间的维度是无穷的。对于链路对i,定义 在时隙t的动作,智能体在[0,Pmax]的值域中任取一个实数。定义 为当前链路所要
存储到经验池中的决策向量。
[0053] 2)状态空间S:作为功率决策的基础,状态必须给网络提供足够的信息让agent能够对周围的通信环境有足够的认知,并且支撑网络做出正确的决策。在通信网络中,链路周
围的通信环境由三部分组成:自己发送机接收机之间的通信质量,本地发送机对其他接收
机产生的干扰,其他发送机对本地接收机造成的干扰。有了这三部分信息,的链路就能够对
周围的通信环境进行感知。定义 为智能体i在时隙t的状态信息集合,K为
状态信息的个数。下面具体介绍 中的各项。
[0054] ①对于特定的D2D对,最能够代表当前发送机与接收机之间通信质量的是本地CSI所以:
[0055]
[0056] ②影响链路的速率的另一决定性因素为功率信息:
[0057]
[0058] ③上一时刻本链路的速率也可以代表链路周围的通信环境:
[0059]
[0060] ④本链路发送机对其他接收机的干扰表示为:
[0061]
[0062] ⑤本链路接收机所受到其他链路发送机的干扰表示为:
[0063]
[0064] ⑥在本算法中,网络在独立决策的时候还需要感知周围链路的通信环境,才能够做出准确的功率决策。因此需要告知本链路周围链路的信道信息。因此:
[0065]
[0066]
[0067] 上式中d=rank(a,b)的含义为,a在集合b中按照从大到小将值进行降序排序中,排序第d位。
[0068] 综上所述, 可以被表示为:
[0069]
[0070] 而 由公式(15)决定。
[0071] 3)奖励函数 为了在最大化全局和速率的同时让链路感知周围的通信环境,在奖励函数的设计上考虑了三部分。
[0072] 首先,衡量链路一次功率分配的好坏最直接的反馈肯定是自身的传输速率,所以奖励函数的第一个组成部分是
[0073] 其次,希望链路之间能够学会相互合作相互配合,所以如果奖励函数只是自身的和速率肯定会对周围的链路产生较大的干扰,所以将链路周围的干扰信息也加入到奖励函
数中。干扰信息的分类主要有两种,一种是链路由于发送信息而对其他链路对产生的干扰
第二种是其他链路对当前链路所产生的干扰大小
[0074] 最后,奖励函数 的完整表达式如下:
[0075]
[0076] 其中:
[0077]
[0078] 代表了链路j抛去链路i对其产生的干扰后的速率。另外:
[0079]
[0080] 表示如果没有其余链路对当前链路i产生影响,当前链路能够取得的速率。
[0081] 奖励函数(17)的意义是链路i当前时刻的速率减去当前链路对其他链路产生的实际速率上的影响,然后加上其他链路对本链路速率的影响。
[0082] 总体算法的流程如下,对于链路i:
[0083] 首先,将当前的状态 输入主网络中,得到当前 和 并结合其他链路的action训练得到 同时得到下一时刻的状态向量 将 作为元组存储到数据经验
池中。
[0084] 第二,从经验池中挑选出数据元组
[0085] 第三,直接将数据元组中输入到主网络中拿到当前最新策略对应着的评价值。
[0086] 第四,将数据元组中下一时刻的数据 输入到次网络中计算当前链路下一时刻的action  并且利用其他链路的下一时刻action 计算出评价值。
[0087] 最后,根据以上信息计算损失函数更Main Net网络。另外,本网络中采取软更新的模式来对Target Net的参数进行更新,即每一次训练都更新一点点。这样可以减少网络的
方差。另外,值得强调的是,actor网络的输出经过激活函数tanh后的取值范围为(‑1,1),与
功率的大小之间对应不上,多以设计了一个actor网络输出x与功率pi之间的映射关系:
[0088] pi=Pmax×(x+1)/2   (22)
[0089] 下面,本发明将根据仿真结果来阐述本发明提出方案的性能。首先,考虑一个由4个D2D 链路对组成的网络。所有链路对的发送机随机分布在边长为50米的正方形区域中,
链路对接收器和发送器之间的距离均匀分布在2m到50m之间。设定D2D发送机最大的发送功
2
率为 p=38dBm,背景噪声功率为σ=‑114dBm,多普勒频移为10Hz,相邻信道之间的相关系
数ρ=0.01。路径损耗模型为32.45+20log10(f)+20log10(d)‑Gt‑Gr(以dB为单位),其中f
(Mhz)是载波频率,d(km)是距离,Gt表示发射天线增益,Gr表示接收天线增益。本发明设置f
=2.4GHz,Gt=Gr=2.5dB。多智能体深度强化学习算法使用TensorFlow实现。
[0090] 图5示出了本基于多智能体强化学习的功率分配方案和其他功率分配方案的性能在测试区域不同的情况下做对比。三种对比算法为全部满功率传输策略(MPT),利用实时信
道信息的FP方案,全部以最大功率传输的AA方案。在只有4个链路对的时候本发明的网络能
够在6w次训练之后达到稳定,而性能上更是令人感到惊喜。本发明的算法能够比FP算法性
能好20%左右,而比全开AA算法更是高了大约50%。仅在四个链路上就表现出这样优秀的
性能,佐证了算法的有效性。值得强调的是,本文算法的训练是在4个链路都不断变化的情
况下进行训练的。只有这种不断变化的链路位置才能够测试出本发明的网络是否真的学习
到了利用链路周围的干扰数据来推断出实时的通信环境并做出决策。以往的一些使用强化
学习的算法都是在链路的地理位置不变的情况下进行的训练,虽然训练也能够拿到一些不
错的效果,但是这在实际的通信系统中是毫无意义的,因为链路对的位置不可能一直都不
变化,一旦链路对的位置改变,这些算法就变为无效,均需要重新训练。所以本文算法的意
义就在于此,链路对的位置在一直改变的同时网络不需要重新训练,所以这使得本发明的
算法能够一直保持有效性。
[0091] 下面展示一些强化学习在训练过程中的loss变化,在这里拿链路对agent1作为例子来展示本发明网络的训练的一些细节,让本发明算法的非监督式框架更为清晰直观。首
先,在图 6先展示一个链路对的actor网络的损失函数loss变化曲线。从图中可以看出在4
万次步数之前,actor网络的损失函数是在一直增长的,表示网络的性能是在一直变差的。
而在大约4万次步数的训练之后网络终于探索到了减小损失函数的策略,所以之后的网络
损失函数能够一直下降。而在6万次训练之后,网络的损失函数终于趋于稳定。其次,图7中
展示了critic 网络的损失函数,期望是最小化critic网络,以减少实际拿到的Q值和期望
拿到的Q值之间的差距。在3万次训练步骤之内,critic的损失函数的变化是没有规律的。对
应着是本发明的网络正在不断地探索,所以action的随机性比较大,本发明的网络不断地
向不同的策略上探索。而与actor网络趋势相一致的是在大概4万次训练之后,critic网络
的损失函数也趋于稳定。