基于深度强化学习的宽带无线通信自主选频方法及系统转让专利
申请号 : CN202010608306.0
文献号 : CN111726217B
文献日 : 2021-07-20
发明人 : 张健 , 姜锐 , 辜方林 , 李芳芳 , 郭克华 , 陈定平
申请人 : 中南大学
摘要 :
权利要求 :
1.一种基于深度强化学习的宽带无线通信自主选频方法,所述方法应用于一种基于OFDM传输体制的宽带无线通信系统,其特征在于,包括:获取宽带OFDM波形信道;
将所述宽带OFDM波形信道进行划分,得到多个独立子信道;
将各所述独立子信道进行感知,得到感知结果,将所述感知结果作为深度强化学习的环境状态信息;
获取通信系统的待优化参数,将所述待优化参数的组合作为深度强化学习的动作空间,所述动作空间包含多个决策目标;
构建深度强化学习神经网络;
将所述环境状态信息作为所述深度强化学习神经网络的输入,所述决策目标作为深度强化学习神经网络的输出,对所述深度强化学习神经网络进行训练,得到训练后的深度强化学习神经网络;
获取待预测宽带OFDM波形信道;
根据所述训练后的深度强化学习神经网络对所述待预测宽带OFDM波形信道进行自主选频,得到最优信道;
所述将各所述独立子信道进行感知,得到感知结果,具体包括:通信双方对各所述独立子信道的工作频段内频谱空洞的具体位置进行感知,得到感知信息;
将所述感知信息通过信令进行交互综合,得到感知结果。
2.根据权利要求1所述的基于深度强化学习的宽带无线通信自主选频方法,其特征在于,所述动作空间包含信道选择、发射功率选择、调制方式选择和中心频率选择多个决策目标。
3.根据权利要求1所述的基于深度强化学习的宽带无线通信自主选频方法,其特征在于,所述将所述环境状态信息作为所述深度强化学习神经网络的输入,所述决策目标作为深度强化学习神经网络的输出,对所述深度强化学习神经网络进行训练,得到训练后的深度强化学习神经网络,具体包括:决策方以感知到的信道条件作为环境状态信息s,决策行为作为决策目标a,将效用函数作为深度强化学习中的回报函数r,观察动作执行后的系统状态s',组合{s,a,r,s'}构建经验e;
根据所述经验基于经验回放机制和小批量梯度下降算法对深度强化学习神经网络进行训练,得到训练后的深度强化学习神经网络。
4.一种基于深度强化学习的宽带无线通信自主选频系统,其特征在于,包括:宽带OFDM波形信道获取模块,用于获取宽带OFDM波形信道;
信道划分模块,用于将所述宽带OFDM波形信道进行划分,得到多个独立子信道;
信道感知模块,用于将各所述独立子信道进行感知,得到感知结果,将所述感知结果作为深度强化学习的环境状态信息;
动作空间确定模块,用于获取通信系统的待优化参数,将所述待优化参数的组合作为深度强化学习的动作空间,所述动作空间包含多个决策目标;
深度强化学习神经网络构建模块,用于构建深度强化学习神经网络;
训练模块,用于将所述环境状态信息作为所述深度强化学习神经网络的输入,所述决策目标作为深度强化学习神经网络的输出,对所述深度强化学习神经网络进行训练,得到训练后的深度强化学习神经网络;
待预测宽带OFDM波形信道获取模块,用于获取待预测宽带OFDM波形信道;
最优信道确定模块,用于根据所述训练后的深度强化学习神经网络对所述待预测宽带OFDM波形信道进行自主选频,得到最优信道;
所述信道感知模块,具体包括:感知单元,用于通信双方对各所述独立子信道的工作频段内频谱空洞的具体位置进行感知,得到感知信息;
交互单元,用于将所述感知信息通过信令进行交互综合,得到感知结果。
5.根据权利要求4所述的基于深度强化学习的宽带无线通信自主选频系统,其特征在于,所述动作空间包含信道选择、发射功率选择、调制方式选择和中心频率选择多个决策目标。
6.根据权利要求4所述的基于深度强化学习的宽带无线通信自主选频系统,其特征在于,所述训练模块,具体包括:经验构建单元,用于决策方以感知到的信道条件作为环境状态信息s,决策行为作为决策目标a,将效用函数作为深度强化学习中的回报函数r,观察动作执行后的系统状态s',组合{s,a,r,s'}构建经验e;
训练单元,用于根据所述经验基于经验回放机制和小批量梯度下降算法对深度强化学习神经网络进行训练,得到训练后的深度强化学习神经网络。
说明书 :
基于深度强化学习的宽带无线通信自主选频方法及系统
技术领域
背景技术
环境下的适应能力,特别是宽带无线通信系统,由于其占用带宽本身较宽,更易受到干扰的
影响,提高其在复杂电磁环境下的适应能力显得尤为迫切。在目前无线通信系统中,扩频技
术是应用最为广泛和成熟的抗干扰技术。扩频抗干扰技术通常包括直扩和跳频两种方式,
其抗干扰的原理是将信号在频域上进行扩展,降低信号功率密度,使目标信号隐藏在干扰
信号和噪声中,从而提高系统对干扰的适应能力。然而,对于无线宽带通信系统,由于扩频
技术占用带宽和频谱资源高,而当前频谱资源本身受限,很难有足够的带宽提供跳频、扩频
增益满足抗干扰的需求。
发明内容
度强化学习神经网络;
到训练后的深度强化学习神经网络,具体包括:
构建经验e;
得到训练后的深度强化学习神经网络;
s',组合{s,a,r,s'}构建经验e;
能决策出最优的抗干扰策略,(策略包括用于通信的子信道的数量和分布,调制方式,发射
功率等),实现自适应抗干扰传输。
附图说明
例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获
得其他的附图。
具体实施方式
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
作频段内无干扰或干扰功率低于门限值的子频段视为“频谱空洞”,通信双方实时感知工作
频段内频谱空洞的具体位置,并通过信令对频谱空洞信息进行交互。收端根据交互后得到
的工作频段内频谱空洞信息作出决策并通知发方动态调整工作频率或其它通信参数,在满
足接收性能需求的同时,将干扰对系统性能的影响减到最低,极大地提高系统的抗干扰能
力。因此,自主选频是提升宽带无线通信设备抗干扰能力的重要手段。
对的值函数进行估计来求得的最优策略。将强化学习和认知无线电有机的结合起来,面对
智能干扰器产生的不同干扰问题,嵌入强化学习算法的认知引擎能够通过对策略选择的试
错和环境反馈信息,动态的调整认知系统的参数和策略选择情况,进而能够在环境信息不
充分的条件下,相比于随机的选择策略有效的改善通信质量。
传输体制的宽带无线通信系统,所述方法包括:
将通信设备的射频前端工作带宽划分为整数个子信道。
道,则每个信道占用L个子载波,且Nsub=N×L。以OFDM体制波形的子信道带宽为基本单元,
将射频前端带宽划分为M个子信道,将子信道编号为[‑M/2,…,M/2‑1],假设射频前端的中
心工作频点为fc,则每个子信道的中心频点为fm=fc+m×fb。通过将宽带OFDM波形信道设计
为若干独立子信道,同时将共享频段以宽带OFDM波形子信道带宽为基本单元划分为整数个
子信道带宽,在发送端根据信道和干扰条件使用深度强化学习算法动态选择“时频空洞”发
送有效信息,接收端通过选择工作的中心频率,结合宽带OFDM波形信道带宽的模拟滤波滤
除带外干扰,防止干扰阻塞,在此基础上,以低速采样构造低实现复杂度的自主选频系统,
确保信息在有效子信道上实现高可靠性、自适应速率传输。
性指标的形式给出,该指标能够很好的反映出有用信号,干扰,底噪之间的差异。虽然通信
双方感知的频段是相同的,但由于地理位置的不同,信道环境和受干扰情况有所不同,感知
的结果也不尽相同,故通信双方通过信令对感知信息进行交互综合双方感知结果,并将结
果作为深度强化学习中的环境状态信息S。
择、调制方式选择和中心频率选择多个决策目标。
间。如信道选择、发射功率选择、调制方式选择、中心频率选择等。并将该决策空间作为深度
强化学习中的动作空间A。设计与决策目标相对应的效用函数r作为深度强化学习中的回报
函数,用于在某个环境状态下对当前的决策动作做出评价。
练后的深度强化学习神经网络,具体包括:
构建经验e。
的效用函数r,对当前的动作决策做出评价,利用感知方对信道的实时监测能观察到下一环
境状态s',将获得的状态相关信息(s,a,r,s')存入经验池中。经验池D是一个先入先出的队
列,由各经验e组成,若放入的经验总数大于d,则将最先放入的经验丢弃。当经验池中样本
积累足够时更新预测Q网络参数θ,从经验池D中抽取B个经验组成集合来基于小批量样本采
用随机梯度下降算法更新预测Q网络的权重参数。每经过C次迭代后,更新目标Q网络的权重
参数为训练Q网络的权重参数。
工作频段内频谱空洞的具体位置,并通过信令对频谱空洞信息进行交互,将交互后得到的
感知信道信息以状态序列的方式作为DQN(Deep Q‑Learning)模型状态输入s,状态序列包
括当前系统状态和先前系统状态。最后决策方结合应用场景相应地进行动态决策,将决策
动作视为DQN模型的动作信息a;根据决策目标定义相应的效用函数r作为深度强化学习中
的回报函数,衡量动作选择性能。该方法中,状态信息作为已知条件,通信双方中的决策方
作为主体决策动作选择,构建DQN强化学习模型,决策方与环境不断交互获得经验,并使用
经验来训练DQN模型得到最优参数,从而得到各个状态下的最优策略。本方法在满足接收性
能需求的同时,将干扰对系统性能的影响减到最低,极大地提高系统的抗干扰能力。
自主选频机制的链路自适应应用模型。当射频前端工作频段较宽,远大于OFDM体制波形信
道带宽时,构建基于自主选频机制的干扰规避应用模型。
以获得最大的吞吐量。与传统的链路自适应模型不同,该模型中由于采用OFDM波形信道带
宽子信道划分模型,不但可以根据时变的信道和干扰条件使用深度强化学习算法动态选择
不同传输效率和性能的MCS,还可以动态选择子信道数目和子信道的分布,以获得最大的吞
吐量。该模型基于深度强化学习算法,结合OFDM机制下宽带无线通信系统场景,综合信道选
择和发射功率等参数分配问题,能有效解决未知干扰类型情况下的链路自适应问题,对比
于传统选择策略能有效提高效能。
fTc和接收端中心工作频点fRc不再相同,而频段内的干扰的强度和频谱分布会根据时间变
化,那么就需要接收端根据时变的信道和干扰条件动态选择中心频点fRc来实现干扰规避。
其中通过模拟滤波来实现带外干扰抑制,防止阻塞。由于结合的场景的不同,所以该模型的
决策目标相比于模型1有所不同,但使用的方法仍然一致。该模型是基于深度强化学习算
法,结合OFDM机制下宽带无线通信系统场景,根据环境状态信息动态选择接收端的中心频
点来实现干扰规避。
道选择、发射功率选择、调制方式选择和中心频率选择多个决策目标。
练,得到训练后的深度强化学习神经网络。
s',组合{s,a,r,s'}构建经验e。
为DQN算法的神经网络模型架构图;图10为本发明结合场景的算法流程图。
境信息输入,将频谱资源、波形参数、发射功率等参数决策结果作为输出,通过交互机制根
据环境给予的反馈来不断更新网络的参数,将参数最优化,而最优参数其对应着最优策略。
实时决策部分是将频谱感知的结果以状态序列的方式输入到训练好的DQN模型中去,得到
对应状态下的最优决策结果。该模型建立在基于OFDM传输体制的宽带无线通信系统之上,
OFDM波形信道带宽子信道划分如图4所示,设定宽带OFDM波形信道带宽为fBW,OFDM体制采用
Nsub个子载波,在此基础上,将信道带宽划分为N个独立的子信道,则每个信道占用L个子载
波,且Nsub=N×L。然后以OFDM体制波形的子信道带宽为基本单元对射频前端工作频段进行
划分,划分模型如图5所示。将射频前端带宽划分为M个子信道,将子信道编号为[‑M/2,…,
M/2‑1],假设射频前端的中心工作频点为fc,则每个子信道的中心频点为fm=fc+m×fb。决
策方法具体步骤如下:
工作频段内的有效子信道和无效子信道,虽然通信双方感知的频段是相同的,但由于地理
位置的不同,信道环境有所不同,感知的结果也不尽相同,故通信双方通过信令对感知信息
进行交互,综合双方感知结果将同时判定为有效子信道的保留其余视为无效子信道,并将
感知结果以状态序列的方式作为深度强化学习中的环境状态信息S。
得到K个有效子信道,则可选的子信道组合共有J=2种。表示为如下集合:
低的前提下提高通信速率,但是提高通信速率需要较大的通信功率外,还需要高阶的调制
方式,但是高阶的调制方式会带来误比特率的提高。所以要在这三者之间达到一个平衡。在
适当的功率的前提下,提高通信速率,降低误码率。因此强化学习的目标可以由误比特率,
通信速率,发射功率加权得到。
通信来说,最重要的肯定是误比特率,所以三者的权重给予误比特率最大的权重0.8,其余
两个分别是0.1。
<s,a>的Q值。智能体建立两个卷积神经网络,预测网络Q(s,a;θ)用于评估当前状态动作
对的价值函数,目标网络用以产生如下式所示的时间差分目标价值。
法的神经网络模型架构如图9所示,由3个卷积层以及1个全连接层构成。输入层为64*64的
状态序列,卷积层1使用32个5*5的卷积核,步长为2产生32个30*30的特征图,卷积层2使用
64个3*3的卷积核,步长为2产生64个14*14的特征图,卷积层3使用64个3*3的卷积核,步长
为2产生64个7*7的特征图,全连接层将特征向量进行拉伸,得到一个7*7*64的特征张量,使
*
用全连接操作输出512个神经元。当DQN模型中神经网络的参数θ为最优参数θ时,相应的Q
*
值为最大Q值,最优策略π可以由下式表示:
作环境所给予反馈rat,以及下一个状态st+1。将组合 定义为经验et,然后将该
经验放入一个大小为d的经验池D中,经验池D是一个先入先出的队列,若放入的经验总数大
于d,则将最先放入的经验丢弃。待经验池中经验样本数量足够时则对参数θ进行更新,更新
时从D中抽取B个经验组成集合,采用均方误差计算时间差分误差作为损失函数,使用小批
量随机梯度下降的方法对参数进行优化。结合以上技术,θ的更新公式可以定义为:
表示经验集合的一个经验.通过智能体与环境的不断交互,不断重复上述
过程,参数的不断更新最终趋于稳定则DQN训练完成。DQN算法具体流程如算法1所示:
带宽划分为N个独立的子信道。将射频前端工作频段视为共享频段以OFDM波形信道带宽为
基本单元将射频前端带宽划分为M个子信道,如图5所示。但由于射频前端工作频段较宽,远
大于OFDM体制波形信道带宽,发送端中心工作频点fTc和接收端中心工作频点fRc不再相同,
而频段内的干扰的强度和频谱分布会根据时间变化,那么就需要接收端根据时变的信道和
干扰条件动态选择中心频点fRc来实现干扰规避。具体步骤如下:
获得工作频段内的有效子信道和无效子信道,综合双方感知结果并将其以状态序列的方式
作为深度强化学习中的环境状态信息S,相比于模型1由于带宽的增加,环境信息更加复杂。
滑窗操作,可选的情况共有J=M‑N种,表示为如下集合:
选择性能衡量标准:
回报函数设定构建DQN模型,以频谱感知结果作为输入,输出中心工作频点选择策略。
而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说
明即可。
本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不
应理解为对本发明的限制。