一种认知无线电中信道质量性接入方法转让专利
申请号 : CN202110107271.7
文献号 : CN112954814B
文献日 : 2022-05-20
发明人 : 叶方 , 张音捷 , 李一兵 , 孙骞 , 田园
申请人 : 哈尔滨工程大学
摘要 :
权利要求 :
1.一种认知无线电中信道质量性接入方法,其特征是:包括如下步骤:
1.1初始化全局网络中的演员网络与评论家网络参数,将全局网络参数赋予本地网络;
1.2本地网络下,次用户根据观测信息组成的观测矩阵以及当前策略选择信道进行接入,次用户感知接入所选择的信道,根据信道状态获得即时回报;
1.3每经过若干轮迭代,本地演员网络与本地评论家网络分别计算梯度,传递至全局网络,并重置本地演员网络梯度和评论家网络梯度;
本地网络中的演员网络进行与环境交互和动作选择,其主要任务为策略学习,其直接对策略进行梯度计算:
其中J(θ)表示策略网络的目标函数;πθ(s,a)表示在网络参数为θ时,状态s下选择动作a的概率;d(s)表示此次互动所采集到的状态数; 表示状态s下选择动作a所获得的即时回报;
本地评论家网络主要用于估计状态价值,评价演员网络动作策略的优劣程度,通过优势函数指导演员网络更新,优势函数为在状态s下,某动作a相对于平均而言的优势,异步优势演员评论家网络中采用多步采样以加速收敛:A(s,a)=Q(s,a)‑V(s)n‑1 n
=rt+1+γrt+2+...+γ rt+n+γV(s')‑V(s)其中V(s)表示状态s的价值,可由评论家网络估计得出,对策略进行梯度计算变为:
1.4根据演员网络更新函数更新全局演员网络,根据评论家网络更新函数更新全局评论家网络,将更新后的全局网络参数赋予本地网络;
全局演员网络的更新函数为:
其中θ表示全局演员网络的参数,A(s,a)表示优势函数,表示该环境状态下动作的优劣程度,H(πθ'(s))为策略熵,用于增加前期次用户的探索性;
全局评论家网络的更新函数为:
其中μ表示全局评论家网络的参数,r表示次用户获得的即时回报,γ为折扣因子,λ为评论家网络的学习率;
1.5循环执行步骤1.2至步骤1.4,直至完成所有循环次数后,获得完整神经网络模型。
2.根据权利要求1所述的认知无线电中信道质量性接入方法,其特征是:环境中存在多个信道可接入,次用户快速找到并接入符合自身服务质量要求的信道。
3.根据权利要求1所述的认知无线电中信道质量性接入方法,其特征是:所述步骤1.1全局网络和本地网络的神经网络结构相同,其中演员网络为一层隐藏层,神经元个数为
200,激活函数为线性整流函数,评论家网络为一层隐藏层,神经元个数为200,激活函数为线性整流函数。
4.根据权利要求1所述的认知无线电中信道质量性接入方法,其特征是:所述步骤1.2每个本地网络独立与环境进行交互,演员网络与评论家网络各自独立,本地演员网络分别独立与信道环境进行交互,评论家网络评估演员网络的动作策略,并且各个本地网络的网络结构都完全相同。
5.根据权利要求1所述的一种认知无线电中信道质量性接入方法,其特征是:所述步骤
1.2中的观测矩阵,次用户只能观测到其选择感知信道的状态,其在第t个时隙的观测信息为:
Ot=[o1,t,o2,t,...,oN,t]引入暂时记忆机制后,次用户存储前M步的观测信息,M步观测信息组成一个观测矩阵,第t个时刻的观测矩阵可表示为:
St=[Ot‑1,Ot‑2,Ot‑3,...,Ot‑M]与环境互动后获得回报,其回报函数为:次用户选择感知接入的信道为空闲并且符合自身的服务质量需求,则说明这次的决策正确,获得正反馈回报;若次用户选择感知的信道被主用户占用,则说明这次的决策错误,收到负反馈惩罚;考虑到可能存在某个时段内符合次用户服务质量需求的信道都处于忙状态,设定次用户选择感知接入的信道虽然不符合服务质量需求但为空闲信道,其依然能获得一个较小的正反馈,Di表示第i个信道的所获得的吞吐量,η为次用户的吞吐量门限,(Di‑η)/η为第i个信道所获得的吞吐量与门限η差值的比值,主要是引导次用户选择更优秀的信道。
说明书 :
一种认知无线电中信道质量性接入方法
(一)技术领域
(二)背景技术
的频谱规划管理下已经变得日益稀缺。现有频谱分配方式具有独占性和排他性,即使授权
用户并未使用其被分配到的频段,其他用户也无法使用。认知无线电通过动态频谱接入的
方式使用授权频段,在不对授权用户/主用户造成有害干扰的前提下,为提高频谱利用率提
供了全新的方案。而次用户感知接入的信道将直接影响次用户的感知延迟,传输性能等方
面,其研究迫在眉睫,将成为提高认知无线电系统性能的关键因素之一。
率、主用户占用规律和信道信噪比等信息,设计信道感知接入顺序。虽然序贯检测接入设计
简单,但是其需要知道大部分的环境先验信息,其在实际环境中很难实现。并且序贯检测算
法性能很容易受到环境中“劣质信道”的影响,信道虽然空闲程度较高,但是信噪比较小;或
者信道虽然较大,但是主用户占用频繁。如基于信噪比序贯检测算法很容易选择信噪比较
高但是主用户占用频繁的信道,造成感知接入成功率低;或者基于信道空闲概率的序贯检
测算法容易选择空闲程度高但是信噪比较低的信道,造成不符合次用户服务质量要求,次
用户获得的吞吐量较低的结果。
学习中的异步优势演员评论家网络引入认知无线电中,使次用户可以在未知大部分信道环
境先验信息的条件下智能选择符合自身服务质量需求的信道进行感知接入。
(三)发明内容
需求的信道进行感知接入的方法。
网络为一层隐藏层,神经元个数为200,激活函数为线性整流函数。评论家网络也为一层隐
藏层,神经元个数为200,激活函数为线性整流函数。
论家网络评估演员网络的动作策略,并且各个本地网络的网络结构都完全相同。
的信道被主用户占用,则说明这次的决策错误,收到负反馈惩罚。考虑到可能存在某个时段
内符合次用户服务质量需求的信道都处于忙状态,设定次用户选择感知接入的信道虽然不
符合服务质量需求但为空闲信道,其依然能获得一个较小的正反馈。
各个本地网络。
制探索程度。
(四)附图说明
大化累计回报。单次循环次用户的通信也可以随着时间无限进行,累计回报趋于无限,无法
有效评价策略优劣。因此限定单次迭代内的时隙数量为T。上述问题可表示为下式:
在的信道数量:
错误,收到负反馈惩罚。考虑到可能存在某个时段内符合次用户服务质量需求的信道都处
于忙状态,设定次用户选择感知接入的信道虽然不符合服务质量需求但为空闲信道,其依
然能获得一个较小的正反馈。回报函数可由下式表示:
(Di‑η)/η为第i个信道所获得的吞吐量与门限η差值的比值,主要是引导次用户选择更优秀
的信道。
境进行交互,评论家网络评估演员网络的动作策略,并且各个本地网络的网络结构都完全
相同。全局网络不与环境进行互动,其主要工作为收集各个网络的梯度数据,通过这些梯度
数据更新网络,再将更新后的网络参数传递给各个本地网络。
时回报。
步优势演员评论家网络中采用多步采样以加速收敛:
传递,因此全局网络的结构也与本地网络保持一致。全局网络中的演员网络也是负责更新
动作策略,其梯度更新可表示为:
探索程度。引入优势函数后,全局网络评论家网络通过最小化优势函数的平方,来提高对于
值函数的拟合精度,其梯度更新可表示为:
用,其占用概率Pbusy为(0,1)之间,信道的信噪比范围为[‑10,10]dB。仿真实验中设定10条
信道的信噪比为SNR=[‑10,‑8,‑9,‑5,‑3,0,4,5,7,10],其对应的占用概率为Pbusy=[0.1,
0.3,0.4,0.3,0.2,0.5,0.3,0.4,0.4,0.9]。神经网络参数为:本地网络和全局网络的演员
与评论家网络结构相同,演员网络为一层隐藏层,神经元个数为200,激活函数为线性整流
函数;输出层直接输出动作选择概率分布。评论家网络也为一层隐藏层,神经元个数为200,
激活函数为线性整流函数;输出层为输出对于状态动作价值的估计。评论家网络的学习率
需大于等于演员网络,本发明设定评论家网络的学习率Lrc=0.001,演员网络的学习率Lra
=0.0001。本发明设定接入成功率为次用户成功接入符合服务质量的空闲信道的概率。
次数几乎相同。但是随着迭代的进行,第10条信道虽然信噪比较高,但是主用户占用频率也
高,因此被选择次数也不断降低。说明经过学习次用户从更长远的角度考虑信道接入,能够
有效避免劣质信道。另外两条符合QoS需求的信道由于其主用户占用频率较小,因此其被选
择次数慢慢增加。同时由于本发明的回报函数设置,在主用户占用概率相差不大的情况下,
次用户就偏向于接入第9条信道,这说明本发明的回报函数设置可以引导次用户做出更好
的决策。
的信噪比与各信道对应的主用户占用概率,按照信噪比与主用户空闲概率的乘积(SNR(1‑
Pbusy))进行序列感知。从图中可以看出全知感知由于其序列感知的特点,总是感知固定信
道,造成其在感知1次的情况下其接入成功率十分依赖第一次的感知信道,而本发明提出的
感知接入算法能够智能选择合适的信道进行接入,而不局限于序列性感知接入。
论家网络评价演员网络信道选择策略的优劣,但是本地网络不更新梯度,而是将梯度收集
起来传递给全局网络,全局网络自身不与环境进行交互,其将各个本地网络收集到的梯度
汇总起来,在自身上进行梯度更新,并且将更新后的网络参数再次传给本地网络。本发明综
合考虑了信道质量和空闲概率,次用户能够有效避免接入劣质信道,大幅提高接入符合服
务质量要求的接入成功率。
的精神和教导范围内。