一种工作在eLAA中的基于强化学习的帧配置方法转让专利

申请号 : CN202010584205.4

文献号 : CN111800876A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 裴二荣荆玉琪周礼能张茹王振民朱冰冰杨光财

申请人 : 重庆邮电大学

摘要 :

本发明涉及一种工作在eLAA中的基于强化学习的帧配置方法,属于无线通信领域。括以下步骤:S1:基站作为智能体学习环境中的可能出现的各种情况;S2:智能体获取自身eUES的上下行数据需求,在能量检测区域内的eUES及其eBS上下行数据需求,同时探测AP节点平均传输时间等信息;S3:根据当前信息在学习结果中找到最优方案的,智能体根据方案配置自身帧结构;S4:智能体根据选择的结果完成帧配置过程。本发明通过配置各用户的传输时间,能够有效提高WiFi在免授权频段接入信道成功的概率,减少冲突,同时又能保证信道内用户的公平性,最终提高信道的吞吐量。

权利要求 :

1.一种工作在eLAA中的基于强化学习的帧配置方法,其特征在于:具体步骤如下:

S1:基站作为智能体学习环境中的可能出现的各种情况并记录学习结果;

S2:智能体获取自身eUES的上下行数据需求,在能量检测区域内的eUES及其eBS上下行数据需求,同时探测AP节点平均传输时间等信息;

S3:根据当前信息在学习结果中找到最优方案的帧配置;

S4:智能体根据选择的结果完成帧配置过程。

2.根据权利要求1所述的工作在eLAA中的基于强化学习的帧配置方法,其特征在于:在步骤S1中,基站作为智能体,记为eBS1,处于能量检测阈值(Energy Detection Threshold)区域内,该区域内还有一个AP节点和若干个不属于智能体基站的eUES,记为eUEi,记其中一个eUE为eUE2。这些eUEi属于同一个基站eBS2,eBS2不处于EDT区域内。假设智能体eBS1有10个eUES用户,都不处于EDT区域内,记其中一个eUE为eUE1。EDT区域内同一时间只能有一个用户发送数据,否则会产生冲突。假设AP要传输数据,处于EDT检测区域内的eUE和eBS也有传输需求,但若eBS2与eUE2选择下行(DL)传输,eBS1与eUE1选择上行(UL)传输,则三者可同时接入信道。因此智能体eBS1通过强化学习来实现帧的配置有一定的可行性。eBS1在进行学习之前要获取周边环境信息,eBS1通过X2-interface确认它们当前邻近的eUES和eBS,eUES之间可以通过被动感知探测到其它eUES,同样的,eBS和eUE可以使用被动感知探测当前的WiFi节点。然后对可能出现的情况简化概括分类,设置吞吐时间,公平性,时延,损耗等指标进行强化学习,并将学习的结果保存记录下来。

3.根据权利要求2所述的工作在eLAA中的基于强化学习的帧配置方法,其特征在于:在步骤S2中,当EDT区域内的用户获得传输机会时,eBS1通过X2-interface探测其当前临近的eBS并相互传递消息,以此确定临近eUES的上下行传输需求;eUES之间通过被动感知探测与其相近的eUES有哪些及是否在EDT检测区域内,同时将消息传递给eBS;eBSS和eUES通过被动感知探测WiFi节点信息,eBS1同时探测信道内WiFi平均传输时间。

4.根据权利要求3所述的工作在eLAA中的基于强化学习的帧配置方法,其特征在于:在步骤S3中,当有传输任务时,eBS1通过收集到的EDT区域内的用户及关联用户的需求,再对比训练得到的结果,找到当前状态下的最优帧配置方式。

5.根据权利要求4所述的工作在eLAA中的基于强化学习的帧配置方法,其特征在于:在步骤S4中,根据最优结果配置当前基站eBS1及其eUES的上下行帧。

说明书 :

一种工作在eLAA中的基于强化学习的帧配置方法

技术领域

[0001] 本发明属于无线通信领域,涉及一种工作在eLAA中的基于强化学习的帧配置方法背景技术
[0002] LAA利用LTE载波聚合技术将授权频段与5GHz免授权频段进行载波聚合。 Release 13仅仅介绍了下行链路LAA操作的规范,而上行链路LAA规范则是Release 14中eLAA的一部分。RAN#70次会议上将LAA技术的侧重放到了TDD 即非授权频段上下行共存的讨论上来,更名为eLAA。eLAA技术是将LTEeNB 部署于5GHz非授权频段以增加可用通信带宽,有助于缓解授权频段的频谱压力,在保障非授权频段已有设备通信质量的前提下,充分利用非授权频段丰富资源,为移动终端带来更佳的用户体验,提高整个LTE系统的通信性能。
[0003] LTE-TDD模式中,每一个无线帧的长度共计10ms,由10个1ms的子帧组成。eLAA使用新的Type3结构,该结构除第一个子帧为下行(DL)帧以外,其它位置的子帧可任意组合,不再局限于传统LTE中的七种固定配置。
[0004] Qlearning是强化学习算法中value-based的算法,已被广泛用于求解未知环境下的优化问题。Q(s,a)就是在某一时刻的s状态下(s∈S),采取动作a(a∈A) 动作能够获得收益的期望,环境会根据智能体的动作反馈相应的回报,所以算法的主要思想就是将状态与动作构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。
[0005] Qlearning包括智能体(Agent)、环境状态(environment)、奖励(reward)、动作(action)四个部分,可以将问题抽象成一个马尔科夫决策过程(MDP),该过程包括有限,离散的环境状态的集合S={s1,s2,s3,…,sn},有限,离散的学习者动作的集合A={a1,a2,a3,...,an},学习者的策略π:S→A和标量的成本反馈信号r等基本要素。通过与环境不断的交互学习,学习者积累经验,形成一套动作选择策略。在每一轮的学习中,学习者根据当前环境状态st∈S。在已有策略π中选择ai∈A;动作完成后环境状态变为st+1∈S,同时学习者接收到环境产生的反馈信号rt(st,at);学习者根据反馈信号判断是否合理并更新策略,进入下一轮学习。
[0006] Q-table的更新过程如下,其中α为学习率,γ为奖励性衰变系数,采用时间差分法的方法进行更新。
[0007] Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)
[0008] 上式就是Q-learning更新的公式,根据下一个状态s′中选取最大的Q(s′,a′) 值乘以衰变γ加上真实回报值为Q现实值,而根据过往Q表里面的Q(s,a)作为Q 估计。Q表经过*多次的更新收敛到最优策略ω,表示为:
[0009] ω*=arg minaQ(st,at)

发明内容

[0010] 有鉴于此,本发明提供了一种工作在eLAA中的基于强化学习的帧配置方法,该方法通过提前对环境了解,学习各种状态下的最佳配置,达到针对性的对不同环境动态配置帧的目的,为基站提供了一种在复杂多变环境下实现最佳帧配置的方法。
[0011] 为达到上述目的,本发明提供如下技术方案:
[0012] eLAA中基于强化学习帧配置的方法,包括以下步骤:
[0013] S1:基站作为智能体学习环境中的可能出现的各种情况并记录学习结果;
[0014] S2:智能体获取自身eUES的上下行数据需求,在能量检测区域内的eUES及其eBS上下行数据需求,同时探测AP节点平均传输时间等信息;
[0015] S3:根据当前信息在学习结果中找到最优方案的帧配置;
[0016] S4:智能体根据选择的结果完成帧配置过程。
[0017] 进一步,在步骤S1中,基站作为智能体,记为eBS1,处于能量检测阈值 (EnergyDetectionThreshold)区域内,该区域内还有一个AP节点和若干个不属于智能体基站的eUES,记为eUEi,记其中一个eUE为eUE2。这些eUEi属于同一个基站eBS2,eBS2不处于EDT区域内。假设智能体eBS1有10个eUES用户,都不处于EDT区域内,记其中一个eUE为eUE1。EDT区域内同一时间只能有一个用户发送数据,否则会产生冲突。假设AP要传输数据,处于EDT检测区域内的eUE和eBS也有传输需求,但若eBS2与eUE2选择下行(DL)传输,eBS1与eUE1选择上行(UL)传输,则三者可同时接入信道。因此智能体eBS1通过强化学习来实现帧的配置有一定的可行性。eBS1在进行学习之前要获取周边环境信息,eBS1通过X2-interface确认它们当前邻近的eUES和eBS,eUES之间可以通过被动感知探测到其它eUES,同样的,eBS和eUE可以使用被动感知探测当前的WiFi节点。然后对可能出现的情况简化概括分类,设置吞吐时间,公平性,时延,损耗等指标进行强化学习,并将学习的结果保存记录下来。
[0018] 反馈函数如下:
[0019] R(s,a)=U(s,a)-C(s,a)
[0020] 其中U(s,a)为效用函数:
[0021] U(s,a)=ω1β+ω2Γ+ω3N,Γ为公平性,ωi为系数,β为总吞吐时间,N 为智能体基站配置的下行帧的数目。
[0022] C(s,a)为折扣函数:
[0023] 其中θ为WiFi未能成功传输的部分,D为时延。
[0024] 进一步,在步骤S2中,当EDT区域内的用户获得传输机会时,eBS1通过 X2-interface探测其当前临近的eBS并相互传递消息,以此确定临近eUES的上下行传输需求;eUES之间通过被动感知探测与其相近的eUES有哪些及是否在EDT 检测区域内,同时将消息传递给eBS;eBSS和eUES通过被动感知探测WiFi节点信息,eBS1同时探测信道内WiFi平均传输时间。
[0025] 进一步,在步骤S3中,当有传输任务时,eBS1通过收集到的EDT区域内的用户及关联用户的需求,再对比训练得到的结果,找到当前状态下的最优帧配置方式。
[0026] 进一步,在步骤S4中,根据最优结果配置当前基站eBS1及其eUES的上下行帧。
[0027] 本发明的有益效果在于:本发明与其它帧配置的算法相比,本发明中的帧配置能在保证WiFi吞吐时间与自身上下行吞吐时间时找到动态平衡,可尽量保持参与用户的公平性。智能体基站eBS1首先对环境进行学习,环境配置如图1所示。实现一定量的迭代次数后趋于稳定,实现收敛。获得传输时间后,再由eBS1根据当前环境在训练好的Q表中寻找最佳帧配置方案,并根据方案配置上下行帧。

附图说明

[0028] 为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
[0029] 图1为本发明实施例的流程示意图;
[0030] 图2为基于强化学习帧配置的方法模型图;

具体实施方式

[0031] 下面将结合附图,对本发明的优选实施例进行详细的描述。
[0032] 本发明针对eLAA中帧的上下行配置问题,提出一种工作在eLAA中的基于强化学习的帧配置方法,该方法通过提前对环境了解,学习各种状态下的最佳配置,达到针对性的对不同环境动态配置帧的目的,为基站提供了一种在复杂多变环境下实现最佳帧配置的方法。与传统帧配置相比,本发明提出的算法可随着 eBS2和WiFi传输时间需求的变化而变化。基于强化学习帧配置的网络模型如图 2所示。
[0033] 本发明基于算法过程如图1所示。首先,基站作为智能体学习环境中的可能出现的各种情况并记录学习结果;然后智能体获取自身eUES的上下行数据需求以及在能量检测区域内的eUES及其eBS上下行数据需求,同时探测AP节点平均传输时间等信息;基站eBS1根据当前信息在学习结果中找到最优方案的帧配置;最后智能体根据选择的结果完成帧配置过程。
[0034] 如图1所示,基于强化学习的帧配置算法,该方法包括以下步骤:
[0035] S1:基站作为智能体学习环境中的可能出现的各种情况并记录学习结果;
[0036] S2:智能体获取自身eUES的上下行数据需求,在能量检测区域内的eUES及其eBS上下行数据需求,同时探测信道内AP节点传平均传输时间等信息;
[0037] S3:根据当前信息在学习结果中找到最优方案的帧配置;
[0038] S4:智能体根据选择的结果完成帧配置过程。
[0039] 当EDT区域内的用户获得传输机会时,eBS1通过X2-interface探测其当前临近的eBS并相互传递消息,以此确定临近eUES的上下行传输需求;eUES之间通过被动感知探测与其相近的eUES有哪些及是否在EDT检测区域内,同时将消息传递给eBS;eBSS和eUES通过被动感知探测WiFi节点信息,eBS1同时探测信道内WiFi平均传输时间。
[0040] eBS1通过收集到的EDT区域内的用户及关联用户的需求,再对比训练得到的结果,找到当前状态下的最优帧配置方式。根据最优结果配置当前基站eBS1及其eUES的上下行帧。
[0041] 本发明的有益效果在于:本发明与其它帧配置的算法相比,本发明中的帧配置能在保证WiFi吞吐时间与自身上下行吞吐时间时找到动态平衡,可尽量保持参与用户的公平性。智能体基站eBS1首先对环境进行学习,环境配置如图1所示。实现一定量的迭代次数后趋于稳定,实现收敛。获得传输时间后,再由eBS1根据当前环境在训练好的Q表中寻找最佳帧配置方案,并根据方案配置上下行帧。
[0042] 最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。