基于能量采集与深度强化学习的WLAN协议设计与优化方法转让专利

申请号 : CN202010060946.2

文献号 : CN111278161A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨鲲赵毅哲谢安娜胡杰

申请人 : 电子科技大学

摘要 :

本发明公开了一种基于能量采集与深度强化学习的WLAN协议设计与优化方法,包括以下步骤:S1、基于能量采集技术构建WLAN模型场景;S2、根据传统CSMA/CA协议设计基于能量采集的分布式AEH-CSMA/CA协议;S3、针对网络中的智能STA进行基于深度强化学习的优化决策。本发明将能量采集技术与无线通信技术相结合,有效的解决了未来物联网海量设备的能源供应问题,实现绿色网络的愿景。同时基于深度强化学习技术,为网络中的智能STA进行智能的决策,以降低其能量中断概率并且提高数据发送量,使得无线网络更加智能化。

权利要求 :

1.基于能量采集与深度强化学习的WLAN协议设计与优化方法,其特征在于,包括以下步骤:S1、基于能量采集技术构建WLAN模型场景;

S2、根据传统CSMA/CA协议设计基于能量采集的分布式AEH-CSMA/CA协议;

S3、针对网络中的智能STA进行基于深度强化学习的优化决策。

2.根据权利要求1所述的基于能量采集与深度强化学习的WLAN协议设计与优化方法,其特征在于,步骤S1具体实现方法为:假设WLAN场景中包含一个AP与N个STA,每个STA都配置有用于采集周围环境中能量的能量采集模块;在N个STA中,设置有一个具有在自身运行深度强化学习算法功能的智能STA,其余普通STA只能进行协议操作;智能STA能够通过调节自身的退避窗口大小来控制自身的数据发送与能量消耗状态;

AP与所有STA之间的无线信道均为时间相关的;在第l个周期,AP与智能STA之间的信道质量表示为hl,每个周期假设时间长度为T;

设智能STA的电池最大容量为Emax,在第l个周期内,智能STA的能量采集速率为AP端在解调数据信息时候的最低信噪比门限为γth;如果接受信噪比低于此门限,则认为AP端无法正确解调出数据信息;因此,在第l个周期,为了保证数据的正确解调,智能STA的最小数据发送需要消耗的能量为:其中,TPCK为每个数据包的传输时间,σ2则代表噪声方差;智能STA仅仅在自身能量不低于 的时候才会尝试发送数据,每次发送数据消耗 能量;

在第l+1个周期起始时刻,智能STA自身的能量状态表示为:

其中, 表示第l个周期内成功发送的数据包数量,EHl代表第l个周期内的能量采集量,即

3.根据权利要求1所述的基于能量采集与深度强化学习的WLAN协议设计与优化方法,其特征在于,所述步骤S2具体实现方法为:在WLAN中,所有STA同时竞争信道以向AP发送数据包,包括以下子步骤:S21、在最初始时刻,每个STA根据自身当时的退避窗口大小,随机选取一个退避计数器值进行退避;

S22、判断是否有STA退避计数器减为0,若某个STA退避计数器减为0,则其首先检测该STA的能量是否足够,如果能量不足则保持待机状态;如果该STA的能量足够,则向AP发送一个RTS请求帧;对于退避计数器不为0的STA,则返回步骤S21;

S23、判断AP是否收到RTS帧,如果AP没有收到RTS帧,则保持待机;如果AP收到一个RTS帧,则对收到的RTS进行解调,然后向发送RTS帧的STA回复一个CTS帧,该STA在收到CTS帧后便开始准备向AP发送自身的数据包,在发送成功后AP则回复一个ACK确认帧;若AP收到多个RTS帧,则会由于多帧碰撞解调失败,判定为同时存在多个STA尝试发送进而产生了碰撞,则STA将自身的退避窗口翻倍,然后返回步骤S21。

4.根据权利要求1所述的基于能量采集与深度强化学习的WLAN协议设计与优化方法,其特征在于,所有STA在进行退避的同时也在进行能量采集。

5.根据权利要求1所述的基于能量采集与深度强化学习的WLAN协议设计与优化方法,其特征在于,所述步骤S3包括以下子步骤:S31、确定智能STA的等效吞吐量,建立优化模型;

智能STA的等效吞吐量定义为:

其中, 表示在第l个周期内成功发送的数据包数量,DPCK表示每个数据包的长度, 表示在第l个周期内发生能量中断的次数, 表示能量中断门限;该等效吞吐量即为如果在周期内发生能量中断的次数不大于门限,则认为等效吞吐量就是实际吞吐量,如果大于门限则认为等效吞吐量为0;

优化模型表示为:

即最大化总的折扣等效吞吐量,其中γ为折扣因子;

S32、确定智能STA的深度强化学习的状态值与状态空间;通过深度强化学习来优化步骤S31得到的优化模型;其中,在第l个周期时,智能STA的状态值定义为一个三元组Sl={hl,El,EHl-1},即当前周期的无线信道质量hl,当前时刻的能量状态El,以及上一时刻的能量采集量EHl-1;其中三个状态值均为连续;

S33、确定智能STA的深度强化学习的动作值与动作空间;

S34、确定智能STA的深度强化学习的回报函数;在第l+1个周期起始时刻,其相应的回报函数Rl+1为上一周期的等效吞吐量,即Rl+1=Γl;

S35、在能量采集的WLAN中对智能STA进行深度强化学习并决策;智能STA自身维护两个深度神经网络,分别为动作网络与目标网络,目标网络负责对系统回报进行估计,动作网络则负责选取一定的动作值;

在第l个周期起始,智能STA首先输入自身当前状态Sl至动作网络,动作网络输出每个动作的预期回报值,智能STA选取预期回报值最大的动作;然后智能STA开始在第l个周期退避并且发送数据;在该周期结束后,得到相应的数据包发送量以及能量中断次数,求得该周期的等效吞吐量也即下一周期的回报函数;然后智能STA将本周期状态-动作-回报-下一周期状态组Sl,Al,Rl+1,Sl+1存入记忆缓存;从缓存中选取一定mini-batch的数据进行神经网络学习,进而更新动作网络与目标网络的参数。

说明书 :

基于能量采集与深度强化学习的WLAN协议设计与优化方法

技术领域

[0001] 本发明属于无线通信网络技术领域,特别设计一种基于能量采集与深度强化学习的WLAN协议设计与优化方法。

背景技术

[0002] 随着无线通信技术的飞速发展,越来越多的网络设备正在逐渐加入到这个万物互联的网络,为了更好的感知周围环境并且为提高通信质量做出相应的决策(如资源分配等),海量的微型传感器也分布在随处可见的空间内。由于设备数量巨大,因此除了保证其通信需求外,如何为其进行持续的能量供应也就成为了一个比较严峻的问题。如果通过人为的更换电池或者有源充电,由于消耗的人力成本与设备数量呈指数增长的关系,因此是及其得不偿失的。因此,就需要采用一种其他的便捷式充电技术,也就是为所有的低功耗设备配置能量采集模块,以帮助它们随时的采集周围环境中的能量。周围环境的能量采集技术主要针对于太阳能、风能、热能等可持续发展能源,通过持续的采集周围环境的能量,低功耗设备可以实现无源工作的愿景。但是,由于周围环境能量具有一定的不确定性,例如晚上就没有了太阳无法采集太阳能,因此这些设备的工作也深受周围环境的影响。为了有效的提高网络的通信性能,就需要更加智能的对周围环境进行一定的感知,进而进行一定的决策。
[0003] 近年来,人工智能技术正炙手可热。其凭借可以使得机器设备等像人类一样比较智能的感知与学习环境并且做出一定的反馈的特性,目前已经被各大领域加以应用。在通信领域,人工智能技术也被应用于各个通信层。例如,物理层可以采用深度学习进行智能的调制与编码,MAC层可以依据强化学习进行一定的资源分配,而网络层则可以智能的帮助各个设备寻找最优路由。通信与机器学习的结合,正在使得网络更加智能化。
[0004] 对于拥有众多低功耗传感器的家庭网络,由于设备数量较多,因此采用分布式的竞争协议则相对更为适合。为了实现绿色节能通信,各个设备也配置能量采集模块从周围环境采集能量来为自身的数据发送供能。但是,各个设备的能量状态不同,也会影响到自身的数据发送状态。如果用户能量较多,则有可能更为频繁的尝试发送,因此导致不必要的数据碰撞,也会极大的提高能量中断概率。由于周围环境感知的复杂性,因此如果使用传统的建模方法则会较为困难。因此,我们可以借助于人工智能,采用深度强化学习的方式替节点感知周围环境信息,进而做出合理的决策。

发明内容

[0005] 本发明的目的在于克服现有技术物联网海量设备的能量供应不足的问题,提供一种将能量采集技术与无线通信技术相结合,同时基于深度强化学习技术,为网络中的智能STA进行智能的决策,以降低其能量中断概率并且提高数据发送量,使得无线网络更加智能化的基于能量采集与深度强化学习的WLAN协议设计与优化方法。
[0006] 本发明的目的是通过以下技术方案来实现的:基于能量采集与深度强化学习的WLAN协议设计与优化方法,包括以下步骤:
[0007] S1、基于能量采集技术构建WLAN模型场景;
[0008] S2、根据传统CSMA/CA协议设计基于能量采集的分布式AEH-CSMA/CA协议;
[0009] S3、针对网络中的智能STA进行基于深度强化学习的优化决策。
[0010] 进一步地,步骤S1具体实现方法为:假设WLAN场景中包含一个AP与N个STA,每个STA都配置有用于采集周围环境中能量的能量采集模块;在N个STA中,设置有一个具有在自身运行深度强化学习算法功能的智能STA,其余普通STA只能进行协议操作;智能STA能够通过调节自身的退避窗口大小来控制自身的数据发送与能量消耗状态;
[0011] AP与所有STA之间的无线信道均为时间相关的;在第l个周期,AP与智能STA之间的信道质量表示为hl,每个周期假设时间长度为T;
[0012] 设智能STA的电池最大容量为Emax,在第l个周期内,智能STA的能量采集速率为AP端在解调数据信息时候的最低信噪比门限为γth;如果接受信噪比低于此门限,则认为AP端无法正确解调出数据信息;因此,在第l个周期,为了保证数据的正确解调,智能STA的最小数据发送需要消耗的能量为:
[0013]
[0014] 其中,TPCK为每个数据包的传输时间,σ2则代表噪声方差;智能STA仅仅在自身能量不低于 的时候才会尝试发送数据,每次发送数据消耗 能量;
[0015] 在第l+1个周期起始时刻,智能STA自身的能量状态表示为:
[0016]
[0017] 其中, 表示第l个周期内成功发送的数据包数量,EHl代表第l个周期内的能量采集量,即
[0018] 进一步地,所述步骤S2具体实现方法为:在WLAN中,所有STA同时竞争信道以向AP发送数据包,包括以下子步骤:
[0019] S21、在最初始时刻,每个STA根据自身当时的退避窗口大小,随机选取一个退避计数器值进行退避;
[0020] S22、判断是否有STA退避计数器减为0,若某个STA退避计数器减为0,则其首先检测该STA的能量是否足够,如果能量不足则保持待机状态;如果该STA的能量足够,则向AP发送一个RTS请求帧;对于退避计数器不为0的STA,则返回步骤S21;
[0021] S23、判断AP是否收到RTS帧,如果AP没有收到RTS帧,则保持待机;如果AP收到一个RTS帧,则对收到的RTS进行解调,然后向发送RTS帧的STA回复一个CTS帧,该STA在收到CTS帧后便开始准备向AP发送自身的数据包,在发送成功后AP则回复一个ACK确认帧;若AP收到多个RTS帧,则会由于多帧碰撞解调失败,判定为同时存在多个STA尝试发送进而产生了碰撞,则STA将自身的退避窗口翻倍,然后返回步骤S21。
[0022] 进一步地,所有STA在进行退避的同时也在进行能量采集。
[0023] 进一步地,所述步骤S3包括以下子步骤:
[0024] S31、确定智能STA的等效吞吐量,建立优化模型;
[0025] 智能STA的等效吞吐量定义为:
[0026]
[0027] 其中, 表示在第l个周期内成功发送的数据包数量,DPCK表示每个数据包的长度,表示在第l个周期内发生能量中断的次数, 表示能量中断门限;该等效吞吐量即为如果在周期内发生能量中断的次数不大于门限,则认为等效吞吐量就是实际吞吐量,如果大于门限则认为等效吞吐量为0;
[0028] 优化模型表示为:
[0029]
[0030] 即最大化总的折扣等效吞吐量,其中γ为折扣因子;
[0031] S32、确定智能STA的深度强化学习的状态值与状态空间;通过深度强化学习来优化步骤S31得到的优化模型;其中,在第l个周期时,智能STA的状态值定义为一个三元组Sl={hl,El,EHl-1},即当前周期的无线信道质量hl,当前时刻的能量状态El,以及上一时刻的能量采集量EHl-1;其中三个状态值均为连续;
[0032] S33、确定智能STA的深度强化学习的动作值与动作空间;在第l个周期时,智能STA在周期起始时刻可以采取的动作即为选取第l个周期的退避窗口大小,动作空间记为[0033] S34、确定智能STA的深度强化学习的回报函数;在第l+1个周期起始时刻,其相应的回报函数Rl+1为上一周期的等效吞吐量,即Rl+1=Γl;
[0034] S35、在能量采集的WLAN中对智能STA进行深度强化学习并决策;智能STA自身维护两个深度神经网络,分别为动作网络与目标网络,目标网络负责对系统回报进行估计,动作网络则负责选取一定的动作值;
[0035] 在第l个周期起始,智能STA首先输入自身当前状态Sl至动作网络,动作网络输出每个动作的预期回报值,智能STA选取预期回报值最大的动作;然后智能STA开始在第l个周期退避并且发送数据;在该周期结束后,得到相应的数据包发送量以及能量中断次数,求得该周期的等效吞吐量也即下一周期的回报函数;然后智能STA将本周期状态-动作-回报-下一周期状态组Sl,Al,Rl+1,Sl+1存入记忆缓存;从缓存中选取一定mini-batch的数据进行神经网络学习,进而更新动作网络与目标网络的参数。
[0036] 本发明的有益效果是:本发明将能量采集技术与无线通信技术相结合,有效的解决了未来物联网海量设备的能源供应问题,实现绿色网络的愿景。同时基于深度强化学习技术,为网络中的智能STA进行智能的决策,以降低其能量中断概率并且提高数据发送量,使得无线网络更加智能化。

附图说明

[0037] 图1为本发明的基于能量采集与深度强化学习的WLAN协议设计与优化方法的流程图;
[0038] 图2为本发明的WLAN场景示意图;
[0039] 图3为本发明的AEH-CSMA/CA协议流程图;
[0040] 图4为本发明的深度强化学习算法框架图。

具体实施方式

[0041] 在介绍本发明提供的方案之前,首先对本发明中出现的一些名词的释义进行说明:
[0042] WLAN:无线局域网。
[0043] AP:中心接入点。
[0044] STA:用户设备节点。
[0045] CSMA/CA:载波侦听多址/碰撞避免。
[0046] AEH-CSMA/CA:基于周围环境能量采集技术的CSMA/CA。
[0047] RTS:请求发送帧,用于向目的节点告知自己将要向其发送数据包。
[0048] CTS:确定发送帧,用于目的节点向源节点告知其可以发送数据包。
[0049] ACK:确认帧,用于目的节点向源节点告知数据包以成功接收。
[0050] 下面结合附图进一步说明本发明的技术方案。
[0051] 如图1所示,本发明的一种基于能量采集与深度强化学习的WLAN协议设计与优化方法,包括以下步骤:
[0052] S1、基于能量采集技术构建WLAN模型场景;具体实现方法为:假设WLAN场景中包含一个AP与N个STA,如图2所示。每个STA都配置有用于采集周围环境中能量的能量采集模块,其可以持续的从周围环境中采集相应的能量(如太阳能),进而将自身采集到的能量用于数据信息的发送;在N个STA中,设置有一个具有在自身运行深度强化学习算法功能的智能STA,其余普通STA只能进行协议操作;智能STA能够通过调节自身的退避窗口大小来控制自身的数据发送与能量消耗状态;
[0053] AP与所有STA之间的无线信道均为时间相关的,为了更加实际化,每个STA与AP之间的信道假设为时变信道,即此时刻的信道质量与之前若干个周期的信道质量相关;在第l个周期,AP与智能STA之间的信道质量表示为hl,每个周期假设时间长度为T;由于时间相关性,我们假设信道质量hl与之前周期的信道质量hl-1,hl-2,…,hl-Δl相关,其中Δl表示信道相关周期数。
[0054] 设智能STA的电池最大容量为Emax,在第l个周期内,智能STA的能量采集速率为(单位为J/s);与无线信道相似,智能STA的能量采集过程也是时间相关的,即 也与之前的若干个周期相关。
[0055] 为了能够正确恢复STA的数据包,AP端在解调数据信息的时候需要一个最低的信噪比门限,记为γth。如果接受信噪比低于此门限,则认为AP端无法正确解调出数据信息;因此,在第l个周期,为了保证数据的正确解调,智能STA的最小数据发送需要消耗的能量为:
[0056]
[0057] 其中,TPCK为每个数据包的传输时间,σ2则代表噪声方差;智能STA仅仅在自身能量不低于 的时候才会尝试发送数据;为了节省能量,假设每次发送数据消耗 能量;
[0058] 在第l+1个周期起始时刻,智能STA自身的能量状态表示为:
[0059]
[0060] 其中, 表示第l个周期内成功发送的数据包数量,EHl代表第l个周期内的能量采集量,即
[0061] S2、根据传统CSMA/CA协议设计基于能量采集的分布式AEH-CSMA/CA协议;具体实现方法为:在WLAN中,所有STA同时竞争信道以向AP发送数据包,包括以下子步骤:
[0062] S21、在最初始时刻,每个STA根据自身当时的退避窗口大小,随机选取一个退避计数器值进行退避;
[0063] S22、判断是否有STA退避计数器减为0,若某个STA退避计数器减为0,则其首先检测该STA的能量是否足够,如果能量不足则保持待机状态直至自身能量充足;如果该STA的能量足够,则向AP发送一个RTS请求帧;对于退避计数器不为0的STA,则返回步骤S21;
[0064] S23、判断AP是否收到RTS帧,如果AP没有收到RTS帧,则保持待机;如果AP收到一个RTS帧,则对收到的RTS进行解调,然后向发送RTS帧的STA回复一个CTS帧,该STA在收到CTS帧后便开始准备向AP发送自身的数据包,在发送成功后AP则回复一个ACK确认帧;若AP收到多个RTS帧,则会由于多帧碰撞解调失败,判定为同时存在多个STA尝试发送进而产生了碰撞,则STA将自身的退避窗口翻倍,然后返回步骤S21。AEH-CSMA/CA协议的运行流程图如图3所示。
[0065] S3、针对网络中的智能STA进行基于深度强化学习的优化决策;包括以下子步骤:
[0066] S31、确定智能STA的等效吞吐量,建立优化模型;本发明目的是通过控制退避窗口大小,提高智能STA的数据发送量,同时降低其能量中断概率。当退避窗口相对较大时,智能STA更趋于选择较大的退避计数值,因此在每次发送前都会等待较多的时长,使得数据发送量降低,但是由于尝试发送的次数变少,使得该节点更加不容易耗尽能量,从而降低相应的能量中断概率。由此可见,数据发送量与能量中断概率是一个矛盾的关系,在提升其中一个性能的同时,必然会降低另外一个性能。因此需要合理的折中二者之间的关系。
[0067] 为了联合数据发送量与能量中断概率性能,定义智能STA的等效吞吐量定义为:
[0068]
[0069] 其中, 表示在第l个周期内成功发送的数据包数量,DPCK表示每个数据包的长度,表示在第l个周期内发生能量中断的次数, 表示能量中断门限;该等效吞吐量即为如果在周期内发生能量中断的次数不大于门限,则认为等效吞吐量就是实际吞吐量,如果大于门限则认为等效吞吐量为0;
[0070] 使用等效吞吐量即可以在保证能量中断概率的前提下提高数据发送量。进而得到优化模型表示为:
[0071]
[0072] 即最大化总的折扣等效吞吐量,其中γ为折扣因子;
[0073] S32、确定智能STA的深度强化学习的状态值与状态空间;通过深度强化学习来优化步骤S31得到的优化模型;其中,在第l个周期时,智能STA的状态值定义为一个三元组Sl={hl,El,EHl-1},即当前周期的无线信道质量hl,当前时刻的能量状态El,以及上一时刻的能量采集量EHl-1;其中三个状态值均为连续;
[0074] S33、确定智能STA的深度强化学习的动作值与动作空间;在第l个周期时,智能STA在周期起始时刻可以采取的动作即为选取第l个周期的退避窗口大小,动作空间记为[0075] S34、确定智能STA的深度强化学习的回报函数;在第l+1个周期起始时刻,其相应的回报函数Rl+1为上一周期的等效吞吐量,即Rl+1=Γl;
[0076] S35、在能量采集的WLAN中对智能STA进行深度强化学习并决策;智能STA自身维护两个深度神经网络,分别为动作网络与目标网络,目标网络负责对系统回报进行估计,动作网络则负责选取一定的动作值;
[0077] 在第l个周期起始,智能STA首先输入自身当前状态Sl至动作网络θ,动作网络θ输出每个动作的预期回报值 智能STA选取预期回报值最大的动作;然后智能STA开始在第l个周期退避并且发送数据;在该周期结束后,得到相应的数据包发送量以及能量中断次数,求得该周期的等效吞吐量也即下一周期的回报函数;然后智能STA将本周期状态-动作-回报-下一周期状态组Sl,Al,Rl+1,Sl+1存入记忆缓存;从缓存中选取一定mini-batch的数据进行神经网络学习,进而更新动作网络与目标网络的参数。智能STA的深度强化学习流程如图4所示。本实施方案中的动作网络与目标网络均为深度为4的神经网络,输入层神经元个数为Sl={hl,El,EHl-1}状态空间的状态数量,即3;中间两层的神经元个数为8;输出层的神经元个数为 动作空间的动作数量,即为5。假设第k(1≤k≤4)层神经网络的输出表示为yk,第一层神经网络y1为输入层,第四层神经网络y4为输出层。yk(2≤k≤4)的具体值可以通过以下求得:
[0078] yk=wk-1,kyk-1+bk
[0079] 其中,wk-1,k为第k-1层与第k层之间的权重因子矩阵,bk为第k层的贝叶斯参数。通过梯度下降法来对神经网络的两个重要参数wk-1,k与bk进行优化,最终可以得到一个最优的参数。
[0080] 表示目标网络根据当前回报 以及下一步状态 预估的累积衰-
减回报值,其中 表示在状态 下采取动作a时的未来累积衰减回报值,θ即为目标网络的参数wk-1,k与bk的统称。
[0081] 所有STA在进行退避的同时也在进行能量采集,因此,如果某个STA此时能量不足,其在经过一段时间后能量便可以充满进而尝试发送自身的数据包。
[0082] 本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。