一种适用于双向中继通信网络源节点的随机能量调度方法转让专利

申请号 : CN201811069591.2

文献号 : CN109195216B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李巍梁中华

申请人 : 长安大学

摘要 :

本发明公开了一种适用于双向中继通信网络源节点的随机能量调度方法,包括以下步骤:1)基于随机EH模型建立随机EH TWR通信网络模型;2)建立随机EH TWR网络的MDP模型,再根据随机EH TWR网络的MDP模型求解随机EH TWR网络的最优能量调度策略;3)基于随机EH TWR网络的最优能量调度策略建立EH TWR网络的最优动态功率分配表;4)估计随机EH TWR网络状态,并利用EH TWR网络的最优动态功率分配表通过查表法动态确定源节点的最优发射功率,该方法能够有效解决随机EH TWR网络中源节点的最优能量调度及动态功率分配问题。

权利要求 :

1.一种适用于双向中继通信网络源节点的随机能量调度方法,其特征在于,包括以下步骤:

1)基于随机EH模型建立随机EH TWR通信网络模型;

2)建立随机EH TWR网络的MDP模型,再根据随机EH TWR网络的MDP模型求解随机EH TWR网络的最优能量调度策略;

3)基于随机EH TWR网络的最优能量调度策略建立EH TWR网络的最优动态功率分配表;

4)估计随机EH TWR网络状态,并利用EH TWR网络的最优动态功率分配表通过查表法动态确定源节点的最优发射功率,再根据源节点的最优发射功率完成源节点的随机能量调度;

步骤1)的具体操作为:

TWR无线通信网络包含源节点S1、源节点S2及中继节点R,且源节点S1、源节点S2以及中继节点R均配置一根天线,且使用半双工通信方式,其中,中继节点R由固定电源供电,且中继节点R采用译码转发协议协助源节点A及源节点B进行双向信息交互,源节点A及源节点B分别安装有面积相等的太阳能接收面板及容量相同的电池;

使用随机EH模型对太阳能EH状况进行建模,该随机EH模型为具有Ne=4个状态的混合高斯隐马尔可夫链,SH表示太阳能EH状态,aij表示不同状态之间的转移概率;

在随机EH TWR通信网络中,源节点S1和源节点S2均使用先收集-再存储-后使用的能量管理模型,在该能量管理模型中以EU为基本能量单元,并以时间TM为能量管理周期,在当前能量管理周期中,EH源节点收集太阳能,并以EU进行量化后存储在电池中,以供在后续的能量管理周期中使用,源节点的能量收集存储模块和无线传输模块相对独立,能够在同一能量管理周期TM中同时进行能量收集存储及无线发送,并且当电池处于充满电状态时,太阳能接收面板收集到的太阳能将会被丢弃;

随机EH TWR通信网络采用双向中继协议及放大转发协议实现源节点S1和源节点S2之间的信息交互,其中,整个信息交互过程分为MA阶段及在BC阶段,其中,在MA阶段,两个源节点同时向中继节点R发送各自的信号;在BC阶段,中继节点R对接收到的信号使用DF协议转发给两个源节点,S1-R链路和S2-R链路的可达速率小于等于MA阶段和BC阶段互信息的最小值,同时,中继节点R需要对接收到的混叠信号进行译码,所以S1-R链路和S2-R链路的可达速率之和不能大于中继节点R在MA阶段接收到的互信息,当上述关系不满足时,TWR网络就会出现信息传输中断,则TWR网络的信息中断事件可定义为:其中,P1、P2及PR分别表示源节点S1、源节点S2及中继节点R的发射功率;γ1及γ2分别表示链路S1-R及链路S2-R的信道增益;N0表示接收机的加性白高斯噪声平均功率,Rth1及Rth2分别表示源节点S1及源节点S2的目标速率,由式(1)、式(2)及式(3)可知,当任一中断事件发生时,TWR网络就会发生信息中断,则TWR网络的中断概率为步骤2)的具体操作为:

中继节点R采用固定电源供电,在信息传输过程中发射功率固定,源节点S1和源节点S2均为EH通信节点,源节点S1和源节点S2的发射功率与随机太阳能EH状态、电池电量及无线信道衰落情况相关,因此采用马尔科夫决策过程对EH TWR网络进行建模,以求解源节点S1和源节点S2的能量调度策略,使得EH TWR网络的长期平均中断概率性能最优,其中随机EH TWR网络的MDP模型包括行动空间、系统状态空间、系统状态转移概率及收益函数;

步骤3)中,网络最优动态功率分配表用于表示网络状态 与EH

源节点最优功率行动 之间的对应关系。

2.根据权利要求1所述的适用于双向中继通信网络源节点的随机能量调度方法,其特征在于,设集合 表示源节点S1和源节点S2的二维行动空间,其中×表示笛卡尔积,集合 表示源节点Si的行动子空间,用于定义该源节点Si的发射功率集合,在能量管理周期TM中,当EH TWR网络的行动

时,源节点S1和源节点S2的发射功率在该能量管理周期TM中分别为P1=a1PU及P2=a2PU,其中,PU表示EH节点的基本发射功率,PU与基本能量单元EU的关系可以表示为则EU可以看作EH节点在TM中以基本发射功率PU发送信号所需的能量。

3.根据权利要求1所述的适用于双向中继通信网络源节点的随机能量调度方法,其特征在于,设集合 表示四维状态空间,其中,集合εH={0,1,…,Ne-1}表示太阳能EH状态子空间,集合 表示无线链路S1-R和S2-R的

信道衰落状态子空间,集合 表示源节点S1和源节点S2的电池状态

子空间,则在一个MDP决策周期TM中,该EH  TWR网络的系统状态可以定义为其中,SH表示太阳能EH状态,Ci表示链路Si-R的信道衰落状态,Bi代表源节点Si的电池状态;

在EH TWR网络中通过具有Ne=4个状态的混合高斯隐马尔可夫链描述太阳能EH状态,当太阳能EH状态SH=e∈εH时,EH源节点在单位面积太阳能面板上收集到的太阳能功率为Ph,Ph服从高斯分布 因此,EH节点在一个MDP决策周期TM中收集到的能量为Eh=PhTMΩη,其中,Ω表示太阳能电池面板面积,η表示能量转换效率;由于在能量收集、存储和使用过程中以EU作为基本能量单元,EH源节点在太阳能EH状态e下收集到的基本能量单元数量Q的概率表示为P(Q=q|SH=e),q∈{0,1,...,∞},P代表EH源节点的太阳能收集能力,另外,不同太阳能EH状态之间的转移概率表示为P(SH=e′|SH=e),e,e′∈εH;

EH源节点的电池状态表示该EH源节点所配置电池中的可用电量,两个EH源节点的电池容量以EU为单位被均匀划分为Nb个等级;当源节点Si的电池状态为 时,该电池中的可用电量为biEU,源节点Si的电池状态从当前状态bi转移到下一状态b′i的转移关系可以表示为b′i=min(bi-ai+qi,Nb-1)             (5)

其中,ai表示源节点Si在当前决策周期中的功率行动,qi表示源节点Si在当前决策周期中收集到的基本能量单元EU的数量,则当源节点Si的功率行动为ai时,电池状态转移概率在太阳能EH状态e下可以表示为:其中,第一项表示电池状态未满,第二项代表电池状态已满;

在EH TWR网络中使用具有Nc个状态的马尔可夫链对无线链路S1-R及S2-R进行建模,两个无线链路的瞬时信道增益γ1及γ2被Nc-1个阈值 量化成Nc个区间,当信道衰落状态为 时,相应的信道增益区间为[Γh,Γh+1)。

4.根据权利要求1所述的适用于双向中继通信网络源节点的随机能量调度方法,其特征在于,由于无线信道衰落状态与太阳能EH状态及电池状态相互独立,则当两个EH源节点的 功率行动 时 ,系统状态从 转移到的转移概率为

其中,P(h′|h)及P(g′|g)分别表示无线信道S1-R和S2-R的状态转移概率。

5.根据权利要求1所述的适用于双向中继通信网络源节点的随机能量调度方法,其特征在于,在EH TWR网络中,优化目标为在每一个MDP决策周期中根据系统随机状态求解两个EH源节点的发射功率,以使得EH TWR网络的中断概率性能最优,因此,MDP收益函数定义为EH TWR网络在系统状态 及行动 下的条件中断概率的补数,即:

当中继R的发射功率确定时,EH TWR网络的条件中断概率Pout(s,a)只与无线信道S1-R和S2-R的衰落状态以及两个源节点的功率行动相关,因此根据式(1)至式(4),Pout(s,a)可以表示为:

6.根据权利要求1所述的适用于双向中继通信网络源节点的随机能量调度方法,其特征在于,在EH TWR网络的MDP模型中,策略 表示在给定系统状态 下源节点的功率行动为 MDP的目标是在任意系统状态 下找到最优能量调度策略π(s),以使得在长期平均收益最优,其中,设长期平均收益为:其中,s0表示初始状态;设MDP中马尔可夫链是各态历经的,则在给定策略π(s)下MDP的长期平均收益与初始状态无关。

7.根据权利要求1所述的适用于双向中继通信网络源节点的随机能量调度方法,其特征在于,设MDP中马尔可夫链的随机状态重复出现,则最优策略π*满足贝尔曼方程:通过式(12)及式(13)进行数值迭代算法求解贝尔曼方程:

其中,n表示迭代次数;当 所对应的数值V(s)恒定不变时,即认为迭代算法收(n+1) (n)敛;数值V(s)恒定不变的条件可表示为|V (s)-V (s)|<ε,其中,ε表示极小值,取值范围一般为10-5~10-6;当数值迭代算法收敛后,可以根据式(14)求解最优策略π*:

说明书 :

一种适用于双向中继通信网络源节点的随机能量调度方法

技术领域

[0001] 本发明属于绿色通信、能量收集通信及协作通信技术领域,涉及一种适用于双向中继通信网络源节点的随机能量调度方法。

背景技术

[0002] 近年来,随着大规模物联网和无线传感器网络的兴起与发展,以低功耗、低成本和低速率为特征的无线通信业务和网络技术越来越受到重视,其中通信节点的能量效率和工作寿命将直接影响业务质量,网络规模和运维成本。在低功耗和低成本的大规模无线通信网络中,传统的采用电网或电池为通信节点供电的方法存在明显的缺陷或不足,例如:网络部署不灵活、大量电池的维护成本高昂等。针对上述问题,基于可再生能源的能量收集(Energy Harvesting,EH)无线通信技术越来越受到国际学术界和工业界高度重视。在EH无线通信网络中,EH通信节点能够收集自然环境中的可再生能源为无线传输提供能量,例如:太阳能、风能、热能等。
[0003] 双向中继(Two-Way Relay,TWR)通信网络是无线协作通信中的一种新型网络架构,也是近年来无线协作通信研究的热点领域。在基本的TWR通信网络中,包含两个源节点和一个中继节点,两个源节点之间没有直达无线链路,它们通过中继节点同时进行双向信息交互。整个信息交互过程分为两阶段——多向接入(Multiple Access,MA)和广播(Broadcast,BC),最终两个源节点均可获得对方发送的信息。因此,TWR网络具有较高的传输效率和信道利用率,同时也能够有效克服两个源节点之间由于通信距离过长、衰减过大而导致的传输可靠性降低的问题。在低功耗、低成本的大规模协作通信网络中,包含EH通信节点的TWR网络(简称EH TWR网络)不仅具有较高的传输效率,而且能够提高通信节点的工作寿命和能量效率,因此近年来引起了特别关注。
[0004] 在EH TWR通信网络中,源节点和中继节点均可配置为EH通信节点,EH节点的能量效率取决于如何有效使用收集到的能量用于无线信号发送。根据EH节点中能量到达信息的因果性,EH节点能量调度技术和方法主要分为确知能量调度和随机能量调度两大类:在确知能量调度技术中,EH节点能够提前获知能量到达信息,包括到达时间与到达量,因此确知能量调度方法相对简单,适用于能够准确或近似预测能量到达信息的场景;在随机能量调度技术中,由于EH节点无法提前获知能量到达信息,因此需要将能量到达信息建模为随机过程,需要动态分配EH节点的发射功率。由于从自然界可再生能源中收集的能量具有较强的不确定性和随机性,因此相对于确知能量调度,随机能量调度技术和方法更加符合自然界中能量收集的实际情况。在EH TWR通信网络中,EH通信节点的随机能量调度问题,不仅与TWR网络中的衰落信道相关,而且需要考虑通信节点所收集到的能量的随机性和不确定性等因素,因此EH TWR网络中EH通信节点的随机能量调度方法较为复杂,有待深入研究。

发明内容

[0005] 本发明针对上述技术问题,提供了一种适用于双向中继通信网络源节点的随机能量调度方法,该方法能够有效解决随机EH TWR网络中源节点的最优能量调度及动态功率分配问题。
[0006] 为达到上述目的,本发明所述的适用于双向中继通信网络源节点的随机能量调度方法包括以下步骤:
[0007] 1)基于随机EH模型建立随机EH TWR通信网络模型;
[0008] 2)建立随机EH TWR网络的MDP模型,再根据随机EH TWR网络的MDP模型求解随机EH TWR网络的最优能量调度策略;
[0009] 3)基于随机EH TWR网络的最优能量调度策略建立EH TWR网络的最优动态功率分配表;
[0010] 4)估计随机EH TWR网络状态,并利用EH TWR网络的最优动态功率分配表通过查表法动态确定源节点的最优发射功率,再根据源节点的最优发射功率完成源节点的随机能量调度。
[0011] 步骤1)的具体操作为:
[0012] TWR无线通信网络包含源节点S1、源节点S2及中继节点R,且源节点S1、源节点S2以及中继节点R均配置一根天线,且使用半双工通信方式,其中,中继节点R由固定电源供电,且中继节点R采用译码转发协议协助源节点A及源节点B进行双向信息交互,源节点A及源节点B分别安装有面积相等的太阳能接收面板及容量相同的电池;
[0013] 使用随机EH模型对太阳能EH状况进行建模,该随机EH模型为具有Ne=4个状态的混合高斯隐马尔可夫链,SH表示太阳能EH状态,aij表示不同状态之间的转移概率;
[0014] 在随机EH TWR通信网络中,源节点S1和源节点S2均使用先收集-再存储-后使用的能量管理模型,在该能量管理模型中以EU为基本能量单元,并以时间TM为能量管理周期,在当前能量管理周期中,EH源节点收集太阳能,并以EU进行量化后存储在电池中,以供在后续的能量管理周期中使用,源节点的能量收集存储模块和无线传输模块相对独立,能够在同一能量管理周期TM中同时进行能量收集存储及无线发送,并且当电池处于充满电状态时,太阳能接收面板收集到的太阳能将会被丢弃;
[0015] 随机EH TWR通信网络采用双向中继协议及放大转发协议实现源节点S1和源节点S2之间的信息交互,其中,整个信息交互过程分为MA阶段及在BC阶段,其中,在MA阶段,两个源节点同时向中继节点R发送各自的信号;在BC阶段,中继节点R对接收到的信号使用DF协议转发给两个源节点,S1-R链路和S2-R链路的可达速率小于等于MA阶段和BC阶段互信息的最小值,同时,中继节点R需要对接收到的混叠信号进行译码,所以S1-R链路和S2-R链路的可达速率之和不能大于中继节点R在MA阶段接收到的互信息,当上述关系不满足时,TWR网络就会出现信息传输中断,则TWR网络的信息中断事件可定义为:
[0016]
[0017]
[0018]
[0019] 其中,P1、P2及PR分别表示源节点S1、源节点S2及中继节点R的发射功率;γ1及γ2分别表示链路S1-R及链路S2-R的信道增益;N0表示接收机的加性白高斯噪声平均功率,Rth1及Rth2分别表示源节点S1及源节点S2的目标速率,由式(1)、式(2)及式(3)可知,当任一中断事件发生时,TWR网络就会发生信息中断,则TWR网络的中断概率为
[0020]
[0021] 步骤2)的具体操作为:
[0022] 中继节点R采用固定电源供电,在信息传输过程中发射功率固定,源节点S1和源节点S2均为EH通信节点,源节点S1和源节点S2的发射功率与随机太阳能EH状态、电池电量及无线信道衰落情况相关,因此采用马尔科夫决策过程对EH TWR网络进行建模,以求解源节点S1和源节点S2的能量调度策略,使得EH TWR网络的长期平均中断概率性能最优,其中随机EH TWR网络的MDP模型包括行动空间、系统状态空间、系统状态转移概率及收益函数;
[0023] 设集合 表示源节点S1和源节点S2的二维行动空间,其中×表示笛卡尔积,集合 表示源节点Si的行动子空间,用于定
义该源节点Si的发射功率集合,在能量管理周期TM中,当EH  TWR网络的行动时,源节点S1和源节点S2的发射功率在该能量管理周期TM中分别为P1=
a1PU及P2=a2PU,其中,PU表示EH节点的基本发射功率,PU与基本能量单元EU的关系可以表示为 则EU可以看作EH节点在TM中以基本发射功率PU发送信号所需的能量;
[0024] 设集合 表示四维状态空间,其中,集合εH={0,1,…,Ne-1}表示太阳能EH状态子空间,集合 表示无线链路S1-R和S2-R的
信道衰落状态子空间,集合 表示源节点S1和源节点S2的电池状态
子空间,则在一个MDP决策周期TM中,该EH  TWR网络的系统状态可以定义为
其中,SH表示太阳能EH状态,Ci表示链路Si-R的信道衰落
状态,Bi代表源节点Si的电池状态;
[0025] 在EH TWR网络中通过具有Ne=4个状态的混合高斯隐马尔可夫链描述太阳能EH状态,当太阳能EH状态SH=e∈εH时,EH源节点在单位面积太阳能面板上收集到的太阳能功率为Ph,Ph服从高斯分布 因此,EH节点在一个MDP决策周期TM中收集到的能量为Eh=PhTMΩη,其中,Ω表示太阳能电池面板面积,η表示能量转换效率;由于在能量收集、存储和使用过程中以EU作为基本能量单元,EH源节点在太阳能EH状态e下收集到的基本能量单元数量Q的概率表示为P(Q=q|SH=e),q∈(0,1,…,∞},P代表EH源节点的太阳能收集能力,另外,不同太阳能EH状态之间的转移概率表示为P(SH=e′|SH=e),e,e′∈εH;
[0026] EH源节点的电池状态表示该EH源节点所配置电池中的可用电量,两个EH源节点的电池容量以EU为单位被均匀划分为Nb个等级;当源节点Si的电池状态为 时,该电池中的可用电量为biEU,源节点Si的电池状态从当前状态bi转移到下一状态b′i的转移关系可以表示为
[0027] b′i=min(bi-ai+qi,Nb-1)   (5)
[0028] 其中,ai表示源节点Si在当前决策周期中的功率行动,qi表示源节点Si在当前决策周期中收集到的基本能量单元EU的数量,则当源节点Si的功率行动为ai时,电池状态转移概率在太阳能EH状态e下可以表示为:
[0029]
[0030] 其中,第一项表示电池状态未满,第二项代表电池状态已满;
[0031] 在EH TWR网络中使用具有Nc个状态的马尔可夫链对无线链路S1-R及S2-R进行建模,两个无线链路的瞬时信道增益γ1及γ2被Nc-1个阈值量化成Nc个区间,当信道衰落状态为 时,相应的
信道增益区间为[Γh,Γh+1)。
[0032] 由于无线信道衰落状态与太阳能EH状态及电池状态相互独立,则当两个EH源节点的 功率行动 时 ,系统状态从 转移到的转移概率为
[0033]
[0034] 其中,P(h′|h)及P(g′|g)分别表示无线信道S1-R和S2-R的状态转移概率。
[0035] 在EH TWR网络中,优化目标为在每一个MDP决策周期中根据系统随机状态求解两个EH源节点的发射功率,以使得EH TWR网络的中断概率性能最优,因此,MDP收益函数定义为EH TWR网络在系统状态 及行动 下的条件中断概率的补数,即:
[0036]
[0037] 当中继R的发射功率确定时,EH TWR网络的条件中断概率Pout(s,a)只与无线信道S1-R和S2-R的衰落状态以及两个源节点的功率行动相关,因此根据式(1)至式(4),Pout(s,a)可以表示为:
[0038]
[0039] 在EH TWR网络的MDP模型中,策略 表示在给定系统状态 下源节点的功率行动为 MDP的目标是在任意系统状态 下找到最优能量调度策略π(s),以使得在长期平均收益最优,其中,设长期平均收益为:
[0040]
[0041] 其中,s0表示初始状态;设MDP中马尔可夫链是各态历经的,则在给定策略π(s)下MDP的长期平均收益与初始状态无关。
[0042] 设MDP中马尔可夫链的随机状态重复出现,则最优策略π*满足贝尔曼方程:
[0043]
[0044] 通过式(12)及式(13)进行数值迭代算法求解贝尔曼方程:
[0045]
[0046]
[0047] 其中,n表示迭代次数;当 所对应的数值V(s)恒定不变时,即认为迭代算法(n+1) (n)收敛;数值V(s)恒定不变的条件可表示为|V (s)-V (s)|<ε,其中,ε表示极小值,取值范围一般为10-5~10-6;当数值迭代算法收敛后,可以根据式(14)求解最优策略π*:
[0048]
[0049] 步骤3)中,网络最优动态功率分配表用于表示网络状态与EH源节点最优功率行动 之间的对应关系。
[0050] 本发明具有以下有益效果:
[0051] 本发明所述的适用于双向中继通信网络源节点的随机能量调度方法在具体操作时,根据随机EH TWR网络的MDP模型求解随机EH TWR网络的最优能量调度策略,然后根据最优能量调度策略建立EH TWR网络的最优动态功率分配表,在数据传输过程中,即可通过查表法动态确定源节点的最优发射功率,以解决随机EH TWR网络中源节点的最优能量调度及动态功率分配问题。

附图说明

[0052] 图1为本发明中EH TWR网络模型的示意图;
[0053] 图2为本发明混合高斯隐马尔可夫链(状态Nc=4)的示意图;
[0054] 图3为本发明中EH TWR网络的MDP模型的示意图;
[0055] 图4为本发明中EH TWR网络最优动态功率分配表的结构示意图;
[0056] 图5为本发明中EH TWR网络随机能量调度方法的原理图;
[0057] 图6为本发明中随机EH TWR网络在不同参数配置下的中断概率性能的曲线图;
[0058] 图7为本发明中随机EH TWR网络在不同能量调度策略下的中断概率性能的曲线图。

具体实施方式

[0059] 下面结合附图对本发明做进一步详细描述:
[0060] 本发明所述的适用于双向中继通信网络源节点的随机能量调度方法包括以下步骤:
[0061] 1)基于随机EH模型建立随机EH TWR通信网络模型;
[0062] 2)建立随机EH TWR网络的MDP模型,再根据随机EH TWR网络的MDP模型求解随机EH TWR网络的最优能量调度策略;
[0063] 3)基于随机EH TWR网络的最优能量调度策略建立EH TWR网络的最优动态功率分配表;
[0064] 4)估计随机EH TWR网络状态,并利用EH TWR网络的最优动态功率分配表通过查表法动态确定源节点的最优发射功率,再根据源节点的最优发射功率完成源节点的随机能量调度。
[0065] 步骤1)的具体操作为:
[0066] 参考图1,TWR无线通信网络包含源节点S1、源节点S2及中继节点R,且源节点S1、源节点S2以及中继节点R均配置一根天线,且使用半双工通信方式,其中,中继节点R由固定电源供电,且中继节点R采用译码转发(Decode-and-Forward,DF)协议协助源节点A及源节点B进行双向信息交互,源节点A及源节点B分别安装有面积相等的太阳能接收面板及容量相同的电池;
[0067] 为刻画两个源节点中太阳能收集的实际情况,使用随机EH模型对太阳能EH状况进行建模,参考图2,,该随机EH模型为具有Ne=4个状态的混合高斯隐马尔可夫链,SH表示太阳能EH状态,不同状态代表不同的太阳辐射强度,aij表示不同状态之间的转移概率;
[0068] 在随机EH TWR通信网络中,源节点S1和源节点S2均使用先收集-再存储-后使用的能量管理模型,在该能量管理模型中以EU为基本能量单元,并以时间TM为能量管理周期,在当前能量管理周期中,EH源节点收集太阳能,并以EU进行量化后存储在电池中,以供在后续的能量管理周期中使用,源节点的能量收集存储模块和无线传输模块相对独立,能够在同一能量管理周期TM中同时进行能量收集存储及无线发送,并且当电池处于充满电状态时,太阳能接收面板收集到的太阳能将会被丢弃;
[0069] 随机EH TWR通信网络采用双向中继协议及放大转发(Decode-and-Forward,DF)协议实现源节点S1和源节点S2之间的信息交互,其中,整个信息交互过程分为MA阶段(多向接入)及在BC阶段(广播),其中,在MA阶段,两个源节点同时向中继节点R发送各自的信号;在BC阶段,中继节点R对接收到的信号使用DF协议转发给两个源节点,S1-R链路和S2-R链路的可达速率小于等于MA阶段和BC阶段互信息的最小值,同时,中继节点R需要对接收到的混叠信号进行译码,所以S1-R链路和S2-R链路的可达速率之和不能大于中继节点R在MA阶段接收到的互信息,当上述关系不满足时,TWR网络就会出现信息传输中断,则TWR网络的信息中断事件可定义为:
[0070]
[0071]
[0072]
[0073] 其中,P1、P2及PR分别表示源节点S1、源节点S2及中继节点R的发射功率;γ1及γ2分别表示链路S1-R及链路S2-R的信道增益;N0表示接收机的加性白高斯噪声(Addtive White Gaussian Noise,AWGN)平均功率,Rth1及Rth2分别表示源节点S1及源节点S2的目标速率,由式(1)、式(2)及式(3)可知,当任一中断事件发生时,TWR网络就会发生信息中断,则TWR网络的中断概率为
[0074]
[0075] 步骤2)的具体操作为:
[0076] 中继节点R采用固定电源供电,在信息传输过程中发射功率固定,源节点S1和源节点S2均为EH通信节点,源节点S1和源节点S2的发射功率与随机太阳能EH状态、电池电量及无线信道衰落情况相关,因此采用马尔科夫决策过程(Markov Decision Process,MDP)对EH TWR网络进行建模,以求解源节点S1和源节点S2的能量调度策略,使得EHTWR网络的长期平均中断概率性能最优,其中随机EH TWR网络的MDP模型包括行动空间、系统状态空间、系统状态转移概率及收益函数,EH TWR通信网络的MDP模型如图3所示,接下来详细描述该MDP模型的建立方法。
[0077] MDP行动空间
[0078] 设集合 表示源节点S1和源节点S2的二维行动空间,其中×表示笛卡尔积,集合 表示源节点Si的行动子空间,用于定
义该源节点Si的发射功率集合,在能量管理周期TM中,当EH  TWR网络的行动时,源节点S1和源节点S2的发射功率在该能量管理周期TM中分别为P1=
a1PU及P2=a2PU,其中,PU表示EH节点的基本发射功率,PU与基本能量单元EU的关系可以表示为 则EU可以看作EH节点在TM中以基本发射功率PU发送信号所需的能量。
[0079] MDP状态空间
[0080] 设集合 表示四维状态空间,其中,集合εH={0,1,…,Ne-1}表示太阳能EH状态子空间,集合 表示无线链路S1-R和S2-R的
信道衰落状态子空间,集合 表示源节点S1和源节点S2的电池状态
子空间,则在一个MDP决策周期TM中,该EH  TWR网络的系统状态可以定义为
其中,SH表示太阳能EH状态,Ci表示链路Si-R的信道衰落
状态,Bi代表源节点Si的电池状态;
[0081] 在EH TWR网络中通过具有Ne=4个状态的混合高斯隐马尔可夫链描述太阳能EH状态,当太阳能EH状态 时,EH源节点在单位面积太阳能面板上收集到的太阳能功率为Ph,Ph服从高斯分布 因此,EH节点在一个MDP决策周期TM中收集到的能量为Eh=PhTMΩη,其中,Ω表示太阳能电池面板面积,η表示能量转换效率;由于在能量收集、存储和使用过程中以EU作为基本能量单元,EH源节点在太阳能EH状态e下收集到的基本能量单元数量Q的概率表示为P(Q=q|SH=e),q∈{0,1,…,∞},P代表EH源节点的太阳能收集能力,另外,不同太阳能EH状态之间的转移概率表示为P(SH=e′|SH=e),e,e′∈εH;
[0082] EH源节点的电池状态表示该EH源节点所配置电池中的可用电量,两个EH源节点的电池容量以EU为单位被均匀划分为Nb个等级;当源节点Si的电池状态为 时,该电池中的可用电量为biEU,源节点Si的电池状态从当前状态bi转移到下一状态b′i的转移关系可以表示为
[0083] b′i=min(bi-ai+qi,Nb-1)   (5)
[0084] 其中,ai表示源节点Si在当前决策周期中的功率行动,qi表示源节点Si在当前决策周期中收集到的基本能量单元EU的数量,则当源节点Si的功率行动为ai时,电池状态转移概率在太阳能EH状态e下可以表示为:
[0085]
[0086] 其中,第一项表示电池状态未满,第二项代表电池状态已满;
[0087] 在EH TWR网络中使用具有Nc个状态的马尔可夫链对无线链路S1-R及S2-R进行建模,两个无线链路的瞬时信道增益γ1及γ2被Nc-1个阈值量化成Nc个区间,当信道衰落状态为 时,相应的
信道增益区间为[Γh,Γh+1)。
[0088] MDP状态转移函数
[0089] 由于无线信道衰落状态与太阳能EH状态及电池状态相互独立,则当两个EH源节点的 功率行动 时 ,系统状态从 转移到的转移概率为
[0090]
[0091] 其中,P(h′|h)及P(g′|g)分别表示无线信道S1-R和S2-R的状态转移概率。
[0092] MDP收益函数
[0093] 在EH TWR网络中,优化目标为在每一个MDP决策周期中根据系统随机状态求解两个EH源节点的发射功率,以使得EH TWR网络的中断概率性能最优,因此,MDP收益函数定义为EH TWR网络在系统状态 及行动 下的条件中断概率的补数,即:
[0094]
[0095] 当中继R的发射功率确定时,EH TWR网络的条件中断概率Pout(s,a)只与无线信道S1-R和S2-R的衰落状态以及两个源节点的功率行动相关,因此根据式(1)至式(4),Pout(s,a)可以表示为:
[0096]
[0097] MDP策略
[0098] 在EH TWR网络的MDP模型中,策略 表示在给定系统状态 下源节点的功率行动为 MDP的目标是在任意系统状态 下找到最优能量调度策略π(s),以使得在长期平均收益最优,其中,设长期平均收益为:
[0099]
[0100] 其中,s0表示初始状态;设MDP中马尔可夫链是各态历经的,则在给定策略π(s)下MDP的长期平均收益与初始状态无关。
[0101] 求解MDP最优策略
[0102] 设MDP中马尔可夫链的随机状态重复出现,则最优策略π*满足贝尔曼方程:
[0103]
[0104] 通过式(12)及式(13)进行数值迭代算法求解贝尔曼方程:
[0105]
[0106]
[0107] 其中,n表示迭代次数;当 所对应的数值V(s)恒定不变时,即认为迭代算法收敛;数值V(s)恒定不变的条件可表示为|V(n+1)(s)-V(n)(s)|<ε,其中,ε表示极小值,取值范围一般为10-5~10-6;当数值迭代算法收敛后,可以根据式(14)求解最优策略π*:
[0108]
[0109] 步骤3)的具体操作过程为:
[0110] 在MDP最优策略中,每一个系统状态均对应一个最优行动,使得MDP的长期平均收益最优,MDP的最优策略对应随机EH TWR网络的最优能量调度策略,同时MDP中的长期平均收益对应TWR网络的长期平均中断概率,在具体实现中,为保证EH TWR网络中信息传输的实时性,在网络启动信息传输之前,需要预先计算最优能量调度策略,并且在此基础上建立网络状态 与EH源节点最优功率行动 之间的对应关系--网络最优动态功率分配表,具体如图4所示,其中,系统随机状态的最大数目为N=Ne*Nc*Nc*Nb*Nb。
[0111] 步骤4)的具体操作为:
[0112] 在EH TWR网络启动信息传输后,EH源节点在每个MDP决策周期内首先估计网络状态,所述网络状态包括太阳能EH状态、电池状态及信道衰落状态,然后根据网络状态查找网络最优动态功率分配表,而从快速获取该决策周期中EH源节点的最优发射功率。EH TWR通信网络既实现了对随机能量的最优调度,也保证了信息传输的实时性。在网络状态估计中,两个EH源节点可以直接获取到自身所装备电池的可用电量,从而得到电池状态B1及B2,下面主要介绍太阳能EH状态及无线信道衰落状态的估计方法。
[0113] a)估计无线信道衰落状态C1和C2
[0114] 在每个决策周期的开始阶段,TWR网络采用传统信道估计方法计算无线链路S1-R和S2-R 的信道 增益γ1 和γ2 ,然 后根据MD P模型中的 信道增益阈 值确定这两个无线链路的信道衰落状态C1和C2;
[0115] b)基于置信概率法估计太阳能EH状态SH
[0116] 首先,EH源节点根据贝叶斯准则,基于前一决策周期中SH的置信概率计算当前决策周期内SH的置信概率,具体如下:
[0117]
[0118] 其中: 表示当前决策周期中太阳能EH状态SH=j的置信概率; 表示前一决策周期中太阳能EH状态SH=i的置信概率;aij表示太阳能EH状态从i转移到j的状态转移概率; 表示EH节点在当前决策周期中单位面积太阳能面板上收集到的太阳能功率,根据图2中的随机EH模型,当太阳能EH状态SH=j时, 服从高斯分布 其概率密度函数可以表示为
[0119] EH源节点在置信概率集合 基础上,根据最大置信概率准则确定当前决策周期内太阳能EH状态SH的取值,即
[0120]
[0121] 综上,在本发明的具体实现中,为保证EH TWR网络信息传输的实时性,在网络启动信息传输之前,需要首先建立MDP模型,求解MDP最优策略,并且获得网络的最优能量调度策略和动态功率分配表。在EHTWR网络启动信息传输后,EH节点在每个MDP决策周期内首先估计网络的随机状态,然后使用查表法快速获取该决策周期中EH源节点的最优发射功率,整个随机能量调度方法的原理和步骤如图5所示。
[0122] 计算机仿真实验与结果分析
[0123] 以上主要描述了本发明方法的思路和步骤,接下来使用计算机仿真来验证该方法的有益效果。在计算机仿真实验中,使用蒙特卡罗方法计算EH TWR网络的长期平均中断概率。由于EH节点发射功率与收集到的随机能量有关,不可能随意设置,因此在仿真实验中以1mW为基准定义归一化的SNR,将其作为中断概率性能曲线的横坐标。除了特别说明外,EH TWR网络及其MDP模型中的主要参数详见表1。
[0124] 表1
[0125]
[0126]
[0127] 图6描绘了随机EH TWR网络采用本发明所提出的最优能量调度策略时,在不同参数配置下的长期平均中断概率性能。可以看到,增大EH节点的太阳能电池面积Ω或减小基本发射功率PU可以显著提升网络的中断性能。这主要是因为增大Ω,EH节点在相同时间内可以收集到更多的太阳能用于无线传输,以降低网络的中断概率。同时,在相同的太阳能收集能力下,减小PU后EH节点在相同时间内可以收集到更多的基本能量单元EU用于无线传输,因此当SNR较高时减小PU能够提升网络的中断性能。另外,在EH TWR网络中,中继节点R采用固定电源供电的传统无线节点,提高中继的固定发射功率PR,可以有效提升网络的中断性能。
[0128] 图7比较了随机EH TWR网络在不同能量调度策略下的长期平均中断概率性能。当采用基本功率和最大功率能量调度策略时,TWR网络在确定EH节点的发射功率时不考虑系统随机状态:在最大功率策略中,EH节点将消耗电池中所有能量用于当前决策周期中的信息传输;在基本功率策略中,EH节点在整个决策周期中只消耗最小的发射功率,即PU。另外,在动态功率策略中,TWR网络根据当前决策周期中的信道衰落状态和电池状态,以条件中断概率(如式(9)所示)为优化目标,动态分配EH节点的发射功率。在本发明所提出的最优能量调度策略中,TWR网络不仅考虑了信道衰落状态和电池状态,而且重点探究了太阳能EH状态和系统随机状态的转移特性,以网络的长期平均中断概率为优化目标,动态决策EH节点的发射功率。因此,从图7中可以明显看到,当采用本发明所提出的最优策略时,随机EH TWR网络的长期平均中断概率性能明显优于其他几种策略。