基于Q学习的异构网络接入控制优化选择方法转让专利

申请号 : CN201210132200.3

文献号 : CN102647773B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马琳陈佳美徐玉滨邓志安刘宁庆

申请人 : 哈尔滨工业大学

摘要 :

基于Q学习的异构网络接入控制优化选择方法,属于无线网络领域,本发明为解决针对WCDMA/WLAN融合异构网络系统,采用基于测量的接入方案选择网络类型不能实现全局最优,而采用基于模型的接入方案选择网络类型计算过于复杂,很难应用于实际系统的问题。本发明所述基于Q学习的异构网络接入控制优化选择方法包括以下步骤:步骤一、判断接入新用户时的异构网络状态;步骤二、查询Q值表,选择步骤一所述异构网络状态对应的Q值表中的最大Q值对应的子网络作为新用户的接入网络。本发明方法用于新用户接入时能根据当前的实际情况快速选择接入的网络类型。

权利要求 :

1.基于Q学习的异构网络接入控制优化选择方法,其特征在于,该方法包括以下步骤: 步骤一、判断接入新用户时的异构网络状态; 所述异构网络指的是WCDMA子网络和WLAN子网络采用松耦合的方式组成的融合异构网络, 所述异构网络状态是根据WCDMA子网络的基于干扰的四种网络状态和WLAN子网络的基于信道繁忙率的四种网络状态共同确定的, WCDMA子网络的基于干扰的四种网络状态向量sc=[Ivery low,Ilow,Ihigh,Ivery high],WLAN子网络的基于信道繁忙率的四种网络状态向量sw=[Rb-very low,Rb-low,Rb-high,Rb-very high], 则所述WCDMA子网络和WLAN子网络构成的异构网络的网络状态向量s为: s=[Rb-very lowIvery low,Rb-very lowIlow,Rb-very lowIhigh,Rb-very lowIvery high, Rb-lowIvery low,Rb-lowIlow,Rb-lowIhigh,Rb-lowIvery high, Rb-highIvery low,Rb-highIlow,Rb-highIhigh,Rb-highIvery high,; Rb-very highIvery low,Rb-very highIlow,Rb-very highIhigh,Rb-very highIvery high] 确定WCDMA子网络的基于干扰的四种网络状态的规则为: 当0≤Itotal+△I

其中:W为码片速率;

vnew为接入新用户的激活因子;

Rnew为接入新用户的比特速率;

(Eb/N0)new为接入新用户的信噪比; η为基站中各条链路的负载因子之和,且按公式 获取,

其中:f为其他小区与本小区的干扰之比,且f=0.55; vi为第i个用户的激活因子,i=1,2,…,N,N为WCDMA子网络的基站接入新用户前的用户数量; Ri为第i个用户的比特速率;

(Eb/N0)i为第i个用户的信噪比; 步骤二、查询Q值表,选择步骤一所述异构网络状态对应的Q值表中的最大Q值对应的子网络作为新用户的接入网络; Q值表的获取过程为:

步骤a、初始化Q值表,在[0,1]区间内随机赋值Q值表中的j=1,2,...16,

Q值表

步骤b、接入新用户,作出选择动作,记录立即回报函数rs(a),记录规则为: 当接入新用户为办理数据业务,作出的选择动作为选择WCDMA子网络即a=1时,记录rs(a)=1; 当接入新用户为办理数据业务,作出的选择动作为选择WLAN子网络即a=2时,记 录rs(a)=2; 当接入新用户为办理语音业务,作出的选择动作为选择WCDMA子网络即a=1时,记录rs(a)=2; 当接入新用户为办理语音业务,作出的选择动作为选择WLAN子网络即a=2时,记录rs(a)=1; 当WCDMA子网络和WLAN子网络都没有足够资源,呼叫阻塞时,记录rs(a)=-5; 步骤c、根据公式 更新Q值表,

其中,α是学习强度,α=0.1~0.2, γ为折扣因子,且0<γ<1,

Qs,t+1(a)为当前时刻、异构网络状态为s选择动作为a时Q值, Qs,t(a)为前一时刻、异构网络状态为s选择动作为a时Q值, 步骤d、当满足收敛条件△Q(s,a)<ε, a∈A,停止迭代,迭代门限ε=0.005, △Q(s,a)为某个异构网络状态s选择动作为a的前后两次Q值的差值,△Q(s,a)=|Qs,t+1(a)-Qs,t(a)|, S为异构网络的状态集合,A为所有动作的集合, 重复执行步骤b至步骤d,直至将Q值表中所有Q值都更新完毕。

2.根据权利要求1所述基于Q学习的异构网络接入控制优化选择方法,其特征在于,I1=4,I2=8,I3=12。

3.根据权利要求1所述基于Q学习的异构网络接入控制优化选择方法,其特征在于,确定WLAN子网络的基于信道繁忙率的四种网络状态的规则为: 当0≤Rb-max

其中:Rs(p)=psTs/(piσ+psTs+pcTc) 式中:ps是数据成功传输概率,且ps=npt(1-pt)n-1,pt与p存在关系式p=1-(1-pt)n-1,n为WLAN子网络内的用户数; pi是所观察的回退时隙内信道为空的概率,且pi=(1-pt)n; pc是同样的回退时隙内信道中至少有两个传输的碰撞概率,且pc=1-pi-ps; σ是空回馈时隙的长度; Ts为数据包发送过程中发送数据包所需要的时间, 且

式中TRTS代表RTS信息,TCTS代表CTS信息, 代表数据信息,TACK代表回答确认信息,TSIFS代表短帧间隔,TDIFS代表分布式帧间隔的平均传输时间; Tc为数据包发送过程中碰撞过程所需要的时间,且Tc=TRTS+TCTS+TSIFS+TDIFS, 步骤2、根据p*=MIN{pr,MAX(p)}获取p最优值p*, 式中:MAX(p)为WLAN子网络内的用户数为n时,在所观察的时隙内至少有一个传输的概率p的最大值; 步骤3、将步骤2获取的p最优值p*代入公式 Rb=1-piσ/(piσ+psTs+pcTc)中, 获取最大吞吐量时的信道繁忙率Rb-max,Rb为信道繁忙率。

4.根据权利要求1所述基于Q学习的异构网络接入控制优化选择方法,其特征在于,折扣因子γ=0.9。

说明书 :

基于Q学习的异构网络接入控制优化选择方法

技术领域

[0001] 本发明涉及基于Q学习的异构网络接入控制优化选择方法,属于无线网络领域。

背景技术

[0002] 随着手机、笔记本、上网本等终端的丰富,多媒体等多种业务的兴起,单一网络已经越来越无法满足人们对带宽和业务质量的需求,同时,网络类型的繁多与彼此的不兼容也给用户带来了诸多不便,因此,多种无线接入网络的融合已经成为下一代无线网络一个新的趋势。在所有接入网络中,由于3G无线网络系统WCDMA和无线局域网WLAN优缺点存在互补性,引起了各界专家的关注。WLAN具有数据速率高、灵活、建网迅速、个人化等特点,但是覆盖范围小,而WCDMA的移动终端可广泛的配置,覆盖范围遍布全球,但是通信速率不高,适合语音传输。通过将WCDMA与WLAN这两种异构网络进行融合能够以较低的成本共享两者的优点。
[0003] 无线网络融合首先遇到的挑战性问题就是接入控制。现在提出的接入控制方案主要是基于测量和基于模型的,基于测量的接入控制方案通常比较有效而且易于实现。然而,由于没有理论基础,这些方案很难达到全局最优。基于模型的接入控制方案有明确的数学根据,更能够全局优化,然而这些方案计算过于复杂,而且模型常常建立在一些与实际不符的假设上(例如信道传输无错,每个站点都是贪婪的),所以很难应用于实际的系统。马尔科夫决策的方法是解决接入控制问题的基于模型的经典方法,已经被应用到各个领域,但是这种方法的转移概率和回报函数都需要精确的定义,而且,在真正的实际环境中,模型的状态空间和计算复杂度会戏剧性的增大,这会使得马尔科夫决策的方法很难应用。

发明内容

[0004] 本发明目的是为了解决针对WCDMA/WLAN融合异构网络系统,采用基于测量的接入方案选择网络类型不能实现全局最优,而采用基于模型的接入方案选择网络类型计算过于复杂,很难应用于实际系统的问题,提供了一种基于Q学习的异构网络接入控制优化选择方法。
[0005] 本发明所述基于Q学习的异构网络接入控制优化选择方法,该方法包括以下步骤:
[0006] 步骤一、判断接入新用户时的异构网络状态;
[0007] 步骤二、查询Q值表,选择步骤一所述异构网络状态对应的Q值表中的最大Q值对应的子网络作为新用户的接入网络。
[0008] 所述异构网络指的是WCDMA子网络和WLAN子网络采用松耦合的方式组成的融合异构网络,
[0009] 所述异构网络状态是根据WCDMA子网络的基于干扰的四种网络状态和WLAN子网络的基于信道繁忙率的四种网络状态共同确定的,
[0010] WCDMA子网络的基于干扰的四种网络状态向量sc=[Ivery low,Ilow,Ihigh,Ivery high],WLAN子网络的基于信道繁忙率的四种网络状态向量sw=[Rb-very low,Rb-low,Rb-high,Rb-very high],[0011] 则所述WCDMA子网络和WLAN子网络构成的异构网络的网络状态向量s为:
[0012] s=[Rb-very lowIvery low,Rb-very lowIlow,Rb-very lowIhigh,Rb-very lowIvery high,[0013] Rb-lowIvery low,Rb-lowIlow,Rb-lowIhigh,Rb-lowIvery high,
[0014] Rb-highIvery low,Rb-highIlow,Rb-highIhigh,Rb-highIvery high,
[0015] Rb-very highIvery low,Rb-very highI low,Rb-very highIhigh,Rb-very highIvery high]。
[0016] 确定WCDMA子网络的基于干扰的四种网络状态的规则为:
[0017] 当0≤Itotal+ΔI<I1时,WCDMA子网络处于Ivery low状态;
[0018] 当I1≤Itotal+ΔI<I2时,WCDMA子网络处于Ilow状态;
[0019] 当I2≤Itotal+ΔI<I3时,WCDMA子网络的基于干扰的四种网络状态处于Ihigh状态;
[0020] 当Itotal+ΔI≥I3时,WCDMA子网络处于Ivery high状态;
[0021] 其中,I1=4~7,I2=8~9,I3=10~12,
[0022] Itotal为WCDMA子网络的基站的接入新用户前的N个用户时的总干扰,
[0023] ΔI为接入新用户增加的干扰,且按如下公式获取:
[0024]
[0025] 式中:ΔL为新接入用户的负载因子,且按公式
[0026] 获取;
[0027] 其中:W为码片速率;
[0028] vnew为接入新用户的激活因子;
[0029] Rnew为接入新用户的比特速率;
[0030] (Eb/N0)new为接入新用户的信噪比;
[0031] η为基站中各条链路的负载因子之和,且按公式
[0032] 获取,
[0033] 其中:f为其他小区与本小区的干扰之比,且f=0.55;
[0034] vi为第i个用户的激活因子,i=1,2,…,N,N为WCDMA子网络的基站接入新用户前的用户数量;
[0035] Ri为第i个用户的比特速率;
[0036] (Eb/N0)i为第i个用户的信噪比。
[0037] 确定WLAN子网络的基于信道繁忙率的四种网络状态的规则为:
[0038] 当0≤Rb-max<Rb1时,WLAN子网络的基于信道繁忙率的四种网络状态处于Rb-very low状态;
[0039] 当Rb1≤Rb-max<Rb2时,WLAN子网络处于Rb-low状态;
[0040] 当Rb2≤Rb-max<Rb3时,WLAN子网络处于Rb-high状态;
[0041] 当Rb-max≥Rb3时,WLAN子网络处于Rb-very high状态;
[0042] 其中,Rb1=0.25,Rb2=0.5,Rb3=0.75,
[0043] Rb-max为最大吞吐量时的信息繁忙率,且Rb-max的获取过程为:
[0044] 步骤1、根据公式 求解最大吞吐量时的p值pr,p为在所观察的时隙内至少有一个传输的概率,
[0045] 其中:Rs(p)=psTs/(piσ+psTs+pcTc)
[0046] 式中:ps是数据成功传输概率,且ps=npt(1-pt)n-1,pt与p存在关系式p=1-(1-pt)n-1,n为WLAN子网络内的用户数;
[0047] pi是所观察的回退时隙内信道为空的概率,且pi=(1-pt)n;
[0048] pc是同样的回退时隙内信道中至少有两个传输的碰撞概率,且pc=1-pi-ps;
[0049] σ是空回馈时隙的长度;
[0050] Ts为数据包发送过程中发送数据包所需要的时间,
[0051] 且
[0052] 式中TRTS代表RTS信息,TCTS代表CTS信息, 代表数据信息,TACK代表回答确认信息,TSIFS代表短帧间隔,TDIFS代表分布式帧间隔的平均传输时间;
[0053] Tc为数据包发送过程中碰撞过程所需要的时间,且Tc=TRTS+TCTS+TSIFS+TDIFS,[0054] 步骤2、根据p*=MIN{pr,MAX(p)}获取p最优值p*,
[0055] 式中:MAX(p)为WLAN子网络内的用户数为n时,在所观察的时隙内至少有一个传输的概率p的最大值;
[0056] 步骤3、将步骤2获取的p最优值p*代入公式
[0057] Rb=1-piσ/(piσ+psTs+pcTc)中,
[0058] 获取最大吞吐量时的信道繁忙率Rb-max,Rb为信道繁忙率。
[0059] 步骤a、初始化Q值表,在[0,1]区间内随机赋值Q值表中的 和j=1,2,...16,
[0060] Q值表
[0061]
[0062] 步骤b、接入新用户,作出选择动作,记录立即回报函数rs(a),记录规则为:
[0063] 当接入新用户为办理数据业务,作出的选择动作为选择WCDMA子网络即a=1时,记录rs(a)=1;
[0064] 当接入新用户为办理数据业务,作出的选择动作为选择WLAN子网络即a=2时,记录rs(a)=2;
[0065] 当接入新用户为办理语音业务,作出的选择动作为选择WCDMA子网络即a=1时,记录rs(a)=2;
[0066] 当接入新用户为办理语音业务,作出的选择动作为选择WLAN子网络即a=2时,记录rs(a)=1;
[0067] 当WCDMA子网络和WLAN子网络都没有足够资源,呼叫阻塞时,记录rs(a)=-5;
[0068] 步骤c、根据公式
[0069]
[0070] 更新Q值表,
[0071] 其中,α是学习强度,α=0.1~0.2,
[0072] γ为折扣因子,且0<γ<1,
[0073] Qs,t+1(a)为当前时刻、异构网络状态为s选择动作为a时Q值,
[0074] Qs,t(a)为前一时刻、异构网络状态为s选择动作为a时Q值,
[0075] 步骤d、当满足收敛条件ΔQ(s,a)<ε, s∈S,a∈A,停止迭代,迭代门限ε=0.005,
[0076] ΔQ(s,a)为某个异构网络状态s选择动作为a的前后两次Q值的差值,ΔQ(s,a)=|Qs,t+1(a)-Qs,t(a)|,
[0077] 重复执行步骤b至步骤d,直至将Q值表中所有Q值都更新完毕。
[0078] 本发明的优点:本发明针对WCDMA/WLAN融合异构网络系统,提出一种非模型约束的强化学习的方法,有效解决优化网络接入控制的问题。该方案能够打破马尔科夫决策过程方法中的维度随系统状态增加而出现爆炸式增长的诅咒,获得系统回报最大化,有效提高系统资源利用率。

附图说明

[0079] 图1是所建立的WCDMA/WLAN混合异构网络构架图;
[0080] 图2是本发明所述基于Q学习的异构网络接入控制优化选择方法流程;
[0081] 图3是更新Q值表获取过程的流程图。

具体实施方式

[0082] 具体实施方式一:下面结合图1至图3说明本实施方式,本实施方式所述基于Q学习的异构网络接入控制优化选择方法,该方法包括以下步骤:
[0083] 步骤一、判断接入新用户时的异构网络状态;
[0084] 步骤二、查询Q值表,选择步骤一所述异构网络状态对应的Q值表中的最大Q值对应的子网络作为新用户的接入网络。
[0085] 所述异构网络指的是WCDMA子网络和WLAN子网络采用松耦合的方式组成的融合异构网络,
[0086] 所述异构网络状态是根据WCDMA子网络的基于干扰的四种网络状态和WLAN子网络的基于信道繁忙率的四种网络状态共同确定的,
[0087] WCDMA子网络的基于干扰的四种网络状态向量sc=[Ivery low,Ilow,Ihigh,Ivery high],WLAN子网络的基于信道繁忙率的四种网络状态向量sw=[Rb-very low,Rb-low,Rb-high,Rb-very high],[0088] 则所述WCDMA子网络和WLAN子网络构成的异构网络的网络状态向量s为:
[0089] s=[Rb-very lowIvery low,Rb-very lowIlow,Rb-very lowIhigh,Rb-very lowIvery high,[0090] Rb-lowIvery low,Rb-lowIlow,Rb-lowIhigh,Rb-lowIvery high,
[0091] Rb-highIvery low,Rb-highIlow,Rb-highIhigh,Rb-highIvery high,
[0092] Rb-very highIvery low,Rb-very highIlow,Rb-very highIhigh,Rb-very highIvery high]。
[0093] 确定WCDMA子网络的基于干扰的四种网络状态的规则为:
[0094] 当0≤Itotal+ΔI<I1时,WCDMA子网络处于Ivery low状态;
[0095] 当I1≤Itotal+ΔI<I2时,WCDMA子网络处于Ilow状态;
[0096] 当I2≤Itotal+ΔI<I3时,WCDMA子网络的基于干扰的四种网络状态处于Ihigh状态;
[0097] 当Itotal+ΔI≥I3时,WCDMA子网络处于Ivery high状态;
[0098] 其中,I1=4~7,I2=8~9,I3=10~12,
[0099] Itotal为WCDMA子网络的基站的接入新用户前的N个用户时的总干扰,
[0100] ΔI为接入新用户增加的干扰,且按如下公式获取:
[0101]
[0102] 式中:ΔL为新接入用户的负载因子,且按公式
[0103]
[0104] 获取;
[0105] 其中:W为码片速率;
[0106] vnew为接入新用户的激活因子;
[0107] Rnew为接入新用户的比特速率;
[0108] (Eb/N0)new为接入新用户的信噪比;
[0109] η为基站中各条链路的负载因子之和,且按公式
[0110]
[0111] 获取,
[0112] 其中:f为其他小区与本小区的干扰之比,且f=0.55;
[0113] vi为第i个用户的激活因子,i=1,2,…,N,N为WCDMA子网络的基站接入新用户前的用户数量;
[0114] Ri为第i个用户的比特速率;
[0115] (Eb/N0)i为第i个用户的信噪比。
[0116] 确定WLAN子网络的基于信道繁忙率的四种网络状态的规则为:
[0117] 当0≤Rb-max<Rb1时,WLAN子网络的基于信道繁忙率的四种网络状态处于Rb-very low状态;
[0118] 当Rb1≤Rb-max<Rb2时,WLAN子网络处于Rb-low状态;
[0119] 当Rb2≤Rb-max<Rb3时,WLAN子网络处于Rb-high状态;
[0120] 当Rb-max≥Rb3时,WLAN子网络处于Rb-very high状态;
[0121] 其中,Rb1=0.25,Rb2=0.5,Rb3=0.75,
[0122] Rb-max为最大吞吐量时的信息繁忙率,且Rb-max的获取过程为:
[0123] 步骤1、根据公式 求解最大吞吐量时的p值pr,p为在所观察的时隙内至少有一个传输的概率,
[0124] 其中:Rs(p)=psTs/(piσ+psTs+pcTc)
[0125] 式中:ps是数据成功传输概率,且ps=npt(1-pt)n-1,pt与p存在关系式p=n-11-(1-pt) ,n为WLAN子网络内中的用户数;
[0126] pc是同样的回退时隙内信道中至少有两个传输的碰撞概率,且pc=1-pi-ps;
[0127] pi是所观察的回退时隙内信道为空的概率,且pi=(1-pt)n;
[0128] σ是空回馈时隙的长度;
[0129] Ts为数据包发送过程中发送数据包所需要的时间,
[0130] 且
[0131] 式中TRTS代表RTS信息,TCTS代表CTS信息, 代表数据信息,TACK代表回答确认信息,TSIFS代表短帧间隔,TDIFS代表分布式帧间隔的平均传输时间;
[0132] Tc为数据包发送过程中碰撞过程所需要的时间,且Tc=TRTS+TCTS+TSIFS+TDIFS,ps、pc和pi这三个参量都是关于p的函数,一旦获得了Rs,则归一化吞吐量TH可以表示为:
[0133]
[0134] 注意到归一化吞吐量TH与Rs成正比,且信道繁忙率是递增函数。事实上,当p≤0.1,Rb与Rs几乎相同。这样,由于信道繁忙率Rb能够较准确地反应吞吐量,而且IEEE802.11使用CSMA为基础的MAC层协议,使得信道繁忙率Rb很好获得。则使用Rb作为WLAN系统状态统计的参量。首先通过公式
[0135]
[0136] 找到取得最大吞吐量时的p值pr。
[0137] 另外,对于用户数为固定值为n时,其p值有它的上界,即最大p值MAX(p)。假设p*碰撞概率的最优值,如下式所示:
[0138] p*=MIN{pr,MAX(p)}。
[0139] 步骤2、根据p*=MIN{pr,MAX(p)}获取p最优值p*,
[0140] 式中:MAX(p)为WLAN子网络内的用户数为n时,在所观察的时隙内至少有一个传输的概率p的最大值;
[0141] 步骤3、将步骤2获取的p最优值p*代入公式
[0142] Rb=1-piσ/(piσ+psTs+pcTc)中,
[0143] 获取最大吞吐量时的信道繁忙率Rb-max,Rb为信道繁忙率。
[0144] Q值表的获取过程为:
[0145] 步骤a、初始化Q值表,在[0,1]区间内随机赋值Q值表中的 和j=1,2,...16,
[0146] Q值表
[0147]
[0148] 步骤b、新用户到达时,选择Q值大的子网络作为该新用户的接入网络,作出选择动作后记录立即回报函数rs(a),在用户到达的时刻记录此时状态st,在执行动作后,记录系统的新状态st+1,记录立即回报函数的规则为:
[0149] 当接入新用户为办理数据业务,作出的选择动作为选择WCDMA子网络即a=1时,记录rs(a)=1;
[0150] 当接入新用户为办理数据业务,作出的选择动作为选择WLAN子网络即a=2时,记录rs(a)=2;
[0151] 当接入新用户为办理语音业务,作出的选择动作为选择WCDMA子网络即a=1时,记录rs(a)=2;
[0152] 当接入新用户为办理语音业务,作出的选择动作为选择WLAN子网络即a=2时,记录rs(a)=1;
[0153] 当WCDMA子网络和WLAN子网络都没有足够资源,呼叫阻塞时,记录rs(a)=-5;
[0154] 控制者根据Q值表的每一行值,做出选择动作,选择的规则是接入Q值较大的子网络。动作作出之后,环境,即网络,会按照产生的影响给出控制者奖励或惩罚的回报。下面定义状态动作对(s,a)的回报函数。考虑到WCDMA更适合语音传输,而WLAN更适合数据业务传输。则若语音业务被接入到WCDMA中,立即回报为rs(a)=2,如果其被接入WLAN网络,立即回报为rs(a)=1。同理如果数据业务用户被接入WLAN网络,则rs(a)=2,如果其被接入WCDMA网络,rs(a)=1。如果两个网络中都没有足够的资源,则呼叫被阻塞立即回报设为rs(a)=-5。
[0155] 步骤c、根据公式
[0156]
[0157] 更新Q值表,
[0158] 其中,α是学习强度,α=0.1~0.2,
[0159] γ为折扣因子,且0<γ<1,
[0160] Qs,t+1(a)为当前时刻、异构网络状态为s选择动作为a时Q值,
[0161] Qs,t(a)为前一时刻、异构网络状态为s选择动作为a时Q值,
[0162] 步骤d、当满足收敛条件ΔQ(s,a)<ε, a∈A,停止迭代,迭代门限ε=0.005,
[0163] S为异构网络的状态集合,A为所有动作的集合,可选择的动作有:
[0164]
[0165] ΔQ(s,a)为某个异构网络状态s选择动作为a的前后两次Q值的差值,ΔQ(s,a)=|Qs,t+1(a)-Qs,t(a)|,
[0166] 重复执行步骤b至步骤d,直至将Q值表中所有Q值都更新完毕。
[0167] 通过这样的迭代逼近,最后找到Q的最优值:
[0168]
[0169] 下面给出一个具体的实施例:
[0170] 初始化的Q值表如下:
[0171]
[0172] 按照上述过程对该Q值进行更新,所有Q值都满足收敛条件,更新后的Q值表为:
[0173]
[0174] 具体实施方式二:本实施方式对实施方式一作进一步说明,I1=4,I2=8,I3=12。
[0175] 具体实施方式三:本实施方式对实施方式一作进一步说明,折扣因子γ=0.9。