一种设备接入方法、装置及接入控制设备转让专利

申请号 : CN201810053320.1

文献号 : CN108347744B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 赵毅峰刘凯杨华裕黄联芬廖礼宇李馨张远见胡应添

申请人 : 厦门大学京信通信系统(广州)有限公司

摘要 :

本发明实施例公开了一种设备接入方法、装置及接入控制设备,其中方法包括:获取基站的设备接入状态,若确定设备接入状态为拥塞状态,则执行接入限制参数P值调整过程,将每次P值调整后得到的P值发送给基站下的各个设备,直至基站的设备接入状态变为不拥塞状态。如此,在基站处于拥塞的设备接入状态下时,通过执行P值调整过程动态地调整P值可有效地改善基站的拥塞程度,而且由于强化学习Q值矩阵中包含有以往调整P值的经验,因此P值调整过程中根据强化学习Q值矩阵中的Q值确定每次调整P值所用的动作可有效提高P值的收敛速度,从而使基站更快地达到最佳接入状态。

权利要求 :

1.一种设备接入方法,其特征在于,所述方法包括:

获取基站的设备接入状态;

若确定所述设备接入状态为拥塞状态,则执行接入限制参数P值调整过程,并将每次P值调整后得到的P值发送给所述基站下的各个设备,直至所述基站的设备接入状态为不拥塞状态;

其中,所述每次P值调整采用的动作是根据强化学习Q值矩阵中的Q值和所述P值调整前所述基站的设备接入状态确定的;

所述执行P值调整过程,并将每次P值调整后得到的P值发送给所述基站下的各个设备,包括:根据第k次P值调整前所述基站的设备接入状态Sk和所述强化学习Q值矩阵中的Q值,确定所述第k次P值调整采用的动作Yk(l),其中,所述k为正整数;

k

采用所述动作Y(l)调整所述P值,并将调整后的P值发送给所述各个设备;

获取所述第k次P值调整后所述基站的设备接入状态Sk+1,并根据所述设备接入状态Sk和所述设备接入状态Sk+1,更新所述强化学习Q值矩阵中在所述设备接入状态Sk下采用的所述动作Yk(l)对应的Q值。

2.根据权利要求1所述的方法,其特征在于,所述获取基站的设备接入状态,包括:根据所述基站当前的申请接入设备数和最优接入设备数,确定所述基站的设备接入状态。

3.根据权利要求1所述的方法,其特征在于,所述根据第k次P值调整前所述基站的设备接入状态Sk和所述强化学习Q值矩阵中的Q值,确定所述第k次P值调整采用的动作Yk(l),包括:确定从预设的各个可选动作中选择所述设备接入状态Sk对应的Q值最大的动作的概率;

其中,所述概率与所述k正相关;

根据所述概率以及所述预设的各个可选动作,确定所述动作Yk(l)。

4.根据权利要求1所述的方法,其特征在于,所述根据所述设备接入状态Sk和所述设备接入状态Sk+1,更新所述强化学习Q值矩阵中在所述设备接入状态Sk下采用的所述动作Yk(l)对应的Q值,包括:确定在所述设备接入状态Sk下采用所述动作Yk(l)对应的转移增益;

根据所述转移增益、所述强化学习Q值矩阵中所述设备接入状态Sk+1对应的最大Q值、所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,获得更新后所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值。

5.根据权利要求4所述的方法,其特征在于,根据所述转移增益、所述强化学习Q值矩阵k+1 k k中所述设备接入状态S 对应的最大Q值、所述设备接入状态S下采用所述动作Y (l)对应的Q值,获得更新后所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,满足如下公式:其中,Q(Sk,Yk(l))为在所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,α为学习k k k k因子,且0<α<1,Rs(S ,Y (l))为在所述设备接入状态S下采用所述动作Y (l)对应的转移增益,γ为折扣因子,且0<γ<1,Y(l)为预设的各个可选动作中所述设备接入状态Sk+1对应的Q值最大的动作, 为所述设备接入状态Sk+1对应的最大的Q值。

6.根据权利要求1所述的方法,其特征在于,所述更新所述强化学习Q值矩阵中在所述k k设备接入状态S下采用所述动作Y(l)对应的Q值之后,还包括:若确定所述强化学习Q值矩阵相对于设备接入状态S1收敛,则在所述第k次P值调整之后的任一次P值调整中,从预设的各个可选动作中选择所述任一次P值调整前的设备接入状态对应Q值最大的动作,其中,所述设备接入状态S1为第1次P值调整前所述基站的设备接入状态。

7.根据权利要求6所述的方法,其特征在于,所述确定所述强化学习Q值矩阵相对于设备接入状态S1收敛,包括:确定前k次P值调整中,P值调整前基站的设备接入状态与所述设备接入状态S1相同且相对所述第k次P值调整最近的三次P值调整;

若确定所述三次P值调整采用的动作满足预设的收敛条件,则确定所述强化学习Q值矩阵相对于所述设备接入状态S1收敛。

8.根据权利要求7所述的方法,其特征在于,所述收敛条件具体包括:其中,Yn(l)为所述三次P值调整中距离所述第k次P值调整时间最近的一次P值调整采用n-1 n-2的动作,Y (l)为距离所述第k次P值调整时间第二近的P值调整采用的动作,Y (l)为距离所述第k次P值调整时间第三近的P值调整采用的动作,ε为预设的比较阈值,且ε>0。

9.一种设备接入装置,其特征在于,所述装置包括:

获取模块,用于获取基站的设备接入状态;

处理模块,用于若确定所述设备接入状态为拥塞状态,则执行接入限制参数P值调整过程,并将每次P值调整后得到的P值通过收发模块发送给所述基站下的各个设备,直至所述基站的设备接入状态为不拥塞状态;其中,所述每次P值调整采用的动作是根据强化学习Q值矩阵中的Q值和所述P值调整前所述基站的设备接入状态确定的;

所述处理模块,具体用于:

根据第k次P值调整前所述基站的设备接入状态Sk和所述强化学习Q值矩阵中的Q值,确定所述第k次P值调整采用的动作Yk(l),其中,所述k为正整数;

采用所述动作Yk(l)调整所述P值,并将调整后的P值发送给所述各个设备;

获取所述第k次P值调整后所述基站的设备接入状态Sk+1,并根据所述设备接入状态Sk和所述设备接入状态Sk+1,更新所述强化学习Q值矩阵中在所述设备接入状态Sk下采用的所述动作Yk(l)对应的Q值。

10.一种接入控制设备,其特征在于,包括:

存储器,用于存储程序指令;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如权利要求1至

8中任一项所述的方法。

11.一种计算机存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如权利要求1至8中任一项所述的方法。

说明书 :

一种设备接入方法、装置及接入控制设备

技术领域

[0001] 本发明涉及无线通信技术领域,尤其涉及一种设备接入方法、装置及接入控制设备。

背景技术

[0002] 随着现代通信技术向物联网的发展,MTC(machine type communication,机器类通信)设备大量剧增,其数量已超过了H2H(Human-to-Human,人与人通信)设备。这些MTC设备的通信是智慧城市、智能电网发展的基础,但也对现有的无线通信网络造成了很大的负载。MTC设备的接入,会造成现有的H2H设备以及对时延要求比较严格的M2M(Machine-to-Machine,机器间通信)设备的时延增大,特别是当接入量很大时,严重时会造成基站控制单元不能及时有效的处理大量数据,导致基站长时间不能正常的工作。
[0003] 为了解决MTC设备的随机接入拥塞问题,3GPP(3rd Generation Partnership Project,第三代合作伙伴计划)组织在TS22.011V11.0.0.(chapter 4.3.4)中提出了ACB(Access Class Barring,接入类型限制)算法,ACB定义了16种接入类型,其中一些接入类型为高优先级的应用保留。当网络负载较重时,基站会将ACB参数作为系统信息的一部分向小区内的设备广播,这些参数包括不同接入类型的接入概率和退避时间。ACB的原理是基站根据当前网络负载情况设定一个接入等级限制参数P(0≤P≤1)。各设备在随机接入之前产生一个0-1之间的随机数,设备随机数小于接入等级限制参数P值,进行随机接入,若大于随机数,则在下一时刻继续产生随机数再进行接入。所以当大量设备涌入接入时,可以使得网络负载情况得到缓解,接入成功率以及吞吐量得到优化。然而,现行接入等级限制算法在分类反馈过程中,处理数据比较复杂,大量设备涌入的时候,不能保证接入网络处于最优的状态,而且由于网络调整接入等级限制参数P的过程的先验知识较少导致P值的调整没有趋于最优、收敛速度慢,并使得基站的全局接入状态较差,无法满足各设备的时延需求。
[0004] 综上所述,目前亟需要一种设备接入方法,用以解决现有的随机接入技术无法动态调整P值,使得基站的接入状态较差,容易发生拥塞的技术问题。

发明内容

[0005] 本发明提供一种设备接入方法、装置及接入控制设备,用以解决现有的随机接入技术无法动态调整P值,使得基站的接入状态较差,容易发生拥塞的技术问题。
[0006] 本发明实施例提供的一种设备接入方法,包括:
[0007] 获取基站的设备接入状态;
[0008] 若确定所述设备接入状态为拥塞状态,则执行接入限制参数P值调整过程,并将每次P值调整后得到的P值发送给所述基站下的各个设备,直至所述基站的设备接入状态为不拥塞状态;
[0009] 其中,所述每次P值调整采用的动作是根据强化学习Q值矩阵中的Q值确定的。
[0010] 可选地,所述获取基站的设备接入状态,包括:
[0011] 根据基站当前的申请接入设备数和最优接入设备数,确定所述基站的设备接入状态。
[0012] 可选地,所述执行P值调整过程,并将每次P值调整后得到的P值发送给所述基站下的各个设备,包括:
[0013] 根据第k次P值调整前所述基站的设备接入状态Sk和所述强化学习Q值矩阵中的Q值,确定所述第k次P值调整采用的动作Yk(l),其中,所述k为正整数;
[0014] 采用所述动作Yk(l)调整所述P值,并将调整后的P值发送给所述各个设备;
[0015] 获取所述第k次P值调整后所述基站的设备接入状态Sk+1,并根据所述设备接入状态Sk和所述设备接入状态Sk+1,更新所述强化学习Q值矩阵中在所述设备接入状态Sk下采用的所述动作Yk(l)对应的Q值。
[0016] 可选地,所述根据第k次P值调整前所述基站的设备接入状态Sk和所述强化学习Qk值矩阵中的Q值,确定所述第k次P值调整采用的动作Y(l),包括:
[0017] 确定从预设的可选动作中选择所述设备接入状态Sk对应的Q值最大的动作的概率;其中,所述概率与所述k正相关;
[0018] 根据所述概率以及所述预设的各个可选动作,确定所述动作Yk(l)。
[0019] 可选地,所述根据所述设备接入状态Sk和所述设备接入状态Sk+1,更新所述强化学习Q值矩阵中在所述设备接入状态Sk下采用的所述动作Yk(l)对应的Q值,包括:
[0020] 确定在所述设备接入状态Sk下采用所述动作Yk(l)对应的转移增益;
[0021] 根据所述转移增益、所述强化学习Q值矩阵中所述设备接入状态Sk+1对应的最大Q值、所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,获得更新后所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值。
[0022] 可选地,根据所述转移增益、所述强化学习Q值矩阵中所述设备接入状态Sk+1对应的最大Q值、所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,获得更新后所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,满足如下公式:
[0023]
[0024] 其中,Q(Sk,Yk(l))为在所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,α为学习因子,且0<α<1,Rs(Sk,Yk(l))为在所述设备接入状态Sk下采用所述动作Yk(l)对应的转移增益,γ为折扣因子,且0<γ<1,Y(l)为预设的各个可选动作中所述设备接入状态Sk+1对应的Q值最大的动作, 为所述设备接入状态Sk+1对应的最大的Q值。
[0025] 可选地,所述更新所述强化学习Q值矩阵中在所述设备接入状态Sk下采用所述动k作Y(l)对应的Q值之后,还包括:
[0026] 若确定所述强化学习Q值矩阵相对于设备接入状态S1收敛,则在所述第k次P值调整之后的任一次P值调整中,从所述预设的各个可选动作中选择所述任一次P值调整前的设备接入状态对应Q值最大的动作,其中,所述设备接入状态S1为第1次P值调整前所述基站的设备接入状态。
[0027] 可选地,确定前k次P值调整中,P值调整前基站的设备接入状态与所述设备接入状态S1相同且相对所述第k次P值调整最近的三次P值调整;
[0028] 若确定所述三次P值调整采用的动作满足预设的收敛条件,则确定所述强化学习Q值矩阵相对于所述设备接入状态S1收敛。
[0029] 可选地,所述收敛条件具体包括:
[0030]
[0031] 其中,Yn(l)为所述三次P值调整中距离所述第k次P值调整时间最近的一次P值调整采用的动作,Yn-1(l)为距离所述第k次P值调整时间第二近的P值调整采用的动作,Yn-2(l)为距离所述第k次P值调整时间第三近的P值调整采用的动作,ε为预设的比较阈值,且ε>0。
[0032] 基于同样的发明构思,本发明还提供一种设备接入装置,包括:
[0033] 获取模块,用于获取基站的设备接入状态;
[0034] 处理模块,用于若确定所述设备接入状态为拥塞状态,则执行接入限制参数P值调整过程,并将每次P值调整后得到的P值通过收发模块发送给所述基站下的各个设备,直至所述基站的设备接入状态为不拥塞状态;其中,所述每次P值调整采用的动作是根据强化学习Q值矩阵中的Q值确定的。
[0035] 可选地,所述获取模块具体用于:
[0036] 根据所述基站当前的申请接入设备数和最优接入设备数,确定所述基站的设备接入状态。
[0037] 可选地,所述处理模块具体用于:
[0038] 根据第k次P值调整前所述基站的设备接入状态Sk和所述强化学习Q值矩阵中的Q值,确定所述第k次P值调整采用的动作Yk(l),其中,所述k为正整数;
[0039] 采用所述动作Yk(l)调整所述P值,并将调整后的P值通过收发模块发送给所述各个设备;
[0040] 通过所述获取模块获取所述第k次P值调整后所述基站的设备接入状态Sk+1,并根据所述设备接入状态Sk和所述设备接入状态Sk+1,更新所述强化学习Q值矩阵中在所述设备接入状态Sk下采用的所述动作Yk(l)对应的Q值。
[0041] 可选地,所述处理模块具体还用于:
[0042] 确定从预设的可选动作中选择所述设备接入状态Sk对应的Q值最大的动作的概率;其中,所述概率与所述k正相关;
[0043] 根据所述概率以及所述预设的各个可选动作,确定所述动作Yk(l)。
[0044] 可选地,所述处理模块具体还用于:
[0045] 确定在所述设备接入状态Sk下采用所述动作Yk(l)对应的转移增益;
[0046] 根据所述转移增益、所述强化学习Q值矩阵中所述设备接入状态Sk+1对应的最大Q值、所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,获得更新后所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值。
[0047] 可选地,所述处理模块具体还用于通过如下公式获得更新后所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值:
[0048]
[0049] 其中,Q(Sk,Yk(l))为在所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,α为学习因子,且0<α<1,Rs(Sk,Yk(l))为在所述设备接入状态Sk下采用所述动作Yk(l)对应的转移增益,γ为折扣因子,且0<γ<1,Y(l)为预设的各个可选动作中所述设备接入状态Sk+1对应的Q值最大的动作, 为所述设备接入状态Sk+1对应的最大的Q值。
[0050] 可选地,所述处理模块还用于:
[0051] 若确定所述强化学习Q值矩阵相对于设备接入状态S1收敛,则在所述第k次P值调整之后的任一次P值调整中,从所述预设的各个可选动作中选择所述任一次P值调整前的设1
备接入状态对应Q值最大的动作,其中,所述设备接入状态S为第1次P值调整前所述基站的设备接入状态。
[0052] 可选地,所述处理模块具体还用于:
[0053] 确定前k次P值调整中,P值调整前基站的设备接入状态与所述设备接入状态S1相同且相对所述第k次P值调整最近的三次P值调整;
[0054] 若确定所述三次P值调整采用的动作满足预设的收敛条件,则确定所述强化学习Q值矩阵相对于所述设备接入状态S1收敛。
[0055] 可选地,所述收敛条件具体包括:
[0056]
[0057] 其中,Yn(l)为所述三次P值调整中距离所述第k次P值调整时间最近的一次P值调整采用的动作,Yn-1(l)为距离所述第k次P值调整时间第二近的P值调整采用的动作,Yn-2(l)为距离所述第k次P值调整时间第三近的P值调整采用的动作,ε为预设的比较阈值,且ε>0。
[0058] 本发明另一实施例提供了一种接入控制设备,其包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序执行上述任一种方法。
[0059] 本发明另一实施例提供了一种计算机存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行上述任一种方法。
[0060] 本发明实施例提供的设备接入方法包括,获取基站的设备接入状态,若确定所述设备接入状态为拥塞状态,则执行接入限制参数P值调整过程,将每次P值调整后得到的P值发送给所述基站下的各个设备,直至所述基站的设备接入状态变为不拥塞状态。如此,在基站处于拥塞的接入状态下时,通过执行P值调整过程动态地调整P值可有效地改善基站的拥塞程度,而且由于强化学习Q值矩阵中包含有以往调整P值的经验,因此P值调整过程中根据强化学习Q值矩阵中的Q值确定每次调整P值所用的动作可有效提高P值的收敛速度,从而使基站更快地达到最佳设备接入状态。

附图说明

[0061] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0062] 图1为本发明实施例提供的设备接入方法适用的系统架构图;
[0063] 图2为本发明实施例提供的一种设备接入方法所对应的流程示意图;
[0064] 图3为本发明实施例中提供的确定基站的接入状态的方法所对应的流程示意图;
[0065] 图4为本发明实施例提供的基站的资源参数示意图;
[0066] 图5为本发明实施例中竞争接入设备数与接入成功概率之间的关系图;
[0067] 图6为本发明实施例中竞争接入设备数与成功接入设备数之间的关系图;
[0068] 图7为本发明实施例中提供的状态转移增益矩阵的示意图;
[0069] 图8为本发明实施例中提供的一种状态转移增益矩阵的示意图;
[0070] 图9为本发明实施例提供的一种设备接入装置的结构示意图;
[0071] 图10为本发明实施例提供的一种接入控制设备的结构示意图。

具体实施方式

[0072] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例,仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0073] 下面结合说明书附图对本发明实施例做进一步详细描述。
[0074] 本发明实施例中提供的设备接入方法应用在机器类通信设备的随机接入领域。图1为本发明实施例提供的设备接入方法适用的系统架构图,如图1所示,系统中包括设备接入装置101、基站102,以及多种类型的机器类通信设备(如图中所示的103至110)。
[0075] 其中,所述基站可以是2G、3G、4G、LTE-M(Long Term Evolution Machine to Machine,基于长期演进的物联网技术)、NB-IOT(Narrow Band Internet of Things,窄带物联网)等多种制式的通信系统或物联网系统中的基站,本发明对此不做具体限制。
[0076] 所述设备接入装置可以是独立于基站设置的智能设备,该装置与基站的无线通信单元(如RRU(Radio Remote Unit,射频拉远单元))建立有通信连接,通过该通信连接获取基站的资源和接入情况。或者,该设备接入装置还可以嵌入在基站内部的RRU中,直接获取基站的资源和接入情况,本发明对此不做具体限制。
[0077] 所述机器类通信设备是如智能手机、平板电脑等通信设备,也可以是如智能水表、电表、停车管理模块等多种类型的物联网设备,此发明对此不做具体限制,这些机器类通信设备中设置有无线通信模块,通过无线网络与基站通信。
[0078] 图2示出了本发明实施例中提供的一种设备接入方法所对应的流程示意图,该设备接入方法具体由上述系统架构中的设备接入装置来执行,如图2所示,所述方法包括:
[0079] 步骤S201:获取基站的设备接入状态;
[0080] 步骤S202:若确定所述设备接入状态为拥塞状态,则执行接入限制参数P值调整过程,并将每次P值调整后得到的P值发送给所述基站下的各个设备,直至所述基站的接入状态变为不拥塞状态;其中,所述每次P值调整采用的动作是根据强化学习Q值矩阵中的Q值确定的。
[0081] 如此,在基站处于拥塞的设备接入状态下时,通过执行P值调整过程动态地调整P值可有效地改善基站的拥塞程度,而且由于强化学习Q值矩阵中包含有以往调整P值的经验,因此P值调整过程中根据强化学习Q值矩阵中的Q值确定每次调整P值所用的动作可有效提高P值的收敛速度,从而使基站更快地达到最佳接入状态,整体效益更高。
[0082] 在步骤S201中,设备接入装置可通过与基站的无线通信单元的通信连接获取基站当前的接入情况和接入能力,从而确定出设备接入状态。
[0083] 具体的,基站的设备接入状态是根据当前的申请接入设备数和最优接入设备数确定的,其中申请接入设备数是当前系统中实际竞争接入设备数,最优接入设备数是当前系统中的最优竞争接入设备数,如图3所示,确定设备接入状态可包括如下的步骤S301至步骤S303:
[0084] 步骤S301:获取当前的申请接入设备数和最优接入设备数;
[0085] 最优接入设备数,即最优竞争接入设备基站实际接入最大设备数时竞争的设备数量,用于表征基站当前的接入能力。该最优接入设备数是设备接入装置根据基站当前的资源情况确定的。图4为本发明实施例提供的基站的资源参数的示意图,如图4所示,基站的资源情况包括如下的任意一项或多项资源参数:
[0086] 可用前导码数量、前导码的最大重传次数、各个设备的接入请求到达速率、随机接入时隙分配周期、退避参数、随机接入响应窗口长度。
[0087] 本发明实施例中,设备接入装置可通过与基站的通信连接确定出当前的实际竞争接入设备数,以及基站的当前的资源情况。随后,通过对基站当前的资源情况进行仿真模拟,得到当前的最优竞争接入设备数。
[0088] 图5示例性给出了本发明实施例中的实际竞争接入设备数与接入成功概率之间的关系图,如图5所示,在申请接入设备数小于最大竞争接入设备数时,接入成功概率保持在1不变,随着实际竞争接入设备数的增大,当实际竞争接入设备数大于等于最大竞争设备数时,接入成功概率迅速降低。在实际竞争接入设备数等于最大竞争接入设备数的转折点的位置上时,接入成功概率的变化率最大,而随着实际竞争接入设备数的增大,变化率逐渐降低,并最终趋近于0。
[0089] 图6示例性给出了本发明实施例中的实际竞争接入设备数与成功接入设备数之间的关系图,如图6所示,在实际竞争接入设备数小于最大竞争接入设备数时,成功接入设备数随着实际竞争接入设备数的增大而线性增大,随着实际竞争接入设备数的增大,当实际竞争接入设备数大于等于最大竞争接入设备数后,成功接入设备数随着实际竞争接入设备数的增大而降低,并且成功接入设备数在实际竞争接入设备数处于最大竞争接入设备数的转折点附近时,下降幅度最大。
[0090] 结合图5和图6,本发明实施例中的最优竞争接入设备数大于最大竞争接入设备数,为在设定接入成功率下成功接入基站的实际竞争接入设备数,该设定接入成功率略小于1。也就是说,最优竞争接入设备数与最大竞争接入设备数在数值上很接近,是在图5和图6中所示曲线中竞争接入设备数大于最大竞争接入设备数之后的下降部分中靠近转折点附近的某一具体数值。
[0091] 本发明实施例中,设定接入成功率可由本领域技术人员具体设置,本发明对此不做具体限制。可选地,可以将设定成功率取98.9%或是其他接近的数值。
[0092] 步骤S302:根据实际竞争接入设备数和最优竞争接入设备数,计算得到拥塞程度值。
[0093] 本发明实施例中,可通过如下的公式一计算拥塞程度值:
[0094]
[0095] 其中,P为拥塞程度值,N为实际竞争接入设备数,N0为最优竞争接入设备数。
[0096] 根据公式一可以看出,拥塞程度值可以看做是实际竞争接入设备数偏离最优竞争接入设备数的权重值,当实际竞争接入设备数小于最优竞争接入设备数时,基站未发生拥塞,接入成功概率为1,所有申请接入的设备均能成功接入基站,因而,通过上述公式一计算得到的拥塞程度值为负值。而当实际竞争接入设备数大于最优竞争接入设备数,基站存在一定程度的拥塞,接入成功概率小于等于1,由于申请接入的设备数量超过了基站的接入能力,因而,会存在一定数量的设备无法成功接入,通过上述公式一计算得到的拥塞程度值为正值。
[0097] 步骤S303:确定所述拥塞程度值所属的拥塞程度值区间,根据所述拥塞程度值区间以及各个拥塞程度值区间与设备接入状态之间的对应关系,确定出所述基站的设备接入状态。
[0098] 本发明实施例中,基站中预先设定有所有可能的设备接入状态,每个设备接入状态对应一个拥塞程度值区间。处于同一个拥塞程度值区间内的各个拥塞程度值由于相互之间差距较小,可以认为是属于同一个拥塞级别,而基站的一个设备接入状态对应一个拥塞级别,因而,可根据通过上述公式一计算得到的拥塞程度值,判断基站当前的拥塞级别,从而确定出基站的设备接入状态。
[0099] 例如,若基站所有可能的拥塞级别为[0,L],l∈[0,L],其中,L表示基站的最高拥塞级别,l为其中的某一个拥塞级别,l和L均为大于等于1的正整数。每一个拥塞级别都对应了基站的一个设备接入状态,当拥塞级别为0时,表示基站不拥塞,即对应的设备接入状态也属于不拥塞状态,当拥塞级别为大于0时,表示基站发生了拥塞,对应的设备接入状态属于拥塞状态。
[0100] 由上述公式一还可以看出,计算得到的拥塞程度值为连续的数值,而各个拥塞级别则是正整数,因此,可通过基站中预先设定的各个拥塞程度值与设备接入状态(即拥塞级别)之间的对应关系,对计算得到的拥塞程度值进行量化,从而确定出基站当前的设备接入状态。
[0101] 如此,基站一共具有L+1种拥塞级别,即L+1种可能的设备接入状态,本发明实施例中,本领域技术人员可根据实际需要对设备接入状态的数量(即拥塞级别的数量)进行设置,本发明对此不做具体限制。
[0102] 此外,本发明实施例中,当拥塞级别为0时对应的拥塞程度值区间为[-∞,0],而其他拥塞级别对应的拥塞程度值区间的范围可由本领域技术人员具体设置,本发明对此不做具体限制。例如,可以将各个非零的拥塞级别对应的拥塞程度值区间设置为大小均等的区间,或者也可以将各个非零的拥塞级别对应的拥塞程度值区间设置为大小不均等,但随着拥塞级别的增大区间大小也逐渐变小的区间,即拥塞级别越高,对应的拥塞程度值区间的范围就越小。
[0103] 本发明实施例中,设备接入装置仅对基站处于拥塞的设备接入状态时的P值进行调整,因此,在步骤S102中,若确定设备接入状态为拥塞状态,则触发执行接入限制参数P值的调整过程。而若确定设备接入状态为不拥塞状态,则不调整当前的P值。其中,上述拥塞状态是指对应的拥塞级别属于[1,L]的接入状态,而不拥塞状态是指对应的拥塞级别为0的设备接入状态。
[0104] 由于不同时刻申请接入基站的设备数量可能不同,基站的接入状态可能是实时变化的,因此,本发明实施例中的设备接入装置可以周期性地去获取基站的接入状态,从而在确定基站的接入状态为拥塞时,触发P值调整过程。
[0105] 本发明实施例中,设备接入装置可以在确定出当前的设备接入状态为拥塞状态后,才去获取基站当前的P值,也可以是设备接入装置通过与基站的通信连接,确定基站当前的设备接入状态的同时获取到的,本发明对此不做具体限制。
[0106] 具体的,上述P值调整过程包括多次P值调整,每次P值调整可看做是整体P值调整过程中的一次循环。每次P值调整中均将调整后得到的P值发送给接入基站的各个设备,直至基站的设备接入状态变为不拥塞状态。
[0107] 图7示例性给出了本发明实施例中的P值调整过程的流程示意图,如图7所示,P值调整过程具体包括如下步骤S701至步骤S704:
[0108] 步骤S701:根据第k次P值调整前所述基站的设备接入状态Sk和所述强化学习Q值k矩阵中的Q值,确定所述第k次P值调整采用的动作Y(l),其中,所述k为正整数;
[0109] 步骤S702:采用所述动作Yk(l)调整所述P值,并将调整后的P值发送给所述各个设备;
[0110] 步骤S703:获取所述第k次P值调整后所述基站的设备接入状态Sk+1,并根据所述设备接入状态Sk和所述设备接入状态Sk+1,更新所述强化学习Q值矩阵中在所述设备接入状态Sk下采用的所述动作Yk(l)对应的Q值;
[0111] 步骤S704:若确定设备接入状态Sk+1为不拥塞状态,则结束P值调整过程,否则进行第k+1次P值调整。
[0112] 本发明实施例,采用了Q学习的思想来调整P值,P值调整过程为一个包含多次循环的调整过程。在每一次循环为一次P值调整,在该次P值调整中根据之前的多次P值调整中学习到的经验来选择在本次P值调整改变P值采用的动作。
[0113] 设备接入装置中预先设置有一个强化学习Q值矩阵和一个用来调整P值的动作集合。其中,强化学习Q值矩阵用来记录从以往调整P值的循环中学习到的经验,该强化学习Q值矩阵中的每一行标识基站的一个设备接入状态,每一列标识基站调整P值的动作集合中的一个动作,在强化学习Q值矩阵中第i行第j列中的Q值表示在状态Si下选择动作集合中的第j个动作Yj调整P值对应的Q值。Q值越高表示在状态Si选择动作Yj到达最终目标(即不拥塞状态)成功率越高,即选择动作Yj后整个系统的效益更高。该强化学习Q值矩阵在上述P值调整过程开始执行时(即第一次P值调整前)被初始化0,之后每经过一次P值调整,都会相应地调整其中的Q值。
[0114] 基站中用来调整P值的动作集合可以为{Y(-H),…Y(-1),Y(0),Y(1),…,Y(H)}的形式,其中,每个动作均对应一个P值调整量,该P值调整量可以为正数、负数,也可以为0。可见,选择增大P值的动作进行调整后会让更多地设备接入,反之,选择降低P值的动作进行调整后会减少接入的设备的数量。
[0115] 本发明实施例中,本领域技术人员可对动作集合中各个动作所对应的P值调整量进行具体地设置,本发明对此不做具体限制。例如,可以将P值调整的单位规定为0.01,规定动作Y(1)表示将P值增大0.01,动作Y(-1)表示将P值减小0.01,依此类推。
[0116] 为了描述地清楚、简便,下面仅以其中的任一次P值调整(即第k次P值调整)来介绍整个P值调整过程。
[0117] 在每一次P值调整中,设备接入装置都会调整一次P值,并将调整后的P值下发给基站下的各个设备,设备接收到调整后的P值后,会决定自身是否申请接入,因此,每经一次循环,基站的设备接入状态也会相应地发生变化。
[0118] 在步骤S701中,在第k次P值调整中,设备接入装置根据第k次P值调整前基站的设备接入状态Sk和强化学习Q值矩阵中的Q值,确定第k次P值调整采用的动作Yk(l)。其中,k=1时,设备接入状态S1即为步骤S201中获取的设备接入状态,即触发P值调整过程的设备接入状态,也是第一次P值调整前基站的设备接入状态。
[0119] 具体如下:若强化学习Q值矩阵没有相对设备接入状态S1收敛,则根据所述k,确定出在预设的各个可选动作中选择设备接入状态Sk对应的Q值最大的动作的概率。随后,根据确定出的概率以及预设的各个可选动作,确定动作Yk(l)。
[0120] 其中,k是指当前的第k次P值调整在整个P值调整过程中是第几次P值调整。
[0121] 本发明实施例中,基站的所有可能的设备接入状态下的可选动作均相同。因此,上述设备接入状态Sk的各个可选动作即为基站调整P值的动作集合中的各个动作。当然,本领域技术人员也可对基站可能的设备接入状态下对应的可选动作进行具体的设置,各个接入状态对应的可选动作可因其拥塞级别的不同而不同,本发明对此不做具体限制。
[0122] 本发明实施例中,由于强化学习Q值矩阵在P值调整过程开始时被初始化为0,而刚初始化后的强化学习Q值矩阵并不能为第1次P值调整如何选择动作进行指导,因而,在第1次P值调整中设备接入装置随机选择动作集合中的一个动作作为开始,触发该P值调整过程。
[0123] 随后,为了获得更多调整P值的经验,设备接入装置将尽可能地对动作集合中的各个动作进行试错,因而,在之后的P值调整中,设备接入装置仍会按照一定的概率随机选取动作,按照一定的概率选取在该P值调整的设备接入状态Sk下Q值最大的动作。随着k的逐渐增大,强化学习Q值矩阵中包含的P值调整经验越来越丰富多,因而可逐渐增大选择Q值最大的那个动作的概率,相应减小随机选择动作的几率。
[0124] 可见,本发明实施例中在选择动作Yk(l)时,将设备接入状态Sk的各个可选动作中Q值最大的动作作为动作Yk(l)的概率与第k次P值调整的k值正相关,设备接入装置可在确定出选择Q值最大的动作的概率后,再结合设备接入状态Sk的各个可选动作,最终确定出动作Yk(l)。
[0125] 若强化学习Q值矩阵已经相对设备接入状态S1收敛,则表示在之前的多次P值调整中已经学习到了将设备接入状态S1调整到不拥塞状态的最优策略,于是,在之后的任一次P值调整中都将选择预设的各个可选动作中,该任一次P值调整前设备接入状态对应Q值最大的那个动作,作为在该任一次P值调整中采用的动作。
[0126] 在步骤S702中,设备接入装置基于在第k次P值调整中选择的动作Yk(l)调整P值,调整后得到的P值等于基站当前的P值加上所选的动作Yk(l)对应的P值调整量,随后将调整后的P值发送给基站下的各个设备。
[0127] 设备接收到基站调整后的P值后,可采用现有技术中的方法判断是否申请接入基站。即设备自身随机产生一个P值,将自身产生的P值与基站下发的P值进行比较,如果自身产生的P值小于等于基站下发的P值,则向基站发送申请接入请求,否则不发送申请接入请求,等待一段时间后,再次判断是否申请接入基站。
[0128] 在步骤S703中,设备接入装置可按照在上述步骤S201中所述的获取基站设备接入状态的方法,获取基站的设备接入状态Sk+1,该设备接入状态Sk+1是指在第k次P值调整中采用动作Yk(l)调整P值后,基站的设备接入状态发生了改变,基站到达的新的设备接入状态。k+1
如果该设备接入状态S 仍是拥塞状态,表示P值调整过程继续进行,在这种情况下,该设备接入状态Sk+1也是第k+1次P值调整前基站的设备接入状态。
[0129] 获取到基站的设备接入状态Sk+1后,设备接入装置还可根据设备接入状态Sk和设备接入状态Sk+1,更新强化学习Q值矩阵中在设备接入状态Sk下采用动作Yk(l)对应的Q值,具体包括:
[0130] 首先确定在设备接入状态Sk下选择动作Yk(l)对应的转移增益。本发明实施例中,设备接入装置可根据预先设定的转移增益函数确定该转移增益,或者也可以根据图8中所示出的转移增益矩阵确定该转移增益,本发明对此不做具体限制。
[0131] 以图8中的转移增益矩阵为例,该转移增益的每一行标识基站在第k次P值调整前的设备接入状态Sk,每一列标识采用动作Yk(l)调整P值后基站达到的设备接入状态Sk+1,而第i行第j列中的数值表示基站的设备接入状态由Si转移到状态Sj对应的转移增益。
[0132] 由图8可以看出,基站的设备接入状态由低拥塞级别转移到高拥塞级别时,对应的转移增益为负值,且转移到的设备接入状态的拥塞级别越高对应的转移增益越小。基站的设备接入状态由高拥塞级别转移到低拥塞级别时对应的转移增益为正值,且转移到的设备接入状态的拥塞级别越低对应的转移增益越大。若P值调整后基站的设备接入状态不变,则对应的转移增益为零。
[0133] 随后,根据选择动作Yk(l)所带来的转移增益、强化学习Q值矩阵中设备接入状态Sk+1对应的最大Q值、设备接入状态Sk采用所述动作Yk(l)对应的Q值Q值,通过如下公式,计算得到更新后设备接入状态Sk对应所述动作Yk(l)的Q值:
[0134]
[0135] 其中,Sk为第k次P值调整前基站的设备接入状态,Yk(l)为在第k次P值调整中选择k k k k的第一动作;Q(S ,Y (l))为在设备接入状态S下采用动作Y (l)对应的Q值,且等号右边的Q(Sk,Yk(l))表示矩阵更新前该设备接入状态Sk对应动作Yk(l)的Q值,等号左边的Q(Sk,Yk(l))表示矩阵更新后该设备接入状态Sk对应动作Yk(l)的Q值;α为学习因子,它为取值范围在(0,1)之间的实数,α越大表示保留之前训练的效果越少,越重视在当前的第k次P值调整中选择动作Yk(l)后所带来的回报,即选择动作Yk(l)所带来的转移增益和更新后到达的设备接入状态Sk+1的Q值在矩阵更新后的Q值中占的比例越高,反之,α越小表示越重视在之前的P值调整中学习到的经验,即更新前的Q值在更新后的Q值中占的比例越高;Rs(Sk,Yk(l))为在设备接入状态Sk下采用动作Yk(l)对应的转移增益,γ为折扣因子,且0<γ<1,γ越大,越重视经验,Sk+1为在第k次P值调整后基站到达的新的设备接入状态,Y(l)为在强化学习Q值矩阵中设备接入状态Sk+1的各个可选动作中对应最大Q值的动作, 为
设备接入状态Sk+1对应的最大Q值,即在设备接入状态Sk+1下对应动作Y(l)的Q值。
[0136] 本发明实施例中,本领域技术人员可根据实际需求对计算Q值的公式中上述学习因子和折扣因子的具体数值进行合理地设置,本发明对此不做具体限制。
[0137] 由图8结合上述公式二可以看出,由于设备接入状态Sk为拥塞状态,若选择的动作Yk(l)为增大P值的动作,那么基站将允许更多的设备申请接入基站,在这种情形下,基站的设备接入状态偏离不拥塞状态的情况会愈加严重,即调整P值后的新的设备接入状态Sk+1的拥塞级别会变高,此时带来的转移增益为负值,相当于惩罚;相应地,若选择的动作Yk(l)为减小P值的动作,那么基站将减小允许申请接入基站的设备数量,在这种情形下,基站的设备接入状态偏离不拥塞状态的情况会减轻,即调整P值后的新的设备接入状态Sk+1的拥塞级别变低,此时带来的转移增益为正值,相当于奖励。
[0138] 在步骤S704中,如果经第k次P值调整采用所选的动作Yk(l)调整P值后,得到的基k+1站到达的新的接入状态S 仍为拥塞状态,则继续进行第k+1次P值调整,否则,表示已经将基站的设备接入状态由P值调整过程开始时的设备接入状态S1调整到了不拥塞状态,此时跳出循环,结束P值调整过程。
[0139] 需要说明的是,在步骤S703中更新强化学习Q值矩阵之后,但在执行步骤S704开始下一次循环之前,还包括判断更新后的强化学习Q值矩阵是否相对于第一接入状态收敛的步骤。
[0140] 如前文所述,如果强化学习Q值矩阵已经相对于设备接入状态S1收敛,表示将设备接入状态S1调整到不拥塞状态的最优策略已经找到,强化学习Q值矩阵中的各个Q值已经趋近稳定,因此,在第k次P值调整之后的任一次P值调整中选择该任一次P值调整前基站的设备接入状态的各个可选动作中Q值最大的动作作为调整P值的动作。
[0141] 具体的,设备接入装置通过如下方式判断更新后强化学习Q值是否相对于设备接入状态S1收敛:
[0142] 首先,确定前k次P值调整中,P值调整前基站的设备接入状态与所述设备接入状态S1相同且相对所述第k次P值调整时间最近的三次P值调整;
[0143] 随后,判断这三次P值调整中采用的动作是否满足如下预设的收敛条件,如果满足收敛条件,则说明每次转移到新的设备接入状态时,所选的动作的变化幅度都很小(各次循环中所选的动作的P值调整量都较为接近),此时,可认为强化学习Q值矩阵中的各个Q值已基本不变,更新后的强化学习Q值矩阵相对于设备接入状态S1收敛。
[0144] 所述预设的收敛条件满足如下公式:
[0145]
[0146] 其中,Yn(l)为所述三次P值调整中距离所述第k次P值调整时间最近的一次P值调整采用的动作,Yn-1(l)为距离所述第k次P值调整时间第二近的P值调整采用的动作,Yn-2(l)为距离所述第k次P值调整时间第三近的P值调整采用的动作,ε为预设的比较阈值,且ε>0。
[0147] 可以看出,由于判断强化学习Q值矩阵是否相对于设备接入状态S1收敛需要至少1
经历3次P值调整前设备接入状态为设备接入状态S的循环,因而,在P值调整过程的前3次循环中,强化学习Q值矩阵必定相对于设备接入状态S1不收敛。
[0148] 而且,由于在确定强化学习Q值矩阵相对于设备接入状态S1收敛前的每次P值调整中,选择动作或更新强化Q值矩阵后都会判断是否满足收敛条件,因此,若在第k次P值调整中第一次确定强化学习Q值矩阵满足了收敛收件,那么该第k次P值调整前的设备接入状态一定为设备接入状态S1。即前k次P值调整中,P值调整前基站的设备接入状态与所述设备接入状态S1相同且相对所述第k次P值调整最近的三次P值调整可以包括第k次P值调整。
[0149] 当然也有可能经过了很多次P值调整,强化学习Q中矩阵仍不收敛,设备接入装置还可设置有一个最大接收次数K,即如果在第k次P值调整后仍不满足收敛条件,但k值已经大于等于最大接收次数K,则认为强化学习Q值矩阵已经相对于设备接入状态S1收敛,结束矩阵训练过程,在之后的每一次P值调整中直接选择强化学习Q值矩阵中的Q值最大的动作调整P值,不再以一定的几率随机选择动作了。
[0150] 基于同样的发明构思,本发明实施例还提供一种设备接入装置,图9为本发明实施例中提供的一种设备接入装置的结构示意图,如图9所示,该设备接入装置900包括:
[0151] 获取模块901,用于获取基站的设备接入状态;
[0152] 处理模块902,用于若确定所述设备接入状态为拥塞状态,则执行接入限制参数P值调整过程,并将每次P值调整后得到的P值通过收发模块903发送给所述基站下的各个设备,直至所述基站的设备接入状态为不拥塞状态;其中,所述每次P值调整采用的动作是根据强化学习Q值矩阵中的Q值确定的。
[0153] 可选地,所述获取模块901具体用于:
[0154] 根据所述基站当前的申请接入设备数和最优接入设备数,确定所述基站的设备接入状态。
[0155] 可选地,所述处理模块902具体用于:
[0156] 根据第k次P值调整前所述基站的设备接入状态Sk和所述强化学习Q值矩阵中的Q值,确定所述第k次P值调整采用的动作Yk(l),其中,所述k为正整数;
[0157] 采用所述动作Yk(l)调整所述P值,并将调整后的P值通过收发模块903发送给所述各个设备;
[0158] 通过所述获取模块901获取所述第k次P值调整后所述基站的设备接入状态Sk+1,并根据所述设备接入状态Sk和所述设备接入状态Sk+1,更新所述强化学习Q值矩阵中在所述设备接入状态Sk下采用的所述动作Yk(l)对应的Q值。
[0159] 可选地,所述处理模块902具体还用于:
[0160] 确定从预设的可选动作中选择所述设备接入状态Sk对应的Q值最大的动作的概率;其中,所述概率与所述k正相关;
[0161] 根据所述概率以及所述预设的各个可选动作,确定所述动作Yk(l)。
[0162] 可选地,所述处理模块902具体还用于:
[0163] 确定在所述设备接入状态Sk下采用所述动作Yk(l)对应的转移增益;
[0164] 根据所述转移增益、所述强化学习Q值矩阵中所述设备接入状态Sk+1对应的最大Q值、所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,获得更新后所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值。
[0165] 可选地,所述处理模块902具体还用于通过如下公式获得更新后所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值:
[0166]
[0167] 其中,Q(Sk,Yk(l))为在所述设备接入状态Sk下采用所述动作Yk(l)对应的Q值,α为学习因子,且0<α<1,Rs(Sk,Yk(l))为在所述设备接入状态Sk下采用所述动作Yk(l)对应的转移增益,γ为折扣因子,且0<γ<1,Y(l)为预设的各个可选动作中所述设备接入状态Sk+1对应的Q值最大的动作, 为所述设备接入状态Sk+1对应的最大的Q值。
[0168] 可选地,所述处理模块902还用于:
[0169] 若确定所述强化学习Q值矩阵相对于设备接入状态S1收敛,则在所述第k次P值调整之后的任一次P值调整中,从所述预设的各个可选动作中选择所述任一次P值调整前的设备接入状态对应Q值最大的动作,其中,所述设备接入状态S1为第1次P值调整前所述基站的设备接入状态。
[0170] 可选地,所述处理模块902具体还用于:
[0171] 确定前k次P值调整中,P值调整前基站的设备接入状态与所述设备接入状态S1相同且相对所述第k次P值调整最近的三次P值调整;
[0172] 若确定所述三次P值调整采用的动作满足预设的收敛条件,则确定所述强化学习Q值矩阵相对于所述设备接入状态S1收敛。
[0173] 可选地,所述收敛条件具体包括:
[0174]
[0175] 其中,Yn(l)为所述三次P值调整中距离所述第k次P值调整时间最近的一次P值调整采用的动作,Yn-1(l)为距离所述第k次P值调整时间第二近的P值调整采用的动作,Yn-2(l)为距离所述第k次P值调整时间第三近的P值调整采用的动作,ε为预设的比较阈值,且ε>0。
[0176] 基于同样的发明构思,本发明实施例还提供另一种接入控制设备,该接入控制设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。如图10所示,该接入控制设备1000可以包括中央处理器(Center Processing Unit,CPU)1001、存储器1002、输入/输出设备1003及总线系统1004等。其中,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
[0177] 存储器可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于存储上述设备接入方法的程序。
[0178] 处理器通过调用存储器存储的程序指令,处理器用于按照获得的程序指令执行上述设备接入方法。
[0179] 基于同样的发明构思,本发明实施例提供了一种计算机存储介质,用于储存为上述接入控制设备所用的计算机程序指令,其包含用于执行上述设备接入方法的程序。
[0180] 所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
[0181] 由上述内容可以看出:
[0182] 本发明实施例提供的设备接入方法包括,获取基站的设备接入状态,若确定所述设备接入状态为拥塞状态,则执行接入限制参数P值调整过程,将每次P值调整后得到的P值发送给所述基站下的各个设备,直至所述基站的设备接入状态变为不拥塞状态。如此,在基站处于拥塞的接入状态下时,通过执行P值调整过程动态地调整P值可有效地改善基站的拥塞程度,而且由于强化学习Q值矩阵中包含有以往调整P值的经验,因此P值调整过程中根据强化学习Q值矩阵中的Q值确定每次调整P值所用的动作可有效提高P值的收敛速度,从而使基站更快地达到最佳设备接入状态。
[0183] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或两个以上其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0184] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或两个以上流程和/或方框图一个方框或两个以上方框中指定的功能的装置。
[0185] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或两个以上流程和/或方框图一个方框或两个以上方框中指定的功能。
[0186] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或两个以上流程和/或方框图一个方框或两个以上方框中指定的功能的步骤。
[0187] 尽管已描述了本发明的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括可选实施例以及落入本发明范围的所有变更和修改。
[0188] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。