一种基于Actor-Critic算法的多智能体异构网络资源优化方法转让专利

申请号 : CN202210202761.X

文献号 : CN114585004B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张茜茜李君刘子怡于心远沈国丽刘兴鑫朱明浩仲星

申请人 : 南京信息工程大学

摘要 :

本发明公开了一种基于Actor‑Critic算法的多智能体异构网络能效优化方法,把异构网络中各个小基站看作为一个智能体,令每个小基站基于Actor‑Critic算法中actor网络根据当前异构网络环境和智能体状态选择合适的动作,通过Critic网络采用策略梯度方法更新其网络参数,对智能体传入动作返回q值给出评价并传递给atcor网络,不断学习更新其网络参数选取最优动作,扩展小基站的连接覆盖范围,使用户能连接到最近的小基站,并将当前时刻的状态信息传递给宏基站,在宏基站覆盖范围内重复部署小基站,使宏基站覆盖盲点的设备连接到相应的小基站以获得更好的信道,还可以将连接到宏基站的一部分设备卸载到相应的小基站,在实现网络负载均衡的同时还能增大网络的系统容量。

权利要求 :

1.一种基于Actor‑Critic算法的多智能体异构网络资源优化方法,其特征在于,包括以下步骤:(1)建立异构网络的系统模型,在宏基站覆盖范围内随机部署小基站,用户随机进入系统之后选择距离最近的宏基站或小基站进行交互;

(2)将单个小基站看作为一个智能体,建立马尔可夫过程,确定状态空间、动作空间和奖励函数;

所述步骤(2)中状态空间具体为:将小基站用户在时刻t的位置信息和其它小基站最优CRE标为状态st=s;

所述步骤(2)中动作空间具体为:将小区间范围扩展参数参数α设置为动作at=(α)作为状态st选取的动作;

所述步骤(2)中奖励函数具体为:将奖励函数设置为系统能效的负倒数,即r=‑1/EE,其中EE是系统能效函数;设强化学习的目标累计奖励函数为期望最大的策略,如下式所示:t

式中,折扣因子γ 表示未来状态对当前状态的影响程度,r(st,at,st+1)是指在状态st下,选择动作at然后转移到下一个状态st+1产生的奖励;

(3)各个智能体根据Actor‑Critic算法训练学习选取最优动作:小区间范围扩展参数,允许小基站通过增加一个偏执到各自的参考信号接收功率来扩展它们的连接覆盖范围使位于小基站附近的用户连接到最近的智能体,各个智能体将所选取最优动作作为状态信息传递给宏基站;

所述步骤(3)具体包括:

(1)小基站用户和环境交互随机获取状态信息s,将状态信息s传递至Actor网络,Actor网络根据当前环境状态和智能体自身状态选择合适动作a,获得即时奖励r和当前状态信息s’;

(2)将所得信息集合(s,a,r,s’)传递给Critic网络,Critic网络对智能体采取的动作返回q值;

(3)将所得信息集合(s,a,q)传递给Actor网络,根据策略梯度的方式更新动作选择概率,最大化奖励;

(4)宏基站根据状态信息在宏基站覆盖范围内重新部署小基站位置,获取最优小基站部署策略。

说明书 :

一种基于Actor‑Critic算法的多智能体异构网络资源优化

方法

技术领域

[0001] 本发明属于通信系统物理层技术领域,涉及到异构网络资源分配技术,尤其涉及一种基于强化学习中Actor‑Critic算法的多智能体异构网络资源优化方法。

背景技术

[0002] 研究表明,现如今大量的通信业务主要产生在室内环境,为了使在室内情况下也能得到高质量的数据服务,网络运行商提出了在传统网络中加入小基站的方法。在宏蜂窝的范围内大量的部署小基站,小基站含有宏基站的基本功能,与宏基站的区别在于具有较小的信号发射功率。因此,小基站的服务范围相对较小,在10米至200米范围内。微蜂窝(Microcell)与微微蜂窝(Picocell)相对功率略高,主要用于在流量密度大的局部提供有效服务,如一些商场、大型室外活动场所等。家庭蜂窝(Femtocell)的发射功率更小一些,主要是由用户自己部署,用于满足家庭等小规模用户群的服务质量的节点。
[0003] 随着移动网络的飞速发展,小基站在LTE网络建设中的地位越来越重要。小基站的部署增加了空间频谱复用,增强了网络覆盖范围,并减少了宏基站的负载,将宏基站的负载卸载到小基站中,适当的降低宏基站的功率,减小跨层干扰的影响。之前的研究中,常会忽略网络的动态变化,在有些文章中,虽然考虑到动态变化,但是过于的依赖情境的启发机制,当场景变换时,会出现不适用于该场景的情形。增强型小区干扰协调(enhanced Inter Cell Interference Coordination(eICIC))由3GPP在版本10(LTE‑A)中引入,在该异构蜂窝网络的场景中,每个用户只接入一个基站:宏基站或小基站,但同时会受到来自所有其他基站信号的干扰。在传统的单层网络中,默认的用户接入选择策略是根据最大参考信号接收功率(Maximum Reference Signal Recived Power,Max-RSRP)来选择接入基站。在异构网络中沿用这一策略会引发负载不平衡,因为异构网中基站间的发射功率相差巨大。在异构网中,用户应该被更积极地卸载到小基站上。为达到这一目的,CRE被提出。通过在小基站的RSRP上添加一个正偏置,CRE可以扩展小基站的覆盖范围,使更多的用户卸载到小基站。
[0004] 近年来,机器学习技术逐渐被应用到很多领域,例如大数据分析,广告精准投放,图像分类等。现在很多学者将机器学习技术引入到通信系统做资源优化研究,主要是以深度学习和强化学习为主。

发明内容

[0005] 为了解决上述背景技术提到的技术问题,本发明提出了一种基于Actor‑Critic算法的多智能体异构网络资源优化方法。
[0006] 为了实现上述技术目的,本发明的技术方案为:
[0007] 一种基于Actor‑Critic算法的多智能体异构网络资源优化方法,包括以下步骤:
[0008] (1)建立异构网络的系统模型,在宏基站覆盖范围内随机部署小基站,用户随机进入系统之后选择距离最近的基站进行交互;
[0009] (2)将单个小基站看作为一个智能体,建立马尔可夫过程,确定状态空间、动作空间和奖励函数;
[0010] (3)各个智能体根据Actor‑Critic算法训练学习选取最优动作:CRE参数,允许小基站通过增加一个偏执到各自的参考信号接收功率来扩展它们的连接覆盖范围使位于小基站附近的用户尽可能连接到最近的智能体,各个智能体将所选取最优动作作为状态信息传递给宏基站;
[0011] (4)宏基站根据状态信息在宏基站覆盖范围内重新部署小基站位置,获取最优小基站部署策略。
[0012] 优选地,所述步骤(2)中状态空间具体为:将小基站用户在时刻t的位置信息和其它小基站最优CRE标为状态st=s。
[0013] 优选地,所述步骤(2)中动作空间具体为:将CRE配置参数α设置为动作at=(α)作为状态st选取的动作。
[0014] 优选地,所述步骤(2)中奖励函数具体为:将奖励函数设置为系统能效的负倒数,即r=‑1/EE,其中EE是系统能效函数;强化学习的目标累计奖励函数是期望最大的策略,如下式所示:
[0015]
[0016] 式中,折扣因子γt表示未来状态对当前状态的影响程度,r(st,at,st+1)是指在状态st下,选择动作at然后转移到下一个状态st+1产生的奖励。
[0017] 优选地,所述步骤(3)具体包括:
[0018] (1)小基站用户和环境交互随机获取状态信息s,将状态信息s传递至Actor网络,Actor网络根据当前环境状态和智能体自身状态选择合适动作a,获得即时奖励r和当前状态信息s’;
[0019] (2)将所得信息集合(s,a,r,s’)传递给Critic网络,Critic网络对智能体采取的动作返回q值;
[0020] (3)将所得信息集合(s,a,q)传递给Actor网络,根据策略梯度的方式更新动作选择概率,最大化奖励。
[0021] 采用上述技术方案带来的有益效果:
[0022] 本发明提出了一种基于Actor‑Critic算法的多智能体异构网络资源优化方法,该方法将单个小基站看作为一个智能体,根据与异构网络环境交互所得状态选取最优动作参数,并将其作为状态信息传递给宏基站,将奖励函数设置为系统能效的负倒数。该发明能够让系统网络根据实时情况进行动态的调整网络的各项的参数分配情况,具有及时性,智能化;利用相对简单的模型结构训练出系统函数,将其放入到复杂系统中,该算法会根据系统中的数据智能调整系统函数,优化参数配置,使系统性能达到最佳;采用多智能体协作的方法,很大程度上解决了强化学习中的动作空间过大的问题。

附图说明

[0023] 图1为异构网络系统模型图;
[0024] 图2为本发明流程构造图;
[0025] 图3为基于Actor‑Critic算法能效优化流程框图。

具体实施方式

[0026] 以下将结合附图,对本发明的技术方案进行详细说明。
[0027] 图1为异构网络系统模型图。本发明所考虑的是一个两层异构网络场景,其中一个小区内包含宏基站和小基站,小基站在宏基站的覆盖范围内随机部署。根据用户连接到基站的类型,用户可以被分为小基站用户和宏基站用户。通常连接到宏基站的用户数量远高于连接到小基站的用户数量,为了均衡系统负载,提升系统容量,CRE的提出有效的增加了小基站的扩展范围,本发明通过优化偏置参数,使用户与小基站连接时的最大参考信号接收功率增加,由此以来,位于小基站覆盖范围边缘外侧的用户也能连接到相应的小基站上面。
[0028] 如图2所示为本发明流程构造图。首先建立异构网络的系统模型,根据宏基站与小基站的数量与分布情况确定小基站用户位置。
[0029] 将单个小基站看作为一个智能体,建立马尔可夫过程,确定状态空间、动作空间和奖励函数。算法具体流程图如图3所示。
[0030] 在本发明中,状态空间被设置为小基站用户在时刻t的位置信息和其它小基站最优CRE标为状态st=s;将CRE配置参数α设置为动作at=(α)作为状态st选取的动作;将奖励函数设置为系统能效的负倒数,即r=‑1/EE,其中EE是系统能效函数。
[0031] 小基站用户和环境交互随机获取状态s,将状态信息传递至Actor网络,Actor网络根据当前环境状态和智能体自身状态选择合适动作a,获得即时奖励r和当前状态s’。
[0032] 将动作信息(s,a,r,s’)传递给Critic网络,Critic网络对智能体采取的动作获取q值,采用TD error(即时序差分学习方法中估计值和现有值之间的偏差)方法,最小化损失函数对其网络参数进行更新,损失函数表示为:Loss=〖[(r+γ*q^')‑q]〗^2,其中γ为折扣因子。
[0033] 将(s,a,q)传递给Actor网络,根据策略梯度的方式更新动作选择概率,最大化奖励。
[0034] 将各个小基站学习所获得最优动作作为状态信息传递给宏基站,通过宏基站覆盖范围内重复部署小基站,获取最优小基站部署策略,使位于宏基站覆盖盲点的设备连接到相应的小基站以获得更好的信道,以达到整体异构网络系统的优化。
[0035] 实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。