基于深度强化学习的AI智慧节能动态控制方法转让专利

申请号 : CN202110037945.0

文献号 : CN112866021B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郭洋王倩华奇兵

申请人 : 中移(成都)信息通信科技有限公司东联信息技术有限公司

摘要 :

本发明涉及5G节能领域,具体涉及一种基于深度强化学习的AI智慧节能动态控制方法,极大地降低了对人工运维以及人工经验分析的依赖,提高了自动化节能的控制。技术方案概括为,获取环境状态信息,所述环境状态信息包括4G状态指标以及5G状态指标;根据环境状态信息建立环境模型;在环境模型中加入双网络DQN算法,通过双网络DQN算法获取节能控制策略;通过节能控制策略生成对应的节能控制指令,并通过节能控制指令进行节能动态控制。本发明适用于5G基站的节能控制。

权利要求 :

1.基于深度强化学习的AI智慧节能动态控制方法,其特征在于,包括:步骤(1)、获取环境状态信息,所述环境状态信息包括4G状态指标、5G状态指标、话务量数据信息以及投诉万投比;4G状态指标包括接入性指标,5G状态指标包括5G在服比;

步骤(2)、根据环境状态信息建立环境模型,包括:将节能控制问题建模为马尔科夫决策过程模型,并定义其中的状态,动作以及奖赏函数;

所述定义状态的具体方法包括:

选择投诉万投比、接入性指标、5G在服比指标以及话务量数据信息为环境状态信息;

设t时刻,投诉万投比为Mt、接入性指标为Mj、5G在服比指标为Mz,此时话务量数据信息为Mh,则状态St=(Mt,Mj,Mz,Mh);

步骤(3)、在环境模型中加入双网络DQN算法,通过双网络DQN算法获取节能控制策略;

步骤(4)、通过节能控制策略生成对应的节能控制指令,并通过节能控制指令进行节能动态控制。

2.根据权利要求1所述的基于深度强化学习的AI智慧节能动态控制方法,其特征在于,在步骤(1)中,所述4G状态指标包括:MR指标,保持性指标,业务量迁移比,资源利用率指标以及信令连接比指标。

3.根据权利要求2所述的基于深度强化学习的AI智慧节能动态控制方法,其特征在于,在步骤(1)中,所述5G状态指标包括:双连接用户数,双连接终端数,双连接添加尝试次数,

5G KPI达标率、以及业务量迁移比。

4.根据权利要求3所述的基于深度强化学习的AI智慧节能动态控制方法,其特征在于,在步骤(1)中,所述环境状态信息还包括:外部气象因素。

5.根据权利要求4所述的基于深度强化学习的AI智慧节能动态控制方法,其特征在于,所述定义动作的具体方法包括:

设置4G增容层业务量权重值为θZ、4G覆盖层业务量权重值为θf、4G转5G预测业务量权重值为θC、5G SA预测业务量权重值为θS、5G NSA预测业务量权重值为θN以及4G峰值业务量权重值为θm;

若t时刻采取的动作为调高或调低业务量的权重值,则其动作a的集合为,a={[θZ0,θf0,θC0,θS0,θN0,θm0],[θZ1,θf1,θC1,θS1,θN1,θm1],...,[θZn,θfn,θCn,θSn,θNn,θmn]}。

6.根据权利要求5所述的基于深度强化学习的AI智慧节能动态控制方法,其特征在于,所述定义奖赏函数的具体方法包括:

选择5G KPI达标率K以及投诉万投比T作为评测指标;

若K<90%或者T>100,则设置奖赏函数r=‑1;

若K>90%,并且T<100,则奖赏函数r=W1(E_reward)+W2(K_reward)+W3(T_reward),W1、W2以及W3分别表示权重参

数,E_reward表示节能奖励参数,K_reward表示KPI奖励参数,T_reward表示投诉比奖励参数,Emax表示基站站点最大能耗,Et表示t时刻基站站点能耗。

7.根据权利要求6所述的基于深度强化学习的AI智慧节能动态控制方法,其特征在于,在步骤(2)中,根据环境状态信息建立环境模型还包括建立价值函数回报模型,所述建立价值函数回报模型的具体方法包括:

设G(S,a)表示在状态S下采用动作a的回报值,则 λ是折扣因子,则价值函数Q(S,a)=E[G(S,a)],表示价值函数Q(S,a)为G(S,a)的期望。

8.根据权利要求7所述的基于深度强化学习的AI智慧节能动态控制方法,其特征在于,在步骤(3)中,通过双网络DQN算法获取节能控制策略的方法包括:初始化记忆单元、当前估值网络以及目标网络TargetQ,随机初始化权重参数θ,初始化权重θ'与估值网络相同;

将环境状态信息建模,再通过DQN算法计算出奖励r后,得到任意状态St下的Q(St,a),然后使用ε‑greedy策略执行动作A,得到下一时刻St+1的状态值,并将每个时间步得到的数据(St,a,r,St+1)存入记忆单元;

2

建立损失函数,损失函数L(θ)=E[(TargetQ‑Q(St ,a;θ))] ,r为当前状态转移到下一个状态的即时奖励,γ为折扣因子;

记忆单元存储设定量数据后,随机选择一个数据(St,a,r,St+1),并将(St,a)、St+1以及r的值分别传递给估值网络、目标网络以及损失函数L(W),并对损失函数的W使用梯度下降法进行更新,获取节能控制策略。

说明书 :

基于深度强化学习的AI智慧节能动态控制方法

技术领域

[0001] 本发明涉及5G节能领域,具体涉及一种基于深度强化学习的AI智慧节能动态控制方法。

背景技术

[0002] 在工业互联网领域,实现工业设备的节能降耗目标,实现绿色发展,降本增效,是企业发展的重点方向。
[0003] 对于列入国家新基建反范畴的运营商网络,对于其运营,如何平衡网络性能/用户感知与网络能耗,将影响网络长期的运营效果。
[0004] 目前现有的技术,关于节能控制,一方面是是单纯从网络负荷的均衡性出发开展网络流量的迁移/切换控制;另一方面迁移的方向是由运维网优人员通过软件参数进行控
制,持续性及准确性难以保证。
[0005] 而现有的4G,5G小区节能技术,更多的是监测本小区的业务流量,从而进行节能操作,缺失区域内的各小区间整体网络业务量的监控,而对于节能时段和节能触发门限的控
制,也是由人员来设定,人员的数据分析能力及运维技能及经验在工作中占了比较大的比
重。
[0006] 上述技术的缺陷为:
[0007] (1)单纯从网络负荷的均衡性出发开展网络流量的迁移/切换控制,无法保证实时性;
[0008] (2)由运维网优人员通过软件参数进行控制,持续性及准确性难以保证;
[0009] (3)由于缺乏统计学方法,门限控制等一些重要参数均由人员设置,人工的数据分析能力及运维技能及经验在工作中占了比较大的比重。

发明内容

[0010] 本发明的目的是提供一种基于深度强化学习的AI智慧节能动态控制方法,极大地降低了对人工运维以及人工经验分析的依赖,提高了自动化节能的控制。
[0011] 本发明采取如下技术方案实现上述目的,基于深度强化学习的AI智慧节能动态控制方法,包括:
[0012] 步骤(1)、获取环境状态信息,所述环境状态信息包括4G状态指标以及5G状态指标;
[0013] 步骤(2)、根据环境状态信息建立环境模型;
[0014] 步骤(3)、在环境模型中加入双网络DQN算法,通过双网络DQN算法获取节能控制策略;
[0015] 步骤(4)、通过节能控制策略生成对应的节能控制指令,并通过节能控制指令进行节能动态控制。
[0016] 进一步的是,在步骤(1)中,所述4G状态指标包括:MR指标,保持性指标,接入性指标,业务量迁移比,资源利用率指标以及信令连接比指标。
[0017] 进一步的是,在步骤(1)中,所述5G状态指标包括:双连接用户数,双连接终端数,双连接添加尝试次数,5G在服比、5G KPI达标率、以及业务量迁移比。
[0018] 进一步的是,在步骤(1)中,所述环境状态信息还包括:话务量数据信息、投诉万投比以及外部气象因素。
[0019] 进一步的是,在步骤(2)中,根据环境状态信息建立环境模型包括:将节能控制问题建模为马尔科夫决策过程模型,并定义其中的状态,动作以及奖赏函数。
[0020] 进一步的是,所述定义状态的具体方法包括:
[0021] 选择投诉万投比、接入性指标、5G在服比指标以及话务量数据信息为环境状态信息;
[0022] 设t时刻,投诉万投比为Mt、接入性指标为Mj、5G在服比指标为Mz,此时话务量数据信息为Mh,则状态St=(Mt,Mj,Mz,Mh)。
[0023] 进一步的是,所述定义动作的具体方法包括:
[0024] 设置4G增容层业务量权重值为θZ、4G覆盖层业务量权重值为θf、4G转5G预测业务量权重值为θC、5G SA预测业务量权重值为θS、5G NSA预测业务量权重值为θN以及4G峰值业务
量权重值为θm;
[0025] 若t时刻采取的动作为调高或调低业务量的权重值,则其动作a的集合为,a={[θZ0,θf0,θC0,θS0,θN0,θm0],[θZ1,θf1,θC1,θS1,θN1,θm1],...,[θZn,θfn,θCn,θSn,θNn,θmn]}。
[0026] 进一步的是,所述定义奖赏函数的具体方法包括:
[0027] 选择5G KPI达标率K以及投诉万投比T作为评测指标;
[0028] 若K<90%或者T>100,则设置奖赏函数r=‑1;
[0029] 若K>90%,并且T<100,则奖赏函数r=W1(E_reward)+W2(K_reward)+W3(T_reward), W1、W2以及W3分别表示
权重参数,E_reward表示节能奖励参数,K_reward表示KPI奖励参数,T_reward表示投诉比
奖励参数,Emax表示基站站点最大能耗,Et表示t时刻基站站点能耗。
[0030] 进一步的是,在步骤(2)中,根据环境状态信息建立环境模型还包括建立价值函数回报模型,所述建立价值函数回报模型的具体方法包括:
[0031] 设G(S,a)表示在状态S下采用动作a的回报值,则 λ是折扣因子,则价值函数Q(S,a)=E[G(S,a)],表示价值函数Q(S,a)为G(S,a)的期望。
[0032] 进一步的是,在步骤(3)中,通过双网络DQN算法获取节能控制策略的方法包括:
[0033] 初始化记忆单元、当前估值网络以及目标网络TargetQ,随机初始化权重参数θ,初始化权重θ'与估值网络相同;
[0034] 将环境状态信息建模,再通过DQN算法计算出奖励r后,得到任意状态St下的Q(St,a),然后使用ε‑greedy策略执行动作A,得到下一时刻St+1的状态值,并将每个时间步得到的
数据(St,a,r,St+1)存入记忆单元;
[0035] 建立损失函数,损失函数L(θ)=E[(TargetQ‑Q(St,a;θ))]2,r为当前状态转移到下一个状态的即时奖励,
γ为折扣因子;
[0036] 记忆单元存储设定量数据后,随机选择一个数据(St,a,r,St+1),并将(St,a)、St+1以及r的值分别传递给估值网络、目标网络以及损失函数L(W),并对损失函数的W使用梯度下
降法进行更新,获取节能控制策略。
[0037] 本发明对4G,5G环境状态信息进行采样建模,在模型中加入DQN算法,通过DQN算法获取节能控制策略,避免了通过人工进行参数设置以及通过人工经验进行分析;并且在建
模过程中,将节能控制问题建模为马尔科夫决策过程模型,结合4G,5G的状态指标,定义其
中的状态、动作以及鉴赏函数,保证了KPI达标率以及投诉万投比在符合要求的同时进行节
能策略计算;并且还建立了损失函数,对损失函数的自变量采用梯度下降法进行更新,保证
了节能策略的实时性与准确性。

附图说明

[0038] 图1是本发明基于深度强化学习的AI智慧节能动态控制的方法流程图。

具体实施方式

[0039] 本发明基于深度强化学习的AI智慧节能动态控制方法,其方法流程图如图1,包括:
[0040] 步骤101、获取环境状态信息,所述环境状态信息包括4G状态指标以及5G状态指标;
[0041] 步骤102、根据环境状态信息建立环境模型;
[0042] 步骤103、在环境模型中加入双网络DQN算法,通过双网络DQN算法获取节能控制策略;
[0043] 步骤104、通过节能控制策略生成对应的节能控制指令,并通过节能控制指令进行节能动态控制。
[0044] 在步骤101中,所述4G状态指标包括:MR指标,保持性指标,接入性指标,业务量迁移比,资源利用率指标以及信令连接比指标。
[0045] 在步骤101中,所述5G状态指标包括:双连接用户数,双连接终端数,双连接添加尝试次数,5G在服比、5G KPI达标率、以及业务量迁移比。
[0046] 在步骤101中,所述环境状态信息还包括:话务量数据信息、投诉万投比以及外部气象因素。
[0047] 在步骤102中,根据环境状态信息建立环境模型包括:将节能控制问题建模为马尔科夫决策过程模型,并定义其中的状态,动作以及奖赏函数。
[0048] 其中定义状态的具体方法包括:
[0049] 选择投诉万投比、接入性指标、5G在服比指标以及话务量数据信息为环境状态信息;
[0050] 设t时刻,投诉万投比为Mt、接入性指标为Mj、5G在服比指标为Mz,此时话务量数据信息为Mh,则状态St=(Mt,Mj,Mz,Mh)。
[0051] 定义动作的具体方法包括:
[0052] 设置4G增容层业务量权重值为θZ、4G覆盖层业务量权重值为θf、4G转5G预测业务量权重值为θC、5G SA预测业务量权重值为θS、5G NSA预测业务量权重值为θN以及4G峰值业务
量权重值为θm;
[0053] 若t时刻采取的动作为调高或调低业务量的权重值,则其动作a的集合为,a={[θZ0,θf0,θC0,θS0,θN0,θm0],[θZ1,θf1,θC1,θS1,θN1,θm1],...,[θZn,θfn,θCn,θSn,θNn,θmn]}。
[0054] 定义奖赏函数的具体方法包括:
[0055] 选择5G KPI达标率K以及投诉万投比T作为评测指标;
[0056] 若K<90%或者T>100,则设置奖赏函数r=‑1;
[0057] 若K>90%,并且T<100,则奖赏函数r=W1(E_reward)+W2(K_reward)+W3(T_reward), W1、W2以及W3分别表示
权重参数,E_reward表示节能奖励参数,K_reward表示KPI奖励参数,T_reward表示投诉比
奖励参数,Emax表示基站站点最大能耗,Et表示t时刻基站站点能耗。
[0058] 鉴赏函数与评测指标有关,节能目标是在保障评测指标达标的情况下,达到能耗最低,其中5G KPI达标率(指标要求>90%,即保障KPI达标率90%以上),投诉万投比(指标
要求<100,即当月投诉客户总量/当月收费客户总量×10000<100)。
[0059] 奖赏值r值作为模型最终评价标准,是能耗参数,KPI达标率,投诉万投比的加权值,当三个相关参数越大时,r的值就越大,模型需要的就是尽可能大的r值。也就是说,当
KPI达标率越接近100%,投诉万投比越接近0,能耗值越低时,模型获得的r值就越大;反之
则模型获得的r值就越小。当然,首先需要考虑的是站点评测指标达标,若因为节能,使相关
指标没有达到运营要求,r就会给一个负反馈值‑1。这便是控制器要达到的最终目的——在
不影响站点正常运营的条件下达到节能的目的。
[0060] 在步骤102中,根据环境状态信息建立环境模型还包括建立价值函数回报模型,所述建立价值函数回报模型的具体方法包括:
[0061] 设G(S,a)表示在状态S下采用动作a的回报值,则 λ是折扣因子,则价值函数Q(S,a)=E[G(S,a)],表示价值函数Q(S,a)为G(S,a)的期望。
[0062] 在步骤103中,通过双网络DQN算法获取节能控制策略的方法包括:
[0063] 初始化记忆单元、当前估值网络以及目标网络TargetQ,随机初始化权重参数θ,初始化权重θ'与估值网络相同;
[0064] 将环境状态信息建模,再通过DQN算法计算出奖励r后,得到任意状态St下的Q(St,a),然后使用ε‑greedy策略执行动作A,得到下一时刻St+1的状态值,并将每个时间步得到的
数据(St,a,r,St+1)存入记忆单元;
[0065] 建立损失函数,损失函数L(θ)=E[(TargetQ‑Q(St,a;θ))]2,r为当前状态转移到下一个状态的即时奖励,
γ为折扣因子;
[0066] 记忆单元存储设定量数据后,随机选择一个数据(St,a,r,St+1),并将(St,a)、St+1以及r的值分别传递给估值网络、目标网络以及损失函数L(W),并对损失函数的W使用梯度下
降法进行更新,获取节能控制策略。
[0067] 双网络DQN算法更新值函数的方式如下:
[0068] Q(St,a)←Q(St,a)+β[r+λmaxat+1Q(St+1,at+1)‑Q(St,a)];其中β为学习率,λ为折扣因子,根据实际收敛情况调整,每多次迭代后更新目标值网络的参数为估值网络的参数。
[0069] 综上所述,本发明极大地降低了对人工运维以及人工经验分析的依赖,提高了自动化节能的控制,还保证了节能策略的实时性与准确性。