一种基于决策性能评估的多波束卫星资源分配方法转让专利

申请号 : CN202210033327.3

文献号 : CN114389678B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王朝炜崔高峰王力男胡东伟刘丽哲王卫东庞明亮邓丹昊

申请人 : 北京邮电大学中国电子科技集团公司第五十四研究所

摘要 :

本发明公开了一种基于决策性能评估的多波束卫星资源分配方法,属于卫星通信领域;首先,针对单颗卫星的M个波束,在每个波束下分别对应N个用户搭建同频组网的通信场景;第t个时隙用户(m,n)向卫星请求数据,计算通信链路[m,n,t]中受到的同频干扰Im,n,t,信干噪比SINRm,n,t和通信速率然后,利用各时隙下每个用户的通信速率,计算时间段T内该卫星的通信系统吞吐量总和Ctotal;搭建同时考虑通信系统吞吐量和用户公平性的多目标优化模型;最后,利用深度强化学习网络DDPG对多目标优化模型进行求解,得到满足系统吞吐量和用户公平性的带宽和功率资源联合分配。本发明在全频率复用场景下保持用户间较小的同频干扰,提升卫星系统总吞吐量的同时兼顾系统的公平性。

权利要求 :

1.一种基于决策性能评估的多波束卫星资源分配方法,其特征在于,具体为:首先,针对单颗多波束卫星,对应M个波束,每个波束下有N个用户,搭建用户和卫星同频组网的通信场景;

在第t个时隙用户(m,n)向卫星请求数据下载,计算卫星与用户的通信链路[m,n,t]中受到的同频干扰Im,n,t,信干噪比SINRm,n,t以及通信速率然后、利用各时隙下每个用户的通信速率,计算时间段T内多波束卫星的通信系统吞吐量总和Ctotal;搭建同时考虑通信系统吞吐量和用户公平性的多目标优化模型;

完整的多目标优化模型如下:

Ρ1:max Ctotal

Ρ2:max F

其中,优化目标Ρ1表示最大化通信系统的总吞吐量;

优化目标Ρ2表示最大化通信系统的公平性F;

计算公式为:

为初始化业务需求, 表示用户(m,n)的业务满足指数,来代替原公式中的通信速率 并根据Jain指数公式计算其公平性;

约束条件C1表示用户第t个时隙的吞吐量不会大于该时隙的剩余业务量约束条件C2表示所有用户的总功率不大于卫星最大发射功率Ptotal;

约束条件C3表示同一波束内的所有用户总带宽不大于通信系统的总带宽Btotal;

最后、利用深度强化学习网络DDPG对多目标优化模型进行求解,得到满足系统吞吐量和用户公平性的带宽和功率资源联合分配。

2.如权利要求1所述的一种基于决策性能评估的多波束卫星资源分配方法,其特征在于,所述的同频干扰Im,n,t计算公式为:为接收信号方向偏离接收天线轴线的角度;Ξf表示频率为f的所有同频信道的集合,f为第t个时隙用户(m,n)的频率; 表示通信链路[m,n,t]造成同频干扰的信道, 为链路[m,n,t]的数据传输功率, 为链路[m,n,t]的信道增益。

3.如权利要求1所述的一种基于决策性能评估的多波束卫星资源分配方法,其特征在于,所述的信干噪比SINRm,n,t计算公式为:Pm,n,t为通信链路[m,n,t]的传输功率,N0为高斯白噪声功率谱密度,Bm,n,t为通信链路[m,n,t]的带宽,hm,n为星地链路增益,Gt(θ)为链路[m,n,t]的发射天线增益,θ为用户(m,n)偏离所在波束天线轴的角度;PL为由于信道环境引起的信号功率的损耗和衰落; 为链路[m,n,t]的接收天线增益。

4.如权利要求1所述的一种基于决策性能评估的多波束卫星资源分配方法,其特征在于,所述的通信速率 计算公式为:

5.如权利要求1所述的一种基于决策性能评估的多波束卫星资源分配方法,其特征在于,所述的深度强化学习网络DDPG包括:资源分配决策网络和决策性能评估网络;

利用DDPG进行资源分配的过程建模为马尔科夫过程;

t t t t t

定义决策网络中的第t个时隙的网络状态向量为st={H ,I ,C ,D},其中H表示各个用t t t户的信道增益;I 为用户接收到的同频干扰强度;C表示用户的吞吐量;D表示用户的业务量;

定义决策网络中的动作包括各波束的分配带宽和功率资源,对于每一个时隙t∈{1,2,t t t t t

3,...},动作集表示为A={P ,B},其中P 表示系统为用户分配的数据传输功率,B表示系统为用户分配的数据传输带宽;

性能评估网络:根据决策网络输出的当前资源分配策略计算当前Q值,并通过计算损失函数进行网络参数更新;

评估网络总的奖励值设计为:R=ω1R1+ω2R2‑ω3R3;

其中ω1~ω3为不同奖励对应的权重;R1为系统总吞吐量的奖励,即:R1=Ctotal;R2为系统公平性系数对应的奖励:R2=F;R3为辅助奖励:其中:xmn为用户资源分配合理与否的指标, umn为用户在第t个时隙的t

吞吐量是否大于业务量的指标, z 为所有用户功率是否大于总功率的指标,资源分配不合理是指智能体给用户分配了带宽资源但没有给用户分配功率,或者智能体给用户分配了功率但没有给用户分配带宽。

说明书 :

一种基于决策性能评估的多波束卫星资源分配方法

技术领域

[0001] 本发明属于卫星通信领域,具体涉及一种基于决策性能评估的多波束卫星资源分配方法。

背景技术

[0002] 卫星通信系统作为国家信息网络的重大基础设施,可以很好地弥补地面网络的缺陷,已成为国家信息网络中不可或缺的一部分。
[0003] 随着物联网技术的快速发展,尤其是终端数量的日益增多,导致业务量急剧增加,卫星通信系统的频谱资源愈加紧张。未来的通信卫星必须将其容量提高到TB/s的吞吐量范围,而可用带宽的限制是实现这种高吞吐量值的主要瓶颈。
[0004] 多波束卫星的提出使得卫星通信系统在频谱利用率上有了很大提升,促进了高吞吐量卫星的发展,从而为满足日益增长的业务需求,实现可靠和灵活的连接以及卫星从广播到宽带任务的转变提供了有利条件。
[0005] 利用多波束卫星的特点提高频带利用率,必须在大量的点波束间重复使用相同频带,如果在每个波束中重复使用系统的全部带宽,可以实现最高的频带复用率,但这将导致非常强的同频干扰,此问题会使卫星系统的资源分配变得十分复杂。
[0006] 目前很多在多波束卫星资源分配方面的研究都是在波束域进行资源分配,每波束使用部分频率,从而降低系统的同频干扰,但这种分配方式无法充分利用系统总频率资源。在波束间使用相同频带的背景下,对用户进行频域和功率域的联合优化,从而在保证用户公平性的前提下提升系统的总吞吐量,对下一代卫星通信技术的发展具有重要意义。

发明内容

[0007] 本发明针对上述问题,提出了一种基于决策性能评估的多波束卫星资源分配方法,通过合理分配用户的带宽和功率资源,达到提升卫星系统总吞吐量的同时兼顾系统的公平性的目标。
[0008] 所述的多波束资源分配方法,具体步骤如下:
[0009] 步骤一、搭建包括若干用户和单颗多波束卫星同频组网的通信场景;
[0010] 多波束卫星有M个波束,每个波束下有N个用户,其中第m个波束下第n个用户表示为(m,n);该用户位于Ωm,n位置处;
[0011] 步骤二、第t个时隙用户(m,n)向多波束卫星请求数据下载,计算多波束卫星与用户的通信链路[m,n,t]中受到的同频干扰Im,n,t;
[0012] 计算公式为:
[0013]
[0014] [m,n,t]为第t个时隙用户(m,n)与多波束卫星的通信链路: 为接收信号方向偏离接收天线轴线的角度。Ξf表示频率为f的所有同频信道的集合,f为第t个时隙用户(m,n)的频率; 表示通信链路[m,n,t]造成同频干扰的信道, 为链路[m,n,t]的数据传输功率, 为链路[m,n,t]的信道增益。
[0015] 步骤三、利用同频干扰Im,n,t计算通信链路[m,n,t]的信干噪比SINRm,n,t,并进一步计算该通信链路[m,n,t]的通信速率
[0016] 信干噪比计算公式为:
[0017]
[0018] Pm,n,t为通信链路[m,n,t]的传输功率,N0为高斯白噪声功率谱密度,Bm,n,t为通信链路[m,n,t]的带宽,hm,n为星地链路增益,
[0019] Gt(θ)为链路[m,n,t]的发射天线增益,θ为用户(m,n)偏离所在波束天线轴的角度;PL为由于信道环境引起的信号功率的损耗和衰落; 为链路[m,n,t]的接收天线增益。
[0020] 通信速率 计算公式为:
[0021] 步骤四、利用各时隙下每个用户的通信速率,计算时间段T内多波束卫星的通信系统吞吐量总和Ctotal;
[0022] 计算公式为:
[0023] 步骤五、搭建同时考虑通信系统吞吐量和用户公平性的多目标优化模型;
[0024] 首先,根据Jain指数,计算用户的公平性;计算公式为:
[0025]
[0026] 为初始化业务需求。 表示用户(m,n)的业务满足指数,来代替原公式中的通信速率 并根据Jain指数公式计算其公平性。
[0027] 然后,多目标优化模型如下:
[0028] P1:max Ctotal
[0029] P2:max F
[0030]
[0031] 其中,优化目标P1表示最大化通信系统的总吞吐量;优化目标P2二表示最大化通信系统的公平性。
[0032] 约束条件C1表示用户第t个时隙的吞吐量不会大于该时隙的剩余业务量;
[0033] 卫星向用户(m,n)提供t个时隙的服务后,第t+1个时隙该用户的剩余业务量为:
[0034]
[0035] 约束条件C2表示所有用户的总功率不大于卫星最大发射功率Ptotal;
[0036] 约束条件C3表示同一波束内的所有用户总带宽不大于通信系统的总带宽Btotal。
[0037] 步骤六、利用深度强化学习网络DDPG对多目标优化模型进行求解,得到满足系统吞吐量和用户公平性的带宽和功率资源联合分配。
[0038] 所设置的深度强化学习网络DDPG包括:资源分配决策网络和决策性能评估网络;
[0039] 利用DDPG进行资源分配的过程建模为马尔科夫过程;
[0040] 定义决策网络中的第t个时隙的网络状态向量为st={Ht,It,Ct,Dt},其中Ht表示各t t t个用户的信道增益;I为用户接收到的同频干扰强度;C表示用户的吞吐量;D 表示用户的业务量。
[0041] 定义决策网络中的动作包括各波束的分配带宽和功率资源,对于每一个时隙t∈t t t t t{1,2,3,...},动作集表示为A={P ,B},其中P表示系统为用户分配的数据传输功率,B表示系统为用户分配的数据传输带宽。
[0042] 性能评估网络:根据决策网络输出的当前资源分配策略计算当前Q值,并通过计算损失函数进行网络参数更新。
[0043] 评估网络总的奖励值设计为:R=ω1R1+ω2R2‑ω3R3;
[0044] 其中ω1~ω3为不同奖励对应的权重;R1为系统总吞吐量的奖励,即:R1=Ctotal;R2为系统公平性系数对应的奖励:R2=F;R3为辅助奖励:
[0045] 其中:xmn为用户资源分配合理与否的指标, umn为用户在第t个时t
隙的吞吐量是否大于业务量的指标, z 为所有用户功率是否大于总功率
的指标,
[0046]
[0047] 资源分配不合理是指智能体给用户分配了带宽资源或功率,但是没有给用户分配功率或带宽。
[0048] 本发明的优点在于:
[0049] 1)、一种基于决策性能评估的多波束卫星资源分配方法,同时考虑多波束卫星通信系统的总吞吐量和用户的公平性,对两个目标同时进行优化;避免了在资源受限情况下,只优化系统吞吐量可能会导致部分用户始终不会被服务的问题。
[0050] 2)、一种基于决策性能评估的多波束卫星资源分配方法,采用决策性能评估网络,根据评估网络的评估结果,调整决策网络参数从而优化资源分配方案,同时更新评估网络自身参数,通过迭代优化的方式,实现决策网络的准确预测。

附图说明

[0051] 图1为本发明一种基于决策性能评估的多波束卫星资源分配方法的原理图。
[0052] 图2为本发明一种基于决策性能评估的多波束卫星资源分配方法的流程图。
[0053] 图3为本发明搭建的实际多波束GEO卫星下行通信场景图;
[0054] 图4为本发明决策‑评估网络具体设计图。
[0055] 图5为本发明与平均资源分配、随机资源不同带宽下吞吐量的对比图。
[0056] 图6为本发明平均资源分配、随机资源不同带宽下系统的公平性对比图。

具体实施方式

[0057] 下面结合附图和实施例对本发明进行进一步详细说明。
[0058] 本发明针对多波束卫星同频组网系统中用户向卫星请求数据下载的场景,提出了一种基于决策性能评估的多波束卫星资源分配方法,用于优化每个用户的带宽和功率资源分配。如图1所示,首先,多波束卫星中各个波束内的用户生成业务需求,并通过信关站转发到卫星,请求通过卫星下载数据。卫星接收到请求后采集各个用户的位置信息以及系统的资源信息,然后把这些信息传递给资源分配决策网络,决策网络根据各个用户的状态对用户进行功率和带宽分配,并将资源分配策略传递给多波束卫星系统和资源分配评估网络。资源分配评估网络根据系统实际的回报对资源分配决策网络做的决策进行评估,并将参数返回给资源分配决策网络。这样迭代循环,不断提高资源分配决策网络所做决策的准确性,从而最大化系统吞吐量和用户公平性。
[0059] 本发明基于深度强化学习的理论知识,将卫星系统总吞吐量和用户的公平性优化建模成多目标优化问题,将具有时间相关性的连续资源分配过程建模为马尔科夫过程,利用DDPG神经网络建立资源分配决策网络和决策性能评估网络,并对多目标优化问题进行求解。通过在每一时隙内为用户合理分配用户的带宽和功率资源,以在全频率复用场景下保持用户间较小的同频干扰,达到提升卫星系统总吞吐量的同时兼顾系统的公平性的目标。
[0060] 所述的多波束卫星资源分配方法,如图2所示,具体步骤如下:
[0061] 步骤一、搭建包括若干用户和单颗多波束卫星同频组网的通信场景;
[0062] 如图3所示,考虑单颗多波束GEO卫星,该多波束卫星有M个波束,每个波束下有N个用户,包括:移动终端,多媒体终端和车辆终端等;各个波束内的用户生成业务需求,通过信关站转发到卫星,请求通过卫星下载数据。卫星接收到请求后采集各个用户的位置信息以及系统的资源信息,通过用户流量生成模块和资源分配模块,传递给信关站,资源分配决策网络根据各个用户的状态对用户进行功率和带宽分配;其中第m个波束下第n个用户表示为(m,n);该用户位于Ωm,n位置处;
[0063] 步骤二、第t个时隙用户(m,n)向多波束卫星请求数据下载,计算多波束卫星与用户的通信链路[m,n,t]中受到的同频干扰Im,n,t;
[0064] 第t个时隙卫星向用户(m,n)以功率Pm,n,t传输数据,用[m,n,t]表示该通信链路,hm,n为星地链路增益。假定多波束卫星信道矩阵为Hmatrix:
[0065] Hmatrix=[h1,1,h1,2,...,hm,n,...,hM,N]
[0066]
[0067] 其中,Gt(θ)为链路[m,n,t]的发射天线增益,θ为用户(m,n)偏离所在波束天线轴的角度;PL为由于信道环境引起的信号功率的损耗和衰落; 为链路[m,n,t]的接收天线增益,为接收信号方向偏离接收天线轴线的角度。
[0068] 考虑同频干扰问题,第t个时隙用户(m,n)的频率为f,受到的同频干扰为Im,n,t:
[0069]
[0070] 其中Ξf表示频率为f的所有同频信道的集合, 表示通信链路[m,n,t]造成同频干扰的信道, 为链路[m,n,t]的数据传输功率, 为链路[m,n,t]的信道增益。
[0071] 步骤三、利用同频干扰Im,n,t计算通信链路[m,n,t]的信干噪比SINRm,n,t,并进一步计算该通信链路[m,n,t]的通信速率
[0072] 信干噪比计算公式为:
[0073]
[0074] Pm,n,t为通信链路[m,n,t]的传输功率,N0为高斯白噪声功率谱密度,Bm,n,t为通信链路[m,n,t]的带宽;
[0075] 通信速率 计算公式为:
[0076] 步骤四、利用各时隙下每个用户的通信速率,计算时间段T内多波束卫星的通信系统吞吐量总和Ctotal;
[0077] 卫星向用户(m,n)提供t个时隙的服务后,第t+1个时隙用户(m,n)的剩余业务量为:
[0078]
[0079] 为初始化业务需求。
[0080] T时间段内多波束卫星通信系统吞吐量的总和,计算公式为:
[0081] 步骤五、搭建同时考虑通信系统吞吐量和用户公平性的多目标优化模型;
[0082] 在考虑系统吞吐量的同时,本发明还将用户公平性作为优化目标。这是因为如果没有公平性的限制,在资源受限情况下,可能会有用户始终不会分配到任何资源,这显然是不合理的。首先,根据Jain指数,计算用户的公平性;计算公式为:
[0083]
[0084] 因为不同用户的业务请求是不同的,所以使用 表示用户(m,n)的业务满足指数,来代替原公式中的通信速率 并根据Jain指数公式计算其公平性。
[0085] 然后,完整的多目标优化模型如下:
[0086] P1:max Ctotal
[0087] P2:max F
[0088]
[0089] 其中,优化目标P1表示最大化通信系统的总吞吐量;优化目标P2二表示最大化通信系统的公平性。
[0090] 约束条件C1表示用户第t个时隙的吞吐量不会大于该时隙的剩余业务量;
[0091] 约束条件C2表示所有用户的总功率不大于卫星最大发射功率Ptotal;
[0092] 约束条件C3表示同一波束内的所有用户总带宽不大于通信系统的总带宽Btotal;
[0093] 卫星系统的总带宽为Btotal,被均匀划分为NB个子信道。
[0094] 步骤六、利用深度强化学习网络DDPG对多目标优化模型进行求解,得到满足系统吞吐量和用户公平性的带宽和功率资源联合分配。
[0095] 考虑到系统t+1时刻的用户资源分配决策受前t时刻用户资源分配情况的影响,本发明将具有时间相关性的连续资源分配过程,建模为马尔科夫过程,利用深度强化学习网络建立资源分配决策,以达到系统吞吐量和用户公平性的联合优化目标。
[0096] 如图4所示,本发明提出的基于决策‑评估算法的性能评估方案,由基于策略梯度的资源分配决策网络和基于值函数的决策性能评估网络结合而成;多波束卫星通信系统作为环境,输出系统状态与DDPG网络进行交互,DDPG网络根据环境状态选择资源分配决策。
[0097] 下面分别对网络结构、状态、动作和收益进行具体设计:
[0098] 资源分配决策网络:负责根据用户业务需求,选择当前资源分配动作a,用于和多波束卫星通信系统交互生成系统总吞吐量、系统公平性指数观测值和状态。输入为多波束卫星通信系统环境状态,输出为资源分配动作;并且该决策网络根据评估网络返回的资源分配决策评估结果修正网络参数。
[0099] 状态设计
[0100] 状态是对外界环境的描述,智能体需要借助该状态参量进行后续的决策,定义决t t t策网络中的状态为s。状态随时间变化而改变,第t个时隙的网络状态向量为st={H ,I ,C ,t t t t
D},其中H 表示各个用户的信道增益;I为用户接收到的同频干扰强度;C表示用户的吞吐t
量;D表示用户的业务量。
[0101] 动作设计
[0102] 动作是智能体的输出参量,用来调整系统环境中的可变信息,定义决策网络中的动作为a。本网络动作a是针对下一时刻预测情况进行的资源分配决策,需要实施到真实系统中对资源变量进行调整。
[0103] 决策网络动作主要包括各波束的分配带宽和功率资源,这些资源参数的可行解组成该智能体的动作空间A。对于每一个时隙t∈{1,2,3,...},系统将在考虑同频干扰的影响下对有业务需求的用户分配功率和带宽资源。
[0104] 动作集表示为At={Pt,Bt}:其中Pt表示系统为用户分配的数据传输功率,Pt=t t{P1,1,t,P1,2,t,...,PM,N,t};B 表示系统为用户分配的数据传输带宽,B={B1,1,t,B1,2,t,...,BM,N,t}。
[0105] 系统性能评估网络:根据决策网络输出的当前资源分配策略计算当前Q值,并通过计算损失函数进行网络参数更新。
[0106] 奖励设计
[0107] 评估网络的奖励值需体现决策网络做出的资源分配决策性能对系统性能的优劣。对于每个时隙,环境根据当前状态、当前状态下的动作以及下一状态设计系统奖励值。奖励值的设计应与资源分配决策的目标有关,评估网络总的奖励值包括以下三种奖励:
[0108] R1:考虑到优化目标P1,将系统总吞吐量作为第一个奖励即:
[0109] R2 :考虑到优化目标P2,将系统公平性系数作为第二个奖励:
[0110] 其中,Ntotal表示卫星通信系统中的所有用户数,即Ntotal=M×N。
[0111] R3:为了加快模型的收敛速度,设置辅助奖励R3:
[0112] 其中:xmn为用户资源分配合理与否的指标, umn为用户在第t个时t
隙的吞吐量是否大于业务量的指标, z 为所有用户功率是否大于总功率
的指标,
[0113]
[0114] 资源分配不合理是指智能体给用户分配了带宽资源(或功率),但是没有给用户分配功率(或带宽)。
[0115] 总的奖励设计为:
[0116] 设计为:R=ω1R1+ω2R2‑ω3R3;
[0117] 其中ω1~ω3为不同奖励对应的权重。
[0118] 网络设计
[0119] 本发明使用深度强化学习中的DDPG算法对卫星系统的资源进行优化分配,需要对DDPG网络的参数进行训练。
[0120] 所设置的DDPG网络的决策网络隐藏层数为两层,每层神经元个数为128,使用sigmod作为激活函数,采用Adam优化器进行优化,学习速率设置为1e‑4;
[0121] 评估网络隐藏层数为两层,每层神经元个数为256,使用relu作为激活函数,采用Adam优化器进行优化,学习速率设置为2e‑4。经验池的容量设置为10000,每次从中抽样的Batch大小为256,探索噪声的方差为0.7。
[0122] 性能分析
[0123] 通过与平均资源分配、随机资源分配方案对比,如图5和图6所示,结果表明,本发明所提出的基于决策性能评估和多目标优化的多波束卫星带宽和功率资源联合分配方法,在不同系统资源的条件下都实现了在保证用户公平性的前提下提升系统的吞吐量的目的。