一种多散射簇信道下基于MAB的两阶段预编码方法转让专利

申请号 : CN202310136922.4

文献号 : CN115865155B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴志杰李超鹏马钰杰宋云超刘陈宦澄

申请人 : 南京邮电大学

摘要 :

本发明公开了一种多散射簇信道下基于MAB的两阶段预编码方法,包括采用多臂赌博机设计预波束成形矩阵;发送导频矩阵,并接收用户根据导频矩阵估计的等效信道矩阵;根据等效信道矩阵,设计预编码器并确定各用户的角度谱;采用预编码器和各用户的角度谱修正预波束成形矩阵。本发明使用多臂老虎机框架将预波束成形矩阵设计问题进行转换,从而使基站通过在线学习算法选择预波束成形矩阵。同时,本发明将预波束成形设计分为两个子问题,首先选择动作快速确定PAS,然后选择臂来最大化频谱效率。此外,提出了贪心策略来选择动作。最后证明了遗憾值随时间呈对数增长。仿真结果验证了所提出的基于MAB的TSB方案的有效性。

权利要求 :

1.一种多散射簇信道下基于MAB的两阶段预编码方法,其特征在于,包括以下步骤:步骤一、采用多臂赌博机算法设计预波束成形矩阵,并将预波束成形矩阵的设计问题转换为多臂赌博机中的臂选择问题的步骤,以及将多臂赌博机中的臂选择问题转化为计算图的色素问题的步骤;

预波束成形矩阵由DFT矩阵 组成,

其中, 视为臂,且

,其中,为入射角, 为天线数, 表示波长, 是两个天线元件之间的间距,是虚部符号;假设 表示第 个时隙预波束成形矩阵中的DFT向量的集合,那么预波束成形矩阵为 ,而第 个时隙中经过预波束成形器后的有效信道矩阵为 ,用户 的有效信道向量为;对于本信道模型,当天线数趋于无穷大时,有                               (3)式中, 为DFT矩阵 的第 列;

; 中的某些元素为0,记

为导频矩阵,则用户 的接收信号可写为:                            (4)在第 个时隙中,假设信道矩阵的某些零元素已经找到,并用 表示已找到的非零元素的集合,将 定义为删除 中零元素获得的向量,则式(4)可以改写为:                           (5)式中, 是由 组成的矩阵,其中 , 是矩阵 的第 列;

通过最大化接收信号的能量来增大SE,即 ;在DTL约束下,设计预波束成形矩阵的问题是:             (10)

                  (11)其中,为DTL,DTL为导频长度;在 中,需要多个DFT向量,因此 是多臂赌博机中的臂选择问题;

将多臂赌博机中的臂选择问题转化为计算图的色素问题的步骤包括:瞬时CSI和统计CSI都不可用;使用在线赌博机来学习预波束成形矩阵;设定如果小于常数 ,则功率为零;否则,功率不为零;

对于(9)式,提取动作 对应的符号得:                           (12)假设 选择了 次,那么得到 ;判断用户 在向量 处的功率是否为零的过程如下所示:LLR可用于评价 小于 的错误概率, 的LLR定义为:;

给定 ,如果所有 的 确定,则选择动作 将无助于确定PAS,故应该选择 ,其中存在 使得 未确定,将集合 定义为不是所有的 都被确定的 的集合,集合定义为所有的 都被确定的 的集合,此时,分为如下两个子问题:在每个时隙中,可以根据上述分析计算所有未确定的 的 ,确定的 的LLR 设置为0,然后第一个子问题是选择集合 中的动作以最大化LLR的总和,记为 ,则第一个子问题表述为:,                      (20)                         (21)一旦获取到 的解,考虑已确定的集合 中的DFT向量,在这种情况下,选择DFT向量以最大化接收到的能量;

定义 ,第二个子问题变为:

                       (22)                             (23)                             (24)使用基于MAB的算法来选择 和 中的DFT向量;

步骤二、发送导频矩阵,并接收用户根据导频矩阵估计的等效信道矩阵;

具体地,采用正交导频矩阵估计信道向量,为了估计信道矩阵 ,导频矩阵应该满足:,对于所有                           (6)这样就可以使用最小二乘信道估计方法;在设计导频矩阵之前,定义一个索引矩阵,其中该矩阵的第 个元素为:                        (7)可以使用如下定理1设计满足式(6)的导频矩阵;

所述定理1:满足式(6)的最小 为 ,其中 表示邻接矩阵为 的图的色数,设 是问题 中的适当着色‑一个解,那么,导频矩阵设计为:

                               (8)式中, 是任意 维酉矩阵 的第 列;

如果使用所述定理1中的方法将导频矩阵设计为 ,则 可以通过最小二乘准则进行估计;通过最小二乘准则,可将式(5)乘以 ,然后有:                           (9)的估计为 , 将反馈回BS,使用 和零元素,BS可以获得;在第二阶段中,多用户预编码器 被设计为 以减轻干扰;

步骤三、根据等效信道矩阵,设计预编码器并确定各用户的角度谱;以及步骤四、采用预编码器和各用户的角度谱修正预波束成形矩阵。

2.根据权利要求1所述的多散射簇信道下基于MAB的两阶段预编码方法,其特征在于:提出基于MAB的次优算法求解 和 ;

在每次迭代中选择一个DFT向量以获得最大的奖励,设LLR 作为奖励,且, 中的DFT向量被视为臂,提出次优ε‑贪心策略选择动作,即在第次迭代中,如果选择了动作集 ,那么在第 次迭代中,选择的动作为:                        (25)式中,是均匀分布在 中的随机变量, 是在 中随机选择的动作,是由满足式(21)的 中的动作组成的集合; 是以下问题的解:,                          (26)                    (27)使用贪婪的UCB策略来选择动作,将接收到的能量 视为奖励并将 中的DFT向量视为臂,考虑到 的卡方分布,其是参数为 次指数分布,其中,每个动作的UCB值定义为:

   (28)

其中, 表示已选择动作 的数量,是满足 的任意常数,,在信道模型中, 是被归一化为均匀分布在 ,此时可知 ,其中 和 已知,那

么可得 ;给定UCB值,在第 次迭代中,如果选择集合 ,那么考虑集合中的动作,并选择动作为:                           (29)                    (30)。

3.根据权利要求2所述的多散射簇信道下基于MAB的两阶段预编码方法,其特征在于:如果CCM完全已知,则每个用户的PAS都是已知的,现在展示由上述次优算法获得,并选择最大化接收能量的动作,其中选择的动作应该满足DTL约束;用 表示次优算法获得的动作,所提出的MAB算法将使动作收敛到 ;因此,将遗憾定义为:                   (31)。

4.根据权利要求1所述的多散射簇信道下基于MAB的两阶段预编码方法,其特征在于,还包括采用似然比迭代地确定每个动作的角度功率谱。

说明书 :

一种多散射簇信道下基于MAB的两阶段预编码方法

技术领域

[0001] 本发明属于无线通信技术领域,尤其涉及一种多散射簇信道下基于MAB的两阶段预编码方法。

背景技术

[0002] 大规模多输入多输出(multiple input multiple output, MIMO)系统已显著提高了5G系统的频谱效率,并将在6G系统中发挥重要作用。为了充分利用大规模MIMO的优势,在基站(base station, BS)获取信道状态信息(channel state information, CSI)尤为重要。然而,频分双工(frequency duplex division, FDD)中信道互易性不成立,为了获得瞬时CSI,需要花费大量的下行导频长度(downlink pilot length, DTL)和CSI反馈开销,这使得 FDD 大规模MIMO具有挑战性。
[0003] 最近,有研究提出了基于信道协方差矩阵(channel covariance matrix, CCM)的两阶段波束成形(two stage beamforming, TSB)方案来减少开销。由于统计 CSI 的变化比瞬时 CSI 变化慢,因此获得 CCM 的开销远小于估计瞬时 CSI 的开销。在TSB的第一阶段,基于CCM设计预波束形成矩阵,在第二阶段设计多用户预编码器以减少干扰。在这些TSB方案中,联合空分复用(jonit spatial division and multiplexing, JSDM)对用户进行分组,利用统计CSI设计预波束形成器来降低组间干扰,降低每个用户的信道矩阵维数,然后在第二阶段设计预编码器来消除组内干扰。基于邻居的JSDM(Neighbor based JSDM, NJSDM)避开用户分组,充分利用信号空间,从而获得更高的频谱效率。有文献提出了考虑多散射体簇 (MSC) 信道的 TSB 方案。这些 TSB 方案依赖于可用的 CCM。Khalilsarai等人估计了CCM并提出了一种称为ACS的TSB方案,该方案使用DFT矩阵来设计前置波束形成器。事实上,估计 CCM 的开销很大,尤其是当用户快速移动时。对于单环信道,Song等人提出了一种基于组合多臂赌博机(combinatorial multi‑armed bandit, CMAB)的算法来设计预波束成形矩阵,从而避免了 CCM 的估计。然而,在其他复杂信道中,有效信道矩阵比单环信道中的带状有效信道矩阵更复杂,基于CMAB的算法不适用于这些场景。

发明内容

[0004] 本发明的主要目的是,提供一种多散射簇信道下基于MAB的两阶段预编码方法,以解决现有技术中采用CCM设计预波束形成矩阵开销大、效率低的问题。
[0005] 为实现以上目的,本发明提供了一种多散射簇信道下基于MAB的两阶段预编码方法,包括以下步骤:
[0006] 步骤一、采用多臂赌博机设计预波束成形矩阵;
[0007] 步骤二、发送导频矩阵,并接收用户根据导频矩阵估计的等效信道矩阵;
[0008] 步骤三、根据等效信道矩阵,设计预编码器并确定各用户的角度谱;以及[0009] 步骤四、采用预编码器和各用户的角度谱修正预波束成形矩阵。
[0010] 本发明的进一步改进在于,所述步骤一进一步包括:将预波束成形矩阵的设计问题转换为多臂赌博机中的臂选择问题的步骤;以及将多臂赌博机中的臂选择问题转化为计算图的色素问题的步骤。
[0011] 本 发 明 的 进 一 步 改 进 在 于 ,预 波 束 成 形 矩 阵 由 D F T 矩 阵组成,
[0012] 其中, 视为臂,且 ,其中,为入射角,为天线数, 表示波长, 是两个天线元件之间的间距,是虚部符号;假设 表示第 个时隙预波束成形矩阵中的DFT向量的集合,那么预波束成形矩阵为,而第个时隙中经过预波束成形器后的有效信道矩阵为 ,用户 的有
效信道向量为 ;对于本信道模型,当天线数趋于无穷大时,有
[0013] (3)
[0014] 式中,为DFT矩阵 的第 列; ;中的某些元素为0,记 为导频矩阵,则用户 的接收信号可写为:
[0015] (4)
[0016] 在第 个时隙中,假设信道矩阵的某些零元素已经找到,并用 表示已找到的非零元素的集合,将 定义为删除 中零元素获得的向量,则式(4)可以改写为:
[0017] (5)
[0018] 式中, 是由 组成的矩阵,其中 ,是矩阵 的第列。
[0019] 本发明的进一步改进在于,采用正交导频矩阵估计信道向量。
[0020] 本发明的进一步改进在于,为了估计信道矩阵 ,导频矩阵应该满足:
[0021] (6)
[0022] 对于所有 这样就可以使用最小二乘(LS)信道估计方法;在设计导频矩阵之前,定义一个索引矩阵 ,其中该矩阵的第 个元素为:
[0023] (7)
[0024] 可以使用如下定理1设计满足式(6)的导频矩阵;
[0025] 所述定理1:满足式(6)的最小 为 ,其中 表示邻接矩阵为 的图的色数,设 是问题 中的适当着色‑一个解,
[0026] 那么,导频矩阵设计为:
[0027] (8)
[0028] 式中, 是任意 维酉矩阵 的第 列;
[0029] 如果使用所述定理1中的方法将导频矩阵设计为 ,则 可以通过LS准则进行估计;通过LS准则,可将式(5)乘以 ,然后有:
[0030] (9)
[0031] 的估计为 , 将反馈回BS,使用 和零元素,BS可以获得 ;在第二阶段中,多用户预编码器 被设计为 以
减轻干扰。
[0032] 本发明的进一步改进在于,通过最大化接收信号的能量来增大SE,即;在DTL约束下,设计预波束成形矩阵的问题是:
[0033] (10)
[0034] (11)
[0035] 其中,为DTL,DTL为导频长度;在 中,需要多个DFT向量,因此 是多臂赌博机中的臂选择问题。
[0036] 本发明的进一步改进在于,将多臂赌博机中的臂选择问题转化为计算图的色素问题的步骤包括:在上述问题中,瞬时CSI和统计CSI都不可用;使用在线赌博机来学习预波束成形矩阵;设定如果
[0037] 小于常数 ,则功率为零;否则,功率不为零;
[0038] 对于(9)式,提取动作 对应的符号得:
[0039] (12)
[0040] 假设 选择了 次,那么得到 ;
[0041] 判断用户 在向量 处的功率 是否为零的过程如下所示:LLR可用于评价小于 的错误概率, 的LLR 定义为:
[0042] ;
[0043] 给定 ,如果所有 的 确定,则选择动作 将无助于确定PAS,故应该选择,其中存在 使得 未确定,将集合 定义为不是所有的 都被确定的 的集合,集合 定义为所有的 都被确定的 的集合,此时,对应的问题分为如下两个子问题:在每个时隙中,可以根据上述分析计算所有未确定的 的 ,确定的 的LLR设置为0,然后第一个子问题是选择集合 中的动作以最大化LLR的总和,记为,则问题表述为:
[0044] (20)
[0045] (21)
[0046] 一旦获取到 的解,考虑已确定的集合 中的DFT向量,在这种情况下,选择DFT向量以最大化接收到的能量;
[0047] 定义 ,第二个子问题变为:
[0048] (22)
[0049] (23)
[0050] (24)
[0051] 使用基于MAB的算法来选择 和 中的DFT向量。
[0052] 本发明的进一步改进在于,提出基于MAB的次优算法求解 和 ;
[0053] 在每次迭代中选择一个DFT向量以获得最大的奖励,设LLR 作为奖励,且, 中的DFT向量被视为臂,在该问题中,提出次优ε‑贪心策略选择动作,即在第 次迭代中,如果选择了动作集 ,那么在第 次迭代中,选择的动作为:
[0054] (25)
[0055] 式中,是均匀分布在 中的随机变量, 是在 中随机选择的动作,是由满足式(21)的 中的动作组成的集合; 是以下问题的解:
[0056] (26)
[0057] (27);
[0058] 使用贪婪的UCB策略来选择动作,将接收到的能量 视为奖励并将 中的DFT向量视为臂,考虑到 的卡方分布,其是参数为 次指数分布,其中 ,每个动作的UCB值定义为:
[0059] (28)
[0060] 其中, 表示已选择动作 的数量,是满足 的任意常数, ,在信道模型中, 是被归一化为均匀分布在 ,此
时可知 ,其中 和 已
知,那么可得 ;给定UCB值,在第 次迭代中,如果选择集合 ,那么考虑集合中的动作,并选择动作为:
[0061] (29)
[0062] (30)。
[0063] 本发明的进一步改进在于,如果CCM完全已知,则每个用户的PAS都是已知的,现在展示由上述次优算法获得 ,在第 次迭代中,如果选择集合 ,那么考虑集合中的动作, 是已选择动作 的集合,并选择最大化接收能量的动作,其中选择的动作应该满足DTL约束,用 表示次优算法获得的动作,所提出的MAB算法将使动作收敛到 ;因此,将遗憾定义为:
[0064] (31)。
[0065] 本发明的进一步改进在于,还包括采用似然比迭代地确定每个动作的角度功率谱。
[0066] 本发明的有益效果:本发明将预波束形成矩阵设计问题转化为MAB问题,并根据等效信道矩阵,设计预编码器并确定各用户的角度谱;采用预编码器和各用户的角度谱修正预波束成形矩阵。本发明证明了遗憾随时间呈对数增长,使所提出的方案收敛于最优行动,且本发明相较于之前的方法能够显著提高频谱效率能够在不需要CCM的情况下,显著减少信道估计的开销并提高频谱效率。

附图说明

[0067] 图1为本发明一种实施例的不同SNR下不同方案的ESE仿真示意图;
[0068] 图2为本发明一种实施例的不同用户数量下不同方案的ESE仿真示意图;
[0069] 图3为本发明一种实施例的不同DTL下不同方案的ESE仿真示意图;
[0070] 图4为本发明一种实施例的MAB方案在每个时隙中的ESE仿真示意图。

具体实施方式

[0071] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0072] 需要强调的是,在描述本发明过程中,各种公式和约束条件分别使用前后一致的标号进行区分,但也不排除使用不同的标号标志相同的公式和/或约束条件,这样设置的目的是为了更清楚的说明本发明特征所在。
[0073] 本发明针对单小区FDD大规模MIMO系统,提出了一种面向大规模MIMO多散射簇信道下基于MAB的两阶段预编码方法。与其他TSB方案不同的是,预波束形成矩阵是由MAB设计的,不需要CCM。
[0074] 在TSB方案的第一阶段,本发明将预波束形成设计问题转化为MAB问题,将预波束形成矩阵视为臂,并且使用线性UCB策略来选择臂。
[0075] 在TSB方案的第二阶段,设计了多用户预编码器来减少干扰。在MAB学习过程中,本发明采用似然比迭代地确定每个动作的角度功率谱(PAS)是否为零,确定功率角谱,并迭代减小角度范围。证明了该方法能够实现随时间对数增长的结果。仿真结果也验证了该方案的良好性能。
[0076] 以下结合附图和实施例对本发明进行详细描述。
[0077] 本发明能够在不需要CCM的情况下,显著减少信道估计的开销并提高频谱效率。
[0078] 本发明的方法包括如下步骤:
[0079] 步骤一、采用多臂赌博机设计预波束成形矩阵;
[0080] 步骤二、发送导频矩阵,并接收用户根据导频矩阵估计的等效信道矩阵;
[0081] 步骤三、根据等效信道矩阵,设计预编码器并确定各用户的角度功率谱;以及[0082] 步骤四、采用预编码器和各用户的角度功率谱修正预波束成形矩阵。
[0083] 为了使本发明的技术方案更好地被解释,初步工作要先对相关参数和数据进行预处理。
[0084] 考虑一个单小区FDD大规模MIMO系统,小区内有一个BS,BS配备有 个元件的均匀线性天线(ULA)阵列。BS与 个单天线用户进行通信。使用 表示BS和用户 之间的下行信道向量,用 表示接收信号。在TSB方案中,预波束成形矩阵 采用CCM进行设计,使得有效信道矩阵 具有特
殊结构,可以减少DTL和信道反馈。当BS获得 的估计值后,在第二阶段设计多用户预编码器 。此时用户端接收信号的表达式为:
[0085] (1)
[0086] 式中, 为传输信号并且传输信号的方差为,为单位阵,其中 指取均值操作,  为高斯噪
声且服从均匀对称复高斯分布。通常,多用户预编码器 旨在消除干扰,其中指伪逆。
[0087] 本发明考虑MSC信道,BS通过 个簇将信号传输给用户 ,其中 均匀分布在中,并且 是每个用户的最大簇数。对于用户 ,如果第 个簇的角度范围为,则用户 的CCM为:
[0088] (2)
[0089] 式中, 表示共轭, 是转向矢量,T表示向量转置,其中 为入射角, 表示波长, 是两个天线元件之间的间距,是虚部符号。在式中, 是被归一化为均匀分布在 之间的信道功率角谱
(PAS)。通过Karhunen‑Loeve表达式,用户 的信道矢量为 ,其中 为分布为为小尺度衰落。
[0090] 下面对本发明所提出的基于MAB的TSB技术方案进行介绍。
[0091] 第一方面,对公式问题相关推理并进行描述,包括:
[0092] 记CCM在 个时隙内保持不变。在所提方案中,使用DFT矩阵来设计预波束成形矩阵。假设 表示第 个时隙预波束成形矩阵中的DFT向量的集合,那么预波束成形矩阵为 ,而第 个时隙中经过预波束成形器后的有效信道矩阵为,用户 的有效信道向量为 。对于本信道
模型,当天线数趋于无穷大时,有
[0093] (3)
[0094] 式中, 为DFT矩阵 的第 列。
[0095] 。因此, 中的某些元素为0。记 为导频矩阵,则用户 的接收信号可写为:
[0096] (4)
[0097] 在第 个时隙中,假设信道矩阵的某些零元素已经找到,并用 表示已找到的非零元素的集合。将 定义为删除 中零元素获得的向量。则式(4)可以改写为:
[0098] (5)
[0099] 式中, 是由 组成的矩阵,其中 , 是矩阵 的第 列。
[0100] 由于正交导频能够提高信道估计性能并降低用户的复杂度,本发明采用正交导频矩阵估计信道向量。此外,为了估计信道矩阵 ,导频矩阵应该满足: (6)[0101] 对于所有 这样就可以使用最小二乘(LS)信道估计方法。在设计导频矩阵之前,定义一个索引矩阵 ,其中该矩阵的第 个元素为:
[0102] (7)
[0103] 可以使用如下定理设计满足式(6)的导频矩阵。
[0104] 定理1:满足式(6)的最小 为 ,其中 表示邻接矩阵为 的图的色数。设 是问题 中的适当着色(一
个解)。那么,导频矩阵可以设计为:
[0105] (8)
[0106] 式中, 是任意 维酉矩阵 的第 列。
[0107] 如果使用定理1中的方法将导频矩阵设计为 ,则 可以通过LS准则进行估计。通过LS准则,可将式(5)乘以 ,然后有:
[0108] (9)
[0109] 的估计为 , 将反馈回BS。使用 和零元素,BS可以获得 。在第二阶段中,多用户预编码器 被设计为 以
减轻干扰。
[0110] 由此可知,预波束成形矩阵的设计问题可以转化为寻找 以最大化频谱效率(SE)的问题,其中DTL是有限的。本发明通过最大化接收信号的能量来增大SE,即;在DTL约束下,设计预波束成形矩阵的问题是:
[0111]  (10)
[0112] (11)
[0113] 其中,为DTL。
[0114] 在上述问题中,瞬时CSI和统计CSI都不可用。使用在线赌博机来学习预波束成形矩阵。需要注意的是,当使用MAB获取预波束成形矩阵时,会不断确定有效信道矩阵中的零值,从而使得DTL发生改变。不难得知,用户的零元素越多,DTL越小,频谱效率就可以扩大。因此,需要尽快找到零值以减小DTL。本文设定如果 小于常数 ,
则功率为零。否则,功率不为零。
[0115] 对于(9)式,提取动作 对应的符号得:
[0116] (12)
[0117] 假设 选择了 次,那么得到 。判断用户 在向量 处的功率 是否为零的过程如下所示。LLR可用于评价 小于 的错误概率。 的LLR定义为: 该式可以使用下面的引理进行计算。
[0118] 引理1:对于用户 ,如果向量 已被选择 次,则
[0119] (13)
[0120] 式中, , 是下不完全Gamma函数。
[0121] 证明:由于 ,可知:
[0122]   (14)
[0123] 设 可得:
[0124](15)
[0125] 因而有:
[0126] (16)
[0127] 如果 很大,则 很可能是非零的。如果 很小, 很大概率为0。因此,设定如果 ,则功率设置为非零。如果 ,则将功率设置为 0。其他情况下,功率大小不确定。
[0128] 引理2:存在正整数 使得 或者 的概率为1。
[0129] 证明:对于函数
[0130] (17)
[0131] 易知 在 时递增,在 时递减。因此, 在处最大化。此外,易证明存在一个常数 使得

[0132] 如果 ,定义 和 。可得:
[0133] (18)
[0134] 由于 ,当 增大时 将接近于0,因此存在整数 使得。如果 ,定义 ,则有
[0135] (19)
[0136] 由于 ,当 增大时 接近于 ,因此存在整数 使得。由于 不等于概率1,因此这里存在一个概率为1的正整数 ,使得 或

[0137] 给定 ,如果所有 的 确定,则选择动作 将无助于确定PAS,故应该选择,其中存在 使得 未确定。因此,将集合 定义为不是所有的 都被确定的的集合,集合 定义为所有的 都被确定的 的集合。此时,对应的问题分为如下两个子问题。
[0138] 在每个时隙中,可以根据上述分析计算所有未确定的 的 。确定的的LLR 设置为0。然后第一个子问题是选择集合 中的动作以最大化LLR的总和。记为,则问题表述为:
[0139] (20)
[0140] (21)
[0141] 一旦获取到 的解,考虑已确定的集合 中的DFT向量。在这种情况下,选择DFT向量以最大化接收到的能量。定义 ,第二个子问题变为:
[0142] (22)
[0143] (23)
[0144] (24)
[0145] 如上所示,CSI不可用,传统的基于优化的算法将不适用。使用基于MAB的算法来选择 和 中的DFT向量。
[0146] 由于 和 中计算色数的运算是指数复杂度的, 和 求最优解的算法复杂度高。接下来,本文将使用次优算法求解 和 。
[0147] 本文提出迭代的基于MAB的次优算法来解决 ,在每次迭代中选择一个DFT向量以获得最大的奖励。设LLR 作为奖励,且 。 中的DFT向量被视为臂,也称为动作。在该问题中,提出次优ε‑贪心策略选择动作,即在第 次迭代中,如果选择了动作集 ,那么在第 次迭代中,选择的动作为:
[0148] (25)
[0149] 式中,是均匀分布在 中的随机变量, 是在 中随机选择的动作,是由满足式(21)的 中的动作组成的集合; 是以下问题的解:
[0150] (26)
[0151] (27)
[0152] 为求解 ,如果使用最优算法获取色数,复杂度将是指数级的。因此,使用次优算法,即Welch‑Powell算法来计算色数。然后计算每个 的 并选择具有最大 的动作。
[0153] 一旦解决子问题 ,就转而考虑子问题 ,并提出了基于MAB的算法来解决。由于在 中获得最优解的复杂度很高,现在使用贪婪的UCB策略来选择动作。将接收到的能量 视为奖励并将 中的DFT向量视为臂。考虑到 的卡方分布,其是参数为 次指数分布,其中 。每个动作的UCB值定义为:
[0154] (28)
[0155] 其中, 表示已选择动作 的数量,是满足 的任意常数, ,在信道模型中, 是被归一化为均匀分布在 ,此
时可知 ,其中 和 已
知,那么可得 ;给定UCB值,在第 次迭代中,如果选择集合 ,那么考虑集合中的动作,并选择动作为:
[0156] (29)
[0157] (30)
[0158] 类似地,为每个 计算 ,其中Welch‑Powell算法用于计算色数,并选择满足()的最大UCB值的动作。
[0159] 如果CCM完全已知,则每个用户的PAS都是已知的。现在展示由上述次优算法获得。在第 次迭代中,如果选择集合 ,那么考虑集合 中的动作,并选择最大化接收能量的动作,其中选择的动作应该满足DTL约束。用 表示次优算法获得的动作,所提出的MAB算法将使动作收敛到 。因此,将遗憾定义为:
[0160] (31)
[0161] 定理2:所提算法的遗憾是 。
[0162] 证明:从引理1可知,存在一个常数 使得 次迭代后,有效信道矩阵中的零元素均被检测出。现在考虑第 个时隙之后的情况。由于算法是迭代的,在第 次迭代中,能量遵循卡方分布。用 表示第 个时隙在第 次迭代中选择动作 的概率,则
[0163] (32)
[0164] 记 为第 个时隙后动作 的次数,那么
[0165] (33)
[0166] 令 为任意正整数,那么有
[0167](34)
[0168] 意味着以下公式必须满足一个
[0169] (35)
[0170] (36)
[0171] (37)
[0172] 对于卡方分布,有
[0173] (38)
[0174] 其中, , 。
[0175] 从式(28)可知, ,那么 。由于 ,则。此外,从式(28)可知, ,可知 。由于
,则 。因此有
[0176] (39)
[0177] 同理可得
[0178] (40)
[0179] 取 。此时, ,那么(28)式中
[0180] (41)
[0181] 由于 ,那么
[0182] (42)
[0183] 此时,可得
[0184] (43)
[0185] 那么 。因此 ,那么
[0186] (44)
[0187] 故 。因此
[0188](45)
[0189] 在MAB过程中,本发明采用似然比迭代地确定每个动作的角度功率谱(PAS)是否为零,确定功率角谱,并迭代减小角度范围。证明了该方法能够实现随时间对数增长的结果。仿真结果也验证了该方案的良好性能。
[0190] 下面结合具体实施方式对本发明实施例中的方法进行仿真验证说明。
[0191] 通过仿真验证所提方案的性能。考虑一个配备有128根ULA天线的基站,为 个单天线用户提供服务。在MSC信道模型中,每个簇的方位中心角均匀分布在 中。每一个用户最大的簇数量 设置为4。在所提出的方案中,设置为0.01, 设置为0.1。提出的基于MAB的方案与CGTSB方案和ACS方案进行了比较。在相干区间内,由于一些符号用于传输导频矩阵,用户 的有效频谱效率(ESE)为:
[0192] (46)
[0193] 式中, 表示每个相干区间的符号数,表示DTL。LTE中的一个资源块由168个复符号组成,因此,我们将Tc 设置为 100。本发明考虑在 个时隙内保持不变,在LTE系统中,一个时隙为0.5毫秒,此时一共在0.5秒内保持不变。
[0194] 图1比较了不同SNR下不同方案的ESE。图1(a)和图1(b)的用户数分别为20和32。设置为30。从这两个图中可知,随着SNR的增加,所有方案的ESE都得到了增加。更重要的是基于 CMAB的方案比CGTSB方案以及ACS方案实现了更高的 ESE。这是因为CGTSB方案和ACS方案花费了很多时隙来估计CCM。
[0195] 图2显示了不同用户数下不同方案的ESE。信噪比设为10 dB。
[0196] 设置为 30。所提的基于MAB的方案比其他方案具有更高的ESE。基于MAB的方案的ESE随着用户数量的增加先增加后减少。原因如下。对于少数用户,用户间干扰不大,多用户增益提高了ESE。然而,当用户数量较大时,用户间干扰较高,从而降低了ESE。
[0197] 图3比较了不同DTL下不同方案的ESE。信噪比为10 dB,用户数为20。所提的基于MAB的方案比CGTSB和ACS 具有更高的ESE。所有方案的ESE先增大后减小。这是因为,对于小的DTL,DTL的影响较小,增加DTL的大小会使得 DFT向量的数量随着增加,从而提高频谱效率并提升了ESE。但是,当DTL 很大时,DTL 将占据重要作用。通过增加DTL,频谱效率不会增加,因此ESE会降低。CGTSB方案的ESE保持不变,因为NJSDM方案的DTL是固定的。
[0198] 图4显示了MAB方案在每个时隙中的ESE。SNR为10 dB,DTL为 30。由于UCB策略的特点,CMAB方案的期望ESE随着时隙的增加先增大后收敛。当 很大时,它将花费更多的时隙来利用这些动作,因此ESE收敛缓慢。用户数为10时,ESE较小,而用户数为20和30的ESE相近。
[0199] 综上所述,在 TSB 方案的第一阶段,本发明采用MAB框架对预波束成形矩阵设计问题进行建模,然后提出了在线MAB学习算法来选择动作。在学习过程中,使用似然比(likelihood ratio, LLR)迭代地确定每个动作的角度功率谱(power angular spectrum, PAS)是否为零。因此,将动作分为两组,一组包括PAS不确定的动作,另外一组包括PAS已知的动作。本发明首先选择不确定集合中的动作,以尽快地减少 DTL,然后选择确定集合中的动作来最大化频谱效率。考虑到DTL等于图的色数,而图的色数计算成本高,本发明提出了贪婪式的动作选择策略。我们证明了遗憾随时间呈对数增长。仿真结果验证,所提出的基于MAB的TSB方案能够提供比以往更高的有效频谱效率。
[0200] 本发明将预波束形成矩阵设计问题转化为MAB问题。将每个时隙内的预波束形成矩阵设计作为MAB中的臂选择问题,使用多臂老虎机框架将预波束成形矩阵设计问题进行转换,从而使得 BS可以通过在线学习算法选择预波束成形矩阵。考虑在学习过程中角度功率谱(power angular spectrum, PAS)迭代地获取,本发明将预波束成形设计分为两个子问题,首先选择动作快速确定PAS,然后选择臂来最大化频谱效率。此外,由于导频长度与图色数有关,增加了计算成本,提出了一种贪心策略来选择动作。最后证明了遗憾值随时间呈对数增长。仿真结果验证了所提出的基于MAB的TSB方案的有效性。且本发明相较于之前的方法能够显著提高频谱效率能够在不需要CCM的情况下,显著减少信道估计的开销并提高频谱效率。
[0201] 以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。