一种无线定位网络资源优化方法转让专利

申请号 : CN202110271000.5

文献号 : CN113099491B

文献日 : 2022-05-10

本发明公开了一种无线定位网络资源优化方法，具体为：以均方误差为衡量定位精度的性能指标，得到目标节点定位精度误差值M(Pk)；将目标节点定位精度误差值M(Pk)最小化作为目标函数，考虑目标节点Na=1的情况下目标函数M(Pk)最小化问题P1；基于强化学习（RL）实现资源分配算法；针对目标节点Na数量的增加，优化最优资源分配策略，以最小化系统的功率消耗为目标构建资源优化方案P2；针对目标节点k的位置估计存在误差，进一步优化最优资源分配策略，以不确定区域内所有可能目标节点的最大定位精度误差值M(Pk)最小化为目标构建资源优化方案P3；以强化学习（RL）为基础实现鲁棒性链路选择。本发明的资源优化方法可得到高精度定位结果。

1.一种无线定位网络资源优化方法，其特征在于，该方法包括如下步骤：(1)在无线定位网络中用分别代表锚节点和目标节点的集合，锚节点基于时钟异步方式，以频分复用方法与目标节点进行测距，得到目标节点k的位置估计采用均方误差衡量目标节点k位置估计的准确性，得到目标节点定位精度误差值

(2)将目标节点定位精度误差值最小化作为目标函数，考虑目标节点Na＝1的情况下目标函数最小化问题P1，约束条件为：每个锚节点都有传输带宽β0和发射功率P0的上限；所有锚节点总的发射功率不能超过阈值；每个锚节点发射信号的频带不能重叠；

(3)基于强化学习(RL)实现资源分配算法，包括：根据目标函数最小化来设置奖励以指导锚节点对于不同等级资源进行选择，得到最优资源分配策略，然后根据输入的目标节点的真实位置pk结合邻近算法或者BP神经网络方式得到锚节点次优的资源分配动作；

(4)针对目标节点数量的增加，优化步骤(3)得到的最优资源分配策略，以最小化系统的功率消耗为目标构建资源优化方案P2，约束条件在P1约束条件的基础上，增加约束条件：每个目标节点的定位精度误差值均不能大于定位精度阈值；

(5)针对目标节点k的位置估计存在误差的问题，进一步优化步骤(4)得到的最优资源分配策略，以不确定区域内所有可能目标节点的最大定位精度误差值最小化为目标构建资源优化方案P3，约束条件在P1约束条件的基础上，增加约束条件：所有可能的目标节点位置均在不确定区域内；

(6)基于实际测距得到测距矩阵R，根据锚节点拓扑结构和测距矩阵R，以强化学习(RL)为基础实现鲁棒性链路选择，最终得到目标节点位置估计的最优值以及对应的鲁棒性链路选择方案。

2.根据权利要求1所述的一种无线定位网络资源优化方法，其特征在于，所述步骤(3)中资源分配算法的具体实现步骤为：

1)初始化设置：通过采样目标节点位置形成训练库，训练集合表示为锚节点位置为pAnchor，第s个目标节点样本位置表示为ps，设置信道系数ξsj，功率、带宽的离散步长分别为ΔP、Δβ；

定义锚节点的动作为定义训练精度的五个状态(S0‑S4)，依次为差、较差、一般、较好、很好；

2)训练过程：对于训练库中每个节点的每次训练：初始化状态‑动作表矩阵Q为零矩阵，设置当前状态为S0；

令st、at为当前时刻的状态和动作，若当前训练次数未到达训练上限：Qold＝Q(st,at)；

从动作集中选择针对所有锚节点的一组资源分配动作，根据t+1时刻的资源分配方案，输出t+1时刻定位精度误差值

获得t+1时刻执行完资源分配动作获得的回报值Rt+1，更新状态‑动作表矩阵Q；

利用ε‑贪心算法求解策略，其中ε为“探索”的概率，取值范围[0,1]：其中，Pr表示概率，π表示有1‑ε的概率选取最大化状态‑动作表矩阵Q的动作，ε的概率随机选择；

更新状态‑动作表矩阵Q，将状态更新为当前状态；

3)循环训练步骤2)，达到设置的收敛次数上限循环结束，输出状态‑动作表矩阵Q和最优资源分配策略；

4)输入目标节点的真实位置pk；

结合邻近算法或者BP神经网络的方式获取次优的资源分配动作：

3.根据权利要求2所述的一种无线定位网络资源优化方法，其特征在于，所述步骤(6)实现鲁棒性链路选择的具体步骤为：

1)采样需要定位的目标节点，训练集合表示为设定锚节点位置为pAnchor，第s目标节点位置为ps，基于锚节点Nb与目标节点的实际测距Nb×Ns获取测距矩阵R；

2)在测距矩阵R中随机选取测距链路以获得ps的位置估计集合剔除集合中的离群值，获得包含新集合的最小不确定区域η1×η2；

对于不确定区域η1×η2的每个顶点，初始化状态‑动作表矩阵Q为零矩阵，设置当前状态为S0；

对每个顶点实行资源分配算法中的训练过程，根据锚节点分配到资源与否选取测距链路；

记录每个顶点的链路选择方案；

将每个顶点的链路选择方案遍历应用到其他顶点，基于资源优化方案P3的优化目标和约束条件获取鲁棒性链路选择方案；

3)循环步骤2)，直到训练完Ns目标节点；

4)输出Ns目标节点位置估计的最优值以及对应的鲁棒性链路选择方案。

一种无线定位网络资源优化方法

技术领域

[0001] 本发明属于通信技术领域，具体涉及一种无线定位网络资源优化方法。

背景技术

[0002] 设计定位网络的目的往往是最大化定位网络的精度，除了传统的增加定位参考节点投放，定位节点之间传送信号携带的信息量同样影响无线定位网络的精度。由于搭建实
际定位网络常受到资金限制以及系统模型简化应用的要求，那么资源受限的系统提升精度
的关键点就在于优化功率带宽等资源的分配。

[0003] 以时钟同步的到达时间(Time of Arrival，TOA)测距技术为基础，非协作定位网络以及协作定位网络的定位精度下限：直接位置误差界(Direct Position Error Lower
Bound，DRLB)以及克拉美罗下界(Cramer Rao Lower Bound，CRLB)已被推导出，现阶段已有
大量以定位精度下界为性能指标进行无线定位网络资源分配的研究。定位网络资源分配领
域很多研究都是着眼于纯功率因素，部分研究考虑到带宽也是影响无线定位网络定位准确
性的要素之一，采取单项资源优化调度的方式，验证了纯带宽优化可以获得比纯功率优化
更好的定位精度，这也与CRLB的表达式形式相契合。在此基础上，学者们展开了关于联合功
率与带宽资源(Joint Power and Bandwidth Allocation，JPBA)的优化分配研究，结果表
明JPBA明显优于仅优化功率或是带宽的策略。

[0004] 考虑到目前基于无线定位网络资源分配的研究，都是针对CRLB进行资源优化分配，即从闭合形式的理论下限出发。然而定位网络CRLB常常难以取到，特别是低信噪比
(Signal‑Noise Ratio，SNR)情况下，直接以CRLB为性能指标进行资源优化分配会造成较大
误差，而以更具实际意义定位算法的均方误差(Mean Square Error，MSE)为性能指标，进行
资源优化分配的研究很匮乏。考虑到均方误差非闭合形式的特殊性，非参数的优化方式求
解也存在进一步考虑的必要。

[0005] 强化学习可以求解非闭合形式的问题，通过与环境交互的即时奖励反馈，强化学习可以相应地生成(接近)最佳控制行为，它不是简单地以贪婪的方式优化当前奖励，而是
考虑了长期目标，这对于时变动态系统(例如无线定位网络)至关重要。目前，强化学习已经
被广泛的应用于通信系统资源分配的研究中，可以为以无线定位网络MSE为目标的资源优
化分配提供有效的参考。此外，考虑到状态数以及动作空间维度会随着目标节点数量增多
呈指数增长，此类优化求解方法可能存在维度爆炸导致无法遍历的问题。

发明内容

[0006] 本发明针对上述问题，提供了一种无线定位网络资源优化方法，采取了定位算法的实际度量MSE为优化对象，以强化学习为主要解决方案，建立了资源优化分配框架，解决
了理论下限无法取到所带来的误差问题，更具备实际意义；给出了线性复杂度的分布式优
化框架，结合次优回归方法，在保证定位精度的同时解决了每出现一个新的目标节点就得
重新耗时训练的问题；考虑实际测距误差的存在提出了鲁棒性链路选择算法，所提算法在
部分测距链路存在遮挡或者时钟偏差时可得到高精度的定位结果，同时对延长定位节点生
命周期有重大意义。

[0007] 本发明的技术方案如下：

[0008] 一种无线定位网络资源优化方法，该方法以均方误差为衡量定位精度的性能指标，基于强化学习搭建了资源优化分配框架，利用分布式解决方案，在保证定位精度的同时
解决了每出现一个新的目标节点就得重新耗时训练的问题，最后利用实测数据实现了鲁棒
性链路选择，该方法包括如下步骤：

[0009] (1)在无线定位网络中，用分别代表锚节点和目标节点的集合，锚节点基于时钟异步方式，以频分复用方法与目标节点进行测距，得到目
标节点k的位置估计采用均方误差衡量目标节点k位置估计的准确性，得到目标节点
定位精度误差值

[0010] (2)将目标节点定位精度误差值最小化作为目标函数，考虑目标节点Na＝1的情况下目标函数最小化问题P1，约束条件为：每个锚节点都有传输带宽β0和发射
功率P0的上限；所有锚节点总的发射功率不能超过阈值；每个锚节点发射信号的频带不能
重叠；

[0011] (3)基于强化学习(RL)实现资源分配算法，包括：根据目标函数最小化来设置奖励以指导锚节点对于不同等级资源进行选择，得到最优资源分配策略，然后根据输入
的目标节点的真实位置pk结合邻近算法或者BP神经网络方式得到锚节点次优的资源分配
动作；

[0012] (4)针对目标节点数量的增加，优化步骤(3)得到的最优资源分配策略，以最小化系统的功率消耗为目标构建资源优化方案P2，约束条件在P1约束条件的基础上，增加约
束条件：每个目标节点的定位精度误差值均不能大于定位精度阈值；

[0013] (5)针对目标节点k的位置估计存在误差的问题，进一步优化步骤(4)得到的最优资源分配策略，以不确定区域内所有可能目标节点的最大定位精度误差值最小化
为目标构建资源优化方案P3，约束条件在P1约束条件的基础上，增加约束条件：所有可能的
目标节点位置均在不确定区域内；

[0014] (6)基于实际测距得到测距矩阵R，根据锚节点拓扑结构和测距矩阵R，以强化学习(RL)为基础实现鲁棒性链路选择，最终得到目标节点位置估计的最优值以及对应的鲁棒
性链路选择方案。

[0015] 进一步的，所述步骤(3)中资源分配算法的具体实现步骤为：

[0016] 1)初始化设置：通过采样目标节点位置形成训练库，训练集合表示为锚节点位置为pAnchor，第s个目标节点样本位置表示为ps，

[0017] 设置信道系数ξsj，功率、带宽的离散步长分别为ΔP、Δβ；

[0018] 定义锚节点的动作为定义训练精度的五个状态(S0‑S4)，依次为差、较差、一般、较好、很好；

[0019] 2)训练过程：对于训练库中每个节点的每次训练：

[0020] 初始化状态‑动作表矩阵Q为零矩阵，设置当前状态为S0；

[0021] 令st、at为当前时刻的状态和动作，若当前训练次数未到达训练上限：

[0022] Qold＝Q(st,at)；

[0023] 从动作集中选择针对所有锚节点的一组资源分配动作，根据t+1时刻的资源分配方案，输出t+1时刻定位精度误差值

[0024] 获得t+1时刻执行完资源分配动作获得的回报值Rt+1，更新状态‑动作表矩阵Q；

[0025] 利用贪心算法求解策略，其中ε为“探索”的概率，取值范围[0,1]：

[0026]

[0027] 其中，Pr表示概率，π表示有1‑ε的概率选取最大化状态‑动作表矩阵Q的动作，ε的概率随机选择；

[0028] 更新状态‑动作表矩阵Q，将状态更新为当前状态；

[0029] 3)循环训练步骤2)，达到设置的收敛次数上限循环结束，输出状态‑动作表矩阵Q和最优资源分配策略；

[0030] 4)输入目标节点的真实位置pk；

[0031] 结合邻近算法或者BP神经网络的方式获取次优的资源分配动作：

[0032]

[0033] 进一步的，所述步骤(6)实现鲁棒性链路选择的具体步骤为：

[0034] 1)采样需要定位的目标节点，训练集合表示为

[0035] 设定锚节点位置为pAnchor，第s目标节点位置为ps，

[0036] 基于锚节点Nb与目标节点的实际测距Nb×Ns获取测距矩阵R；

[0037] 2)在测距矩阵R中随机选取测距链路以获得ps的位置估计集合

[0038] 剔除集合中的离群值，获得包含新集合的最小不确定区域η1×η2；

[0039] 对于不确定区域η1×η2的每个顶点，初始化状态‑动作表矩阵Q为零矩阵，设置当前状态为S0；

[0040] 对每个顶点实行资源分配算法中的训练过程，根据锚节点分配到资源与否选取测距链路；

[0041] 记录每个顶点的链路选择方案；

[0042] 将每个顶点的链路选择方案遍历应用到其他顶点，基于资源优化方案P3的优化目标和约束条件获取鲁棒性链路选择方案。

[0043] 3)循环步骤2)，直到训练完Ns目标节点；

[0044] 4)输出Ns目标节点位置估计的最优值以及对应的鲁棒性链路选择方案。

[0045] 本发明提供的一种无线定位网络资源优化方法，其有益效果是：

[0046] 1、本发明以MSE为衡量定位精度的性能指标，基于强化学习算法搭建了资源优化分配框架。相较于以CRLB为定位网络性能指标的资源优化框架，同样场景下有效提升了定
位网络精度。

[0047] 2、给出了次优回归方法，在保证定位精度的同时解决了每出现一个新的目标节点就得重新耗时训练的问题。针对呈指数增长的动作空间问题，提出线性复杂度的资源分配
框架。

[0048] 3、本发明考虑实际定位误差的存在，利用实测数据实现了鲁棒性链路选择算法的落地。所提算法在部分测距链路存在遮挡或者时钟偏差时，得到高精度的定位结果，同时对
延长定位节点生命周期有重大意义。

附图说明

[0049] 图1是本发明方法的整体流程图；

[0050] 图2是本发明实施例中强化学习框架下在单目标节点场景的性能对比图；

[0051] 图3是本发明实施例中分布式优化模型的性能对比图；

[0052] 图4是本发明实施例中鲁棒性链路选择的性能对比图。

具体实施方式

[0053] 为进一步对本发明的技术方案作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的步骤。

[0054] 如图1所示为本发明方法的整体流程图，在二维定位网络中存在Nb位置已知的锚节点，Na先验知识有限的目标节点，使用分别代表锚节
点和目标节点的集合，锚节点基于时钟异步，以频分复用(Frequency Division
Multiplexing，FDM)的方式与目标节点进行测距。目标节点k与锚节点j之间的距离估计，
即：

[0055]

[0056] 其中，c为自由空间光速；为时间估计；dkj两点之间的真实距离；ωkj为高斯测距噪声，即其中测距方差如式(2)所示:

[0057]

[0058] 其中，Pkj为节点之间的传输功率；βkj为节点之间的传输带宽；SNRkj为节点间信号的信噪比；ξkj为信道系数，其中N0为噪声功率密度谱,对比测距矢量
与真实距离矢量，k目标节点的位置估计可由公
式(3)获得，

[0059]

[0060] 其中，指节点k的位置估计。k目标节点的定位准确性通常采用MSE来衡量，该指标受CRLB的限制,如公式(4)所示，

[0061]

[0062] 其中，pk指节点k的真实位置；Je(pk)为等效费舍尔信息矩阵(Equal Fisher Information Matrix，EFIM)，为pk的定位误差，表示k目标节点的定位准确性，
表示pk的克拉美罗下界，表示Je(pk)的逆矩阵，tr{}表示矩阵的迹。

[0063] 将最小化作为目标函数，以优化所有锚节点之间的功率和带宽分配。首先考虑一个Na＝1的特殊情况。因此，省略了代理索引k。原始问题可以表述为

[0064]

[0065]

[0066]

[0067]

[0068]

[0069] (5)中的目标函数是使目标节点的定位误差最小化；约束(6)和(7)表明，由于硬件设计，每个锚节点都有传输带宽β0和功率P0的上限；(8)中给出了总的发射功率约束；
(9)中保证发射信号的频带不允许重叠。

[0070] 强化学习框架包括状态，动作和奖励三个要素。首先使用模糊C均值(Fuzzy C‑Means，FCM)策略划分状态，然后根据目标函数最小化来设置奖励以指导锚节点对于
不同等级资源进行选择，具体算法流程如下所示(表示为算法1)：

[0071] 1)初始化设置：通过采样目标节点位置形成训练库，训练集合表示为锚节点位置为pAnchor，第s个目标节点样本位置表示为ps，

[0072] 设置信道系数ξsj，功率、带宽的离散步长分别为ΔP、Δβ；

[0073] 定义锚节点的动作为定义训练精度的五个状态(S0‑S4)，依次为差、较差、一般、较好、很好；

[0074] 2)训练过程：对于训练库中每个节点的每次训练：

[0075] 初始化状态‑动作表矩阵Q为零矩阵，设置当前状态为S0；

[0076] 令st、at为当前时刻的状态和动作，若当前训练次数未到达训练上限：

[0077] Qold＝Q(st,at)；

[0078] 从动作集中选择针对所有锚节点的一组资源分配动作，根据t+1时刻的资源分配方案，输出t+1时刻定位精度误差值

[0079] 获得t+1时刻执行完资源分配动作获得的回报值Rt+1，更新状态‑动作表矩阵Q；

[0080] 利用贪心算法求解策略，其中ε为“探索”的概率，取值范围[0,1]：

[0081]

[0082] 其中，Pr表示概率，π表示有1‑ε的概率选取最大化状态‑动作表矩阵Q的动作，ε的概率随机选择；

[0083] 更新状态‑动作表矩阵Q，将状态更新为当前状态；

[0084] 3)循环训练步骤2)，达到设置的收敛次数上限循环结束，输出状态‑动作表矩阵Q和最优资源分配策略；

[0085] 4)输入目标节点的真实位置pk；

[0086] 结合邻近算法或者BP神经网络的方式获取次优的资源分配动作：

[0087]

[0088] 随着目标节点数量的增加，状态和动作空间的维数也将随之增加并呈现指数增长的复杂度，这使得强化学习算法更具挑战性。因此，线性复杂度的分布式替代方案是必需
的。P2中制定了一个分布式解决方案，即在满足系统本身对于每个节点定位精度要求的约
束条件下，以最小化定位系统的功率消耗为目标函数构建资源优化框架。

[0089]

[0090]

[0091]

[0092]

[0093]

[0094]

[0095] 式(11)中，表示Na目标节点的定位精度阈值要求。

[0096] 实际获取到的都是存在误差的位置估计值。直接对存在偏差的位置进行资源分配则可能造成较大的定位误差，因此建立P3所示资源分配方案是很有必要的。

[0097]

[0098] s.t.p∈(η1×η2) (17)

[0099] (6)‑(9)

[0100] 其中，P3的模型遵循鲁棒性优化原则的是最大M(pk)最小化，即认为目标节点存在于定位算法给出的位置估计周边区域内，η1、η2为不确定区域边长。与其他资源分配方案相
比，该方案可以使不确定区域内所有可能节点的最大MSE的值最小。

[0101] 结合实际定位场景，利用测距模块可以获得Nb×Na无线测距链路，如式(18)所示，

[0102]

[0103] 设计锚节点拓扑以及矩阵R为输入，估计的目标节点位置以及链路选择方案为输出，认为若当前锚节点分配到资源则打开此锚节点进行测距，若未分配到资源则进入休眠
状态。鲁棒性测距链路选择算法如下所示：

[0104] 1)采样需要定位的目标节点，训练集合表示为

[0105] 设定锚节点位置为pAnchor，第s目标节点位置为ps，

[0106] 基于锚节点Nb与目标节点的实际测距Nb×Ns获取测距矩阵R；

[0107] 2)在测距矩阵R中随机选取测距链路以获得ps的位置估计集合

[0108] 剔除集合中的离群值，获得包含新集合的最小不确定区域η1×η2；

[0109] 对于不确定区域η1×η2的每个顶点，初始化状态‑动作表矩阵Q为零矩阵，设置当前状态为S0；

[0110] 对每个顶点实行资源分配算法(算法1)中的训练过程，根据锚节点分配到资源与否选取测距链路；

[0111] 记录每个顶点的链路选择方案；

[0112] 将每个顶点的链路选择方案遍历应用到其他顶点，基于资源优化方案P3的优化目标和约束条件获取鲁棒性链路选择方案。

[0113] 3)循环步骤2)，直到训练完Ns目标节点；

[0114] 4)输出Ns目标节点位置估计的最优值以及对应的鲁棒性链路选择方案。

[0115] 本发明实施例结果对比如图2、3和图4所示，图2为本发明所提的强化学习算法在单目标节点场景的性能对比；图3为本发明所提的分布式优化模型的性能对比；图4为本发
明所提的鲁棒性链路选择算法的性能对比，从结果对比图可看出，本发明提供的资源优化
方法能有效提高定位精度。

[0116] 在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的步骤、方法不仅包括那些要素，而且还包括没有明确列出的其他
要素，或者是还包括为这种步骤、方法所固有的要素。

[0117] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在
不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的
保护范围。

一种无线定位网络资源优化方法转让专利

申请号 : CN202110271000.5

文献号 : CN113099491B

文献日 : 2022-05-10

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张霆廷 , 杨程 , 刘凡

申请人 : 哈尔滨工业大学(深圳) , 鹏城实验室

摘要 :

权利要求 :

说明书 :