一种无线体域网能耗和时延加权最小的安全路由选择方法转让专利

申请号 : CN201911350845.2

文献号 : CN111107602B

文献日 : 2021-07-27

本发明涉及一种无线体域网能耗和时延加权最小的安全路由选择方法，包括：各节点获得网络的基本状态信息并得到节点间的配置参数；根据网络状态信息，以最小化加权的能耗和时延为目标函数，以无线体域网安全中断概率和连接成功概率为约束，建立离散马尔科夫链优化模型；将决策问题分为多个时间阶段，通过贝尔曼方程的价值函数，把一阶段的最优解转化为下一阶段最优解的子问题，由最终状态的最优决策迭代求解得初始状态的最优决策；基于启发式搜索算法，初始化状态价值的上下边界，利用优先级决定动态规划算法的状态选择，确定能耗和时延的最优安全路由选择策略。本发明在满足安全性能要求的情况下，平衡从源节点发送消息到目的节点的能耗和时延。

1.一种无线体域网能耗和时延加权最小的安全路由选择方法，其特征在于，包括以下步骤：

S1、初始化阶段，各节点获得网络的基本状态信息并得到节点间的配置参数；

S2、根据网络参数信息，以最小化加权的能耗和时延为目标函数，以无线体域网安全中断概率和连接成功概率为约束，建立离散马尔科夫链优化模型；

S3、将决策问题分为多个时间阶段，通过贝尔曼方程的价值函数，把一阶段的最优解转化为下一阶段最优解的子问题，由最终状态的最优决策迭代求解得到初始状态的最优决策；

S4、通过定义状态的占有率和不确定性来决定下一状态的优先级，同时定义自适应最大深度终止准则；

S5、基于启发式搜索算法，初始化状态价值的上下边界，利用优先级确定动态规划算法的下一状态选择，并且确定最终能耗和时延的最优安全路由选择策略；

所述步骤S1中的初始化阶段，节点获取位置信息的方法，包括：节点之间的参数包括邻居节点的信息，通过HELLO包交互获取邻居节点的位置信息，节点通过邻居节点的位置信息计算得到与邻居节点之间的距离，以及交换彼此的操作权限信息；

所述步骤S2中，根据与邻居节点之间的距离信息，在选择动作a作为发送节点的情况下从状态x转移到状态y的马尔科夫链状态转移概率πxy(a)表达式如下：情况1指从保密消息未被窃听的x状态转移到保密消息未被窃听的邻居y状态；情况2指从保密消息未被窃听的x状态转移到保密消息被窃听的邻居y状态；情况3指从保密消息已经被窃听的x状态转移到保密消息已经被窃听的邻居y状态；情况4指x状态不变的情况；不属于上述四种情况都被归为其他情况；

其中，马尔科夫链的状态用来表征，表示x状态时所有已经解码保密消息的节点集合，ω(x)表示保密消息是否被窃听者窃听；q(a)表示选择动作a为发送节点时的安全中断概率，m代表状态转移过程中增加的已解码节点，p(a,m)表示从节点a发送保密消息到节点m的连接成功概率，代表节点m属于在从状态x转移到状态y所增加的已解码保密消息的节点集合。

2.根据权利要求1所述的一种无线体域网能耗和时延加权最小的安全路由选择方法，其特征在于，所述步骤S2中，马尔科夫链模型的建立如下：在无线体域网模型中，目标是联合优化时延和能耗两个指标，第i次状态转移的成本函数c(·)由时延cD(·)和能耗cE(·)两个部分组成，表达式如下：其中，是在这一状态转移过程中接收信号所需要的能耗成本，是在策略A(·)下状态xi在已经解码保密消息的集合中选择的中继节点个数，是从状态xi转移到状态xi+1过程中增加的已解码保密消息的节点数量，是考虑节点接收所消耗的能量参数；cD＝1是时延成本，通过跳数来表征时延；η是代表权值，用于平衡能耗成本和时延成本；

建立离散马尔科夫链优化模型，其形式如下：在式(3)中，目标函数定义为联合能耗和时延，i表示第i次状态转移，xi表示第i个状态，E[·]为数学期望算子，c(·)表示状态转移过程中的产生的代价，代表所有的路由选择策略集合，δ(·)代表在马尔科夫链模型中安全中断的定义，∈代表平均安全中断概率的阈值；

约束条件为保密性约束，其阈值为∈，且其中，ω(xi)＝0表示在此状态下保密消息未被窃听，若被窃听其值为1；

利用拉格朗日乘子法将有约束的优化问题转化为无约束的优化问题；

对于给定的λ，将加权能耗和时延的成本函数重新定义为相应的，在策略A(·)下给定λ的无约束目标函数表达式如下：其中，x0代表初始状态，集合表示在没有安全中断概率约束的情况下的所有可能策略集，A(·)表示策略函数。

3.根据权利要求2所述的一种无线体域网能耗和时延加权最小的安全路由选择方法，其特征在于，所述步骤S3中，根据动作a下从状态x转移到状态y的马尔科夫链状态转移概率πxy(a)，将优化目标转换成贝尔曼方程形式如下：*

其中，γ∈[0,1)是贝尔曼方程中的折扣因子，表示状态x的邻居状态集合，A(·)为最佳策略，是给定λ和A(·)策略下邻居状态y的目标值，代表节点a属于状态x已经解码保密消息的节点集合进一步转换后获得状态s的贝尔曼价值函数V(s)形式如下：其中，C(s,a,s′)是在选择动作a时从状态s转移到状态s′的实际成本函数，γ∈[0,1)是贝尔曼方程中的折扣因子，表示状态s的邻居状态集合，用代表所有吸收状态集合，即目标节点已经解码保密消息的状态，对于目标状态 C(s,a,s′)＝0，mina代表选择最佳中继节点使得贝尔曼值函数最小；

T(s,s′)表示在动作a下从状态s转移到状态s′的状态转移概率；

根据启发式搜索算法的思想，基于先验边界信息hL和hU，采用根据优先级选择后继状态* *

的聚焦实时动态规划算法，获得状态价值的最优值V满足hL≤V ≤hU，对于目标状态hL(s)＝hU(s)＝0。

4.根据权利要求3所述的一种无线体域网能耗和时延加权最小的安全路由选择方法，其特征在于，所述步骤S4中，状态优先级的计算及增量搜索图拓展时边缘状态节点的选择；

增量搜索图中的点就是马尔科夫过程中的状态，用W(s)表征在策略π的情况下，状态节π

点s在未到未知区域前每个执行的平均时间步数，将W (s)称作在策略π下状态的占有率，表达式如下：

其中，s0代表初始状态，且代表内部状态节点，代表边缘状态节点，1‑γ表示在任意时间步数停止的概率；表示状态节点s是不包含吸收状态的内部状态节点；

边缘状态节点的W(s)表明其与策略的相关性，值越大相关性越大；

π(s)

T (s,s′)表示在策略π下从状态s到状态s′的状态转移概率；

在聚焦实时动态规划算法中，为了选择扩展的边缘状态节点，首先定义一个状态s的超额不确定性Δ(s)：

U L

Δ(s)＝|V(s)‑V(s)|‑r/2 (10)U L

其中，V(s)和V(s)分别表示状态s的状态价值上下限，r表示误差值；

根据超额不确定性，获得状态s的优先级f(s)表达式如下：f(s)＝Δ(s) (11)其中，式(11)为边缘状态节点的优先级，式(12)为内部状态节点的优先级；

在聚焦实时动态规划算法中，选择优先级最高的状态节点进行扩展；

其中，最佳行动a依据状态价值上限贪婪地选择；

U L

在每次更新状态节点时，重新计算优先级f(s)以及边界状态价值上下限V(s)和V(s)。

5.根据权利要求4所述的一种无线体域网能耗和时延加权最小的安全路由选择方法，其特征在于，所述步骤S4中，聚焦实时动态规划算法的两个试验终止标准，包括：其一，超额不确定度满足条件Δ(s)≤0，则试验终止；

其二，H为试验最大深度，当试验到达的深度h≥H时，则试验终止；将H初始化为H0＝1，根据试验统计作为反馈来自适应地调整H；在反馈机制中，每次试验都会更新质量得分Q，其旨在反应增加探索深度的有用程度，质量得分的表达式如下：Q＝θW (13)其中，θ代表状态价值上限值改变量，W代表状态占有率；

在每次试验之后，如果增加最大探索深度的平均质量分数比不增加的更好，则最大探索深度H增加且

H＝kHH (14)其中，kH是每次增加探索深度的比例。

6.如权利要求5所述的一种无线体域网能耗和时延加权最小的安全路由选择方法，其特征在于，基于启发式搜索的聚焦实时动态规划算法来解决无线体域网能耗和时延最小的安全路由选择问题，具体步骤如下：(1)随机生成一个无线体域网拓扑，计算各节点间的距离，初始化最大探索深度H0，以及初始状态s0的状态价值上限s0U和状态价值下限s0L；

(2)判断初始状态上下限差是否大于r；若是，跳转至步骤(3)；否则结束试验，获得最小化能耗和时延的随机动态系统控制策略；

(3)将平均质量分数Q初始化为0，实际探索深度为0，状态s为初始状态，初始状态的占有率W＝1；

(4)根据状态价值上下限和优先级计算公式(11)和(12)，遍历所有可选动作，由价值函数式(8)计算出其状态价值，即获得最优动作、选择扩展的状态以及状态价值上限的变化量；

(5)根据式(13)更新质量分数，判断是否满足任一试验终止准则；若满足则返回更新状*

态价值上下限和优先级；否则，更新s＝s ，跳转至步骤(4)；其*

中，s为选择扩展的状态；

(6)通过比较增加探索深度后的平均质量分数是否更好；若是，则增加最大探索深度；

否则，不增加；

(7)跳转至步骤(2)。

一种无线体域网能耗和时延加权最小的安全路由选择方法

技术领域

[0001] 本发明属于无线体域网的安全通信领域，基于信息论的物理层安全技术，具体涉及一种无线体域网能耗和时延加权最小的安全路由选择方法。

背景技术

[0002] 无线体域网(WBAN)是一种以人体为中心，由一些具有无限收发功能的网络节点组成的无线局域网，其作用范围约1～2米。无线体域网中的网络节点可以分为负责采集信号
的传感器节点和负责管理传感器节点的中心节点。健康监护是无线体域网最有前景和应用
价值的领域，但在仍然存在诸多亟待解决的问题。一方面，WBAN需要及时发送重要数据到控
制中心，以便医护人员能够及时根据病人情况改变医疗措施，因此消息的传输时延在无线
体域网中是一个相当重要的研究方向。另一方面，这些传感器节点体积极小，储存的能量有
限，并且一般都安装在人体表面或者内部，不易拆卸充电，因而节能也是无线体域网中的另
一研究热点。此外，无线传输是开放性的，保密消息非常容易被窃听，为保障病人的信息不
泄露，消息传输的安全性能也是亟待解决的问题。

发明内容

[0003] 针对无线体域网的中时延、节能、安全性能这三个热点问题。本发明公开了一种无线体域网能耗和时延加权最小的安全路由选择方法，该方法针对解码转发多跳无线体域
网，将无线体域网联合能耗和时延的最优安全路由选择策略，建模为基于马尔科夫链的最
小化能耗和时延的随机动态系统的控制问题，并且运用一种基于启发式的聚焦实时动态规
划的算法解决优化问题。

[0004] 为了达到上述发明目的，本发明采用以下技术方案：

[0005] 一种无线体域网能耗和时延加权最小的安全路由选择方法，包括以下步骤：

[0006] S1、初始化阶段，各节点获得网络的基本状态信息并得到节点间的配置参数；

[0007] S2、根据网络参数信息，以最小化加权的能耗和时延为目标函数，以无线体域网安全中断概率和连接成功概率为约束，建立离散马尔科夫链优化模型；

[0008] S3、将决策问题分为多个时间阶段，通过贝尔曼方程的价值函数，把一阶段的最优解转化为下一阶段最优解的子问题，由最终状态的最优决策迭代求解得到初始状态的最优
决策；

[0009] S4、通过定义状态的占有率和不确定性来决定下一状态的优先级，同时定义自适应最大深度终止准则；

[0010] S5、基于启发式搜索算法，初始化状态价值的上下边界，利用优先级确定动态规划算法的下一状态选择，并且确定最终能耗和时延的最优安全路由选择策略。

[0011] 作为优选方案，所述步骤S1中的初始化阶段，节点获取位置信息的方法，包括：

[0012] 节点之间的参数包括邻居节点的信息，通过HELLO包交互获取邻居节点的位置信息，节点通过邻居节点的位置信息计算得到与邻居节点之间的距离，以及交换彼此的操作
权限信息。

[0013] 作为优选方案，所述步骤S2中，根据与邻居节点之间的距离信息，在选择动作a作为发送节点的情况下从状态x转移到状态y的马尔科夫链状态转移概率πxy(a)表达式如下：

[0014]

[0015] 情况1指从保密消息未被窃听的x状态转移到保密消息未被窃听的邻居y状态；情况2指从保密消息未被窃听的x状态转移到保密消息被窃听的邻居y状态；情况3指从保密消
息已经被窃听的x状态转移到保密消息已经被窃听的邻居y状态；情况4指x状态不变的情
况；不属于上述四种情况都被归为其他情况；

[0016] 其中，马尔科夫链的状态用来表征，表示x状态时所有已经解码保密消息的节点集合，ω(x)表示保密消息是否被窃听者窃听；q(a)表示选择动作a为发送
节点时的安全中断概率，m代表状态转移过程中增加的已解码节点，p(a,m)表示从节点a发
送保密消息到节点m的连接成功概率，代表节点m属于在从状态x转移到状态
y所增加的已解码保密消息的节点集合。

[0017] 作为优选方案，所述步骤S2中，马尔科夫链模型的建立如下：

[0018] 在无线体域网模型中，目标是联合优化时延和能耗两个指标，第i次状态转移的成本函数c(·)由时延cD(·)和能耗cE(·)两个部分组成，表达式如下：

[0019]

[0020] 其中，是在这一状态转移过程中接收信号所需要的能耗成本，是在策略A(·)下状态xi在已经解码保密消息的集合中
选择的中继节点个数，是从状态xi转移到状态xi+1过程中增加的已解码保
密消息的节点数量，是考虑节点接收所消耗的能量参数；cD＝1是时延成本，通过跳数来
表征时延；η是代表权值，用于平衡能耗成本和时延成本；

[0021] 建立离散马尔科夫链优化模型，其形式如下：

[0022]

[0023] 在式(3)中，目标函数定义为联合能耗和时延，i表示第i次状态转移，xi表示第i个状态，E[·]为数学期望算子，c(·)表示状态转移过程中的产生的代价，表所有的路由选
择策略集合，δ(·)代表在马尔科夫链模型中安全中断的定义，∈代表平均安全中断概率的
阈值；

[0024] 约束条件为保密性约束，其阈值为∈，且

[0025]

[0026] 其中，ω(xi)＝0表示在此状态下保密消息未被窃听，若被窃听其值为1；

[0027] 利用拉格朗日乘子法将有约束的优化问题转化为无约束的优化问题；

[0028] 对于给定的λ，将加权能耗和时延的成本函数重新定义为

[0029]

[0030] 相应的，在策略A(·)下给定λ的无约束目标函数表达式如下：

[0031]

[0032] 其中，x0代表初始状态，集合表示在没有安全中断概率约束的情况下的所有可能策略集，A(·)表示策略函数。

[0033] 作为优选方案，所述步骤S3中，根据动作a下从状态x转移到状态y的马尔科夫链状态转移概率πxy(a)，将优化目标转换成贝尔曼方程形式如下：

[0034]

[0035] 其中，γ∈[0,1)是贝尔曼方程中的折扣因子，表示状态x的邻居状态集合，A*(·)为最佳策略，是给定λ和A(·)策略下邻居状态y的目标值，代表节点
a属于状态x已经解码保密消息的节点集合

[0036] 进一步转换后获得状态s的贝尔曼价值函数V(s)形式如下：

[0037]

[0038] 其中，C(s,a,s′)是在选择动作a时从状态s转移到状态s′的实际成本函数，γ∈[0,1)是贝尔曼方程中的折扣因子，表示状态s的邻居状态集合，用代表所有吸收状
态集合，即目标节点已经解码保密消息的状态，对于目标状态 C(s,a,s′)＝0；

[0039] Ta(s,s′)表示在动作a下从状态s转移到状态s′的状态转移概率；

[0040] 根据启发式搜索算法的思想，基于先验边界信息hL和hU，采用根据优先级选择后继* *
状态的聚焦实时动态规划算法，获得状态价值的最优值V 满足hL≤V ≤hU，对于目标状态
hL(s)＝hU(s)＝0。

[0041] 作为优选方案，所述步骤S4中，状态优先级的计算及增量搜索图拓展时边缘状态节点的选择；

[0042] 增量搜索图中的点就是马尔科夫过程中的状态，用Wπ(s)表征在策略π的情况下，π
状态节点s在未到未知区域前每个执行的平均时间步数，将W (s)称作在策略π下状态的占
有率，表达式如下：

[0043]

[0044] 其中，s0代表初始状态，且代表内部状态节点，代表边缘状态节点，1‑γ表示在任意时间步数停止的概率；表示状态节点s是不包含吸收状态的
内部状态节点；

[0045] 边缘状态节点的Wπ(s)表明其与策略的相关性，值越大相关性越大；

[0046] Tπ(s)(s,s′)表示在策略π下从状态s到状态s′的状态转移概率；

[0047] 在聚焦实时动态规划算法中，为了选择扩展的边缘状态节点，首先定义一个状态s的超额不确定性Δ(s)：

[0048] Δ(s)＝|VU(s)‑VL(s)|‑r/2 (10)

[0049] 其中，VU(s)和VL(s)分别表示状态s的状态价值上下限，r表示误差值；

[0050] 根据超额不确定性，获得状态s的优先级f(s)表达式如下：

[0051] f(s)＝Δ(s) (11)

[0052]

[0053] 其中，式(11)为边缘状态节点的优先级，式(12)为内部状态节点的优先级；

[0054] 在聚焦实时动态规划算法中，选择优先级最高的状态节点进行扩展；

[0055] 其中，最佳行动a*依据状态价值上限贪婪地选择；

[0056] 在每次更新状态节点时，重新计算优先级f(s)以及边界状态价值上下限VU(s)和VL(s)。

[0057] 作为优选方案，所述步骤S4中，聚焦实时动态规划算法的两个试验终止标准，包括：

[0058] 其一，超额不确定度满足条件Δ(s)≤0，则试验终止；

[0059] 其二，H为试验最大深度，当试验到达的深度h≥H时，则试验终止；将H初始化为H0＝1，根据试验统计作为反馈来自适应地调整H；在反馈机制中，每次试验都会更新质量得分
Q，其旨在反应增加探索深度的有用程度，质量得分的表达式如下：

[0060] Q＝θW (13)

[0061] 其中，θ代表状态价值上限值改变量，W代表状态占有率；

[0062] 在每次试验之后，如果增加最大探索深度的平均质量分数比不增加的更好，则最大探索深度H增加且

[0063] H＝kHH (14)

[0064] 其中，kH是每次增加探索深度的比例。

[0065] 作为优选方案，基于启发式搜索的聚焦实时动态规划算法来解决无线体域网能耗和时延最小的安全路由选择问题，具体步骤如下：

[0066] (1)随机生成一个无线体域网拓扑，计算各节点间的距离，初始化最大探索深度H0，以及初始状态s0的状态价值上限s0U和状态价值下限s0L；

[0067] (2)判断初始状态上下限差是否大于r；若是，跳转至步骤(3)；否则结束试验，获得最小化能耗和时延的随机动态系统控制策略；

[0068] (3)将平均质量分数Q初始化为0，实际探索深度为0，状态s为初始状态，初始状态的占有率W＝1；

[0069] (4)根据状态价值上下限和优先级计算公式(11)和(12)，遍历所有可选动作，由价值函数式(8)计算出其状态价值，即获得最优动作、选择扩展的状态以及状态价值上限的变
化量；

[0070] (5)根据式(13)更新质量分数，判断是否满足任一试验终止准则；若满足则返回更*
新状态价值上下限和优先级；否则，更新s＝s， h＝h+1，跳转至步骤(4)；其
*
中，s为选择扩展的状态；

[0071] (6)通过比较增加探索深度后的平均质量分数是否更好；若是，则增加最大探索深度；否则，不增加；

[0072] (7)跳转至步骤(2)。

[0073] 本发明与现有技术相比，具有如下优点：

[0074] 1.与现有的无线体域网技术相比，本发明采用马尔科夫链模型提出了无线体域网具体的安全中断概率表达式，而不是仅仅通过博弈论的方法来解决安全路由选择问题。

[0075] 2.在本发明中，基于启发式算法提出一种聚焦的实时动态规划算法，用于解决马尔科夫决策过程问题，该算法与传统的实时动态规划算法相比，状态结果选择不是随机的，
而是依据其不确定性来选择，并且修改了试验终止的标准，能够更快的收敛。

[0076] 3.在目前的无线体域网的研究中，时延、节能、和安全性仍然是当前的研究重点。在本发明中，以具有安全中断概率约束的多跳无线体域网联合能耗和时延的最优安全路由
策略建模为基于马尔科夫链的最小化能耗和时延的随机动态系统的控制问题。运用本发
明，能够在无线体域网中，动态选择最优的中继节点，在满足安全性能要求的情况下，平衡
从源节点发送消息到目的节点的能耗和时延。

附图说明

[0077] 图1是本发明实施例的无线体域网能耗和时延加权最小的安全路由选择方法的流程图；

[0078] 图2是本发明实施例的增量搜索图的示意图；

[0079] 图3是本发明实施例的聚焦实时动态规划算法流程图；

[0080] 图4是本发明实施例的一次状态变化过程；

[0081] 图5是本发明实施例的状态变化过程中最佳策略下的路由。

具体实施方式

[0082] 为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来
讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实
施方式。

[0083] 如图1所示，本发明实施例的无线体域网能耗和时延加权最小的安全路由选择方法，包括以下流程：

[0084] S1、初始化阶段，各节点获得网络的基本状态信息并得到节点间的配置参数；

[0085] S2、根据网络状态信息，以最小化加权的能耗和时延为目标函数，以无线体域网安全中断概率和连接成功概率为约束，建立离散马尔科夫链优化模型；

[0086] S3、将决策问题分为多个时间阶段，通过贝尔曼方程的价值函数，把一阶段的最优解转化为下一阶段最优解的子问题，因此由最终状态的最优决策迭代求解得初始状态的最
优决策；

[0087] S4、通过定义状态的占有率和不确定性来决定下一状态的优先级，同时定义自适应最大深度终止准则；

[0088] S5、基于启发式搜索算法，初始化状态价值的上下边界，利用优先级决定动态规划算法的下一状态选择，并且确定最终能耗和时延的最优安全路由选择策略。

[0089] 其中，上述步骤S1中，在初始化阶段，节点获取节点之间的参数包括邻居节点的信息，通过HELLO包交互获取邻居节点的位置信息，节点通过邻居节点的位置信息可以计算得
到与邻居节点之间的距离，以及交换彼此的操作权限信息。

[0090] 上述步骤S2中，步骤S2最终目的是建立离散的马尔科夫链模型，而在马尔科夫链模型中的一个重点就是状态转移概率。这一步骤是定义在选定动作a后，从状态x转移到状
态y的状态转移概率。

[0091] 根据与邻居节点之间的距离信息，在选择动作a作为发送节点的情况下从状态x转移到状态y的马尔科夫链状态转移概率πxy(a)表达式如下：

[0092]

[0093] 情况1指从保密消息未被窃听的x状态转移到保密消息未被窃听的邻居y状态；情况2指从保密消息未被窃听的x状态转移到保密消息被窃听的邻居y状态；情况3指从保密消
息已经被窃听的x状态转移到保密消息已经被窃听的邻居y状态；情况4指x状态不变的情
况；不属于上述4种情况都被归为其他情况。

[0094] 其中，马尔科夫链的状态可以用来表征。其中，表示x状态时所有已经解码保密消息的节点集合，ω(x)表示保密消息是否被窃听者窃听。q(a)表示选择动
作a为发送节点时的安全中断概率，m代表状态转移过程中增加的已解码节点，p(a,m)表示
从节点a发送保密消息到节点m的连接成功概率，代表节点m属于在从状态x
转移到状态y所增加的已解码保密消息的节点集合。由于在本发明中，将合法节点到窃听者
之间的信道建模为指数分布，合法节点之间的信道建模为对数正态分布，则q(a)和p(a,m)
的表达式分别为

[0095]

[0096]

[0097] 其中，P[·]为概率算子，C(·)表示链路的瞬时频谱效率其单位是bit/s/Hz，a、m和z分别代表发送节点、接收节点和窃听者，dO和dI代表发送节点分别到窃听者和接收节点
之间的距离。gO和gI分别定义为从发送节点到窃听者和接收节点的信道增益，其分别服从指
数分布和对数正态分布，μ和σ分别代表对数正态分布的均值和标准差。ζ和分别代表发送
速率和保密速率，α为路径损耗因子，ρ代表单位距离的发送信噪比。

[0098] 在本发明的无线体域网模型中，目标是联合优化能耗和时延两个指标，因此第i次状态转移的成本函数c(·)由时延cD(·)和能耗cE(·)两个部分组成，表达式如下：

[0099]

[0100] 其中，是在这一状态转移过程中接收信号所需要的能耗成本，是在策略A(·)下状态xi在已经解码保密消息的集合中
选择的中继节点个数，在本发明中为1，是从状态xi转移到状态xi+1过程中
增加的已解码节点的数量，是考虑这些节点接收所消耗的能量参数。cD＝1是时延成本，
通过跳数来表征时延。η是代表权值，用于平衡能耗成本和时延成本。

[0101] 根据上述马尔科夫链状态转移概率，以最小化加权的能耗和时延为目标函数，以无线体域网安全中断概率和连接成功概率为约束，建立离散马尔科夫链优化模型，其形式
如下：

[0102]

[0103] 在上式中，目标函数定义为联合能耗和时延，i表示第i次状态转移，xi表示第i个状态，E[·]为数学期望算子，c(·)表示状态转移过程中的产生的代价，代表所有的路由
选择策略集合，δ(·)代表在马尔科夫链模型中安全中断的定义，∈代表平均安全中断概率
的阈值。

[0104] 约束条件为保密性约束，其阈值为∈，且

[0105]

[0106] 其中，ω(xi)＝0表示在此状态下保密消息未被窃听，若被窃听其值为1；

[0107] 利用拉格朗日乘子法将有约束的优化问题转化为无约束的优化问题。

[0108] 对于给定的λ，将加权能耗和时延的成本函数重新定义为

[0109]

[0110] 相应的，在策略A(·)下给定λ的无约束目标函数表达式如下，

[0111]

[0112] 其中，x0代表初始状态集合表示在没有安全中断概率约束的情况下的所有可能策略集，A(·)表示策略函数。

[0113] 上述步骤S3中，利用贝尔曼优化理论中的价值迭代，根据动作a下从状态x转移到状态y的马尔科夫链状态转移概率πxy(a)，将优化目标转换成贝尔曼方程形式如下：

[0114]

[0115] 其中，γ∈[0,1)是贝尔曼方程中的折扣因子，表示状态x的邻居状态集合，A*(·)为最佳策略，是给定λ和A(·)策略下邻居状态y的目标值，代表节点
a属于状态x已经解码保密消息的节点集合

[0116] 转换后获得状态s的贝尔曼价值函数V(s)形式如下，

[0117]

[0118] 其中，；mina代表选择最佳中继节点使得贝尔曼值函数最小，C(s,a,s′)是在选择动作a时从状态s转移到状态s′的实际成本函数，γ∈[0,1)是贝尔曼方程中的折扣因子，
表示状态s的邻居状态集合，用代表所有吸收状态节点集合，即目标节点已经解码
a
保密消息的状态，对于目标状态 C(s,a,s′)＝0。T (s,s′)表示在动作a下从状态s转
移到状态s′的状态转移概率。采用启发式搜索算法的思想，基于先验边界信息hL和hU，采用
* *
根据优先级选择后继状态的聚焦实时动态规划算法，获得状态价值的最优值V满足hL≤V
≤hU，对于目标状态 hL(s)＝hU(s)＝0。

[0119] 上述步骤S4中，具体化状态优先级的计算及增量搜索图拓展时边缘状态节点的选π
择过程。增量搜索图中的点就是马尔科夫过程中的状态。用W (s)表征在策略π的情况下，状
π
态节点s在未到未知区域前每个执行的平均时间步数，在本发明中将W (s)称作在策略π下
状态的占有率，表达式如下：

[0120]

[0121] 其中，s0代表初始状态，且代表内部状态节点，代表边缘状态节π
点，1‑γ表示在任意时间步数停止的概率。边缘状态节点的W (s)表明其与策略的相关性，
π(s)
值越大相关性越大。T (s,s′)表示在策略π下从状态s到状态s′的状态转移概率。
表示状态节点s是不包含吸收状态的内部状态节点。

[0122] 在聚焦实时动态规划算法中，为了选择扩展的边缘状态节点，首先定义一个状态s的超额不确定性Δ(s)

[0123] Δ(s)＝|VU(s)‑VL(s)|‑r/2 (12)

[0124] 其中，VU(s)和VL(s)分别表示状态s的状态价值上下限，r表示误差值。

[0125] 根据超额不确定性，获得状态s的优先级f(s)表达式如下，

[0126] f(s)＝Δ(s) (13)

[0127]

[0128] 其中，式(13)为边缘状态节点的优先级，式(14)为内部状态节点的优先级。在聚焦*
实时动态规划算法中，选择优先级最高的状态节点进行扩展。其中，最佳行动a依据状态价
值上限贪婪地选择。在每次更新状态节点时，重新计算优先级f(s)以及边界状态价值上下
U L
限V(s)和V(s)。

[0129] 上述步骤S4中，定义聚焦实时动态规划算法的两个试验终止标准：

[0130] 其一，超额不确定度满足条件Δ(s)≤0，则试验终止。

[0131] 其二，H为试验最大深度，当试验到达的深度h≥H时，则试验终止。将H初始化为一个较小的值H0，在本发明中H0＝1，根据试验统计作为反馈来自适应地调整H。在反馈机制中，
每次试验都会更新质量得分Q，其旨在反应增加探索深度的有用程度，质量得分的表达式如
下：

[0132] Q＝θW (15)

[0133] 其中，θ代表状态价值上限改变量，W代表状态占有率。在每次试验之后，如果增加最大探索深度的平均质量分数比不增加的更好，则H增加且

[0134] H＝kHH (16)

[0135] 其中，kH是每次增加探索深度的比例。

[0136] 本发明适用于无线体域网，在该网络中具有L个合法节点，合法节点之间能够共享和转发消息。同时存在一个窃听者能够窃听保密消息。所有的节点都工作在半双工的模式
下，并且以相同的发射功率对保密消息进行传输。在此考虑多跳通信，在每一跳中所有的合
法节点都尝试对保密消息解码。当目标节点解码消息时，则停止传输过程。在初始化阶段，
节点获取节点之间的参数包括邻居节点的信息，通过HELLO包交互获取邻居节点的位置信
息，节点通过邻居节点的位置信息可以计算得到与邻居节点之间的距离，以及交换彼此的
操作权限信息。

[0137] 在本发明的无线体域网中，将合法节点之间的信道建模为均值为1的指数分布，并且将合法节点和窃听者之间的信道建模为均值为3.38、标准差为2.8的对数正态分布。已知
节点之间的距离以及网络模型，即可由式(1)～(3)计算出马尔科夫链的状态转移概率。

[0138] 在本发明中，优化目标是寻找能耗和时延最小化的安全路由。这里的能耗指消息的接收并解码消息所需要消耗的能量。因此当一次状态转移过程中增加的已解码保密消息
的节点越多，能耗越大。目标函数表达式如下：

[0139]

[0140] 其中，是在这一状态转移过程中接收信号所需要的能耗成本，是在状态xi下选择中继的节点个数，在本发明中为1，
是从状态xi转移到状态xi+1过程中增加的已解码节点的数量，是考虑这
些节点接收所消耗的能量参数。cD＝1是时延成本，通过跳数来表征时延。η是代表权值，用
于平衡能耗成本和时延成本。

[0141] 为解决式(8)的无约束马尔科夫链优化目标，采用实时动态规划和启发式算法的思想，进一步转换后获得贝尔曼价值函数形式如下，

[0142]

[0143] 其中，C(s,a,s′)是实值成本函数，对于目标状态 C(s,a,s′)＝0。启发式搜索*
算法基于先验边界信息hL和hU，最优值满足hL≤V≤hU，对于目标状态 hL(s)＝hU(s)＝
0。

[0144] 图2是增量搜索图的示意图，如图中所示长方形代表的点就是马尔科夫链状态转移过程中的状态。在本发明中，状态其一指保密消息是否被窃听者窃听；其二指此刻已经解
码保密消息的合法节点集合。灰色的是已经有后继状态的点为内部状态节点，而其他的没
有后继状态的节点为边缘状态节点，即待扩展的状态节点。图中圆形代表马尔科夫过程中
的动作。灰色的是在此次状态转移过程中所选择的最佳动作。而图中的P表示在选定动作的
条件下，状态转移的概率。

[0145] 本发明主要是在增量搜索图中，针对不同的动作，用式(18)计算对应的状态价值*
上下限，即可根据状态价值上限选择出最佳的动作a ，并且根据后继状态的优先级来选择
最佳的边缘节点来扩展增量搜索图，直到状态转移到吸收状态，返回更新状态价值上下限
和优先级。

[0146] 如图3所示，基于启发式搜索的聚焦实时动态规划算法(FRDTP算法)来解决无线体域网能耗和时延最小的安全路由选择问题，具体步骤如下：

[0147] (1)随机生成一个无线体域网拓扑，计算各节点间的距离，初始化最大探索深度H0，以及初始状态s0的状态价值上限s0U和状态价值下限s0L；

[0148] (2)判断初始状态价值上下限差是否大于r；若是，跳转3)；否则，结束试验，获得最小化能耗和时延的随机动态系统控制策略；

[0149] (3)将平均质量分数Q初始化为0，实际探索深度为0，状态s为初始状态，初始状态的占有率W＝1；

[0150] (4)根据状态价值上下限和优先级计算公式(13)和(14)，遍历所有可选动作，由价值函数式(10)计算出其状态价值，即获得最优动作、选择扩展的状态以及状态价值上限的
变化量；

[0151] (5)根据式(15)更新质量分数，判断是否满足任一试验终止准则；若满足则返回更*
新状态价值上下限和优先级；否则，更新s＝s ， h＝h+1，跳转至步骤(4)；其
*
中，s为选择扩展的状态；

[0152] (6)通过比较增加探索深度后的平均质量分数是否更好，即是否满足Q后/h后>Q前/h前；若是，则增加最大探索深度；否则，不增加最大探索深度；

[0153] (7)跳转至步骤(2)。

[0154] 由于消息在传输过程中，状态转移是随机的，图4是就是某一状态转移过程。在状态S中，第一位的0或者1用于表示在该状态下消息是否被窃听，随后的数字表示在该状态下
已经解码消息的节点编号。其中S0＝{0,1}为初始状态，已解码消息的节点只有源节点(节
点1)且此状态下消息未被窃听者窃听。初始状态选择源节点1为发送节点，并且根据后继状
态的优先级，选择出下一状态为S1＝{0,1,3,4}。此时根据状态价值上限，在1、3、4这几个已
经解码消息的节点中选出最佳的发送节点3。同理可得下一状态为S2＝{1,1,3,4,2,5}，此
状态下最佳的发送节点为2。最后，转移到吸收状态S3＝{1,1,3,4,2,5,6}。图5是简单100×
100的无线体域网仿真区域，(0,0)处的1是源节点，(100,100)处的6是目标节点，相当于无
线体域网中用于处理数据的中心节点，*点为窃听者，将会窃听保密消息，其他节点都是无
线体域网中合法的传感器节点。1→3→2→6是图4状态转移情况下的最佳路由。

[0155] 以上对本发明的主要特征和具体实施例进行了具体且详细的描述，但是本发明不受上述实施例的限制，这也只是一种可行的实施方式。本领域的科研人员可以根据本发明
的思想，对实施例进行改进或者变型，这些变型和改进都落入要求保护的本发明范围内。

一种无线体域网能耗和时延加权最小的安全路由选择方法转让专利

申请号 : CN201911350845.2

文献号 : CN111107602B

文献日 : 2021-07-27

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 冯维 , 许丹 , 许晓荣 , 姚英彪 , 夏晓威 , 刘浩

申请人 : 杭州电子科技大学

摘要 :

权利要求 :

说明书 :