一种基于边缘计算的高速公路异质交通流可变限速控制方法转让专利

申请号 : CN202110867989.6

文献号 : CN113554875B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 于海洋林源任毅龙

申请人 : 北京航空航天大学(CN)吉林省高速公路管理局(CN)

摘要 :

本专利涉及一种基于边缘计算的高速公路异质交通流可变限速控制方法,包括:基于多目标优化,利用阈值法对平均延误和平均排队长度指标进行标准化处理,并设置为可变限速控制方法的奖励函数;部署由RSU和可变限速控制代理集成边缘计算节点,提取高速公路异质交通流信息,作为EDQN算法的状态空间;使用卷积神经网络对异质交通流的状态空间进行特征降维;将CNN网络输出的结果导入到全连接层,执行动作并输出当前时间步的Q值;在Priorized replay Buffer存储样本,利用KL散度作为训练样本的优先级进行排序,从而最小化损失函数,有效提高可变限速控制效果;步骤六、判断贪婪算法是否收敛。本发明考虑了基于多目标优化的奖励函数,提高整体交通效率并减少瓶颈拥堵。

权利要求 :

1.一种基于边缘计算的高速公路异质交通流可变限速控制方法,其特征在于,所述方法包括:步骤一、基于多目标优化,利用阈值法对平均延误和平均排队长度指标进行标准化处理,并设置为可变限速控制方法的奖励函数;步骤二、根据RSU的通信范围,在高速公路段上每隔一定的路段长度设置一个边缘计算节点;获取车辆位置和速度信息,作为可变限速控制方法的状态空间;将高速公路的整个观察区均等分为边长Δy的小方格;网格i在时间t的交通状态表示为statei(k)=[Ni(t),vi(t)],其中, ,其中,Ni(t)代表时刻t网格i中的车辆数量;如果大多数车辆在网格中,则认为它们在网格中;vj(t)代表时间t处每辆车j的速度,vi(t)代表网格中车辆的平均速度;步骤三、使用卷积神经网络(CNN)对异质交通流的状态空间进行特征降维;步骤四、将卷积神经网络输出的结果导入具有两个流的Dueling DQN完全连接层,分别输出当前价值流vη(fξ(st))和状态相关的动作优势流aψ(fξ(st),at);EDQN使用贪婪算法选择可变速度控制策略,执行动作并输出当前时间步的Q值;将两个流合并输出Qθ(st,at),具体包括:使用Dueling DQN和Distributional DQN改进了原始DQN的神经网络结构,Dueling DQN使用具有两个流的完全连接层,分别输出当前价值流vη(fξ(st))和状态相关的动作优势流aψ(fξ(st),at);EDQN使用贪婪算法选择可变速度控制策略,每隔3分钟基于全连接层输出的目标函数Q值,从而为每条车道动态设置可变限速控制方案;动作空间为40至80km/h,固定间隔为5km/h;所述可变限速控制方法有ε的概率随机选择动作,有(1‑ε)的概率选择使奖励函数最大的动作;然后,将两个流合并输出Qθ(st,at),从而改善原始DQN中直接输出每种动作Q值的弊端;

基于分布视角Distributional DQN来建模深度强化学习模型,通过选择直方图来表示对于价值分布的估计,并将价值限定在[Vmin,Vmax]之间;在[Vmin,Vmax]选择N个等距的价值采+样点原子,其中z是具有Natoms∈N个原子的向量,

,在此基础上定义在时间t处的近似分

布dt,则每个原子i上的概率密度为 ,使得dt=(z,pθ(st,at));训练的目标是更新θ,使该分布与实际分布紧密匹配;其中,所述EDQN算法是结合四个DQN扩展形成的,所述DQN扩展包括Duelling DQN,Multistep,Distributional DQN和Priorized replay Buffer;步骤五、在所述Priorized replay Buffer存储样本,利用KL散度作为训练样本的优先级进行排序,从而最小化损失函数,有效提高可变限速控制效果,具体包括:异质交通流采用可变速度控制策略将状态更改为新状态St+1,得到奖励rt+1,在Prioritized replay buffer中存储;相比与原始DQN,Prioritized replay buffer依据TD误差来对样本优先级进行排序,如果TD误差越大,样本优先级p就越高;结合Multi‑step learning,可以防止Q网络过度预测该值并提高算法的收敛性和稳定性;

其中,公式中γ表示迭代参数;

在训练期间,从Prioritized replay buffer中对训练样本进行采样,利用KL(Kullbeck‑Leibler)散度作为样本的优先级,从而最小化交叉熵损失函数,使用Adam反向传播算法来更新目标网络中的参数以评估可变限速控制策略,有效提高训练效率;EDQN损失函数如下:其中,Pt是采样概率,w是确定TD误差对采样概率的影响程度,学习速率α是控制Q值的变化速率,Φz是在z上的投影,DKL表示利用KL散度计算得到的两个分布的距离;步骤六、判断贪婪算法是否收敛,若收敛,根据异质交通流状态选取最优速度控制策略并发布。

2.根据权利要求1所述的一种基于边缘计算的高速公路异质交通流可变限速控制方法,其特征在于,

所述步骤一具体包括:

基于多目标优化的可变限速方法奖励函数在高速公路上游路段设置可变限速控制区域,在每个控制时段步长t,可变限速控制方法都会计算当前异质交通流状态的奖励rt∈R,并从状态St∈S选择动作at∈A,交通流接执行变换速度为at并将状态更改为新状态St+1,得到奖励rt+1;其中,R表示异质交通流状态的奖励集合,S表示状态集合,A表示动作集合;

基于多目标优化,将平均延误d和平均排队长度qm作为EDQN的奖励函数,可以有效地提高交通效率并减少合并区域的拥堵;考虑到奖励函数指标量纲不同的特性,采用阈值法进行数值的规范化处理,阈值法是用指标实际值和阈值相比得到指标值的无量纲化方法;令指标d,qm的最大值分别为ay,by,最小值为ay,by,则标准化后的可变限速控制方法平均延误D和平均排队长度Qm指标分别为:奖励函数计算公式如下:

所述步骤二具体包括:

根据RSU的通信范围,在高速公路段上每隔一定的路段长度设置一个边缘计算节点;在边缘计算环境的每个控制周期中,当车辆进入观察区域时,借助于高可靠性和低延迟的V2V通信技术,RSU将自动与车辆建立无线通信连接,进行实时信息交互,获取车辆位置和速度信息,作为可变限速控制方法的状态空间;

状态空间定义为由观察区内的车辆数量和平均速度组成的矩阵,高速公路的整个观察区均等分为边长Δy的小方格;网格i在时间t的交通状态表示为statei(k)=[Ni(t),vi(t)],其中, ,其中,Ni(t)代表时刻t网格i中的车辆数量;如果大多数车辆在网格中,则认为它们在网格中;vj(t)代表时间t处每辆车j的速度,vi(t)代表网格中车辆的平均速度;

所述步骤三具体包括:

使用卷积神经网络(CNN)进行异质交通流状态的特征降维;卷积神经网络分别由具有

32个8*8、64个4*4和64个3*3卷积核的卷积层组成;不同的滤波器具有不同的权重,以提取不同的特征作为输出到下一层;每层卷积层都具有滤波器和激活函数,使用Relu函数作为激活函数以激活神经网络单元;

所述步骤六具体包括:

当贪婪算法ε∈(0,1]时,此时,可变限速控制方法返回步骤2,进行异质交通流状态提取,进行循环训练;通过对可变限速控制方法进行广泛的离线训练,使之可以适应复杂环境下高速公路异质交通流的时变特点,为每条车道动态设置可变限速控制方案;

当ε收敛到0时,EDQN训练结束;此时,在每个可变限速控制时段,可变限速方法选择异质交通流最大奖励函数所对应的动作值,设置为最优可变限速策略;利用RSU经由车车无线通信将速度控制策略发送至车载无线通信终端,或者将其发送至可变信息诱导屏以指示车辆的通行;因此,基于边缘计算的可变限速控制方法可以从根本上加强基于边缘计算的可变限速控制方法的靶向疏堵效果。

说明书 :

一种基于边缘计算的高速公路异质交通流可变限速控制方法

技术领域

[0001] 本发明属于智能交通控制技术领域,具体涉及基于边缘计算的高速公路异质交通流可变限速控制。

背景技术

[0002] 随着人工智能技术的兴起,智能网联车辆(Connected and Autonomous Vehicle,CAV)应运而生,由人工车辆(Manual Vehicle,MV)和CAV组成的异质交通流将长期共存,由此引发了一系列高速公路交通拥堵问题。目前,采用可变限速控制技术来提高交通效率已成为智能交通领域研究的热点。通过在道路上游设置可变限速控制区域,统一控制异质交通流的速度,可以有效减少瓶颈处的交通拥堵。但现有的可变限速控制方法主要是将数据上传至云平台进行计算和存储,随着高速公路上CAV和基础设施的增加,大量的交通流信息加剧了数据中心的计算负荷和带宽消耗,这就减慢了可变限速控制的实时疏堵作用,使影响高速行驶安全的不确定因素大大增加。因此,需要一种基于边缘计算的高速公路异质交通流可变限速控制方法,有效缓解高速公路的瓶颈拥堵。

发明内容

[0003] 本发明基于以上现有技术的不足,提出一种基于边缘计算的高速公路异质交通流可变限速控制方法。通在高速公路上部署由RSU和可变限速控制方法集成的边缘计算节点,针对异质交通流复杂性、时变性等特性,利用RSU实时接收异质交通流信息,接着调用EDQN算法,实时输出可变限速控制策略,指引高速公路车辆的通行,有效实现了异质交通流与高速道路之间的实时信息交互。
[0004] 本发明针对DQN算法收敛性差的特点,有效结合四个DQN扩展形成EDQN算法以集成到可变限速控制方法中。通过对EDQN算法进行广泛离线训练,以适应交通流量的不确定性,因此在实际中可变限速方法不需要进行大量的在线计算,结合边缘计算的高可靠低延时的特性实现毫秒级的信息传输,以减轻高速公路瓶颈处的负面影响,提高高速公路异质交通流的流动性。
[0005] 本发明的可变限速控制步骤,具体包括:
[0006] (1)基于多目标优化,利用阈值法对平均延误和平均排队长度指标进行标准化处理,并设置为可变限速控制方法的奖励函数。
[0007] (2)部署由RSU和可变限速控制代理集成边缘计算节点,提取高速公路异质交通流信息(辆数量和平均速度),作为EDQN算法的状态空间。
[0008] (3)使用卷积神经网络(CNN)对异质交通流的状态空间进行特征降维。
[0009] (4)将CNN网络输出的结果导入到全连接层,执行动作并输出当前时间步的Q值。
[0010] (5)在Priorized replay Buffer存储样本,利用KL散度作为训练样本的优先级进行排序,从而最小化损失函数,有效提高可变限速控制效果。
[0011] (6)判断贪婪算法ε是否收敛,若收敛,根据异质交通流状态选取最优速度控制策略并发布。
[0012] 本发明技术方案具有如下优点:
[0013] A.本发明采用阈值法将高速公路的平均延误与瓶颈处的平均排队长度进行规范化处理,考虑了基于多目标优化的奖励函数,提高整体交通效率并减少瓶颈拥堵。
[0014] B.本发明提出一种RSU和可变限速控制方法集成的边缘计算节点,用于减少高速公路经常性瓶颈处产生的反向交通波,平滑异质交通流的速度,避免通行能力下降。
[0015] C.本发明在EDQN网络中结合近年来提出DQN的四个扩展(Duelling DQN,Multi‑step,Distributional DQN,Priorized replay Buffer),从而防止Q网络过度预测Q值,使可变限速控制方法适用于不同场景下的高速公路混行场景。

附图说明

[0016] 图1为本发明总流程图
[0017] 图2为具有EDQN网络的可变限速控制方法结构

具体实施方式

[0018] 下面结合附图对本专利的具体实施方式进行详细描述。
[0019] 步骤1:基于多目标优化的可变限速方法奖励函数
[0020] 在高速公路上游路段设置可变限速控制区域,在每个控制时段步长t,可变限速控制方法都会计算当前异质交通流状态的奖励rt∈R,并从状态St∈S选择动作at∈A,交通流接执行变换速度为at并将状态更改为新状态St+1,得到奖励rt+1。
[0021] 基于多目标优化,本发明将平均延误d和平均排队长度qm作为EDQN的奖励函数,可以有效地提高交通效率并减少合并区域的拥堵。考虑到奖励函数指标量纲不同的特性,本发明采用阈值法进行数值的规范化处理,阈值法是用指标实际值和阈值相比得到指标值的无量纲化方法。令指标d,qm的最大值分别为ay,by,最小值为ay,by,则标准化后的可变限速控制方法平均延误D和平均排队长度Qm指标分别为:
[0022]
[0023] 奖励函数计算公式如下:
[0024]
[0025] 步骤2:基于边缘计算的异质交通流状态提取
[0026] 本发明根据RSU的通信范围,在高速公路段上每隔一定的路段长度设置一个边缘计算节点。在边缘计算环境的每个控制周期中,当车辆进入观察区域时,借助于高可靠性和低延迟的V2V通信技术,RSU将自动与车辆建立无线通信连接,进行实时信息交互,获取车辆位置和速度信息,作为可变限速控制方法的状态空间。
[0027] 状态空间定义为由观察区内的车辆数量和平均速度组成的矩阵,高速公路的整个观察区均等分为边长Δy的小方格。网格i在时间t的交通状态可以表示为statei(k)=[Ni(t),vi(t)],其中, 其中,Ni(t)代表时刻t网格i中的车辆数量。如果大多数车辆在网格中,则认为它们在网格中。vj(t)代表时间t处每辆车j的速度,vi(t)代表网格中车辆的平均速度。
[0028] 步骤3:卷积神经网络特征降维
[0029] 本发明使用卷积神经网络(CNN)进行异质交通流状态的特征降维。CNN分别由具有32个8*8、64个4*4和64个3*3卷积核的卷积层组成。不同的滤波器具有不同的权重,以提取不同的特征作为输出到下一层。每层卷积层都具有滤波器和激活函数,使用Relu函数作为激活函数以激活神经网络单元。
[0030] 步骤4:执行动作输出Q值
[0031] 本发明使用Dueling DQN和Distributional DQN改进了原始DQN的神经网络结构,Dueling DQN使用具有两个流的完全连接层,分别输出当前价值流vη(fξ(st))和状态相关的动作优势流aψ(fξ(st),at)。EDQN使用贪婪算法选择可变速度控制策略,每隔3分钟基于全连接层输出的目标函数Q值,从而为每条车道动态设置可变限速控制方案。动作空间为40至80km/h,固定间隔为5km/h。即可变限速控制方法有ε的概率随机选择动作,有(1‑ε)的概率选择使奖励函数最大的动作。然后,将两个流合并输出Qθ(st,at),从而改善原始DQN中直接输出每种动作Q值的弊端。
[0032]
[0033] 其中,ξ,η和ψ分别是卷积神经网络fξ,价值流vη和优势流aψ的参数,设卷积层的输出为φ,价值流的参数是η,优势流的参数是ψ,θ={ξ,η,ψ}是它们的串联。
[0034] 基于分布视角Distributional DQN来建模深度强化学习模型,通过选择直方图来表示对于价值分布的估计,并将价值限定在[Vmin,Vmax]之间。在[Vmin,Vmax]选择N个等距的价+值采样点原子,其中z是具有Natoms∈N个原子的向量,
在此基础上定义在时间t处的近似分布dt,则每个
原子i上的概率密度为 使得dt=(z,pθ(st,at))。训练的目标是更新θ,使该分布与实际分布紧密匹配。Q值分布如下:
[0035]
[0036] 其中,γ∈[0,1)折现因子用于权衡当前异质交通流所获得的奖励和未来奖励的重要性。
[0037] 步骤5:存储样本并计算损失函数
[0038] 异质交通流采用可变速度控制策略将状态更改为新状态St+1,得到奖励rt+1,在Prioritized replay buffer中存储。相比与原始DQN,Prioritized replay buffer依据TD误差来对样本优先级进行排序,如果TD误差越大,样本优先级p就越高。结合Multi‑step learning,可以防止Q网络过度预测该值并提高算法的收敛性和稳定性。
[0039]
[0040] 在训练期间,从Prioritized replay buffer中对训练样本进行采样,利用KL(Kullbeck‑Leibler)散度作为样本的优先级,从而最小化交叉熵损失函数,使用Adam反向传播算法来更新目标网络中的参数以评估可变限速控制策略,有效提高训练效率。EDQN损失函数如下:
[0041]
[0042] 其中,Pt是采样概率,w是确定TD误差对采样概率的影响程度,学习速率α是控制Q值的变化速率,Φz是在z上的投影。
[0043] 步骤6:发布最优可变限速控制策略
[0044] 当贪婪算法ε∈(0,1]时,此时,可变限速控制方法返回步骤2,进行异质交通流状态提取,进行循环训练。通过对可变限速控制方法进行广泛的离线训练,使之可以适应复杂环境下高速公路异质交通流的时变特点,为每条车道动态设置可变限速控制方案。
[0045] 当ε收敛到0时,EDQN训练结束。此时,在每个可变限速控制时段,可变限速方法选择异质交通流最大奖励函数所对应的动作值,设置为最优可变限速策略。利用RSU经由车车无线通信将速度控制策略发送至车载无线通信终端,或者将其发送至可变信息诱导屏以指示车辆的通行。因此,基于边缘计算的可变限速控制方法可以从根本上加强基于边缘计算的可变限速控制方法的靶向疏堵效果。