一种区域路网交通信号灯协调控制系统和方法转让专利

申请号 : CN202010409600.9

文献号 : CN111583675B

文献日 : 2021-05-14

本发明实施例提供一种区域路网交通信号灯协调控制系统和装置，该系统包括云端中心，以及设置于区域内每一交叉口的边缘节点和多源交通数据采集设备，所述边缘节点一端连接对应交叉口的多源交通数据采集设备，另一端连接所述云端中心，临近边缘计算节点之间相互连接。本发明设立智能化的独立边缘节点，利用边缘节点的计算能力处理多源交通数据，感知交通运行状态。多个边缘节点与云端中心联合动作，采用多智能体强化学习方法协调优化区域内各个交叉口的交通信号灯配时方案。可以有效的解决城市交通拥堵问题，提高交叉口机动车通行效率。

1.一种区域路网交通信号灯协调控制系统，其特征在于，包括云端中心，以及设置于区域内每一交叉口的边缘节点和多源交通数据采集设备，所述边缘节点一端连接对应交叉口的多源交通数据采集设备，另一端连接所述云端中心，临近边缘计算节点之间相互连接；

所述多源交通数据采集设备，用于采集当前交叉口的多源交通数据，并发送至对应的边缘节点；所述多源交通数据包括地磁线圈数据、道路视频监控数据、雷达微波数据和浮动车轨迹数据；

所述边缘节点包括：

交通运行状态建模模块，用于获取对应交叉口的多源交通数据，建立交通运行状态模型；其中，所述多源交通数据包括地磁线圈数据、道路视频监控数据、雷达微波数据和浮动车轨迹数据；

单交叉口信号灯配时模块，用于基于所述交通运行状态模型和预设的初始信号灯配时方案，采用强化学习方法，获得对应交叉口的交通信号灯配时优化方案，并上传云端中心；

单交叉口信号灯配时模块具体包括：判断单元，用于判断交叉口的车流通行状况为常规车流态或动态车流态；信号灯配时优化单元，用于若交叉口车流通行状况为常规车流态，则基于强化学习算法，将所述交通运行状态模型作为智能体的状态空间，将初始信号灯配时方案作为智能体的动作空间；通过评估交通运行状态作为奖励机制，构建以所述边缘节点为智能体的强化学习模型；若交通运行状态为动态车流态，则在所述强化学习模型的基础上，修改Q函数中的车辆跟车模式g(Q)，获得动态车流态下的Q函数值，以获得动态车流态下的强化学习模型；

协调优化模块，用于联合云端中心以及区域内其他边缘节点，采用多智能体强化学习方法，协调优化区域内各个交叉口的交通信号灯配时方案；

所述云端中心，用于联合区域内各个边缘节点，采用多智能体强化学习方法，协调优化区域内各个交叉口的交通信号灯配时方案。

2.根据权利要求1所述的区域路网交通信号灯协调控制系统，其特征在于，所述交通运行状态建模模块具体包括：

获取单元，用于获取多源交通数据采集设备采集的多源交通数据；

提取单元，用于分别提取地磁线圈数据、雷达微波数据和道路视频监控数据中的交通流特征；其中，所述交通流特征为包含时间序列位置信息及移动特征的大规模车辆轨迹数据；

数据融合单元，用于采用多模态数据融合技术，整合提取三类交通数据源的交通流特征，获得交叉口的道路交通状态；

浮动车轨迹处理单元，用于对浮动车轨迹数据进行处理，获得机动车轨迹信息的时序特征和状态特征，从而获得交叉口的车辆通行状态。

3.根据权利要求1所述的区域路网交通信号灯协调控制系统，其特征在于，所述多智能体强化学习方法包括：

将所述强化学习模型中单智能体的状态和动作分别替换为动态随机环境下的联合状态和联合动作，并在每一个博弈对策阶段，估计均衡策略的值函数，实现多个智能体之间的同时对策，通过如此反复迭代逼近最优策略，以此寻找区域环境下的唯一均衡。

4.根据权利要求1～3任一项所述区域路网交通信号灯协调控制系统的区域路网交通信号灯协调控制方法，其特征在于，包括：获取对应交叉口的多源交通数据，建立交通运行状态模型；其中，所述多源交通数据包括地磁线圈数据、道路视频监控数据、雷达微波数据和浮动车轨迹数据；

基于所述交通运行状态模型和预设的初始信号灯配时方案，采用强化学习方法，获得对应交叉口的交通信号灯配时优化方案，并上传云端中心；其中，基于所述交通运行状态模型和预设的初始信号灯配时方案，采用强化学习方法，获得对应交叉口的交通信号灯配时优化方案，包括：判断交叉口的车流通行状况为常规车流态或动态车流态；若交叉口车流通行状况为常规车流态，则基于强化学习算法，将所述交通运行状态模型作为智能体的状态空间，将初始信号灯配时方案作为智能体的动作空间；通过评估交通运行状态作为奖励机制，构建以所述边缘节点为智能体的强化学习模型；若交通运行状态为动态车流态，则在所述强化学习模型的基础上，修改Q函数中的车辆跟车模式g(Q)，获得动态车流态下的Q函数值，以获得动态车流态下的强化学习模型；

联合云端中心以及区域内其他边缘节点，采用多智能体强化学习方法，协调优化区域内各个交叉口的交通信号灯配时方案。

5.根据权利要求4所述的区域路网交通信号灯协调控制方法，其特征在于，所述获取对应交叉口的多源交通数据，建立交通运行状态模型，具体包括：获取多源交通数据采集设备采集的多源交通数据；

分别提取地磁线圈数据、雷达微波数据和道路视频监控数据中的交通流特征；其中，所述交通流特征为包含时间序列位置信息及移动特征的大规模车辆轨迹数据；

采用多模态数据融合技术，整合提取三类交通数据源的交通流特征，获得交叉口的道路交通状态，对浮动车轨迹数据进行处理，获得机动车轨迹信息的时序特征和状态特征，从而获得交叉口的车辆通行状态。

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求4至5任一项所述区域路网交通信号灯协调控制方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求4至5任一项所述区域路网交通信号灯协调控制方法的步骤。

一种区域路网交通信号灯协调控制系统和方法

技术领域

[0001] 本发明实施例涉及智能交通技术领域，尤其涉及一种区域路网交通信号灯协调控制系统和方法。

背景技术

[0002] 人民生活水平的日益提高、城市的快速发展，城市交通系统也随着城市现代化的进步面临着越来越严峻的考验，车辆保有量逐年增长，车辆拥堵愈演愈烈，交通事故频发，
社会资源浪费，环境污染加剧，严重影响人们的出行效率、生活质量和身心健康，因而缓解
城市内交通拥堵有重大的经济意义和生态意义。

[0003] 目前我国大多数城市，交通路口信号控制建立时间前后相差较远，交叉路口信号控制机类型并不统一。信号控制系统普遍采用多时段定时信号机、感应式信号机和集中协
调式信号机。信号控制方案多采用固定配时法和自适应配时法。然而，当路口规模扩大时，
集中式的控制系统不能满足大量交通数据流的通信传输和交通控制策略的实时优化，且系
统需要建立复杂的交通模型，维护难度大，面对过于复杂的数据，传统的交通信号灯控制方
案和交通数据处理方法已经无法匹配当今交通控制优化的需求。

发明内容

[0004] 本发明实施例提供一种区域路网交通信号灯协调控制系统和方法，用以解决传统的交通信号灯配时系统不能满足大量交通数据流的通信传输和交通控制策略的实时优化，
且需要建立复杂的交通模型，维护难度大的缺陷。

[0005] 第一方面，本发明实施例提供一种区域路网交通信号灯协调控制系统，包括：

[0006] 云端中心，以及设置于区域内每一交叉口的边缘节点和多源交通数据采集设备，所述边缘节点一端连接对应交叉口的多源交通数据采集设备，另一端连接所述云端中心，
临近边缘计算节点之间相互连接；

[0007] 所述多源交通数据采集设备，用于采集当前交叉口的多源交通数据，并发送至对应的边缘节点；所述多源交通数据包括地磁线圈数据、道路视频监控数据、雷达微波数据和
浮动车轨迹数据；

[0008] 所述边缘节点包括：

[0009] 交通运行状态建模模块，用于获取对应交叉口的多源交通数据，建立交通运行状态模型；其中，所述多源交通数据包括地磁线圈数据、道路视频监控数据、雷达微波数据和
浮动车轨迹数据；

[0010] 单交叉口信号灯配时模块，用于基于所述交通运行状态模型和预设的初始信号灯配时方案，采用强化学习方法，获得对应交叉口的交通信号灯配时优化方案，并上传云端中
心；

[0011] 协调优化模块，用于联合云端中心以及区域内其他边缘节点，采用多智能体强化学习方法，协调优化区域内各个交叉口的交通信号灯配时方案；

[0012] 所述云端中心，用于联合区域内各个边缘节点，采用多智能体强化学习方法，协调优化区域内各个交叉口的交通信号灯配时方案。

[0013] 进一步，所述交通运行状态建模模块具体包括：

[0014] 获取单元，用于获取多源交通数据采集设备采集的多源交通数据；

[0015] 提取单元，用于分别提取地磁线圈数据、雷达微波数据和道路视频监控数据中的交通流特征；其中，所述交通流特征为包含时间序列位置信息及移动特征的大规模车辆轨
迹数据；

[0016] 数据融合单元，用于采用多模态数据融合技术，整合提取三类交通数据源的交通流特征，获得交叉口的道路交通状态；

[0017] 浮动车轨迹处理单元，用于对浮动车轨迹数据进行处理，获得机动车轨迹信息的时序特征和状态特征，从而获得交叉口的车辆通行状态。

[0018] 进一步，所述单交叉口信号灯配时模块具体包括：

[0019] 判断单元，用于判断交叉口的车流通行状况为常规车流态或动态车流态；

[0020] 信号灯配时优化单元，用于若交叉口车流通行状况为常规车流态，则基于强化学习算法，将所述交通运行状态模型作为智能体的状态空间，将初始信号灯配时方案作为智
能体的动作空间；通过评估交通运行状态作为奖励机制，构建以所述边缘节点为智能体的
强化学习模型；若交通运行状态为动态车流态，则在所述强化学习模型的基础上，修改Q函
数中的车辆跟车模式g(Q)，获得动态车流态下的Q函数值，以获得动态车流态下的强化学习
模型。

[0021] 进一步，所述多智能体强化学习方法包括：

[0022] 将所述强化学习模型中单智能体的状态和动作分别替换为动态随机环境下的联合状态和联合动作，并在每一个博弈对策阶段，估计均衡策略的值函数，实现多个智能体之
间的同时对策，通过如此反复迭代逼近最优策略，以此寻找区域环境下的唯一均衡。

[0023] 第二方面，本发明实施例提供一种交叉口交通信号灯配时优化方法，包括：

[0024] 获取对应交叉口的多源交通数据，建立交通运行状态模型；其中，所述多源交通数据包括地磁线圈数据、道路视频监控数据、雷达微波数据和浮动车轨迹数据；

[0025] 基于所述交通运行状态模型和预设的初始信号灯配时方案，采用强化学习方法，获得对应交叉口的交通信号灯配时优化方案，并上传云端中心；

[0026] 联合云端中心以及区域内其他边缘节点，采用多智能体强化学习方法，协调优化区域内各个交叉口的交通信号灯配时方案。

[0027] 进一步，所述获取对应交叉口的多源交通数据，建立交通运行状态模型，具体包括：

[0028] 获取多源交通数据采集设备采集的多源交通数据；

[0029] 分别提取地磁线圈数据、雷达微波数据和道路视频监控数据中的交通流特征；其中，所述交通流特征为包含时间序列位置信息及移动特征的大规模车辆轨迹数据；

[0030] 采用多模态数据融合技术，整合提取三类交通数据源的交通流特征，获得交叉口的道路交通状态，对浮动车轨迹数据进行处理，获得机动车轨迹信息的时序特征和状态特
征，从而获得交叉口的车辆通行状态。

[0031] 进一步，所述基于所述交通运行状态模型和预设的初始信号灯配时方案，采用强化学习方法，获得对应交叉口的交通信号灯配时优化方案，具体包括：

[0032] 判断交叉口的车流通行状况为常规车流态或动态车流态；

[0033] 若交叉口车流通行状况为常规车流态，则基于强化学习算法，将所述交通运行状态模型作为智能体的状态空间，将初始信号灯配时方案作为智能体的动作空间；通过评估
交通运行状态作为奖励机制，构建以所述边缘节点为智能体的强化学习模型；

[0034] 若交通运行状态为动态车流态，则在所述强化学习模型的基础上，修改Q函数中的车辆跟车模式g(Q)，获得动态车流态下的Q函数值，以获得动态车流态下的强化学习模型。

[0035] 第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第二方面
实施例所述区域路网交通信号灯协调控制方法的步骤。

[0036] 第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第二方面实施例所述区域路网交通信
号灯协调控制方法的步骤。

[0037] 本发明实施例提供的区域路网交通信号灯协调控制系统和方法，采用边缘计算可以有效减少系统处理的延迟，减少数据传输带宽，提高可用性。由于交通信号灯的智能控制
具有数据实时采集，时延要求较高等特点，将其计算和控制过程部署在云端上是有一定困
难和弊端的，而本发明实施例采用边缘计算的方式完成控制过程则能够较好的解决问题。

[0038] 本发明基于云边混合计算框架，设立智能化的独立边缘节点，利用边缘节点的计算能力处理多源交通数据，感知交通运行状态。多个边缘节点与云端中心联合动作，采用多
智能体强化学习方法协调优化区域内各个交叉口的交通信号灯配时方案。可以有效的解决
城市交通拥堵问题，提高交叉口机动车通行效率。

附图说明

[0039] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明
的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据
这些附图获得其他的附图。

[0040] 图1为本发明实施例提供的区域路网交通信号灯协调控制系统的结构示意图；

[0041] 图2为本发明实施例提供的边缘节点的结构示意图；

[0042] 图3为本发明实施例提供的交通运行状态模型示意图；

[0043] 图4为本发明实施例提供的区域路网交通信号灯协调控制方法流程示意图；

[0044] 图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

[0045] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是
本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0046] 在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均为相同的
实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐
式地理解的是，本文所描述的实施例可以与其它实施例相结合。

[0047] 图1为本发明实施例提供的区域路网交通信号灯协调控制系统的结构示意图，参照图1，该系统包括云端中心，以及设置于区域内每一交叉口的边缘节点和多源交通数据采
集设备，所述边缘节点一端连接对应交叉口的多源交通数据采集设备，另一端连接所述云
端中心。临近边缘计算节点之间相互连接。

[0048] 所述多源交通数据采集设备，用于采集当前交叉口的多源交通数据，并发送至对应的边缘节点；所述多源交通数据包括地磁线圈数据、道路视频监控数据、雷达微波数据和
浮动车轨迹数据。

[0049] 参照图1，一个交叉口对应设置一个边缘节点和一套多源交通数据采集设备。本发明实施例在区域内的每一交叉口均设置边缘节点和多源交通数据采集设备。其中，多源交
通数据采集设备包括地磁线圈设备、视频监控设备和雷达微波设备。

[0050] 具体地，道路视频监控设备对一个交叉路口四个方向的多车道多车流分别监控分析，每个车道下方都埋有地磁线圈感应设备，雷达微波设备则对交叉口车流进口处车道设
置对应扇区采集车流信息。

[0051] 本发明实施例采用边缘计算节点协助交通信号灯控制，边缘节点独立完成交通流信息采集、交通流信息处理、交通信号灯优化等操作，边缘节点在处理本节点信息的同时还
可以与周节点进行信息传递。在边缘计算的场景下，每个交叉口都是一个独立的边缘节点，
具有独立的数据感知和计算控制能力，边缘计算将更多的控制功能下降到边缘侧，每个边
缘节点都是一个可以进行交通控制的基本单元。这样的交通控制方案降低了通信网络的带
宽压力和云端的工作量，提高了控制的实时性。

[0052] 图2为本发明实施例提供的边缘节点的结构示意图，参照图2，所述边缘节点包括：

[0053] 交通运行状态建模模块201，用于获取对应交叉口的多源交通数据，建立交通运行状态模型；其中，所述多源交通数据包括地磁线圈数据、道路视频监控数据、雷达微波数据
和浮动车轨迹数据。

[0054] 图3为本发明实施例提供的交通运行状态模型示意图。参照图3，边缘节点的交通运行状态建模模块基于多源交通数据，建立图3所示的交通运行状态模型。此处，交通运行
状态包括道路交通状态和车辆通行状态。

[0055] 本实施例中，单个交叉口的多源交通数据在对应的边缘节点被处理。具体地，边缘节点提取当前交叉口的地磁线圈数据、雷达微波数据和道路视频监控数据中的交通流特
征，采用多模态数据融合技术，整合提取三类交通数据源的交通流特征，获得当前交叉口的
道路交通状态。道路交通状态从道路层面上描述了交叉口各个方向的交通运行状态。此处，
交通流特征为包含时间序列位置信息及移动特征的大规模车辆轨迹数据。时间序列位置信
息为所经路口位置序列或卡口位置序列，移动特征包括速度、方向等。

[0056] 并且，本实施例对浮动车轨迹数据进行处理，获得机动车轨迹信息的时序特征和状态特征，从而获得交叉口的车辆通行状态。车辆通行状态在车辆层面上描述机动车的驾
驶行为和在交叉口中的通行状态。本发明从车辆和道路两个层次，充分利用采集的多源交
通数据，完成城市道路交通状态评估和车辆驾驶行为分析建模。

[0057] 需要说明的是，边缘节点包括具有一定计算能力的微型计算机平台，微型计算机平台包括但不限于装有Linux系统的微型主板以及含有一定算力的GPU设备，在微型计算机
平台上可对采集到的多源交通数据进行处理，通过多模态数据融合技术实现对多源交通数
据的有效分析，进而建立单个交叉口在边缘节点下的交通运行状态模型。

[0058] 单交叉口信号灯配时模块202，用于基于所述交通运行状态模型和预设的初始信号灯配时方案，采用强化学习方法，获得对应交叉口的交通信号灯配时优化方案，并上传云
端中心。

[0059] 协调优化模块203，用于联合云端中心以及区域内其他边缘节点，采用多智能体强化学习方法，协调优化区域内各个交叉口的交通信号灯配时方案。

[0060] 所述云端中心，用于联合区域内各个边缘节点，采用多智能体强化学习方法，协调优化区域内各个交叉口的交通信号灯配时方案。

[0061] 具体地，在边缘计算智能体之间，智能体与云计算中心之间存在信息交流和数据通信。智能体在计算出当前路口的交通信号灯配时方案后，在本地保留数据的同时也会上
传到云计算中心，协助云计算中心协调优化区域内的智能体群，进而实现区域内交叉口交
通通行状况的最优化操作。

[0062] 本发明采用多智能体强化学习方法，将所述强化学习模型中单智能体的状态和动作分别替换为动态随机环境下的联合状态和联合动作，并在每一个博弈对策阶段，估计均
衡策略的值函数，实现多个智能体之间的同时对策，通过如此反复迭代逼近最优策略，以此
寻找区域环境下的唯一均衡。得到多智能体动作联动的Q值函数如下：

[0063]

[0064]

[0065]

[0066] 式中，s∈S＝s1,...,sN表示N个智能体的联合状态向量；a∈A＝a1,...aN表示其联合动作向量；A为联合动作空间；Vi(s)为智能体i在联合状态S下的状态值函数；NE为纳什均
衡对策；π(a)为带有不确定性的混合策略，即N个智能体选择联合动作的概率。表
k
示智能体i在k时刻的Q函数值，k表示第k个时间步，k+1表示第k+1个时间步，ri 表示智能体i
*
在k时刻的奖励值，γ表示折扣因子；π表示强化学习模型学习到的策略；π表示强化学习模
型学习到的最优策略。表示智能体n在k+1时刻的Q值，n表示第n个智能体。

[0067] 需要说明的是，本发明构建边缘节点群，行成多智能体边缘计算网络，形成交叉口与交叉口之间的直接关联，边缘节点输出交叉口的交通运行状态模型和当前交叉口的交通
信号灯配时方案，构建交叉口与交叉口之间，交叉口与云端中心之间的分布式可信计算网
络，完成区域内交叉口的交通信号灯协调优化配时控制。

[0068] 本发明实施例提供的区域路网交通信号灯协调控制系统，采用边缘计算可以有效减少系统处理的延迟，减少数据传输带宽，提高可用性。由于交通信号灯的智能控制具有数
据实时采集，时延要求较高等特点，将其计算和控制过程部署在云端上是有一定困难和弊
端的，而本发明实施例采用边缘计算的方式完成控制过程则能够较好的解决问题。

[0069] 本发明基于云边混合计算框架，设立智能化的独立边缘节点，利用边缘节点的计算能力处理多源交通数据，感知交通运行状态。多个边缘节点与云端中心联合动作，采用多
智能体强化学习方法协调优化区域内各个交叉口的交通信号灯配时方案。可以有效的解决
城市交通拥堵问题，提高交叉口机动车通行效率。

[0070] 在上述实施例的基础上，所述交通运行状态建模模块201具体包括：

[0071] 获取单元，用于获取多源交通数据采集设备采集的多源交通数据；

[0072] 提取单元，用于分别提取地磁线圈数据、雷达微波数据和道路视频监控数据中的交通流特征；其中，所述交通流特征为包含时间序列位置信息及移动特征的大规模车辆轨
迹数据；

[0073] 数据融合单元，用于采用多模态数据融合技术，整合提取三类交通数据源的交通流特征，获得交叉口的道路交通状态；

[0074] 浮动车轨迹处理单元，用于对浮动车轨迹数据进行处理，获得机动车轨迹信息的时序特征和状态特征，从而获得交叉口的车辆通行状态。

[0075] 在上述实施例的基础上，所述单交叉口信号灯配时模块202具体包括：

[0076] 判断单元，用于判断交叉口的车流通行状况为常规车流态或动态车流态。

[0077] 首先，我们将交叉口的车流通行状况分为常规车流态和受到天气或交通事故影响导致的动态车流态。需要指出的是，常规车流态是指交叉路口一天的正常车流变化，这其中
包括以天为周期下的高峰和非高峰时间段、以周为周期下的工作日车流变化和非工作日车
流变化；动态车流态是指交叉路口因受雨雪等天气、上下游交通事故影响导致的交叉路口
车流动态激增。

[0078] 信号灯配时优化单元，用于若交叉口车流通行状况为常规车流态，则基于强化学习算法，将所述交通运行状态模型作为智能体的状态空间，将初始信号灯配时方案作为智
能体的动作空间；通过评估交通运行状态作为奖励机制，构建以所述边缘节点为智能体的
强化学习模型；若交通运行状态为动态车流态，则在所述强化学习模型的基础上，修改Q函
数中的车辆跟车模式g(Q)，获得动态车流态下的Q函数值，以获得动态车流态下的强化学习
模型。

[0079] 具体地，若交叉口车流通行状况为常规车流态，则基于强化学习算法，将S1获得的交通运行状态模型作为智能体的状态空间，将初始信号灯配时方案作为智能体的动作空
间；通过评估交通运行状态作为奖励机制，构建以所述边缘节点为智能体的强化学习模型。

[0080] 本实施例中，在常规态车流下，使用强化学习方法对单个交叉路口的交通信号灯控制进行优化，将边缘节点作为智能体，从S1得到的交通运行状态模型中获得智能体的状
态空间，包括每个交叉口车道i的排队长度Li、车道内车辆的数量Vi、等待时间Wi，此外从步
骤S1的交通运行状态模型中还可以提取出交叉口车辆位置等待信息图形矩阵，状态空间还
有当前交通信号相位Pc和下一交通信号相位Pn。此处，交通信号相位的定义为：在一个信号
周期内，一股或几股车流在任何时刻都获得完全相同的信号灯色显示，那么就把它们获得
不同灯色(绿灯、黄灯、全红)的连续时序称作一个信号相位。

[0081] 设置初始交通信号灯配时方案，在此基础上将初始交通信号灯配时方案作为智能体的动作空间。步骤S1中获得的交通通行状态作为智能体的奖励机制，其中包括交叉口所
有车道的全部处于等待中的车辆数l、交叉口中所有车道的总的延误时间D，每个车道的延
误时间Di的计算方法如下公式：

[0082]

[0083] 式中，ls表示车辆在车道上的平均速度；sm表示车道的最大限制速度。

[0084] 定义全部车道的总等待时间为Wj，具体的，等待时间在每次车辆移动后都会被重新设置为零，计算方式如下公式：

[0085]

[0086] 式中，Wj表示全部车道的总等待时间；t表示时间步长；vs表示车辆的速度。

[0087] 奖励机制的计算方法如下公式：

[0088]

[0089] 式中，R表示奖励机制；Li表示交叉口车道i的排队长度；Di表示每个车道的延误时间；Wi表示车道i的等待时间；C是交通信号灯控制方案切换指示，N是在时间间隔内通过交
叉口的全部车辆的总和，T是时间间隔内通过交叉口的全部车辆的旅程时间，l表示交叉口
所有车道的全部处于等待中的车辆数；w1～w4为强化学习模型需要学习的参数。

[0090] 进一步的，前述步骤S1能够获得交叉口当前的交通运行状态，智能体的目标就是在初始信号灯配时方案的基础上找到一个可以最大化奖励机制的交通信号灯配时方案。奖
励机制作为智能体选择交通信号灯配时方案后的结果表示，对交叉口的交通信号灯配时方
案起着激励或惩罚的作用。

[0091] 采用强化学习方法，构建以边缘计算节点为智能体的状态空间s和交通信号灯控制方案a为输入的强化学习模型，其输出为时间t下动作函数值。

[0092] 得到的强化学习模型为：

[0093]

[0094] 式中，s表示智能体的状态空间；a为预设交通信号灯配时方案，Q为函数模型更新公式，γ是折扣因子，α是学习率，R是奖励计算方法，π是模型策略；表示在t时刻、
模型策略π、状态空间s和动作空间a下的Q函数值；表示在t+1时刻、模型策略π、状
态空间s和动作空间a下的Q函数值；f为交通车辆跟车模式。强化学习模型包含下一时间t+1
下的动作奖励和最大化可能未来奖励，此处，f(Q)为常规态车流下的车辆跟车模型。

[0095] 强化学习模型包含下一时间t+1下的动作奖励和最大化可能未来奖励，此处，f(q)为常规态车流下的车辆跟车模型。

[0096] 若交通运行状态为动态车流态，则在所述强化学习模型的基础上，修改Q函数中的车辆跟车模式g(Q)，获得动态车流态下的Q函数值，以获得动态车流态下的强化学习模型。
此处，动态车流态下的强化学习模型为：

[0097]

[0098] 本实施例中，边缘节点采用强化学习方法，从交通运行状态模型中获得智能体的状态空间，以初始信号灯配时方案作为智能体的动作空间，通过评估交叉口的交通运行状
态作为奖励机制，根据前述算法对初始信号灯配时方案进行优化，给出交叉口的交通信号
灯配时优化结果。

[0099] 图4为本发明实施例提供的区域路网交通信号灯协调控制方法流程示意图，参照图4，该方法包括：

[0100] 步骤401，获取对应交叉口的多源交通数据，建立交通运行状态模型；其中，所述多源交通数据包括地磁线圈数据、道路视频监控数据、雷达微波数据和浮动车轨迹数据；

[0101] 步骤402，基于所述交通运行状态模型和预设的初始信号灯配时方案，采用强化学习方法，获得对应交叉口的交通信号灯配时优化方案，并上传云端中心；

[0102] 步骤403，联合云端中心以及区域内其他边缘节点，采用多智能体强化学习方法，协调优化区域内各个交叉口的交通信号灯配时方案。

[0103] 参照图1和图4，该方法的执行主体可以是一个边缘节点。本发明实施例提供的区域路网交通信号灯协调控制方法，具体可以通过上述区域路网交通信号灯协调控制系统中
的边缘节点来执行，由于上述实施例中已对区域路网交通信号灯协调控制系统以及边缘节
点进行详细介绍，此处不对区域路网交通信号灯协调控制方法进行赘述。

[0104] 在上述实施例的基础上，步骤401中，所述获取对应交叉口的多源交通数据，建立交通运行状态模型，具体包括：

[0105] 获取多源交通数据采集设备采集的多源交通数据；

[0106] 分别提取地磁线圈数据、雷达微波数据和道路视频监控数据中的交通流特征；其中，所述交通流特征为包含时间序列位置信息及移动特征的大规模车辆轨迹数据；

[0107] 采用多模态数据融合技术，整合提取三类交通数据源的交通流特征，获得交叉口的道路交通状态，对浮动车轨迹数据进行处理，获得机动车轨迹信息的时序特征和状态特
征，从而获得交叉口的车辆通行状态。

[0108] 在上述实施例的基础上，步骤402中，所述基于所述交通运行状态模型和预设的初始信号灯配时方案，采用强化学习方法，获得对应交叉口的交通信号灯配时优化方案，具体
包括：

[0109] 判断交叉口的车流通行状况为常规车流态或动态车流态；

[0110] 若交叉口车流通行状况为常规车流态，则基于强化学习算法，将所述交通运行状态模型作为智能体的状态空间，将初始信号灯配时方案作为智能体的动作空间；通过评估
交通运行状态作为奖励机制，构建以所述边缘节点为智能体的强化学习模型；

[0111] 若交通运行状态为动态车流态，则在所述强化学习模型的基础上，修改Q函数中的车辆跟车模式g(Q)，获得动态车流态下的Q函数值，以获得动态车流态下的强化学习模型。

[0112] 本发明实施例提供的区域路网交通信号灯协调控制方法，采用边缘计算可以有效减少系统处理的延迟，减少数据传输带宽，提高可用性。由于交通信号灯的智能控制具有数
据实时采集，时延要求较高等特点，将其计算和控制过程部署在云端上是有一定困难和弊
端的，而本发明实施例采用边缘计算的方式完成控制过程则能够较好的解决问题。本发明
基于云边混合计算框架，设立智能化的独立边缘节点，利用边缘节点的计算能力处理多源
交通数据，感知交通运行状态。多个边缘节点与云端中心联合动作，采用多智能体强化学习
方法协调优化区域内各个交叉口的交通信号灯配时方案。可以有效的解决城市交通拥堵问
题，提高交叉口机动车通行效率。

[0113] 本发明实施例提供了本发明实施例提供了一种电子设备，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器
(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504
完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行上述各实施例提
供的区域路网交通信号灯协调控制方法，例如包括：获取对应交叉口的多源交通数据，建立
交通运行状态模型；其中，所述多源交通数据包括地磁线圈数据、道路视频监控数据、雷达
微波数据和浮动车轨迹数据；基于所述交通运行状态模型和预设的初始信号灯配时方案，
采用强化学习方法，获得对应交叉口的交通信号灯配时优化方案，并上传云端中心；联合云
端中心以及区域内其他边缘节点，采用多智能体强化学习方法，协调优化区域内各个交叉
口的交通信号灯配时方案。

[0114] 本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的区域路网交通信号灯协调
控制方法，例如包括：获取对应交叉口的多源交通数据，建立交通运行状态模型；其中，所述
多源交通数据包括地磁线圈数据、道路视频监控数据、雷达微波数据和浮动车轨迹数据；基
于所述交通运行状态模型和预设的初始信号灯配时方案，采用强化学习方法，获得对应交
叉口的交通信号灯配时优化方案，并上传云端中心；联合云端中心以及区域内其他边缘节
点，采用多智能体强化学习方法，协调优化区域内各个交叉口的交通信号灯配时方案。

[0115] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该
计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指
令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。

[0116] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可
以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；
而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。

一种区域路网交通信号灯协调控制系统和方法转让专利

申请号 : CN202010409600.9

文献号 : CN111583675B

文献日 : 2021-05-14

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 吴钢 , 李琳 , 彭玉泉 , 黄传明 , 李劲松 , 范翠红 , 刘辉能

申请人 : 吴钢

摘要 :

权利要求 :

说明书 :