一种基于强化学习的路面交通信号灯协调控制方法转让专利

申请号 : CN201510338644.6

文献号 : CN105046987B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱斐朱海军伏玉琛刘全杨炯任勇

申请人 : 苏州大学

摘要 :

本发明公开了一种基于强化学习的路面交通信号灯协调控制方法,包括对应每个路口设有监控设备,每一所述监控设备经网络模块与远程服务器连接,其控制方法为:⑴远程服务器通过接收视频信号,计算等待时间S;⑵远程服务器在每个相位状态ai下,分析获得道路拥堵情况;⑶远程服务器获得该相位状态ai下的可行度当车流可以通过时表示为通畅,可行度为1,否则为拥堵,可行度为0;⑷等待时间S与可行度计算出在该路口最优行车相位状态ai;⑸调整信号灯。本发明基于实时获取的视频信息,通过协调和控制一个区域内多个路口交通信号灯,提高交通通行效率,使该区域交通流量最大化,缓解路面交通拥堵情况。

权利要求 :

1.一种基于强化学习的路面交通信号灯协调控制方法,包括对应每个路口设有监控设备,每一所述监控设备经网络模块与远程服务器连接,其控制方法为:⑴远程服务器通过接收监控设备发送的视频信号,计算对应路口每个车道上车辆的等待时间S,该等待时间为车辆在红灯和绿灯情况下停车时间;

⑵将交叉路口每个红-绿灯对应车道通行方式的组合作为一个相位状态ai,远程服务器在每个相位状态ai下,根据步骤⑴中得出的等待时间分析获得道路拥堵情况;

⑶根据当前相位状态ai下,其绿灯可通行车道的车流通行情况,远程服务器获得该相位状态ai下的可行度 当车流可以通过时表示为通畅,可行度 为1,否则为拥堵,可行度为0;

⑷远程服务器通过步骤⑴中获得的等待时间S以及步骤⑶中获得的可行度 分析判断出该路口各个相位状态ai下的行车情况,通过一定时间行车情况数据的记录及更新,由强化学习程序软件分析计算出在该路口最优行车相位状态ai;

⑸根据最优行车相位状态ai,调整该路口的红灯绿灯组合亮起的时间,获得最大的行车流量。

2.根据权利要求1所述的基于强化学习的路面交通信号灯协调控制方法,其特征在于:所述相位状态ai为路面交通信号的红灯绿灯组合状态下各车道的车行状态,对应绿灯的车道上,车辆允许直行通过路口到达对面车道,同时右转车道也被允许通行,只有当直行与右转均可通行的状态下,所述步骤⑶中的可行度 为1,否则视为拥堵,可行度 为0;对应红灯的车道上,车辆为停车状态。

3.根据权利要求1所述的基于强化学习的路面交通信号灯协调控制方法,其特征在于:所述等待时间包括该车道上车辆红灯状态下的停车时间,以及绿灯状态下未能前行的停车时间。

4.根据权利要求1所述的基于强化学习的路面交通信号灯协调控制方法,其特征在于:根据主干道或次干道或公交车道的车流量需要,设置对应车道的权重值

5.根据权利要求1所述的基于强化学习的路面交通信号灯协调控制方法,其特征在于:所述步骤⑷中“强化学习程序软件分析计算”为核函数,通过核函数对比现有行车情况与之前留存在数据库中的已知行车情况之间的相似度,综合考虑路口多个相位状态下的行车情况,选择长时间没有执行的相位状态以及重要的相位状态,执行该相位状态可使得所有处于等待状态的车辆在红灯和绿灯“等待时间”之差的和最大,所述等待时间包括该车道上车辆红灯状态下的停车时间,以及绿灯状态下未能前行的停车时间;所述重要的相位状态为主干道或公交车道通行的相位状态,可通过设置相应车道的权重值 的初始值来实现。

6.根据权利要求1所述的基于强化学习的路面交通信号灯协调控制方法,其特征在于:所述网络模块为以太网有线模块或无线数据传输网络模块。

说明书 :

一种基于强化学习的路面交通信号灯协调控制方法

技术领域

[0001] 本发明涉及一种路面交通信号灯控制方法,尤其涉及一种基于强化学习的路面交通信号灯协调控制方法。

背景技术

[0002] 交通是现代社会的基础,是人类社会经济的命脉,人们的社会行为与交通息息相关。一个城市中,机动车、非机动车保有量大,路口和路段情况纷繁复杂,要处理这样一个规模庞大、动态、具有高度不确定性的分布式系统,进行有效的控制,是一件十分复杂的工作。在不新增交通道路的情况下,通过合理的交通控制,提高道路的利用效率,进而提高交通通行效率是快速解决城市交通问题的一种有效途径。
[0003] 然而,现在交通拥挤、堵塞现象日益严重。导致交通问题的原因,一方面是由于车辆越来越多,交通规划与设计滞后,另一方面在于很多交通信号控制系统较为落后,交通信号灯未能很好地根据实时交通情况调节交通流量,起到提高交通通行效率的作用。通过计算技术和机器智能帮助解决交通问题愈来愈受到人们的重视,已经成为趋势。
[0004] 近年来,大量路面交通监控设备投入使用,实时交通视频数据不间断地传输给交通管理部门。如何充分利用好这些交通视频数据,改进路面交通信号灯的控制,以提高路面交通通行效率,已经引起了越来越多的关注。
[0005] 目前已经有一些智能交通控制系统得到了应用,但在实际交通控制所面临的一个交通区域片内相邻交叉路口间的拥堵问题没有得到很好地解决。区域路面交通协调控制能较好地处理这个问题。区域路面交通信号灯控制,通过考虑一个交通区域内多个路口的交通通行情况进行交通信号灯控制,可以获得比仅仅考虑单个路口的交通通行情况就进行交通信号控制更高的交通通行效率。如“绿波带”式的路面交通信号灯控制方法就是在指定的交通线路上,当规定好路段的机动车车速范围后,要求信号控制机根据路段距离,把机动车所经过的各路口绿灯起始时间,做相应的调整,这样一来,以确保机动车到达每个路口时,正好遇到“绿灯”,从而使该线路的机动车获得最高的交通通行效率。
[0006] 然而该方法无法根据实时路面交通状况作出实际的调整,使得区域路面交通信号控制无法发挥其优势,形同虚设。例如,在早高峰及晚高峰时,需要考虑的因素较多,如公交车车站附近公交聚集,学校附近车辆行人在上学和放学时爆增,等等。这些因素会造成某些路口通行不畅,甚至瘫痪。目前,很多交通管理部门只能依靠人力的方式现场指挥,直接手动控制信号灯的变化。而人工方式管理交通信号灯容易造成疏漏;同时,人工方式管理交通信号灯一般只能管理单个路口的信号灯,很难做到区域信号灯的协调控制,很可能是交通参与者虽然通过了某个路口,但是由于前方交通流量大,导致仍然遭遇拥堵的尴尬局面。若此时考虑区域交通协调,停止放行很可能是最佳方案。因此,如何最大化利用目前现有的实时交通视频数据及设备,实现区域交通协调控制,实时适应路况变化,减轻交通管理部门的工作量,缓解交通拥堵状况,是我们目前急需要解决的问题。

发明内容

[0007] 本发明目的是:提供一种基于强化学习的路面交通信号灯协调控制方法,通过采集实时视频数据,以车辆状态迁移为基础,自动调节与控制某一区域的交通信号灯,提高交通参与者通行的效率,缓解交通拥堵情况,进而减轻交通管理部门的工作量。
[0008] 本发明的技术方案是:一种基于强化学习的路面交通信号灯协调控制方法,包括对应每个路口设有监控设备,每一所述监控设备经网络模块与远程服务器连接,其控制方法为:
[0009] ⑴远程服务器通过接收监控设备发送的视频信号,计算对应路口每个道车上车辆的等待时间S,该等待时间为车辆在红灯和绿灯情况下停车时间;
[0010] ⑵将交叉路口每个红-绿灯对应车道通行方式的组合作为一个相位状态ai,远程服务器在每个相位状态ai下,根据步骤⑴中得出的等待时间分析获得道路拥堵情况;
[0011] ⑶根据当前相位状态ai下,其绿灯可通行车道的车流通行情况,远程服务器获得该相位状态ai下的可行度 当车流可以通过时表示为通畅,可行度 为1,否则为拥堵,可行度 为0;
[0012] ⑷远程服务器通过步骤⑴中获得的等待时间S以及步骤⑶中获得的可行度 分析判断出该路口各个相位状态ai下的行车情况,通过一定时间行车情况数据的记录及更新,由程序软件分析计算出在该路口最优行车相位状态ai;
[0013] ⑸根据最优行车相位状态ai,调整该路口的红灯绿灯组合亮起的时间,获得最大的行车流量。
[0014] 上述技术方案中,所述相位状态ai为路面交通信号的红灯绿灯组合状态下各车道的车行状态,对应绿灯的车道上,车辆允许直行通过路口到达对面车道,同时右转车道也被允许通行,只有当直行与右转均可通行的状态下,所述步骤⑶中的可行度 为1,否则视为拥堵,可行度 为0;对应红灯的车道上,车辆为停车状态。
[0015] 上述技术方案中,所述等待时间包括该车道上车辆红灯状态下的停车时间,以及绿灯状态下未能前行的停车时间。
[0016] 上述技术方案中,根据主、次干道或公交车道的车流量需要,设置对应车道的权重值
[0017] 上述技术方案中,所述步骤⑷中“程序软件分析计算”为核函数,通过核函数对比现有行车情况与之前留存在数据库中的已知行车情况之间的相似度,综合考虑路口多个相位状态下的行车情况,优先选择长时间没有执行的相位状态以及重要的相位状态,执行该相位状态可使得所有处于等待状态的车辆在红灯和绿灯“等待时间”之差的和最大;所述重要的相位状态为主干道或公交车道通行的相位状态,可通过设置相应车道的权重值 的初始值来实现。
[0018] 上述技术方案中,所述网络模块为以太网有线模块或无线数据传输网络模块。
[0019] 由于上述技术方案运用,本发明与现有技术相比具有下列优点:
[0020] 1.本发明通过获取由监控设备收录的视频信息,提取视频中在不同相位信号灯变化状态下的车流量情况,服务器根据路面交通状况实时调整信号灯的变化,让路口交通流量最大化,减少拥堵;
[0021] 2.服务器收集实时视频数据,以车辆状态迁移为基础,计算车辆的等待时间,运用强化学习的核算法选择相位状态,找出一个可以使所有车辆等待时间最短的相位状态,实时调整信号灯的变化,满足路面交通状况的瞬息万变;
[0022] 3.本发明中考虑到各种车道的主次性以及行驶车辆的特殊性,设置权重值 的初始值,也就是每个车道设置不同的权重值,在服务器选择时,优先考虑这些车道的通行,如主干道或公交车道,优化整个路面交通控制系统。

附图说明

[0023] 图1是本发明中实施例一的相位状态1下车道及车位的排列示意图;
[0024] 图2是本发明中实施例一的相位状态1-4示意图;
[0025] 图3是本发明中实施例一的相位状态5-8示意图;
[0026] 图4是本发明中实施例一的某一交通区域的网络结构拓扑图;
[0027] 图5是本发明中实施例一的某一路口的网络结构拓扑图。

具体实施方式

[0028] 下面结合附图及实施例对本发明作进一步描述:
[0029] 实施例一:参见图1~5所示,一种基于强化学习的路面交通信号灯协调控制方法,包括对应每个路口设有监控设备,每一所述监控设备经以太网有线网模块(或无线网模块)与远程服务器连接,其控制方法为:
[0030] ⑴远程服务器通过接收监控设备发送的视频信号,计算对应路口每个道车上车辆的等待时间S,该等待时间为车辆在红灯和绿灯情况下停车时间;
[0031] ⑵将交叉路口每个红-绿灯对应车道通行方式的组合作为一个相位状态ai,远程服务器在每个相位状态ai下,根据步骤⑴中得出的等待时间分析获得道路拥堵情况;
[0032] ⑶根据当前相位状态ai下,其绿灯可通行车道的车流通行情况,远程服务器获得该相位状态ai下的可行度 当车流可以通过时表示为通畅,可行度 为1,否则为拥堵,可行度 为0;如图1所示的相位状态1下,出口车道就是车道1、2、5、6、9、10、13、14,当它们都是畅通的,则相位状态1的可行度为1。
[0033] ⑷远程服务器通过步骤⑴中获得的等待时间S以及步骤⑶中获得的可行度 分析判断出该路口各个相位状态ai下的行车情况,通过一定时间行车情况数据的记录及更新,由程序软件分析计算出在该路口最优行车相位状态ai;
[0034] ⑸根据最优行车相位状态ai,调整该路口的红灯绿灯组合亮起的时间,获得最大的行车流量。
[0035] 如图2-3所示,为四车道的交叉路口的8种相位状态图,虚线箭头表示可通行的方向,即绿灯状态的车道,实线箭头表示不可通行的方向,即红灯状态的车道。
[0036] 控制步骤如下:
[0037] ⑴初始化路面交通网络中所有交叉路口服务器的Q值查找表,并且Q表中存放Q(s,动作)的值,其中s=<pos,l>,pos指的是如图1中的车辆位置,并且pos=3+5*n(n=1,2,…Nl/5-1),l指的是如图1中的车道。Q表中值初始值设定为0。初始化折扣因子γ、学习率α。初始化所有服务器的相位ai权重 随机初始化每个服务器起始动作ai,as=(a1,a2,…an),并执行。仿真时间步t的初值为0。
[0038] ⑵每个交叉口服务器通过公式计算所有车状态s′与Q表中存在的s″的k值,并保存在K表中。其中s′.l与s.l是否相似指的是两个车道之间是否相似,例如图1中车道3与车道11是相似的。s′与s″车道是否旋转对称,ΙΨ(·)表示括号内条件满足结果为1,否则为0;Ss′表示与状态s′近似相关的状态集合。
[0039] ⑶t←t+1,每个交叉口服务器观察它的入口车道,根据相连交叉口的观察数据更新 值,如果出口车道有拥堵的话 否则, 根据式更新权重,当t是500的整数倍时,依据式 更新学习率α的值,其中%是取余运算符。
[0040] ⑷系统中每个服务器独自根据观察到的车辆的状态迁移、Q表和K表,通过来更新Q值表和现实共同存在的状态s与相位ai分解到具体的路面交通灯的动作的ta的Q值。其中当s=s′时R(s,s′)=
0,否则,R(s,s′)=0。
[0041] ⑸系统中每个服务器根据Q表和K表的值,按照公式选择具有最大收益值的动作ai′,其中 通过相位相关的两个参
数权重 以及拥堵参数 挑选那些权重大的长时间没有执行的以及出口没有拥堵情况的相位执行,此外参数 使得服务器做决策时考虑其他交叉口的拥堵情况,实现了服务器之间共享路面交通状况的协作。相位选择会优先选取车体长的车优先离开,vls表示车s的车体长度,即公交车优先。Q(s,tared)-Q(s,tagreen)表示等待车辆s在路面交通灯为红灯,以及路面交通灯为绿灯收益的差。采取某相位动作所有处于等待状态的车收益差之和最大,及说明该相位可以让车辆的平均等待时间最短,这样与我们最终目的就一致了,让路口交通流量最大化,减少拥堵。
[0042] ⑹系统的每个服务器根据执行选择好的相位ai′,as=(a1′,a2′…an′),调整路面交通信号灯。转(3)。