智能化动态路线诱导系统转让专利

申请号 : CN200910067720.9

文献号 : CN101604477B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 钟石泉马寿峰刘建美贾宁

申请人 : 天津大学

摘要 :

本发明公开了一种智能化动态路线诱导系统,该系统包括交通流过程、检测单元、辨识单元、预测学习单元、预测单元、诱导学习单元、决策单元、评价单元以及知识库,与现有技术相比,本发明针对交通诱导系统除了能够依据实时检测到的交通流过程提供交通诱导策略以外,还能够通过学习流程,对系统中优于标准状态的诱导策略通过智能学习的方式完成诱导策略的知识储备,并且,这些通过学习得到的诱导策略能够结合到实时检测的交通流,为其提供更多更优的诱导策略,更有效率地实现对交通路网的智能化路线诱导。

权利要求 :

1.一种智能化动态路线诱导系统,该系统包括交通流过程、检测单元、辨识单元、预测学习单元、预测单元、诱导学习单元、决策单元、评价单元以及知识库,其特征在于:检测单元实测交通流过程中的路网交通状态信息,该信息包括交通系统中有关人、交通工具、交通网络和各种交通信息,实测结果传送到辨识单元作辨识处理、传送到预测单元为预测提供依据、传送到预测学习单元为预测学习提供依据,以及传送到诱导学习单元为诱导学习提供依据;

预测学习单元学习诱导策略,并将学习到的诱导策略传送到预测单元;

预测单元将预测的诱导单元状态以及学习到的诱导策略提供给辨识单元;

诱导学习单元用于执行诱导策略的学习流程;

辨识单元接收预测策略与检测结果,并对它们进行辨识处理,辨识的诱导单元状态输出到决策单元;

决策单元一方面根据辨识的诱导单元状态提供诱导策略,存入知识库中,另一方面,决策单元从诱导策略库获取诱导策略,所获取的诱导策略用于交通流过程的交通路线诱导;

评价单元对诱导学习单元的输出的学习完毕的诱导策略进行状态最优诱导策略判别条件的检验,当不满足该条件时,确定下一步的搜索方向,重新进入学习流程,对该诱导策略进行学习,诱导学习单元的输出结果存入知识库中的学习策略库中,以便作为该系统的策略储备;

知识库包括诱导策略库、评价数据库和学习策略库,包含了所有诱导策略,评价数据和诱导学习策略,诱导策略及学习策略提供给实时检测的交通流,为其提供诱导策略所述诱导策略的学习流程包括以下步骤:初始化学习策略库;实测诱导单元子区在诱导周期内的各路段饱和度之后,并行执行以下两个流程分支:分支一:实时诱导流程

计算诱导单元子区在一个诱导周期内的路网饱和度;

判断上述路网饱和度是否在需要进行诱导的最大/最小饱和度区域;

如否,则返回,则获取下一诱导周期,并重新实测当前诱导单元子区该新的诱导周期内的各路段饱和度;

如是,则对当前计算出的路网饱和度,以及上一路网饱和度进行加权,得到加权后的路网饱和度;

对上述加权后的路网饱和度进行状态辨识,得到标准化的诱导单元状态;

搜索学习策略库中的诱导单元状态所对应的当前诱导策略;

执行上述诱导策略后,转至下一诱导周期;

分支二:后台学习流程

计算路网平衡度

在当前诱导周期的前三个诱导周期中是否有诱导策略?

如否,则不进行诱导,转至下一诱导周期;

如是,则根据上述前三个诱导周期的路网平衡度,评价当前诱导周期之前的第三个诱导周期的诱导策略,得到其诱导策略的评价值;

从学习策略库中搜寻标准状态的最优诱导策略以及对应的评价值;

判断当前诱导周期之前的第三个诱导周期的诱导策略的评价值是否优于上述标准状态的最优诱导策略的评价值;

如否,则设定将步长设定为λ/2;在标准状态的最优诱导策略的基础上,以学习步长λ/2,根据学习规则生成当前诱导周期之前的第三个诱导周期的诱导单元状态的当前诱导策略,并将当前诱导策略连续优于最优诱导策略的次数ND设为0,进入下一个诱导周期,开始新的学习流程;

如是,进一步判断当前诱导周期之前的第三个诱导周期的诱导策略的评价值连续优于上述标准状态的最优诱导策略的评价值的次数是否大于某个阈值N*,N*取2-4;

如是,说明当前诱导周期之前的第三个诱导周期的诱导策略的评价值连续优于上述标准状态对应的最优诱导策略的评价值的次数达到系统预设要求的次数,则将标准状态对应的最优诱导策略设置为当前诱导周期之前的第三个诱导周期的诱导策略,同时将标准状态对应的最优诱导策略的评价值设置为当前诱导周期之前的第三个诱导周期的诱导策略的评价值;

设定学习步长λ为初始步长λ0,λ0取0.38;

在上述新的标准状态的最优诱导策略的基础上,以初始步长λ0,根据学习规则生成当前诱导周期之前的第三个诱导周期的诱导单元状态的当前诱导策略,并将当前诱导策略连续优于最优诱导策略的次数ND设置为0,进入下一个诱导周期,开始新的学习流程;

如否,说明当前诱导周期之前的第三个诱导周期的诱导策略的评价值连续优于上述标准状态的最优诱导策略的评价值的次数没有达到系统预设要求的次数,则将当前诱导周期之前的第三个诱导周期的诱导策略作为当前诱导周期之前的第三个诱导周期的诱导策略,同时当前诱导策略连续优秀的评价次数ND累加1,进入下一诱导周期,开始新的学习流程。

2.如权利要求1所述的智能化动态路线诱导系统,其特征在于,所述路网交通状态对应划分为诱导单元状态,该诱导单元状态是由11位字符构成的向量。

说明书 :

智能化动态路线诱导系统

技术领域

[0001] 本发明涉及一种电子化的交通诱导系统,特别是涉及一种交通诱导系统下的学习型路线诱导系统。

背景技术

[0002] 大城市中机动车拥有量急剧增加,交通系统的压力越来越大。在现有的交通路网和交通管理条件下,如果没有有效的交通管理系统,则行车难、停车难这些各大城市普遍存在的问题难以解决,也避免不了城市交通拥堵现象的发生。
[0003] 因为交通参与的随意性和无规律性,使交通管理者无法提前规划,也因此加剧了城市交通管理的压力。交通诱导技术是更有效地管理现代交通、实现交通流优化的一种技术。而现有计算机技术提供的强大的数据计算能力、以及信息处理能力使得借助计算机系统实现智能化的交通诱导系统得以实现。交通诱导系统的作用主要体现在三个方面:
[0004] 1.交通管理方面,通过信息发布系统,将各类交通信息发布到交通现场,使交通参与者得到及时的提醒,降低发生交通堵塞事件的概率;
[0005] 2.交通组织方面,采集的交通状况信息,可使交通组织者及时全面地掌握实时交通状况,提前采取有关措施,最大限度保障通畅;
[0006] 3.交通服务方面,根据掌握的交通状况信息和信息发布渠道,向交通参与者提供交通指导信息,减少盲目交通对路网造成的压力,同时为出行者提供出发时间和选择方式,促使交通量在整个路网中的负载平衡。
[0007] 现有技术中的交通诱导系统中的关键是路线诱导,虽然能够通过电子化平台实现路线诱导的电子化处理,提高了交通管理的效率,但是,这种路线诱导系统尚未实现智能化,不具备预测和学习能力,因此,不能充分地利用交通诱导系统中的已有的路线信息进行学习,因而也就无法实现路线诱导中的路线信息的动态预测,从而导致现有技术中交通诱导系统中的路线诱导功能效率较低。由此可见,如何提高路线诱导功能的效率,成为了本发明的智能化动态路线诱导系统函待解决的问题。

发明内容

[0008] 鉴于上述技术问题,本发明提出了一种智能化动态路线诱导系统,应用人工智能中的机器学习与推理来处理交通流的短时预测与交通路线诱导问题。
[0009] 本发明提出一种智能化动态路线诱导系统,该系统包括交通流过程、检测单元、辨识单元、预测学习单元、预测单元、诱导学习、单元决策单元、评价单元以及知识库,其特征在于:
[0010] 检测单元实测交通流过程中的路网交通状态信息,该信息包括交通系统中有关人、交通工具、交通网络和各种交通信息,实测结果传送到辨识单元作辨识处理、传送到预测单元为预测提供依据、传送到预测学习单元为预测学习提供依据,以及传送到诱导学习单元为诱导学习提供依据;
[0011] 预测学习单元学习诱导策略,并将学习到的诱导策略传送到预测单元;
[0012] 预测单元将预测的诱导单元状态以及学习到的诱导策略提供给辨识单元;
[0013] 诱导学习单元用于执行诱导策略的学习流程;
[0014] 辨识单元接收预测策略与检测结果,并对它们进行辨识处理,辨识的诱导单元状态输出到决策单元;
[0015] 决策单元一方面根据辨识的诱导单元状态提供诱导策略,存入知识库中,另一方面,决策单元从诱导策略库21获取诱导策略,所获取的诱导策略用于交通流过程的交通路线诱导;
[0016] 评价单元对诱导学习单元的输出的学习完毕的诱导策略进行状态最优诱导策略判别条件的检验,当不满足该条件时,确定下一步的搜索方向,重新进入学习流程,对该诱导策略进行学习,诱导学习单元的输出结果存入知识库中的学习策略库中,以便作为该系统的策略储备;
[0017] 知识库包括诱导策略库、评价数据库和学习策略库,包含了所有诱导策略,评价数据和诱导学习策略;
[0018] 所述诱导策略的学习流程包括以下步骤:
[0019] 初始化学习策略库;实测诱导单元子区在诱导周期内的各路段饱和度之后,并行执行以下两个流程分支:
[0020] 分支一:实时诱导流程
[0021] 计算诱导单元子区在一个诱导周期内的路网饱和度;
[0022] 判断上述路网饱和度是否在需要进行诱导的最大/最小饱和度区域;
[0023] 如否,则返回,则获取下一诱导周期,并重新实测当前诱导单元子区该新的诱导周期内的各路段饱和度;
[0024] 如是,则对当前计算出的路网饱和度,以及上一路网饱和度进行加权,得到加权后的路网饱和度;
[0025] 对上述加权后的路网饱和度进行状态辨识,得到标准化的诱导单元状态;
[0026] 搜索学习策略库中的诱导单元状态所对应的当前诱导策略;
[0027] 执行上述诱导策略后,转至下一诱导周期;
[0028] 分支二:后台学习流程
[0029] 计算路网平衡度
[0030] 在当前诱导周期的前三个诱导周期中是否有诱导策略?
[0031] 如否,则不进行诱导,转至下一诱导周期;
[0032] 如是,则根据上述前三个诱导周期的路网平衡度,评价当前诱导周期之前的第三个诱导周期的诱导策略,得到其诱导策略的评价值;
[0033] 从学习策略库中搜寻标准状态的最优诱导策略以及对应的评价值;
[0034] 判断当前诱导周期之前的第三个诱导周期的诱导策略的评价值是否优于上述标准状态的最优诱导策略的评价值;
[0035] 如否,则设定将步长设定为λ/2;在标准状态的最优诱导策略的基础上,以学习步长λ/2,根据学习规则生成当前诱导周期之前的第三个诱导周期的诱导单元状态的当前诱导策略,并将当前诱导策略连续优于最优诱导策略的次数ND设为0,进入下一个诱导周期,开始新的学习流程。
[0036] 如是,进一步判断当前诱导周期之前的第三个诱导周期的诱导策略的评价值连续优于上述标准状态的最优诱导策略的评价值的次数是否大于某个阈值N*,N*取2-4;
[0037] 如是,说明当前诱导周期之前的第三个诱导周期的诱导策略的评价值连续优于上述标准状态对应的最优诱导策略的评价值的次数达到系统预设要求的次数,则将标准状态对应的最优诱导策略设置为当前诱导周期之前的第三个诱导周期的诱导策略,同时将标准状态对应的最优诱导策略的评价值设置为当前诱导周期之前的第三个诱导周期的诱导策略的评价值;
[0038] 设定学习步长λ为初始步长λ0,λ0取0.38;
[0039] 在上述新的标准状态的最优诱导策略的基础上,以初始步长λ0,根据学习规则生成当前诱导周期之前的第三个诱导周期的诱导单元状态的当前诱导策略,并将当前诱导策略连续优于最优诱导策略的次数ND设置为0,进入下一个诱导周期,开始新的学习流程;
[0040] 如否,说明当前诱导周期之前的第三个诱导周期的诱导策略的评价值连续优于上述标准状态的最优诱导策略的评价值的次数没有达到系统预设要求的次数,则将当前诱导周期之前的第三个诱导周期的诱导策略作为当前诱导周期之前的第三个诱导周期的诱导策略,同时当前诱导策略连续优秀的评价次数ND累加1,进入下一诱导周期,开始新的学习流程。
[0041] 与现有技术相比,本发明针对交通诱导系统除了能够依据实时检测到的交通流过程提供交通诱导策略以外,还能够通过学习流程,对系统中优于标准状态的诱导策略通过智能学习的方式完成诱导策略的知识储备,并且,这些通过学习得到的诱导策略能够结合到实时检测的交通流,为其提供更多更优的诱导策略,更有效率地实现对交通路网的智能化路线诱导。

附图说明

[0042] 图1为现有技术中的智能交通诱导系统组成元素示意图;
[0043] 图2为本发明提出的智能化动态路线诱导系统框架示意图;
[0044] 图3为本发明具体实施例的路网交通状态示意图;
[0045] 图4为本发明具体实施例在车流方向为N,吸纳点在下游诱导单元N的EN或E方向,以及在下游诱导单元E的EN或N方向条件下的路网交通状态示意图;
[0046] 图5为本发明具体实施例在车流方向为N,吸纳点在下游诱导单元N的ES方向,以及在下游诱导单元E的EN或N方向条件下的路网交通状态示意图;
[0047] 图6为本发明具体实施例在车流方向为N,吸纳点在下游诱导单元N的EN或E方向,在下游诱导单元E的WN方向条件下的路网交通状态示意图;
[0048] 图7为本发明具体实施例在车流方向为N,吸纳点在下游诱导单元N的ES方向,以及在下游诱导单元E的WN方向条件下的路网交通状态示意图;
[0049] 图8为本发明具体实施例在车流方向为N,吸纳点在诱导单元的N方向条件下的路网交通状态示意图;
[0050] 图9为本发明具体实施例在车流方向为N,吸纳点在诱导单元的N方向且位于路段通或半通条件下的路网交通状态示意图;
[0051] 图10为本发明的智能式动态路线诱导系统的学习机制和流程图。

具体实施方式

[0052] 现有技术中,智能交通诱导系统包括目标终点、诱导信息板(Variable message signs,,VMS)、诱导子单元、诱导单元和诱导子区这些主要组成元素。智能交通诱导系统组成元素示意图如图1所示,其中:
[0053] 目标终点是一个路段上交通流的主要目标区域。一般一个路段上交通流向几个主要的目标区域分流;
[0054] 诱导信息板是在路段上显示诱导标志的信号牌,分布在靠近路口的路段上。通常情况下,智能交通诱导系统提供给出行者的诱导标志为与目标终点对应的当前路口的转弯强度信息;
[0055] 诱导子单元是系统的最小路线诱导单位,也是通过诱导信息板显示诱导信息的基本单位,其基本组成要素包括诱导信息板所在路段、目标终点及从前方路口到吸纳点的路径所包含的路段信息。
[0056] 诱导单元是同一路段上对应于多个吸纳点的多个诱导子单元的诱导单位的集合。诱导单元的作用区域是一个诱导周期内,车辆能到达的从当前路口到吸纳点的路段所覆盖的区域。诱导单元包含的诱导子单元个数一般不超过3个。
[0057] 诱导子区是由路网中相邻的、需要协调的交通区通过路线诱导单元联系在一起的区域。诱导子区内各诱导单元采用相同诱导周期,并且在子区内部进行诱导方案的协调。
[0058] 本发明提出的一种智能化动态路线诱导系统,其系统框架如图2所示。
[0059] 该系统包括由人、交通工具、交通网络和各种交通信息组成的交通流过程,针对该交通流过程的检测单元、辨识单元、决策单元以及知识库。
[0060] 其中,检测单元11用于检测交通流过程10中的路网交通状态信息,该信息包括交通系统中有关人、交通工具、交通网络和各种交通信息,检测结果传送到辨识单元12做辨识处理,或者传送到预测单元13为预测提供依据,或者传送到预测学习单元14为预测学习提供依据,或者传送到诱导学习单元15为诱导学习提供依据;预测学习单元将学习的预测策略传送到预测单元,预测单元13输出对预测的诱导单元状态传送到辨识单元,辨识单元12用于接收预测策略与检测结果,并对它们进行辨识处理,辨识的诱导单元状态输出到决策单元16,决策单元16根据辨识的诱导单元状态提供诱导策略,存入知识库20中;决策单元16从诱导策略库21获取诱导策略,所获取的诱导策略用于交通流过程的交通路线诱导。
知识库包括诱导策略库、评价数据库和学习策略库,包含了所有诱导策略,评价数据和诱导学习策略。
[0061] 上述单元根据功能划分为实时诱导回路30和学习回路40。
[0062] 该系统还包括评价单元,用于对诱导学习单元的输出的学习完毕的诱导策略进行状态最优诱导策略判别条件的检验,当不满足该条件时,确定下一步的搜索方向,重新进入学习流程,对该诱导策略进行学习,诱导学习单元的输出结果存入知识库20中的学习策略库23中,以便作为该系统的策略储备。
[0063] 实时诱导回路30检测单元11、辨识单元12、预测单元13以及决策单元16。该实时诱导回路30根据交通流过程的短时预测策略和系统辨识出来的诱导单元状态在诱导策略库21中提取当前状态对应的最优诱导策略,并将该诱导策略应用于路网。
[0064] 学习回路40包括预测学习单元14和诱导学习单元15。该学习回路包含两个功能,一方面对正在学习中的预测策略、诱导策略检验预测和诱导效果,搜索最优预测的诱导单元状态和当前状态对应的最优诱导策略;另一方面对学习完毕的诱导策略进行状态最优诱导策略判别条件的评价,当不满足该条件时,确定下一步的搜索方向,重新进入学习流程,对该诱导策略进行学习,对满足该条件的诱导学习策略,存入知识库,以备系统的策略调用。
[0065] 从上述的系统架构描述中可以获知,路网交通状态信息的描述方法的合理性会影响到本系统的两个方面:对于实时诱导回路,其合理性直接影响辨识单元辨识的准确性,进而影响诱导决策选取的正确性;对于学习回路,路网交通状态的描述既要能够准确反映诱导学习的方向,同时要尽量减少维数空间,利于诱导学习策略的收敛。因此,路网交通状态信息的描述是实时诱导回路和学习回路的基础,对智能交通诱导系统的实现至关重要。
[0066] 路网交通状态在本发明中被对应划分为诱导单元状态,该向量由11位字符构成。下面以某个诱导单元为例,说明该向量的数据格式。如图3所示,假设该诱导单元是路段0上的诱导单元1,其吸纳点为路口15附近,一个诱导周期内,自由交通流最多只能通过两个路段。该诱导单元状态向量的分量构成及其在图3中的对应路段如下表1所示。
[0067] 表1诱导单元状态向量分量构成
[0068]分量所在位 描述 图3中对应路段
1 诱导单元所在路段综合饱和度 0
2 第1个下游路段综合饱和度 2
3 第1个下游路段所在单元第1个下游路段综合饱和度 5
4 第1个下游路段所在单元第2个下游路段综合饱和度 4
5 第1个下游单元所在远处路径综合饱和度 7,8,85
6 第1个下游路段所在单元评价区域初始综合饱和度 2,4,5
7 第2个下游路段综合饱和度 1
8 第2个下游路段所在单元第1个下游路段综合饱和度 6
9 第2个下游路段所在单元第2个下游路段综合饱和度 59
10 第2个下游单元所在远处路径综合饱和度 6,59,51,53,
11 第2个下游路段所在单元评价区域初始综合饱和度 1,6,59
[0069] 诱导单元状态向量的11位分量对应的路段综合饱和度是与短时交通流预测结果结合在一起的,所以对于诱导单元和交通流过程,对应路段的状态向量分量提取与路段饱和度所占权重也是不一样的。假如诱导单元1的下游路段1、2较长,自由交通流一个诱导周期只能通过一个路段,则其状态向量第3、4、8、9位均为0。
[0070] 诱导单元状态包括诱导单元的下游路段及下游路段所在诱导单元的状态,上游路段诱导单元状态表如下表2。
[0071] 表2上游路段诱导单元状态表
[0072]
[0073]
[0074]
[0075] 诱导单元车流方向或行车方向(如表2所示):在诱导单元内需要进行诱导的车流的流向。一个标准十字路口车流方向分为:北,南,西,东,分别用N,S,W,E表示。
[0076] 诱导单元下游路段:在诱导单元车流方向已知、目标终点相对诱导单元位置已知的条件下所确定的诱导路段。一个标准十字路口下游路段方向分为:N,S,W,E;
[0077] 诱导单元下游单元:诱导单元下游路段上存在的区域。为包含一个十字路口的区域,下游单元分为:N,S,W,E;
[0078] 下游单元车流方向或下游单元:在下游单元内车流的流向。是考虑从诱导单元引来的车流进入到下游单元的车流方向。车流方向分为:N,S,W,E;
[0079] 路段状态的0,1,2分别代表路段的饱和度,路段饱和度分三个等级,分别为0,1,2。
[0080] 上述表2所示的上游诱导单元状态表只考虑了上游诱导单元相邻的路段,要将诱导单元状态分量完整的进行表达,还需要考虑下游诱导单元的状态。
[0081] 当将下游诱导单元下游路段的饱和度组合进行考虑时,组合数量如下表3。
[0082] 表3下游诱导单元下游路段饱和度组合情况下的状态数量
[0083]
[0084]
[0085] 当下游诱导单元饱和度状态取上述表3中的组合时,诱导单元状态数量分为以下几种情况。
[0086] 一、车流方向为N,吸纳点在下游诱导单元的EN方向
[0087] 1)如图4所示,吸纳点在在下游诱导单元N的EN或E方向,在下游诱导单元E的EN或N方向。状态数为:4*(3^3-2)*(3^3-2)+1*(3^3-2)+1*(3^3-2)+1=2515[0088] 2)如图5所示,吸纳点在在下游诱导单元N的ES方向,在下游诱导单元E的EN或N方向。状态数为:4*(3^2-2)*(3^3-2)+1*(3^2-2)+1*(3^3-2)+1=733
[0089] 3)如图6所示,吸纳点在在下游诱导单元N的EN或E方向,在下游诱导单元E的WN方向。状态数为:4*(3^3-2)*(3^2-2)+1*(3^3-2)+1*(3^2-2)+1=733
[0090] 4)如图7所示,吸纳点在在下游诱导单元N的ES方向,在下游诱导单元E的WN方向。状态数为:4*(3^2-2)*(3^2-2)+1*(3^2-2)+1*(3^2-2)+1=211
[0091] 二、车流方向为N,吸纳点在下游诱导单元的N方向
[0092] 1)如图8所示,状态数为:2^3*(3^2-2)*(3^4-2)*(3^2-2)+2^2*(3^2-2)*(3^4-2)+2个2*(3^2-2)*(3^4-2)+2^2*(3^2-2)*(3^2-2)+1*(3^2-2)+1*(3^4-2)+1*(3^2-2)+1=35682
[0093] 2)如图9所示,只要N方向路段通或半通,都往N路段走。状态数为:2+2^2*(3^2-2)(3^2-2)+2*(3^2-2)+1=213
[0094] 将下游诱导单元的下游路段饱和度进行平均,得到的状态数如下表4所示。
[0095] 表4考虑下游诱导单元下游路段平均饱和度情况下的状态数量
[0096]
[0097]
[0098] 当下游诱导单元饱和度取上述表4中的组合时,诱导单元状态数量分为以下几种情况。
[0099] 一、车流方向为N,吸纳点在诱导单元的EN或E方向
[0100] 1)如图4所示,状态数为:4*(3^2-2)*(3^2-2)+1*(3^2-2)+1*(3^2-2)+1=211[0101] 2)如图5所示,状态数为:4*(3^2-2)*(3^2-2)+1*(3^2-2)+1*(3^2-2)+1=211[0102] 3)如图6所示,状态数为:4*(3^2-2)*(3^2-2)+1*(3^2-2)+1*(3^2-2)+1=211[0103] 4)如图7所示,状态数为:4*(3^2-2)*(3^2-2)+1*(3^2-2)+1*(3^2-2)+1=211[0104] 二、车流方向为N,吸纳点在诱导单元的N方向
[0105] 1)如图8所示,状态数为:
[0106] 2^3*(3^2-2)*(3^2-2)*(3^2-2)+3*2^2*(3^2-2)*(3^2-2)+3*2^1*(3^2-2)+1 =2871
[0107] 2)如图9所示,只要N方向路段通或半通,都往N路段走。状态数为:2+2^2*(3^2-2)(3^2-2)+2*(3^2-2)+1=213
[0108] 对诱导条件下的路网状态描述可行性分析
[0109] 1)对于确定的路网,如果将下游诱导单元路段饱和度进行组合,诱导单元下游路段数量不大于2,路段饱和度等级类型分3类时,诱导单元理论最大状态数为2515种,理论上具有可行性。
[0110] 2)当诱导单元下游路段数量为3,路段饱和度等级类型为3时,诱导单元理论最大状态数达到35682种。当各种状态都发生时,因状态数太大,一方面导致过大的存储空间和状态搜索时间,另一方面导致诱导学习时间太长。理论上不具可行性。
[0111] 3)多次试验表明,如将相似状态进行合并,即使在以随机分布发生客流的情况下,当诱导单元下游路段数量为2,路段饱和度等级类型为3,不包含上级诱导单元集情况下,可能发生的诱导单元状态不大于理论状态的1/60(50种以下);当诱导单元下游路段数量为2,路段饱和度等级类型为4,不包含上级诱导单元集情况下,可能发生的诱导单元状态不大于理论状态的1/400(150种以下)。
[0112] 4)为兼顾状态识别的精确性和诱导学习的可行性,实际仿真中可取诱导单元下游路段数量为2,路段饱和度等级范围为2到4。
[0113] 智能式动态路线诱导系统其中一个很重要的模块是诱导学习机制,诱导学习机制采用遍历学习和试算法两种,当相关联的诱导子区较少时,采用遍历学习方式,反之采用试算法学习方式。诱导策略最优判别条件用来辨别状态当前策略是否最佳,当最优诱导策略判别条件成立时,该状态采用当前策略;当最优诱导策略判别条件不成立时,重新进入诱导学习流程。智能式动态路线诱导系统的学习机制和流程如图10所示。
[0114] 该流程包括以下步骤:
[0115] 初始化学习策略库;实测诱导单元子区在诱导周期内的各路段饱和度之后,并行执行以下两个流程分支:
[0116] 分支一:实时诱导流程
[0117] 计算诱导单元子区在一个诱导周期内的路网饱和度;
[0118] 判断上述路网饱和度是否在需要进行诱导的最大/最小饱和度区域?[0119] 如否,则返回,则获取下一诱导周期,并重新实测当前诱导单元子区该新的诱导周期内的各路段饱和度;
[0120] 如是,则对当前计算出的路网饱和度,以及上一路网饱和度进行加权,得到加权后的路网饱和度;
[0121] 对上述加权后的路网饱和度进行状态辨识,得到标准化的诱导单元状态;
[0122] 搜索学习策略库中的诱导单元状态所对应的当前诱导策略;
[0123] 执行上述诱导策略后,转至下一诱导周期;
[0124] 分支二:后台学习流程
[0125] 计算路网平衡度
[0126] 在当前诱导周期的前三个诱导周期中是否有诱导策略?
[0127] 如否,则不进行诱导,转至下一诱导周期;
[0128] 如是,则根据上述前三个诱导周期的路网平衡度,评价当前诱导周期之前的第三个诱导周期的诱导策略,得到其诱导策略的评价值;
[0129] 从学习策略库中搜寻标准状态的最优诱导策略以及对应的评价值;
[0130] 判断当前诱导周期之前的第三个诱导周期的诱导策略的评价值是否优于上述标准状态的最优诱导策略的评价值;
[0131] 加否,则设定将步长设定为λ/2;在标准状态的最优诱导策略的基础上,以学习步长λ/2,根据学习规则生成当前诱导周期之前的第三个诱导周期的诱导单元状态的当前诱导策略,并将当前诱导策略连续优于最优诱导策略的次数ND设为0,进入下一个诱导周期,开始新的学习流程。
[0132] 如是,进一步判断当前诱导周期之前的第三个诱导周期的诱导策略的评价值连续优于上述标准状态的最优诱导策略的评价值的次数是否大于某个阈值N*(N*一般取2-4)。
[0133] 如是,说明当前诱导周期之前的第三个诱导周期的诱导策略的评价值连续优于上述标准状态对应的最优诱导策略的评价值的次数达到系统预设要求的次数,则将标准状态对应的最优诱导策略设置为当前诱导周期之前的第三个诱导周期的诱导策略,同时将标准状态对应的最优诱导策略的评价值设置为当前诱导周期之前的第三个诱导周期的诱导策略的评价值。
[0134] 设定学习步长λ为初始步长λ0(λ0取0.38);
[0135] 在上述新的标准状态的最优诱导策略的基础上,以初始步长λ0,根据学习规则生成当前诱导周期之前的第三个诱导周期的诱导单元状态的当前诱导策略,并将当前诱导策略连续优于最优诱导策略的次数ND设置为0,进入下一个诱导周期,开始新的学习流程;
[0136] 如否,说明当前诱导周期之前的第三个诱导周期的诱导策略的评价值连续优于上述标准状态的最优诱导策略的评价值的次数没有达到系统预设要求的次数,则将当前诱导周期之前的第三个诱导周期的诱导策略作为当前诱导周期之前的第三个诱导周期的诱导策略,同时当前诱导策略连续优秀的评价次数ND累加1,进入下一诱导周期,开始新的学习流程;
[0137] 当相联系的诱导单元较少时,可采用遍历搜索学习策略。但是,诱导单元增加到多个,O点和D点较多,采取遍历搜索学习策略时,诱导策略的收敛速度明显变慢。由于相邻诱导单元的诱导策略是相关的,一个诱导单元过慢的诱导策略收敛速度不仅影响对应诱导单元诱导策略的稳定性,而且这种不稳定性还会扩散到相邻相关诱导单元,甚至导致整个子区诱导策略不收敛或收敛很慢,因此采用较快的学习策略(如试算法)具有极大的意义。
[0138] 当相联系的诱导单元较多时,采用试算法学习策略具有较快的收敛速度,且稳定性较好,当路网外界条件发生变化,破坏状态最优诱导策略判别条件时,试算法学习策略仍能以较快的速度搜索到该状态对应的当前最优诱导策略。
[0139] 考虑上游诱导单元集与不考虑上游诱导单元集的条件相比,虽然从单个诱导单元诱导策略收敛速度进行对比,后者速度比前者快,但是从整个路网考虑,前者在整个路网诱导策略的稳定性和抗干扰能力方面较后者有很大的提高。考虑上游诱导单元集情况下诱导单元的诱导状态编码达到11位而使理论状态数量增大,但是通过第一位编码把各相关诱导单元联系起来后,考虑到了各个诱导单元之间的内在联系,适当增加诱导状态数量以换取整个路网的稳定性是可取的。