一种复杂场景下的行程时间可靠性分布预测方法转让专利

申请号 : CN201911187878.X

文献号 : CN111145535B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 丁楚吟徐甲谢竞成袁鑫良金峻臣李瑶邹开荣

申请人 : 银江股份有限公司

摘要 :

本发明涉及一种复杂场景下的行程时间可靠性分布预测方法,本发明基于复杂场景数据与交通数据构造事件模型,建立不同场景下行程时间样本库,并提取行程时间可靠性分布样本特征集,构造训练模型预测未来行程时间可靠性。本发明考虑复杂场景因素,满足不同实际交通场景下行程时间可靠性分析需求,并基于行程时间可靠性分布特征实现对未来行程时间的预测,可提供更加完善的行程时间可靠性分布结果,提高行程时间可靠性预测的准确性与适配性,有利于出行者灵活选择。

权利要求 :

1.一种复杂场景下的行程时间可靠性分布预测方法,其特征在于,包括如下步骤:

(1)获取复杂场景数据,建立事件模型;

(2)获取路网数据,和一定量时间段内的交通数据、复杂场景数据,并根据事件模型,提取场景事件特征,建立复杂场景下的行程时间样本库;

(3)对复杂场景下的行程时间样本库中路段缺失的复杂场景类型数据进行补全;

(4)对补全后的行程时间样本库进行计算,计算得到行程时间核密度分布特征,并在行程时间核密度分布特征中加入事件模型中的场景事件特征,得到行程时间特征数据集,并基于行程时间特征数据集构建并训练行程时间分布预测模型;

(5)利用训练好的行程时间分布预测模型对行程时间可靠性进行预测,得到预测结果;

其中利用训练好的行程时间分布预测模型预测时,首先对单个特征进行预测,针对不同特征,多次进行预测,并将结果叠加,得到一系列预测分布的分位数;预测结果叠加后,使用平滑方法对散点进行反向还原,得到预测行程时间分布曲线;并对预测结果进行还原,反向得出预测结果的行程时间可靠性分布。

2.根据权利要求1所述的一种复杂场景下的行程时间可靠性分布预测方法,其特征在于:需要对获取得到的交通数据添加时段属性;所述交通数据包括但不限于:车辆编号、设备位置、采集时间、行程时间、速度;所述路网数据包括但不限于:路段编号、路段长度、路段位置;所述复杂场景数据包括但不限于:天气数据、道路施工数据、交通事件数据、道路管制数据。

3.根据权利要求1所述的一种复杂场景下的行程时间可靠性分布预测方法,其特征在于:所述的事件模型用于从复杂场景数据提取场景事件特征,其中场景事件特征包括事件类型、事件特征;其中,所述事件类型,包括但不限于:天气、施工、事故;其中,事故的种类包括但不限于:车辆相撞、危化品倾倒、道路塌陷、高温爆炸;

所述事件特征,包括但不限于:严重程度、影响空间、持续时间特征;其中,持续时间特征可转化为事件阶段与时段,便于考虑不同时段与事件不同阶段的影响;事件带有时间属性,需要对事件添加时段属性;事件阶段分为发生阶段、进行阶段和消散阶段,与时段属性对应;某个时段内,事件开始发生,属于发生阶段;当某个时段内,事件即将结束,则事件在该时段属于消散阶段;在开始时段与消散时段之间,事件均处于进行阶段。

4.根据权利要求1所述的一种复杂场景下的行程时间可靠性分布预测方法,其特征在于:所述步骤(2)具体为:获取路网数据,和一定量时间段内的交通数据、复杂场景数据,根据事件模型从复杂场景数据提取场景事件特征,对路网数据、交通数据、事件类型、事件特征做关联处理,得到每个路段在不同时段下对应的场景事件特征数据与行程时间样本数据,形成复杂场景下的行程时间样本库。

5.根据权利要求1所述的一种复杂场景下的行程时间可靠性分布预测方法,其特征在于:所述步骤(3)具体为:对于路段缺失的复杂场景类型,根据相近时间备选路段选择策略与相似路段补全策略,找到可用于补全样本的数据,并将其随机关联到路段存在缺失情况的日期下,补全该类型的场景数据,使路段的相同时段在不同日期下至少存在一种复杂场景样本。

6.根据权利要求5所述的一种复杂场景下的行程时间可靠性分布预测方法,其特征在于:所述的相近时间备选路段选择策略为:若路段a在时段T上缺少某种复杂场景的样本,则选择前、后相近时段内发生的非本路段事件;由于不同路段具有不同的属性,在将非路段a的场景数据匹配到路段a的行程时间数据集时,若有多个备选路段的数据,可选择与当前路段a的交通状况最接近的路段,使关联到的行程时间数据更接近路段自身真实的数据。

7.根据权利要求5所述的一种复杂场景下的行程时间可靠性分布预测方法,其特征在于:所述的相似路段补全策略为:将路段长度在某复杂场景下的行程时间平均值的比值作为路段平均速度V,找到与路段a的速度指标V最接近的路段b,将路段b的行程时间数据集TTbn经过转换,形成路段a在该复杂场景下的行程时间数据集TTan,公式如下:式中,V代表路段在某复杂场景下的平均速度,TTscene代表路段在该复杂场景下的行程时间,La代表需要进行复杂场景关联的路段a长度,Lb代表被关联的路段b长度,TTbn代表被关联的n条复杂场景真实行程时间数据,TTan代表路段a经过关联与转换之后的n条复杂场景行程时间数据。

8.根据权利要求1所述的一种复杂场景下的行程时间可靠性分布预测方法,其特征在于:所述步骤(4)中,采用python函数计算得到行程时间核密度分布特征,并在行程时间核密度分布特征中加入事件模型中的场景事件特征,得到24维行程时间特征数据集。

9.根据权利要求1所述的一种复杂场景下的行程时间可靠性分布预测方法,其特征在于:所述步骤(4)中,利用时间序列分析的思想构建行程时间分布预测模型,具体通过随机森林学习算法或者LSTM网络进行构建,将行程时间特征数据集按比例分为训练集和测试集,对构建得到的行程时间分布预测模型进行训练。

说明书 :

一种复杂场景下的行程时间可靠性分布预测方法

技术领域

[0001] 本发明涉及智慧交通技术领域,尤其涉及一种复杂场景下的行程时间可靠性分布预测方法。

背景技术

[0002] 行程时间是车辆在路网中任意起止点之间所需的行驶时间。起止点既可以对应于道路上的最小单元路段,也可以对应于多条路段连接而成的路径。相对于流量,行程时间是站在出行者角度的指标,由于其更接近于出行者的直观体验,近年来正逐渐成为描述拥堵和评价道路通行性能的关键指标之一。出行者通常希望出行的平均行程时间尽量短,并且同时希望其不确定性尽量低。为了描述行程时间的不确定性,学者提出了行程时间可靠性的概念,其概率学的定义是指在规定时间内抵达目的地的概率。
[0003] 对于给定的路段或路径,其行程时间受季节、工作日/假日、时段等影响,而在不同的天之间,以及同一天内的不同时段间呈现波动和起伏。此外,在同一时段内,行程时间也会受到车辆、驾驶行为,和复杂的环境因素(如天气、交通事故、占道施工等)的影响而表现出不确定性。
[0004] 行程时间可靠性为出行者规划行程提供了很好的观察角度。通常,出行者会根据自身的经验,及出发时间等因素对行程时间进行预测,若实际行程时间于预测值偏离太多,则会造成出行体验的下降,进而可能在以后的出行中将出发时间提前。更有出行者宁愿选择行程时间更长但更确定的地铁而非行程时间短但不确定的公交作为出行方式。行程时间可靠性预测被越来越多的出行者所重视。
[0005] 交通拥堵的成因非常复杂,既包括道路自身通行能力不足的内因,也包括出行需求波动、恶劣天气、异常事件、不合理信号配时、占道施工等外因。而在近些年的一些出行分析报告中,鲜见采用概率分布和多种指标对行程时间可靠性进行全面评价的研究。且现有研究中缺乏统一通用的行程时间可靠性的分析建模方法,未考虑复杂交通模式,没有基于天气、异常事件、施工等信息,建立起丰富的场景库。现有预测方法中多是对具体的行程时间进行预测,缺乏对行程时间可靠性的整体预测分析。

发明内容

[0006] 本发明为克服上述的不足之处,目的在于提供一种复杂场景下的行程时间可靠性分布预测方法,本发明基于复杂场景数据与交通数据构造事件模型,建立不同场景下行程时间样本库,并提取行程时间可靠性分布样本特征集,构造训练模型预测未来行程时间可靠性。本发明考虑复杂场景因素,满足不同实际交通场景下行程时间可靠性分析需求,并基于行程时间可靠性分布特征实现对未来行程时间的预测,可提供更加完善的行程时间可靠性分布结果,提高对行程时间可靠性预测的准确性与适配性,有利于出行者灵活选择。
[0007] 本发明是通过以下技术方案达到上述目的:一种复杂场景下的行程时间可靠性分布预测方法,包括如下步骤:
[0008] (1)获取复杂场景数据,建立事件模型;
[0009] (2)获取路网数据,和一定量时间段内的交通数据、复杂场景数据,并根据事件模型,提取场景事件特征,建立复杂场景下的行程时间样本库;
[0010] (3)对复杂场景下的行程时间样本库中路段缺失的复杂场景类型数据进行补全;
[0011] (4)对补全后的行程时间样本库进行计算,计算得到行程时间核密度分布特征,并在行程时间核密度分布特征中加入事件模型中的场景事件特征,得到行程时间特征数据集,并基于行程时间特征数据集构建并训练行程时间分布预测模型;
[0012] (5)利用训练好的行程时间分布预测模型对行程时间可靠性进行预测,得到预测结果。
[0013] 作为优选,需要对获取得到的交通数据添加时段属性;所述交通数据包括但不限于:车辆编号、设备位置、采集时间、行程时间、速度;所述路网数据包括但不限于:路段编号、路段长度、路段位置;所述复杂场景数据包括但不限于:天气数据、道路施工数据、交通事件数据、道路管制数据。
[0014] 作为优选,所述的事件模型用于从复杂场景数据提取场景事件特征,其中场景事件特征包括事件类型、事件特征;其中,
[0015] 所述事件类型,包括但不限于:天气、施工、事故;所述事故种类,包括但不限于:车辆相撞、危化品倾倒、道路塌陷、高温爆炸;
[0016] 所述事件特征,包括但不限于:严重程度、影响空间、持续时间特征;其中,持续时间特征可转化为事件阶段与时段,便于考虑不同时段与事件不同阶段的影响;事件带有时间属性,需要对事件添加时段属性;事件阶段分为发生阶段、进行阶段和消散阶段,与时段属性对应;某个时段内,事件开始发生,属于发生阶段;当某个时段内,事件即将结束,则事件在该时段属于消散阶段;在开始时段与消散时段之间,事件均处于进行阶段。
[0017] 作为优选,所述步骤(2)具体为:获取路网数据,和一定量时间段内的交通数据、复杂场景数据,根据事件模型从复杂场景数据提取场景事件特征,对路网数据、交通数据、事件类型、事件特征做关联处理,得到每个路段在不同时段下对应的场景事件特征数据与行程时间样本数据,形成复杂场景下的行程时间样本库。
[0018] 作为优选,所述步骤(3)具体为:对于路段缺失的复杂场景类型,根据相近时间备选路段选择策略与相似路段补全策略,找到可用于补全样本的数据,并将其随机关联到路段存在缺失情况的日期下,补全该类型的场景数据,使路段的相同时段在不同日期下至少存在一种复杂场景样本。
[0019] 作为优选,所述的相近时间备选路段选择策略为:若路段a在时段T上缺少某种复杂场景的样本,则选择前、后相近时段内发生的非本路段事件;由于不同路段具有不同的属性,在将非路段a的场景数据匹配到路段a的行程时间数据集时,若有多个备选路段的数据,可选择与当前路段a的交通状况最接近的路段,使关联到的行程时间数据更接近路段自身真实的数据。
[0020] 作为优选,所述的相似路段补全策略为:将路段长度在某复杂场景下的行程时间平均值的比值作为路段平均速度V,找到与路段a的速度指标V最接近的路段b,将路段b的行程时间数据集TTbn经过转换,形成路段a在该复杂场景下的行程时间数据集TTan,公式如下:
[0021]
[0022]
[0023] 式中,V代表路段在某复杂场景下的平均速度,TTscene代表路段在该复杂场景下的行程时间,La代表需要进行复杂场景关联的路段a长度,Lb代表被关联的路段b长度,TTbn代表被关联的n条复杂场景真实行程时间数据,TTan代表路段a经过关联与转换之后的n条复杂场景行程时间数据。
[0024] 作为优选,所述步骤(4)中,采用python函数计算得到行程时间核密度分布特征,并在行程时间核密度分布特征中加入事件模型中的场景事件特征,得到24维行程时间特征数据集。
[0025] 作为优选,所述步骤(4)中,利用时间序列分析的思想构建行程时间分布预测模型,具体通过随机森林学习算法或者LSTM网络进行构建,将行程时间特征数据集按比例分为训练集和测试集,对构建得到的行程时间分布预测模型进行训练。
[0026] 作为优选,所述步骤(5)利用训练好的行程时间分布预测模型预测时,首先对单个特征进行预测,针对不同特征,多次进行预测,并将结果叠加,得到一系列预测分布的分位数,预测结果叠加后,使用平滑方法对散点进行反向还原,得到预测行程时间分布曲线;并对预测结果进行还原,反向得出预测结果的行程时间可靠性分布。
[0027] 本发明的有益效果在于:(1)本发明考虑复杂场景因素,将场景(天气、出行时段、施工组织等)因素融入到行程时间可靠性模型中,从实际交通场景出发,对行程时间可靠性进行建模;(2)本发明从不同维度对行程时间可靠性进行分析,着眼于不同影响因素,以此来更好地保障出行者的行程时间可靠性;(3)本发明对行程时间可靠性进行整体预测,提供更加完善的行程时间可靠性分布结果,有利于出行者灵活选择。

附图说明

[0028] 图1是本发明的方法流程示意图;
[0029] 图2是本发明实施例的事件场景模型示意图;
[0030] 图3是本发明实施例的行程时间可靠性核密度分布曲线还原结果示意图。

具体实施方式

[0031] 下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
[0032] 实施例:如图1所示,一种复杂场景下的行程时间可靠性分布预测方法,包括如下步骤:
[0033] (1)获取复杂场景数据,建立事件模型。
[0034] 复杂场景数据包括但不限于:天气数据、道路施工数据、交通事件数据、道路管制数据。
[0035] 事件模型用于从复杂场景数据提取场景事件特征,其中场景事件特征包括事件类型、事件特征;如图2所示,其中,
[0036] 所述事件类型,包括但不限于:天气、施工、事故;所述事故种类,包括但不限于:车辆相撞、危化品倾倒、道路塌陷、高温爆炸;
[0037] 所述事件特征,包括但不限于:严重程度(如受影响车道数)、影响空间、持续时间特征;
[0038] 其中,持续时间特征可转化为事件阶段与时段,便于考虑不同时段与事件不同阶段的影响;事件带有时间属性,高峰时期发生事故与平峰时间发生事故对交通状况的影响程度不同,需要对事件添加时段属性;在同一事件的不同阶段中,表现出来的交通特征不同,将事件阶段分为发生阶段、进行阶段和消散阶段,与时段属性对应;某个时段内,事件开始发生,属于发生阶段;当某个时段内,事件即将结束,则事件在该时段属于消散阶段;在开始时段与消散时段之间,事件均处于进行阶段。
[0039] 不同事件类型对应相同的事件特征,但度量事件程度的指标不同,且上游路段的施工或事故可能影响下游路段的交通状况,需要在事件模型中考虑。
[0040] 本发明所述事件类型包括天气、施工、事故三种类型,分别用S1、S2、S3编码表示;事件特征包括严重程度、影响空间、事件阶段、时段,分别用Y、K、C、T编码表示,同时,以编码+数字的形式表示事件类型的不同特征程度。事件类型与事件特征程度的编号与含义见下表1,不同事件类型的不同特征程度均有不同的衡量标准,事件严重程度以影响车道数区分,影响空间根据影响的路段长度与位置分类,事件阶段与时间属性考虑事件的时间属性。
[0041]
[0042] 表1
[0043] (2)获取路网数据,和一定量时间段内的交通数据、复杂场景数据,根据事件模型从复杂场景数据提取场景事件特征,对路网数据、交通数据、事件类型、事件特征做关联处理,得到每个路段在不同时段下对应的场景事件特征数据与行程时间样本数据,形成复杂场景下的行程时间样本库。
[0044] 获取路网数据以及历史一个月的交通数据与事件数据,包括路段基础信息(车道数、路段长度等)、交通数据(行程时间、速度等)、时间数据(日期、时段等)、事件数据(事件类型、事件特征等)。通过路段编号与时间对数据做关联处理,得到路段在不同时段下对应的事件数据与行程时间样本。
[0045] 本发明所述动态交通数据由交通卡口监控数据转换而来。卡口安装在道路特定位置,如路段的进口道或出口道,监控面对行驶方向上的车辆,能够记录通过当前卡口的车辆信息,包括但不限于车辆号牌、车辆类型、过车时间等。
[0046] 将所有卡口过车记录与路网模型进行匹配,可得到试点区域内路段行程时间的数据,将车辆号牌转换为编号,卡口过车记录如下表2所示。
[0047] 车辆编号 设备位置 时间1 路段NO.1北出口 2019-05-15 07:01:03
2 路段NO.1北出口 2019-05-15 07:03:25
3 路段NO.1北出口 2019-05-15 07:18:00
1 路段NO.2南进口 2019-05-15 07:01:28
...    
[0048] 表2
[0049] 根据表2,路段NO.1北出口的卡口记录了不同时间经过的不同车辆,路段NO.1南进口的卡口记录了不同时间经过的不同车辆,经过这两个卡口的同一车辆的经过时间差形成了单辆车的行程时间。将路段上所有卡口过车记录均以上述方式进行统计,得到路段的行程时间集。
[0050] 由于不同时间段的行程时间数据特点不同,高峰期路网交通拥堵较平峰期更为拥堵,平均行程时间比平峰期长,因此需要对交通数据添加时段属性。设T为间隔时间长度,则时段数据m表示当前时间在以T为单位分割的24小时中的顺序,如T=15,当前时间为07:01:00,对24小时以15分钟为分割,当前时间属于第25个15分钟,即m=25。经过整合的路网交通数据如下表3所示:
[0051]
[0052]
[0053] 表3
[0054] 将不同时段下的复杂场景数据对应到每个路段,每个时段对应事件[天气、施工、事故]的事件特征程度分别用编码进行组合,同时关联路段行程时间数据集与路段静态数据,如下表4,展示了部分路段的数据样例。
[0055] 表中的路段静态数据包括路段长度与路段车道数,用于后续的计算。
[0056] 路段NO.1在日期2019-5-15,时段为T.1时,关联时间段内的行程时间集,表中以{TT.11,TT.12,...,TT.1m}标记,表示路段NO.1的m条行程时间样本。同时,由行程时间样本集与路段长度可得到路段平均速度。
[0057] 路段NO.1在T.1时段的天气事件(S1)对应编码组合为[Y1,K3,C2],表示S1事件严重程度为Y1,即晴朗,影响空间为K3,即所有车道,事件阶段为C2,即事件进行阶段;施工事件(S2)对应编码组合为[Y1,K1,C2],表示S2事件严重程度为Y1,即无施工,影响空间为K1,即无施工,事件阶段为C2,即事件进行阶段;事故事件对应编码组合为[Y1,K1,C2],表示事故事件(S3)严重程度为Y1,即无事故,影响空间为K1,即无事故,事件阶段为C2,即事件进行阶段。可用事件组合([Y1,K3,C2],[Y1,K1,C2],[Y1,K1,C2])来标识路段NO.1在T.1时段的事件模型。
[0058] 由表4的编码可得到,中雨(天气事件严重程度Y2)在T.2时段开始一直持续,影响路段NO.1;路段NO.2在T.m时段发生车辆相撞事件(事故事件严重程度Y2);路段NO.2当天一直处于施工状态;路段NO.n在T.2时段开始出现暴雨(天气事件严重程度Y3),且一直持续到当天结束。
[0059]
[0060]
[0061]
[0062] 表4
[0063] (3)补全路段复杂场景事件数据。
[0064] 事件特征中,事件阶段是所有事件共有的特征,与事件类别无关。若不考虑事件阶段,可对不同事件不同程度进行划分,如下所示:
[0065] 天气事件:[Y1,K1],[Y2,K1],[Y3,K1],共3种;
[0066] 施工事件:[Y1,K3],[Y2,K2],[Y2,K3],[Y3,K2],[Y3,K3],共5种;
[0067] 事故事件:[Y1,K3],[Y2,K2],[Y2,K3],[Y3,K2],[Y3,K3],共5种。
[0068] 在所有事件模型中,(S1[Y1,K1],S2[Y1,K3],S3[Y1,K3])的事件组合是最为常见的事件,表示当前路段天气为晴、无施工、无事故,将该事件场景定义为基础场景;若发生异常天气、施工、事故事件,则将此类场景定义为复杂场景,由单事件或多种事件组合构成,由上述列举可得,共有3*5*5-1=74种复杂场景。
[0069] 对于一个路段而言,由于事件模型在时间的分布上是随机的,若仅使用单个路段的事件模型构建多场景行程时间样本库,在一定时间范围内的历史数据中不一定能涵盖多个时段多种类型的事件,将产生复杂场景样本库不完整的问题,因此需要根据相近时间或相似路段的数据来补全该路段的复杂场景数据,使每个路段的复杂场景数据样本更加丰富。
[0070] 将所有收集到的事件模型按照时间序列进行整合,如步骤1中以15min为时间间隔,一天可划分为96个时段,按不同时段将事件模型与数据集进行分类。下表展示了事件模型划分的样例数据,对应表4中的路段NO.1。
[0071]日期 时段 路段 事件
2019-5-15 T.1 NO.1 S1[Y1,K1],S2[Y1,K1],S3[Y1,K1]
2019-5-15 T.2 NO.1 S1[Y2,K3],S2[Y1,K1],S3[Y1,K1]
2019-5-15 T.3 NO.1 S1[Y2,K3],S2[Y1,K1],S3[Y1,K1]
…      
2019-5-15 T.96 NO.1 S1[Y2,K3],S2[Y1,K1],S3[Y1,K1]
[0072] 表5
[0073] 统计每个路段在不同时段下,复杂场景的数量,得到路段缺失的复杂场景类型。
[0074] 按复杂场景划分行程时间,如下表所示,以复杂场景(S1[Y2,K1],S2[Y1,K3],S3[Y1,K3])为例,统计了每个时段不同日期的行程时间的样本量,表中T.1时段D3日期未关联到复杂场景(S1[Y2,K1],S2[Y1,K3],S3[Y1,K3])下的行程时间,样本量为0,即该路段缺失T.1时段D3日期的复杂场景(S1[Y2,K1],S2[Y1,K3],S3[Y1,K3])。
[0075]
[0076]
[0077] 表6
[0078] 根据相近时间与相似路段两种策略,找到可用于补全样本的数据,并将其随机关联到路段存在缺失情况的日期下,补全该类型的场景数据,使路段的相同时段在不同日期下至少存在一种复杂场景样本。
[0079] 1)相近时间备选路段选择策略:
[0080] 若路段a在时段T.40上缺少某种复杂场景的样本,可以选择相近时段T.38~T.42内发生的非本路段事件。由于不同路段具有不同的属性,在将非路段a的场景数据匹配到路段a的行程时间数据集时,若有多个备选路段的数据,可选择与当前路段a的交通状况最接近的路段,使关联到的行程时间数据更接近路段自身真实的数据。
[0081] 2)相似路段补全策略:
[0082] 将路段长度在某复杂场景下的行程时间平均值的比值作为路段平均速度V,找到与路段a的速度指标V最接近的路段b,将路段b的行程时间数据集TTbn经过转换,形成路段a在该复杂场景下的行程时间数据集TTan。
[0083]
[0084]
[0085] 式中,V代表路段在某复杂场景下的平均速度,TTscene代表路段在该复杂场景下的行程时间,La代表需要进行复杂场景关联的路段a长度,Lb代表被关联的路段b长度,TTbn代表被关联的n条复杂场景真实行程时间数据,TTan代表路段a经过关联与转换之后的n条复杂场景行程时间数据。
[0086] (4)得到行程时间特征数据集,基于行程时间特征数据集构建并训练行程时间分布预测模型;
[0087] 为观察行程时间样本集的特征,以直方图的形式绘制样本行程时间的分布情况。不同事件下,路段行程时间样本不同,其分布形式符合多模态的正态分布。
[0088] 直方图展示的分布并不平滑,且密度函数受子区间宽度影响很大,因此利用核密度估计对行程时间概率分布进行拟合。考虑到函数在波形合成计算上的易用性,使用高斯曲线作为核密度估计的核函数。核密度估计中,带宽反映了观察到的数据点在核密度估计曲线形成过程中所占的比重,对所得到的估计值有很大影响,且不同路段流量不同,需要采取不同的分析尺度。因此对行程时间使用自适应带宽的核密度估计方法,获得路段行程时间的核密度估计曲线。核密度估计如下:
[0089]
[0090] 式中x1,x2…xn为独立同分布F的n个样本点。
[0091] 提取曲线的特征,包括均值和部分特殊分位点如1%、5%、15%、25%、35%、45%、50%、55%、60%、65%、75%、85%、95%、99%分位点,来表征行程时间的分布。
[0092] 本发明实施例利用时间序列分析的思想构建行程时间分布预测模型。时间序列思想,时间序列分析是一种动态数据处理的统计方法,基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。例如,记录某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。
[0093] 事件模型带有时间属性,上一时间片段发生的事件对下一时间片段的行程时间存在一定的影响。本发明将数据集按照时间序列整合,利用路段上一时间段的行程时间来预测该路段下一时间段的行程时间分布。
[0094] 行程时间特征数据集由上一时间段行程时间核密度分布特征与场景事件特征两部分构成。获取经过补全后连续一个月的事件模型行程时间样本,通过python函数计算不同路段每个时段的行程时间核密度分布特征点,同时,在数据集中加入场景事件特征数据,包括步骤1所述3种事件类型及其事件特征,构建24维特征数据集。结果集由下一时间段的某种分布特征组成,如预测中位数,则结果集中是下一时间片段的真实中位数。
[0095] 其中,24维特征数据集结构如下:
[0096] 1-14位:当前时段行程时间数据集核密度分布特征,共14位;
[0097] 15-17位:天气事件特征标识,共3位,记录事件特征中的编码,如事件[Y1,K3,C1]记为[1,3,1];
[0098] 18-20位:施工事件特征标识,共3位,记录事件特征中的编码,如事件[Y1,K3,C1]记为[1,3,1];
[0099] 21-23位:事故事件特征标识,共3位,记录事件特征中的编码,如事件[Y1,K3,C1]记为[1,3,1];
[0100] 24位:当前时间段编码,共1位。
[0101] 将上述数据集按8:2的比例分为训练集、测试集,构建行程时间预测模型。模型可用不同机器学习方法进行构建。本发明实施例分别使用了随机森林与LSTM算法进行构建。
[0102] 随机森林是一种支持高维度输入样本的机器学习算法,通过构建多个决策树并输出各个树的平均预测来进行判断。算法进行重采样,随机生成T个训练集S1,S2,…,ST。利用每个训练集,训练生成对应的决策树C1,C2,…,CT;在每个非叶子节点上选择属性前,从M个属性中随机抽取m个属性作为当前节点的分裂属性集,并以这m个属性中最好的分裂方式对该节点进行分裂(在整个随机森林的训练过程中,m的值一般维持不变)。每棵树都完整生长,不进行剪枝。对于测试集样本x,利用每个决策树进行测试,得到对应的类别C1(x),C2(x),…,CT(x)。采用投票的方法,将T个决策树中输出最多的类别作为测试集样本X所属的类别。
[0103] LSTM是一种时间循环神经网络,能较好地避免长期依赖性问题。核心由input、forget、output三个记忆胞组成,其能在每个时刻编码输入的信息。每个记忆胞的行为由门(gate)控制,控制信息保存与否,若保存则为1,否则为0。其运算公式如下所示:
[0104] it=σ(Wixxt+Wihht-1)
[0105] ft=σ(WfxXt+Wfhht-1)
[0106] ot=σ(Woxxt+Wohht-1)
[0107] ct=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1)
[0108] ht=ct⊙Ot
[0109] 其中,x表示输入向量,h表示输出向量,⊙表示点乘运算符,矩阵W表示待训练参数。σ(·)表示sigmoid非线性函数,tanh(·)表示双曲正切函数。
[0110] 将整合后的数据样本输入到预测模型中,在python中经过随机森林或LSTM算法的训练,得到上一时间片段行程时间数据集预测的下一时间片段行程时间分布特征,如预测中位数,则预测结果为下一时间片段的真实中位数。
[0111] (5)利用构建的模型对行程时间可靠性的分布进行预测。首先对单个特征进行预测,针对不同特征,多次进行预测,并将结果叠加,得到一系列预测分布的分位数,预测结果叠加后,使用平滑方法对散点进行反向还原,得到预测行程时间分布曲线。对预测结果进行还原,反向得出预测结果的行程时间可靠性分布,如图3所示,反向还原的行程时间分布从整体趋势上能清晰地表现出所预测时间段的行程时间分布。
[0112] 在实时路网交通监测环境下,获取当前路网的交通状况与实时事件数据,构建行程时间特征数据集,输入到已训练完成的预测模型中,得到路网中不同路段路段行程时间分布的预测结果,出行者能够提前对将来的行程时间范围有所把握,以此来更好地保障出行效率。
[0113] 以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。