基于时空注意力机制的路口通行时间预测方法转让专利

申请号 : CN202211343153.7

文献号 : CN115394088B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘新成沈勤奚秩华宣帆周国冬

申请人 : 江苏博宇鑫信息科技股份有限公司

摘要 :

本发明提供一种基于时空注意力机制的路口通行时间预测方法,以精准的预测交通车辆通行时间为出发点,提出了针对出租车的通行时间预测模型,模型利用深度学习技术充分挖掘交通轨迹数据之间深层次的时空特征,并对时空依赖特性引入时空注意力机制进行预测,充分考虑了时间等因素的影响,有效地解决汽车在不同时间运行时的航迹起点和航迹的不确定性,通过对起始点位置的分类,对时间预测模型进行了优化,使得预测的时间和实际的行车时间准确率超过80%,使得交通组织更加合理、层次分明。

权利要求 :

1.一种基于时空注意力机制的路口通行时间预测方法,其特征在于:具体包括以下步骤:

步骤S1,采集每辆车辆的所有原始GPS轨迹数据集,每条所述原始GPS轨迹数据集包括车辆行驶的路径、所述路径上的多个GPS采样点;步骤S2,对所有车辆的原始GPS轨迹数据集进行清洗,删除部分GPS轨迹数据,形成新GPS轨迹数据集,从新GPS轨迹数据集中匹配车辆的一条路径Q,所述路径Q是一系列连续的GPS采样点的集合,Q={q1,q2,…,qi,…,qn},其中qi表示第i个GPS采样点,qn表示第n个GPS采样点,每个元素qi包括经度qi.lon、纬度qi.lat、时间戳qi.ts、开始时间、车牌号、日期、是否载客、通行距离dis(q1qn),通行距离dis(q1qn)即为q1到qn的距离;步骤S3,建立通行时间预测模型Tt+δ(Q)=f{Tt(Q)},其中,Tt(Q)已知,表示路径Q在t时刻的通行时间,Tt+δ(Q)表示路径Q在t时刻后未来δ时刻的通行时间,利用给定的历史路径训练所述通行时间预测模型,通过学习行驶轨迹间的时空依赖关系,来学习模型参数,在所述通行时间预测模型内,设定外部因素机制,采用嵌入方法将外部因素值形成的分M×1 M×1类变量l∈[L]转化为嵌入空间R ,其中,L为变量集合,空间R 为M行1列的矩阵空间,形成嵌入向量,将所述嵌入向量与所述通行距离dis(q1qn)进行连接,形成外部因素机制的输出ext;步骤S4,在所述通行时间预测模型内,采用非线性函数,结合长短期记忆神经网络,将非线性函数的输出向量作为长短期记忆神经网络的输入,输出特征图spa,将所述特征图spa和所述输出ext一同输入时间卷积网络,输出为时空特征序列,即时空特征,具体为:步骤S41,在所述通行时间预测模型内,使用一个非线性函数将路径位置信息映射到向量ploc中,向量ploc中的每个元素为ploci,具体公式为:ploci=tanh(Wploc),其中,<>表示路径的连接操作,Wploc表示向量ploc的学习参数矩阵,tanh为激活函数,qi.lat,qi.lon分别表示采样点qi的经度和纬度;步骤S42,通过LSTM模型中的卷积层提取路径Q的空间信息特征,通过LSTM模型中的池化层对所述空间信息特征进行压缩,提取主要特征,并通2

过LSTM模型中的长短期记忆网络层输出convi,具体公式为:

1 2

其中convi表示路径Q的第i个采样点通过卷积层conv的第一次输出,convi表示路径Q的第i个采样点通过卷积层conv的第二次输出, 表示卷积层conv第一次输出的学习参(1) (2)数矩阵, 表示卷积层conv第二次输出的学习参数矩阵,b 表示第一次输出的参数,b表示第二次输出的参数,σ为激活函数,通过LSTM模型中的卷积网络层得出特征图spa,通过LSTM模型中的上采样层放大特征图spa的维数;

步骤S43,采用时间卷积网络,将所述特征图spa和所述输出ext作为所述时间卷积网络的输入,更新状态,公式为:ri=σ(Ws*spa+We*ext+Wh*ri‑1),其中,Ws,We,Wh是时间长短期记忆网络层中使用的学习参数,σ是激活函数,得出时空特征序列{r1,r2,r3,…,r|T|+k+1},其中,T为通行时间,k表示邻近|T|的个数,公式中的ri和ri‑1为时空特征序列中的一个元素;步骤S5,在所述通行时间预测模型内,采用时间卷积网络的两个全连接网络层将时空特征序列映射为时间序列,得到子路径预测的通行时间;建立注意力机制,将时空特征序列作为输入,输入至注意力机制中,根据不同路径对于整体路径的重要程度设置不同的权重,获得向量ratt,将向量ratt输入全连接网络层得出整个路段的通行时间hen,完成所述通行时间预测模型的建立;步骤S6,对所述通行时间预测模型进行训练优化,采用两个损失函数分别定义子路径预测的通行时间的相关损失函数的平均值L1即Loss1和整个路段的通行时间的相关损失函数Le即Losse,定义损失函数loss为L1与Le的加权和,通过所述损失函数loss的值评估模型性能。

2.根据权利要求1所述的基于时空注意力机制的路口通行时间预测方法,其特征在于:

步骤S2中,所述新GPS轨迹数据集的GPS轨迹数据的长度为2千米‑20千米,所述新GPS轨迹数据集的GPS轨迹数据时间长度小于等于3000秒。

3.根据权利要求1所述的基于时空注意力机制的路口通行时间预测方法,其特征在于:

步骤S5具体为:步骤S51,采用时间卷积网络的两个全连接网络层将时空特征序列{r1,r2,r3,…,r|T|+k+1}映射为时间序列{h1,h2,h3,…,h|T|+k+1},时间序列的任意一个元素hi表示子路径qi→qi+1→…→qi+k‑1预测的通行时间;步骤S52,建立注意力机制,将时空特征序列{r1,r2,r3,…,r|T|+k+1}输入到所述注意力机制中,通过步骤S51,注意力机制对时空特征序列{r1,r2,r3,…,r|T|+k+1}的操作实质为对时间序列{h1,h2,h3,…,h|T|+k+1}的进行加权求和操作,根据不同路径对于整体路径的重要程度设置不同的权重,获得向量ratt,具体公式为,,

,其中,ratt是根据注意力分布获取的信息,zi表示第i个

输入序列经过激活函数处理过的序列,zj表示第j个输入参数经过激活函数处理过的参数,αi为注意力权重,i为第i个输入序列,j为第j个输入参数,z表示激活函数结果;步骤S53,将向量ratt输入到全连接网络层得出整个路段的通行时间hen。

4.根据权利要求3所述的基于时空注意力机制的路口通行时间预测方法,其特征在于:

步骤S6具体为:步骤S61,采用第一个损失函数定义所有子路径的相关损失函数的平均值,具体公式为: ,其中qi+k‑1.ts表示第i+k‑1个GPS采样点的时间戳,w为学习参数;步骤S62,采用第二个损失函数定义整体路段的相关损失函数,具体公式为, ,其中,q|T|表示第|T|个GPS采样点,q|T|.ts表示第|T|个GPS采样点的时间戳,q1.ts表示第1个GPS采样点的时间戳, 表示第 个GPS采样点的时间戳;步骤S63,采用损失函数loss定义第一个损失函数L1和第二个损失函数Le的加权和,具体公式为loss=α·L1+(1‑α)Le,其中α表示平衡L1和Le的权重的系数。

5.根据权利要求4所述的基于时空注意力机制的路口通行时间预测方法,其特征在于:

还包括步骤S7,采用MAE、RMSE和MAPE中的一种或多种对所述通行时间预测模型的预测结果进行评价。

说明书 :

基于时空注意力机制的路口通行时间预测方法

技术领域

[0001] 本发明涉及一种基于时空注意力机制的路口通行时间预测方法。

背景技术

[0002] 交通车辆保有量的急剧增加给城市交通运行带来了巨大的压力。出租车、公交车等公共交通工具的精准通过路口时间预测,不但能够利于人们对行程进行合理规划,节约
时间,而且能缓解交通拥堵现象,避免人力、能源等浪费,进而给城市的规划建设提供重要参考。
[0003] 目前,对交通工具的时间预测主要采用了基于历史资料的预测模型,交通车辆路口通行时间预测研究已经成为智能交通领域的热点问题之一,然而,传统的研究方法无法
充分提取各轨迹路径之间的时空特性,并且忽略了周围环境、天气状况、日期(上下班高峰期)等其他外部属性的影响,因而未达到精准的时间预测效果。
[0004] 现有技术中对预测路口通行时间的预测大体可分为三类,分别为基于路段的路口通行时间预测方法,基于子路径的路口通行时间预测方法和基于深度学习的路口通行时间
预测方法。
[0005] 基于浮动车俩数据的路段通行时间预测方法存在着明显的缺点,它没有考虑到道路与道路之间的连接关系,既没有考虑到各个交叉路口,也没有考虑到红绿灯等对通行时
间的影响,因此准确性不高;基于路段的预测方法都是预测单个路段的通行时间,通过对单路段时间相加求和获得总时间,而在现实生活中,道路路口上的交通状态具有一定的复杂
性,而这种复杂性对于一段行驶路径而言是十分重要的,因此基于路段的预测方法误差较
大;基于子路径的时间预测方法中,在现实生活中,城市道路纵横交错,会经常出现一些道路车辆繁多、交通拥堵,而部分道路却车流量很少,携带有GPS等记录功能的车辆更稀少,所以在基于子路径的方法研究中,容易出现数据稀疏性问题,因此只有较少的轨迹数据信息
能够用于研究工作中;在基于深度学习的路口通行时间预测方法中,在此基础上,采用卷积神经网络对GPS历史轨迹进行了分析,并采用了长短期存储器网络对GPS轨道进行了时间特
征提取,但是对时空特征的关注度不够,在交通状况更为复杂的路口,并没有结合天气、交通信号灯、出行高峰期等复杂因素,在不同综合复杂的城市路口出现预测准确度不高的状
况。

发明内容

[0006] 本发明要解决的技术问题是提供一种基于时空注意力机制的路口通行时间预测方法。
[0007] 为了解决上述技术问题,本发明采用的技术方案是:一种基于时空注意力机制的路口通行时间预测方法,具体包括以下步骤:步骤S1,采集每辆车辆的所有原始GPS轨迹数
据集,每条所述原始GPS轨迹数据集包括车辆行驶的路径、所述路径上的多个GPS采样点;步骤S2,对所有车辆的原始GPS轨迹数据集进行清洗,删除部分GPS轨迹数据,形成新GPS轨迹数据集,从新GPS轨迹数据集中匹配车辆的一条路径Q,所述路径Q是一系列连续的GPS采样
点的集合,Q={q1,q2,…,qi,…,qn},其中qi表示第i个GPS采样点,qn表示第n个GPS采样点,每个元素qi包括经度qi.lon、纬度qi.lat、时间戳qi.ts、开始时间、车牌号、日期、是否载客、通行距离dis(q1qn),通行距离dis(q1qn)即为q1到qn的距离;步骤S3,建立通行时间预测模型Tt+δ(Q)=f{Tt(Q)},其中,Tt(Q)已知,表示路径Q在t时刻的通行时间,Tt+δ(Q)表示路径Q在t时刻后未来δ时刻的通行时间,利用给定的历史路径训练所述通行时间预测模型,通过学习行驶轨迹间的时空依赖关系,来学习模型参数,在所述通行时间预测模型内,设定外部因素机M×1
制,采用嵌入方法将外部因素值形成的分类变量l∈[L]转化为嵌入空间R ,形成嵌入向
量,将所述嵌入向量与所述通行距离dis(q1qn)进行连接,形成外部因素机制的输出ext;步骤S4,在所述通行时间预测模型内,采用非线性函数,结合长短期记忆神经网络,将非线性函数的输出向量作为长短期记忆神经网络的输入,输出特征图spa,将所述特征图spa和所
述输出ext一同输入时间卷积网络,输出为时空特征序列,即时空特征;步骤S5,在所述通行时间预测模型内,采用时间卷积网络的两个全连接网络层将时空特征序列映射为时间序
列,得到子路径预测的通行时间;建立注意力机制,将时空特征序列作为输入,输入至注意力机制中,根据不同路径对于整体路径的重要程度设置不同的权重,获得向量ratt,将向量ratt输入全连接网络层得出整个路段的通行时间hen,完成所述通行时间预测模型的建立;步骤S6,对所述通行时间预测模型进行训练优化,采用两个损失函数分别定义子路径预测的
通行时间的相关损失函数的平均值L1和整个路段的通行时间的相关损失函数Le,定义损失
函数loss为L1与Le的加权和,通过所述损失函数loss的值评估模型性能。
[0008] 优选的,步骤S2中,所述新GPS轨迹数据集的GPS轨迹数据的长度为2千米‑20千米,所述新GPS轨迹数据集的GPS轨迹数据时间长度小于等于3000秒。
[0009] 优选的,步骤S4具体为:步骤S41,在所述通行时间预测模型内,使用一个非线性函数将路径位置信息映射到向量ploc中,向量ploc中的每个元素为ploci,具体公式为:ploci=tanh(Wploc),其中,<>表示路径的连接操作,Wploc表示向量ploc的学习参数矩阵,tanh为激活函数,qi.lat,qi.lon分别表示采样点qi的经度和纬度;步骤S42,通过LSTM模型中的卷积层提取路径Q的空间信息特征,通过LSTM模型中的池化层对所述空间信息特2
征进行压缩,提取主要特征,并通过LSTM模型中的长短期记忆网络层输出convi ,具体公式为:
[0010] ,1
[0011] ,其中convi 表示路径Q的第i个采样点通过卷积层conv的第2
一次输出,convi表示路径Q的第i个采样点通过卷积层conv的第二次输出, 表示卷积层
(1)
conv第一次输出的学习参数矩阵, 表示卷积层conv第二次输出的学习参数矩阵,b 表
(2)
示第一次输出的参数,b 表示第二次输出的参数,σ为激活函数,通过LSTM模型中的卷积网络层得出特征图spa,通过LSTM模型中的上采样层放大特征图spa的维数;步骤S43,采用时间卷积网络,将所述特征图spa和所述输出ext作为所述时间卷积网络的输入,更新状态,公式为:ri=σ(Ws*spa+We*ext+Wh*ri‑1),其中,Ws,We,Wh是时间长短期记忆网络层中使用的学习参数,σ是激活函数,得出时空特征序列{r1,r2,r3,…,r|T|+k+1},其中,T为通行时间,k表示邻近|T|的个数,公式中的ri和ri‑1为时空特征序列中的一个元素。长‑短时存储器网络对序列模型的时间预测精度较高,其结构也更加简单清晰。
[0012] 优选的,步骤S5具体为:步骤S51,采用时间卷积网络的两个全连接网络层将时空特征序列{r1,r2,r3,…,r|T|+k+1}映射为时间序列{h1,h2,h3,…,h|T|+k+1},时间序列的任意一个元素hi表示子路径qi→qi+1→…→qi+k‑1预测的通行时间;步骤S52,建立注意力机制,将时空特征序列{r1,r2,r3,…,r|T|+k+1}输入到所述注意力机制中,通过步骤S51,注意力机制对时空特征序列{r1,r2,r3,…,r|T|+k+1}的操作实质为对时间序列{h1,h2,h3,…,h|T|+k+1}的进行加权求和操作,根据不同路径对于整体路径的重要程度设置不同的权重,获得向量ratt,具体公式为:
[0013] ,
[0014] ,
[0015] ,其中,ratt是根据注意力分布获取的信息,zi表示第i个输入序列经过激活函数处理过的序列,zj表示第j个输入参数经过激活函数处理过的参数,αi为注意力权重,i为第i个输入序列,j为第j个输入参数,z表示激活函数结果;步骤S53,将向量ratt输入到全连接网络层得出整个路段的通行时间hen。
[0016] 优选的,步骤S6具体为:步骤S6具体为:步骤S61,采用第一个损失函数定义所有子路径的相关损失函数的平均值,具体公式为:
[0017] ,其中qi+k‑1.ts表示第i+k‑1个GPS采样点的时间戳,w为学习参数;步骤S62,采用第二个损失函数定义整体路段的相关损失函数,具体公式为:
[0018] ,其中,q|T|表示第|T|个GPS采样点,q|T|.ts表示第|T|个GPS采样点的时间戳,q1.ts表示第1个GPS采样点的时间戳,
表示第 个GPS采样点的时间戳;步骤S63,采用损
失函数loss定义第一个损失函数L1和第二个损失函数Le的加权和,具体公式为loss=α·L1+(1‑α)Le,其中α表示平衡L1和Le的权重的系数。
[0019] 优选的,还包括步骤S7,采用MAE、RMSE和MAPE中的一种或多种对所述通行时间预测模型的预测结果进行评价。
[0020] 本发明的范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本
申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案等。
[0021] 由于上述技术方案运用,本发明与现有技术相比具有下列优点:1、本发明考虑天气、各路口车流量、上下班高峰时段、信号灯设置时长、非传感器记录等因素,并结合车辆行驶速度构建时空特征融合的注意力机制的城市路口通行时间预测模型,通过研究时空特征
融合的注意力机制的路口通行时间预测模型,对路口车辆通行时间大量的数据进行综合分
析,实现判别城市路口车辆通行中公共交通占比的合理性、趋势预测分析等功能,为城市居民出行安排提供了合理的理论依据;
[0022] 2、本发明通过融合循环神经网络和注意力机制从而解决了现有的方法依靠短期时间内的数据走势建模进行路口通行时间,因路口通行时间研究的深入数据量也呈指数爆
炸式增长训练的数据序列的长度增加进而导致梯度消失、误差积累等问题;
[0023] 3、本发明将时空网络的融合,能有效合理的利用空间特性和时间特征,在收集到车辆运行数据信息后,相比基础的LSTM预测模型或带有时间特性的预测模型相比,经实验
发现本发明具有更高的准确性。可以提高网约车平台预测的准确率、便于网约车平台进行
路线规划,便于司机接单,便于提高用户的出行体验。

附图说明

[0024] 图1为本发明流程示意图;
[0025] 图2为LSTM单元结构图;
[0026] 图3为注意力机制作用原理示意图;
[0027] 图4为注意力机制作用的三个阶段示意图;
[0028] 图5(a)为MAE指标变化示意图;图5(b)为RMSE指标变化示意图;图5(c)为MAPE指标变化示意图。

具体实施方式

[0029] 如图1所示的基于时空注意力机制的路口通行时间预测方法,具体包括以下步骤。
[0030] 步骤S1,采集每辆车辆的所有原始GPS轨迹数据集,每条所述原始GPS轨迹数据集包括车辆行驶的路径、所述路径上的多个GPS采样点,本实施例中采用了某城市1.4余万辆
出租车在一个月内(2014/8/3/‑8/30)之间产生的GPS轨迹数据,形成原始GPS轨迹数据集。
[0031] 步骤S2,对所有车辆的原始GPS轨迹数据集进行清洗,删除部分GPS轨迹数据,形成新GPS轨迹数据集,本实施例中,将距离过长或者过短的轨迹进行了删除,使得保留的数据中最长的轨迹距离是20千米,最短的轨迹距离是2千米,一条轨迹的最长时间是3000秒,其中,一条数据中包含11条字段信息,构成了一条行驶轨迹,每个轨迹包含纬度、经度、时间戳、日期、轨迹开始时间、车牌号、载客状态等信息,数据清洗后,每天的数据量大约有500000条轨迹,在实验中,训练集使用前18天的数据,评估集使用中间5天的数据,测试集使用最后5天的数据。
[0032] 轨迹数据中每个字段的含义为:time_gap表示一条车辆轨迹中每个GPS点与第一个GPS点之间的时间间隔,单位为秒;dist_gap表示一条车辆轨迹中每个GPS点与第一个GPS点之间的距离间隔,单位为千米;dist表示轨迹路径的总长度,单位为千米;lons、lats表示路径中每个GPS采样点的经、纬度信息;driverID表示车牌号信息;dataID、weekID表示采样日期;States表示车辆载客状态,States显示0.0代表出租车空载状态,States现实1.0代表出租车载人状态;timeID表示车辆轨迹开始时间。
[0033] 从新GPS轨迹数据集中匹配车辆的一条路径Q,所述路径Q是一系列连续的GPS采样点的集合,Q={q1,q2,…,qi,…,qn},其中qi表示第i个GPS采样点,qn表示第n个GPS采样点,每个元素qi包括经度qi.lon、纬度qi.lat、时间戳qi.ts、开始时间、车牌号、日期、是否载客、通行距离dis(q1qn),通行距离dis(q1qn)即为q1到qn的距离。
[0034] 步骤S3,建立通行时间预测模型Tt+δ(Q)=f{Tt(Q)},其中,Tt(Q)已知,表示路径Q在t时刻的通行时间,Tt+δ(Q)表示路径Q在t时刻后未来δ时刻的通行时间,利用给定的历史路径训练所述通行时间预测模型,通过学习行驶轨迹间的时空依赖关系,来学习模型参数,在所述通行时间预测模型内,在对道路车辆的通行时间进行预测时,需要考虑外部因素的影响,如车牌号,日期,出租车载客状态,以及行驶的出发时间,本申请设定用于处理轨迹中的外部信息的外部因素机制,因为这些外部因素值是分类值,不能直接输入到神经网络中,所以M×1采用嵌入方法将外部因素值形成的分类变量l∈[L]转化为嵌入空间R ,形成嵌入向量,将
所述嵌入向量与所述通行距离dis(q1qn)进行连接,形成外部因素机制的输出ext。
[0035] 步骤S4,在所述通行时间预测模型内,本申请设定用于捕捉道路轨迹的时空依赖性的时空长短期记忆网络,模型使用了长短期神经网络层与时间长短期网络层分别来捕捉
车辆轨迹数据之间的空间依赖性与时间依赖性,实现对时间序列数据的准确地预测分析,
采用非线性函数,结合长短期记忆神经网络,将非线性函数的输出向量作为长短期记忆神
经网络的输入,输出特征图spa,将所述特征图spa和所述输出ext一同输入时间卷积网络,输出为时空特征序列,即时空特征。
[0036] 具体为:步骤S41,在所述通行时间预测模型内,使用一个非线性函数将路径位置信息映射到向量ploc中,向量ploc中的每个元素为ploci,具体公式为:ploci=tanh(Wploc),其中,<>表示路径的连接操作,Wploc表示向量ploc的学习参数矩阵,tanh为激活函数,qi.lat,qi.lon分别表示采样点qi的纬度和经度。
[0037] 步骤S42,通过LSTM模型中的卷积层提取路径Q的空间信息特征,通过LSTM模型中的池化层对所述空间信息特征进行压缩,提取主要特征,并通过LSTM模型中的长短期记忆
2
网络层输出convi,具体公式为:
[0038] ,
[0039] ,其中convi1表示路径Q的第i个采样点通过卷积层conv的第2
一次输出,convi表示路径Q的第i个采样点通过卷积层conv的第二次输出, 表示卷积层
(1)
conv第一次输出的学习参数矩阵, 表示卷积层conv第二次输出的学习参数矩阵,b 表
(2)
示第一次输出的参数,b 表示第二次输出的参数,σ为激活函数,通过LSTM模型中的卷积网络层得出特征图spa,通过LSTM模型中的上采样层放大特征图spa的维数,使其具有更高的
分辨率。
[0040] 本申请采用的LSTM模型如图2所示,LSTM神经元各部分的计算方式如下:
[0041] it=σ(∑Wxixt+∑Whixt‑1+∑Wctxt‑1+bi),
[0042] ft=σ(∑Wxfxt+∑Whfxt‑1+∑Wcfxt‑1+bf),
[0043] ot=σ(∑Wxoxt+∑Whoxt‑1+∑Wccxt‑1+bo),
[0044] ct=ftct‑1+ittanh(∑Wxcxt+∑Whcxt‑1+bc),
[0045] ht=ottanh(ct),
[0046] 其中,it,ft,ot,ct分别表示输入门,遗忘门,输出门及记忆单元的值,Wxi、Whi、Wct、Wxf、Whf、Wcf、Wxo、Who、Wcc、Wxc、Whc为各类权重,bi、bf、bo、bc为偏置,xt‑1、xt为输入,σ为sigmoid函数,t为神经元间的激活向量,ht是输出结果,tanh为双曲正切函数,LSTM模式是对传统RNN模型的一种改进,在RNN模型的基础上加入了特定的LSTM神经元,来解决RNN存在的长时间依赖问题和经过处理数据集的序列过长导致的梯度爆炸问题,通过加入特殊的设计可以有效的解决长时间依赖而且能记住很久以前的历史信息,在LSTM中,通过不同的卷积滤波
器进行卷积运算将得到几种不同的特征映射,同一特征映射中的神经元共享权重。共享权
值的优点是减少了过拟合的发生,并减少了网络中的层到层连接。相比于其他深度网络模
型,LSTM模型较好地用于人脸识别、目标跟踪、自然语言处理、语音识别等方面,LSTM模型为现有技术。
[0047] 步骤S43,采用时间卷积网络,将所述特征图spa和所述输出ext作为所述时间卷积网络的输入,更新状态,公式为:ri=σ(Ws*spa+We*ext+Wh*ri‑1),其中,Ws,We,Wh是时间长短期记忆网络层中使用的学习参数,σ是激活函数,得出时空特征序列{r1,r2,r3,…,r|T|+k+1},其中,T为通行时间,k表示邻近|T|的个数,公式中的ri和ri‑1为时空特征序列中的一个元素。
长‑短时存储器网络对序列模型的时间预测精度较高,其结构也更加简单清晰。
[0048] 步骤S5,在所述通行时间预测模型内,将外部因素机制和时空长短期记忆网络的输出作为多任务学习机制的输入,最后,利用多任务学习机制部分来实现局部路径通行时
间预测和整体路径通行时间预测的平衡,得出最终的预测时间。
[0049] 步骤S51,采用时间卷积网络的两个全连接网络层将时空特征序列{r1,r2,r3,…,r|T|+k+1}映射为时间序列{h1,h2,h3,…,h|T|+k+1},时间序列的任意一个元素hi表示子路径qi→qi+1→…→qi+k‑1预测的通行时间;步骤S52,建立注意力机制,将时空特征序列{r1,r2,r3,…,r|T|+k+1}输入到所述注意力机制中,通过步骤S51,注意力机制对时空特征序列{r1,r2,r3,…,r|T|+k+1}的操作实质为对时间序列{h1,h2,h3,…,h|T|+k+1}的进行加权求和操作,根据不同路径对于整体路径的重要程度设置不同的权重,获得向量ratt,具体公式为
[0050] ,
[0051] ,
[0052] ,其中,ratt是根据注意力分布获取的信息,zi表示第i个输入序列经过激活函数处理过的序列,zj表示第j个输入参数经过激活函数处理过的参数,αi为注意力权重,i为第i个输入序列,j为第j个输入参数,z表示激活函数结果;步骤S53,将向量ratt输入到全连接网络层得出整个路段的通行时间hen。
[0053] 注意力机制有不同的实现和应用,如果假设输入数据集的每个元素由一个地址(Key)和一个值(value)组成,其给定的目标是T,最终的结果是注意力权重,那么注意力机制的作用原理可以用图3来表示。图4显示了注意力机制作用的三个阶段,其中F(T,Key)是
用来相关性的函数,Ri和αi,分别是输入数据集中第i个元素的相关性和注意力权重,i=1,
2,…,n,n为输入数据集中的元素个数。从图3能够看出,可以计算输入特征xt的注意力权重αt,并且将注意力机制引入神经网络来加权相应的输入特征。加权特征 代替原始输入xt作为神经网络的输入。
[0054] 注意力机制的实现可以表示为:
[0055] et=Attend(xt,st‑1,αt‑1),
[0056] ,
[0057] ,其中et是注意力得分,由输入xt、先前状态st‑1和先前注意力权重αt‑1确定,αtj为注意力权值,代表第i个查询向量与第j个输入信息的注意力权重,etj为第i个查询向量与第j个输入信息的注意力打分数值。注意力机制根据过去和未来的输入特征,使模型能够学会在不同的时间对输入特征给予不同的关注。
[0058] 实现过程如下:步骤1.计算每个当前输入特征和当前目标的相关性;步骤2.通过使用softmax公式,每个相关性被转换成一种概率形式;步骤3.将每个获得的概率乘以相应输入特征的隐式表示,以表示该特征对预测目标的贡献,并将所有输入特征的贡献相加在
一起作为输入部分,以预测下一个数据。
[0059] 该方法是基于原始数据集的车辆经纬度、点时间数据来构造的。在传统时间预报方法的基础上,引入了新的交叉特性:天气、各路口车流量、上下班高峰时段,在构建时间预测模型时,将时间数据与空间数据结合,带有注意力权重的路口时间预测模型,该模型的正确性和正确性不受汽车车速变化的限制。该方法能有效地解决汽车在不同时间运行时的航
迹起点和航迹的不确定性,通过对起始点位置的分类,对时间估计模型进行了优化,使得预测的时间和实际的行车时间准确率超过80%,使得交通组织更加合理、层次分明。
[0060] 步骤S6,对所述通行时间预测模型进行训练优化,采用两个损失函数分别定义子路径预测的通行时间的相关损失函数的平均值L1和整个路段的通行时间的相关损失函数
Le,定义损失函数loss为Ll与Le的加权和,通过所述损失函数loss的值评估模型性能,本申请进行了大量的实验来评估模型在真实轨迹数据集上的性能,本实施例运行的系统是
linux 系统,采用的编程语言是Python,库版本为pytorch1.2。
[0061] 步骤S6具体为:步骤S61,采用第一个损失函数定义所有子路径的相关损失函数的平均值,具体公式为:
[0062] ,其中qi+k‑1.ts表示第i+k‑1个GPS采样点的时间戳,w为学习参数;步骤S62,采用第二个损失函数定义整体路段的相关损失函数,具体公式为
[0063] ,其中,q|T|表示第|T|个GPS采样点,q|T|.ts表示第|T|个GPS采样点的时间戳,q1.ts表示第1个GPS采样点的时间戳, 表示第
个GPS采样点的时间戳;步骤S63,采用损失函数loss定义第一个损失函数L1
和第二个损失函数Le的加权和,具体公式为loss=α·L1+(1‑α)Le,其中α表示平衡L1和Le的权重的系数。
[0064] 步骤S7,采用MAE、RMSE和MAPE中三种评价指标对所述通行时间预测模型的预测结果进行评价,假设通过模型预测的道路通行时间为 ,实际道路通行时间为yi,论文选用了以下三种评价指标来评估模型的预测性能。
[0065] (1)平均绝对误差(Mean Absolute Error,MAE)是预测值与真实值偏差的平均值,用来衡量预测值与真实值之间的误差情况。MAE 越小,表示预测模型越好,其定义如下:
[0066] ;
[0067] (2)均方根误差(RootMean Square Error,RMSE)是预测值与真实值偏差的平方与预测次数比值的平方根,用来衡量预测值与真实值之间的偏差。RMSE 越小,表示预测值与真实值之间的误差越小,模型越好,其定义如下:
[0068] ;
[0069] (3)平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)是预测值与真实值偏差和真实值比值的平均,用来衡量预测值与真实值误差的大小,有效解决评价指
标中存在的鲁棒性问题,其定义如下:
[0070] ;
[0071] 使用Adam优化算法以5倍交叉验证方式来训练模型,在模型的训练过程中,设置学习率为0.001,批处理大小为64,训练周期为200轮,研究了在多任务学习部分,当参数α取不同值时,对预测准确性的影响,模型具有良好的鲁棒性,仅当α取0或者1时,模型的误差较大。其它取值时,误差在一个稳定的范围内浮动,当综合考虑两种学习任务时,模型取得最优的预测结果。
[0072] 本实施例使用三种模型进行实验,分别是单一LSTM、引入GCN模型处理数据的GCN‑LSTM、以及本申请采用的ATTENTION‑LSTM,实验过程中MAE、RMSE、MAPE评价指标的变化如图5(a)、5(b)、5(c)所示,随着迭代次数的增加,三种模型的MAE、RMSE、MAPE均稳步下降,虽然偶尔会有增长,但总体下降是明显的,前100次迭代过程中,误差下降明显,后期误差变化趋于稳定,在处理时间序列方面,本申请采用的模型更加容易处理时间序列中的长期依赖特
性,并且由于本申请采用的模型支持多输入通道,可以添加多个时间序列量,本申请采用的模型可以更加快速收敛,因此,与其他两种模型相比,本申请采用的模型误差减小得很快,且减小幅度很大,最后,模型的预测的MAPE误差降到10.58%,与单一LSTM相比,误差减少了
6%。
[0073] 上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明
精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。