一种基于稀疏回归的融合时空因素的短时交通流量预测方法转让专利

申请号 : CN201910222787.9

文献号 : CN109979195B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郑增威杜俊杰孙霖

申请人 : 浙江大学城市学院

摘要 :

本发明涉及一种基于稀疏回归的融合时空因素的短时交通流量预测方法,包括步骤:1)交通流量数据预处理:使用min‑max标准化来对交通流量数据预测处理,将每个探测点的交通流量数据标准化到[0,1]范围内;2)时空因素字典构建:根据公式来构造时间因素字典,根据公式来构造空间因素字典;3)稀疏系数的求解和预测:对训练数据根据公式进行稀疏编码,求解稀疏系数α,根据稀疏系数α结合时空因素字典预测下一个时刻的交通流量。本发明的有益效果是:本发明提出的融合时空因素的稀疏回归预测方法(ST‑SR)要明显好于其他几种预测方法,且能实现定量分析因素的影响。

权利要求 :

1.一种基于稀疏回归的融合时空因素的短时交通流量预测方法,其特征在于,包括如下步骤:步骤一、交通流量数据预处理

使用min-max标准化来对交通流量数据预测处理,将每个探测点的交通流量数据标准化到[0,1]范围内,如公式(2)所示:其中,y表示原始的交通流量数据,min和max分别表示y的最小值和最大值,y'表示标准化的结果;

步骤二、时空因素字典构建

1)根据公式(3)来构造时间因素字典,假设预测时间点为 时间因素字典T定义如下:其中 表示过去第n天在t时刻的交通流量数据,n表示选取的历史天数,k表示训练数据的长度;

2)根据公式(4)来构造空间因素字典,假设预测时间点为 空间因素字典S定义如下:其中 表示第n个周边信息点在t-1时刻的交通流量数据,n表示选取的近邻点数量,k表示训练数据的长度;

3)完成时空因素字典Df的构建;

根据公式(5)所示的正交DCT-II字典,公式(6)所示的Kronecker Delta函数以及时间因素字典和空间因素字典构建交通流量时空因素字典Df的构建,如公式(7)所示;

Kj(n)=δ(n-j) j=N,N+1,...,2N-1  (6)其中i,j表示字典的第i和第j列,n表示字典列向量的大小,N表示列向量的数量;

其中,前2N列是由正交DCT-II和Kronecker Delta函数产生的字典,最后2列分别是时间因素和空间因素;

步骤三、稀疏系数的求解和预测

1)对训练数据根据公式(8)进行稀疏编码,求解稀疏系数α;

其中 表示历史交通流量, 是步骤二构建的时空因素字典,时间从t1到tk,α是待求解的稀疏系数

2)根据稀疏系数α结合时空因素字典预测下一个时刻的交通流量,如公式(9)所示;

其中 表示下一时刻的交通流量, 是步骤二构建的时空因素字典,α表示求解得到的稀疏系数。

说明书 :

一种基于稀疏回归的融合时空因素的短时交通流量预测方法

技术领域

[0001] 本发明涉及一种短时交通流量预测方法,更具体的说,它涉及一种基于稀疏回归的融合时空因素的短时交通流量预测方法。

背景技术

[0002] 目前,传统时间序列预测方法、基于机器学习的时间序列预测方法在交通流量预测问题上都有相关应用。基于SVM与自适应时空数据融合的短时交通流量预测模型,李巧茹等,北京工业大学学报,2015年4月3日公布了一种考虑空间因素的短时交通流量预测模型,模型主要思想是使用空间序列预测值对交通流时间序列预测结果进行修正。一种交通流量的预测方法和系统,蔡晓禹等,发明专利,2018年8月3日公布了一种交通流量的预测方法和系统,方法根据从预设态势数据库中依次获取的A时刻至T时刻的当天观测流量信息构建目标序列,然后根据目标序列和匹配序列矩阵构建融合距离矩阵,根据融合距离矩阵、预设系数和预设算法确定预测函数。一种改进引力搜索最小二乘支持向量机交通流预测,徐钦帅等,计算机应用研究,2018年9月30日公布了一种新的改进引力搜索算法(TCK-AGSA)对其进行参数寻优,实验结果表明该模型有效提高了预测的精度。基于时空分析和CNN的交通流量短时预测方法,钱伟等,控制工程,2019年1月20日公布了一种短时交通流预测组合模型,该模型包括灰色算法和ELM(ExtremeLearningMachine)神经网络2个子模型,通过实验证实,所提方法优于现有的一些成果。综上所述,目前大部分的研究工作本质上依然是依靠当前站点的历史交通流量数据来预测下一个时刻的交通流量。部分研究考虑了交通流量中的时空因素,但是这些方法往往面临建模复杂,模型可扩展性差,无法对因素进行定量分析等问题。因此,如何高效地融合时空因素,提高交通流量预测的精确度仍是研究的难点。

发明内容

[0003] 本发明的目的在于克服上述不足,提供一种基于稀疏回归的融合时空因素的短时交通流量预测方法。
[0004] 基于稀疏回归的融合时空因素的短时交通流量预测方法,包括如下步骤:
[0005] 步骤一、交通流量数据预处理
[0006] 使用min-max标准化来对交通流量数据预测处理,将每个探测点的交通流量数据标准化到[0,1]范围内,如公式(2)所示:
[0007]
[0008] 其中,y表示原始的交通流量数据,min和max分别表示y的最小值和最大值,y'表示标准化的结果;
[0009] 步骤二、时空因素字典构建
[0010] 1)根据公式(3)来构造时间因素字典,假设预测时间点为 时间因素字典T定义如下:
[0011]
[0012] 其中 表示过去第n天在t时刻的交通流量数据,n表示选取的历史天数,k表示训练数据的长度;
[0013] 2)根据公式(4)来构造空间因素字典,假设预测时间点为 空间因素字典S定义如下:
[0014]
[0015] 其中 表示第n个周边信息点在t-1时刻的交通流量数据,n表示选取的近邻点数量,k表示训练数据的长度;
[0016] 3)完成时空因素字典Df的构建;
[0017] 根据公式(5)所示的正交DCT-II字典,公式(6)所示的Kronecker Delta函数以及时间因素字典和空间因素字典构建交通流量时空因素字典Df的构建,如公式(7)所示;
[0018]
[0019] Kj(n)=δ(n-j)j=N,N+1,...,2N-1  (6)
[0020] 其中i,j表示字典的第i和第j列,n表示字典列向量的大小,N表示列向量的数量;
[0021]
[0022] 其中,前2N列是由正交DCT-II和Kronecker Delta函数产生的字典,最后2列分别是时间因素和空间因素;
[0023] 步骤三、稀疏系数的求解和预测
[0024] 1)对训练数据根据公式(8)进行稀疏编码,求解稀疏系数α;
[0025]
[0026] 其中 表示历史交通流量, 是步骤二构建的时空因素字典,时间从t1到tk,α是待求解的稀疏系数
[0027] 2)根据稀疏系数α结合时空因素字典预测下一个时刻的交通流量,如公式(9)所示;
[0028]
[0029] 其中 表示下一时刻的交通流量, 是步骤二构建的时空因素字典,α表示求解得到的稀疏系数。
[0030] 本发明的有益效果是:本发明提出的融合时空因素的稀疏回归预测方法(ST-SR)要明显好于其他几种预测方法,且能实现定量分析因素的影响。从RMSE来看,ST-SR模型在4个站点的平均预测精度相比SVR、LSTM和KNN在5分钟预测间隔上分别提高了2.70%,1.87%,2.11%,在15分钟预测间隔分别提高了17.71%,16.59%,9.53%,在30分钟预测间隔分别提高了35.60%,27.63%,10.83%。从MAPE来看,ST-SR模型的在5分钟预测间隔上的平均预测精度分别提高了1.73%、2.91%和1.69%,在15分钟和30分钟的预测间隔也要优于对比模型。

附图说明

[0031] 图1是本方法总体流程图;
[0032] 图2是不同因素的权重分布图。

具体实施方式

[0033] 下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
[0034] 基于稀疏回归的融合时空因素的短时交通流量预测方法,包括如下步骤:
[0035] 步骤一、交通流量数据预处理
[0036] 交通流量数据中,不同探测点之间的交通流量数值可能存在较大差异,但是这并不意味着为了探测点之间没有相关关系,为了更好地挖掘探测站点之间的关系,同时便于后续模型的训练,减少因数值差异带来的影响,本发明使用min-max标准化对交通流量进行预处理。
[0037] 步骤二、时空因素字典构建
[0038] 本发明首先根据DCT字典以及Kronecker Delta函数来构建基础字典。然后从时间和空间分析了交通流量之间相关性,并分别构建时间因素字典和空间因素字典,最终完成交通流量时空因素字典Df的构建,如公式(1)所示:
[0039] Df=[D,T,S]  (1)
[0040] 其中D是DCT字典和Kronecker Delta函数构成的基础字典,T是时间因素字典,S是空间因素字典。
[0041] 步骤三、稀疏系数的求解和预测
[0042] 使用步骤二中建立的时空因素字典对历史交通流量数据进行稀疏分解,求解稀疏系数,最后使用求得的稀疏系数结合时空因素字典来预测下一时刻的交通流量。
[0043] 本实施例的基于稀疏回归的融合时空因素的短时交通流量预测方法,总体流程图如图1所示,具体步骤如下:
[0044] 步骤一、交通流量数据预处理
[0045] 本发明使用min-max标准化来对交通流量数据预测处理,将每个探测点的交通流量数据标准化到[0,1]范围内,如公式(2)所示:
[0046]
[0047] 其中,y表示原始的交通流量数据,min和max分别表示y的最小值和最大值,y'表示标准化的结果。
[0048] 步骤二、时空因素字典构建
[0049] 4)根据公式(3)来构造时间因素字典,假设预测时间点为 时间因素字典T定义如下:
[0050]
[0051] 其中 表示过去第n天在t时刻的交通流量数据,n表示选取的历史天数,k表示训练数据的长度。
[0052] 5)根据公式(4)来构造空间因素字典,假设预测时间点为 空间因素字典S定义如下:
[0053]
[0054] 其中 表示第n个周边信息点在t-1时刻的交通流量数据,n表示选取的近邻点数量,k表示训练数据的长度。
[0055] 6)完成时空因素字典Df的构建。
[0056] 根据公式(5)所示的正交DCT-II字典,公式(6)所示的Kronecker Delta函数以及时间因素字典和空间因素字典构建交通流量时空因素字典Df的构建,如公式(7)所示。
[0057]
[0058] Kj(n)=δ(n-j)j=N,N+1,...,2N-1  (6)
[0059] 其中i,j表示字典的第i和第j列,n表示字典列向量的大小,N表示列向量的数量。
[0060]
[0061] 其中,前2N列是由正交DCT-II和Kronecker Delta函数产生的字典,最后2列分别是时间因素和空间因素。
[0062] 步骤三、稀疏系数的求解和预测
[0063] 3)对训练数据根据公式(8)进行稀疏编码,求解稀疏系数α。本发明使用Kim等学者发表在IEEE journal of selected topics in signal processing的文章An Interior-Point Method for Large-Scale l1-Regularized Least Squares中的方法来进行稀疏系数的求解。
[0064]
[0065] 其中 表示历史交通流量, 是步骤二构建的时空因素字典,时间从t1到tk,α是待求解的稀疏系数
[0066] 4)根据稀疏系数α结合时空因素字典预测下一个时刻的交通流量,如公式(9)所示。
[0067]
[0068] 其中 表示下一时刻的交通流量, 是步骤二构建的时空因素字典,α表示求解得到的稀疏系数。
[0069] 实验及结果:
[0070] 实验中使用的数据集来自Caltrans Performance Measurement System(PeMS)网站,该网站提供了超过39000个探测站点的交通流量数据,为了更好地验证我们预测方法的性能,本发明选择了位于城区和郊区,合计4个站点的交通流量数据来进行相关实验,4个站点的ID分别为500010021、1201100、1017510以及400665。
[0071] 本方法的目的是提供一种能融合时空因素的短时交通流量预测方法。为了衡量该方法的有效性,我们在数据集上对比了SVR、KNN、LSTM以及本发明提出的融合时空因素的预测方法(ST-SR)。实验数据为2017年1月到2017年6月,并去除其中的节假日。测试时间为有效天数的最后30天,即使用30天的平均误差来衡量模型的性能。本发明采用的误差指标是交通流量预测中使用最常用的RMSE和MAPE,分别如公式(10)和公式(11)所示。
[0072]
[0073]
[0074] 其中N表示预测的长度,Ft和At分别表示模型的预测值以及真实值。
[0075] 表1空间因素对不同交通环境的影响
[0076]
[0077]
[0078] 实验一对四个预测点进行了对比实验,第一组仅仅增加时间因素,第二组同时增加时间因素和空间因素。实验结果如表1所示。其中预测点1和预测点3的周围环境为郊区,而预测点2和预测点4位于城区,从表1可知,在增加空间因素后,综合RMSE和MAPE分析,预测点2和4的预测精度提升相较于1和3都要更为明显,表明城市中的交通流量更容易受到周边交通状况的影响。图2显示了ST-SR模型中不同因素权重的分布情况,总体上,时间因素的权重明显高于空间因素,表明时间因素相比空间因素对交通流量的影响更大。
[0079] 实验二对比了SVR、KNN、LSTM以及ST-SR的预测效果,为了进一步展示各个模型的性能,我们在5分钟,15分钟以及30分钟预测间隔上进行相关实验,实验结果分别如表2,表3,表4以及表5所示。从RMSE来看,ST-SR模型在4个站点的平均预测精度相比SVR、LSTM和KNN在5分钟预测间隔上分别提高了2.70%,1.87%,2.11%,在15分钟预测间隔分别提高了
17.71%,16.59%,9.53%,在30分钟预测间隔分别提高了35.60%,27.63%,10.83%。从MAPE来看,ST-SR模型的在5分钟预测间隔上的平均预测精度分别提高了1.73%、2.91%和
1.69%,在其他两种预测间隔上也要优于对比模型。实验结果证明ST-SR在四个不同位置的预测精度都要明显高于其他几个模型,表明ST-SR模型可以较好地适应不同的交通环境。
[0080] 表2不同预测模型在预测点1的性能比较
[0081]
[0082] 表3不同预测模型在预测点2的性能比较
[0083]
[0084] 表4不同预测模型在预测点3的性能比较
[0085]
[0086] 表5不同预测模型在预测点4的性能比较
[0087]