一种基于土地利用信息的路网交通流量动态模拟方法转让专利

申请号 : CN202110402717.9

文献号 : CN113313937B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨道源徐洪磊吴睿王人洁宋媛媛杨孝文

申请人 : 交通运输部规划研究院

摘要 :

本发明公开了一种基于土地利用信息的路网交通流量动态模拟方法,通过本方法可以基于部分路段采集流量对全路网交通流进行模拟,从而刻画区域路网交通变化时空分布特征,并可以对路网交通运行状况进行评估。交通需求模型方法是指利用包括交通平衡模型、交通流密度模型在内的交通模型对流量进行模拟。本发明使用的基于土地利用信息的交通流量模拟方法,利用土地利用信息的高分辨率动态模拟路网交通流特征,从而克服传统参数分配方法导致的时空分辨率不足、结果误差大的问题;通过引入随机森林模型进行模拟,不再需要进行复杂交通需求调研,有效提升了模拟的效率,由于土地利用信息的高覆盖率也讲模拟边界从城市内部拓展到城市区域乃至全国层面。

权利要求 :

1.一种基于土地利用信息的路网交通流量动态模拟方法,其特征在于:实现该方法的步骤为:

步骤1,收集区域内路网部分路段交通流信息,具有交通流量的部分路段为路段集A,没有交通流量的路段成为路段集B,包括:分车型的道路流量及路段速度;

步骤2,收集路网所有路段土地利用信息,土地利用信息需要包括人口密度、道路密度以及距离交通枢纽的距离会影响交通流变化的变量;将这些土地利用信息根据自身特征整理为不同的预测变量;

步骤3,利用随机森林模型在路段集A上建立道路土地利用信息和路段交通流量之间的关系;

步骤4,将收集的路段集A上的路段流量数据随机平均划分成十个测试集,每次采用其中九组数据作为训练集进行建模,剩下的一组数据作为测试集,遍历十组数据后,每组数据都会成为一次测试集,采用十折交叉验证来验证基于土地利用信息的流量模拟模型准确性;

步骤5,基于模型识别在交通流模拟过程中最重要的预测变量;利用随机森林模型对区域交通流进行逐小时模拟从而获取区域交通流的时间变化特征,并计算通过随机置换预测变量观测值导致袋外误差率变化来说明各预测变量在模拟各交通流特征的重要性;其主要计算原理如下式所示:

其中,VRIij为预测变量Xi在第j棵树上的变量相对重要性;OOBj为第j棵树上袋外观测值j

数目;Yk为第k个袋外观测值的真实结果;Yk1为预测变量Xi置换观测值前第j棵树对第k个袋j

外观测值的预测结果;Yk2为预测变量Xi置换观测值后第j棵树对第k个袋外观测值的预测结果;I(x)为指示函数,相等为1,不相等为0;若Xi没有在第j棵树的建模过程中出现,则VRIij为0;由此,预测变量Xi在整个随机森林中VRIi的计算方法如下:其中,N为随机森林树木总量;VRIi越大,预测变量Xi在随机森林预测重型要性越高;

步骤6,利用步骤3建立的土地利用信息到道路流量的映射关系和步骤2收集的没有交通流信息路段土地利用信息,模拟整个区域其他路段交通流量信息。

2.根据权利要求1所述的一种基于土地利用信息的路网交通流量动态模拟方法,其特征在于:为了基于部分道路监测流量获取全路网的交通流量信息,采用参数分配或者交通需求模型的方法。

3.根据权利要求2所述的一种基于土地利用信息的路网交通流量动态模拟方法,其特征在于:使用的基于土地利用信息的交通流量模拟方法,利用土地利用信息的高分辨率动态模拟路网交通流特征。

4.根据权利要求2所述的一种基于土地利用信息的路网交通流量动态模拟方法,其特征在于:交通需求模型方法是指利用包括交通平衡模型、交通流密度模型在内的交通模型对流量进行模拟;交通需求模型基于OD出行矩阵等对方法对路网交通流进行仿真模拟,应用范围集中在某段道路的以及城市的部分核心区域骨干路网的交通流特征模拟。

说明书 :

一种基于土地利用信息的路网交通流量动态模拟方法

技术领域

[0001] 本发明属于地理信息数据和交通数据挖掘应用领域,主要是利用土地利用信息数据模拟道路交通流量的方法。

背景技术

[0002] 对路网交通流量进行全面动态流量模拟,不仅可以识别路网交通运行状况,也可以为后续交通管控和排放治理提供数据支撑。
[0003] 传统方法是通过交通监测设备,如磁感线圈和视频摄像头等,获取路段的交通流量和路段速度。然而由于上述设备能够采集的交通数据在路网的覆盖范围有限因而无法刻
画全路网交通流特征。近年来,车车通信(Vehicle‑to‑Vehicle,V2V)和车路协同(Vehicle‑
to‑Infrastructure,V2I)技术(如射频识别技术,Radio‑Frequency Identification,
RFID)不断发展,虽然这些智能交通通信技术能够极大的提升获取的交通流数据的多样性
以及准确性,然而其高于传统设备的安装费用使其目前仅能在一些发达城市的核心区域逐
步推广应用还难以覆盖到区域乃至全国范围。
[0004] 为了获取包含城际间道路的全路网的交通流量信息,以往研究往往采用参数分配或者交通模型的方法。参数分配方法中,车队活动水平通常是最为常用的分配参数。国内研
究中主要是通过将将不同车型的年均行驶里程(Vehicle Kilometer Travel,VKT)分配到
路段层面,再结合以市/县为单位的分车型机动车保有量计算了全国路网层面的车辆活动
水平,然而这样的分配方法往往无法反映研究范围下最小划分行政单位内部交通流量的空
间差异。美国的研究将美国年均行驶里程数据库(AnnualAverage Daily Traffic,AADT)基
于道路类型进行拆分,这种拆分方法相较于国内的年均VKT更能反应道路车流的时空分配
特征,但是仍然存在部分问题:首先AADT数据的收集往往仅收集部分道路的样本流量数据
(Sample Panel)从而代替整个片区的完整流量(Full Extent);其次由于AADT数据的上报
也是以州为单位,因而也不可避免地使用一些经验分配。上述两种分配方式的结果都不可
避免地造成了其与实际道路交通流量空间分布特征的差异。此外由于交通分配参数都是以
年为单位统计的,因而在时间分辨率上仅仅能够反映年际之间的空间分布差异,难以反映
更为细致的时间分布特征从而无法用于对短期交通管控措施(如京津冀区域重污染时期的
交通管控措施)的精准评估。传统的交通需求模型包括交通平衡模型、交通流密度模型。交
通需求模型主要基于OD出行矩阵等对方法对路网交通流进行仿真模拟,但是由于这些模型
往往要求模拟路网复杂性不高且连通性完整,同时需要对模拟区域的出行特征进行调研或
假设,加之模拟过程耗费时间较多,因而应用范围主要集中在某段道路的以及城市的部分
核心区域骨干路网的交通流特征模拟,难以在较大的城市乃至区域路网上应用。
[0005] 此外,上述模型方法采用的交通流数据库在应用上还面临这着计算量巨大、难以实时处理的问题,难以适应未来对多源数据融合、实时传输及处理的需求。针对传统区域路
网交通模拟方法存在的计算效率低、时空精度低等问题,本专利研究构建了基于土地利用
的机器学习模型实现区域骨干路网交通流特征和污染排放的动态分析,兼具科学性和对大
数据实时化处理的适应性,且建模方法迁移能力强,是目前一种理想的模拟交通流时空分
布特征的方法。

发明内容

[0006] 本发明的目的是提供一种基于土地利用信息的路网交通流模拟方法,通过本方法可以基于部分路段采集流量对全路网交通流进行模拟,从而刻画区域路网交通变化时空分
布特征,并可以对路网交通运行状况进行评估。
[0007] 本发明技术方案一种基于土地利用信息的路网交通流量动态模拟方法,实现该方法的主要步骤为:
[0008] 步骤1,收集区域内路网部分路段交通流信息,这里称具有交通流量的部分路段为路段集A,没有交通流量的路段成为路段集B,主要包括:分车型的道路流量及路段速度。
[0009] 步骤2,收集路网所有路段(包括路段集A和B)土地利用信息,土地利用信息需要包括人口密度、道路密度以及距离交通枢纽(机场、货运中心)的距离等可能会影响交通流变
化的变量。将这些土地利用信息根据自身特征整理为不同的预测变量。
[0010]
[0011]
[0012] 步骤3,利用随机森林模型在路段集A上建立道路土地利用信息和路段交通流量之间的关系。
[0013] 随机森林是一种集成多棵决策树训练及预测结果的分类器,其主要原理是通过训练一批决策树从而利用所有决策树预测结果的平均值(回归问题)或多数结果(分类问题)
作为随机森林的预测结果。随机森林的构建方法如下:
[0014] (1)从M个预测变量中选取m个预测变量作为一棵决策树的预测变量。通常而言,对于分类问题,m为M的平方根;对于回归问题,m为M的三分之一;
[0015] (2)从N个观测值中通过有放回随机采样(Bootstrap)的方法构建的等同于样本个数的观测值作为一棵决策树的训练集,该训练集中的预测值数目约为N的三分之二,剩下的
三分之一被称为袋外观测值(Out ofBag Observation,oob Obervation)作为后续随机森
林的测试集从而评估其误差;
[0016] (3)每棵树完整分类不进行剪枝,通过确定最后一个节点分裂后的观测值数量,即最小叶片数,来结束分类。
[0017] 由于在上述构建方法中对于观测值选取和预测变量的选取都是随机的,因此避免在训练过程中产生的过拟合问题,同时由于每次拟合都是部分的预测变量和观测值,因此
随机森林对缺失值不敏感,有着较好的抗噪能力。本研究中构建的随机森林包含300棵决策
树,最小叶片数为5。
[0018] 步骤4,将收集的路段集A上的路段流量数据随机平均划分成十个测试集,每次采用其中九组数据作为训练集进行建模,剩下的一组数据作为测试集,遍历十组数据后,每组
数据都会成为一次测试集,采用十折交叉验证(Ten‑Fold Cross Validation)来验证基于
土地利用信息的流量模拟模型的准确性。
[0019] 步骤5,基于上述模型识别在交通流模拟过程中最重要的预测变量。利用随机森林模型对区域交通流进行逐小时模拟从而获取区域交通流的时间变化特征,并计算通过随机
置换预测变量观测值导致袋外误差率变化来说明各预测变量在模拟各交通流特征的重要
性。其主要计算原理如下式所示:
[0020]
[0021] 其中,VRIij为预测变量Xi在第j棵树上的变量相对重要性(Variable Relative j
Importance);OOBj为第j棵树上袋外观测值数目;Yk为第k个袋外观测值的真实结果;Yk1 为
j
预测变量Xi置换观测值前第j棵树对第k个袋外观测值的预测结果;Yk2为预测变量Xi置换观
测值后第j棵树对第k个袋外观测值的预测结果;I(x)为指示函数,相等为1,不相等为0。特
别地,若Xi没有在第j棵树的建模过程中出现,则VRIij为0。由此,预测变量Xi在整个随机森
林中VRIi的计算方法如下:
[0022]
[0023] 其中,N为随机森林树木总量。VRIi越大,预测变量Xi在随机森林预测重型要性越高。
[0024] 步骤6,利用步骤3建立的土地利用信息到道路流量的映射关系和步骤2收集的没有交通流信息路段土地利用信息,模拟整个区域其他路段交通流量信息。
[0025] 为了基于部分道路监测流量获取全路网的交通流量信息,目前的研究主要采用参数分配或者交通模型的方法。
[0026] 参数分配方法通常是利用车队活动水平或燃油消耗量分配到路段层面,再结合以市/县为单位的分车型机动车保有量计算了全国路网层面的车辆活动水平,然而这样的分
配方法往往无法反映研究范围下最小划分行政单位内部交通流量的空间差异。美国的相关
研究将美国年均行驶里程数据库(AnnualAverage Daily Traffic,AADT)基于道路类型进
行拆分,这种拆分方法相较于国内活动水平或燃油消耗的拆分方法更能反应道路车流的时
空分配特征,但是仍然存在部分问题:首先AADT数据的收集往往仅收集部分道路的样本流
量数据(Sample Panel)从而代替整个片区的完整流量(Full Extent);其次由于AADT数据
的上报也是以州为单位,因而也不可避免地使用一些经验分配。国内外的基于参数的分配
方式的结果都不可避免地造成了其与实际道路交通流量空间分布特征的差异。此外由于交
通分配参数都是以年为单位统计的,因而在时间分辨率上仅仅能够反映年际之间的空间分
布差异,难以反映更为细致的时间分布特征从而无法用于对短期交通管控措施(如京津冀
区域重污染时期的交通管控措施)的精准评估。
[0027] 交通需求模型方法是指利用包括交通平衡模型、交通流密度模型在内的交通模型对流量进行模拟。交通需求模型主要基于OD(Orientation‑Destination)出行矩阵等对方
法对路网交通流进行仿真模拟,但是由于这些模型往往要求模拟路网复杂性不高且连通性
完整,同时需要对模拟区域的出行特征进行调研或假设,加之模拟过程耗费时间较多,因而
应用范围主要集中在某段道路的以及城市的部分核心区域骨干路网的交通流特征模拟,难
以在较大的城市乃至区域路网上应用。
[0028] 本发明使用的基于土地利用信息的交通流量模拟方法,利用土地利用信息的高分辨率动态模拟路网交通流特征,从而克服了传统参数分配方法导致的时空分辨率不足、结
果误差大的问题;另一方面,通过引入随机森林模型进行模拟,从而不再需要进行复杂交通
需求调研,有效提升了模拟的效率,由于土地利用信息的高覆盖率也讲模拟边界从城市内
部拓展到城市区域乃至全国层面。

附图说明

[0029] 附图1京津冀监测站点位置示意图。
[0030] 附图2京津冀站点小时交通流箱式分布图。
[0031] 附图3不同情景下京津冀区域机动车逐小时分车型活动水平变化。

具体实施方式

[0032] 为了使本技术领域的人员更好地理解本发明,下面将结合本发明实施例中的附图,以京津冀地区路网交通流模拟为例说明对本发明实施例中的技术方案进行清楚、完整
地描述。
[0033] 步骤1,收集区域路网有监测站点的数据信息,以京津冀为例,站点位置信息如附图1所示,采集的交通信息主要包括站点监测获得的分车型(包括中小型客车、大型客车、轻
型货车、中型货车和重型货车)路段流量以及路段速度(典型车型流量和速度变化如附图2
所示)。
[0034] 步骤2,收集道路周围用地信息,选取的预测变量包括了人口密度、道路密度以及距离交通枢纽(机场、货运中心)的距离等可能会影响交通流变化的变量。表1列出了本研究
选取的用于训练基于土地利用模型的预测变量。
[0035] 从变量格式上来分,可以分为点变量和缓冲区变量,点变量是指从路段中点提取出的地理信息;缓冲区变量是指以路段中点为中心画出不同半径的缓冲区,通过计算缓冲
区内单位面积的地理信息来表征该半径缓冲区下的地理信息。从变量内容上来分,主要可
以分为土地利用类型相关和道路信息相关,土地利用类型相关变量主要包括了土地利用类
型、兴趣点(Point ofInterest,POI)、距离变量以及人口密度等共计139个预测变量。土地
利用类型参考了清华大学宫鹏课题组的研究成果,其利用随机森林模型,将收集到的2015
年的分辨率为30m的全球用地类型数据与哨兵2号(Sentinel 2)采集到的分辨率为10m的全
球影像相匹配,从而生成了2017年分辨率为10m的全球用地类型数据库。基于该数据库信
息,根据本研究划分的不同缓冲区提取计算各缓冲区内单位面积的用地类型面积。POI信息
来自高德地图,高德开放平台提供多种应用程序编程接口(Application Programming 
Interface,API),其中包括搜索服务API,可以实现POI信息的查询功能,研究基于该API的
查询结果将POI分为十种并提取计算其在各缓冲区内单位面积的POI数目。距离变量是通过计
[139]
算路段中点到各相应POI的欧式距离得到的。人口数据来自世界人口数据库(WorldPop) ,
其利用随机森林的方法估计了单位像素点(people perpixel,ppp)和单位公顷(people 
per hectare,pph)的人口,从而构建了分辨率为100m的人口数据集,基于联合国(United 
Nation,UN)公布的人口数据对估计的人口数据集进行了以国家单位的总量约束。道路信息
相关变量主要包括了道路种类、道路周围其他道路密度、道路设计信息(道路车道数和设计
时速)以及路段位置信息(经纬度及所在的行政区划)等共计11个预测变量。道路信息相关
变量主要来自于北京四维图新科技股份有限公司开发的中国电子导航地图(China 
Digital Road‑network Map,CDRM),本研究中区域骨干路网包含京津冀区域内18824km高
速、8989km国道和22847km省道。
[0036] 表1预测变量种类
[0037]
[0038]
[0039] 注:#为缓冲区变量,本研究中每个变量缓冲区半径设置为50m,100m,200m,300m,500m,1000m,2000m和5000m。
[0040] 步骤3,利用通过参数比选,构建本研究采用的随机森林包含300棵决策树,最小叶片数为5。
[0041] 步骤4,采用十折交叉法验证模型准确性。选取皮尔逊相关系数(Pearson R),均方根误差(Root Mean Squared Error,RMSE)和平均绝对误差(MeanAbsolute Prediction 
Error,MAPE)作为评估测试集中模拟值和观测值之间的差异的统计指标,其计算公式分别
为:
[0042]
[0043]
[0044]
[0045] 最后模拟结果如表2所示
[0046] 表2交叉验证结果
[0047]
[0048] 步骤5,进一步利用随机森林模型对区域交通流进行逐小时模拟从而获取区域交通流的时间变化特征,并计算通过随机置换预测变量观测值导致袋外误差率变化来说明各
预测变量在模拟各交通流特征的重要性。其主要计算原理如下式所示:
[0049]
[0050] 其中,VRIij为预测变量Xi在第j棵树上的变量相对重要性(Variable Relative j
Importance);OOBj为第j棵树上袋外观测值数目;Yk为第k个袋外观测值的真实结果;Yk1 为
j
预测变量Xi置换观测值前第j棵树对第k个袋外观测值的预测结果;Yk2为预测变量Xi置换观
测值后第j棵树对第k个袋外观测值的预测结果;I(x)为指示函数,相等为1,不相等为0。特
别地,若Xi没有在第j棵树的建模过程中出现,则VRIij为0。由此,预测变量Xi在整个随机森
林中VRIi的计算方法如下:
[0051]
[0052] 其中,N为随机森林树木总量。VRIi越大,预测变量Xi在随机森林预测重型要性越高。
[0053] 基于随机森林逐小时模拟结果,对每个小时的变量重要性进行排序,将典型工作日全天24小时的变量排名平均值作为该预测变量的重要性指数。表3列出了典型工作日模
型中各个模拟变量下最重要的十个预测变量及其24小时变量排名的平均值,整体而言,相
比于用地类型相关的预测变量(如用地类型、POI等),与道路信息相关的预测变量(如道路
种类、道路密度、车道数等)在模拟交通流特征时重要性更为凸显。特别地,在重型货车流量
模拟的过程中,最重要的十个预测变量全部都是和道路地理信息相关的预测变量。对于客
车车队(中小型客车和大型客车)和轻型货车车队(轻型货车和中型货车)而言,仍然有部分
较为重要的预测变量是与用地类型相关的,如人口和POI等。较为重要的与用地类型相关的
变量缓冲区半径都较大(一般为2000m和5000m),这主要是因为城际的交通流监测点通常位
于高速公路而远离市区,缓冲区较小的范围内人口和POI信息较为缺乏,从而导致其对预测
结果的影响不显著。
[0054] 表3预测交通流特征过程中最重要的十个预测变量
[0055]
[0056] 步骤6,根据交通流数据采集的时间段,对于京津冀区域路网研究主要设置如下三种模拟情景:
[0057] (1)典型工作日情景,该情景下的逐小时交通流特征为收集到的1月、4月、7月和11月各一周中的工作日逐小时交通流特征的平均;
[0058] (2)典型节假日情景,该情景下的逐小时交通流特征为收集到的1月、4月、7月和11月各一周中的节假日逐小时交通流特征的平均;
[0059] (3)重污染情景,为2017年11月4日至2017年11月7日京津冀区域遭受的重污染时间段,该时间段内京津冀区域大气污染传输通道,即“2+26”个城市于4日启动了重污染橙色
预警,与交通领域相关的主要应急措施包括:国I和国II排放标准轻型汽油车、建筑垃圾、渣
土、砂石等货运车辆禁止上路行驶;列入橙色预警期间工业企业停产限产名单企业实施停
产限产措施等。
[0060] 建立了2017年京津冀区域骨干路网高分辨率交通流数据库,解析了京津冀骨干路网交通流时空分布特征。工作日情景下区域骨干路网机动车活动水平总量为8.41亿车公里
(veh km),与节假日情景下总量为9.31亿车公里的车辆活动水平相比下降了10%。从车队
构成来看,小型客车活动水平削减占总削减约70%,除小型客车外,重型货车和轻型货车工
作日活动水平的削减分别贡献了总活动水平削减的16%和10%。重污染时期区域路网整体
车辆活动水平相比于典型工作日削减了23%,控制措施在北京的效果最为明显,北京整体
交通流活动水平相比于典型工作日削减了29%,中型货车和重型货车的削减尤为明显,削
减比例分别为42%和52%;相比之下,河北交通流活动水平的削减主要来源于小型客车,相
比典型工作日削减比例为27%,中型货车和重型货车仅分别削减了5%和14%。