一种交通文本数据用于速度预测及行程规划方法转让专利

申请号 : CN202010353136.6

文献号 : CN111524353B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 徐懂事吴向平平力俊

申请人 : 中国计量大学

摘要 :

本发明属于数据挖掘、数据分析、深度学习领域,提供了一种交通文本数据用于速度预测及行程规划方法,首先及时收集互联网社交媒体平台发布的交通文本信息数据,通过文本分类、分词以及实体命名识别方法将非结构化的交通文本数据转为结构化的信息数据存入文件中,然后将交通流速度数据与矢量化后的交通文本数据进行数据融合,构建并通过LSTM深度学习网络模型进行交通流速度数据预测分析,最后通过预测分析的交通流速度数据结果,结合对应时段交通事件文本的内容,设计基于预测分析结果的动态路径规划方法。本发明可以为用户提供更为准确可靠的路径规划引导功能,同时帮助城市交通管理部门快速分析交通态势,对城市交通进行有效管理。

权利要求 :

1.一种交通文本数据用于速度预测及行程规划方法,包括如下步骤:步骤一,收集互联网社交媒体平台发布的交通文本数据,通过文本分类、分词以及实体命名识别方法将非结构化的交通文本数据转为结构化的信息数据存入文件中;

步骤二,将交通流速度数据与矢量化后的道路交通文本数据进行数据融合,构建并通过LSTM深度学习网络预测模型进行交通流速度预测分析;

步骤三,通过预测分析的交通流速度结果,结合对应时段交通事件文本的内容,并在传统的A*算法的基础上,设计基于预测分析结果的动态路径规划方法;

其特征在于,所述步骤三具体包括如下内容:计算从位置A下一个结点的实际代价函数g(n)时,将g(n)表示为到达下一道路节点所花的时间,设定阈值为10分钟,若根据当前道路的速度到达下一节点时间超过阈值,则利用预测模型预测到达时刻的速度,然后更新实际代价函数g(n)的值表示为t=s/v,其中s表示每个路段的路程,v表示预测的速度;

计算从位置点A到终点B的估计代价函数h(n)时,设位置A的经纬度为(Ax,Ay),位置B的经纬度是(Bx,By),在Manhattan距离M(A,B)的基础上,进一步考虑目标道路上的交通流速度以及交通事件影响,将A*算法中的估计代价函数h(n)进一步表示为:h(n)=M(A,B)×k=P×(|Ax‑Bx|+|Ay‑By|)×k,其中,k为交通事件的影响因子,如果通过计算预估到下一个道路结点的时刻内正好处于交通文本中集会活动封道绕行类型事件涉及事件的区域和时间范围内,则将k设置为5,以提高估计代价函数的值,如果为交通车辆事故事件类型,则将k设置为2,否则,k为常数1,P=2×π×R,R表示为地球的半径,因为P是常数,所以上述表达式进一步简化为:h(n)=M(A,B)×k=(|Ax‑Bx|+|Ay‑By|)×k,在计算open列表中的f(n)值的时候,将实际代价函数g(n)和估计代价函数h(n)与通过min‑max标准化方法进行归一化处理,计算方法如下:* *

f(n)=g(n) +h(n) =[g(n)‑gmin]/(gmax‑gmin)+[h(n)‑hmin]/(hmax‑hmin),* *

其中g(n) 表示g(n)的归一化结果,h(n) 表示h(n)的归一化结果,gmax表示open列表中最大的g(n)值,gmin代表open列表中最小的g(n)值,hmax表示open列表中最大的h(n)值,hmin代表open列表中最小的h(n)值,并在每次更新f(n)的值后,对open列表进行从小到大的排序。

2.如权利要求1所述的一种交通文本数据用于速度预测及行程规划方法,其特征在于,所述步骤一具体包括如下内容:

a.使用基于Python的遍历网页文档树提取出交通文本的标题、发布时间、报道交通发生和结束时间以及事件详细内容,然后根据关键字匹配的方法初步去除非交通相关的信息,获取道路交通相关信息;

b.利用朴素贝叶斯分类器对交通相关信息进行分类,分为交通车辆事故信息、道路维护信息、道路拥堵信息、集会活动绕行公告信息、极端天气提示以及其他非路况直接相关的交通文本信息,筛选出分类结果为交通路况相关的文本内容,并基于实际需要预测区域的路网的道路名称信息,使用关键词正则匹配的方法排除不符合当前研究区域范围内容的道路的交通文本信息;

c.使用Python中文分词组件jieba进行分词,在内置jieba词库的基础上建立自定义词典,提取出目标区域的道路名、地点词汇以及方位词后,利用高德地图提供的地理编码/逆地理编码API接口先解析出目前道路的经纬度坐标匹配路网结构,并根据方位词的描述进一步确定交通文本信息描述的所在路段。

3.如权利要求2所述的一种交通文本数据用于速度预测及行程规划方法,其特征在于,所述自定义词典包括目标区域的道路名、地点词汇、时间词和交通专业术语。

4.如权利要求1所述的一种交通文本数据用于速度预测及行程规划方法,其特征在于,所述步骤二具体包括如下内容:

将交通道路的历史交通流速度数据和通过独热码(one‑hot code)的方式将提取出来不同事件类型的交通文本信息转换为对应的数据矢量进行融合,组合成一个数据集,并将数据集以7:3的比例分为训练集和测试集,作为LSTM深度学习网络预测模型的训练集和测试集;

通过本时刻的前30分钟的历史交通流速度数据,预测后60分钟中每10分钟的交通流速度,其中数据间隔为5分钟,所以预测模型的输入数据构成6*N的矩阵,其中数据矩阵N表示每一行的维度由道路的交通流速度数据及处理好的交通文本信息独热码数据组成,所述数据矩阵N作为LSTM深度学习网络预测模型中每个cell的输入,并利用均方误差(mean squared error)作为损失函数,通过批梯度下降法更新预测模型权重参数,输出结果为所有道路的预测的交通流速度数据。

5.如权利要求4所述的一种交通文本数据用于速度预测及行程规划方法,其特征在于,所述独热码方式为设置一个具有5个分量的数据矢量,分别代表5种交通事件类型,当分类结果的文本类型属于这五种交通事件类型中的一种类型时,对应固定的数据矢量位置上的分量数值设为1,其余4个分量均为0。

说明书 :

一种交通文本数据用于速度预测及行程规划方法

技术领域

[0001] 本发明属于数据挖掘、数据分析、深度学习领域,尤其涉及一种交通文本数据用于速度预测及行程规划方法。

背景技术

[0002] 随着城市化的推动和现代化的发展,城市交通已成为我们生活中不可或缺的一部分,关系到城市经济的发展和智慧城市的建设。城市交通在更为便捷的同时,也出现了一系
列的交通问题,如城市了缓解持续增长的交通压力,许多城市都在拓宽和新建道路,但是城
市的道路交通资源是有限的,解决拥堵的关键问题不在于建设更多的道路,而在于如何合
理利用有限的交通资源来提高城市路网的运行效率。城市中每天会产生海量的交通数据,
包括车辆GPS数据、基本移动行人数据、交通事件等,如何有效利用这些数据解决城市交通
拥堵、道路规划等问题不论在过去、现在还是未来,都是城市交通研究的重点之一。与此同
时,人工智能领域尤其是在深度学习领域得到了较大的发展,做到了很多以往仅靠人力难
以解决的问题,通过将结合数以亿计的城市交通的历史数据作为数据集,进行建立深度学
习模型进行训练,来分析交通状况、优化交通设施建设和规划引导人们的交通出行成为了
可能。然而目前车流量的预测一般基于直接交通数据或者仅结合了天气、周末等因素进行
分析,没有结合如道路维护通知、交通事故报道等非交通直接因素,而这些因素从交通流速
度的历史数据看,其真实反映了道路交通的实际情况,会对交通流速度产生明显影响。目前
已有通过对网络论坛、热线电话及交通广播听众路况播报的文本数据进行统计分析城市道
路的大众舆论情况,但尚且缺乏深度挖掘交通事件文本信息与交通流速度间的关联用于交
通预测的方法。目前现有路径规划系统多仍旧是静态的路径规划方法或者已有动态的路径
规划方法但往往依据实时的道路情况进行规划,缺乏对于短时内可预见事件因素的考虑。

发明内容

[0003] 为了解决现有技术中存在的上述技术问题,本发明提供一种交通文本数据用于速度预测及行程规划方法,其具体技术方案如下。
[0004] 一种交通文本数据用于速度预测及行程规划方法,包括如下步骤:
[0005] 步骤一,收集互联网社交媒体平台发布的交通文本数据,通过文本分类、分词以及实体命名识别方法将非结构化的交通文本数据转为结构化的信息数据存入文件中;
[0006] 步骤二,将交通流速度数据与矢量化后的道路交通文本数据进行数据融合,构建并通过LSTM深度学习网络预测模型进行交通流速度预测分析;
[0007] 步骤三,通过预测分析的交通流速度结果,结合对应时段交通事件文本的内容,并在传统的A*算法的基础上,设计基于预测分析结果的动态路径规划方法。
[0008] 进一步的,所述步骤一具体包括如下内容:
[0009] a.使用基于Python的遍历网页文档树提取出交通文本的标题、发布时间、报道交通发生和结束时间以及事件详细内容,然后根据关键字匹配的方法初步去除非交通相关的
信息,获取道路交通相关信息;
[0010] b.利用朴素贝叶斯分类器对交通相关信息进行分类,分为交通车辆事故信息、道路维护信息、道路拥堵信息、集会活动绕行公告信息、极端天气提示以及其他非路况直接相
关的交通文本信息,筛选出分类结果为交通路况相关的文本内容,并基于实际需要预测区
域的路网的道路名称信息,使用关键词正则匹配的方法排除不符合当前研究区域范围内容
的道路的交通文本信息;
[0011] c.使用Python中文分词组件jieba进行分词,在内置jieba词库的基础上建立自定义词典,提取出目标区域的道路名、地点词汇以及方位词后,利用高德地图提供的地理编
码/逆地理编码API接口先解析出目前道路的经纬度坐标匹配路网结构,并根据方位词的描
述进一步确定交通文本信息描述的所在路段。
[0012] 进一步的,所述自定义词典包括目标区域的道路名、地点词汇、时间词和交通专业术语。
[0013] 进一步的,所述步骤二具体包括如下内容:
[0014] 将交通道路的历史交通流速度数据和通过独热码(one‑hot code)的方式将提取出来不同事件类型的交通文本信息转换为对应的数据矢量进行融合,组合成一个数据集,
并将数据集以7:3的比例分为训练集和测试集,作为LSTM深度学习网络预测模型的训练集
和测试集;
[0015] 通过本时刻的前30分钟的历史交通流速度数据,预测后60分钟中每10分钟的交通流速度,其中数据间隔为5分钟,所以预测模型的输入数据构成6*N的矩阵,其中数据矩阵N
表示每一行的维度由道路的交通流速度数据及处理好的交通文本信息独热码数据组成,所
述数据矩阵N作为LSTM深度学习网络预测模型中每个cell的输入,并利用均方误差(mean 
squared error)作为损失函数,通过批梯度下降法更新预测模型权重参数,输出结果为所
有道路的预测的交通流速度数据。
[0016] 进一步的,所述独热码方式为设置一个具有5个分量的数据矢量,分别代表5种交通事件类型,当分类结果的文本类型属于这五种交通事件类型中的一种类型时,对应固定
的数据矢量位置上的分量数值设为1,其余4个分量均为0。
[0017] 进一步的,所述步骤三具体包括如下内容:
[0018] 计算从位置A下一个结点的实际代价函数g(n)时,将g(n)表示为到达下一道路节点所花的时间,设定阈值为10分钟,若根据当前道路的速度到达下一节点时间超过阈值,则
利用预测模型预测到达时刻的速度,然后更新实际代价函数g(n)的值表示为t=s/v,其中s
表示每个路段的路程,v表示预测的速度;
[0019] 计算从位置点A到终点B的估计代价函数h(n)时,设位置A的经纬度为(Ax,Ay),位置B的经纬度是(Bx,By),在Manhattan距离M(A,B)的基础上,进一步考虑目标道路上的交通流
速度以及交通事件影响,将A*算法中的估计代价函数h(n)进一步表示为:
[0020] h(n)=M(A,B)×k=P×(|Ax‑Bx|+|Ay‑By|)×k,
[0021] 其中,k为交通事件的影响因子,如果通过计算预估到下一个道路结点的时刻内正好处于交通文本中集会活动封道绕行类型事件涉及事件的区域和时间范围内,则将k设置
为5,以提高估计代价函数的值,如果为交通车辆事故事件类型,则将k设置为2,否则,k为常
数1,P=2×π×R,R表示为地球的半径,因为P是常数,所以上述表达式可以进一步简化为:
[0022] h(n)=M(A,B)×k=(|Ax‑Bx|+|Ay‑By|)×k,
[0023] 在计算open列表中的f(n)值的时候,将实际代价函数g(n)和估计代价函数h(n)与通过min‑max标准化方法进行归一化处理,计算方法如下:
[0024] f(n)=g(n)*+h(n)*=[g(n)‑gmin]/(gmax‑gmin)+[h(n)‑hmin]/(hmax‑hmin),
[0025] 其中g(n)*表示g(n)的归一化结果,h(n)*表示h(n)的归一化结果,gmax表示open列表中最大的g(n)值,gmin代表open列表中最小的g(n)值,hmax表示open列表中最大的h(n)值,
hmin代表open列表中最小的h(n)值,并在每次更新f(n)的值后,对open列表进行从小到大的
排序。
[0026] 有益效果:
[0027] 本发明提供一种交通文本数据用于速度预测及行程规划方法中,支持交通事件文本数据和交通历史流量数据的联合分析,不仅可以发现拥堵等交通事件,通过在建立的深
度学习网络预测模型中引入交通事件的影响,从而可以更加准确的预测未来中短时间的交
通流速度,并为用户提供更为准确可靠的路径规划引导功能,可以更好提供出行服务。同时
帮助城市交通管理部门快速分析交通态势和挖掘出交通数据背后蕴含的信息价值,有利于
城市交通管理部门的分析决策,以帮助他们对城市交通进行管理,从而提高城市交通的运
行效率。

附图说明

[0028] 图1是本发明的交通文本数据信息提取过程;
[0029] 图2是本发明的融合交通文本数据的深度学习模型;
[0030] 图3是本发明的行程规划方法流程示意图。

具体实施方式

[0031] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。
[0032] 一种交通文本数据用于速度预测及行程规划方法,包括如下步骤:
[0033] 步骤一,及时收集互联网社交媒体平台发布的交通文本信息数据,通过文本分类、分词以及实体命名识别方法将非结构化的交通文本数据转为结构化的信息数据存入文件
中;
[0034] 步骤二,将交通流速度数据与矢量化后的道路交通文本数据进行数据融合,构建并通过LSTM深度学习网络预测模型进行交通流速度预测分析;
[0035] 步骤三,通过预测分析的交通流速度结果,结合对应时段交通事件文本的内容,并在传统的A*算法的基础上,设计基于预测分析结果的动态路径规划方法,用以提升交通路
径规划的准确性。
[0036] 所述步骤一具体包括如下内容:
[0037] a.使用基于Python的遍历网页文档树提取出交通文本的标题、发布时间、报道交通发生和结束时间以及事件详细内容,然后根据关键字匹配的方法初步去除非交通相关的
信息,获取道路交通相关信息;
[0038] b.利用朴素贝叶斯分类器对交通相关信息进行分类,分为交通车辆事故信息、道路维护信息、道路拥堵信息、集会活动绕行公告信息、极端天气提示以及其他非路况直接相
关的交通文本信息,筛选出分类结果为交通路况相关的文本内容,并基于实际需要预测区
域的路网的道路名称信息,使用关键词正则匹配的方法排除不符合当前研究区域范围内容
的道路的交通文本信息;
[0039] c.使用Python中文分词组件jieba进行分词,在内置jieba词库的基础上建立自定义词典,所述自定义词典包括目标区域的道路名、地点词汇、时间词、交通专业术语这几类
词汇;然后提取出道路名、地点词汇以及方位词后,利用高德地图提供的地理编码/逆地理
编码API接口先解析出目前道路的经纬度坐标匹配路网结构,并根据方位词的描述进一步
确定交通文本信息描述的所在路段。
[0040] 所述步骤二具体包括如下内容:
[0041] 将交通道路的历史交通流速度数据和通过独热码(one‑hot code)的方式将提取出来不同事件类型的交通文本信息转换为对应的数据矢量进行融合,组合成一个数据集,
并将数据集以7:3的比例分为训练集和测试集,作为LSTM深度学习网络预测模型的训练集
和测试集;
[0042] 通过本时刻的前30分钟的历史交通流速度数据,预测后60分钟中每10分钟的交通流速度,其中数据间隔为5分钟,所以预测模型的输入数据构成6*N的矩阵,其中数据矩阵N
表示每一行的维度由道路的交通流速度数据及处理好的交通文本信息独热码数据组成,所
述数据矩阵N作为LSTM深度学习网络预测模型中每个cell的输入,并利用均方误差(mean 
squared error)作为损失函数,通过批梯度下降法更新预测模型权重参数,输出结果为所
有道路的预测的交通流速度数据。
[0043] 所述独热码方式为设置一个具有5个分量的数据矢量,分别代表5种交通事件类型,当分类结果的文本类型属于这五种交通事件类型中的一种类型时,对应固定的数据矢
量位置上的分量数值设为1,其余4个分量均为0。
[0044] 所述步骤三具体包括如下内容:
[0045] 计算从位置A下一个结点的实际代价函数g(n)时,将g(n)表示为到达下一道路节点所花的时间,设定阈值为10分钟,若根据当前道路的速度到达下一节点时间超过阈值,则
利用预测模型预测到达时刻的速度,然后更新实际代价函数g(n)的值表示为t=s/v,其中s
表示每个路段的路程,v表示预测的速度;
[0046] 计算从位置点A到终点B的估计代价函数h(n)时,设位置A的经纬度为(Ax,Ay),位置B的经纬度是(Bx,By),在Manhattan距离M(A,B)的基础上,进一步考虑目标道路上的交通流
速度以及交通事件影响,将A*算法中的估计代价函数h(n)进一步表示为:
[0047] h(n)=M(A,B)×k=P×(|Ax‑Bx|+|Ay‑By|)×k,
[0048] 其中,k为交通事件的影响因子,如果通过计算预估到下一个道路结点的时刻内正好处于交通文本中集会活动封道绕行类型事件涉及事件的区域和时间范围内,则将k设置
为5,以提高估计代价函数的值,如果为交通车辆事故事件类型,则将k设置为2,否则,k为常
数1,P=2×π×R,R表示为地球的半径,因为P是常数,所以上述表达式可以进一步简化为:
[0049] h(n)=M(A,B)×k=(|Ax‑Bx|+|Ay‑By|)×k,
[0050] 在计算open列表中的f(n)值的时候,将实际代价函数g(n)和估计代价函数h(n)与通过min‑max标准化方法进行归一化处理,计算方法如下:
[0051] f(n)=g(n)*+h(n)*=[g(n)‑gmin]/(gmax‑gmin)+[h(n)‑hmin]/(hmax‑hmin),
[0052] 其中g(n)*表示g(n)的归一化结果,h(n)*表示h(n)的归一化结果,gmax表示open列表中最大的g(n)值,gmin代表open列表中最小的g(n)值,hmax表示open列表中最大的h(n)值,
hmin代表open列表中最小的h(n)值,并在每次更新f(n)的值后,对open列表进行从小到大的
排序。