一种基于中间件的动态交通信息采集方法转让专利

申请号 : CN200910256537.3

文献号 : CN101719315B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨立才王德伟吴磊聂红涛叶杨

申请人 : 山东大学

摘要 :

本发明涉及一种基于中间件的动态交通信息采集方法,克服了数据丢失、数据噪声、特别是数据的多源异构的不良影响,减少了冗余数据,保证了数据正确率,提高了数据准确度和可靠性。其方法为:1)采用串口通信模式和/或网络通信模式进行交通信息的传输;2)利用CORBA中间件技术中的接口定义语言IDL定制能够与不同交通信息检测设备相匹配的信息采集端口,识别和规范来自不同检测设备的数据,实现对道路交通流量、车辆速度、道路占有率等实时动态交通信息的采集;3)对采集到的所有数据进行预处理,并采用基于网络拓扑关系的道路匹配算法进行浮动车的地图匹配;4)利用免疫聚类神经网络,对预处理后的多源异构实时动态交通数据进行融合并存入数据库。

权利要求 :

1.一种基于中间件的动态交通信息采集方法,其特征是,它的步骤为:

1)采用串口通信模式和/或网络通信模式进行交通信息的传输;

2)利用CORBA中间件技术中的接口定义语言IDL定制能够与不同交通信息检测设备相匹配的信息采集端口,识别和规范来自不同检测设备的数据,实现对道路交通流量、车辆速度、道路占有率的实时动态交通信息的采集;

3)对采集到的所有数据进行预处理,并采用基于网络拓扑关系的道路匹配算法进行浮动车的地图匹配;

对数据的预处理包括异常数据的修复和缺失数据的填充;其中,数据异常值采用错误数据限定处理,通过阈值法识别错误数据,即根据数据类型设定相应的数据阈值,把检测设备采集的流量、速度和占有率交通参数与其设定的上下阈值比较,如果测量值不在上下阈值所规定的范围内,则认为是错误数据,对其进行修复;

各交通参数的阈值依据道路额定通行能力的规划指标和各交通参数的历史统计数据确定;异常数据按照如下公式修复:qmod(t)=αqlw(t)+(1-α)q(t-1)

其中:qmod(t)为交通参数q(t)的异常数据修复值;qlw(t)为上一周同一工作日、同一时段交通参数q(t)的测量值;q(t-1)为交通参数q(t)上一时段的测量值;α∈[0,1]为计算的权值,如果某交通参数具有较大的时间起伏特性,α取较小的数值,否则α取较大的数值;

缺失数据的识别方法是把在一定时间段内得到的数据定义成某一时刻的数据,然后对数据的时间段进行扫描,如果在某一时间段内没有得到数据,则认为该时段的数据产生了丢失;

缺失数据的填充值取为同一交通参数上一周同一工作日、同一时段的测量值和该交通参数上一时段的测量值的加权和,计算公式与异常数据的修复相同;

4)利用免疫聚类神经网络,对预处理后的多源异构实时动态交通数据进行融合并存入数据库;其中,基于免疫聚类神经网络的数据融合技术,是利用径向基函数神经网络对多源异构实时动态交通数据进行融合的过程,其中径向基函数神经网络的隐层结构由基于人工免疫理论的数据聚类方法确定。

2.如权利要求1所述的基于中间件的动态交通信息采集方法,其特征是,所述步骤2)中利用CORBA中间件技术中的接口定义语言IDL将来自不同交通信息检测设备的数据格式进行统一编制,使采集端口与各交通信息检测设备相匹配,采集来自不同交通信息检测设备 的道路交通流量、车辆速度和道路占有率的实时动态交通信息;

其中,对来自不同交通信息检测设备的数据格式做如下定义:定义事件结构包括事件序号和事件描述;检测设备类型包括线圈检测器、微波检测器、视频检测器和浮动车检测设备;检测设备采用的外部通信协议包括RS-232/422/485、802.1、GPRS和Ethernet;检测设备的基本信息包括:品牌、制造商、设备型号、设备类型、设备编号和通信协议;流量类型包括正向流量和反向流量;速度类型包括正向速度和反向速度;占有率类型包括正向占有率和反向占有率;检测设备状态包括成功、无效、完成和未完成;检测设备采集参数包括流量信息、速度信息和占有率信息;检测设备作业包括作业名称和作业描述;

对信息采集端口定义如下操作:检测设备初始化,并与采集端连接;判断检测设备是否处于活动状态;断开连接;暂停;回到初始位;上传作业;下载作业;采集道路交通流量;

采集车辆速度;采集道路占有率。

3.如权利要求1所述的基于中间件的动态交通信息采集方法,其特征是,所述步骤3)中,地图匹配方法为:将GPS接收的车辆定位信息规划到地图坐标系中来,确定车辆初始位置道路ID号,根据起始道路ID号,确定该道路的起始节点编号、终止节点编号、以及该条道路上各节点的空间坐标数据和属性数据;计算GPS定位信息(X,Y)到该条道路上最近的点,车辆即定位在该点上,在计算时采用的判断准则为:其中(X,Y)为GPS定位信息、(Xi,Yi)为道路中的坐标点。

说明书 :

一种基于中间件的动态交通信息采集方法

技术领域

[0001] 本发明专利是一种基于中间件的动态交通信息采集方法,属于交通信息采集与处理技术领域。

背景技术

[0002] 随着社会经济的不断发展与城市化进程的加快,城市人口和机动车辆日益增加,由此带来的交通拥堵、交通事故和能源浪费以及成倍增加的汽车废气排放造成的环境污染等问题,不仅严重地制约着城市和社会经济的可持续发展,同时也严重地影响着城市居民的生活质量。
[0003] 智能交通是解决现代社会交通需求与供给矛盾的重要途径之一,交通信息平台是智能交通系统的核心内容,是智能交通各子系统之间实现信息交换与信息共享的枢纽。对于从智能交通系统的各个子系统和交通相关部门接入的交通信息以及其他相关信息,交通信息平台采用先进的数据存储技术对其进行存储和管理,并运用各种先进的智能计算与数据融合技术对其进行分析处理,为智能交通系统的各子系统提供及时、准确、详实的数据信息,为交通相关部门提供数据信息共享服务,为广大交通参与者提供基于全系统范围内的信息服务和辅助决策。
[0004] 城市动态交通信息平台由交通信息采集子系统、信息处理与分析子系统、信息发布子系统、数据存储与数据库管理子系统几大部分组成。交通信息的采集是数据处理与信息综合利用的基础,是城市交通智能化研究中技术难度最大、也是最急需的核心技术之一。基于交通信息平台实现城市道路交通的优化管理与控制的依据及核心基础是获取并综合利用各种道路交通信息,特别是关于道路交通流量、车辆速度和道路占有率等动态交通信息。这些信息目前主要通过各种固定型交通信息采集设备(如线圈检测器、微波雷达检测器、视频检测器等)和浮动车移动采集设备获得。
[0005] 在交通信息的传输方面,目前城市道路交通信息检测的主流设备均可选配以太网通信接口,部分交通信息检测设备也可提供RS232/422/485串行通信接口。此外,随着计算机网络技术的发展,基于Internet的网络传输方案在新型交通信息系统中得到了广泛应用,目前采用较多的有两种方式:一种是串口服务器与近距离数据光端机方式,另一种是以太网光端机的全网络传输方式。无论是串口服务器还是网络光端机传输方式,均向着可管理型的方向发展,所选用的设备均可以纳入统一的网络管理范围内,这就要求前端的网络光端机和串口服务器需要具备网管功能。另外,无线GPRS传输也是交通信息的重要通信方式之一,GPRS调制解调器传输方案布设方便,特别适合交通系统改造工程中原有数据传输网络无法使用的场合。浮动车交通信息采集是无线GPRS传输方案的典型应用。串口服务器、网络光端机和无线GPRS这三种方案都是基于IP地址的网络通信方式。
[0006] 随着交通信息采集技术研究的不断深入,优势互补的多传感器信息检测已成为交通信息采集技术发展的主要方向。接入交通信息平台的实时道路交通数据来自于分布在城市路网上的各种交通信息检测设备或人工信息采集源。自动化的道路交通信息检测设备包括线圈检测器、微波检测器、视频检测器等固定式检测设备和浮动车移动检测设备。固定式检测设备采集的数据地点固定、范围相对狭小,但具有采集数据准确可靠的特点。浮动车采集设备,由于具有采集范围广泛、数据量大的特点,已成为目前城市交通信息检测的重要手段之一。但是,由于城市高架路或其他高层建筑对GPS定位信号的阻挡等外部原因和车载设备一般不提供复杂算法等内部原因的共同影响,浮动车采集设备采集到的数据准确度一般比较低。各种交通信息检测设备各有优缺点,所能够检测到的交通参数的种类和形式、特别是交通参数的数据格式可能是各不相同的,由此导致交通数据具有了典型的多源性、异构性、多层次性、不完整性和不一致性,并具有时间与空间特征,必须采用信息融合等数据处理技术提高交通信息的可靠性与准确性,将不精确、不完整、不一致、不可靠,甚至相互矛盾的交通信息转化成对目标或现象一致性的解释和描述。
[0007] 考虑道路交通信息采集系统的多种通信模式共存、多种交通信息检测设备提供的多源异构的交通信息来源和交通信息的复杂处理,为简化交通信息采集系统的结构、规范交通信息的数据格式,以便交通信息的后期处理与综合利用,本专利发明了一种基于中间件的动态交通信息采集方法,其系统架构及数据通信方式如图1所示。
[0008] 该方法利用中间件技术将来自不同交通信息检测设备的数据格式进行统一编制与规范处理,并通过数据的预处理和数据融合,克服了数据丢失、数据噪声、特别是数据的多源异构等因素对整个交通信息系统造成的不良影响,减少了冗余数据,保证了数据的正确率,提高了数据的准确度和可靠性。

发明内容

[0009] 本发明针对目前城市智能交通系统中普遍使用的多种交通信息检测设备,及其对应的多源异构动态交通信息模式,给出了一种基于中间件技术的动态交通信息采集方法。该方法将来自不同交通信息检测设备的数据格式进行统一编制与规范处理,采用串口通信和/或网络通信模式实现城市道路交通多源异构动态信息的传输,利用异常数据修复和缺失数据填充技术对数据预处理,并对浮动车采集的交通数据进行地图匹配,最后利用免疫聚类神经网络对来自不同检测设备的多源异构实时动态交通信息进行融合处理,并存入数据库。
[0010] 为实现上述目的,本发明采用了如下技术方案:
[0011] 1)采用串口通信模式和/或网络通信模式进行交通信息的传输;
[0012] 2)利用CORBA中间件技术中的接口定义语言IDL定制能够与不同交通信息检测设备相匹配的信息采集端口,识别和规范来自不同检测设备的数据,实现对道路交通流量、车辆速度和道路占有率等实时动态交通信息的采集;
[0013] 3)对采集到的所有数据进行预处理,并采用基于网络拓扑关系的道路匹配算法进行浮动车的地图匹配;
[0014] 4)利用免疫聚类神经网络,对预处理后的多源异构实时动态交通数据进行融合并存入数据库。
[0015] 所述步骤2)中利用CORBA中间件技术中的接口定义语言IDL将来自不同交通信息检测设备的数据格式进行统一编制,识别和规范来自不同检测设备的数据,以方便处理具有多源异构特征的动态道路交通信息,使采集端口与各类交通信息检测设备相匹配,采集来自不同交通信息检测设备的道路交通流量、车辆速度和道路占有率等实时动态交通信息。
[0016] 其中,对来自不同交通信息检测设备的数据格式做如下统一定义:定义事件结构包括事件序号和事件描述;检测设备类型包括线圈检测器、微波检测器、视频检测器和浮动车检测设备;检测设备采用的外部通信协议包括RS-232/422/485、802.1、GPRS和Ethernet;检测设备的基本信息包括:品牌、制造商、设备型号、设备类型、设备编号和通信协议;流量类型包括正向流量和反向流量;速度类型包括正向速度和反向速度;占有率类型包括正向占有率和反向占有率;检测设备状态包括成功、无效、完成和未完成;检测设备采集参数包括流量信息、速度信息和占有率信息;检测设备作业包括作业名称和作业描述。
[0017] 对信息采集端口定义如下操作:检测设备初始化,并与采集端连接;判断检测设备是否处于活动状态;断开连接;暂停;回到初始位;上传作业;下载作业;采集道路交通流量;采集车辆速度;采集道路占有率。
[0018] 所述步骤3)中,对数据的预处理包括异常数据的修复和缺失数据的填充。其中,数据异常值采用错误数据限定处理,通过阈值法识别错误数据,即根据数据类型设定相应的数据阈值,把检测设备采集的流量、速度和占有率等交通参数与其设定的上下阈值比较,如果测量值不在上下阈值所规定的范围内,则认为是错误数据,对其进行修复。
[0019] 各交通参数的阈值依据道路额定通行能力等城市路网的规划指标和各交通参数的历史统计数据确定。异常数据按照如下公式修复:
[0020] qmod(t)=αqlw(t)+(1-α)q(t-1)
[0021] 其中:qmod(t)为交通参数q(t)的异常数据修复值;qlw(t)为上一周同一工作日、同一时段交通参数q(t)的测量值;q(t-1)为交通参数q(t)上一时段的测量值;α∈[0,1]为计算的权值,如果某交通参数具有较大的时间起伏特性,α取较小的数值,否则α取较大的数值。
[0022] 数据的缺失同样给数据的进一步利用带来不利影响。缺失数据的识别方法是把在一定时间段内得到的数据定义成某一时刻的数据(例如,规定采集数据的时间间隔为5分钟,则在9:00到9:05这个时间段内得到的数据均视为9:00的数据),然后对数据的时间段进行扫描,如果在某一时间段内没有得到数据,则认为该时段的数据产生了丢失。
[0023] 缺失数据的填充值取为同一交通参数上一周同一工作日、同一时段的测量值和该交通参数上一时段的测量值的加权和,计算公式与异常数据的修复相同。
[0024] 由于城市道路交通流具有七天工作日的准周期特性,而且交通状态具有一定时段内的连续变化特征,上述方法可以比较准确地实现对于异常交通数据的修复或缺失数据的填充,满足城市道路交通信息处理的数据质量要求,而且计算简单,并易于工程实现。
[0025] 所述步骤3)中,地图匹配方法为:将GPS接收的车辆定位信息规划到地图坐标系中来,确定车辆初始位置道路ID号,根据起始道路ID号,确定该道路的起始节点编号、终止节点编号、以及该条道路上各节点的空间坐标数据和属性数据;计算GPS定位信息(X,Y)到该条道路上最近的点,车辆即定位在该点上,在计算时采用的判断准则为:
[0026]
[0027] 其中(X,Y)为GPS定位信息、(Xi,Yi)为道路中的坐标点。
[0028] 所述步骤4)中,基于免疫聚类神经网络的数据融合技术,是一种利用径向基函数神经网络对预处理后的多源异构实时动态交通数据进行融合的过程。其中径向基函数神经网络的隐层结构(主要是隐层节点的个数和基函数的中心)是决定网络逼近能力的关键因素,经验法人工设定隐层节点的个数、随机选取基函数的隐层中心点均难以保证获得优化的网络结构,进而影响网络的数据融合速度与准确性。基此,本发明基于生物免疫系统的克隆选择与免疫记忆机理,给出了一种改进的人工免疫数据聚类新方法,通过对历史交通数据集的免疫聚类,优化出网络的隐层结构,以获取最佳结构的网络融合模型,实现交通信息的高效融合。
[0029] 本发明的有益效果为:提出的基于中间件的动态交通信息采集方法,思路新颖且易于实现。它利用CORBA中间件技术的接口定义语言IDL将来自不同交通信息检测设备的多源异构数据进行统一编制,实现了交通信息检测设备数据格式的规范化处理,简化了交通信息数据库与各种交通信息检测设备的接口,并可推广应用于其他具有多源异构特征的多传感器信息采集领域,应用范围广泛;通过不同交通信息检测设备的优势互补,实现了对于道路交通流量、车辆速度和道路占有率等实时动态交通信息的高质量数据采集;通过串口通信和网络通信两种通信模式交通信息采集方式的整合,使得采集手段更加多样化,从而能够更好地满足不同层次道路交通信息系统的信息采集与数据传输及处理的客观要求;通过对数据的预处理和基于免疫聚类神经网络的数据融合技术,克服了在数据传输过程中的数据丢失、数据噪声、特别是多源异构等因素对整个系统造成的不良影响,同时也减少了大量的冗余数据,保证了数据的正确率,并且显著提高了数据的准确度和可靠性。

附图说明

[0030] 图1系统整体架构图;
[0031] 图2交通数据采集通信图;
[0032] 图3串口通信底层类程序流程图;
[0033] 图4网络通信程序流程图;
[0034] 图5径向基函数神经网络结构图;
[0035] 图6免疫聚类神经网络训练流程图。

具体实施方式

[0036] 下面对本发明的具体实施方式进行详细的说明。
[0037] 一种基于中间件的动态交通信息采集方法,它的步骤为:
[0038] 1)采用串口通信模式和/或网络通信模式进行交通信息的传输;
[0039] 2)利用CORBA中间件技术中的接口定义语言IDL定制能够与不同交通信息检测设备相匹配的信息采集端口,识别和规范来自不同检测设备的数据,实现对道路交通流量、车辆速度和道路占有率等实时动态交通信息的采集;
[0040] 3)对采集到的所有数据进行预处理,并采用基于网络拓扑关系的道路匹配算法进行浮动车的地图匹配;
[0041] 4)利用免疫聚类神经网络,对预处理后的多源异构实时动态交通信息数据进行数据融合并存入数据库。
[0042] 本发明作为一种基于中间件的动态道路交通信息采集技术,其系统架构及数据通信方式如图1所示,包括采集数据格式的定义、串口通信和网络通信两种数据传输模式的整合、基于定制的统一数据格式对来自不同采集设备的数据进行识别与规范化、数据的预处理与数据融合。
[0043] 首先,中间件是一种在分布式系统中建立数据应用资源互操作的模式,实现多源异构环境下的数据库连接或文件系统的连接。数据采集中间件用于处理业务服务层和数据层之间的交互操作,目的是将采集设备和数据访问的复杂性相隔离,在采集部分可避免异常数据的写入,在处理部分可避免外部应用直接对数据库内容的读写而造成的误操作。
[0044] 数据采集中间件设计的主要特点是将与数据库的连接和访问有效地进行管理,通过对数据连接和访问机制的管理,改善网络上多用户访问数据库的性能,优化网络传输,并支持与多种数据库的连接。
[0045] 为使数据采集中间件具有更好的通用性,本发明将来自不同交通信息检测设备的数据通过IDL进行统一编制,使采集端口与各类交通信息检测设备相匹配,实现了数据格式的规范化处理和多种检测设备的优势互补,简化了数据库与各种检测设备的接口,方便地实现了对于道路交通流量、车辆速度以及道路占有率等实时动态道路交通信息的高质量采集,同时也确保对不同类型的交通信息检测设备或系统新增加的检测设备提供的交通信息能够顺利采集并传送到交通信息数据库。通过将这些接口集成到IDL文件中,简化了程序的实现代码,使组件更加集中完成集成功能。
[0046] 在集成IDL文件的接口实现中,对来自不同交通信息检测设备的数据格式使用接口定义语言IDL做如下统一定义:定义事件结构包括事件序号和事件描述;检测设备类型包括线圈检测器、微波检测器、视频检测器和浮动车检测设备;检测设备采用的外部通信协议包括RS-232/422/485、802.1、GPRS和Ethernet;检测设备的基本信息包括:品牌、制造商、设备型号、设备类型、设备编号和通信协议;流量类型包括正向流量和反向流量;速度类型包括正向速度和反向速度;占有率类型包括正向占有率和反向占有率;检测设备状态包括成功、无效、完成和未完成;检测设备采集参数包括流量信息、速度信息和占有率信息;检测设备作业包括作业名称和作业描述。
[0047] 对信息采集端口定义如下操作:检测设备初始化,并与采集端连接;判断检测设备是否处于活动状态;断开连接;暂停;回到初始位;上传作业;下载作业;采集道路交通流量;采集车辆速度;采集道路占有率。
[0048] 其次,详细介绍本发明的基于中间件的交通信息采集方法的实现步骤:
[0049] 步骤一:
[0050] 目前城市道路交通信息检测的主流设备均可选配以太网通信接口,部分交通信息检测设备也提供RS232/422/485串行通信接口。这些交通信息检测设备一般布设于各检测路段或交叉路口,与交通信息中心之间的通信依据网络建设情况,可以采用各种不同的通信方式。
[0051] 固定型车辆检测器距离就近的通信站少则几百米,多则几千米,如果直接采用设备提供的通信接口进行数据传输,显然无法满足数据传输的距离要求。传统交通信息检测系统一般采用检测器连接调制解调器(Modem)接入公用电话网(PSTN),到监控端再连接Modem,通过多路串口卡将数据传入通信服务器。这是一种串口通信方式。
[0052] 随着计算机网络技术的发展,基于Internet的网络传输方案得到了大量应用,目前采用较多的有两种方式:一种是串口服务器与近距离数据光端机方式,另一种是以太网光端机的全网络传输方式。无论是串口服务器还是网络光端机传输方式,均向着可管理型的方向发展,所选用的设备均可以纳入统一的网络管理范围内,这就要求前端的网络光端机和串口服务器必需具备网管功能。另外,无线GPRS传输也是交通信息传输的重要通信方式之一。GPRS调制解调器传输方案布设方便,特别适合交通系统改造工程中原有数据传输网络无法使用的场合。随着GPRS网络的不断完善和资费的逐步下降,其应用范围还将得到进一步扩大。
[0053] 串口服务器、网络光端机和无线GPRS这三种方案都是基于IP地址的网络通信方式。浮动车交通信息采集主要采用无线GPRS传输方案,也是一种基于IP地址的网络通信方式。
[0054] 交通数据采集通信模式如图2所示。
[0055] 据此交通监控中心通信服务器将基于串口通信和/或网络通信两种方式采集实时动态交通信息。两种通信方式的具体通信步骤如下所述:
[0056] (1)串口通信模式
[0057] 1-1串口通信周期开始;
[0058] 1-2打开串口,设置通信参数;
[0059] 1-3需要地址的探测,如果探测到该地址,则确定地址列表;如果没有探测到,则使用默认地址列表;
[0060] 1-4进行数据接收;
[0061] 1-5向采集端发送读/写通讯请求数据包;
[0062] 1-6接收采集端数据包;
[0063] 1-7判断数据包格式是否正确,如果正确则进行数据显示并存储,然后转入步骤1-4;如果不正确,则返回步骤1-5。
[0064] 串口通信模式的流程如图3所示。
[0065] (2)网络通信模式
[0066] 2-1网络通信周期开始;
[0067] 2-2打开端口,设置通信参数;
[0068] 2-3需要地址的探测;如果探测到,则确定地址列表;如果没有探测到,则使用默认地址列表;
[0069] 2-4进行数据接收;
[0070] 2-5向采集端发送读/写通讯请求数据包;
[0071] 2-6接收采集端数据包;
[0072] 2-7判断数据包格式是否正确,如果正确则转入步骤2-4;如果不正确,则转入步骤2-5。
[0073] 网络通信模式的流程如图4所示。
[0074] 步骤二:
[0075] 由于城市交通智能化发展的非同步性,城市交通路网的不同路段或交通区域采用的交通信息检测设备可能是互不相同的,例如早期多采用地感线圈检测器,现在则更多地采用微波检测器、视频检测器等固定式交通信息检测设备,或浮动车动态交通信息检测设备。随着城市交通智能化管理水平的不断提高,对交通信息的准确性、精确性和实时性提出了越来越高的要求,在交通信息检测方面就出现了同一地点可能多种检测设备共存,以实现优势互补的多传感器交通信息检测应用状态。由于不同检测设备的数据格式可能是互不相同的,进而导致道路交通信息的检测数据具有了典型的多源异构特征。
[0076] 为使数据采集中间件具有更好的通用性,本发明将来自不同交通信息检测设备的数据格式通过接口定义语言IDL进行统一编制,使采集端口与各交通信息检测设备相匹配,实现了多种检测设备的优势互补和数据格式的规范化处理,简化了数据库与各种检测设备的接口,方便地实现了对于道路交通流量、车辆速度以及道路占有率等实时动态道路交通信息的高质量采集,同时也确保对不同类型的交通信息检测设备或系统新增加的检测设备提供的交通信息能够顺利采集并传送到交通信息数据库。通过将这些接口集成到IDL文件中,简化了程序的实现代码,使组件更加集中完成集成功能。
[0077] 在集成IDL文件的接口实现中,对来自不同交通信息检测设备的数据格式做了如下统一定义:定义事件结构包括事件序号和事件描述;检测设备类型包括线圈检测器、微波检测器、视频检测器和浮动车检测设备;检测设备采用的外部通信协议包括RS-232/422/485、802.1、GPRS和Ethernet;检测设备的基本信息包括:品牌、制造商、设备型号、设备类型、设备编号和通信协议;流量类型包括正向流量和反向流量;速度类型包括正向速度和反向速度;占有率类型包括正向占有率和反向占有率;检测设备状态包括成功、无效、完成和未完成;检测设备采集参数包括流量信息、速度信息和占有率信息;检测设备作业包括作业名称和作业描述。
[0078] 对信息采集端口定义如下操作:检测设备初始化,并与采集端连接;判断检测设备是否处于活动状态;断开连接;暂停;回到初始位;上传作业;下载作业;采集道路交通流量;采集车辆速度;采集道路占有率。
[0079] 基于上述定制的统一数据格式,首先对采集到的数据的来源、类型等数据属性进行识别,并对这些数据的格式加以规范处理,使其格式统一化,以便进行后续的数据融合、存储及加工利用。
[0080] 步骤三:
[0081] 动态道路交通信息系统通过各类检测设备实时采集、并上传到信息中心的原始数据并非都是正确完整的,需要进行数据的清洗等预处理。另外,浮动车采集的实时定位及速度等道路交通信息上传至信息中心并未完全匹配实际位置,需要进行地图匹配,以保证定位信息的准确性和有效性。
[0082] 交通信息中心的实时道路交通数据来自于分布在城市路网上的各种交通信息检测设备或人工信息采集源。自动化的道路交通信息检测设备主要包括固定式的线圈检测器、微波检测器、视频检测器和浮动车移动检测设备。各种检测设备各有优缺点,所能够检测到的交通参数(如交通流量、车辆速度、车头时距、车型分类、车道占有率、排队长度等)的种类和形式以及数据格式可能是各不相同的,而且由于采集误差、设备故障等多种因素的存在,检测设备输出的原始数据可能存在数据的错误、异常或数据丢失,导致数据的不完整和/或不一致,因此首先需要对各个数据源的数据进行正确性、完整性和一致性的检验。此外由于天气状况或通信系统故障等原因所造成的数据丢失,也需要采用一定的技术方法和手段对其进行修复或提供替代数据。
[0083] 不完全统计,在交通信息检测系统中,错误数据往往占数据总量的25%,丢失数据可达总数据量的15%,因此,数据预处理是交通信息采集系统必不可少的信息处理功能。
[0084] 本发明涉及的数据预处理技术主要包括对于原始检测数据中异常数据的修补和缺失数据的填充等内容。
[0085] 数据的异常值(俗称坏值)是指用测量的客观条件不能解释为合理的、明显偏离测量总体的个别测量值。异常值会直接影响数据总体的正确性。在数据采集系统中,出现异常值的主要原因一般是检测设备故障和出现概率极小但作用极强的偶发性干扰等因素。
[0086] 对于上述的异常数据,本发明采用错误数据限定处理,通过阈值法识别错误数据,即根据数据类型设定相应的数据阈值,把检测设备采集的流量、速度和占有率等交通参数与其设定的上下阈值比较,如果测量值不在上下阈值所规定的范围内,则认为是错误数据,对其进行修复。
[0087] 各交通参数的阈值依据道路额定通行能力等城市路网的规划指标和各交通参数的历史统计数据确定。异常数据按照如下公式修复:
[0088] qmod(t)=αqlw(t)+(1-α)q(t-1)
[0089] 其中:qmod(t)为交通参数q(t)的异常数据修复值;qlw(t)为上一周同一工作日、同一时段交通参数q(t)的测量值;q(t-1)为交通参数q(t)上一时段的测量值;α∈[0,1]为计算的权值,如果某交通参数具有较大的时间起伏特性,α取较小的数值,否则α取较大的数值。
[0090] 数据的缺失同样给数据的进一步利用带来不利影响。本发明对于缺失数据的识别方法是把在一定时间段内得到的数据定义成某一时刻的数据(例如,规定采集数据的时间间隔为5分钟,则在9:00到9:05这个时间段内得到的数据均视为9:00的数据),然后对数据的时间段进行扫描,如果在某一时间段内没有得到数据,则认为该时段的数据产生了丢失。
[0091] 缺失数据的填充值取为同一交通参数上一周同一工作日、同一时段的测量值和该交通参数上一时段的测量值的加权和,计算公式与异常数据的修复相同。
[0092] 由于城市道路交通流具有七天工作日的准周期特性,而且交通状态具有一定时段内的连续变化特征,上述方法可以比较准确地实现对于异常交通数据的修复或缺失数据的填充,满足城市道路交通信息处理的数据质量要求,而且计算简单,并易于工程实现。
[0093] 在浮动车交通信息的采集过程中,由于受GPS定位精度的影响,以及城市高架路或其他高层建筑对GPS定位信号的阻挡等原因,致使GPS定位信息一般具有较大的偏差,甚至在某些时刻可能完全失去定位信息。因此,如果直接把GPS定位信息加载到电子地图上,定位点将会偏离实际道路,导致采集到的交通数据不能准确反映路网的真实交通状况。另一方面,由于成本的限制,浮动车的车载设备一般不能对于接收的GPS卫星定位信号进行实时差分等复杂运算来实现高精度的定位,这时就需要采用信息中心的地图匹配技术进行定位信号的校准,如此处理也可以利用较高精度的道路信息来修正定位系统的误差,以改善整个系统的性能。
[0094] 地图匹配(Map Matching)是一种基于软件技术的定位修正方法,其基本思想是将定位装置获得的车辆定位轨迹与电子地图数据库中的道路信息相联系,由此确定出车辆位于地图的具体位置,并将定位轨迹同道路信息比较,通过适当的匹配过程确定出车辆最有可能的行驶路段以及车辆在此路段中最有可能的位置。
[0095] 地图匹配算法可分为两个相对独立的过程:一是寻找车辆当前行驶的道路,即在车辆航迹的邻近区域内搜索所有道路路段及其组合,分别求取这些道路组合与车辆航迹的匹配度量值,将最佳匹配的道路作为车辆的当前行驶道路;二是将当前定位点定位到车辆当前行驶的道路上。
[0096] 通理论研究和交通实践,本发明采用基于网络拓扑关系的道路匹配算法。要点如下:首先将GPS接收的车辆定位信息规划到地图坐标系之中,确定车辆初始位置的道路ID号,根据起始道路ID号确定该道路的起始节点、终止节点的编号和该条道路上各节点的空间坐标数据(预处理后的5米采样间隔离散的道路坐标数据)和属性数据;然后计算GPS定位信息(X,Y)到该条道路上最近的点,车辆即定位在该点上,在计算时采用的判断准则为:
[0097]
[0098] 其中,(X,Y)为GPS定位信息,(Xi,Yi)为道路中的坐标点。
[0099] 实验表明,利用道路网络拓扑关系的数据结构保证了信息的实时性和准确性,取得了理想的定位效果,地图匹配可以使车辆的位置正确的显示在电子地图上。交叉路口的车辆定位也通过综合采集信息中的方向信息,适当向实际位置偏移采集点进行道路匹配,为后续的信息利用提供了良好的基础。
[0100] 步骤四:
[0101] 动态交通信息采集系统是一种典型的多传感器系统,交通信息具有多源异构的基本特征。信息融合是交通信息采集系统的核心技术之一,通过融合来自多种或多个传感器的多源异构交通数据,可以得到更为准确的交通流状况信息,从而减少在信息处理中可能出现的失误,为交通信息的加工利用提供可靠基础。
[0102] 传统的交通信息融合一般采用加权求和的方法,把来自于各信息采集设备的交通参数测量值加权求和作为该参数的融合结果。该类融合方法运算简单,但是其权值的不确定性使得融合后的数据精度低,在交通信息的一致性和完整性方面难以满足高性能信息采集系统的基本要求。考虑径向基函数神经网络良好的非线性映射能力,并具有结构简单、运算快速的优点,特别是比传统交通信息融合方法具有更高的数据精度和自适应特性,能够更好地保证数据信息的一致性和完整性,本发明采用基于免疫聚类的径向基函数神经网络作为交通信息融合的基本工具,相应的融合模型称之为免疫聚类神经网络。
[0103] 应用神经网络实现交通信息融合的第一步是构造并训练网络。径向基函数网络是一种三层的前馈网络,包括输入层、输出层和隐含层,其结构如图5所示。
[0104] 输入层的节点传递输入信号(即待融合的各传感器交通参数的测量值)到隐含层,隐层径向基函数节点对输入向量进行非线性变换,其结果在输出节点加权求和,得到网络输出(即交通参数的融合值)。
[0105] 径向基函数网络的隐层节点由辐射状函数构成,在此融合模型中,其激活函数采用如下所示的高斯型函数:
[0106]
[0107] 式中X为网络的n维输入向量,与待融合的交通参数相对应(例如要应用上述网络融合来自于三个检测器的交通流量,网络的输入层即有三个神经元构成,此时n=3);为第i个隐层节点的输出;Ci为第i个隐层节点基函数的中心,是与X具有相同维数的列向量;σi为第i个节点的标准差,表示该基函数围绕中心点的宽度;m为隐层节点的个数。
[0108] 设wi为第i个隐层节点到输出节点的传输权值,则网络的输出y可用下式表示:
[0109]
[0110] 为保证网络具有理想的工作特性,需要利用交通参数的历史测量数据集对网络进行训练,即对于其基函数的中心Ci与宽度σi、隐层到输出层的传输权值wi以及隐层节点的个数m进行优化。由于σi是可以自由选择的参数,并且在隐层中心点确定以后,可以根据隐层中心点及隐层节点的个数计算得到( cimax=Max(ci1,ci2,...,cin)),而输出层对线性权值wi的调整可以采用线性优化方法方便的获得,因此,网络训练的关键是合理地确定基函数的中心与隐层节点的个数。
[0111] 径向基函数网络的隐层中心一般应用对训练数据集的聚类获得,即把网络隐层结构的训练等效为对于训练数据集的聚类过程,此时训练数据集的聚类中心即为隐层基函数的中心。
[0112] 本发明基于生物免疫机理,给出了一种改进的人工免疫聚类方法。与其他聚类方法依据设计者的经验人为给定隐层节点的个数(即数据的聚类数)、然后聚类得到基函数的中心不同,本发明通过对历史交通数据的免疫聚类,可以同时优化出网络的隐层节点个数m和基函数中心Ci,以获得具有优化网络结构的信息融合模型。
[0113] 免疫聚类的实质是基于生物免疫系统的克隆选择与免疫记忆机制,找出这样的一组记忆数据集,它们是与抗原(对应待聚类的数据元素)具有最佳亲和力的一组优化抗体。在改进的免疫聚类算法中,定义抗原与抗体之间的亲和力为两者之间距离的逆(一维情况下,为倒数关系),因此记忆数据集的维数实际上是对于数据集合的一种优化聚类的类数。
基于径向基函数网络的训练特点,数据集的聚类数即为网络的隐层节点数m。不仅可以聚类出基函数的中心,同时可以自动优化网络隐层节点的个数,这是免疫聚类有别于其它聚类方法训练径向基函数网络的最大特点。
[0114] 在径向基网络的免疫聚类训练中,设网络的训练数据集为n×Q的数据集合,即待聚类的历史交通数据来自于n个数据检测源,每个检测源有Q个数据记录。
[0115] 为便于描述,定义如下变量:
[0116] Ag:输入抗原,即待聚类的历史交通数据集合,表示为如下形式:
[0117]T n
[0118] Agj=[Ag1j,Ag2j,...,Agnj] ∈R,j=1,2,...,Q
[0119] Ab:初始抗体,一般在Ag中随机选取N个列元构成。表示为如下形式:
[0120] Ab=[Ab1,Ab2,...,AbN]T n
[0121] Abi=[Ab1i,Ab2i,...,Abni] ∈R,i=1,2,...,N;N<Q[0122] E:记忆数据集,即m个网络记忆细胞,表示为如下形式:
[0123] E=[e1,e2,...,em]
[0124] ek=[e1k,e2k,...enk]T∈Rn,k=1,2,...,m;m<<Q
[0125] 记忆数据集的细胞个数m为免疫聚类后训练数据集的聚类数,即径向基函数网络的隐层节点个数。
[0126] Datai:与记忆抗体ei(i=1,2,...,m)具有最大亲和力的抗原集合,用于统计训练数据集的元素对于聚类结果的归属,聚类结束后通过均值法计算各聚类数据的重心,即径向基函数的中心。
[0127] 优化径向基函数隐层结构的免疫聚类流程如图6所示,算法的具体步骤如下:
[0128] 4-1随机初始化N个抗体Ab,作为初始免疫网络细胞。
[0129] 4-2设定循环控制参数。
[0130] 4-3输入待聚类数据作为抗原,对抗原Agj(j=1,2,...,Q)进行如下操作:
[0131] 4-3-1计算距离度量矢量Dj和亲和力矢量AFj。抗原与抗体之间的距离用欧几里德距离定义,即:
[0132]
[0133] 根据聚类分析的特点,抗原与抗体之间的亲和力采用下式定义:
[0134] afij=(1+dij)-1
[0135] 于是:Dj=[d1j,d2j,...,dN,j]T
[0136] AFj=[af1j,af2j,...,afN,j]T
[0137] 4-3-2按照最优抗体选择率opR的比率从Ab中选择t个与Agj具有最高亲和力的抗体进行克隆增值,产生对应的克隆细胞集合CLj。
[0138] 对t个选择细胞按亲和力从小到大的顺序排列,克隆细胞的数量按下式计算:
[0139]
[0140] 式中:Nc为t个抗体产生的克隆细胞总数;α为乘数因子,用于控制克隆群体的规模;int()为取整函数。
[0141] 4-3-3应用下式对克隆的抗体进行随机变异操作,实现亲和力的成熟,产生具有更高亲和力的抗体细胞CM:
[0142] CM=rand(CR,NR)
[0143]
[0144] 式中rand(CR,NR)为随机函数,表示从CR中随机抽取NR(≥1)个变量;μ为抗体的变异率,按下式确定:
[0145] μ=k×exp(-AFv/γ)
[0146] 式中,AFv=AFj/||AFj||为父代抗体亲和力的标称值;k为比例因子,γ为衰减控制系数。k与γ的取值原则为保证变异个体在其允许的域值[0,1]范围之内。
[0147] 4-3-4计算CM的抗体细胞与抗原Agj的亲和力矢量
[0148] 4-3-5按照再次选择比率rsR,选择CM中若干个与抗原Agj具有最高亲和力的优化抗体,作为部分记忆细胞Ep。
[0149] 4-3-6去除Ep中相似度sij小于免疫调节阈值σd的抗体,产生新的记忆集Ek,实现免疫系统的克隆抑制。
[0150] 抗体的相似度sij用抗体间的欧几里德距离描述,即:
[0151]
[0152] 4-3-7把部分记忆细胞Ek合并到记忆细胞集合E(E←[E;Ek])。
[0153] 4-4计算E中各记忆细胞的相似度矢量S,去除E中相似度sij低于免疫抑制阈值σs的记忆细胞,实现不同克隆集的网络抑制。
[0154] 4-5按照最差抗体选择率wsR,随机产生若干个抗体替换原抗体中亲和力较低的个体,体现免疫系统的自组织功能。
[0155] 4-6变量替换,返回4-3,进行下一代的网络学习,直到达到要求的学习代数,或满足设定的聚类迭代要求(如迭代达到了预定的记忆细胞的个数或抗原与记忆细胞的平均亲和力达到了预定的误差范围等)。
[0156] 上述过程结束后,算法的输出E为聚类数据的记忆数据集[e1,e2,...,em],其中记忆细胞的个数m为聚类数据的聚类数,对应径向基函数网络的隐层节点数。在此基础上,通过下面的步骤得到数据的聚类中心。
[0157] 4-7输入聚类数据集作为抗原,对抗原Agj(j=1,2,...,Q)进行如下操作:
[0158] 4-7-1按照4-3-1的定义,计算抗原Agj与各记忆抗体ei(i=1,2,...,m)的亲和力;
[0159] 4-7-2将Agj记入与之亲和力最大的记忆细胞ei所对应的抗原集合Datai。
[0160] 4-8重心法求各数据聚类的中心,公式如下:
[0161]
[0162] 其中Ni为数据集Datai中抗原的个数,即该类属中包含的聚类数据的个数。数据T聚类的中心即为径向基函数的中心点ci=[c1i,c2i,...cni]。
[0163] 上述算法中有较多的可变参数,参数选取不当影响聚类效果。在交通数据聚类确定径向基网络隐层结构时,各参数的取值原则与范围如下:1)初始化抗体个数N根据经验选定,大小不影响聚类结果,一般取N≤50;2)简单起见,克隆乘数因子α一般取值为1;3)最佳抗体选择率opR一般取初始抗体个数的10%~20%;4)最差抗体选择率wsR一般取值不应超过10%;5)再次选择率rsR一般取克隆细胞个数的10%~20%;6)调节阈值σd=0.005~0.01,抑制阈值σs=0.03~0.08。
[0164] 完成上述网络的构造和隐层训练,并应用训练数据集对网络的输出权值wi线性优化之后,得到的径向基函数网络即可以作为融合模型嵌入交通信息处理系统,实现对多源异构交通参数的融合处理,并存入交通信息数据库。