基于出租车GPS数据的打车热点获取方法转让专利

申请号 : CN201210249618.2

文献号 : CN103578265B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郭胜敏李平张岩张高峰于晓

申请人 : 北京掌城科技有限公司

摘要 :

本发明公开了一种基于出租车GPS数据的打车热点获取方法,属于智能交通领域,该方法包括:取一个时间段内的出租车GPS记录集,选出其中发生上下客和停驶空车的记录子集;确定所述记录子集中的所有GPS记录所在的网格,获取每个网格内发生的上下客和停驶空车的次数;选取出热点网格,并对所述热点网格进行空间聚类;确定所述热点网格的打车热度。本发明可以方便乘车人找到周边的空驶出租车,或者及时提醒乘车人在出租车不足的情况下采用其他方式出行,节省乘车人的出行时间成本,从而提高出租系统乃至整个城市交通系统的运营效率。

权利要求 :

1.一种基于出租车GPS数据的打车热点获取方法,其特征在于,包括:选取一个时间段内的出租车GPS记录集,从所述GPS记录集中选出发生上下客和停驶空车的记录子集;

确定所述记录子集中的所有GPS记录所在的网格,获取每个网格内发生的上下客和停驶空车的次数;

选取出热点网格,并对所述热点网格进行空间聚类;

确定所述热点网格的打车热度;

所述方法进一步包括:

将城市按照30米×30米的网格进行划分,以网格为单元获取该网格范围内发生的上下客和停驶空车的次数,作为该网格打车热度的值;

所述确定所述记录子集中的所有GPS记录所在的网格的步骤具体包括:设r是所述记录子集中的任意一条记录,其经纬度坐标为,设地图左下角基准点的经纬度坐标为,网格的宽度是width,则r的网格号为:gridCx=(int)((longitude-leftLongitude)/width)gridCy=(int)((latitude-leftLatitude)/width);

所述选取出热点网格的步骤具体包括:

按照条件选取I级热点网格,标定所述I级热点网格的影响范围,除所述I级热点网格及其影响范围之外,按照另一条件选取II级热点网格;

所述条件为:上车次数超过5次,且上下车次数之和超过10次;所述另一条件为:上车次数超过3次,且上下车次数之和超过4次;

所述I级热点网格的影响范围为该网格的周边25个网格;

所述对所述热点网格进行空间聚类的步骤具体包括:

设热点网格a和b的网格号分别是,如果满足|a.gridCx-b.gridCx|≤1且|a.gridCy-b.gridCy|≤1,则a和b是连续热点网格;

将a和b的网格中心点向路网中的路段做匹配,如果a和b的网格中心点能够匹配到同一条路段或相邻的两条路段上,则将a和b进行空间聚类。

2.根据权利要求1所述的基于出租车GPS数据的打车热点获取方法,其特征在于,所述确定所述热点网格的打车热度的步骤具体包括:获取一个时间段内城市的出租车GPS记录,对所述GPS记录进行过滤,提取上下客和停驶空车的GPS记录;

获取所述热点网格的至少一类的打车热度。

3.根据权利要求2所述的基于出租车GPS数据的打车热点获取方法,其特征在于,所述获取所述热点网格的至少一类的打车热度的步骤具体包括:按照周一、周二、周三、周四、周五、周六、周日及节假日将所述上下客和停驶空车的GPS记录划分为8个类别;

针对一个类别的上下客和停驶空车的GPS记录,在全天的每个5分钟间隔内,获取每个热点网格在该5分钟间隔内的平均上下客和停驶空车的次数,作为该热点网格在该类别的该5分钟间隔内的打车热度。

4.根据权利要求3所述的基于出租车GPS数据的打车热点获取方法,其特征在于,针对空间聚类的热点网格:设热点网格a和b满足空间聚类的条件,其打车热度分别是a.count和b.count,则网格a和b的打车热度都被修正为a.count+b.count。

说明书 :

基于出租车GPS数据的打车热点获取方法

技术领域

[0001] 本发明涉及智能交通领域,特别涉及一种基于出租车GPS数据的打车热点获取方法。

背景技术

[0002] 近年来,随着经济的快速发展和人们收入水平的不断提升,搭乘出租车已从以前的小众消费行为发展为现在的大众消费行为。在中国的一些大中城市,公共交通虽发展迅速,但仍不完善,尤其在早晚高峰时段,较差的公交乘车体验造成了人们对出租车打车需求的不断攀升。然而在需求增加的同时,出租车的有效供给并没有同步增加,反而因为运力没有充分发挥出来而出现了下降的趋势。在全国的一些大中城市,“打车难”已经上升为一个社会问题。例如,2011年一项对北京打车情况的调查显示,81%的人遇到过打不到车的情况,65%的人因此而误事儿,近八成的人认为,这个城市顽疾或多或少地影响了自己的生活。
[0003] 出租车运力没有充分发挥出来的原因很多,但一个很重要的原因是乘车人对信息的匮乏,尤其当处在一个相对陌生的地理环境中时,很难获知周边出租车的分布规律,及时找到空驶的出租车。随着现代科技手段的完善,越来越多的城市出租车安装了GPS定位设备,利用定位技术、无线通信技术和信息处理技术,可以实现对道路上行驶的出租车的GPS位置信息、行驶方向、载客状态、上下客事件等数据的采集。结合城市的电子地图数据,利用统计分析和数据挖掘技术,可以相对便捷和客观地反映城市路网中空驶出租车的空间分布规律,而这种规律可以有效地帮助乘车人顺利地找到空驶出租车,或者及时提醒乘车人在出租车不足的情况下采用其他方式出行,节省乘车人的出行时间成本,也提高出租系统乃至整个城市交通系统的运营效率。
[0004] 目前还没有一种有效的方法能够提供城市路网中空载出租车分布的时空规律,给出特定时段内城市的打车热点所在,从而帮助乘车人找到周边的空驶出租车,或者及时提醒乘车人在出租车不足的情况下采用其他方式出行。

发明内容

[0005] 有鉴于此,本发明的目的在于提供一种基于出租车GPS数据的打车热点获取方法,用于提供城市路网中空载出租车分布的时空规律。
[0006] 本发明提供了一种基于出租车GPS数据的打车热点获取方法,包括:
[0007] 选取一个时间段内的出租车GPS记录集,从所述GPS记录集中选出发生上下客和停驶空车的记录子集;
[0008] 确定所述记录子集中的所有GPS记录所在的网格,获取每个网格内发生的上下客和停驶空车的次数;
[0009] 选取出热点网格,并对所述热点网格进行空间聚类;
[0010] 确定所述热点网格的打车热度。
[0011] 本发明针对大中城市“打车难”的问题,对海量的出租车的GPS定位数据进行统计分析,得出城市路网中空载出租车分布的时空规律,给出特定时段内城市的打车热点所在。当城市打车热点信息以一种便捷的方式提供给乘车人以后,可以方便乘车人找到周边的空驶出租车,或者及时提醒乘车人在出租车不足的情况下采用其他方式出行,节省乘车人的出行时间成本,从而提高出租系统乃至整个城市交通系统的运营效率。

附图说明

[0012] 图1为本发明实施例提供的获取打车热点网格的打车热度的方法流程图;
[0013] 图2为本发明实施例中出租车上下客和趴活记录在某区域内的空间分布情况示意图;
[0014] 图3为本发明实施例中在图2所示区域按照网格统计后的出租车上下客和趴活记录在该区域内的空间分布情况示意图;
[0015] 图4为本发明实施例中的I级热点网格的示意图;
[0016] 图5为本发明实施例中I级热点网格及其影响范围的示意图;
[0017] 图6为本发明实施例中的II级热点网格的示意图;
[0018] 图7为本发明实施例中I级和II级热点网格的整体选取示意图;
[0019] 图8为本发明实施例中对I级热点网格进行空间聚类的示意图。

具体实施方式

[0020] 为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
[0021] 人们的工作、生活、出行都具有一定的规律性。因此,作为主要的交通出行工具,出租车的时空分布也呈现出很强的规律性。通过对这种规律性的挖掘和展现,将方便人们规划自身的出行活动。
[0022] 本发明实施例针对大中城市“打车难”的问题,对海量的出租车的GPS定位数据进行统计分析,得出城市路网中空载出租车分布的时空规律,给出特定时段内城市的打车热点所在。当城市打车热点信息以一种便捷的方式提供给乘车人以后,可以方便乘车人找到周边的空驶出租车,或者及时提醒乘车人在出租车不足的情况下采用其他方式出行,节省乘车人的出行时间成本,从而提高出租系统乃至整个城市交通系统的运营效率。
[0023] 首先对出租车的GPS记录的数据项进行描述,一条完整的出租车GPS记录的数据项信息包括如下内容,见表1:
[0024] 表1
[0025]编号 字段名 字段说明
1 SourceID 唯一标识出租车的数据源
2 CarID 唯一标识车辆
[0026]3 GPSTime GPS信息发送时间
4 Longitude GPS经度信息
5 Latitude GPS纬度信息
6 GPSSpeed GPS即时速度
7 GPSAngle GPS的即时方向,以正北为0度,顺时针方向增加
8 State 0空载1满载说明出租车载客状态
9 Event 0其它1上客2下客说明出租车发生了上下客
[0027] 一般情况下,为了节省通信成本,出租车的GPS记录是按照一定的间隔(例如30秒或60秒)回传到调度中心的,但当出租车因上下客而发生翻牌事件时,出租车会将Event字段置位(上客翻牌置为1,下客翻牌置为2),并即时上传一条记录。因此,可以根据Event字段的置位信息来判断出租车的上下客位置。特别地,当从GPS数据源处不能有效获取Event字段值时,可以近似认为载客状态State字段发生变化的GPS记录来自于出租车的上下客点。城市的打车热点应满足如下特征之一:1)频繁发生上下客的事件;2)存在大量的停驶空车(指State字段置为空载,GPSSpeed字段为0的车辆,一般存在于出租车趴活点)。因此,通过分析历史上累计的出租车GPS记录,可以分析出城市出租车的分布热点所在。
[0028] 为了降低计算的复杂程度,本发明实施例将城市按照30米×30米的网格进行划分,以网格为单元获取其范围内发生的上下客和趴活的频率(即单位时间内该网格内发生上下客和趴活的次数),作为评估其打车热度的值(即打车热度)。此外,为了方便与下游服务系统(如行人诱导系统等)的对接,将打车热点作为一类具有打车功能的POI(Point Of Interest,兴趣点)点进行处理和发布。由于网格的范围不大,可以将网格的中心点作为打车的POI点进行设置。
[0029] 为了提高统计的效率和针对性,本发明实施例首先提取潜在的打车热点网格(POI),并最终只统计和发布这些热点网格(POI)的打车热度。在空间分布上,这些网格(POI)不仅既能代表城市出租车分布的典型热点区域,又要对城市具有相当的覆盖程度,以满足用户体验的要求。
[0030] 图1为获取打车热点网格的打车热度的方法流程图,该方法包括:
[0031] 步骤101、取一个时间段内的GPS记录集R,筛选出其中发生上下客的记录和空车趴活的记录子集Rs。如图2所示,是取一天的GPS上下客和趴活记录在某区域内的空间分布情况。图2中的倒三角形表示一个GPS上下客或趴活记录,从图2可以看出,覆盖比较多的区域也是经验中的容易打到车的区域。
[0032] 步骤102、对Rs中的任意一条记录,计算其所在的网格号。
[0033] 设r是Rs中的任意一条记录,其经纬度坐标为〈longitude,latitude〉,设地图左下角基准点的经纬度(以左下角经纬度坐标作为基准点计算网格号)是〈leftLongitude,leftLatitude〉,网格的宽度是width(用经差和纬差表达),则网格号〈gridCx,gridCy〉的计算方法为:
[0034] gridCx=(int)((longitude-leftLongitude)/width)
[0035] gridCy=(int)((latitude-leftLatitude)/width)
[0036] 步骤103、获取每个网格内发生的上下客和趴活的次数。图3为图2所示区域按照网格统计后的结果,用网格中心点代表网格(因网格较小,在图中未示出)。
[0037] 步骤104、按照一定的条件选取出热点网格(POI)。
[0038] 热点网格在空间分布上必须具有代表性:不仅既能代表城市出租车分布的典型热点区域,又要对城市具有相当的覆盖程度。本发明实施例对热点网格(POI)采用两级选择的策略,来实现代表性与覆盖程度的平衡。
[0039] 1、I级热点网格(POI)选取。
[0040] 对图3所示的网格按照一定的条件(如上车次数之和超过5次,上下车次数之和超过10次)进行筛选,得到图4所示的结果。
[0041] 2、标定I级热点网格(POI)的影响范围。
[0042] 如图5所示,将以每个I级热点网格(POI)为中心,周边25个网格作为其影响范围,在II级网格的选取过程中排除I级热点网格(POI)及其影响范围,这样可以避免I级和II级网格出现聚集效应,使选择出的热点网格(POI)更具代表性、分布更均匀。
[0043] 3、除I级热点网格(POI)及其影响范围之外,选取II级热点网格(POI)。
[0044] 对I级热点网格及其影响范围之外的网格中按照一定的条件(如上车次数超过3次,上下车次数之和超过4次)进行筛选,得到图6所示的结果。
[0045] 图7所示为I级和II级热点网格(POI)的整体选取效果。
[0046] 步骤105、对I级和II级热点网格(POI)分别进行空间聚类分析。
[0047] 从图7中可以看到,很多I级和II级热点网格(POI)是连续分布的,对于连续分布的点而言,会形成一个区域的聚类效应,即用户无论到达区域中的哪一个网格(POI),都可以分享区域中近邻网格(POI)的热度(这是因为每个网格的热度是单独统计的,但是对于相邻的两个网格,假设热度分别是10和1,不可能在热度为1的网格就等不到车,因为它们是相邻的,所以10的网格中的车也会被1的这个网格看到,这就是分享的概念)。因此,本发明实施例对I级和II级热点网格(POI)进行空间聚类分析,对于聚类到一起的热点网格(POI),每一个热点网格(POI)的热度都被置为聚类结果中所有热点网格(POI)热度的累加总和。
[0048] 可聚类的热点网格(POI)定义:
[0049] 1、设热 点 网 格(POI)a和 b的 网 格号 分 别 是〈a.gridCx,a.gridCy〉和〈b.gridCx,b.gridCy〉,如果满足|a.gridCx-b.gridCx|≤1且|a.gridCy-b.gridCy|≤1,则a和b是连续热点网格(POI);
[0050] 2、对于连续的热点网格a和b,将网格中心点(POI点)向路网中的路段做匹配(注意:只能匹配可上下车的路段,如主路和高架路是不能上下客和趴活的),如果a和b的网格中心点能够匹配到同一条路段或相邻的两条路段上,则认为a和b是可聚类的热点网格(POI)。这主要是为了防止将分布于中间有隔离带的道路两侧的热点网格(POI)进行聚类(在有隔离带的道路上,由于两方向的车相互隔离,且不能就近调头,故此类道路在地图上通常表示为两条路段;如果热点网格分处于这两条路段上,则其各自的出租车热度是不能共享的,因为用户不能打到隔离带对面的出租车)。图8是对图4所示的I级热点网格(POI)进行聚类的效果(在选取II级热点网格的时候就是先将I级热点网格的一定范围内排除掉,因此I级和II级热点网格是有一定的隔离度的,即使对他们进行聚类也聚不到一起)。
[0051] 步骤106、确定热点网格(POI)的打车热度。
[0052] 步骤1061、获取一个时间段内城市的原始出租车GPS记录。
[0053] 步骤1062、对GPS记录进行过滤,提取上下客和空车趴活的记录。
[0054] 步骤1063、将GPS记录进行分类统计,总计8个类别(周一、周二、周三、周四、周五、周六、周日、节假日)的数据统计结果。
[0055] 在一天内,将GPS记录按照5分钟的时间间隔进行统计,全天分为288个时间间隔。在每个5分钟时间间隔内,分别统计每个热点网格(POI)在该时间段内对应8个类别的平均上下客和空车趴活的次数(例如,周一的第1个间隔的数据由2月1日和2月8日的数据获得,周二的第1个间隔由2月2日、2月9日、2月16日3天的数据获得,必须平均才能保证结果的准确),用于表达该网格(POI)的打车热度。因为一辆出租车一般会在5分钟内连续上传若干条记录(有可能出现记录缺失的情况),所以统计时需要对GPS记录按照车辆ID进行排重(因为上客和下客是一辆车发生的,那么只能算有一辆车,不能算2辆)。
[0056] 对于空间聚类的热点网格(POI)的统计处理:设热点网格(POI)a和b满足空间聚类的条件,其分网格统计得到的平均上下客和空车趴活的次数分别是a.count和b.count,按照空间聚类热度分享的原则,网格a和b的打车热度都被修正为a.count+b.count。同理可实现多个网格聚类的统计结果。
[0057] 在以上流程中,步骤101~105的内容是选取打车热点网格,步骤106是基于打车热点网格来统计打车热度。之所以按照8个类别统计,是因为不同的周次各打车点的打车热度会有区别(比如,周末的商场打车热度会高于写字楼的打车热度),以方便用户基于周次查询。
[0058] 进一步地,在一些特殊的时段和区域,打车热度与乘客的目的地会呈现较强的相关性。例如,在出租车交接班时段,出租车需要驶到特定的区域完成交接班,此时如果乘客目的地与出租车交班区域不顺路,则可能会遭遇拒载的情况。为了进一步提升用户打车的体验,可以分析打车热点(POI)与目的地周边区域的相关性(即历史上的当前时段,从热点POI到目的地是否有较多的打车成功记录),以提高用户选择打车热点的针对性,提升用户体验。
[0059] 本发明实施例提出的方法能够解决由于乘客无法及时获得空驶出租车的时空分布规律而导致的打车难问题。当出租车的时空分布规律以一种便捷的方式提供给乘车人以后,可以方便乘车人找到周边的空驶出租车,或者及时提醒乘车人在出租车不足的情况下采用其他方式出行,节省乘车人的出行时间成本,从而提高出租系统乃至整个城市交通系统的运营效率。
[0060] 本发明实施例只需要用出租车的历史GPS数据作为输入,系统建设投入小,且同时能够为大量用户提供服务,当输入的出租车GPS历史数据时间越长、出租车涵盖的范围越广,则统计的打车热点结果越准确,用户的体验也越好。
[0061] 本发明实施例的方案无需用户提供过多的个人信息,也不需要电话订车过于繁杂的流程,可以享受到较好的打车体验。
[0062] 总之,以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。