会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 数学与统计 / 时空 / 一种基于轨迹间时空关联性的数据聚类方法

一种基于轨迹间时空关联性的数据聚类方法

阅读:441发布:2021-02-26

IPRDB可以提供一种基于轨迹间时空关联性的数据聚类方法专利检索,专利查询,专利分析的服务。并且本发明公开了一种基于轨迹间时空关联性的数据聚类方法,首先统计各轨迹点邻域半径内邻居的数量,取邻居数量满足最短停留时间限制的轨迹点和其邻居坐标的均值作为初始中心代表点,从时间和距离约束两方面确定初始中心代表点;计算各邻居与初始中心代表点的距离,将距离的最大值作为该初始中心代表点对应的半径,根据最短移动时间约束合并初始中心代表点并调整半径,直到合并结束时得到中心代表点集。当新的轨迹聚类任务到来时,判断轨迹点与中心代表点集中各代表点的位置关系,删除包含在中心代表点R范围内的轨迹点,产生新的轨迹,对新的具有聚类价值的轨迹执行阶段一中的操作,根据聚类结果更新中心点集。,下面是一种基于轨迹间时空关联性的数据聚类方法专利的具体信息内容。

1.一种基于轨迹间时空关联性的数据聚类方法,其特征在于,包括以下步骤:第一阶段:中心代表点集生成阶段:

从轨迹数据库中挑选 (N为轨迹数据库中包含的轨迹的条数, 为N的算数平方根的整数)条轨迹作为第一阶段中心代表点集生成的参考轨迹,并对这 条轨迹中的每条轨迹重复执行步骤1和步骤2操作:步骤1,统计某条轨迹中各轨迹点的半径r邻域内邻居的数量,取邻居数量满足最短停留时间限制的轨迹点和其邻居坐标的均值作为初始中心代表点,从时间和距离约束两方面确定初始中心代表点;

步骤2,计算各邻居与初始中心代表点的距离,将距离的最大值作为该初始中心代表点对应的半径R,最后,对所有 条轨迹所获得的初始中心代表点,根据最短移动时间约束合并初始中心代表点并调整半径AR,直到合并结束时得到中心代表点集;

第二阶段:基于中心代表点集的聚类阶段:

对轨迹数据库中的第 条到第N条轨迹聚类时,开始第二阶段的聚类操作:首先,判断轨迹点与中心代表点集中各代表点的位置关系,删除包含在各中心代表点对应AR范围内的轨迹点,产生新的轨迹;

然后,对新的具有聚类价值的轨迹执行第一阶段中的操作,最后根据聚类结果更新中心点集。

2.根据权利要求1所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,包括以下步骤:第一阶段:中心代表点集生成阶段:

从轨迹数据库中的随机挑选 条轨迹,对选中的每条轨迹重复执行S1.1-S1.3中所述的操作;

S1.1,邻居寻找:给定半径r,统计各轨迹点P在半径r范围内的所有邻居的数量;

S1.2,停留时间统计:对于轨迹点P的m个邻居Pn1,Pn2,…,Pni,…,Pnm,计算轨迹点P的所有邻居在其邻域半径r范围内从Pn1所示位置运动到Pnm所示位置经过的时间ST;

S1.3,初始中心候选点计算:选择所有邻居在轨迹点P的半径r范围内的停留时间ST大于最短停留持续时间MinDuration的轨迹点P,将该轨迹点P及其所有邻居的坐标均值记为初始中心候选点的坐标,并将各邻居与中心候选点的最大距离记为该中心候选点对应的半径AR,得到初始中心候选点CP(ALat,ALong,AR),其中ALat和Along分别为该初始中心代表点的纬度和经度坐标,AR为该初始中心代表点所带表的簇的半径;

对所有 条轨迹生成的所有初始中心代表点执行S1.4操作;

S1.4,初始中心候选点合并:对所有初始中心代表点,计算各的初始中心候选点与其它代表点的距离;如果距离小于最短移动持续时间MinMove,合并中心候选点并调整合并后的中心点对应的半径,合并后的中心点及其半径放入中心点集CR;

第二阶段:基于中心代表点集的聚类阶段:

中心代表点集产生后,对于轨迹数据库中的第 条到第N条轨迹聚类时,执行如下的操作步骤:S2.1,轨迹点与中心代表点集CR的距离计算:对于轨迹中的轨迹点,计算轨迹点与中心代表点集CR中各点的距离;

S2.2,现有聚类簇的发现:将与CR中的点CPi(ALati,ALongi,ARi)的距离小于ARi的轨迹点P,标记到CPi所对应的簇中;

S2.3,未聚类点统计:将轨迹中所有点与CR中的点作距离计算后,统计剩余的未被划分到簇的点的数量Num;

S2.4,新轨迹构造:

S2.3中得到的所述Num小于或等于最小规模的停留中应该包含的轨迹点数目时,第二阶段的聚类过程结束;

S2.3中得到的所述Num大于最小规模的停留中应该包含的轨迹点数目时,删除所有划分到簇的点,产生待聚类的新轨迹;对于新轨迹继续执行第一阶段所述的操作,得到新的中心点集CR。

3.根据权利要求2所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,所述邻居寻找包括以下步骤:第一步,计算轨迹点P与其余轨迹点Pi(1≤i≤n-1,n为当前处理轨迹中所包含的轨迹点的数量)的距离:轨迹点P(Lat,Long,T)和Pi(Lati,Longi,Ti)的距离计算方法为:其中Lat和Lati分别为轨迹点P和Pi的纬度坐标,Long和Longi分别为轨迹点P和Pi的经度坐标,T和Ti分别为轨迹点P和Pi的到达(Lat,Long)和(Lati,Longi)所示位置的时间;

其中6378137为地球半径,单位为米;radLat和radLati分别为轨迹点P和Pi的纬度对应的弧度值,a为P和Pi的纬度对应的弧度值之差,b为P和Pi的经度对应的弧度值之差;

第二步:当距离Dis(P,Pi)<r,将Pi标记为P的邻居,否则继续判断第Pi+1个轨迹点与P的邻居关系。

4.根据权利要求2所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,所述停留时间统计包括以下步骤:第一步:按采集时间的连续性,或者按照采样点的前驱和后继关系,将轨迹点P的所有邻居划分为不同的轨迹段;

第二步:计算各轨迹段的第一个点和最后一个点的时间差;

第三步:将第二步得到的各轨迹段的时间差相加,得到移动对象在所述轨迹点P的邻域半径r范围内的停留时间ST。

5.根据权利要求2所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,所述初始中心候选点计算的方法包括以下步骤:第一步:判断所述停留时间ST>MinDuration时,计算轨迹点P及其所有邻居坐标的均值,并将该均值作为初始聚类中心候选点CP的经纬度坐标(ALat,ALong),标记轨迹点P为已访问,CP经纬度计算坐标如下:其中,m为轨迹点P的r邻域内的邻居数量,Lati和Longi分别为P的第i个邻居的经纬度坐标;

第二步:判断所述停留时间ST≤MinDuration时,对于未访问的轨迹点P重新执行S1.1步骤,进行邻居寻找;

第三步:计算轨迹点P的所有邻居Pn1,Pn2,…,Pni,…,Pnm与所述中心代表点CP(ALat,ALong)的距离,将各邻居与中心代表点的距离最大值,作为该中心代表点CP对应的半径AR,得到初始中心代表点CP(ALat,ALong,AR);

所述AR的计算公式如下:

6.根据权利要求2所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,所述初始中心代表点的合并包括以下步骤:第一步:计算初始聚类中心代表点CP(ALat,ALong,AR)与其他各初始聚类中心代表点的距离;

第二步:第一步所得的距离与MinMove进行比较,当距离小于MinMove时,取距离小于MinMove的初始聚类中心代表点CP点坐标均值,将该均值作为合并后的聚类中心点的坐标,并将合并前两个中心代表点对半径的最大值作为合并后的新点对应的AR。

7.根据权利要求2或5所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,所述MinDuration为轨迹中的最短或最小规模停留的持续时间。

8.根据权利要求2或6所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,MinMove为最短移动的持续时间。

说明书全文

一种基于轨迹间时空关联性的数据聚类方法

技术领域

[0001] 本发明一种基于轨迹间时空关联性的数据聚类方法,属于轨迹数据挖掘技术领域。

背景技术

[0002] 随着通信技术和移动终端的迅速发展、越来越多的移动对象的活动轨迹被记录下来,如何从海量的轨迹数据中提取出有价值的信息或者模式从而为决策和服务提供支持已经成为空间信息领域研究的热点。
[0003] 轨迹中的停留点是轨迹中蕴含有丰富语义信息的部分,对轨迹中的停留点进行识别和提取是后续深入开展移动对象行为模式分析的基础。为了发现轨迹中的停留点,有的方法在传统的K-means聚类的基础上加入参数领域半径r来从轨迹数据中识别停留点;有的方法将轨迹进行划分,并用改进的TRACLUS算法进行轨迹聚类来分析轨迹的运动趋势;有的方法从时间和空间关系考虑,将传统的DBSCAN进行改进来识别停留点;有的方法从数据点的特征,比如所说速度,方向角,密度等多个方面对不同数据点进行聚类。
[0004] 总结来说,现有算法存在两个问题。第一,只考虑到同一条轨迹中各轨迹点的时空关联性,但轨迹间的时空关联性考虑不足。第二,利用全局唯一的距离参数来寻找轨迹中的停留点,对聚类精度产生较大影响。根据特定个体的轨迹分析,某个移动对象可能会在相同或者不同时间段重复访问相同的位置点;根据多个个体的轨迹分析,不同移动对象也有可能所访问相同的位置点,这说明不仅轨迹点与轨迹点之间有相关性,轨迹与轨迹之间也有相关性。
[0005] 个人GPS轨迹具有较高的时间和空间特征,可以通过轨迹间的时空关联性降低算法的复杂度。为了利用轨迹之间的这种时空关联性,本发明给出了一种基于轨迹间时空关联性的数据聚类方法,充分利用已有的聚类结果降低聚类的时空开销并提升聚类精度。

发明内容

[0006] 本发明提供了一种基于轨迹间时空关联性的数据聚类方法,该方法从轨迹与轨迹之间的时空关联性出发,充分利用已有的聚类结果降低聚类的时空开销并提升聚类精度。
[0007] 本发明通过以下技术方案实现:
[0008] 一种基于轨迹间时空关联性的数据聚类方法,包括以下步骤:
[0009] 从轨迹数据库中挑选 (N为轨迹数据库中包含的轨迹的条数, 为N的算数平方根的整数)条轨迹作为第一阶段中心代表点集生成的参考轨迹,并对这 条轨迹中的每条轨迹重复执行步骤1和步骤2操作:
[0010] 步骤1,统计某条轨迹中各轨迹点的半径r邻域内邻居的数量,取邻居数量满足最短停留时间限制的轨迹点和其邻居坐标的均值作为初始中心代表点,从时间和距离约束两方面确定初始中心代表点;
[0011] 步骤2,计算各邻居与初始中心代表点的距离,将距离的最大值作为该初始中心代表点对应的半径R,
[0012] 最后对所有 条轨迹所获得的初始中心代表点,根据最短移动时间约束合并初始中心代表点并调整半径AR,直到合并结束时得到中心代表点集;
[0013] 第二阶段:基于中心代表点集的聚类阶段;
[0014] 对轨迹数据库中的第 条到第N条轨迹聚类时,开始第二阶段的聚类操作:
[0015] 首先,判断轨迹点与中心代表点集中各代表点的位置关系,删除包含在各中心代表点对应AR范围内的轨迹点,产生新的轨迹;
[0016] 然后,对新的具有聚类价值的轨迹执行第一阶段中的操作,最后根据聚类结果更新中心点集。
[0017] 优选地,一种基于轨迹间时空关联性的数据聚类方法,包括以下步骤:
[0018] 第一阶段:中心代表点集生成阶段:
[0019] S1.1,邻居寻找:给定半径r,统计各数据点P在半径r范围内的所有邻居的数量;
[0020] 优选地,所述邻居寻找包括以下步骤:
[0021] S1.1.1,计算轨迹点P与其余轨迹点Pi(1≤i≤n-1,n为当前处理轨迹中所包含的轨迹点的数量)的距离:
[0022] 轨迹点P(Lat,Long,T)和Pi(Lati,Longi,Ti)(其中Lat和Lati分别为轨迹点P和Pi的纬度坐标,Long和Longi分别为轨迹点P和Pi的经度坐标,T和Ti分别为轨迹点P和Pi的到达(Lat,Long)和(Lati,Longi)所示位置的时间)的距离计算方法为:
[0023]
[0024] 其中6378137为地球半径,单位为米;radLat和radLati分别为轨迹点P和Pi的纬度对应的弧度值,a为P和Pi的纬度对应的弧度值之差,b为P和Pi的经度对应的弧度值之差;
[0025] S1.1.2:当距离Dis(P,Pi)<r,将Pi标记为P的邻居,否则继续判断第Pi+1个轨迹点与P的邻居关系。
[0026] S1.2,停留时间统计:对于轨迹点P的m个邻居Pn1,Pn2,…,Pni,…,Pnm,计算轨迹点P的所有邻居在其邻域半径r范围内从Pn1所示位置运动到Pnm所示位置经过的时间ST;
[0027] 优选地,所述停留时间统计包括以下步骤:
[0028] S1.2.1:按采集时间的连续性,或者按照采样点的前驱和后继关系,将轨迹点P的所有邻居划分为不同的轨迹段;
[0029] S1.2.2:计算各轨迹段的第一个点和最后一个点的时间差;
[0030] S1.2.3:将第二步得到的各轨迹段的时间差相加,得到移动对象在所述轨迹点P的邻域半径r范围内的停留时间ST。
[0031] S1.3,初始中心候选点计算:选择所有邻居在轨迹点P的半径r范围内的停留时间ST大于MinDuration(MinDuration为轨迹中的最短或最小规模停留的持续时间)的轨迹点P,将该数据点P及其所有邻居的坐标均值记为初始中心候选点的坐标,并将各邻居与中心候选点的最大距离记为该中心候选点对应的半径AR,得到初始中心候选点CP(ALat,ALong,AR);
[0032] 优选地,所述初始中心候选点计算的方法包括以下步骤:
[0033] S1.3.1:判断所述停留时间ST>MinDuration时,计算轨迹点P及其所有邻居坐标的均值,并将该均值作为初始聚类中心代表点CP的经纬度坐标(ALat,ALong),标记轨迹点P为已访问,CP经纬度计算坐标如下:
[0034]
[0035] 其中,m为轨迹点P的r邻域内的邻居数量,Lati和Longi分别为P的第i个邻居的经纬度坐标;
[0036] S1.3.2:判断所述停留时间ST≤MinDuration时,对于未访问的数据点P重新执行S1.1步骤,进行邻居寻找;
[0037] S1.3.3:计算轨迹点P的所有邻居与所述中心代表点CP(ALat,ALong)的距离,将各邻居与中心代表点距离的最大值,作为该中心代表点CP对应的半径AR,得到初始中心代表点CP(ALat,ALong,AR);
[0038] 所述AR的计算公式如下:
[0039]
[0040] S1.4,初始中心代表点合并:计算所有的初始中心代表点与其它未访问的中心代表点的距离;如果距离小于MinMove(MinMove为最短移动的持续时间),合并中心代表点并调整合并后的中心点对应的半径,合并后的中心点及其半径放入中心点集CR;
[0041] 优选地,所述初始中心代表点的合并包括以下步骤:
[0042] S1.4.1:计算初始聚类中心代表点CP(ALat,ALong,AR)与其他各初始聚类中心代表点的距离;
[0043] S1.4.2:第一步所得的距离与MinMove进行比较,当距离小于MinMove时,取距离小于MinMove的初始聚类中心代表点CP点坐标均值,将该均值作为合并后的聚类中心点的坐标,并将合并前两个候选点对半径的最大值作为合并后的新点对应的AR,将合并后的中心点及其半径放入中心点集CR并保存。
[0044] 第二阶段:基于中心代表点集的聚类阶段:
[0045] 中心代表点集产生后,对于轨迹数据库中的第 条到第N条轨迹聚类时,执行如下的操作步骤:
[0046] S2.1,轨迹点与中心代表点集CR的距离计算:对于轨迹中的轨迹点,计算轨迹点与中心代表点集CR中各点的距离;
[0047] S2.2,现有聚类簇的发现:将与CR中的点CPi(ALati,ALongi,ARi)的距离小于ARi的轨迹点P,标记到CPi所对应的簇中;
[0048] S2.3,未聚类点统计:将轨迹中所有点与CR中的点作距离计算后,统计剩余的未被划分到簇的点的数量Num;
[0049] S2.4,新轨迹构造:
[0050] S2.3中得到的所述Num小于或等于最小规模的停留中应该包含的轨迹点数目时,第二阶段的聚类过程结束;
[0051] S2.3中得到的所述Num大于最小规模的停留中应该包含的轨迹点数目时,删除所有划分到簇的点,产生待聚类的新轨迹;对于新轨迹继续执行第一阶段所述的操作,得到新的中心点集CR;
[0052] 本发明所涉及到的定义及名词包括:
[0053] 定义1:轨迹
[0054] 一条轨迹为包含n个轨迹点的时空数据序列,Traj[Id]={P0,P1,.…Pn},且Pi={(Latitude,Longitude),Ti},0≤i≤n,Ti
[0055] 如图1所示移动对象从家出发,到达了办公室,一段时间后从办公室出发到达了超市,在超市停留一段时间后最后回到家中。从图1可以看到,轨迹点在办公室和超市所在区域的集中程度明显大于轨迹中其余部分点的集中程度,这种在特定时间内小范围集中的数据点被称为停留点。
[0056] 定义2:停留点
[0057] 停止点SP={Pm+1,…,Pm+i,…,Pm+p},Pm+i={(Latitude,Longitude),Ti},大小为p的停留点集合SP是轨迹中所有数据点的子集,它由满足以下条件的轨迹点构成:(1)数据点静止在原地或者在局部小范围内缓慢移动;(2)数据点在局部小范围内的停留时间持续足够长。
[0058] 名词1:邻域半径r
[0059] 邻域半径r用来设定寻找轨迹点的邻居时的扫描半径,半径越大,寻找邻居时需要访问的轨迹点数量越多,且数据点的邻居数量越多甚至可能多余数据点所示位置实际包含的邻居数量。半径越小,邻居数越小,可能漏掉部分邻居。综上所述,半径太大或太小均会降低停留检测的精度,设置合理的r有利于更加精确的发现轨迹中包含的停留。
[0060] 名词2:最短停留时间MinDuration
[0061] MinDuration为轨迹中的最短或最小规模停留的持续时间,一般情况下,用户只对停留超过一定时间的停留感兴趣,因为,只有移动对象在某个位置的停留时间超过一定时间限制时,该停留才有可能代表了特定的地理位置,该位置才有可能进行过某种特定的活动.
[0062] 名词3:最短持续时间MinMove
[0063] 轨迹中的移动点的主要作用时连接两个相邻的停留,如果两个停留之间的移动点的持续时间太短,则认为这两个停留时由一个大的停留分割而来,是由于某些特殊的原因被错误的分割成了两个小停留,因此这两个停留应该被合并。综上所述,两个独立停留的持续时间必须满足最短持续时间MinMove的限制。
[0064] 名词4:MinDuration/SamplingRates
[0065] MinDuration为最短停留持续时间,SamplingRates为当前处理轨迹点采样时间的众数,MinDuration/SamplingRates为最小规模的停留中应该包含的轨迹点数目。
[0066] 本发明的目的时进行轨迹中的停留检测,因此,只有当轨迹中的数据量超过MinDuration/SamplingRates时,该条轨迹中才有可能包含了停留,该条轨迹才有聚类的价值。
[0067] 与现有技术相比,本发明具有如下有益效果:
[0068] 1.相比较与现有大部分仅仅考虑单条轨迹中的轨迹点与轨迹点之间的时空关联性,而忽视了不同轨迹之间的时空关联性的的聚类方法,本发明充分考虑了轨迹之间的时空关联性,并利用这种关联性进行分阶段的聚类,使得轨迹之大量有价值的信息能狗被充分利用;
[0069] 2.本发明利用中心代表点集CR保存已有的轨迹聚类结果,使得已有的聚类结果能够为后续的聚类提供参考,有效地解决了轨迹聚类分析中重复聚类相同的地理位置并存储带来不必要的时空开销。
[0070] 3.本发明中的中心代表点集CR中的每一个中心代表点CP均对应一个特定的半径AR,能够根据不同的半径AR发现大小不同的簇,在一定程度上克服了全局唯一的半径阈值使得聚类精度不高的缺陷。

附图说明

[0071] 图1为移动对象的轨迹示意图;
[0072] 图2为点P的r邻域内的轨迹段;
[0073] 图3为移动对象在不同时间段的轨迹;
[0074] 图4(a),4(b)为半径r对聚类结果的影响;
[0075] 图4(c)本发明方法的聚类精度及其与不同方法的比较;
[0076] 图5为本发明实例的方法流程图。

具体实施方式

[0077] 下面结合具体实施例对本发明做进一步的详细说明,但是本发明的保护范围并不限于这些实施例,凡是不背离本发明构思的改变或等同替代均包括在本发明的保护范围之内。
[0078] 一种基于轨迹间时空关联性的数据聚类方法,包括以下步骤:
[0079] 第一阶段:中心代表点集生成阶段:
[0080] 从轨迹数据库中挑选 (N为轨迹数据库中包含的轨迹的条数, 为N的算数平方根的整数)条轨迹作为第一阶段中心代表点集生成的参考轨迹,并对这 条轨迹中的每条轨迹重复执行S1.1-S1.3所述操作:
[0081] S1.1,邻居寻找:给定半径r,统计各轨迹点P在半径r范围内的所有邻居的数量;所述邻居寻找包括以下步骤:
[0082] S1.1.1,计算轨迹点P与其余轨迹点Pi的距离:
[0083] 轨迹点P(Lat,Long,T)和Pi(Lati,Longi,Ti)的距离计算方法为:
[0084] ,其中6378137为地球半径,单位米;radLat和radLati分别为轨迹点P和Pi的纬度对应的弧度值,a为P和Pi的纬度对应的弧度值之差,b为P和Pi的经度对应的弧度值之差;
[0085] S1.1.2:当距离Dis(P,Pi)<r,将Pi标记为P的邻居,否则继续判断第Pi+1个轨迹点与P的邻居关系。
[0086] S1.2,停留时间统计:对于轨迹点P的m个邻居Pn1,Pn2,…,Pni,…,Pnm,计算轨迹点P的所有邻居在其邻域半径r范围内从Pn1所示位置运动到Pnm所示位置经过的时间ST;
[0087] 优选地,所述停留时间统计包括以下步骤:
[0088] S1.2.1:按采集时间的连续性,或者按照采样点的前驱和后继关系,将轨迹点P的所有邻居划分为不同的轨迹段;如图2所示,空心圆圈为轨迹点p,虚线圆圈内为P的邻域半径r范围内的所有邻居,轨迹段1的起点P1s与其下一个采样点(直接后继)依次相连知道达到轨迹段1的最后一各采样点P1e,由此可得P的r邻域范围内的3条分别用短虚线、长虚线和实线代表的轨迹段。
[0089] S1.2.2:计算各轨迹段的第一个点和最后一个点的时间差;如图2所示,轨迹段1的时间差为:ST1=P1e-P1s;轨迹段2的时间差为:ST2=P2e-P2s;轨迹段3的时间差为:ST3=P3e-P3s;
[0090] S1.2.3:将S1.2.2得到的各轨迹段的时间差相加,得到移动对象在所述轨迹点P的邻域半径r范围内的停留时间ST;以图2中的3条轨迹段为例,轨迹点P的r范围内的停留时间ST为:ST=ST1+ST2+ST3;
[0091] S1.3,初始中心候选点计算:选择所有邻居在轨迹点P的半径r范围内的停留时间ST大于MinDuration(MinDuration为轨迹中的最短或最小规模停留的持续时间)的轨迹点P,将该数据点P及其所有邻居的坐标均值(ALat,ALong)记为初始中心代表点的坐标,并将各邻居与中心代表点距离的最大值记为该中心代表点对应的半径AR,得到初始中心代表点CP(ALat,ALong,AR);
[0092] 优选地,所述初始中心代表点计算的方法包括以下步骤:
[0093] S1.3.1:判断所述停留时间ST>MinDuration时,计算轨迹点P及其所有邻居坐标的均值,并将该均值作为初始聚类中心代表点CP的经纬度坐标(ALat,ALong),标记轨迹点P为已访问,CP经纬度计算坐标如下:
[0094]
[0095] 其中,m为轨迹点P的r邻域内的邻居数量,Lati和Longi分别为P的第i个邻居的经纬度坐标;
[0096] S1.3.2:判断所述停留时间ST≤MinDuration时,对于未访问的轨迹点P重新执行S1.1步骤,进行邻居寻找;
[0097] S1.3.3:计算轨迹点P的所有m个邻居Pn1,Pn2,…,Pni,…,Pnm与所述中心代表点CP(ALat,ALong)的距离,将各邻居与中心代表点距离的最大值,作为该中心代表点CP对应的半径AR,得到初始中心代表点CP(ALat,ALong,AR);
[0098] 所述AR的计算公式如下:
[0099]
[0100] 对所有 条轨迹生成的所有初始中心代表点执行S1.4所述操作。
[0101] S1.4,初始中心候选点合并:对所有初始中心代表点,计算各的初始中心候选点与其它代表点的距离;如果距离小于最短移动持续时间MinMove,合并中心候选点并调整合并后的中心点对应的半径,合并后的中心点及其半径放入中心点集CR;
[0102] 优选地,所述初始中心候选点的合并包括以下步骤:
[0103] S1.4.1:计算初始聚类中心代表点CP(ALat,ALong,AR)与其他各初始聚类中心代表点的距离;
[0104] S1.4.2:第一步所得的距离与MinMove进行比较,当距离小于MinMove时,取距离小于MinMove的初始聚类中心代表点CP点坐标均值,将该均值作为合并后的聚类中心点的坐标,并将合并前两个中心代表点对半径的最大值作为合并后的新点对应的AR,将合并后的中心点及其半径放入中心点集CR并保存。
[0105] 第二阶段:基于中心代表点集的聚类阶段:
[0106] 中心代表点集产生后,对于轨迹数据库中的第 条到第N条轨迹聚类时,执行如下的操作步骤:
[0107] S2.1,轨迹点与中心代表点集CR的距离计算:对于轨迹中的轨迹点,计算轨迹点与中心代表点集CR中各点的距离;
[0108] S2.2,现有聚类簇的发现:将与CR中的点CPi(ALati,ALongi,ARi)的距离小于ARi的轨迹点P,标记到CPi所对应的簇中;
[0109] S2.3,未聚类点统计:将轨迹中所有点与CR中的点作距离计算后,统计剩余的未被划分到簇的点的数量Num;
[0110] S2.4,新轨迹构造:
[0111] S2.3中得到的所述Num小于或等于最小规模的停留中应该包含的轨迹点数目时,第二阶段的聚类过程结束;
[0112] S2.3中得到的所述Num大于最小规模的停留中应该包含的轨迹点数目时,删除所有划分到簇的点,产生待聚类的新轨迹;对于新轨迹继续执行第一阶段所述的操作,得到新的中心点集CR。
[0113] 实施例1
[0114] 实际应用中,第一阶段的伪代码如下:
[0115] 表1
[0116]
[0117] 第二阶段的伪代码如下:
[0118] 表2
[0119]
[0120]
[0121] 合理性分析及有效性验证:
[0122] 为了验证本发明方法的合理性和有效性,对本发明中的方法合理性进行了探究,与几种典型的停止点聚类方法进行了对比实验,并对本发明中涉及到的参数进行了实验讨论。
[0123] 如图3展示了移动对象3条不同轨迹Tra1,Tra2和Tra3。如图3所示,从Tra1,Tra2到Tra3,移动对象的轨迹发生了一定程度的改变,但这些轨迹中仍然存在重叠的部分。这些重叠的轨迹段就是该移动对象在不同时间区间中重复访问的地理位置。这种变化与人类的日常生活习性也是相符合的。比如说,上班族每周一到周五都会去公司上班;学生每天按照重复的路线去学校上学;每天早上运动员按照固定的路线晨练;每周我们可能多次去同一个超市或者商场购物等,以上这些活动都是可能会重复访问的地理位置。
[0124] 除了单条轨迹中数据点的时空关联性,不同时刻的不同移动轨迹之间也存在着某种时空关联性。本发明利用CR来记录已经访问的地理信息,并通过与CR的比较发现已经访问过的类簇,提高轨迹聚类的效率,因此,本文CR的设定和应用是合理且有价值的。
[0125] 如图4所示,图4(a)为r分别等于30m,50m,70m,100m时本发明方法聚类的Precision,Recall和F-measure比较,其中圆圈标注的实线为本方法的召回率,菱形标注的虚线为本方法的精确率,星号标注的实线表示的F-measure值用来综合衡量Precision,Recall两个指标。从图中可以看出,当r取值区间为(30,50)时,综合考虑指标F-measure较高。而图4(b)则是r在区间(30,50)中的聚类结果,从图中可以看出,r在35位置处的F-measure取值较高。所以本文参数r最适合的取值为35m。
[0126] MinDuration都与具体的应用有关,不同的值反应不同的聚类活动,本发明实验数据为城市居民出行数据,MinMove设置为150m,MinDuration设置为180s,采样频率SamplingRates为5s,因此,MinDuration/SamplingRates=36。以上不同参数的值并不是确定不变的,也可以根据不同的实验数据做出调整,不同的参数值与本发明所提出方法的思想并不违背。
[0127] 本发明使用Precision,Recall和F-measure三个度量指标对本发明方法,DBSCAN以及文献1(ASHBROOK D,STAMER T.Learning significant locations and predicting user movement with GPS[J].In Proceedings of the  Sixth international Symposium,Vienna,Austria,April,2002:21-23.)中方法的性能进行比较,其中DBSCAN是一种典型的密度聚类方法,其将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇。文献1中首先通过设置时间阈值t,将停留时间满足时间阈值t约束的轨迹点视为地理位置的代表点。然后从代表点中任意取点,并将该点r半径范围内的轨迹点划分到同一个簇,并用簇内成员的坐标均值作为簇中心,并不断重复上述过程,直到簇中心不再改变即可获得不同的停止点集合。
[0128] 比较图在4(c)中给出。图4(c)中圆圈实线、菱形虚线、星号实线标记的三条曲线分别代表本发明方法、DBSCAN算法以及文献1中方法的Precision,Recall和F-measure值,从图中可以发现本发明方法和DBSCAN的Recall很接近,但本发明方法的Precision的明显高于DBSCAN的精确率。为了权衡Precision和Recall两个指标,计算了F-measure指标来综合考虑。三个算法的F-measure指标分别为:0.942,0.8802,0.5991。这表明文献1算法与前两种算法相比聚类效果不理想,本发明方法较DBSCAN更具有优势。
[0129] 本发明不会限制于本文所示的实施例,而是要符合与本文所公开的原理和新颖性特点相一致的最宽范围。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用