会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 数学与统计 / 时空 / 基于时空数据轨迹特征的人群分类方法

基于时空数据轨迹特征的人群分类方法

阅读:444发布:2021-03-03

IPRDB可以提供基于时空数据轨迹特征的人群分类方法专利检索,专利查询,专利分析的服务。并且本发明提供一种基于时空数据轨迹特征的人群分类方法,包括如下步骤:S1)时空数据清洗处理;S2)行人轨迹提取;S3)行人轨迹压缩;S4)行人轨迹分类。本发明的优点如下:通过数据挖掘技术分析时空数据并建立轨迹模式模型,具有较好的分类效果,能够有效地提取出某类特定人群的相关数据,有利于在危害社会治安的问题发生前做好防范工作。,下面是基于时空数据轨迹特征的人群分类方法专利的具体信息内容。

1.基于时空数据轨迹特征的人群分类方法,其特征在于包括如下步骤:S1)时空数据清洗处理

使用传感器采集时空数据,对采集的时空数据进行清洗处理,包括去除残缺数据、去除重复数据、去除错误数据、去除稀疏数据和去除智能家电数据;对采集的时空数据统一转换数据格式;

S2)行人轨迹提取

选择行人轨迹的提取时间段,提取时间段为理想情况下普通人群与特殊人群差异性最大的时间段;

对提取的每条行人轨迹设定轨迹的间隔阈值,剔除间隔很短和某点密集化的异常数据;

将提取的行人轨迹数据按时间顺序平铺,剔除相邻数据条目为同一个点的数据;

S3)行人轨迹压缩

将提取的行人轨迹进行轨迹压缩,剔除冗余信息;

S4)行人轨迹分类

建立四种轨迹模式:简单轨迹模式、循环轨迹模式、来往轨迹模式和复杂轨迹模式;

提取行人轨迹的轨迹特征,包括行人出行时段、轨迹持续时长和该段轨迹中行人平均速度、行人出行距离、行人活动范围、轨迹转角变化、速度切换点;

根据行人轨迹的轨迹特征,结合建立的轨迹模式类别,对行人轨迹进行第一层的弱分类;

将带有第一层弱分类的行人轨迹映射到行人个体上,对每个行人个体再次进行分类,根据分类结果判断某个行人个体是否是潜在可能危害社会稳定的特殊人群。

2.根据权利要求1所述的基于时空数据轨迹特征的人群分类方法,其特征在于:步骤S1)中,时空数据为五元数据组,包括MAC地址、传感器编号、采集时间、传感器经度、传感器纬度,可表示为时空数据(MAC地址,传感器编号,采集时间,传感器经度,传感器纬度)。

3.根据权利要求1所述的基于时空数据轨迹特征的人群分类方法,其特征在于:步骤S2)中,采用检测位置变化模型(LCM)的算法,具体步骤如下:S2-1)输入某个人的所有轨迹点;

S2-2)判断相邻轨迹点是否构成部分轨迹,如果相邻轨迹点不是同一个位置点且不处于同一个时间点,则构成有效的部分轨迹;

S2-3)输出某个人的有效轨迹。

4.根据权利要求1或3所述的基于时空数据轨迹特征的人群分类方法,其特征在于:步骤S2)中,选择行人轨迹的提取时间段分别为早上(6点-9点)、傍晚(16点-19点)、凌晨(1点-

4点)。

说明书全文

基于时空数据轨迹特征的人群分类方法

技术领域

[0001] 本发明涉及数据分析技术领域,具体涉及一种基于时空数据轨迹特征的人群分类方法。

背景技术

[0002] 随着当今信息化的发展,城市信息化建设也一直保持着快速平稳的发展态势。部署在城市各个角落的传感器设备每日可采集大量的人群位置信息,这类海量的时空数据信息不仅能刻画人群的移动模式,也成为预防公共安全事件的重要资源。
[0003] 目前,关于行人时空轨迹数据的研究大多采用基于时间点与活动块的方法,存在如下缺点:其一,行人活动的不确定性以及人群居住地的差异等因素造成了其研究方法适用性较差的问题;其二,轨迹甄别的对象人数很少,导致分类模型的正样本案例很小,样本极度不平衡。
[0004] 大数据分析技术与机器学习的应用为以上问题的解决创造了条件。每类人群由于受其性别、年龄、工作和社交等原因,其行为模式在一定程度上与其他族群有较大的差异。通过分析时空轨迹数据中不同族群的数据特征,勾画单人的轨迹路径,并对轨迹进行模式分类,再根据他们的出行时长、时间段、出行方式等特征可以观测出他们的出行意图以及行为习惯等,有利于提取某类特定人群,可以根据分析数据在危害社会治安的问题发生前做好防范工作。

发明内容

[0005] 本发明的目的是提供一种通过数据挖掘技术分析时空数据并建立轨迹模式模型、具有较好分类效果的基于时空数据轨迹特征的人群分类方法。
[0006] 为了达到上述目的,本发明通过以下技术方案来实现:基于时空数据轨迹特征的人群分类方法,包括如下步骤:
S1)时空数据清洗处理
使用传感器采集时空数据(MAC地址,传感器编号,采集时间,传感器经度,传感器纬度),对采集的时空数据进行清洗处理,包括去除残缺数据、去除重复数据、去除错误数据、去除稀疏数据和去除智能家电数据;对采集的时空数据统一转换数据格式;
S2)行人轨迹提取
选择行人轨迹的提取时间段,提取时间段为理想情况下普通人群与特殊人群差异性最大的时间段;
对提取的每条行人轨迹设定轨迹的间隔阈值,剔除间隔很短和某点密集化的异常数据;
将提取的行人轨迹数据按时间顺序平铺,剔除相邻数据条目为同一个点的数据; S3)行人轨迹压缩
将提取的行人轨迹进行轨迹压缩;
S4)行人轨迹分类
建立四种轨迹模式:简单轨迹模式、循环轨迹模式、来往轨迹模式和复杂轨迹模式;
提取行人轨迹的轨迹特征,包括行人出行时段、轨迹持续时长和该段轨迹中行人平均速度、行人出行距离、行人活动范围、轨迹转角变化、速度切换点;
根据行人轨迹的轨迹特征,结合建立的轨迹模式类别,对行人轨迹进行第一层的弱分类;
将带有第一层弱分类的行人轨迹映射到行人个体上,对每个行人个体再次进行分类,根据分类结果判断某个行人个体是否是潜在可能危害社会稳定的特殊人群。
[0007] 进一步地,步骤S2)中,采用检测位置变化模型(LCM)的算法,具体步骤如下:S2-1)输入某个人的所有轨迹点;
S2-2)判断相邻轨迹点是否构成部分轨迹,如果相邻轨迹点不是同一个位置点且不处于同一个时间点,则构成有效的部分轨迹;
S2-3)输出某个人的有效轨迹。
[0008] 进一步地,步骤S2)中,选择行人轨迹的提取时间段分别为早上(6点-9 点)、傍晚(16点-19点)、凌晨(1点-4点)。
[0009] 本发明与现有技术相比,具有以下优点:本发明基于时空数据轨迹特征的人群分类方法,通过数据挖掘技术分析时空数据并建立轨迹模式模型,具有较好的分类效果,能够有效地提取出某类特定人群的相关数据,有利于在危害社会治安的问题发生前做好防范工作。

附图说明

[0010] 图1是本发明基于时空数据轨迹特征的人群分类方法的流程示意图。
[0011] 图2是本发明基于时空数据轨迹特征的人群分类方法的时空数据清洗处理示意图。
[0012] 图3a是本发明基于时空数据轨迹特征的人群分类方法的轨迹模式示意图 (一)。
[0013] 图3b是本发明基于时空数据轨迹特征的人群分类方法的轨迹模式示意图 (二)。
[0014] 图3c是本发明基于时空数据轨迹特征的人群分类方法的轨迹模式示意图 (三)。
[0015] 图3d是本发明基于时空数据轨迹特征的人群分类方法的轨迹模式示意图 (四)。
[0016] 图4是本发明基于时空数据轨迹特征的人群分类方法的实验框架示意图。
[0017] 图5a是本发明基于时空数据轨迹特征的人群分类方法的各个分类器在不同模型上的效果示意图(一)。
[0018] 图5b是本发明基于时空数据轨迹特征的人群分类方法的各个分类器在不同模型上的效果示意图(二)。
[0019] 图5c是本发明基于时空数据轨迹特征的人群分类方法的各个分类器在不同模型上的效果示意图(三)。
[0020] 图6a是本发明基于时空数据轨迹特征的人群分类方法的不同大小数据集下模型的效果示意图(一)。
[0021] 图6b是本发明基于时空数据轨迹特征的人群分类方法的不同大小数据集下模型的效果示意图(二)。
[0022] 图6c是本发明基于时空数据轨迹特征的人群分类方法的不同大小数据集下模型的效果示意图(三)。
[0023] 图6d是本发明基于时空数据轨迹特征的人群分类方法的不同大小数据集下模型的效果示意图(四)。

具体实施方式

[0024] 下面结合附图,对本发明的实施例作进一步详细的描述。
[0025] 如图1所示,基于时空数据轨迹特征的人群分类方法,包括如下步骤: S1)时空数据清洗处理如图2所示,使用传感器采集时空数据(MAC地址,传感器编号,采集时间,传感器经度,传感器纬度),对采集的时空数据进行清洗处理,包括去除残缺数据、去除重复数据、去除错误数据、去除稀疏数据和去除智能家电数据;对采集的时空数据统一转换数据格式,包括将某些MAC地址中的“-”统一去除、将十进制的MAC地址转换成十六进制。
[0026] 具体而言,需要剔除MAC地址不是手机的数据,为了防止有其他的可联网设备作为干扰,比如智能空调、智能插座等智能家电产品,因表现出静止的状态而只被一个传感器采集到,应删除其对应的记录;也需要剔除信息量极少的行人数据,因部分人群可能只是来此地的游客,其提供的信息量极少,也不应考虑在内,采集的行人数据在一定范围内应当是同样的数量级;还需要剔除大量的冗余路径点,因实际采集到的数据中会有很多噪音,比如某个人可能长时间呆在一个地方而被多次采集到。
[0027] 在这一步骤中,可适用静态位置模型(SPM),我们认为特殊人群与普通人群的出行地点与活动时间及范围是不相同的,我们可以从整理好的数据集中提取这部分数据,我们将一天24h分成96个时间片段,将空间信息依照geohash 块进行划分并进行统计进而可以得到两类人群在这些数据特征上的表现形式。然而,此模型存在一定的问题,我们忽视了人群是否是在移动这一关键问题,只考虑到了人群经过的地点却忽略了它的实际活动区域,这无疑是一大弊端,也为我们之后算法的改进提供了思路。SPM模型思想虽然简单,与后文提出的轨迹模型相比显出不足,但是却为我们提供了一个比对的基准线。
[0028] S2)行人轨迹提取选择行人轨迹的提取时间段,提取时间段为理想情况下普通人群与特殊人群差异性最大的时间段,本实施例中选择行人轨迹的提取时间段分别为早上(6点-9点)、傍晚(16点-19点)、凌晨(1点-4点);对提取的每条行人轨迹设定轨迹的间隔阈值,可有效将行人的每次出行划分开来以利于我们最后的模型鉴别;剔除间隔很短和某点密集化的异常数据,具体来说,在提取行人的前后间隔数据项时,要设定有效的阈值剔除一些异常值的存在,如前后两个场所采集到的当前人间隔很短,应当剔除这类异常数据;将提取的行人轨迹数据按时间顺序平铺,剔除相邻数据条目为同一个点的数据。
[0029] 在步骤S2)中,采用检测位置变化模型(LCM)的算法,具体如下:S2-1)输入某个人的所有轨迹点;
S2-2)判断相邻轨迹点是否构成部分轨迹,如果相邻轨迹点不是同一个位置点且不处于同一个时间点,则构成有效的部分轨迹;
S2-3)输出某个人的有效轨迹。
[0030] 检测位置变化模型如下:上述伪代码描述如下:在具体实现LCM的过程中,我们将一个人的当前轨迹上的点集做为输入,希望得到能够表示当前行人的有效活动地点及时间的信息并以元组的形式存储下来。首先,我们遍历轨迹上的每个点,对比当前记录点Oi与 Oi-1geoshah值,如果两者的geohash值相当,则进行下一个点的判断;反之若两者的geohash值不相等,则将对应的时间戳分别赋值给t1与t2;然后,判断t1与t2的大小关系,根据两者的大小关系,相等、大于、小于,分别对应不同的元组信息,将Oi与Oi-1的geohash值与它们各自对应的时间信息加入元组tp中。
[0031] 在这一步骤中,我们很好地解决了步骤S1)中提到的SPM模型同时间重复点而导致无法准确判断人群是否在移动的问题,有了有效的人群活动信息后我们提出了位置变化模型(LCM)。虽然此模型也只是从统计的角度上去衡量人群的差异性,但是效果却别SPM好上许多,也为我们之后的轨迹模型提供了较好的融合基础。
[0032] S3)行人轨迹压缩将提取的行人轨迹进行轨迹压缩。
[0033] 因提取出的行人轨迹往往会出现数据点太密集的问题,即使经过数据清洗这一过程,实际过程中仍会出现误采集、多采集、重复采集等情况,还是会对提取出的行人轨迹产生较大影响。较密集的行人轨迹并不适用于特征提取,从机器学习的角度来看,应该从模糊化的方向去考虑一个轨迹的特征从而能够进行有效的分类,而并非去考虑轨迹上的每一个数据点。
[0034] 轨迹压缩算法具体如下:上述伪代码描述如下:我们将原始轨迹T,设定的距离阈值ε,设定的最长距离d作为算法的输入。从O1与O2开始按滑动的方式每次分别计算两个连线形成的直线到两点间其余点的垂直距离,并且如果两点所连成的直线大于d则继续两点同时向后滑动,dcur和dm,如果大于阈值ε,说明轨迹点偏移轨迹方向较远,轨迹不能近似拟合,则将当前点Ocur添加到轨迹集CT中,设置新的滑动窗口;否则,直线左端点不变,滑动窗口向后滑动。算法循环此过程。
[0035] S4)行人轨迹分类建立四种轨迹模式:图3a所示的简单轨迹模式、图3b所示的循环轨迹模式、图 3c所示的来往轨迹模式和图3d所示的复杂轨迹模式。
[0036] 提取行人轨迹的轨迹特征以区分普通人群与特殊人群,包括行人出行时段、轨迹持续时长和该段轨迹中行人平均速度、行人出行距离、行人活动范围、轨迹转角变化、速度切换点。
[0037] 根据行人轨迹的轨迹特征,结合建立的轨迹模式类别,对行人轨迹进行第一层的弱分类;通过这一层分类,可以初步获得此条轨迹是否可能是潜在特殊人群的轨迹。将带有第一层弱分类的行人轨迹映射到行人个体上,对每个行人个体再次进行分类,根据分类结果判断某个行人个体是否是潜在可能危害社会稳定的特殊人群。
[0038] 在第二层的处理中,将带有第一层弱分类的行人轨迹映射到行人个体上。举例来说,我们提取了行人A的100条具有价值的完整轨迹,在完成第一层的操作后,随机森林将其中80条轨迹判定为嫌疑人的相似轨迹,20条轨迹判定为正常人的相似轨迹,贝叶斯算法将其中70条轨迹判定为嫌疑人的相似轨迹,30条轨迹判定为正常人的相似轨迹,将这些信息规整到第二层的分类,继续通过对应的分类算法判定其为嫌疑人的概率。如此例中,在随机森林的场景下有80票判定为嫌疑人,如此进行一个类似的投票判定。同样,其他行人个体进行上述分类,根据分类结果判断某个行人个体是否是潜在可能危害社会稳定的特殊人群。
[0039] 通过这一整个流程下来,我们提出的基于轨迹模式的模型(TPM)取得了较为出色的效果。总得来说,我们建立的TPM模型,通过行人的历史数据构建行人的完整轨迹,并结合上述提到的LCM与轨迹压缩模型将轨迹中的冗余信息去除,然后通过数据挖掘的手段提取出每段轨迹中的有益信息作为我们模型的特征,比如轨迹段的长度、时间、行人在此轨迹段的速度、转角率等等并融入我们定义的轨迹模式。完成特征提取后,我们运用成熟的机器学习模型,如随机森林, 贝叶斯算法,SVM等进行分类测试。在实验阶段,我们发现TPM如果融入前文提出的LCM中的特征能使分类效果更加出色,因此我们在后续的实验阶段将 LCM与TPM模型的融合作为我们最终的模型,并进行了多轮实验验证此融合模型的优越性。
[0040] 如图4所示,搭建一个框架进行模型效果的验证,包括数据采集层、数据处理层、特征提取层、分类层和验证及评估层。该框架中的特征提取阶段即是我们前文说所的各类模型的应用。
[0041] 如图5a-5c所示,图5a为各个分类器的准确率,图5b为各个分类器的召回率,图5c为各个分类器的F3值,几乎在所有的指标上我们最终所采用的LCM 与TPM融合模型取得的效果都比其他的模型要好上一截,证明了我们模型的健壮性。具体来说,我们从准确率上来评估模型对正确区分特殊人群的比例是多少,并通过召回率来观察是否在一个数据集内存在我们预估的特殊人群,并用F3指标进行最终的衡量,结果证明了我们的模型的有效性。
[0042] F3指标公式为: 其中precision为准确率, recall为召回率。
[0043] 如图6a-6d所示,图6a为SPM模型的F值,图6b为LCM模型的F值,图6c为TPM模型的F值,图6d为LCM+TPM融合模型的F值。我们验证了在不同大小的训练数据下模型的性能,我们通过设定50,75...150个特殊人群作为训练集的数据来验证不同模型的性能高低。由实验结果可知,我们提出的LCM 与TPM融合模型依旧领先于其他模型,并且在数据集增大的情况下性能也在增加,展示出了模型稳定的一面。
[0044] 以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用