一种基于K-means聚类的移动疑似危险人群分类方法转让专利

申请号 : CN201610676761.8

文献号 : CN106156804B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王卫红杨洁陈小柱

申请人 : 浙江工业大学

摘要 :

一种基于K‑means聚类的移动疑似危险人群分类方法,方法包括:获取移动数据,保留包括IMSI、StartTime、CGI、LocLng以及LocLat等移动信息;选取指定地点,根据其CGI查询得到特定时间段内经过该地点的个体IMSI列表;通过每个个体IMSI查询获得该时段内的若干条移动信息,并按时间排序生成一组时序点;分析时序点信息,选取并获得个体通过该地点次数以及最长停留时间作为分类特征;由得到的特征做K‑means特征聚类,划分出常驻人群、路过人群以及来回驻足人群;将来回驻足人群,即疑似危险人群,以IMSI列表输出。

权利要求 :

1.一种基于K-means聚类的移动疑似危险人群分类方法,所述的方法包括:步骤1,获取移动数据;利用现有移动数据,每条数据保留包括IMSI、StartTime、CGI、LocLng以及LocLat字段,其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,CGI为接收基站小区的唯一标示符,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置;

步骤2,获取经过个体列表;选取特定基站作为指定地点,由该基站小区的唯一标示符CGI,查询得到特定时间段内经过该基站所有个体的IMSI;

步骤3,获取时序信息;根据步骤2获得的IMSI进行查询,即可获得特定时间段内每个IMSI对应移动设备的若干条移动数据,同时,按照移动数据的即时时间排序,即可构成针对每个个体的一组时序信息;

步骤4,获取个体特征;由于需要将人群分为常驻人群、路过人群以及来回驻足人群,因而,选取并获得个体通过该地点的次数以及最长停留时间作为分类特征;

步骤5,K-means聚类;根据步骤4得到的特征进行K-means聚类,获得常驻人群、路过人群以及来回驻足人群,共计3类人群;

步骤6,输出分类结果;根据聚类结果,将划分得到的来回驻足人群,即疑似危险人群,做相关IMSI列表的输出操作,以便相关研究人员进一步过滤分析;

步骤4具体包括:

41遍历单个个体的所有时序信息,若时序点中的CGI为指定地点的CGI,则置1,若不是指定地点的CGI,则置0,则可以得到一组由0与1组成的字符串;

42获取连续1的子字符串集,子字符串的个数即为个体通过该地点的次数,每个子字符串的首尾即时时间差即为每次的停留时间,获取子字符串集中最长的停留时间;

43由于个别点具备较大的差异性,因此需要过滤异常点,以保证接下来聚类的准确性;

将最长停留时间超过300分钟的个体过滤出来,提前纳入常驻人群,再将通过次数大于30次的个体过滤出来,提前纳入来回驻足人群;

44将剩下个体的通过该地点次数以及最长停留时间这两个特征分别做归一化操作,得到最终的特征参数;

步骤5具体包括:

51需要划分出3类人群,因而k=3,随机选取3个点作为质心uj,其中,j=1,2,3;

52对于个体样本中的特征数据,通过欧式距离计算每个数据所归属的分类,公式如下所示:c(i)表示样例与k个类中距离最近的一个,x(i)表示个体样例点,uj表示类的质心;

53对于每一个类,重新计算其类的质心,计算公式如下所示;

m表示类中个体样例的个数;

54给出收敛条件:最小化对象到其簇质心的距离的平方和,查看其是否满足收敛条件,若满足收敛条件,则给出分类结果,若不满足收敛条件,则返回步骤52继续计算;收敛条件公式如下所示:dist(x(i),uj)2表示质心到个体样例点的欧氏距离。

说明书 :

一种基于K-means聚类的移动疑似危险人群分类方法

技术领域

[0001] 本发明涉及移动数据聚类分析领域,尤其是针对移动大数据平台下基于K-means聚类的移动疑似危险人群分类方法。

背景技术

[0002] 近年来,随着移动通讯的快速发展,人群移动设备持有率日益增加,基站信号收信准确率也日益精确。通过基站收信,每日可得到大量移动数据,由收信基站的地理位置,大致可标定被收信时间下移动设备所在位置,进而标定移动设备持有人的活动范围。
[0003] 由于人类活动具备明显特性,针对某一指定地点,通过个体待在该地点的时间以及经过次数分析,大致可分为该地点的常驻人群、路过人群以及来回驻足人群。其中,来回驻足人群由于其多次经过,且停留时间不长,可被认为是类似于“犯罪踩点”的行为,通过划分出该类人群,以确定疑似危险人群的名单。
[0004] 目前,城市公共安全基础薄弱,威胁安防管理因素日益增多,大型集会频繁举办,而疑似危险人群排查困难,大多利用人工排查、统计的方法,效率低下,且无法针对到个人。因而,结合移动大数据分析定位,亟需提出一种基于聚类思想的疑似危险人群划分方法,以满足日常安防的初步需求。

发明内容

[0005] 本发明主要解决的技术问题是:针对个体危险性排查实现的繁琐,采用移动数据实现个体的大致定位,分析不同人群间的特征差异,结合基于特征的K-means聚类思想,提出一种基于K-means聚类的移动疑似危险人群分类方法。
[0006] 为解决如上问题,本发明采用的技术方案主要是:一种基于K-means聚类的移动疑似危险人群分类方法,收集通过指定地点(基站)的个体,以个体唯一标示符IMSI获取其全天时序点信息。由于需要对于常驻人群、路过人群以及来回驻足人群进行区分,可通过获得此个体通过该地点的次数以及最长停留时间为特征,利用基于特征的K-means聚类思想,划分出疑似危险人群,即来回驻足人群。所述的方法具体包括:
[0007] 步骤1,获取移动数据;利用现有移动数据,每条数据保留包括IMSI、StartTime、CGI、LocLng以及LocLat字段,其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,CGI为接收基站小区的唯一标示符,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置。
[0008] 步骤2,获取经过个体列表;选取特定基站作为指定地点,由该基站小区的唯一标示符CGI,查询得到特定时间段内经过该基站所有个体的IMSI。
[0009] 步骤3,获取时序信息;根据步骤2获得的IMSI进行查询,即可获得特定时间段内每个IMSI对应移动设备的若干条移动数据,同时,按照移动数据的即时时间排序,即可构成针对每个个体的一组时序信息。
[0010] 步骤4,获取个体特征;由于需要将人群分为常驻人群、路过人群以及来回驻足人群,因而,选取并获得个体通过该地点的次数以及最长停留时间作为分类特征。
[0011] 步骤5,K-means聚类;根据步骤4得到的特征进行K-means聚类,获得常驻人群、路过人群以及来回驻足人群,共计3类人群。
[0012] 步骤6,输出分类结果;根据聚类结果,将划分得到的来回驻足人群,即疑似危险人群,做相关IMSI列表的输出操作,以便相关研究人员进一步过滤分析。
[0013] 进一步,步骤4具体包括:
[0014] 41遍历单个个体的所有时序信息,若该时序点中的CGI为指定地点的CGI,则置1,若不是指定地点的CGI,则置0,则可以得到一组由0与1组成的字符串。
[0015] 42获取连续1的子字符串集,子字符串的个数即为个体通过该地点的次数,每个子字符串的首尾即时时间差即为每次的停留时间,获取子字符串集中最长的停留时间。
[0016] 43由于个别点具备较大的差异性,因此需要过滤异常点,以保证接下来聚类的准确性。将最长停留时间超过300分钟的个体过滤出来,提前纳入常驻人群,再将通过次数大于30次的个体过滤出来,提前纳入来回驻足人群。
[0017] 44将剩下个体的通过该地点次数以及最长停留时间这两个特征分别做归一化操作,得到最终的特征参数。
[0018] 再进一步,步骤5具体包括:
[0019] 51需要划分出3类人群,因而k=3,随机选取3个点作为质心uj,其中,j=1,2,3。
[0020] 52对于个体样本中的特征数据,通过欧式距离计算每个数据所归属的分类,公式如下所示:
[0021]
[0022] 注:c(i)表示样例与k个类中距离最近的一个,x(i)表示个体样例点,uj表示类的质心。
[0023] 53对于每一个类,重新计算其类的质心,计算公式如下所示。
[0024]
[0025] 注:m表示类中个体样例的个数。
[0026] 54给出收敛条件:最小化对象到其簇质心的距离的平方和,查看其是否满足收敛条件,若满足收敛条件,则给出分类结果,若不满足收敛条件,则返回步骤52继续计算。收敛条件公式如下所示:
[0027]
[0028] 注:dist(x(i),uj)2表示质心到个体样例点的欧氏距离。
[0029] 本发明的有益效果是:相较于目前效率低下的疑似危险人群人工排查方式,本发明利用移动数据定位,获取经过指定地点的个体列表以及其全天的位置时序信息,分析得到个体经过指定地点的次数以及最长停留时间两个特征,进而利用基于特征的K-means聚类划分出疑似危险人群。利用该方法使得疑似危险人群的筛选可针对到个体,且更具有目标性以及可信度。

附图说明

[0030] 图1是本发明移动数据表结构图;
[0031] 图2是本发明经过指定地点个体列表示意图;
[0032] 图3是本发明经过指定地点个体全天时序信息示意图;
[0033] 图4是本发明连续1子字符串集获取示意图;
[0034] 图5是本发明特征归一化示意图;
[0035] 图6是本发明实施例聚类计算结果图;
[0036] 图7是本发明实施例聚类结果输出可视化结果图;
[0037] 图8是本发明基于K-means聚类的移动疑似危险人群分类实施例结构框图;
[0038] 图9是本发明的方法流程图。

具体实施方式

[0039] 为了使该技术领域的人员可以更好地理解本发明方案,下面结合附图对本发明做进一步描述,显然,所描述的实施方式仅仅是本发明一部分的实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创新性劳动前提下所获得的所有其他实施方式,都应当属于本发明保护的范围。
[0040] 图8为本发明利用所述方法实现的一个基于K-means聚类的移动疑似危险人群分类的实施例。该实施例采集2015年2月5日的移动数据共计7亿条左右。利用MongoDB数据库实现大数据分析处理,包括移动数据导入模块、经过个体列表生成模块、个体时序信息生成模块以及分类特征生成模块,结合SpringMVC框架完成数据业务逻辑应用,其中包含K-means聚类模块以及分类结果输出模块,并最终将分类结果进行可视化。若有相同实质上的结果,则不以图8为限。
[0041] 完成该实施例的流程参照图9,主要包括以下6个步骤:
[0042] 步骤1,获取移动数据;利用现有的7亿移动数据,每条数据保留包括IMSI、StartTime、CGI、LocLng以及LocLat字段,如图1所示。其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,CGI为接收基站小区的唯一标示符,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置。
[0043] 步骤2,获取经过个体列表;选取特定地点:香格里拉室内基站作为指定地点,由该基站小区的唯一标示符CGI:460-00-394903-1,查询得到特定时间段内经过该基站所有个体的IMSI,共计4623人,如图2所示。
[0044] 步骤3,获取时序信息;根据步骤2获得的IMSI进行查询,即可获得特定时间段内每个IMSI对应移动设备的若干条移动数据,同时,按照移动数据的即时时间排序,即可构成针对每个个体的一组时序信息TraceList,如图3所示。
[0045] 步骤4,获取个体特征;由于需要将人群分为常驻人群、路过人群以及来回驻足人群,因而,选取并获得个体通过该地点的次数以及最长停留时间作为分类特征。
[0046] 步骤5,K-means聚类;根据步骤4得到的特征进行K-means聚类,分类结果如图6所示。其中,最长停留时间较长的为常驻人群,最长停留时间较短的情况下,经过次数较少的为路过人群,经过次数较多的为来回驻足人群。分类获得常驻人群(圈点表示,共计263人)、路过人群(圆点表示,共计4179人)以及来回驻足人群(十字点表示,共计181人),共计3类人群,分类结果符合日常生活经验。
[0047] 步骤6,输出分类结果;根据聚类结果,将划分得到的来回驻足人群,即疑似危险人群,做相关IMSI列表的输出操作,如图7所示,以便相关研究人员进一步过滤分析。
[0048] 进一步,步骤4具体包括:
[0049] 41遍历单个个体的所有时序信息,若该时序点中的CGI为指定地点的CGI,则置1,若不是指定地点的CGI,则置0,则可以得到一组由0与1组成的字符串,如图4所示。
[0050] 42获取连续1的子字符串集,子字符串的个数即为个体通过该地点的次数,每个子字符串的首尾即时时间差即为每次的停留时间,获取子字符串集中最长的停留时间。
[0051] 43由于个别点具备较大的差异性,因此需要过滤异常点,以保证接下来聚类的准确性。将最长停留时间超过300分钟的个体过滤出来,提前纳入常驻人群,再将通过次数大于30次的个体过滤出来,提前纳入来回驻足人群。
[0052] 44将剩下个体的通过该地点次数以及最长停留时间这两个特征分别做归一化操作,得到最终的特征参数,如图5所示,其中,第一列为最长停留时间特征值,第二列为经过该地点次数特征值。
[0053] 再进一步,步骤5具体包括:
[0054] 51需要划分出3类人群,因而k=3,随机选取3个点作为质心uj,其中,j=1,2,3。
[0055] 52对于个体样本中的特征数据,通过欧式距离计算每个数据所归属的分类,公式如下所示:
[0056]
[0057] 注:c(i)表示样例与k个类中距离最近的一个,x(i)表示个体样例点,uj表示类的质心。
[0058] 53对于每一个类,重新计算其类的质心,计算公式如下所示。
[0059]
[0060] 注:m表示类中个体样例的个数。
[0061] 54给出收敛条件:最小化对象到其簇质心的距离的平方和,查看其是否满足收敛条件,若满足收敛条件,则给出分类结果,若不满足收敛条件,则返回步骤52继续计算。收敛条件公式如下所示:
[0062]
[0063] 注:dist(x(i),uj)2表示质心到个体样例点的欧氏距离。
[0064] 通过上述实施例,本发明提出的一种基于K-means聚类的移动疑似危险人群分类方法,可改善人工排查方式的效率问题,且结果以个体名单方式输出,更具备针对性。同时,该方法研究了不同人群间的特征差异,自定义指定地点通过次数以及指定地点最长停留时间作为人群划分的特征,具备良好的分类结果。此外,相关研究人员也可以根据自身需要对分类结果做一步的过滤分析。
[0065] 以上实例仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。