基于大数据分析的常驻人口数据采集方法转让专利

申请号 : CN202011045900.X

文献号 : CN112188478B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张兴凤万敏蔡巍伟靳旭哲

申请人 : 浙江新再灵科技股份有限公司

摘要 :

本发明涉及一种基于大数据分析的常驻人口数据采集方法,包括以下步骤:a、采集乘坐电梯人员的手机Mac地址信息,并实时传输至大数据存储系统;b、对大数据存储系统中的Mac地址信息进行预处理;c、对预处理后的Mac地址信息进行大数据分析,构件常驻人口库。本发明结合物联网、大数据技术,通过安装在电梯内的WiFi探针采集乘客手机Mac信息,利用spark实时计算分析,构建常驻人口信息库,为物业和城市管理提供有效的数据服务。

权利要求 :

1.一种基于大数据分析的常驻人口数据采集方法,包括以下步骤:a、采集乘坐电梯人员的手机Mac地址信息,并实时传输至大数据存储系统;

b、对大数据存储系统中的Mac地址信息进行预处理;

c、对预处理后的Mac地址信息进行大数据分析,构建常驻人口库;

在所述步骤(c)中,获取特定时间段内的Mac地址信息,以特定时间段内的Mac地址信息作为基础进行聚合操作,对每个Mac地址信息分别计数出行总频次(F1)、有出行记录的日平均频次(F2)以及出行总天数(F3),还包括根据出行总频次(F1)、有出行记录的日平均频次(F2)和出行总天数(F3)对人员进行标签画像;

判断各Mac地址信息对应的人员是否为常驻人口,判断条件为:S1:出行总频次(F1)超过第一预设阈值(t1);

S2:有出行记录的日平均频次(F2)超过第二预设阈值(t2);

S3:出行总天数(F3)超过第三预设阈值(t3);

判断逻辑为:

同时满足上述三个条件则判定Mac地址信息对应的人员为常驻人口;

特定时间为分析日前30天,第一预设阈值(t1)为45,第二预设阈值(t2)为1.8,第三预设阈值(t3)为24;

在节假日或特殊时期以上各参数值翻倍。

2.根据权利要求1所述的基于大数据分析的常驻人口数据采集方法,其特征在于,定期重复所述步骤(c)对常驻人口库进行更新。

3.根据权利要求1所述的基于大数据分析的常驻人口数据采集方法,其特征在于,在所述步骤(a)中,利用安装在电梯轿厢内的WiFi探针采集Mac地址信息,并制定传输协议,将Mac地址信息实时传输至大数据存储系统。

4.根据权利要求1所述的基于大数据分析的常驻人口数据采集方法,其特征在于,在所述步骤(b)中,预处理的步骤包括:去重操作,将被连续采集到的时间间隔小于2s的相同Mac地址信息去除;

缺失数据处理,将连续7天未被采集到的Mac地址信息进行删除或利用分析日前30天的数据进行补充,补充方法为均值插值法。

5.根据权利要求2所述的基于大数据分析的常驻人口数据采集方法,其特征在于,每天重复一次所述步骤(c)对常驻人口库进行更新。

说明书 :

基于大数据分析的常驻人口数据采集方法

技术领域

[0001] 本发明涉及一种基于大数据分析的常驻人口数据采集方法。

背景技术

[0002] 现有的常驻人口采集方式多为住户人员自动向公安系统进行报告注册登记。这样的方式难以保证登记全面,且登记的时效性较差,使城市管理更加困难。而随着城镇化政策的逐步贯彻,高楼大厦拔地而起,大量人口入驻,人口信息及时行之有效地采集对于城市管理举足轻重。作为人们日常高频出行的必用电梯这一垂直交通工具,在获取人口出行行为、分析常驻信息方面,扮演着不可替代的作用。一些现有技术中,通过采集电梯内的视频数据,从而获取乘梯人员的人脸数据和人体截图数据,以建立人员数据库,并以预定的时间间隔更新该数据中的人体属性。很明显,这样的技术依赖乘梯空间内的光线明暗程度、人员朝向等因素,因此对摄像头等硬件设备的要求较高,若摄像头精度较低,则其对于常驻人口统计的准确性也会较差。另外,这类技术需要轻量型的采集模型以及快速的推断速度,因此其普适性较差,一些技术不太发达的地区很难实现。可见,现有技术虽然在一定程度上能够实现对常驻人口的统计,但却仍然存在诸多缺陷。

发明内容

[0003] 本发明的目的在于提供一种不受环境影响的基于大数据分析的常驻人口数据采集方法。
[0004] 为实现上述发明目的,本发明提供一种基于大数据分析的常驻人口数据采集方法,包括以下步骤:
[0005] a、采集乘坐电梯人员的手机Mac地址信息,并实时传输至大数据存储系统;
[0006] b、对大数据存储系统中的Mac地址信息进行预处理;
[0007] c、对预处理后的Mac地址信息进行大数据分析,构件常驻人口库。
[0008] 根据本发明的一个方面,在所述步骤(c)中,获取特定时间段内的Mac地址信息,以之作为基础进行聚合操作。
[0009] 根据本发明的一个方面,对每个Mac地址信息分别计数出行总频次、有出行记录的日平均频次以及出行总天数。
[0010] 根据本发明的一个方面,判断各Mac地址信息对应的人员是否为常驻人口,判断条件为:
[0011] S1:出行总频次超过第一预设阈值;
[0012] S2:有出行记录的日平均频次超过第二预设阈值;
[0013] S3:出行总天数超过第三预设阈值;
[0014] 判断过程为:
[0015] 同时满足上述三个条件则判定Mac地址信息对应的人员为常驻人口。根据本发明的一个方面,定期重复所述步骤(c)对常驻人口库进行更新。
[0016] 根据本发明的一个方面,在所述步骤(c)中,还包括根据出行总频次、有出行记录的日平均频次和出行总天数对人员进行标签画像。
[0017] 根据本发明的一个方面,在所述步骤(a)中,利用安装在电梯轿厢内的WiFi探针采集Mac地址信息,并制定传输协议,将Mac地址信息实时传输至大数据存储系统。
[0018] 根据本发明的一个方面,在所述步骤(b)中,预处理的步骤包括:
[0019] 去重操作,将被连续采集到的时间间隔小于2s的相同Mac地址信息去除;
[0020] 缺失数据处理,将连续7天未被采集到的Mac地址信息进行删除或利用分析日前30天的数据进行补充,补充方法为均值插值法。
[0021] 根据本发明的一个方面,特定时间为分析日前30天,第一预设阈值为45,第二预设阈值为1.8,第三预设阈值为24;
[0022] 在节假日或特殊时期以上各参数值翻倍。
[0023] 根据本发明的一个方面,每天重复一次所述步骤(c)对常驻人口库进行更新。
[0024] 根据本发明的构思,通过安装在电梯内的WiFi探针采集乘客手机Mac信息,利用spark实时计算分析,构建常驻人口信息库,以为物业和城市管理提供有效的数据服务。由此,本发明基于电梯场景并结合物联网和大数据技术,不依赖于住户的主动登记,而是根据住户日常乘梯出行习惯行为大数据,实时分析构建楼宇常驻人口,防干扰式补录采集,且准确性和时效性可以保证。

附图说明

[0025] 图1示意性表示本发明的一种实施方式的基于大数据分析的常驻人口数据采集方法的流程图。

具体实施方式

[0026] 为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027] 下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
[0028] 参见图1,根据本发明的构思,通过采集进入电梯内乘梯人员的手机Mac地址,从而获取电梯在一段时间内的人员流动量。利用大数据对收集到的Mac地址信息进行统计分析,最终判断出电梯对应楼栋的常驻人口。采集手机Mac地址无需使用摄像头等精度要求较高的硬件设备,并且不会受到灯光等电梯内部环境的影响。
[0029] 在本实施方式中,负责采集乘梯人员的手机Mac地址信息的采集模块采用wifi探针完成采集工作。同时,需要制定传输协议,从而可以实时地将其采集到的Mac地址信息传输至大数据存储系统。随即由预处理模块对大数据存储系统中储存的数据进行清洗等预处理操作,从而可以筛除例如短期不带手机乘梯等特殊情况。具体的,在本实施方式中,预处理包括了去重操作和缺失数据处理。去重操作为去除大数据存储系统中的重复数据,而重复数据的判定指标为,当同一个Mac地址信息被连续采集到的时间间隔小于2s,即可判定为重复数据。缺失数据处理为对有缺失的数据进行选择性的删除或补全。在本实施方式中,一个Mac地址信息连续7天未被采集到,则判定为缺失数据。对这类数据采取的措施可以为删除,或者也可以利用分析日前30天的数据进行补充,补充方法为均值插值法。当然,上述删除操作属于短时删除,即,若7天后仍采到相应数据则在后续分析的过程中依然应将其考虑在内。
[0030] 经过预处理的Mac地址信息构成了干净数据集,随即可由常驻人口库构建模块对这一数据集中的数据进行大数据分析。该模块主要工作为根据Mac信息分析电梯对应楼栋的人员的出行规律,从而构建常驻人口库。首先,获取特定时间段内的目标电梯中采集的Mac地址信息(即干净数据集),以Mac地址信息作为key,利用spark进行聚合count操作。该操作具体为对Mac地址信息中的每个Mac分别计数出行总频次F1、有出行记录的日平均频次F2以及出行总天数F3。然后利用大数据分析算法,针对于上述F1‑F3这三个指标,判断某Mac是否为常驻Mac,即判断相应Mac地址信息对应的人员是否为常驻人口。具体的判断条件为:
[0031] S1:出行总频次F1超过第一预设阈值t1;
[0032] S2:有出行记录的日平均频次F2超过第二预设阈值t2;
[0033] S3:出行总天数F3超过第三预设阈值t3。
[0034] 基于条件S1、条件S2和条件S3,作为某Mac是否常驻人口Mac地址信息的最终判断。本实施方式中,同时满足上述三个条件则可以将对应Mac判断为常驻人口Mac地址信息。当然,在其他实施方式中,还可以依托逻辑和/或运算进行其他模式的判断,具体还应依靠实际情况判断。在本发明中,上述特定时间段为分析日前30天,t1可以取45,t2可以取1.8,t3可以取24。当然,上述例如特定时间段以及t1‑t3等关键数值参数均针对于平常时期,即可以根据是否为节假日或者特殊时期,对各参数进行动态调整。例如,在节假日期间可以将上述关键参数扩充至日常的2倍。
[0035] 经过上述步骤即可得到一个常驻人口库,此外,本发明还对住户人员的出行规律或习惯(即t1‑t3)进行分析,从而可以对人员进行标签画像。具体的,可人员的出行规律对人群进行分类,例如工作日早晚出行有规律的人群、工作日出行但周末不出行的人群以及白天不出行但晚上规律出行的人群等。对这些人群分类后即可对其进行标签画像,此类标签可以为相关部门管理以及广告投放提供科学的依据。
[0036] 为了保证常驻人口库的时效性,本发明还对常驻人口库进行定期的动态更新。具体的,可以每隔一段时间就由常驻人口库构建模块重复进行常驻人口库的构建操作。在本实施方式中,每天即构建一次,同样,节假日等特殊时期可将此间隔时间段进行相应的调整扩充。
[0037] 综上所述,本发明提供了一种融合物联网、大数据技术的常驻人口采集方法,该方法对硬件设备要求低,且实施简单。并且,准确性和时效性都可以保证,能够为物业以及城市公共管理提供有效的数据服务。
[0038] 以上所述仅为本发明的一个实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。