获取目标关联设备的数据处理系统转让专利
申请号 : CN202110115419.1
文献号 : CN112765473B
文献日 : 2022-04-15
发明人 : 俞锋锋 , 吕繁荣 , 尹祖勇 , 王擎坤 , 曾继平 , 王姣平 , 孙勇韬
申请人 : 杭州云深科技有限公司
摘要 :
权利要求 :
1.一种获取目标关联设备的数据处理系统,其特征在于,包括第一数据库、第二数据库、处理器和存储有计算机程序的存储器,其中,所述第一数据库中的字段包括设备id、位置信息、上报时间信息,所述第二数据库的字段包括设备id、交互端设备id和信息交互时间,当所述计算机程序被处理器执行时,实现以下步骤:步骤S1、基于待测设备id和预设的第一时间段从所述第一数据库中获取所述待测设备在所述第一时间段内上报的所有位置信息,并基于所述待测设备在所述第一时间段内上报的所有位置信息生成目标位置区域;
步骤S2、基于所述第一时间段和所述目标位置区域从所述第一数据库中获取所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id,并基于所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id生成第一设备id集合,所述第一设备id集合由多个第一设备id组成;
所述步骤S2中,所述基于所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id生成第一设备id集合,包括:步骤S21、获取所述第一时间段内上报的位置信息位于所述目标位置区域内的每一设备id与所述待测设备id共同上报过的位置数量;
步骤S22、基于所有第一时间段内上报的位置信息位于所述目标位置区域内的每一设备id与所述待测设备id共同上报过的位置数量确定预设分位数;
步骤S23、基于所述预设分位数确定共同上报数量阈值;
步骤S24、将所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id中与所述待测设备id共同上报过的位置数量超过预设共同上报数量阈值的设备id确定为第一设备id,生成所述第一设备id集合;
步骤S3、基于预设的第二时间段、所述待测设备id和每一所述第一设备id从所述第一数据库和/或所述第二数据库中获取所述第二时间段内所述待测设备id和每一所述第一设备id对应的预设特征信息;
步骤S4、根据所述待测设备id和每一所述第一设备id对应的预设特征信息,获取所述待测设备id与每一所述第一设备id的目标关联度;步骤S5、基于所述待测设备id与每一所述第一设备id对应的目标关联度从所述第一设备id集合中确定目标关联设备。
2.根据权利要求1所述的系统,其特征在于,所述位置信息为网格位置信息,所述步骤S1中,基于所述待测设备在所述第一时间段内上报的所有位置信息生成目标位置区域,包括:步骤S11、所述待测设备在所述第一时间段内上报的所有位置信息去重,将去重后的所有位置信息组成目标位置区域。
3.根据权利要求2所述的系统,其特征在于,所述网格位置信息为geohash位置信息。
4.根据权利要求1所述的系统,其特征在于,所述第一数据库还包括wifi信息和app列表信息,所述wifi信息包括wifi连接信息和wifi扫描信息,步骤S3中,所述预设特征信息包括从第一数据库中获取的所述待测设备id和每一所述第一设备id对应的wifi信息,和/或从所述第一数据库获取的所述待测设备id和每一所述第一设备id对应的app列表信息,和/或从第一数据库中获取的所述待测设备id和每一所述第一设备id对应的位置列表信息,和/或从所述第二数据库获取的信息所述待测设备id和每一所述第一设备id的交互端设备id和信息交互时间。
5.根据权利要求4所述的系统,其特征在于,所述步骤S4包括:步骤S41、基于所述待测设备id和每一所述第一设备id的交互端设备id和信息交互时间,获取所述待测设备id和每一所述第一设备id的信息交互频次、平均信息交互时长、最长信息交互时长、最短信息交互时长、信息时间分布特征中的一种或多种,并生成第一关联度;
和/或
基于所述待测设备id和每一所述第一设备id对应的wifi信息,获取共同连接预设标签的wifi的个数、次数、时间分布特征,共同扫描的wifi列表相似度超过预设第一相似度阈值的次数中的一种或多种,并生成第二关联度,所述共同是指前后间隔时间小于预设的第一时间阈值,所述预设标签包括家庭标签、企业标签、娱乐场所标签中的一种或多种;
和/或
基于所述待测设备id和每一所述第一设备id对应的位置列表信息的相似度,生成第三关联度;
和/或
基于所述第一数据库获取的所述待测设备id和每一所述第一设备id对应的app列表信息的相似度,生成第四关联度;
步骤S42、基于第一关联度和/或第二关联度和/或第三关联度和/或第四关联度生成所述待测设备id与每一所述第一设备id的目标关联度。
6.根据权利要求1所述的系统,其特征在于,所述步骤S5包括:步骤S51、判断所述待测设备id与每一所述第一设备id对应的目标关联度是否大于预设的关联度阈值,若大于,则将该第一设备id目标关联设备id。
说明书 :
获取目标关联设备的数据处理系统
技术领域
背景技术
联度来表征。
限于计算量,往往仅能从基于较少维度设备数据进行分析,无法保证所述获取设备关联度
的准确度性,从而无法保证获取目标关联设备的准确度。因此,如何对海量数据进行处理,
减少对海量数据处理的计算量,并提高获取设备关联度的效率和准确度,从而快速准确地
获取与待测设备关联的目标关联设备成为亟待解决的技术问题。
发明内容
测设备关联的目标关联设备。
段包括设备id、位置信息、上报时间信息,所述第二数据库的字段包括设备id、交互端设备
id和信息交互时间,其中交互端设备id是指与设备进行信息交互的设备id,可以为语音、文
字等信息交互。当所述计算机程序被处理器执行时,实现以下步骤:
上报的所有位置信息生成目标位置区域;
间段内上报的位置信息位于所述目标位置区域内的所有设备id生成第一设备id集合,所述
第一设备集合由多个第一设备id组成;
一设备id对应的预设特征信息;
产业上的广泛利用价值,其至少具有下列优点:
之后再基于目标位置区域中的第一设备id从一个或多个数据库中获取多个维度的特征进
行相似度比较,来判断待测设备与第一设备的关联度,最后确定目标关联设备,提高了获取
目标关联设备的准确度。
更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
具体实施方式
施方式及其功效,详细说明如后。
字段包括设备id、位置信息、上报时间信息,所述第二数据库的字段包括设备id、交互端设
备id和信息交互时间,当所述计算机程序被处理器执行时,实现以下步骤,如图2所示:
上报的所有位置信息生成目标位置区域;
间段内上报的位置信息位于所述目标位置区域内的所有设备id生成第一设备id集合,所述
第一设备集合由多个第一设备id组成;
一设备id对应的预设特征信息;
移动设备。本领域技术人员知晓,服务器和移动终端的型号、规格等参数并不影响本发明的
保护范围。
处理效率。之后再基于目标位置区域中的第一设备id从一个或多个数据库中获取多个维度
的特征进行相似度比较,来判断待测设备与第一设备的关联度,最后确定目标关联设备,提
高了获取目标关联设备的准确度。
步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作
完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方
法、函数、规程、子例程、子程序等等。
数据库中的位置信息设置为网格信息,可以使得数据库中存储的位置信息为设备对应的网
格信息,再基于目标位置区域反向寻找位于目标位置区域的设备id时,直接基于网格位置
信息确定位于目标位置区域的设备id,计算方便,效率高,且能保证不低于网格位置所设定
精确度的精确度,满足不通用户的精确度需求。
备,如果直接将所有的第一时间段内上报的位置信息位于所述目标位置区域内的所有设备
id直接进行后续计算,这些噪声会增加大量不必要的计算量。因此,可以直接一部分噪声,
减少计算量,提高获取结果的准确度。作为一种实施例,所述步骤S2中,所述基于所述第一
时间段内上报的位置信息位于所述目标位置区域内的所有设备id生成第一设备id集合,包
括:
确定为第一设备id,生成所述第一设备id集合。
测设备id共同上报过的位置数量均大于等于3,则可将共同上报数量阈值确定为3,通过步
骤S231‑步骤S232可以根据每一设备id与所述待测设备id共同上报过的位置数量分布情况
动态设置阈值,保证了阈值设定的合理性和准确性,基于该阈值能够快速准确滤除噪声。
息,步骤S3中,所述预设特征信息包括从第一数据库中获取的所述待测设备id和每一所述
第一设备id对应的wifi信息,和/或从所述第一数据库获取的所述待测设备id和每一所述
第一设备id对应的app列表信息,和/或从第一数据库中获取的所述待测设备id和每一所述
第一设备id对应的位置列表信息,和/或从所述第二数据库获取的信息所述待测设备id和
每一所述第一设备id的交互端设备id和信息交互时间。具体可以根据具体的应用场景和对
结果精确度的要求,选择对应的特征信息或者特征信息的组合进行关联度计算。
最长信息交互时长、最短信息交互时长、信息时间分布特征中的一种或多种,并生成第一关
联度。其中,可以基于上述多个维度的设备交互特征信息分别生成每一维度信息的对应的
关联度,并可根据每一维度信息占据比重的不同设置相应的权重,最终综合生成第一关联
度。
阈值的次数中的一种或多种,并生成第二关联度,所述共同是指前后间隔时间小于预设的
第一时间阈值,所述预设标签包括家庭标签、企业标签、娱乐场所标签中的一种或多种;其
中,可以基于上述多个维度的wifi特征信息分别生成每一维度信息的对应的关联度,并可
根据每一维度信息占据比重的不同设置相应的权重,最终综合生成第二关联度。
息。通过第一时间段内两个设备的位置列表信息的相似度能够获取两个设备之间的第三关
联度。
上报时间信息。通过第一时间段内两个设备的位置app列表信息的相似度能够获取两个设
备之间的第四关联度。
备id的目标关联度。例如,待测设备id与其他设备的关联度主要渠道是信息交互,信息交互
包括通话、聊天工具交互等,这样就可仅选择信息交互特征,直接将第一关联度确定为目标
关联度即可。
施例,所述步骤S42包括:
后求和,得到目标关联度。
低,这样既能从多个维度获取目标关联度,又能提高目标关联度获取结果的准确性。
的实施方式的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相
关的所列项目的任意的和所有的组合。
员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰
为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质
对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。