获取目标关联设备的数据处理系统转让专利

申请号 : CN202110115419.1

文献号 : CN112765473B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 俞锋锋吕繁荣尹祖勇王擎坤曾继平王姣平孙勇韬

申请人 : 杭州云深科技有限公司

摘要 :

本发明涉及一种获取目标关联设备的数据处理系统,包括第一数据库、第二数据库、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现步骤S1、从第一数据库中获取待测设备在第一时间段内的所有位置信息,生成目标位置区域;步骤S2、从第一数据库中获取第一时间段内的位置信息位于目标位置区域内的所有设备id,生成第一设备id集合;步骤S3、从第一数据库和/或第二数据库中获取第二时间段内待测设备id和每一第一设备id的预设特征信息;步骤S4、预设特征信息,获取待测设备id与每一所述第一设备id的目标关联度;步骤S5、基于目标关联度从第一设备id集合中确定目标关联设备。本发明能够快速准确地获取与待测设备关联的目标关联设备。

权利要求 :

1.一种获取目标关联设备的数据处理系统,其特征在于,包括第一数据库、第二数据库、处理器和存储有计算机程序的存储器,其中,所述第一数据库中的字段包括设备id、位置信息、上报时间信息,所述第二数据库的字段包括设备id、交互端设备id和信息交互时间,当所述计算机程序被处理器执行时,实现以下步骤:步骤S1、基于待测设备id和预设的第一时间段从所述第一数据库中获取所述待测设备在所述第一时间段内上报的所有位置信息,并基于所述待测设备在所述第一时间段内上报的所有位置信息生成目标位置区域;

步骤S2、基于所述第一时间段和所述目标位置区域从所述第一数据库中获取所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id,并基于所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id生成第一设备id集合,所述第一设备id集合由多个第一设备id组成;

所述步骤S2中,所述基于所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id生成第一设备id集合,包括:步骤S21、获取所述第一时间段内上报的位置信息位于所述目标位置区域内的每一设备id与所述待测设备id共同上报过的位置数量;

步骤S22、基于所有第一时间段内上报的位置信息位于所述目标位置区域内的每一设备id与所述待测设备id共同上报过的位置数量确定预设分位数;

步骤S23、基于所述预设分位数确定共同上报数量阈值;

步骤S24、将所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id中与所述待测设备id共同上报过的位置数量超过预设共同上报数量阈值的设备id确定为第一设备id,生成所述第一设备id集合;

步骤S3、基于预设的第二时间段、所述待测设备id和每一所述第一设备id从所述第一数据库和/或所述第二数据库中获取所述第二时间段内所述待测设备id和每一所述第一设备id对应的预设特征信息;

步骤S4、根据所述待测设备id和每一所述第一设备id对应的预设特征信息,获取所述待测设备id与每一所述第一设备id的目标关联度;步骤S5、基于所述待测设备id与每一所述第一设备id对应的目标关联度从所述第一设备id集合中确定目标关联设备。

2.根据权利要求1所述的系统,其特征在于,所述位置信息为网格位置信息,所述步骤S1中,基于所述待测设备在所述第一时间段内上报的所有位置信息生成目标位置区域,包括:步骤S11、所述待测设备在所述第一时间段内上报的所有位置信息去重,将去重后的所有位置信息组成目标位置区域。

3.根据权利要求2所述的系统,其特征在于,所述网格位置信息为geohash位置信息。

4.根据权利要求1所述的系统,其特征在于,所述第一数据库还包括wifi信息和app列表信息,所述wifi信息包括wifi连接信息和wifi扫描信息,步骤S3中,所述预设特征信息包括从第一数据库中获取的所述待测设备id和每一所述第一设备id对应的wifi信息,和/或从所述第一数据库获取的所述待测设备id和每一所述第一设备id对应的app列表信息,和/或从第一数据库中获取的所述待测设备id和每一所述第一设备id对应的位置列表信息,和/或从所述第二数据库获取的信息所述待测设备id和每一所述第一设备id的交互端设备id和信息交互时间。

5.根据权利要求4所述的系统,其特征在于,所述步骤S4包括:步骤S41、基于所述待测设备id和每一所述第一设备id的交互端设备id和信息交互时间,获取所述待测设备id和每一所述第一设备id的信息交互频次、平均信息交互时长、最长信息交互时长、最短信息交互时长、信息时间分布特征中的一种或多种,并生成第一关联度;

和/或

基于所述待测设备id和每一所述第一设备id对应的wifi信息,获取共同连接预设标签的wifi的个数、次数、时间分布特征,共同扫描的wifi列表相似度超过预设第一相似度阈值的次数中的一种或多种,并生成第二关联度,所述共同是指前后间隔时间小于预设的第一时间阈值,所述预设标签包括家庭标签、企业标签、娱乐场所标签中的一种或多种;

和/或

基于所述待测设备id和每一所述第一设备id对应的位置列表信息的相似度,生成第三关联度;

和/或

基于所述第一数据库获取的所述待测设备id和每一所述第一设备id对应的app列表信息的相似度,生成第四关联度;

步骤S42、基于第一关联度和/或第二关联度和/或第三关联度和/或第四关联度生成所述待测设备id与每一所述第一设备id的目标关联度。

6.根据权利要求1所述的系统,其特征在于,所述步骤S5包括:步骤S51、判断所述待测设备id与每一所述第一设备id对应的目标关联度是否大于预设的关联度阈值,若大于,则将该第一设备id目标关联设备id。

说明书 :

获取目标关联设备的数据处理系统

技术领域

[0001] 本发明涉及计算机技术领域,尤其涉及一种获取目标关联设备的数据处理系统。

背景技术

[0002] 随着科技和信息技术的不断发展,手机等智能终端设备在人们生活中扮演着重要角色,因此在计算人们之间的亲密程度的应用场景中,通常可以通过手机等智能终端的关
联度来表征。
[0003] 随着大数据时代的到来,智能终端的相关数据呈爆炸式增长,因此,在进行设备关联度判断时,通常需要分析存储在数据库中的海量数据,计算量巨大,且处理效率低,且受
限于计算量,往往仅能从基于较少维度设备数据进行分析,无法保证所述获取设备关联度
的准确度性,从而无法保证获取目标关联设备的准确度。因此,如何对海量数据进行处理,
减少对海量数据处理的计算量,并提高获取设备关联度的效率和准确度,从而快速准确地
获取与待测设备关联的目标关联设备成为亟待解决的技术问题。

发明内容

[0004] 本发明目的在于,提供一种获取目标关联设备的数据处理系统,减少了对海量数据处理的计算量,提高了获取设备关联度的效率和准确度,从而能够快速准确地获取与待
测设备关联的目标关联设备。
[0005] 根据本发明第一方面,提供了一种获取目标关联设备的数据处理系统,包括第一数据库、第二数据库、处理器和存储有计算机程序的存储器,其中,所述第一数据库中的字
段包括设备id、位置信息、上报时间信息,所述第二数据库的字段包括设备id、交互端设备
id和信息交互时间,其中交互端设备id是指与设备进行信息交互的设备id,可以为语音、文
字等信息交互。当所述计算机程序被处理器执行时,实现以下步骤:
[0006] 步骤S1、基于待测设备id和预设的第一时间段从所述第一数据库中获取所述待测设备在所述第一时间段内上报的所有位置信息,并基于所述待测设备在所述第一时间段内
上报的所有位置信息生成目标位置区域;
[0007] 步骤S2、基于所述第一时间段和所述目标位置区域从所述第一数据库中获取所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id,并基于所述第一时
间段内上报的位置信息位于所述目标位置区域内的所有设备id生成第一设备id集合,所述
第一设备集合由多个第一设备id组成;
[0008] 步骤S3、基于预设的第二时间段、所述待测设备id和每一所述第一设备id从所述第一数据库和/或所述第二数据库中获取所述第二时间段内所述待测设备id和每一所述第
一设备id对应的预设特征信息;
[0009] 步骤S4、根据所述待测设备id和每一所述第一设备id对应的预设特征信息,获取所述待测设备id与每一所述第一设备id的目标关联度;
[0010] 步骤S5、基于所述待测设备id与每一所述第一设备id对应的目标关联度从所述第一设备id集合中确定目标关联设备。
[0011] 本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种获取目标关联设备的数据处理系统可达到相当的技术进步性及实用性,并具有
产业上的广泛利用价值,其至少具有下列优点:
[0012] 本发明通过位置信息的将待测范围从海量数据库缩减到目标位置区域对应的设备id的数据范围,可以大大减少需要计算的数据量,提高了数据处理速度和数据处理效率。
之后再基于目标位置区域中的第一设备id从一个或多个数据库中获取多个维度的特征进
行相似度比较,来判断待测设备与第一设备的关联度,最后确定目标关联设备,提高了获取
目标关联设备的准确度。
[0013] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够
更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。

附图说明

[0014] 图1为本发明实施例提供的获取目标关联设备的数据处理系统示意图;
[0015] 图2为本发明实施例提供的获取目标关联设备的数据处理流程图。

具体实施方式

[0016] 为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种获取目标关联设备的数据处理系统的具体实
施方式及其功效,详细说明如后。
[0017] 本发明实施例提供了一种获取目标关联设备的数据处理系统,如图1所示,包括第一数据库、第二数据库、处理器和存储有计算机程序的存储器,其中,所述第一数据库中的
字段包括设备id、位置信息、上报时间信息,所述第二数据库的字段包括设备id、交互端设
备id和信息交互时间,当所述计算机程序被处理器执行时,实现以下步骤,如图2所示:
[0018] 步骤S1、基于待测设备id和预设的第一时间段从所述第一数据库中获取所述待测设备在所述第一时间段内上报的所有位置信息,并基于所述待测设备在所述第一时间段内
上报的所有位置信息生成目标位置区域;
[0019] 其中,第一时间段可以根据具体的处理需求来设定,例如可以设为1个月,3个月等。
[0020] 步骤S2、基于所述第一时间段和所述目标位置区域从所述第一数据库中获取所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id,并基于所述第一时
间段内上报的位置信息位于所述目标位置区域内的所有设备id生成第一设备id集合,所述
第一设备集合由多个第一设备id组成;
[0021] 步骤S3、基于预设的第二时间段、所述待测设备id和每一所述第一设备id从所述第一数据库和/或所述第二数据库中获取所述第二时间段内所述待测设备id和每一所述第
一设备id对应的预设特征信息;
[0022] 其中,第二时间段可以与第一时间段相同也可以不同,第二时间段可以根据具体的处理需求来设定,例如可以设为1个月,3个月等。
[0023] 步骤S4、根据所述待测设备id和每一所述第一设备id对应的预设特征信息,获取所述待测设备id与每一所述第一设备id的目标关联度;
[0024] 步骤S5、基于所述待测设备id与每一所述第一设备id对应的目标关联度从所述第一设备id集合中确定目标关联设备。
[0025] 根据本发明,所述系统可以物理实现为一个服务器,也可以实现为包括多个服务器的服务器群组;设备为移动终端,可以物理实现为智能手机、PAD等能够进行信息交互的
移动设备。本领域技术人员知晓,服务器和移动终端的型号、规格等参数并不影响本发明的
保护范围。
[0026] 本发明实施例,仅通过位置信息的将待测范围从海量数据库缩减到目标位置区域对应的设备id的数据范围,可以大大减少需要计算的数据量,提高了数据处理速度和数据
处理效率。之后再基于目标位置区域中的第一设备id从一个或多个数据库中获取多个维度
的特征进行相似度比较,来判断待测设备与第一设备的关联度,最后确定目标关联设备,提
高了获取目标关联设备的准确度。
[0027] 在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多
步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作
完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方
法、函数、规程、子例程、子程序等等。
[0028] 作为一种实施例,所述位置信息为网格位置信息,所述步骤S1中,基于所述待测设备在所述第一时间段内上报的所有位置信息生成目标位置区域,包括:
[0029] 步骤S11、所述待测设备在所述第一时间段内上报的所有位置信息去重,将去重后的所有位置信息组成目标位置区域。
[0030] 其中,所述网格位置信息可以为geohash位置信息,例如具体可设置为8位geohash,可以理解的是geohash的具体位数可以根据具体的数据处理精度需求来设定。将
数据库中的位置信息设置为网格信息,可以使得数据库中存储的位置信息为设备对应的网
格信息,再基于目标位置区域反向寻找位于目标位置区域的设备id时,直接基于网格位置
信息确定位于目标位置区域的设备id,计算方便,效率高,且能保证不低于网格位置所设定
精确度的精确度,满足不通用户的精确度需求。
[0031] 当步骤S2中获取到第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id中,是存在一些噪声的,即与待测设备关联度很低的设备,甚至是无关联度的设
备,如果直接将所有的第一时间段内上报的位置信息位于所述目标位置区域内的所有设备
id直接进行后续计算,这些噪声会增加大量不必要的计算量。因此,可以直接一部分噪声,
减少计算量,提高获取结果的准确度。作为一种实施例,所述步骤S2中,所述基于所述第一
时间段内上报的位置信息位于所述目标位置区域内的所有设备id生成第一设备id集合,包
括:
[0032] 步骤S21、获取所述第一时间段内上报的位置信息位于所述目标位置区域内的每一设备id与所述待测设备id共同上报过的位置数量;
[0033] 步骤S22、基于所有第一时间段内上报的位置信息位于所述目标位置区域内的每一设备id与所述待测设备id共同上报过的位置数量确定预设分位数;
[0034] 步骤S23、基于所述预设分位数确定共同上报数量阈值;
[0035] 步骤S24、将所述第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id中与所述待测设备id共同上报过的位置数量超过预设共同上报数量阈值的设备id
确定为第一设备id,生成所述第一设备id集合。
[0036] 其中,采用现有的分位数的计算方法为现有算法,在此不再展开描述。例如计算结果中,第一时间段内上报的位置信息位于所述目标位置区域内的所有设备id中有90%与待
测设备id共同上报过的位置数量均大于等于3,则可将共同上报数量阈值确定为3,通过步
骤S231‑步骤S232可以根据每一设备id与所述待测设备id共同上报过的位置数量分布情况
动态设置阈值,保证了阈值设定的合理性和准确性,基于该阈值能够快速准确滤除噪声。
[0037] 所述第一数据库中还可包括多种其他类型的特征信息,作为一种实施例,所述第一数据库还包括wifi信息和app列表信息,所述wifi信息包括wifi连接信息和wifi扫描信
息,步骤S3中,所述预设特征信息包括从第一数据库中获取的所述待测设备id和每一所述
第一设备id对应的wifi信息,和/或从所述第一数据库获取的所述待测设备id和每一所述
第一设备id对应的app列表信息,和/或从第一数据库中获取的所述待测设备id和每一所述
第一设备id对应的位置列表信息,和/或从所述第二数据库获取的信息所述待测设备id和
每一所述第一设备id的交互端设备id和信息交互时间。具体可以根据具体的应用场景和对
结果精确度的要求,选择对应的特征信息或者特征信息的组合进行关联度计算。
[0038] 作为一种实施例,所述步骤S4可包括:
[0039] 步骤S41、基于所述待测设备id和每一所述第一设备id的交互端设备id和信息交互时间,获取所述待测设备id和每一所述第一设备id的信息交互频次、平均信息交互时长、
最长信息交互时长、最短信息交互时长、信息时间分布特征中的一种或多种,并生成第一关
联度。其中,可以基于上述多个维度的设备交互特征信息分别生成每一维度信息的对应的
关联度,并可根据每一维度信息占据比重的不同设置相应的权重,最终综合生成第一关联
度。
[0040] 和/或
[0041] 基于所述待测设备id和每一所述第一设备id对应的wifi信息,获取共同连接预设标签的wifi的个数、次数、时间分布特征,共同扫描的wifi列表相似度超过预设第一相似度
阈值的次数中的一种或多种,并生成第二关联度,所述共同是指前后间隔时间小于预设的
第一时间阈值,所述预设标签包括家庭标签、企业标签、娱乐场所标签中的一种或多种;其
中,可以基于上述多个维度的wifi特征信息分别生成每一维度信息的对应的关联度,并可
根据每一维度信息占据比重的不同设置相应的权重,最终综合生成第二关联度。
[0042] 和/或
[0043] 基于所述待测设备id和每一所述第一设备id对应的位置列表信息的相似度,生成第三关联度;可以理解的是,位置列表信息设备id包括设备上报的位置信息和上报时间信
息。通过第一时间段内两个设备的位置列表信息的相似度能够获取两个设备之间的第三关
联度。
[0044] 和/或
[0045] 基于所述第一数据库获取的所述待测设备id和每一所述第一设备id对应的app列表信息的相似度,生成第四关联度,可以理解的是,app列表信息包括设备上报的app列表和
上报时间信息。通过第一时间段内两个设备的位置app列表信息的相似度能够获取两个设
备之间的第四关联度。
[0046] 步骤S42、基于第一关联度和/或第二关联度和/或第三关联度和/或第四关联度生成所述待测设备id与每一所述第一设备id的目标关联度。
[0047] 可以理解的是,根据具体的应用场景或设备关联度的计算需求,可以选择上述特征信息的一种或多种特征的组合并赋予不同的权重,来获取待测设备id与每一所述第一设
备id的目标关联度。例如,待测设备id与其他设备的关联度主要渠道是信息交互,信息交互
包括通话、聊天工具交互等,这样就可仅选择信息交互特征,直接将第一关联度确定为目标
关联度即可。
[0048] 对于不确定哪个特征维度能直接表征设备关联度的大部分场景,可以选择上述四个维度的特征信息,每个维度再选择一个或多个特征信息来获取目标关联度。作为一种实
施例,所述步骤S42包括:
[0049] 步骤S421、设置第一权重、第二权重、第三权重、第四权重,所述第一权重、第二权重、第三权重、第四权重依次降低;
[0050] 步骤S422、所述待测设备id与每一所述第一设备id的对应的第一关联度乘以第一权重,第二关联度乘以第二权重,第三关联度乘以第三权重,第四关联度乘以第四权重,然
后求和,得到目标关联度。
[0051] 可以理解的是,在大部分场景下,信息交互特征、wifi特征、位置特征和app行为特征对于设备关联度判断所占比重是依次降低的,因此可以将对应的权重值的设置也依次降
低,这样既能从多个维度获取目标关联度,又能提高目标关联度获取结果的准确性。
[0052] 作为一种实施例,所述步骤S5包括:
[0053] 步骤S51、判断所述待测设备id与每一所述第一设备id对应的目标关联度是否大于预设的关联度阈值,若大于,则将该第一设备id目标关联设备id。
[0054] 其中,关联度阈值可以通过设置初始关联度阈值、已知样本进行模型训练,通过模型召回率调整关联度阈值,最终训练得到预设的关联度阈值。
[0055] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中使用的术语只是为了描述具体
的实施方式的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相
关的所列项目的任意的和所有的组合。
[0056] 以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人
员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰
为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质
对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。