一种信息处理方法、风控方法、装置、设备及存储介质转让专利

申请号 : CN202010552862.0

文献号 : CN111882421B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 赵宏宇呼广跃刘坤袁朝民

申请人 : 马上消费金融股份有限公司

摘要 :

本发明公开了一种信息处理方法、风控方法、装置、设备及存储介质,涉及信息处理技术领域,以提高对目标用户的识别速度。该方法包括:获取待处理的用户位置数据;根据数据编码长度,将所述待处理的用户位置数据进行Geohash编码,得到编码后的用户位置数据;将所述编码后的用户位置数据进行预分类,得到预分类结果;基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果。本发明实施例可提高对目标用户的识别速度。

权利要求 :

1.一种信息处理方法,其特征在于,包括:

获取待处理的用户位置数据,所述用户位置数据包括用户的全球定位系统GPS数据;

根据数据编码长度,将所述待处理的用户位置数据进行地理散列Geohash编码,得到编码后的用户位置数据;

将所述编码后的用户位置数据进行预分类,得到预分类结果;

基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果;

其中,所述基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果的步骤,具体包括:基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,获得至少一个用户位置数据分类;

从所述至少一个用户位置数据分类中确定目标用户位置数据分类;其中,所述目标用户位置数据分类中所包括的用户位置的数量大于或等于预设的用户数阈值,或者,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的指定属性满足预设要求;

将所述目标用户位置数据分类所对应的用户,作为目标用户;

其中,所述将所述编码后的用户位置数据进行预分类,得到预分类结果,包括:将所述编码后的用户位置数据通过前缀树进行预分类,其中,所述前缀树的深度大于所述数据编码长度或所述前缀树的深度等于所述数据编码长度加1。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

根据预设的距离阈值,确定所述数据编码长度。

3.根据权利要求2所述的方法,其特征在于,所述根据预设的距离阈值,确定所述数据编码长度,包括:根据所述预设的距离阈值查找对应关系,得到所述数据编码长度;其中,所述对应关系为距离阈值和数据编码长度的对应关系。

4.根据权利要求3所述的方法,其特征在于,所述根据所述预设的距离阈值查找对应关系,得到所述数据编码长度,包括:根据所述对应关系,确定所述预设的距离阈值对应的第一距离阈值和第二距离阈值,其中,所述预设的距离阈值大于所述第一距离阈值且所述预设的距离阈值小于所述第二距离阈值;

根据所述对应关系,确定所述第二距离阈值对应的第二编码长度;

将所述第二距离阈值对应的第二编码长度,作为所述数据编码长度。

5.根据权利要求1所述的方法,其特征在于,所述基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果,包括:从前缀树的第L+1层中选择目标叶子节点,其中,所述目标叶子节点包括的编码后的用户位置数据的数量大于或等于预设的用户数阈值,L表示所述数据编码长度;

利用具有噪声的基于密度的聚类方法DBSCAN,将各叶子节点对应的编码后的用户位置数据进行聚类分析,得到聚类分析结果。

6.一种风控方法,其特征在于,所述风控方法采用如权利要求1‑5 任一项所述的信息处理方法对用户位置数据进行聚类分析,获得至少一个用户位置数据分类,从所述至少一个用户位置数据分类中确定目标用户位置数据分类,将所述目标用户位置数据分类所对应的用户,作为存在风险行为的目标用户;

其中,所述目标用户位置数据分类中所包括的用户位置的数量大于或等于预设的用户数阈值,或者,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的风控系数满足预设要求;

所述用户位置数据包括用户的全球定位系统GPS数据。

7.一种处理装置,其特征在于,包括:

第一获取模块,用于获取待处理的用户位置数据,所述用户位置数据包括用户的全球定位系统GPS数据;

第一编码模块,用于根据数据编码长度,将所述待处理的用户位置数据进行Geohash编码,得到编码后的用户位置数据;

第一分类模块,用于将所述编码后的用户位置数据进行预分类,得到预分类结果;

第二分类模块,用于基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果;

所述第二分类模块还用于基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,获得至少一个用户位置数据分类;从所述至少一个用户位置数据分类中确定目标用户位置数据分类;将所述目标用户位置数据分类所对应的用户,作为目标用户,其中,所述目标用户位置数据分类中所包括的用户位置的数量大于或等于预设的用户数阈值,或者,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的指定属性满足预设要求;

其中,所述第一分类模块用于,将所述编码后的用户位置数据通过前缀树进行预分类,其中,所述前缀树的深度大于所述数据编码长度或所述前缀树的深度等于所述数据编码长度加1。

8.一种处理设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现包括如权利要求1至5中任一项所述的信息处理方法中的步骤和/或如权利要求6所述的风控方法的步骤。

9.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现包括如权利要求1至5中任一项所述的信息处理方法中的步骤和/或如权利要求6所述的风控方法的步骤。

说明书 :

一种信息处理方法、风控方法、装置、设备及存储介质

技术领域

[0001] 本发明涉及信息处理技术领域,尤其涉及一种信息处理方法、风控方法、装置、设备及存储介质。

背景技术

[0002] 近年来,随着互联网金融借贷的普及和发展,伴随而来的信贷欺诈事件层出不穷。欺诈行为集中发生在贷款申请环节,其中,骗贷给金融机构带来的危害最为严重,因此,对疑似诈骗用户的识别就显得尤为重要。
[0003] 现有技术中通过群体用户位置定位可以查找出目标用户,比如具有诈骗风险的用户。但是,现有技术的方案,由于需要多次遍历大量样本,因此导致其识别速度较慢。

发明内容

[0004] 本发明实施例提供一种信息处理方法、风控方法、装置、设备及存储介质,以提高对目标用户的识别速度。
[0005] 第一方面,本发明实施例提供了一种信息处理方法,包括:
[0006] 获取待处理的用户位置数据;
[0007] 根据数据编码长度,将所述待处理的用户位置数据进行Geohash(地理散列)编码,得到编码后的用户位置数据;
[0008] 将所述编码后的用户位置数据进行预分类,得到预分类结果;
[0009] 基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果。
[0010] 第二方面,本发明实施例提供了一种风控方法,所述风控方法采用如上所述的信息处理方法对用户位置数据进行聚类分析,获得至少一个用户位置数据分类,从所述至少一个用户位置数据分类中确定目标用户位置数据分类,将所述目标用户位置数据分类所对应的用户,作为存在风险行为的目标用户;
[0011] 其中,所述目标用户位置数据分类中所包括的用户位置的数量大于或等于预设的用户数阈值,或者,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的风控系数满足预设要求。
[0012] 第三方面,本发明实施例还提供一种处理装置,包括:
[0013] 第一获取模块,用于获取待处理的用户位置数据;
[0014] 第一编码模块,用于根据数据编码长度,将所述待处理的用户位置数据进行Geohash编码,得到编码后的用户位置数据;
[0015] 第一分类模块,用于将所述编码后的用户位置数据进行预分类,得到预分类结果;
[0016] 第二分类模块,用于基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果。
[0017] 第四方面,本发明实施例还提供一种处理设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的第一方面和/或第二方面所述方法中的步骤。
[0018] 第五方面,本发明实施例还提供一种可读存储介质,所述可读存储介质上存储程序,所述程序被处理器执行时实现如上所述的第一方面和/或第二方面所述方法中的步骤。
[0019] 在本发明实施例中,对于获得的用户位置数据,将其进行Geohash编码后,通过前缀树进行预分类。之后,基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果。通过进行预分类处理之后,可有针对性的确定进行聚类分析的用户位置数据,从而相较于现有技术需要遍历全部的数据来说,利用本发明实施例的方案可减少数据查询所需时间,从而可提高对目标用户的识别速度。

附图说明

[0020] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021] 图1是本发明实施例提供的信息处理方法的流程图之一;
[0022] 图2是本发明实施例提供的信息处理方法的流程图之一;
[0023] 图3是本发明实施例提供的Trie树的示意图;
[0024] 图4是本发明实施例提供的处理装置的结构图之一;
[0025] 图5是本发明实施例提供的处理装置的结构图之二;
[0026] 图6是本发明实施例提供的处理设备的结构图。

具体实施方式

[0027] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0028] 参见图1,图1是本发明实施例提供的信息处理方法的流程图,如图1所示,包括以下步骤:
[0029] 步骤101、获取待处理的用户位置数据。
[0030] 在本发明实施例中,所述用户位置数据可包括用户的GPS(Global Positioning System,全球定位系统)数据等。在实际应用中,例如,在用户申请贷款的过程中,通常都记录用户的个人信息、IP地址、GPS等信息。因此,根据不同用户的申请贷款记录,可获得待处理的用户位置数据。
[0031] 其中,所述待处理的用户位置数据可以包括某个时间段内的用户位置数据,其中,该时间段例如可以是一天等。
[0032] 步骤102、根据数据编码长度,将所述待处理的用户位置数据进行Geohash编码,得到编码后的用户位置数据。
[0033] 在本发明实施例中,假设在一段时间内,当某一GPS附近出现大量的用户贷款申请,说明在该GPS的附近区域欺诈贷款行为的概率较高。因此,这类GPS定位到的用户会被列入重点关注名单,即可作为目标用户。
[0034] 为了快速定位到目标用户,在本发明实施例中,首先将所述待处理的用户位置数据进行Geohash编码,从而以Geohash编码的方式建立空间索引,提高数据检索的效率。
[0035] 具体的,在此步骤中,根据数据编码长度,将用户位置数据(通常为二维的经纬度数据)进行编码,转换成Geohash编码,得到编码后的用户位置数据。其中,Geohash是一种基于规则网格的地理编码方式,每一个Geohash编码的字符串代表了某一矩形区域。如果两个用户在同一个区域内,那么他们共享相同的Geohash编码;如果两个用户不在同一区域,两个用户越互相靠近,他们的Geohash编码前缀部分相同的部分越长。
[0036] 在本发明实施例中,所述数据编码长度可以是预设的值。此外,由于合适的Geohash数据编码长度L可以提高算法的稳定性与准确性,因此,在实际应用中,可通过查表法的方式来选择数据编码长度L。在本发明实施例中,数据编码长度L的选择与用户的聚类范围有关,即与距离阈值T有关。如表1所示,示出了所述对应关系的一种实现形式,其中,所述距离阈值表示用户位置之间的物理空间距离。
[0037] 表1
[0038]编号 Geohash编码长度 距离阈值(公里)
T1 1 2500
T2 2 630
T3 3 78
T4 4 20
T5 5 2.4
T6 6 0.61
T7 7 0.076
T8 8 0.019
[0039] 在表1中,定义了不同距离阈值和数据编码长度的对应关系。该表可根据实际应用的需要进行修改。
[0040] 在实际应用中,还有可能出现预设的距离阈值是位于表1中两个给定的距离阈值确定的范围之间的情况。此时,为了提高准确率,可根据所述对应关系,确定所述预设的距离阈值对应的第一距离阈值和第二距离阈值,其中,所述预设的距离阈值大于所述第一距离阈值且所述预设的距离阈值小于所述第二距离阈值。然后,根据所述对应关系,确定所述第二距离阈值对应的第二编码长度,并将所述第二距离阈值对应的第二编码长度,作为所述数据编码长度。
[0041] 例如,当T=0.5公里时,根据该距离参照表1选择对应的Geohash数据编码长度。由于T6>T>T7,选择数据编码长度L=6。
[0042] 步骤103、将所述编码后的用户位置数据进行预分类,得到预分类结果。
[0043] 具体的,在此步骤中,将所述编码后的用户位置数据通过前缀树进行预分类,其中,所述前缀树的深度大于所述数据编码长度。
[0044] Trie(前缀树或字典树)树是一种以空间换取时间的树形结构,主要优点是利用字符串公共前缀来降低查询时间开销。由于Geohash具有递归特点,即同一区域不同层级的Geohash编码前缀相同,因此,为了快速定位查询,在此步骤中,根据数据编码长度,将编码后的用户位置数据存储到Trie树中。Trie树的深度对应着Geohash的数据编码长度L,L越长,表示存储该数据的Trie树的深度值越大,同时表示存储用户的位置越精确。
[0045] 在本发明实施例中,所述前缀树的深度大于所述数据编码长度。为了节约存储空间并进一步提高查询速度,在本发明实施例中,所述前缀树的深度等于所述数据编码长度加1。因此,可根据Geohash编码前缀相同等特点,建立深度为L+1层的Trie树来存储和查询Geohash数据。由于Trie树的存储特点,通过将编码后的用户位置数据存储到Trie树中,也可实现对编码后的用户位置数据的预分类处理或者粗聚类处理。
[0046] 步骤104、基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果。
[0047] 在本发明实施例中,可应用于识别用户的指定属性的场景中。那么,在此步骤中,基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,获得至少一个用户位置数据分类,然后,从所述至少一个用户位置数据分类中确定目标用户位置数据分类,其中,所述目标用户位置数据分类中所包括的用户位置的数量大于或等于预设的用户数阈值,或者,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的指定属性满足预设要求。之后,将所述目标用户位置数据分类所对应的用户,作为目标用户。
[0048] 其中,本发明实施例的指定属性可以为用户的兴趣爱好、健康状况或风控系数等。以指定属性为风控系数为例,在本发明实施例的风控方法中,采用上述信息处理方法对用户位置数据进行聚类分析,获得至少一个用户位置数据分类,从所述至少一个用户位置数据分类中确定目标用户位置数据分类,将所述目标用户位置数据分类所对应的用户,作为存在风险行为的目标用户;其中,所述目标用户位置数据分类中所包括的用户位置的数量大于或等于预设的用户数阈值,或者,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的风控系数满足预设要求。
[0049] 本发明实施例可以根据用户位置数据分类中各用户的历史位置信息,比如在不同的时间段,分别会到运动场馆、休闲度假、聚餐饮食,判断用户位置数据分类中各用户的兴趣爱好;或者本发明实施例可以根据用户位置数据分类中各用户是否经常去医院等,而对其健康状况进行评估,以此可以应用到相应的保险评估应用场景中。
[0050] 需要特别说明的是,本发明实施例在识别风控系数时,所述用户数阈值可以为定值(比如20个)、也可以为根据贷款申请业务量而设置的变量值(比如当天的贷款申请业务量为10个时其可以为3个,而当天的贷款申请业务量为100个时其可以为15个),所述目标用户即为具有诈骗风险的用户。
[0051] 在上述过程中,如果某个用户位置数据分类中所包括的用户位置数据小于所述用户数阈值,则可对其进行正常的贷款申请审批,并提供相应的贷款策略。例如,如果某个用户数据分类中所包括的用户位置数据小于预设值(该预设值小于所述用户数阈值,可任意设置,例如设置为10),还可对其贷款审批业务加快办理或者给与相应的贷款优惠等。
[0052] 在上述过程中,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的风控系数满足预设要求,可以这样理解:对于某个用户位置数据分类中,可获得每个或者部分(具体数量可根据实际需要设置)用户位置数据所对应的用户的风控系数。风控系数可包括优,良,差等。
[0053] 如果风控系数满足预设要求(例如风险评价属性为差)的用户的数量达到预设值(可根据需要设置),则可将该用户位置数据分类作为在此的目标用户位置数据分类。其中,所述用户的风控系数可根据其历史行为(如贷款行为,消费行为等)等来确定。对于其他的用户位置数据分类,则可对其进行正常的贷款申请审批,并提供相应的贷款策略。
[0054] 通过以上处理,能够有效的提高疑似欺诈群体定位效率,排除群体作案、机器人申请等情形,从而减少欺诈事件的发生。
[0055] 具体的,在此步骤中,由于第L+1层的叶子节点可包括更多的信息,因此,在此步骤中,从所述前缀树的第L+1层中选择目标叶子节点,其中,所述目标叶子节点包括的编码后的用户位置数据的数量大于或等于预设的用户数阈值。然后,利用DBSCAN(Density‑Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法),将所述各叶子节点对应的编码后的用户位置数据进行聚类分析,得到聚类分析结果。
[0056] DBSCAN算法中,将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
[0057] 在利用DBSCAN算法进行聚类分析的时候,设定扫描半径(eps)和最小包含点数(minPts)。其中,该扫码半径即为预设的距离阈值,最小包含点数即为预设的用户数阈值。
[0058] 从目标叶子节点的其中一个叶子节点开始,找出与其距离小于或等于扫描半径eps的所有附近点。如果该叶子节点附近点的数量大于或等于最小包含点数minPts,则将该叶子节点和其附近点形成一个簇,并且将该叶子节点被标记为已访问。然后递归,以相同的方法处理该簇内所有未被标记为已访问的点,从而对簇进行扩展。如果该叶子节点附近点的数量小于最小包含点数minPts,则该叶子节点暂时被标记作为噪声点。
[0059] 通过形成的簇,即可确定各个分类。如果某个分类中包括的用户位置数据的数量大于或等于预设的用户数阈值,即可将这些用户作为目标用户。通过DBSCAN算法能够对粗聚类结果进行细化分析,即实现细聚类。
[0060] 本发明实施例的方案,可应用于在借款人的审核或贷中借款人的管理期间对于欺诈用户的定位上。通过两个阶段的聚类分析方式,实现对大规模用户GPS数据的分析,能够有效的提高疑似欺诈群体定位效率,从而减少欺诈事件的发生。
[0061] 通过以上描述可以看出,在本发明实施例中,对于获得的用户位置数据,将其进行Geohash编码后,通过前缀树进行预分类;之后,基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果。通过进行预分类处理之后,可有针对性的确定进行聚类分析的用户位置数据,从而相较于现有技术需要遍历全部的数据来说,利用本发明实施例的方案可减少数据查询所需时间,从而可提高对目标用户的识别速度。
[0062] 参见图2,图2是本发明实施例提供的信息处理方法的流程图,如图2所示,包括以下步骤:
[0063] 步骤201、确定数据编码长度。
[0064] 在本发明实施例中,设置距离阈值T以及用户数阈值N。假设某一段时间范围内,存在N个用户,且用户距离聚类中心的距离小于T公里时,认为该N个用户具有欺诈可能性,为目标用户。
[0065] 根据设置的距离阈值T查找表1,可得到数据编码长度L。
[0066] 步骤202、获取待处理的用户位置数据。
[0067] 步骤203、根据数据编码长度,将所述待处理的用户位置数据进行Geohash编码,得到编码后的用户位置数据。
[0068] 步骤204、将所述编码后的用户位置数据进行预分类,得到预分类结果。
[0069] 步骤205、基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果。
[0070] 其中,步骤201‑205的描述可参照前述步骤101‑104的描述。此外,步骤201和步骤202之间可无严格的先后顺序关系。
[0071] 在本发明实施例中,通过进行预分类处理之后,可有针对性的确定进行聚类分析的用户位置数据,从而相较于现有技术需要遍历全部的数据来说,利用本发明实施例的方案可减少数据查询所需时间,从而可提高对目标用户的识别速度。而通过查表的方式确定数据编码长度,可提高算法的稳定性与准确性。
[0072] 此外,利用本发明实施例的方案,能够有效的提高疑似欺诈群体定位效率,排除群体作案、机器人(或计算机自动)申请等情形,能快速地识别出群体或机器人大批量进行贷款申请的异常事件,从而减少欺诈事件的发生。
[0073] 假设数据编码长度L=5。对待处理的用户位置数据80.01,30.03、80.02,30.04、79.95,29.95等进行Geohash编码,得到编码后的用户位置数据如下表2所示。
[0074] 表2
[0075] 编号(ID) 经纬坐标 Geohash编码1 80.01,30.03 uwjr5m7hj9nb
2 80.02,30.04 uwjr5x4qq9pm
3 79.95,29.95 uwjqcd2yt84w
…… …… ……
[0076] 建立L+1=6层的Trie树。如图3所示,将各Geohash编码存储到Trie数中。通过将各数据存储到Trie数中,形成了对各Geohash编码的预分类。如图3所示,假设在“5”这个叶子节点中所包括的Geohash编码的数量(ID=1,2,10……)大于预设的用户数阈值,那么,对“5”这个叶子节点利用DBSCAN算法进行聚类分析,得到聚类分析结果。
[0077] 结合上述实施例,本申请还提供一种风控方法,优选地,本发明实施例所述风控方法可以采用如上实施例所述的信息处理方法对用户位置数据进行聚类分析,获得至少一个用户位置数据分类,从所述至少一个用户位置数据分类中确定目标用户位置数据分类,将所述目标用户位置数据分类所对应的用户,作为存在风险行为的目标用户。需要说明的是,本发明实施例所述目标用户位置数据分类中所包括的用户位置的数量大于或等于预设的用户数阈值,或者,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的风控系数满足预设要求。
[0078] 此外,本发明实施例使用到的信息处理方法的详细处理过程请参阅上述实施例的相关描述,在本技术领域人员容易结合理解的范围内,不作赘述。
[0079] 本发明实施例还提供了一种处理装置。参见图4,图4是本发明实施例提供的处理装置的结构图。由于处理装置解决问题的原理与本发明实施例中信息处理方法相似,因此该处理装置的实施可以参见方法的实施,重复之处不再赘述。
[0080] 如图4所示,处理装置400包括:
[0081] 第一获取模块401,用于获取待处理的用户位置数据;第一编码模块402,用于根据数据编码长度,将所述待处理的用户位置数据进行Geohash编码,得到编码后的用户位置数据;第一分类模块403,用于将所述编码后的用户位置数据进行预分类,得到预分类结果;第二分类模块404,用于基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果。
[0082] 可选的,如图5所示,所述装置还可包括:第一确定模块405,用于根据预设的距离阈值,确定所述数据编码长度。
[0083] 可选的,所述第一确定模块405具体用于,根据所述预设的距离阈值查找对应关系,得到所述数据编码长度;其中,所述对应关系为距离阈值和数据编码长度的对应关系。
[0084] 可选的,所述第一确定模块405可包括:
[0085] 第一确定子模块,用于根据所述对应关系,确定所述预设的距离阈值对应的第一距离阈值和第二距离阈值,其中,所述预设的距离阈值大于所述第一距离阈值且所述预设的距离阈值小于所述第二距离阈值;第二确定子模块,用于
[0086] 根据所述对应关系,确定所述第二距离阈值对应的第二编码长度;第三确定子模块,用于将所述第二距离阈值对应的第二编码长度,作为所述数据编码长度。
[0087] 可选的,所述第一分类模块403,用于将所述编码后的用户位置数据通过前缀树进行预分类,其中,所述前缀树的深度大于所述数据编码长度。
[0088] 可选的,所述前缀树的深度等于所述数据编码长度加1。
[0089] 需要进一步说明的是,在本发明实施例中:所述第二分类模块404还用于基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,获得至少一个用户位置数据分类;所述第二分类模块404还用于从所述至少一个用户位置数据分类中确定目标用户位置数据分类;所述第二分类模块404还用于将所述目标用户位置数据分类所对应的用户,作为目标用户,其中,所述目标用户位置数据分类中所包括的用户位置的数量大于或等于预设的用户数阈值,或者,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的指定属性满足预设要求。
[0090] 具体而言,所述第二分类模块404可包括:
[0091] 第一获取子模块,用于在贷款申请的场景中,基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,获得至少一个用户位置数据分类;
[0092] 第一确定子模块,用于从所述至少一个用户位置数据分类中确定目标用户位置数据分类,其中,所述目标用户位置数据分类中所包括的用户位置的数量大于或等于预设的用户数阈值;或者,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的风控系数满足预设要求;
[0093] 第二确定子模块,用于将所述目标用户位置数据分类所对应的用户,作为目标用户。
[0094] 可选的,所述第二分类模块404可包括:
[0095] 第一选择子模块,用于从所述前缀树的第L+1层中选择目标叶子节点,其中,所述目标叶子节点包括的编码后的用户位置数据的数量大于或等于预设的用户数阈值,L表示所述数据编码长度;第一分类子模块,用于利用DBSCAN,将所述各叶子节点对应的编码后的用户位置数据进行聚类分析,得到聚类分析结果。
[0096] 本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本发明实施例此处不再赘述。
[0097] 如图6所示,本发明实施例的处理设备,包括:处理器600,用于读取存储器610中的程序,执行下列过程:
[0098] 获取待处理的用户位置数据;
[0099] 根据数据编码长度,将所述待处理的用户位置数据进行地理散列Geohash编码,得到编码后的用户位置数据;
[0100] 将所述编码后的用户位置数据进行预分类,得到预分类结果;
[0101] 基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,得到聚类分析结果。
[0102] 其中,在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器600代表的一个或多个处理器和存储器610代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器600负责管理总线架构和通常的处理,存储器610可以存储处理器600在执行操作时所使用的数据。
[0103] 处理器600负责管理总线架构和通常的处理,存储器610可以存储处理器600在执行操作时所使用的数据。
[0104] 处理器600还用于读取所述程序,执行如下步骤:
[0105] 基于所述预分类结果,对所述编码后的用户位置数据进行聚类分析,获得至少一个用户位置数据分类;
[0106] 从所述至少一个用户位置数据分类中确定目标用户位置数据分类,其中,所述目标用户位置数据分类中所包括的用户位置的数量大于或等于预设的用户数阈值;或者,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的指定属性满足预设要求;
[0107] 将所述目标用户位置数据分类所对应的用户,作为目标用户。
[0108] 其中,本发明实施例的指定属性可以为用户的兴趣爱好、健康状况或风控系数等。本发明实施例可以根据用户位置数据分类中各用户的历史位置信息,比如在不同的时间段,分别会到运动场馆、休闲度假、聚餐饮食,判断用户位置数据分类中各用户的兴趣爱好;
或者本发明实施例可以根据用户位置数据分类中各用户是否经常去医院等,而对齐健康状况进行评估,以此可以应用到相应的保险评估应用场景中。
[0109] 需要特别说明的是,本发明实施例在识别风控系数时,所述用户数阈值可以为定值(比如20个)、也可以为根据贷款申请业务量而设置的变量值(比如当天的贷款申请业务量为10个时其可以为3个,而当天的贷款申请业务量为100个时其可以为15个),所述目标用户即为具有诈骗风险的用户。
[0110] 在上述过程中,如果某个用户位置数据分类中所包括的用户位置数据小于所述用户数阈值,则可对其进行正常的贷款申请审批,并提供相应的贷款策略。例如,如果某个用户数据分类中所包括的用户位置数据小于预设值(该预设值小于所述用户数阈值,可任意设置,例如设置为10),还可对其贷款审批业务加快办理或者给与相应的贷款优惠等。
[0111] 在上述过程中,所述目标用户位置数据分类中,至少部分用户位置数据对应的用户的风控系数满足预设要求,可以这样理解:对于某个用户位置数据分类中,可获得每个或者部分(具体数量可根据实际需要设置)用户位置数据所对应的用户的风控系数。风控系数可包括优,良,差等。
[0112] 如果风控系数满足预设要求(例如风险评价属性为差)的用户的数量达到预设值(可根据需要设置),则可将该用户位置数据分类作为在此的目标用户位置数据分类。其中,所述用户的风控系数可根据其历史行为(如贷款行为,消费行为等)等来确定。对于其他的用户位置数据分类,则可对其进行正常的贷款申请审批,并提供相应的贷款策略。
[0113] 通过以上处理,能够有效的提高疑似欺诈群体定位效率,排除群体作案、机器人申请等情形,从而减少欺诈事件的发生。
[0114] 处理器600还用于读取所述程序,执行如下步骤:
[0115] 根据预设的距离阈值,确定所述数据编码长度。
[0116] 处理器600还用于读取所述程序,执行如下步骤:
[0117] 根据所述预设的距离阈值查找对应关系,得到所述数据编码长度;其中,所述对应关系为距离阈值和数据编码长度的对应关系。
[0118] 处理器600还用于读取所述程序,执行如下步骤:
[0119] 根据所述对应关系,确定所述预设的距离阈值对应的第一距离阈值和第二距离阈值,其中,所述预设的距离阈值大于所述第一距离阈值且所述预设的距离阈值小于所述第二距离阈值;
[0120] 根据所述对应关系,确定所述第二距离阈值对应的第二编码长度;
[0121] 将所述第二距离阈值对应的第二编码长度,作为所述数据编码长度。
[0122] 处理器600还用于读取所述程序,执行如下步骤:
[0123] 将所述编码后的用户位置数据通过前缀树进行预分类,其中,所述前缀树的深度大于所述数据编码长度。
[0124] 其中,所述前缀树的深度等于所述数据编码长度加1。
[0125] 处理器600还用于读取所述程序,执行如下步骤:
[0126] 从所述前缀树的第L+1层中选择目标叶子节点,其中,所述目标叶子节点包括的编码后的用户位置数据的数量大于或等于预设的用户数阈值,L表示所述数据编码长度;
[0127] 利用DBSCAN,将所述各叶子节点对应的编码后的用户位置数据进行聚类分析,得到聚类分析结果。
[0128] 本发明实施例提供的设备,可以执行上述方法实施例,其实现原理和技术效果类似,本发明实施例此处不再赘述。
[0129] 本发明实施例还提供一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述信息处理方法和/或风控方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的可读存储介质,如只读存储器(Read‑Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁盘或者光盘等。
[0130] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0131] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁盘、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0132] 上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。