用户行为分析方法与装置转让专利

申请号 : CN201810145117.7

文献号 : CN108322473B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李想张雯

申请人 : 京东数字科技控股有限公司

摘要 :

本公开提供一种用户行为分析方法与装置。用户行为分析方法包括:根据多名用户的行为数据建立信息连通图;根据所述信息连通图基于多个预设关系模型提取多个二分图;基于预设评分模型获取所述多个二分图的评分密度曲线;根据所述评分密度曲线识别可疑用户行为。本公开提供的用户行为分析方法可以有效识别异常用户行为,有助于发现全新网络欺诈模式,预防网络欺诈。

权利要求 :

1.一种用户行为分析方法,其特征在于,包括:根据多名用户的行为数据建立信息连通图;

根据所述信息连通图基于多个预设关系模型提取多个二分图;

基于预设评分模型获取所述多个二分图的评分密度曲线;

根据所述评分密度曲线识别可疑用户行为。

2.如权利要求1所述的用户行为分析方法,其特征在于,所述根据多名用户的行为数据建立信息连通图包括:获取多名用户的行为数据,所述行为数据至少包括注册数据、登录数据、浏览数据、订单数据、支付数据、实名认证数据;

根据所述行为数据提取节点以及关系类型;

根据所述节点以及所述关系类型建立所述信息连通图。

3.如权利要求1所述的用户行为分析方法,其特征在于,所述根据所述信息连通图基于多个预设关系模型提取多个二分图包括:将所述信息连通图划分为多个连通子图;

按预设关系模型对每个连通子图提取二分图;

将所述多个连通子图的二分图汇总作为所述预设关系模型的二分图集合;

获取与每个预设关系模型对应的二分图集合。

4.如权利要求1所述的用户行为分析方法,其特征在于,所述基于预设评分模型获取所述多个二分图的评分密度曲线包括:根据所述二分图的节点的数量以及所述节点之间的连通数量获取所述二分图的评分;

对所述多个预设关系模型对应的二分图的评分直方图进行核密度估计,获取与所述多个预设关系模型对应的多个所述评分密度曲线。

5.如权利要求1所述的用户行为分析方法,其特征在于,所述根据所述评分密度曲线识别可疑用户行为包括:根据所述评分密度曲线的波峰获取多个二分图;

将所述多个二分图中的多个节点作为可疑节点集合;

对所述多个预设关系模型对应的评分密度曲线分别提取可疑节点集合;

根据多个所述可疑节点集合获取可疑节点。

6.如权利要求1或5所述的用户行为分析方法,其特征在于,所述根据所述评分密度曲线识别可疑用户行为包括:对每个所述预设关系模型对应的所述评分密度曲线拟合高斯混合模型;

根据多个所述高斯混合模型获取所述可疑用户行为的种类以及每个种类的占比。

7.如权利要求4所述的用户行为分析方法,其特征在于,所述根据所述二分图的节点的数量以及所述节点之间的连通数量获取所述二分图的评分包括:根据所述节点的数量获取第一评分;

根据所述节点的数量获取合理连通数量;

根据所述合理连通数量与所述连通数量的差值获取第二评分;

根据所述第一评分与所述第二评分获取所述二分图的评分。

8.一种用户行为分析装置,其特征在于,包括:关系网络建立模块,设置为根据多名用户的行为数据建立信息连通图;

二分图提取模块,设置为根据所述信息连通图基于多个预设关系模型提取多个二分图;

二分图评分模块,设置为基于预设评分模型获取所述多个二分图的评分密度曲线;

评分数据分析模块,设置为根据所述评分密度曲线识别可疑用户行为。

9.如权利要求8所述的用户行为分析装置,其特征在于,所述关系网络建立模块包括:用户行为提取单元,设置为获取多名用户的行为数据,所述行为数据至少包括注册数据、登录数据、浏览数据、订单数据、支付数据、实名认证数据;

关系提取单元,设置为根据所述行为数据提取节点以及关系类型;

关系连接单元,设置为根据所述节点以及所述关系类型建立所述信息连通图。

10.如权利要求8所述的用户行为分析装置,其特征在于,所述二分图提取模块包括:子图划分单元,设置为将所述信息连通图划分为多个连通子图;

二分图提取单元,设置为按预设关系模型对每个连通子图提取二分图;

二分图汇总单元,设置为将所述多个连通子图的二分图汇总作为所述预设关系模型的二分图集合;

遍历单元,设置为获取与每个预设关系模型对应的二分图集合。

11.如权利要求8所述的用户行为分析装置,其特征在于,所述二分图评分模块包括:评分单元,设置为根据所述二分图的节点的数量以及所述节点之间的连通数量获取所述二分图的评分;

密度曲线形成单元,设置为对所述多个预设关系模型对应的二分图的评分直方图进行核密度估计,获取与所述多个预设关系模型对应的多个所述评分密度曲线。

12.如权利要求8所述的用户行为分析装置,其特征在于,所述评分数据分析模块包括:波峰判断单元,设置为根据所述评分密度曲线的波峰获取多个二分图;

节点提取单元,设置为将所述多个二分图中的多个节点作为可疑节点集合;

节点汇总单元,设置为对所述多个预设关系模型对应的评分密度曲线分别提取可疑节点集合;

节点分析单元,设置为根据多个所述可疑节点集合获取可疑节点。

13.如权利要求8或12所述的用户行为分析装置,其特征在于,所述评分数据分析模块包括:模型拟合单元,设置为对每个所述预设关系模型对应的所述评分密度曲线拟合高斯混合模型;

模型分析单元,设置为根据多个所述高斯混合模型获取所述可疑用户行为的种类以及每个种类的占比。

14.如权利要求11所述的用户行为分析装置,其特征在于,所述评分单元包括:第一评分子单元,设置为根据所述节点的数量获取第一评分;

合理估计子单元,设置为根据所述节点的数量获取合理连通数量;

第二评分子单元,设置为根据所述合理连通数量与所述连通数量的差值获取第二评分;

评分汇总子单元,设置为根据所述第一评分与所述第二评分获取所述二分图的评分。

15.一种电子设备,其特征在于,包括:存储器;以及

耦合到所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-7任一项所述的用户行为分析方法。

16.一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如权利要求1-7任一项所述的用户行为分析方法。

说明书 :

用户行为分析方法与装置

技术领域

[0001] 本公开涉及机器学习技术领域,具体而言,涉及一种使用机器学习模型进行的用户行为分析方法与装置。

背景技术

[0002] 随着电子商务的发展,针对电商网站的网络欺诈行为也逐渐增多。一般而言,网络欺诈的主要行为模式是同一操作者使用多种身份在电商网站进行活动,实现刷单、重复领取优惠等作弊行为,因此,电商网站具有较大的识别可疑用户行为,从而防止作弊的需求。
[0003] 在相关技术中,存在分析用户账号与用户标识节点的关联关系,并根据已判别的危险用户账号识别及其与用户标识节点的关联关系将该用户标识节点关联的其他用户账号判别为可疑用户账号的技术方案。然而,这种方案只能通过已出现的识别结果来进一步判断更多识别结果,对于层出不穷的全新诈骗手段无法起到识别的作用。此外,这种方式仅通过单一的关联关系分析用户行为,在诈骗者使用大量信息交互进行操作时,无法起到很好的识别作用。
[0004] 因此,需要一种不但能更精确识别现有网络欺诈行为、并且能识别出全新的网络欺诈模式的用户行为分析方法。
[0005] 需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

[0006] 本公开的目的在于提供一种用户行为分析方法与用户行为分析装置,用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或多个问题。
[0007] 根据本公开实施例的第一方面,提供一种用户行为分析方法,包括:根据多名用户的行为数据建立信息连通图;根据所述信息连通图基于多个预设关系模型提取多个二分图;基于预设评分模型获取所述多个二分图的评分密度曲线;根据所述评分密度曲线识别可疑用户行为。
[0008] 在本公开的一种示例性实施方式中,所述根据多名用户的行为数据建立信息连通图包括:
[0009] 获取多名用户的行为数据,所述行为数据至少包括注册数据、登录数据、浏览数据、订单数据、支付数据、实名认证数据;
[0010] 根据所述行为数据提取节点以及关系类型;
[0011] 根据所述节点以及所述关系类型建立所述信息连通图。
[0012] 在本公开的一种示例性实施方式中,所述根据所述信息连通图基于多个预设关系模型提取多个二分图包括:
[0013] 将所述信息连通图划分为多个连通子图;
[0014] 按预设关系模型对每个连通子图提取二分图;
[0015] 将所述多个连通子图的二分图汇总作为所述预设关系模型的二分图集合;
[0016] 按以上方式获取与每个预设关系模型对应的二分图集合。
[0017] 在本公开的一种示例性实施方式中,所述基于预设评分模型获取所述多个二分图的评分密度曲线包括:
[0018] 根据所述二分图的节点的数量以及所述节点之间的连通数量获取所述二分图的评分;
[0019] 对所述多个预设关系模型对应的二分图的评分直方图进行核密度估计,获取与所述多个预设关系模型对应的多个所述评分密度曲线。
[0020] 在本公开的一种示例性实施方式中,所述根据所述评分密度曲线识别可疑用户行为包括:
[0021] 根据所述评分密度曲线的波峰获取多个二分图;
[0022] 将所述多个二分图中的多个节点作为可疑节点集合;
[0023] 按以上步骤对所述多个预设关系模型对应的评分密度曲线分别提取可疑节点集合;
[0024] 根据多个所述可疑节点集合获取可疑节点。
[0025] 在本公开的一种示例性实施方式中,所述根据所述评分密度曲线识别可疑用户行为包括:
[0026] 对每个所述预设关系模型对应的所述评分密度曲线拟合高斯混合模型;
[0027] 根据多个所述高斯混合模型获取所述可疑用户行为的种类以及每个种类的占比。
[0028] 在本公开的一种示例性实施方式中,所述根据所述二分图的节点的数量以及所述节点之间的连通数量获取所述二分图的评分包括:
[0029] 根据所述节点的数量获取第一评分;
[0030] 根据所述节点的数量获取合理连通数量;
[0031] 根据所述合理连通数量与所述连通数量的差值获取第二评分;
[0032] 根据所述第一评分与所述第二评分获取所述二分图的评分。
[0033] 根据本公开实施例的第二方面,提供一种用户行为分析装置,包括:
[0034] 关系网络建立模块,设置为根据多名用户的行为数据建立信息连通图;;
[0035] 二分图提取模块,设置为根据所述信息连通图基于多个预设关系模型提取多个二分图;
[0036] 二分图评分模块,设置为基于预设评分模型获取所述多个二分图的评分密度曲线;
[0037] 评分数据分析模块,设置为根据所述评分密度曲线识别可疑用户行为。
[0038] 在本公开的一种示例性实施方式中,所述关系网络建立模块包括:
[0039] 用户行为提取单元,设置为获取多名用户的行为数据,所述行为数据至少包括注册数据、登录数据、浏览数据、订单数据、支付数据、实名认证数据;
[0040] 关系提取单元,设置为根据所述行为数据提取节点以及关系类型;
[0041] 关系连接单元,设置为根据所述节点以及所述关系类型建立所述信息连通图。
[0042] 在本公开的一种示例性实施方式中,所述二分图提取模块包括:
[0043] 子图划分单元,设置为将所述信息连通图划分为多个连通子图;
[0044] 二分图提取单元,设置为按预设关系模型对每个连通子图提取二分图;
[0045] 二分图汇总单元,设置为将所述多个连通子图的二分图汇总作为所述预设关系模型的二分图集合;
[0046] 遍历单元,设置为获取与每个预设关系模型对应的二分图集合。
[0047] 在本公开的一种示例性实施方式中,所述二分图评分模块包括:
[0048] 评分单元,设置为根据所述二分图的节点的数量以及所述节点之间的连通数量获取所述二分图的评分;
[0049] 密度曲线形成单元,设置为对所述多个预设关系模型对应的二分图的评分直方图进行核密度估计,获取与所述多个预设关系模型对应的多个所述评分密度曲线。
[0050] 在本公开的一种示例性实施方式中,所述评分数据分析模块包括:
[0051] 波峰判断单元,设置为根据所述评分密度曲线的波峰获取多个二分图;
[0052] 节点提取单元,设置为将所述多个二分图中的多个节点作为可疑节点集合;
[0053] 节点汇总单元,设置为按以上步骤对所述多个预设关系模型对应的评分密度曲线分别提取可疑节点集合;
[0054] 节点分析单元,设置为根据多个所述可疑节点集合获取可疑节点。
[0055] 在本公开的一种示例性实施方式中,所述评分数据分析模块包括:
[0056] 模型拟合单元,设置为对每个所述预设关系模型对应的所述评分密度曲线拟合高斯混合模型;
[0057] 模型分析单元,设置为根据多个所述高斯混合模型获取所述可疑用户行为的种类以及每个种类的占比。
[0058] 在本公开的一种示例性实施方式中,所述评分单元包括:
[0059] 第一评分子单元,设置为根据所述节点的数量获取第一评分;
[0060] 合理估计子单元,设置为根据所述节点的数量获取合理连通数量;
[0061] 第二评分子单元,设置为根据所述合理连通数量与所述连通数量的差值获取第二评分;
[0062] 评分汇总子单元,设置为根据所述第一评分与所述第二评分获取所述二分图的评分。
[0063] 根据本公开的第三方面,提供一种用户行为分析装置,包括:存储器;以及耦合到所属存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上述任意一项所述的方法。
[0064] 根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上述任意一项所述的用户行为分析方法。
[0065] 本公开提供的用户行为分析方法,通过提取多种用户行为数据的关联图,并对关联图提取的对应于多种关系模型的二分图进行评分,根据评分识别可疑用户数据,能够识别出异常的用户行为数据,不但能更精确地识别出现有的用户异常行为模式,还能够及时发现全新的欺诈行为模式,提高了预防网络欺诈的成功率。
[0066] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

[0067] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0068] 图1是本公开示例性实施例中用户行为分析方法的流程图。
[0069] 图2是本公开示例性实施例中用户行为分析方法的流程图。
[0070] 图3是本公开示例性实施例中用户行为分析方法的流程图。
[0071] 图4是本公开示例性实施例中用户行为分析方法的流程图。
[0072] 图5是本公开示例性实施例中用户行为分析方法的流程图。
[0073] 图6是本公开示例性实施例中用户行为分析方法的流程图。
[0074] 图7是本公开示例性实施例中用户行为分析方法的流程图。
[0075] 图8是本公开示例性实施例中用户行为分析方法的流程图。
[0076] 图9是本公开示例性实施例中用户行为分析方法的流程图。
[0077] 图10是本公开示例性实施例中用户行为分析方法的流程图。
[0078] 图11是本公开示例性实施例中用户行为分析方法的流程图。
[0079] 图12是本公开一个实施例中一种用户行为分析装置的方框图。
[0080] 图13是本公开一个实施例中一种电子设备的方框图。
[0081] 图14是本公开一个实施例中一种计算机可读存储介质的示意图。

具体实施方式

[0082] 现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
[0083] 此外,附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0084] 下面结合附图对本公开示例实施方式进行详细说明。
[0085] 图1是本公开示例性实施例中用户行为分析方法的流程图。参考图1,用户行为分析方法100可以包括:
[0086] 步骤S1,根据多名用户的行为数据建立信息连通图;
[0087] 步骤S2,根据所述信息连通图基于多个预设关系模型提取多个二分图;
[0088] 步骤S3,基于预设评分模型获取所述多个二分图的评分密度曲线;
[0089] 步骤S4,根据所述评分密度曲线识别可疑用户行为。
[0090] 本公开提供的用户行为分析方法,通过提取多种用户行为数据的关联图,并对关联图提取的对应于多种关系模型的二分图进行评分,根据评分识别可疑用户数据,能够识别出异常的用户行为数据,不但能更精确地识别出现有的用户异常行为模式,还能够及时发现全新的欺诈行为模式,提高了预防网络欺诈的成功率。
[0091] 下面,对用户行为分析方法100的各步骤进行详细说明。
[0092] 在步骤S1,根据多名用户的行为数据建立信息连通图。
[0093] 图2是本公开实施例的一种子流程图。参考图2,在本公开的一种示例性实施方式中,步骤S1可以包括:
[0094] 步骤S11,获取多名用户的行为数据,所述行为数据至少包括注册数据、登录数据、浏览数据、订单数据、支付数据、实名认证数据。
[0095] 步骤S12,根据所述行为数据提取节点以及关系类型。
[0096] 步骤S13,根据所述节点以及所述关系类型建立所述信息连通图。
[0097] 在步骤S11,为了能够完整的描述用户在电商平台的行为,需要融合用户在不同场景下产生的数据,如注册、登录、浏览、下单、支付、绑卡和实名认证等。由于每种数据源都来自于不同的业务系统,以及存储在不同的数据库或通过API进行获取,因此需要对多源异构的数据进行融合,按照数据产生的频度和体量进行统一架构,T+1或(准)实时地对数据进行抽取,建立关系网络所需的稳定、干净、持续的基础数据源。
[0098] 所有数据源经过统一的数据抽取引擎,将分布在不同业务线及存储方式的数据按照不同的时间频度(T+1或准实时)接入到关系网络基础库Elasticsearch,然后对接入的多源数据进行ETL操作(抽取相关字段、字段类型变换、空值处理、数据合并等),最终生成建立关系网络所需的基础数据源。
[0099] 在步骤S12,获取融合后的行为数据后,定义节点以及关系类型。
[0100] 在本公开实施例中,节点是指一条数据中能够反映特定业务含义的属性或字段,如帐号、电话、ip、证件、设备编号等。关系是指节点与节点之间在某一时间形成的相互作用、相互影响的状态,如帐号在设备上登录、帐号用手机号注册等。
[0101] 节点例如可以为账号、手机号、证件、银行卡、设备ID、IP地址。
[0102] 关系类型例如可以为账号-手机号(注册和下单)、账号-设备ID(注册、登录和下单)、账号-IP地址(注册、登录和下单)、账号-证件(实名认证)、证件-手机号(拥有)、证件-银行卡(持有)等。
[0103] 步骤S13,从融合后的行为数据中,抽取定义的节点和关系,创建关系网络。关系网络是所有节点及节点之间的关系构成的一种拓扑结构,可以为一张连通图,图中的每个节点均连接有至少一个其他节点,每个节点涉及到的连接关系的类型可以为多个。
[0104] 图3是形成的连通图的示意图。
[0105] 在步骤S2,根据所述信息连通图基于多个预设关系模型提取多个二分图。
[0106] 图4是本公开实施例的另一个子流程图。参考图4,在本公开的一种示例性实施方式中,步骤S2可以包括:
[0107] 步骤S21,将所述信息连通图划分为多个连通子图。
[0108] 步骤S22,按预设关系模型对每个连通子图提取二分图。
[0109] 步骤S23,将所述多个连通子图的二分图汇总作为所述预设关系模型的二分图集合。
[0110] 按以上方式获取与每个预设关系模型对应的二分图集合。
[0111] 在步骤S21,连通子图是一种任何两个节点之间都可以某种关系路径进行连接的图。可以利用spark的Graphx图计算引擎,对已经创建好的关系网络进行连通子图划分,将整个关系网络划分成彼此不相通、内部连通的子关系网络。这些子关系网络代表着实体(帐号、手机号、银行卡等)的行为在平台所能触及的最大范围。
[0112] 图5是拆分连通子图的示意图。在每个连通子图中,都会包含至少两个节点(类型)。节点类型越多,意味着该子图中节点活动的范围越广,包含的信息也就越多。
[0113] 在步骤S22,按预设关系模型对每个连通子图提取二分图,即将一个连通子图提取为只包含两种节点类型的二分图,拆分后的二分图是由若干个小的二分图组成。二分图是只含有两种类型的节点以及这两种类型节点之间组成的关系所构成的图。
[0114] 图6是对连通子图提取二分图的示意图。参考图6,左侧的连通子图(包括帐号、手机号、设备三种节点),在按帐号-手机号关系模型提取数据后,变成若干个由帐号和手机号组成的连通二分图。
[0115] 图6所示仅为一种预设关系模型的提取,在实际操作中,还可以设置如表1所示的预设关系模型。
[0116] 表1
[0117]源节点类型 目标节点类型 关系
帐号 设备ID 注册、登录、下单
帐号 手机号 注册、下单(收货)
帐号 IP地址 注册、登录、下单
帐号 银行卡 绑卡、支付
帐号 证件 实名认证
[0118] 通过对以上预设关系模型进行数据提取,可以获取与预设关系模型的数量对应的二分图集合。
[0119] 在步骤S3,基于预设评分模型获取所述多个二分图的评分密度曲线。
[0120] 即对每个类别二分图的每个连通子图根据其拓扑结构进行评分,然后对评分直方图进行核密度估计,拟合密度曲线。
[0121] 图7是步骤S3的一种子流程图。
[0122] 参考图7,在本公开的一种示例性实施方式中,步骤S3可以包括:
[0123] 步骤S31,根据所述二分图的节点的数量以及所述节点之间的连通数量获取所述二分图的评分。
[0124] 步骤S32,对所述多个预设关系模型对应的二分图的评分直方图进行核密度估计,获取与所述多个预设关系模型对应的多个所述评分密度曲线。
[0125] 图8是步骤S31的一种子流程图。
[0126] 参考图8,在本公开的一种示例性实施方式中,步骤S31又可以包括:
[0127] 步骤S311,根据所述节点的数量获取第一评分。
[0128] 步骤S312,根据所述节点的数量获取合理连通数量。
[0129] 步骤S313,根据所述合理连通数量与所述连通数量的差值获取第二评分。
[0130] 步骤S314,根据所述第一评分与所述第二评分获取所述二分图的评分。
[0131] 节点的数量可以评价一名用户的行为次数。对于大多数用户的单纯操作行为而言,其行为次数有限,例如一名用户的账户节点往往只对应一个手机号码,而该手机号码通常情况下不会连接其他节点。因此,可以将节点的数量作为第一维度的评分,节点越多,评分越高。但是,由于一些用户可能具有比较复杂的正常行为,例如在多个登录地点登录,那么对该名用户的账户而言,与其有连接关系的IP地址节点的数量就会较多。鉴于此,节点数量对用户行为的合理性的影响较小,因此可以设置较小的评分差异,例如可以将第一评分设置为节点数量。
[0132] 对于具有n个节点的二分图而言,若其为正常用户行为产生的连通关系,其合理的连通数量会较少。例如,对于账户-手机号关系而言,一个手机号在正常情况下只会与一个账户产生连接。但是对伪装用户而言,由于其使用的节点资源有限,往往会产生数量庞大的连接关系。因此,合理的连通数量与当前连通数量的差值可以作为评价用户行为是否异常的重要指标。在评分上,可以扩大不同差值对应的评分的差异,从而增加该指标对总体评分的影响。例如,可以将第二评分设置为连通数量差值的10倍。
[0133] 在一些实施例中,如果连通数量已经明显超出合理范围,例如6个节点的合理连通数量为5,而在一个二分图中,连通数量为14,则还可以对其增加惩罚性评分,以突出该二分图。
[0134] 结合第一评分与第二评分,可以获取一个二分图的评分。根据第一评分与第二评分获取二分图评分的方法可以有多种,包括但不限于相加、相乘、取加权和或带入其他公式等。本领域技术人员可以根据实际情况自行设置相关公式,本公开对此不作特殊限定。
[0135] 在步骤S32,根据多个二分图的评分可以生成评分直方图,对评分直方图进行核密度估计可以获取评分核密度曲线。
[0136] 可以在一个预设关系模型下,根据各个联通子图中的每个二分图的评分生成评分直方图。该评分直方图的横坐标为二分图编号,纵坐标为二分图评分。如此,可以看出一个预设关系模型下,哪些二分图具有异常行为,从而对这些二分图涉及到的节点进行重点监控或进一步判断。根据多个预设关系模型可以生成多个评分直方图,结合各评分直方图的分析结果,可以更精确地确定异常节点。
[0137] 核密度估计是一种根据直方图生成平滑的核密度曲线的非参数检验方法。由给定样本点集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。在参数判别分析中,需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法并非总能取得令人满意的结果。由于上述缺陷,Rosenblatt和Parzen提出了非参数估计方法,即核密度估计方法。
[0138] 由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。
[0139] 图9是一种评分直方图与核密度曲线的示意图。在图9中,对应于评分直方图,核密度曲线具有波峰A。
[0140] 在步骤S4,根据所述评分密度曲线识别可疑用户行为。
[0141] 图10是步骤S4的一种子流程图。
[0142] 参考图9,在本公开的一种示例性实施方式中,步骤S4可以包括:
[0143] 步骤S41,根据所述评分密度曲线的波峰获取多个二分图。
[0144] 步骤S42,将所述多个二分图中的多个节点作为可疑节点集合。
[0145] 步骤S43,按以上步骤对所述多个预设关系模型对应的评分密度曲线分别提取可疑节点集合。
[0146] 步骤S44,根据多个所述可疑节点集合获取可疑节点。
[0147] 此外,在本公开的一种示例性实施方式中,步骤S4还可以包括:
[0148] 步骤S45,对每个所述预设关系模型对应的所述评分密度曲线拟合高斯混合模型。
[0149] 步骤S46,根据多个所述高斯混合模型获取所述可疑用户行为的种类以及每个种类的占比。
[0150] 可以根据密曲线中峰的数量及大小分析可疑群体,利用EM算法拟合高斯混合模型。首先,对高斯混合模型里的参数,计算使似然函数最大的每个类别的分布函数。然后,利用上一节计算出来的分布函数,对模型的参数进行更新。这两步不断迭代计算,直到收敛。
[0151] 高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布但参数不一样,或者是不同类型的分布,比如正态分布和伯努利分布)。
[0152] 应用本公开实施例提供的方法,可以识别多种互联网诈骗模式。例如,识别商户作弊模式。商户作弊是指商户本身作为用户在平台进行下单,但实际上并无配送行为。商户以小额的订单费用赚取了平台的补贴或优惠,这种行为无疑对平台是一种伤害。商户此种行为会在帐号-设备ID、帐号-手机号、帐号-银行卡等二分图中因结构异常导致其评分被判定为可疑群体,从而模型能够有效地识别商户的一些作弊行为。
[0153] 本公开实施例提供的方法还可以用于识别批量刷单行为。黑灰产会利用各种途径收集的手机号、身份证件等信息去批量注册新用户,不断地去享受平台给予的优惠。有大量新注册帐号的黑灰产会将此做成服务,提供给广大消费者,赚取中间差价。利用二分图评分模型,基于源-目标实体之间的连接关系,可对批量恶意刷单用户进行精准识别,尤其是为了躲避平台风控系统而特意设计的刷单方式。
[0154] 图11是一种能够反映商户批量刷单行为的二分图模型。
[0155] 参考图11,该二分图中节点A为帐号,节点B为收货手机号,图中包含注册和收货两种连通关系。在图11所示的诈骗模式下,每个手机号都会注册一个帐号,又同时会作为另外一个手机号的收货手机,帐号与手机号相互交替,形成一条“直线”模式的连通二分图。诈骗者利用一批手机号注册的帐号下单,然后又随机在这批手机号中选择收货手机,这种行为能够躲避大多数平台的风控系统,却可以被二分图模型识别。
[0156] 由于新技术的不断涌现,欺诈方式也会呈现出多样化。黑灰产们也会不断地去探索平台的各类风控规则以调整自己的策略。由于关系网络是一种表示实体之间连接关系的结构,对于不同的欺诈方式,只要节点与关系设计合理,其对应的二分图结构会随之变化,从而导致连通二分图分数的分布发生变化。可以定期地(如一周)以一个时间窗口(一个月)重建关系网络,重新对模型进行训练,从而从高斯混合模型中发现新的用户行为异常模式,进而实现对新的欺诈方式的有效识别。
[0157] 详细而言,可以在一个时间窗口(1分钟)内,利用已经训练好的模型,对增量数据创建增量的关系网络并做同样的操作(建立连通网络、提取二分图、生成评分密度曲线),识别增量数据里的欺诈节点(手机号、设备ID等),进行相应的操作(拦截、忽略等)。
[0158] 本公开提供的用户行为分析方法,利用用户在平台的行为轨迹数据建立用户行为关系网络,根据网络自身的结构特性去发现用户的异常操作行为,可以及时发现新的诈骗模式,减少经济损失。本公开提供的用户行为分析方法无需人工干预,可以对新订单、新手机号等进行实时判断,能够适应不同的欺诈模式,新的欺诈模式进行有效识别。
[0159] 对应于上述方法实施例,本公开还提供一种用户行为分析装置,可以用于执行上述方法实施例。
[0160] 图12是本公开一个示例性实施例中一种用户行为分析装置的方框图。
[0161] 参考图12,用户行为分析装置1200可以包括:
[0162] 关系网络建立模块121,设置为根据多名用户的行为数据建立信息连通图;
[0163] 二分图提取模块122,设置为根据所述信息连通图基于多个预设关系模型提取多个二分图;
[0164] 二分图评分模块123,设置为基于预设评分模型获取所述多个二分图的评分密度曲线;
[0165] 评分数据分析模块124,设置为根据所述评分密度曲线识别可疑用户行为。
[0166] 在本公开的一种示例性实施方式中,关系网络建立模块121可以包括:
[0167] 用户行为提取单元1211,设置为获取多名用户的行为数据,所述行为数据至少包括注册数据、登录数据、浏览数据、订单数据、支付数据、实名认证数据;
[0168] 关系提取单元1212,设置为根据所述行为数据提取节点以及关系类型;
[0169] 关系连接单元1213,设置为根据所述节点以及所述关系类型建立所述信息连通图。
[0170] 在本公开的一种示例性实施方式中,二分图提取模块122可以包括:
[0171] 子图划分单元1221,设置为将所述信息连通图划分为多个连通子图;
[0172] 二分图提取单元1222,设置为按预设关系模型对每个连通子图提取二分图;
[0173] 二分图汇总单元1223,设置为将所述多个连通子图的二分图汇总作为所述预设关系模型的二分图集合;
[0174] 遍历单元1224,设置为获取与每个预设关系模型对应的二分图集合。
[0175] 在本公开的一种示例性实施方式中,二分图评分模块123包括:
[0176] 评分单元1231,设置为根据所述二分图的节点的数量以及所述节点之间的连通数量获取所述二分图的评分;
[0177] 密度曲线形成单元1232,设置为对所述多个预设关系模型对应的二分图的评分直方图进行核密度估计,获取与所述多个预设关系模型对应的多个所述评分密度曲线。
[0178] 在本公开的一种示例性实施方式中,评分数据分析模块124包括:
[0179] 波峰判断单元1241,设置为根据所述评分密度曲线的波峰获取多个二分图;
[0180] 节点提取单元1242,设置为将所述多个二分图中的多个节点作为可疑节点集合;
[0181] 节点汇总单元1243,设置为按以上步骤对所述多个预设关系模型对应的评分密度曲线分别提取可疑节点集合;
[0182] 节点分析单元1244,设置为根据多个所述可疑节点集合获取可疑节点。
[0183] 在本公开的一种示例性实施方式中,评分数据分析模块124还可以包括:
[0184] 模型拟合单元1245,设置为对每个所述预设关系模型对应的所述评分密度曲线拟合高斯混合模型;
[0185] 模型分析单元1246,设置为根据多个所述高斯混合模型获取所述可疑用户行为的种类以及每个种类的占比。
[0186] 在本公开的一种示例性实施方式中,评分单元1231可以包括:
[0187] 第一评分子单元12311,设置为根据所述节点的数量获取第一评分;
[0188] 合理估计子单元12312,设置为根据所述节点的数量获取合理连通数量;
[0189] 第二评分子单元12313,设置为根据所述合理连通数量与所述连通数量的差值获取第二评分;
[0190] 评分汇总子单元12314,设置为根据所述第一评分与所述第二评分获取所述二分图的评分。
[0191] 由于装置1200的各功能已在其对应的方法实施例中予以详细说明,本公开于此不再赘述。
[0192] 应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0193] 在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
[0194] 所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0195] 下面参照图13来描述根据本发明的这种实施方式的电子设备1300。图13显示的电子设备1300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0196] 如图13所示,电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于:上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330。
[0197] 其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1310执行,使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元1310可以执行如图1中所示的步骤S1:根据多名用户的行为数据建立信息连通图;步骤S2:根据所述信息连通图基于多个预设关系模型提取多个二分图;步骤S3:基于预设评分模型获取所述多个二分图的评分密度曲线;步骤S4:根据所述评分密度曲线识别可疑用户行为。
[0198] 存储单元1320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)13201和/或高速缓存存储单元13202,还可以进一步包括只读存储单元(ROM)13203。
[0199] 存储单元1320还可以包括具有一组(至少一个)程序模块13205的程序/实用工具13204,这样的程序模块13205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0200] 总线1330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0201] 电子设备1300也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1300交互的设备通信,和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且,电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1360通过总线1330与电子设备1300的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
[0202] 通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
[0203] 在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
[0204] 参考图14所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品1400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0205] 所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0206] 计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0207] 可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0208] 可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0209] 此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0210] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和构思由权利要求指出。