基于大数据的兴趣属性挖掘方法、装置和计算机设备转让专利

申请号 : CN201910748904.5

文献号 : CN110647676B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 蔡健董雨婷

申请人 : 平安科技(深圳)有限公司

摘要 :

本申请涉及一种基于大数据的兴趣属性挖掘方法、装置和计算机设备。方法包括:获取待定对象的全连通子网路图;全连通子网络图包括待定对象节点及至少一个参考对象节点;计算每个参考对象节点与待定对象节点的综合关联度;获取参考对象节点对应的兴趣属性值,并根据综合关联度确定兴趣属性值的参考权重;根据多个兴趣属性值及分别对应的参考权重,计算得到第一兴趣参考值;获取待定对象的初始属性信息,根据初始属性信息确定兴趣属性的第二兴趣参考值;基于第一兴趣参考值与第二兴趣参考值,计算得到待定对象对应的兴趣属性值。采用本方法能够高效准确的挖掘用户兴趣属性信息。

权利要求 :

1.一种基于大数据的兴趣属性挖掘方法,所述方法包括:获取待定对象的全连通子网络图;所述全连通子网络图包括待定对象节点及至少一个参考对象节点;

计算每个参考对象节点与所述待定对象节点的综合关联度;

获取所述参考对象节点对应的兴趣属性值,并根据所述综合关联度确定所述兴趣属性值的参考权重;

根据多个兴趣属性值及每个所述兴趣属性值对应的参考权重,计算得到第一兴趣参考值;

获取所述待定对象的初始属性信息,根据所述初始属性信息确定兴趣属性的第二兴趣参考值;

基于所述第一兴趣参考值与所述第二兴趣参考值,计算得到所述待定对象对应的兴趣属性值。

2.根据权利要求1所述的方法,其特征在于,所述获取待定对象的全连通子网络图,包括:获取关系网络图谱;所述关系网络图谱包括多个对象节点及每个对象节点连接的属性节点;

识别每个对象节点对应兴趣属性的属性值是否缺失;

根据识别结果将所述关系网络图谱中多个对象节点区分为确定对象节点和待定对象节点;

在所述关系网络图谱中获取每个所述待定对象节点的全连通子网络图;

将所述全连通子网络图中与待定对象节点存在目标关联关系的对象节点标记为参考对象节点。

3.根据权利要求1所述的方法,其特征在于,所述计算每个参考对象节点与所述待定对象节点的综合关联度,包括:获取所述待定对象节点对应的社交网络信息;

根据所述社交网络信息识别每个参考对象节点与所述待定对象节点之间的关系类型,并统计在指定时段发生的关联事件的事件类型和发生频次;

获取预设的所述关系类型对应的基础关联系数;

基于所述全连通子网络图计算每个参考对象节点到所述待定对象节点的最短社交距离;

根据所述最短社交距离及所述关联事件的事件类型和发生频次,对所述基础关联系数进行调整,得到所述参考对象节点与待定对象节点的综合关联度。

4.根据权利要求1所述的方法,其特征在于,所述根据所述初始属性信息确定兴趣属性的第二兴趣参考值,包括:基于所述初始属性信息构建所述待定对象的用户画像;

监测所述待定对象浏览目标网站所产生的产品查阅记录;

根据所述用户画像及产品查阅记录生成所述待定对象的兴趣特征矩阵;

基于所述兴趣特征矩阵计算得到所述第二兴趣参考值。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述兴趣属性值对所述待定对象的初始属性信息进行补充,得到目标属性信息;

根据所述目标属性信息确定待定对象的客户等级;

根据所述客户等级筛选相匹配的业务员,将所述目标属性信息推送至筛选得到的业务员对应的终端;

接收所述终端基于所述目标属性信息返回产品推荐信息,对所述产品推荐信息进行校验,基于校验通过的产品推荐信息生成产品交易链接;

将所述产品交易链接推送至待定对象对应的终端。

6.根据权利要求5所述的方法,其特征在于,所述基于所述兴趣属性值对所述待定对象的身份属性信息进行补充,得到目标属性信息,包括:识别所述初始属性信息中风险属性是否缺失;

若是,基于所述全连通子网络图确定所述风险属性的第一风险参考值;

基于所述初始属性信息确定所述待定对象的第二风险参考值;

对所述第一风险参考值与所述第二风险参考值进行预设逻辑运算,将计算结果作为所述待定对象的风险属性值;

基于所述兴趣属性值及所述风险属性值对所述初始属性信息进行补全处理,得到目标属性信息。

7.一种基于大数据的兴趣属性挖掘装置,所述装置包括:第一兴趣挖掘模块,用于获取待定对象的全连通子网络图;所述全连通子网络图包括待定对象节点及至少一个参考对象节点;计算每个参考对象节点与所述待定对象节点的综合关联度;获取所述参考对象节点对应的兴趣属性值,并根据所述综合关联度确定所述兴趣属性值的参考权重;根据多个兴趣属性值及每个所述兴趣属性值对应的参考权重,计算得到第一兴趣参考值;

第二兴趣挖掘模块,用于获取所述待定对象的初始属性信息,根据所述初始属性信息确定兴趣属性的第二兴趣参考值;

兴趣属性值计算模块,用于基于所述第一兴趣参考值与所述第二兴趣参考值,计算得到所述待定对象对应的兴趣属性值。

8.根据权利要求7所述的装置,其特征在于,所述第一兴趣挖掘模块包括子网络图构建模块,用于获取关系网络图谱;所述关系网络图谱包括多个对象节点及每个对象节点连接的属性节点;识别每个对象节点对应兴趣属性的属性值是否缺失;根据识别结果将所述关系网络图谱中多个对象节点区分为确定对象节点和待定对象节点;在所述关系网络图谱中获取每个所述待定对象节点的全连通子网络图; 将所述全连通子网络图中与待定对象节点存在目标关联关系的对象节点标记为参考对象节点。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

说明书 :

基于大数据的兴趣属性挖掘方法、装置和计算机设备

技术领域

[0001] 本申请涉及计算机技术领域,特别是涉及一种基于大数据的兴趣属性挖掘方法、装置和计算机设备。

背景技术

[0002] 充分了解用户兴趣需求为潜在客户挖掘的前提。目前大多企业采用填写信息调查表来获取客户对其产品的兴趣数据。随着生活节奏越来越快,人们无暇关注这些信息,即使填写了相应的信息调查表,其真实性也不可靠,即难以高效准确的获取用户的兴趣属性信息。

发明内容

[0003] 基于此,有必要针对上述技术问题,提供一种能够高效准确的挖掘用户兴趣属性信息的基于大数据的兴趣属性挖掘方法、装置和计算机设备。
[0004] 一种基于大数据的兴趣属性挖掘方法,所述方法包括:获取待定对象的全连通子网络图;所述全连通子网络图包括待定对象节点及至少一个参考对象节点;计算每个参考对象节点与所述待定对象节点的综合关联度;获取所述参考对象节点对应的兴趣属性值,并根据所述综合关联度确定所述兴趣属性值的参考权重;根据多个兴趣属性值及每个所述兴趣属性值对应的参考权重,计算得到第一兴趣参考值;获取所述待定对象的初始属性信息,根据所述初始属性信息确定兴趣属性的第二兴趣参考值;基于所述第一兴趣参考值与所述第二兴趣参考值,计算得到所述待定对象对应的兴趣属性值。
[0005] 在一个实施例中,所述获取待定对象的全连通子网络图,包括:获取关系网络图谱;所述关系网络图谱包括多个对象节点及每个对象节点连接的属性节点;识别每个对象节点对应兴趣属性的属性值是否缺失;根据识别结果将所述关系网络图谱中多个对象节点区分为确定对象节点和待定对象节点;在所述关系网络图谱中获取每个所述待定对象节点的全连通子网络图; 将所述全连通子网络图中与待定对象节点存在目标关联关系的对象节点标记为参考对象节点。
[0006] 在一个实施例中,所述计算每个参考对象节点与所述待定对象节点的综合关联度,包括:获取所述待定对象节点对应的社交网络信息;根据所述社交网络信息识别每个参考对象节点与所述待定对象节点之间的关系类型,并统计在指定时段发生的关联事件的事件类型和发生频次;获取预设的所述关系类型对应的基础关联系数;基于所述全连通子网络图计算每个参考对象节点到所述待定对象节点的最短社交距离;根据所述最短社交距离及所述关联事件的事件类型和发生频次,对所述基础关联系数进行调整,得到所述待定对象节点基于不同关联节点的单边关联度;对每个参考对象节点与所述待定对象节点之间多个关联节点的单边关联度进行叠加,得到所述参考对象节点与所述待定对象节点的综合关联度。
[0007] 在一个实施例中,所述根据所述初始属性信息确定兴趣属性的第二兴趣参考值,包括:获取所述待定对象的初始属性信息,基于所述初始属性信息构建所述待定对象的用户画像;监测所述待定对象浏览目标网站所产生的产品查阅记录;根据所述用户画像及产品查阅记录生成所述待定对象的兴趣特征矩阵;基于所述兴趣特征矩阵计算得到所述第二兴趣参考值。
[0008] 在一个实施例中,所述方法还包括:基于所述兴趣属性值对所述待定对象的初始属性信息进行补充,得到目标属性信息;根据所述目标属性信息确定所述待定目标对象的客户等级;根据所述客户等级筛选相匹配的业务员,将所述目标属性信息推送至筛选得到的业务员对应的终端;接收所述终端基于所述目标属性信息返回产品推荐信息,对所述产品推荐信息进行校验,基于校验通过的产品推荐信息生成产品交易链接;将所述产品交易链接推送至待定对象对应的终端。
[0009] 在一个实施例中,所述基于所述兴趣属性值对所述待定对象的初始属性信息进行补充,得到目标属性信息,包括:识别所述初始属性信息中风险属性是否缺失;若是,基于所述全连通子网络图确定所述风险属性的第一风险参考值;基于所述初始属性信息确定所述待定对象的第二风险参考值;对所述第一风险参考值与所述第二风险参考值进行预设逻辑运算,将计算结果作为所述待定对象的风险属性值;基于所述兴趣属性值及所述风险属性值对所述初始属性信息进行补全处理,得到目标属性信息。
[0010] 一种基于大数据的兴趣属性挖掘装置,所述装置包括:第一兴趣挖掘模块,用于获取待定对象的全连通子网络图;所述全连通子网络图包括待定对象节点及至少一个参考对象节点;计算每个参考对象节点与所述待定对象节点的综合关联度;获取所述参考对象节点对应的兴趣属性值,并根据所述综合关联度确定所述兴趣属性值的参考权重;根据多个兴趣属性值及每个所述兴趣属性值对应的参考权重,计算得到第一兴趣参考值;第二兴趣挖掘模块,用于获取所述待定对象的初始属性信息,根据所述初始属性信息确定兴趣属性的第二兴趣参考值;兴趣属性值计算模块,用于基于所述第一兴趣参考值与所述第二兴趣参考值,计算得到所述待定对象对应的兴趣属性值。
[0011] 在一个实施例中,所述第一兴趣挖掘模块包括子网络图构建模块,用于获取关系网络图谱;所述关系网络图谱包括多个对象节点及每个对象节点连接的属性节点;识别每个对象节点对应兴趣属性的属性值是否缺失;根据识别结果将所述关系网络图谱中多个对象节点区分为确定对象节点和待定对象节点;在所述关系网络图谱中获取每个所述待定对象节点的全连通子网络图; 将所述全连通子网络图中与待定对象节点存在目标关联关系的对象节点标记为参考对象节点。
[0012] 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的基于大数据的兴趣属性挖掘方法的步骤。
[0013] 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于大数据的兴趣属性挖掘方法的步骤。
[0014] 上述基于大数据的兴趣属性挖掘方法、装置和计算机设备,根据待定对象的全连通子网络图,可以计算得到全连通子网络图中每个参考对象节点与待定对象节点的综合关联度;根据综合关联度以及参考对象节点对应的兴趣属性值,可以确定所述兴趣属性值的参考权重;根据多个兴趣属性值及每个所述兴趣属性值对应的参考权重,可以计算得到第一兴趣参考值;根据待定对象的初始属性信息,可以确定兴趣属性的第二兴趣参考值;基于第一兴趣参考值与第二兴趣参考值,可以计算得到待定对象对应的兴趣属性值。除了基于待定对象自身的初始属性信息,还结合考虑与待定对象节点具有较强关联度的参考对象节点的身份属性信息,综合多个维度的因素对待定对象节点的兴趣属性进行预测, 不仅可以提高信息补全效率,也可以提高补全信息的准确性。

附图说明

[0015] 图1为一个实施例中基于大数据的兴趣属性挖掘方法的应用场景图;
[0016] 图2为一个实施例中基于大数据的兴趣属性挖掘方法的流程示意图;
[0017] 图3为一个实施例中兴趣属性挖掘过程采用的关系网络图谱的示意图;
[0018] 图4为一个实施例中全连通子网络图构建步骤的流程示意图;
[0019] 图5为一个实施例中基于大数据的兴趣属性挖掘装置的结构框图;
[0020] 图6为一个实施例中计算机设备的内部结构图。实施方式
[0021] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0022] 本申请提供的基于大数据的兴趣属性挖掘方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104根据用户基于终端102触发的兴趣属性挖掘请求,获取待定对象的全连通子网络图。全连通子网络图包括待定对象节点及至少一个参考对象节点。服务器104计算每个参考对象节点与待定对象节点的综合关联度,并根据综合关联度确定兴趣属性值的参考权重。服务器104获取参考对象节点对应的兴趣属性值,根据多个兴趣属性值及每个所述兴趣属性值对应的参考权重,计算得到第一兴趣参考值。服务器104获取待定对象的初始属性信息,根据初始属性信息确定兴趣属性的第二兴趣参考值。服务器104基于第一兴趣参考值与第二兴趣参考值,计算得到待定对象对应的兴趣属性值。上述兴趣属性的挖掘过程,除了基于待定对象自身的初始属性信息,还结合考虑与待定对象节点具有较强关联度的参考对象节点的身份属性信息,综合多个维度的因素对待定对象节点的兴趣属性进行预测, 不仅可以提高信息补全效率,也可以提高补全信息的准确性。
[0023] 在一个实施例中,如图2所示,提供了一种基于大数据的兴趣属性挖掘方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
[0024] 步骤202,获取待定对象的全连通子网络图;全连通子网络图包括待定对象节点及至少一个参考对象节点。
[0025] 全连通子网络图包括待定对象节点、多个其他对象节点以及节点之间的有向边。全连通子网络图可以是从关系网络图谱中获取得到的。关系网络图谱可以服务器根据多个目标对象的身份属性信息和社交网络信息预先构建的。关系网络图谱包括多个对象节点,每个对象节点对应的属性节点以及用于连接对象节点和属性节点的有向边。服务器识别不同对象节点是否连接有相同的属性节点。若是,服务器对相同的属性节点进行合并,并将合并得到的属性节点标记为对应多个对象节点的关联节点。
[0026] 图3示例性给出一种关系网络图谱。如图3所示,V1 V8分别为8个对象节点,Mij及~Mijij为每个对象节点对应的属性节点“任职单位”;Nij及Nijij为每个对象节点对应的属性节点“转账ID”;Oij及Oijij为每个对象节点对应的属性节点“保单”;P ij及P ijij为每个对象节点对应的属性节点“无线网络标识”;Qij及Qijij为每个对象节点对应的属性节点“银行卡号”。其中,1≤i≤8;1≤j。有向边可以从对象节点指向属性节点。Mijij、Nijij、Oijij、P ijij及Qijij作为多个对象节点的关联节点。关联节点的节点标识可以根据被合并的多个属性节点的节点标识生成的。例如,由属性节点Q51与属性节点Q83合并得到的关联节点的节点标识可以是Q5183。
[0027] 服务器还根据身份属性信息生成了每个对象节点对应的节点标签,如基本信息标签、消费兴趣标签、财富级别标签或风险评级标签等。服务器识别每个对象节点是否缺少某种节点标签,以判断对应对象节点的身份属性信息是否存在缺失属性。服务器将存在缺失属性的对象节点表标记为待定对象节点,将不存在缺失属性的对象节点标记为确定对象节点。
[0028] 服务器确定待定对象节点对应缺失属性的属性类型,识别属性类型对应的目标关联关系,并将全连通子网络图中一个或多个对象节点标记为参考对象节点。
[0029] 步骤204,计算每个参考对象节点与待定对象节点的综合关联度。
[0030] 连接有一个或多个关联节点的两个对象节点相关联。服务器根据社交网络信息测算相关联的两个对象节点基于每个关联节点的单边关联度。对两个对象节点之间的多个关联节点的单边关联度进行叠加,可以得到两个对象节点的综合关联度。
[0031] 步骤206,获取参考对象节点对应的兴趣属性值,并根据综合关联度确定兴趣属性值的参考权重。
[0032] 服务器获取每个参考对象节点对应的身份属性信息,在获取到的身份属性信息提取与缺失属性对应的兴趣属性的属性值(记作兴趣属性值)。容易理解,有些参考对象节点对应的身份属性信息中的兴趣属性的属性值可能也是缺失的。但全连通子网络图包括至少一个确定对象节点,从而至少可以提取得到一个兴趣属性值。
[0033] 步骤208,根据多个兴趣属性值及每个所述兴趣属性值对应的参考权重,计算得到第一兴趣参考值。
[0034] 服务器对兴趣属性值进行预设逻辑运算,得到兴趣属性的第一兴趣参考值。预设逻辑运算可以是基于参考权重的叠加运算。参考权重可以是根据相应参考对象节点与待定对象节点的综合关联度确定。在另一个实施例中,预设逻辑运算还可以是对多个兴趣属性值取中位数或者取平均等。
[0035] 步骤210,获取待定对象的初始属性信息,根据初始属性信息确定兴趣属性的第二兴趣参考值。
[0036] 步骤212,基于第一兴趣参考值与第二兴趣参考值,计算得到待定对象对应的兴趣属性值。
[0037] 服务器基于初始属性信息构建待定对象的用户画像,并根据用户画像预测待定对象对应兴趣属性的第二兴趣参考值。服务器对第一兴趣参考值与第二兴趣参考值进行基于预设权重的叠加运算,得到待定对象对应的兴趣属性值。预设权重可以是固定值,也可以是根据第一兴趣参考值的置信度动态确定的。服务器针对缺失属性,预先训练了对应的缺失属性补全模型。服务器根据模型准确率可以给出计算得到的第一兴趣参考值的置信度。
[0038] 本实施例中,根据待定对象的全连通子网络图,可以计算得到全连通子网络图中每个参考对象节点与待定对象节点的综合关联度;根据综合关联度以及参考对象节点对应的兴趣属性值,可以确定兴趣属性值的参考权重;根据多个兴趣属性值及每个所述兴趣属性值对应的参考权重,可以计算得到第一兴趣参考值;根据待定对象的初始属性信息,可以确定兴趣属性的第二兴趣参考值;基于第一兴趣参考值与第二兴趣参考值,可以计算得到待定对象对应的兴趣属性值。除了基于待定对象自身的初始属性信息,还结合考虑与待定对象节点具有较强关联度的参考对象节点的身份属性信息,综合多个维度的因素对待定对象节点的兴趣属性进行预测, 不仅可以提高信息补全效率,也可以提高补全信息的准确性。
[0039] 在一个实施例中,如图4所示,获取待定对象的全连通子网络图,即全连通子网络图构建的步骤,包括:
[0040] 步骤402,获取关系网络图谱;关系网络图谱包括多个对象节点及每个对象节点连接的属性节点。
[0041] 服务器获取多个目标对象的身份属性信息和社交网络信息。目标对象可以是流失客户,也可以是已有客户,还可以是潜在客户。其中,潜在客户可以是根据流失客户或已有客户的客户数据识别得到的,例如,可以将已有客户预留的担保人或紧急联系人作为潜在客户。潜在客户也可以是服务器存对用户在目标网站浏览相关产品留下的产品查阅记录进行监测得到的,对此不作限制。
[0042] 身份属性信息包括对象标识。对象标识可以是身份证号、手机号或邮箱等。容易理解,若目标对象为企业,对象标识也可以是机构代码等。身份属性信息还包括姓名、性别、年龄、学历、联系方式、任职单位、保单、银行卡账号、终端设备信息、社交网络账号、兴趣、财富等级或风险水平等。社交网络信息包括wifi连接信息、位置共享信息、即时通讯信息、电子转账信息或远程通话信息等。
[0043] 服务器根据对象标识生成目标对象对应的对象节点,并根据其他身份属性信息生成目标对象对应的一个或多个属性节点。例如,可以以任职单位为标识生成一个属性节点,也可以是转账ID为标识生成一个属性节点。每个属性节点关联有对应的节点描述。本实施例中有向边从对象节点指向属性节点。一个对象节点可以连接有多个属性节点。
[0044] 服务器识别不同对象节点是否连接有相同的属性节点。若是,服务器对相同的属性节点进行合并,并将合并得到的属性节点标记为对应多个对象节点的关联节点。同一个对象节点可以连接有多种类型的属性节点,如任职单位型、银行卡账号型、常用网络型等。通过对相同的属性节点进行合并,可以将多个对象节点关联起来。换句话说,根据身份属性信息可以识别多个目标对象之间的关联关系。例如,具有相同的“任职单位”属性节点,表示两个目标对象可能存在同事关系;具有相同的“学历”属性节点,表示两个目标对象可能存在同学关系;具有相同的“银行卡账号”或“常用网络型”属性节点,表示两个目标对象可能亲属关系等,如此对每一类关联关系进行分析。
[0045] 连接有一个或多个关联节点的两个对象节点相关联。服务器根据社交网络信息测算相关联的两个对象节点基于每个关联节点的单边关联度,将单边关联度添加至相应关联节点相连的有向边,得到关系网络图谱。对两个对象节点之间的多个关联节点的单边关联度进行叠加,可以得到两个对象节点的综合关联度。
[0046] 步骤404,识别每个对象节点对应兴趣属性的属性值是否缺失。
[0047] 步骤406,根据识别结果将关系网络图谱中多个对象节点区分为确定对象节点和待定对象节点。
[0048] 步骤408,在关系网络图谱中获取每个待定对象节点的全连通子网络图。
[0049] 服务器根据社交网络信息,在关系网络图谱中获取每个待定对象节点的全连通子网络图。具体的,服务器获取待定对象节点的社交网络信息,按照上述方式基于社交网络信息计算待定对象节点与一度关联的每个对象节点之间的综合关联度。一度关联是指与两个对象节点通过一条有向边直接相连。服务器比较综合关联度是否达到阈值,并保留综合关联度达到阈值的对象节点(记作一度关联对象节点),删除综合关联度小于阈值的对象节点。
[0050] 服务器识别保留的一度关联对象节点中是否至少一个为确定对象节点。换言之,服务器判断保留的一度关联对象节点中是否至少一个为包含完整身份属性信息的对象节点。若保留的一度关联对象节点中存在确定对象节点,服务器在关系网络图谱中获取待定对象节点、保留的一度关联对象节点以及连接待定对象节点与一度关联对象节点的有向边,得到待定对象节点对应的全连通子网络图。若保留的一度关联对象节点中没有确定对象节点,则服务器按照上述方式进一步筛选与待定对象节点二度关联的一个或多个对象节点(记作二度关联对象节点)。二度关联是指与两个对象节点通过两条有向边相连。容易理解,二度关联对象节点是与一度关联对象节点直接相连的对象节点。
[0051] 服务器进一步识别二度关联对象节点中是否至少一个为确定对象节点。若否,则按照上述方式进一步筛选待定对象节点的三度关联对象节点,如此重复,直至筛选得到至少一个确定对象节点。服务器按照上述方式在关系网络图谱中获取待定对象节点、筛选得到的一度关联对象节点、二度关联对象节点等,得到待定对象节点对应的全连通子网络图。
[0052] 服务器根据全连通子网络图中参考对象节点的身份属性信息对相应待定对象节点的缺失属性进行补充。服务器可以对多种属性类型的缺失属性进行补充。属性类型包括基本属性、兴趣属性、资产属性、风险属性等。根据缺失属性的不同,获取的同一待定对象节点的全连通子网络图可以不同。
[0053] 在另一个实施例中,由于全连通子网络图用于对待定对象节点的缺失属性进行补充,为了抱枕缺失属性补充的准确性,服务器预置了关联对象节点的筛选阈值,若达到筛选阈值的层级的关联对象节点中仍不存在确定对象节点,则停止筛选关联对象节点,并生成对应的缺失属性补充失败的提示信息。例如,关联阈值为2,若二度关联对象节点中仍不存在确定对象节点,则返回“缺失属性补充失败”的提示信息。
[0054] 步骤410,将全连通子网络图中与待定对象节点存在目标关联关系的对象节点标记为参考对象节点。
[0055] 服务器预设了多种属性类型及对应的目标关联关系,根据缺失属性的属性类型,在对应的全连通子网络图中筛选与待定对象节点存在目标关联关系的关联对象节点作为参考对象节点。例如,当属性类型为基本属性时,可以将与待定对象存在同学关系、同事关系、朋友关系的关联对象确定为参考对象;当属性类型为兴趣属性时,可以将与待定对象存在朋友关系、附近的人关系的关联对象确定为参考对象;当属性类型为资产属性时,将与目标对象存在亲属关系、朋友关系的关联对象确定为参考对象;当属性类型为风险属性时,可以将与待定对象节点具有共同相连的其他对象节点的关联对象节点确定为参考对象节点。容易理解,也可以将全连通子网络图中的全部关联对象确定为参考对象,但根据缺失属性的不同针对不同参考对象预置不同的参考权重,对此不做限定。
[0056] 本实施例中,将覆盖大规模人群的关联关系集中展示在一张关系网络图谱,便于用户从全局把握客户之间的关联关系。根据缺失属性的不同,从关系网络图谱中获取对应待定对象节点的全连通子网络图,便于用户更有针对性的了解其中某个客户。
[0057] 在一个实施例中,计算每个参考对象节点与待定对象节点的综合关联度,包括:获取待定对象节点对应的社交网络信息;根据社交网络信息识别每个参考对象节点与待定对象节点之间的关系类型,并统计在指定时段发生的关联事件的事件类型和发生频次;获取预设的关系类型对应的基础关联系数;基于全连通子网络图计算每个参考对象节点到待定对象节点的最短社交距离;根据最短社交距离及关联事件的事件类型和发生频次,对基础关联系数进行调整,得到待定对象节点基于不同关联节点的单边关联度;对每个参考对象节点与待定对象节点之间多个关联节点的单边关联度进行叠加,得到参考对象节点与待定对象节点的综合关联度。
[0058] 关系类型可以是亲属关系、同学关系、同事关系、朋友关系、转账关系、位置临近关系等。服务器根据身份属性信息及社交网络信息,可以识别相关联的两个对象节点之间的关系类型。例如,根据与目标对象甲与目标对象乙、丙、丁连接同一家庭wifi、企业wifi或公共wifi,可以识别其可能存在亲友、同事或附近的人等关联关系。
[0059] 针对不同关系类型可以预置不同的基础关联系数。两个目标对象可能存在多种关联关系,如目标对象甲与乙可以即是同学,也是同事,还为朋友。对于这种情况,服务器也可以针对不同关系类型组合预置不同的基础关联系数。
[0060] 在另一个实施例中,基于关系网络图谱的不同用途,可以预设不同的关系类型与基础关联系数的映射关系,或者不同的关系类型组合与基础关联系数的映射关系。例如,当关系网络图谱用于挖掘客户兴趣属性时,直系亲属关系设置为1,同事关系设置为0.5等;当关系网络图谱用于审核客户风险属性时,朋友关系设置为1,亲属关系设置为0.4等。根据关系网络图谱的用途,预设多种用途对应的基础关联系数,实现多种单边关联度计算方式,可以充分考虑每种关系类型对评估关联度的价值意义不同,从而提高基于关系网络图谱进行不同缺失属性补充的准确性。
[0061] 服务器基于关系网络图谱确定相关联的两个对象节点之间的最短社交距离。最短社交距离是指从一个对象节点到另一个对象节点至少要经过的关联节点的数量。例如,在上述举例的图3中,对象节点V3与V5之间的最短社交距离为1,而对象节点V4与V8之间的最短社交距离为2。
[0062] 服务器根据社交网络信息统计相关联的两个对象节点在统计时段发生的关联事件的事件类型和发生频次。关联事件可以是连接同一局域网、基于即时通讯平台发送社交信息或者银行卡转账等交互操作。
[0063] 服务器预置了多种事件类型,每种事件类型对应的多种发生频次区间以及每种发生频次区间对应的第一调整系数。服务器还预置了多种最短社交距离对应第二调整系数。根据第一调整系数及第二调整系数对基础关联系数进行增大或缩小处理,得到目标关联系数。服务器将目标关联系数标记为相应对象节点基于对应关联节点的单边关联度。与相应对象节点相连的有向边上展示对应的单边关联度,例如,在上述举例的图3中,关联节点Q5183与相连的两个对象节点V5和V8的单边关联度为3.21,即对象节点V5与对象节点V8基于关联节点Q5183的单边关联度为3.21。关联节点M5482与相连的两个对象节点V5和V8的单边关联度为0.89。
[0064] 服务器对两个对象节点之间的多个关联节点的单边关联度进行叠加,可以得到两个对象节点的综合关联度。
[0065] 本实施例中,同时结合最短社交距离及发生关联事件的频次多个维度的影响因素,对基础关联系数进行调整,可以提高单边关联度计算准确性,进而提高兴趣属性值的准确性。
[0066] 在一个实施例中,根据初始属性信息确定兴趣属性的第二兴趣参考值,包括:获取待定对象的初始属性信息,基于初始属性信息构建待定对象的用户画像;监测待定对象浏览目标网站所产生的产品查阅记录;根据用户画像及产品查阅记录生成待定对象的兴趣特征矩阵;基于兴趣特征矩阵计算得到第二兴趣参考值。
[0067] 服务器获取待定对象的初始属性信息,并对初始属性信息进行解析,得到待定对象节点对应的多个节点标签,如年龄、性别、职业、婚姻状况、文化程度、职业、财产状况、健康状况等。服务器将获取的多个节点标签组成为一个文本向量,将组成的文本向量作为该待定对象的用户画像。
[0068] 服务器还捕获待定对象在多种目标网站的访问记录,即产品查阅记录。产品查阅记录可以是待定对象在目标网站对某产品资源的点击操作或查询操作。
[0069] 服务器根据用户画像和产品查阅记录确定待定对象的兴趣特征矩阵。具体的,通过将用户画像和产品查阅记录一起组合为一个长的文本向量,将该文本向量作为一个输入变量代入随机森林模型,进而预测待定对象对各类产品资源的兴趣概率。比如,假设目前资源池有100个产品资源(A1 A100),则需根据用户画像和用户的产品查阅记录预测待定对象~期望获取各个产品资源的概率。
[0070] 将已有下一步的产品资源获取行为的目标对象作为样本进行建模,预测当前的待定对象期望获取各个产品资源的可能性。服务器根据期望得到产品资源的概率得到待定对象的兴趣特征矩阵。服务器预测点选了A2产品资源之后可能的获取概率,依次类推,直到建立100个产品资源的随机森林模型,最终根据建立的随机森林模型得到待定对象期望得到各产品资源的兴趣特征矩阵。采用随机森林的算法预测待定对象的兴趣特征矩阵是通过以已有下一步获取行为的待定对象作为样本来预测的,也就是说,该方法是通过结合整体人群的概率、个人属性和当前状态来进行测算的,提高了第二兴趣参考值测算的准确率。
[0071] 服务器基于兴趣特征矩阵计算得到第二兴趣参考值。第二兴趣参考值可以是一个或多个产品资源标识及每个产品资源标识对应的兴趣概率。
[0072] 本实施例中,通过根据用户画像和产品查阅记录确定待定对象对应的兴趣特征矩阵,继而根据该兴趣特征矩阵确定待定对象的第二兴趣参考值,由于每个待定对象都对应一个独有的兴趣特征矩阵,得到的也是用户独有的第二兴趣参考值,根据第二兴趣参考值进行兴趣属性挖掘能够很好的根据每个待定对象的情况进行个性化测算,提高了兴趣属性挖掘结果的准确率。同时由于该挖掘方法是基于用户画像和待定对象的产品查阅记来进行挖掘的,对于新客户也适用,很好的解决了新客户的冷启动问题。
[0073] 在一个实施例中,方法还包括:基于兴趣属性值对待定对象的初始属性信息进行补充,得到目标属性信息;根据目标属性信息确定待定目标对象的客户等级;根据客户等级筛选相匹配的业务员,将目标属性信息推送至筛选得到的业务员对应的终端;接收终端基于目标属性信息返回产品推荐信息,对产品推荐信息进行校验,基于校验通过的产品推荐信息生成产品交易链接;将产品交易链接推送至待定对象对应的终端。
[0074] 服务器收集多个业务员的历史服务数据,对历史服务数据统计,计算每个业务员对应不同客户等级的业务技能值。历史服务数据是指业务员在历史时间内为客户提供在线业务咨询和业务办理的在线消息记录。在线消息记录可以是即时通讯记录,也可以是通话记录等。历史服务数据包括所跟进的在线消息数量、每则在线消息对应客户的客户等级以及相应的客户反馈等数据。
[0075] 服务器将收集的每个业务员的历史服务数据按照服务的不同客户等级进行分类统计,计算每个业务员对应不同客户等级的业务技能值。服务器根据业务员的历史服务数据中每一则消息记录对应的目标客户的客户等级对多条消息记录及每条消息记录对应的客户反馈进行分类统计,得到业务员的技能值。每个业务员计算得到的技能值与客户等级具有一一对应关系。
[0076] 服务器根据客户等级逐一查找具有对应业务技能值的业务员,直至查找到空闲的业务员,将待定对象的目标属性信息发送推送至筛选得到的业务员对应的终端(记作业务终端)。业务员可以在业务终端根据目标属性信息进行产品资源推荐,将产品推荐信息发送至服务器。
[0077] 服务器对产品推荐信息进行校验,若校验通过,生成对应的产品交易链接,并将产品交易链接推送至待定对象对应的终端(记作用户终端)。当待定对象基于产品交易链接对产品推荐信息进行确认时,用户终端展示交易支付页面,根据客户在交易支付页面的支付成功操作展示交易成功提示。例如,客户期望购买保险产品,用户终端基于预置的不同保险产品对应的校验规则对产品推荐信息进行核保,如客户是否具有购买权限等。若核保通过,子程序利用预设公式对产品推荐信息进行转化,生成保险计划书,将保险计划书推送至用户终端。当待定对象对保险确认书进行确认时,展示保费支付页面,当检测到保费支付页面对应的支付成功操作时,生成对应的保单,从而完成产品交易。
[0078] 本实施例中,基于补充后的目标属性信息,便于业务员更加准确的进行产品资源推荐;业务员亲自进行产品资源推荐,可以减少交易前查询操作的繁琐,降低了客户独自选购产品的门槛,从而提高产品交易效率。
[0079] 在一个实施例中,基于兴趣属性值对待定对象的初始属性信息进行补充,得到目标属性信息,包括:识别初始属性信息中风险属性是否缺失;若是,基于全连通子网络图确定风险属性的第一风险参考值;基于初始属性信息确定待定对象的第二风险参考值;对第一风险参考值与第二风险参考值进行预设逻辑运算,将计算结果作为待定对象的风险属性值;基于兴趣属性值及风险属性值对初始属性信息进行补全处理,得到目标属性信息。
[0080] 服务器在每个参考对象节点对应的身份属性信息中提取风险属性的属性值(记作风险属性值)。容易理解,有些参考对象节点对应的身份属性信息中的风险属性的属性值可能也是缺失的。但全连通子网络图包括至少一个确定对象节点,从而至少可以提取得到一个风险属性值。
[0081] 服务器对风险属性值进行预设逻辑运算,得到风险属性的第一风险参考值。预设逻辑运算可以是基于参考权重的叠加运算。参考权重可以是根据相应参考对象节点与待定对象节点的综合关联度确定的。在另一个实施例中,预设逻辑运算还可以是对多个风险属性值取中位数或者取平均等。
[0082] 服务器从业务系统获取目标对象的身份属性信息。每个目标对象的身份属性信息可以从不同的业务系统获取,只是有些目标对象的身份属性信息可能不完整,存在缺失属性。对于不同业务类型,风险评估需要侧重考虑的风险因素往往不同,服务器针对实现不同类型业务的业务系统,分别预置了对应的风险评估模型。服务器还针对每种业务系统预置了对应的风险系数权重。风险系数权重用于在对各业务系统对应的风险评估模型输出的风险评估结果进行综合处理时,为各业务系统不同的重要程度划分出不同的权重占比,以此得到加权后综合评估结果。换句话说,根据关系网络图谱的不同用途,可以基于风险系数权重表征各业务系统对风险评估的不同重要程度。
[0083] 服务器根据该业务风险系数及查询的风险系数权重,计算得到业务系统进行综合风险控制时,对应待定对象的第二风险参考值。第二风险参考值反映了待定对象在各个业务系统中的综合风险评估结果,通过按照综合风险控制需求调整风险系数权重,可以得到满足不同风险控制需求的第二风险参考值。
[0084] 服务器对第一风险参考值与第二风险参考值进行基于预设权重的叠加运算,得到待定对象对应的风险属性值。预设权重可以是固定值。服务器针对缺失属性,预先训练了对应的缺失属性补全模型。服务器根据模型准确率可以给出计算得到的第二风险参考值的置信度,从而预设权重也可以是根据第二风险参考值的置信度动态确定的。
[0085] 根据兴趣属性值可以向目标对象精准推送产品资源信息,并根据风险属性值可以对相应目标对象进行风险控制。例如,当风险属性值高于阈值时,不予提供相关业务服务,或者进一步基于高风险条件生成附加业务的责任条款等,以此进行风险规避,保障风险控制的效果。
[0086] 本实施例中,除了基于目标对象自身的身份属性信息,还结合考虑与目标对象节点具有较强关联度的参考对象节点的身份属性信息,综合多个维度的因素对目标对象的兴趣属性和风险属性进行预测, 不仅可以提高信息补全效率,也可以提高补全信息的准确性。
[0087] 应该理解的是,虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0088] 在一个实施例中,如图5所示,提供了一种基于大数据的兴趣属性挖掘装置,包括:第一兴趣挖掘模块502、第二兴趣挖掘模块504和兴趣属性值计算模块506,其中:
[0089] 第一兴趣挖掘模块502,用于获取待定对象的全连通子网络图;全连通子网络图包括待定对象节点及至少一个参考对象节点;计算每个参考对象节点与待定对象节点的综合关联度;获取参考对象节点对应的兴趣属性值,并根据综合关联度确定兴趣属性值的参考权重;根据多个兴趣属性值及每个所述兴趣属性值对应的参考权重,计算得到第一兴趣参考值。
[0090] 第二兴趣挖掘模块504,用于获取待定对象的初始属性信息,根据初始属性信息确定兴趣属性的第二兴趣参考值。
[0091] 兴趣属性值计算模块506,用于基于第一兴趣参考值与第二兴趣参考值,计算得到待定对象对应的兴趣属性值。
[0092] 在一个实施例中,第一兴趣挖掘模块502包括子网络图构建模块5022,用于获取关系网络图谱;关系网络图谱包括多个对象节点及每个对象节点连接的属性节点;识别每个对象节点对应兴趣属性的属性值是否缺失;根据识别结果将关系网络图谱中多个对象节点区分为确定对象节点和待定对象节点;在关系网络图谱中获取每个待定对象节点的全连通子网络图; 将全连通子网络图中与待定对象节点存在目标关联关系的对象节点标记为参考对象节点。
[0093] 在一个实施例中,第一兴趣挖掘模块502还包括关联度计算模块5024,用于获取待定对象节点对应的社交网络信息;根据社交网络信息识别每个参考对象节点与待定对象节点之间的关系类型,并统计在指定时段发生的关联事件的事件类型和发生频次;获取预设的关系类型对应的基础关联系数;基于全连通子网络图计算每个参考对象节点到待定对象节点的最短社交距离;根据最短社交距离及关联事件的事件类型和发生频次,对基础关联系数进行调整,得到待定对象节点基于不同关联节点的单边关联度;对每个参考对象节点与待定对象节点之间多个关联节点的单边关联度进行叠加,得到参考对象节点与待定对象节点的综合关联度。
[0094] 在一个实施例中,第二兴趣挖掘模块504还用于获取待定对象的初始属性信息,基于初始属性信息构建待定对象的用户画像;监测待定对象浏览目标网站所产生的产品查阅记录;根据用户画像及产品查阅记录生成待定对象的兴趣特征矩阵;基于兴趣特征矩阵计算得到第二兴趣参考值。
[0095] 在一个实施例中,该装置还包括产品资源推荐模块508,用于基于兴趣属性值对待定对象的初始属性信息进行补充,得到目标属性信息;根据目标属性信息确定待定目标对象的客户等级;根据客户等级筛选相匹配的业务员,将目标属性信息推送至筛选得到的业务员对应的终端;接收终端基于目标属性信息返回产品推荐信息,对产品推荐信息进行校验,基于校验通过的产品推荐信息生成产品交易链接;将产品交易链接推送至待定对象对应的终端。
[0096] 在一个实施例中,该装置还包括风险属性挖掘模块510,用于识别初始属性信息中风险属性是否缺失;若是,基于全连通子网络图确定风险属性的第一风险参考值;基于初始属性信息确定待定对象的第二风险参考值;对第一风险参考值与第二风险参考值进行预设逻辑运算,将计算结果作为待定对象的风险属性值;基于兴趣属性值及风险属性值对初始属性信息进行补全处理,得到目标属性信息。
[0097] 关于基于大数据的兴趣属性挖掘装置的具体限定可以参见上文中对于基于大数据的兴趣属性挖掘方法的限定,在此不再赘述。上述基于大数据的兴趣属性挖掘装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0098] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储关系网络图谱以及多个目标对象的身份属性信息和社交网络信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据的兴趣属性挖掘方法。
[0099] 本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0100] 一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于大数据的兴趣属性挖掘方法的步骤。
[0101] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0102] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0103] 以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。