信用评估的方法及装置转让专利

申请号 : CN201810738014.1

文献号 : CN109087163B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王峰伟何慧梅

申请人 : 创新先进技术有限公司

摘要 :

本说明书实施例提供一种信用评估的方法和装置,根据该方法的一个实施方式,首先基于人际关系网络确定与待评估用户具有关联关系的一级关联用户,接着根据待评估用户和一级关联用户的关联属性中的文本信息,获取待评估用户的至少一个一级关联词汇,并基于至少一个一级关联词汇生成一级关联特征,然后确定待评估用户的、与一级关联用户具有关联关系至少一个二级关联用户,并针对每一个一级关联用户,根据其对应的二级关联用户生成待评估用户的二级关联特征,然后基于一级关联特征及二级关联特征,通过预先训练的信用评估模型评估待评估用户的信用度。该实施方式可以提高信用评估的准确性。

权利要求 :

1.一种信用评估的方法,所述方法包括:基于人际关系网络确定与待评估用户具有关联关系的第一一级关联用户,其中,所述人际关系网络在进行关联操作的用户之间建立关联关系,并通过所述关联操作对应的文本信息记录存在关联关系的用户之间的关联属性;

根据所述待评估用户和所述第一一级关联用户的关联属性中的所述文本信息,获取所述待评估用户的至少一个一级关联词汇,并基于所述至少一个一级关联词汇生成所述待评估用户的第一一级关联特征,所述文本信息基于所述关联操作,从相应的留言、备注、标签信息中获取;

基于所述人际关系网络,确定所述待评估用户的至少一个二级关联用户,其中,所述至少一个二级关联用户与所述第一一级关联用户具有关联关系;

根据所述第一一级关联用户和各个二级关联用户的关联属性中的所述文本信息,获取所述待评估用户的至少一个二级关联词汇,并基于所述至少一个二级关联词汇生成所述待评估用户的第一二级关联特征;

至少基于所述第一一级关联特征及所述第一二级关联特征,通过预先训练的信用评估模型评估所述待评估用户的信用度。

2.根据权利要求1所述的方法,其中,所述文本信息包括,所述关联操作对应的短语、语句信息;以及

所述根据所述待评估用户和所述第一一级关联用户的关联属性中的所述文本信息,获取所述待评估用户的至少一个一级关联词汇包括:对所述短语、语句信息进行切词得到初始词汇;

将各个初始词汇分别与预先生成的关键词集合中的关键词进行匹配;

将在所述关键词集合中匹配到的所述初始词汇作为所述一级关联词汇。

3.根据权利要求2所述的方法,其中,所述关键词集合中的关键词通过以下方法提取:获取人为标定的用户正样本和用户负样本;

基于人际关系网络确定所述用户正样本和所述用户负样本与其他用户的关联属性中的样本文本信息;

根据所述样本文本信息确定关键词集合中的关键词。

4.根据权利要求3所述的方法,其中,所述关键词集合中的各个关键词还对应有统计指标,所述统计指标包括以下至少一项:在用户正样本的文本信息中出现的次数、在用户负样本的文本信息中出现的次数、偏向用户正样本的概率、偏向用户负样本的概率。

5.根据权利要求4所述的方法,其中,各个一级关联词汇对应有在所述关键词集合中匹配到的关键词的统计指标;以及

所述基于所述至少一个一级关联词汇生成所述待评估用户的第一一级关联特征包括:获取各个一级关联词汇对应的统计指标;

对各个一级关联词汇对应的统计指标进行第一预定处理,生成所述第一一级关联特征,其中,所述第一预定处理包括以下至少一项:求最大值、求最小值、求和、求平均值、求加权和。

6.根据权利要求1所述的方法,其中,所述文本信息包括,从所述关联操作对应的短语、语句信息中预先提取的关联词汇;以及所述根据所述待评估用户和所述第一一级关联用户的关联属性中的所述文本信息,获取所述待评估用户的至少一个一级关联词汇包括:将所述文本信息作为至少一个一级关联词汇。

7.根据权利要求1所述的方法,其中,所述基于所述至少一个二级关联词汇生成所述待评估用户的第一二级关联特征包括:根据所述二级关联词汇,生成所述第一一级关联用户和各个二级关联用户分别对应的第二一级关联特征;

对各个第二一级关联特征进行第二预定处理,将处理结果作为所述待评估用户的第一二级关联特征,其中,所述第二预定处理包括以下至少一项:求最大值、求最小值、求和、求平均值、求加权和。

8.根据权利要求1所述的方法,其中,所述关联操作包括:转账、发红包、加好友。

9.一种信用评估的装置,所述装置包括:第一确定单元,配置为基于人际关系网络确定与待评估用户具有关联关系的第一一级关联用户,其中,所述人际关系网络在进行关联操作的用户之间建立关联关系,并通过所述关联操作对应的文本信息记录存在关联关系的用户之间的关联属性;

第一生成单元,配置为根据所述待评估用户和所述第一一级关联用户的关联属性中的所述文本信息,获取所述待评估用户的至少一个一级关联词汇,并基于所述至少一个一级关联词汇生成所述待评估用户的第一一级关联特征,所述文本信息基于所述关联操作,从相应的留言、备注、标签信息中获取;

第二确定单元,配置为基于所述人际关系网络,确定所述待评估用户的至少一个二级关联用户,其中,所述至少一个二级关联用户与所述第一一级关联用户具有关联关系;

第二生成单元,配置为根据所述第一一级关联用户和各个二级关联用户的关联属性中的所述文本信息,获取所述待评估用户的至少一个二级关联词汇,并基于所述至少一个二级关联词汇生成所述待评估用户的第一二级关联特征;

信用评估单元,配置为至少基于所述第一一级关联特征及所述第一二级关联特征,通过预先训练的信用评估模型评估所述待评估用户的信用度。

10.根据权利要求9所述的装置,其中,所述文本信息包括,所述关联操作对应的短语、语句信息;以及

所述第一生成单元进一步配置为:对所述短语、语句信息进行切词得到初始词汇;

将各个初始词汇分别与预先生成的关键词集合中的关键词进行匹配;

将在所述关键词集合中匹配到的所述初始词汇作为所述一级关联词汇。

11.根据权利要求10所述的装置,其中,关键词确定单元,配置为通过以下方法提取所述关键词集合中的关键词:

获取人为标定的用户正样本和用户负样本;

基于人际关系网络确定所述用户正样本和所述用户负样本与其他用户的关联属性中的样本文本信息;

根据所述样本文本信息确定关键词集合中的关键词。

12.根据权利要求11所述的装置,其中,所述关键词集合中的各个关键词还对应有统计指标,所述统计指标包括以下至少一项:在用户正样本的文本信息中出现的次数、在用户负样本的文本信息中出现的次数、偏向用户正样本的概率、偏向用户负样本的概率。

13.根据权利要求12所述的装置,其中,各个一级关联词汇对应有在所述关键词集合中匹配到的关键词的统计指标;以及所述第一生成单元还配置为:

获取各个一级关联词汇对应的统计指标;

对各个一级关联词汇对应的统计指标进行第一预定处理,生成所述第一一级关联特征,其中,所述第一预定处理包括以下至少一项:求最大值、求最小值、求和、求平均值、求加权和。

14.根据权利要求9所述的装置,其中,所述文本信息包括,从所述关联操作对应的短语、语句信息中预先提取的关联词汇;以及所述第一生成单元进一步配置为:将所述文本信息作为至少一个一级关联词汇。

15.根据权利要求9所述的装置,其中,所述第二生成单元包括:第一生成模块,配置为根据所述二级关联词汇,生成所述第一一级关联用户和各个二级关联用户分别对应的第二一级关联特征;

第二生成模块,配置为对各个第二一级关联特征进行第二预定处理,将处理结果作为所述待评估用户的第一二级关联特征,其中,所述第二预定处理包括以下至少一项:求最大值、求最小值、求和、求平均值、求加权和。

16.根据权利要求9所述的装置,其中,所述关联操作包括:转账、发红包、加好友。

17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1‑8中任一项的所述的方法。

18.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1‑8中任一项所述的方法。

说明书 :

信用评估的方法及装置

技术领域

[0001] 本说明书一个或多个实施例涉及计算机技术领域,尤其涉及通过计算机进行信用评估的方法和装置。

背景技术

[0002] 随着计算机和互联网技术的发展,越来越多的业务通过计算平台来实现,例如商品交易、钱款支付、金融借贷、保险理赔等等。然而,在许多业务的执行和处理中,如果不对
业务请求人的信用状况进行评估,就很可能带来较大风险,例如一些不法分子可能利用电
子平台,实施金融诈骗、借贷套现等等。
[0003] 常规技术中,为了防止和降低上述风险,往往通过用户的身份信息、资产信息、购物行为等信息对用户的信用进行评估。然而,这些信息通常数量较少,购物平台也多种多
样,对大部分用户未必能全面获取这些信息,难以覆盖多数用户。因此,希望能有改进的方
案,利用更多的网络数据,提高对用户信用评估的准确性。

发明内容

[0004] 本说明书一个或多个实施例描述了一种方法和装置,可以基于用户之间的关联数据,以及与待评估用户具有关联关系的其他用户对待评估用户信用的影响,提高信用评估
的准确性。
[0005] 根据第一方面,提供了一种信用评估的方法,包括:基于人际关系网络确定与待评估用户具有关联关系的第一一级关联用户,其中,所述人际关系网络在进行关联操作的用
户之间建立关联关系,并通过所述关联操作对应的文本信息记录存在关联关系的用户之间
的关联属性;根据所述待评估用户和所述第一一级关联用户的关联属性中的所述文本信
息,获取所述待评估用户的至少一个一级关联词汇,并基于所述至少一个一级关联词汇生
成所述待评估用户的第一一级关联特征;基于所述人际关系网络,确定所述待评估用户的
至少一个二级关联用户,其中,所述至少一个二级关联用户与所述第一一级关联用户具有
关联关系;根据所述第一一级关联用户和各个二级关联用户的关联属性中的所述文本信
息,获取所述待评估用户的至少一个二级关联词汇,并基于所述至少一个二级关联词汇生
成所述待评估用户的第一二级关联特征;至少基于所述第一一级关联特征及所述第一二级
关联特征,通过预先训练的信用评估模型评估所述待评估用户的信用度。
[0006] 根据一方面的实施例,所述文本信息包括,所述关联操作对应的短语、语句信息;以及,所述根据所述待评估用户和所述第一一级关联用户的关联属性中的所述文本信息,
获取所述待评估用户的至少一个一级关联词汇包括:对所述短语、语句信息进行切词得到
初始词汇;将各个初始词汇分别与预先生成的关键词集合中的关键词进行匹配;将在所述
关键词集合中匹配到的所述初始词汇作为所述一级关联词汇。
[0007] 根据另一方面的实施例,所述文本信息包括,从所述关联操作对应的短语、语句信息中预先提取的关联词汇;以及,所述根据所述待评估用户和所述第一一级关联用户的关
联属性中的所述文本信息,获取所述待评估用户的至少一个一级关联词汇包括:将所述文
本信息作为至少一个一级关联词汇。
[0008] 在一个实施例中,所述关键词集合中的关键词通过以下方法提取:获取人为标定的用户正样本和用户负样本;基于人际关系网络确定所述用户正样本和所述用户负样本与
其他用户的关联属性中的样本文本信息;根据所述样本文本信息确定关键词集合中的关键
词。
[0009] 在一个实施例中,所述关键词集合中的各个关键词还对应有统计指标,所述统计指标包括以下至少一项:在用户正样本的文本信息中出现的次数、在用户负样本的文本信
息中出现的次数、偏向用户正样本的概率、偏向用户负样本的概率。
[0010] 根据一种可能的设计,各个一级关联词汇对应有在所述关键词集合中匹配到的关键词的统计指标;以及,所述基于所述至少一个一级关联词汇生成所述待评估用户的第一
一级关联特征包括:获取各个一级关联词汇对应的统计指标;对各个一级关联词汇对应的
统计指标进行第一预定处理,生成所述第一一级关联特征,其中,所述第一预定处理包括以
下至少一项:求最大值、求最小值、求和、求平均值、求加权和。
[0011] 在一个实施例中,所述基于所述二级关联词汇生成所述待评估用户的第一二级关联特征包括:根据所述二级关联词汇,生成所述第一一级关联用户和各个二级关联用户分
别对应的第二一级关联特征;对各个第二一级关联特征进行第二预定处理,将处理结果作
为所述待评估用户的第一二级关联特征,其中,所述第二预定处理包括以下至少一项:求最
大值、求最小值、求和、求平均值、求加权和。
[0012] 在一个实施例中,所述预定操作包括:转账、发红包、加好友。
[0013] 根据第二方面,提供一种信用评估的装置,包括:第一确定单元,配置为基于人际关系网络确定与待评估用户具有关联关系的第一一级关联用户,其中,所述人际关系网络
在进行关联操作的用户之间建立关联关系,并通过所述关联操作对应的文本信息记录存在
关联关系的用户之间的关联属性;第一生成单元,配置为根据所述待评估用户和所述第一
一级关联用户的关联属性中的所述文本信息,获取所述待评估用户的至少一个一级关联词
汇,并基于所述至少一个一级关联词汇生成所述待评估用户的第一一级关联特征;第二确
定单元,配置为基于所述人际关系网络,确定所述待评估用户的至少一个二级关联用户,其
中,所述至少一个二级关联用户与所述第一一级关联用户具有关联关系;第二生成单元,配
置为根据所述第一一级关联用户和各个二级关联用户的关联属性中的所述文本信息,获取
所述待评估用户的至少一个二级关联词汇,并基于所述至少一个二级关联词汇生成所述待
评估用户的第一二级关联特征;信用评估单元,配置为至少基于所述第一一级关联特征及
所述第一二级关联特征,通过预先训练的信用评估模型评估所述待评估用户的信用度。
[0014] 根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
[0015] 根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
[0016] 通过本说明书实施例提供的方法和装置,首先基于人际关系网络确定与待评估用户具有关联关系的一级关联用户,接着根据待评估用户和一级关联用户的关联属性中的文
本信息,获取待评估用户的至少一个一级关联词汇,并基于至少一个一级关联词汇生成一
级关联特征,然后确定待评估用户的、与一级关联用户具有关联关系的至少一个二级关联
用户,并针对每一个一级关联用户,根据其对应的二级关联用户生成待评估用户的二级关
联特征,然后基于一级关联特征及二级关联特征,通过预先训练的信用评估模型评估待评
估用户的信用度。如此,可以充分利用用户之间的关联数据,由于考虑了与待评估用户具有
关联关系的其他用户对待评估用户信用的影响,从而可以提高信用评估的准确性。

附图说明

[0017] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本
领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的
附图。
[0018] 图1示出本说明书披露的一个实施例的实施场景示意图;
[0019] 图2示出人际关系网络的一个具体例子;
[0020] 图3示出根据一个实施例的信用评估的方法流程图;
[0021] 图4示出信用评估模型的一个具体例子;
[0022] 图5示出根据一个实施例的信用评估的装置的示意性框图。

具体实施方式

[0023] 下面结合附图,对本说明书提供的方案进行描述。
[0024] 图1为本说明书披露的一个实施例的实施场景示意图。在该实施场景中,多个用户可以通过网络与计算平台进行交互。用户之间可以通过计算平台进行添加好友、转账、发红
包等等操作。计算平台可以通过用户之间的这些操作,建立人际关系网络,来表示用户之间
的关联关系。人际关系网络可以按照时间段进行更新,例如1天更新一次,也可以每检测到
一次用户之间的操作进行一次更新,本实施场景中对此不作限定。
[0025] 如图2所述,是一个人际关系网络的具体例子。在该人际关系网络中,圆圈(节点)表示用户,连线(边)表示关联关系,被连线(边)连接到一起的用户具有直接关联关系。这里
的关联关系,可以是添加好友、转账、发红包等等预定操作实现的连接关系。连线(边)的属
性中通过上述预定操作对应的文本信息记录存在关联关系的用户之间的关联属性。为了便
于说明,用户之间的连线也可以描述成边,用户之间的关联属性也可以描述成边属性。
[0026] 当需要对某个待评估用户进行信用评估时,可以先基于人际关系网络确定与待评估用户具有关联关系的一级关联用户,待评估用户对应于每个一级关联用户的边属性中的
文本信息获取一组一级关联词汇,根据每组一级关联词汇可以生成一个一级关联特征。
[0027] 然后,对每个一级关联用户,可以基于人际关系网络确定与其具有关联关系的用户作为待评估用户的二级关联用户。针对每个一级关联用户,对应于一个二级关联用户的
边属性中的文本信息,可以获取一组二级关联词汇。根据一个一级关联用户的各组二级关
联词汇,可以汇总生成待评估用户的一个二级关联特征。在一个实施例中,根据每组二级关
联词汇可以生成相应一级关联用户的一个一级关联特征,根据一个一级关联用户的所有一
级关联特征可以生成待评估用户的一个二级关联特征。
[0028] 然后,基于待评估用户的各个一级关联特征和二级关联特征,通过预先训练的信用评估模型评估待评估用户的信用度。如此,可以充分利用待评估用户与其他用户的关联
数据,提取更多的特征,提高对用户信用评估的准确性。下面描述上述场景的具体执行过
程。
[0029] 图3示出根据一个实施例的信用评估的方法流程图。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器,例如图1所示的计算平台等。如图
3示,该方法包括以下步骤:步骤31,基于人际关系网络确定与待评估用户具有关联关系的
第一一级关联用户,其中,人际关系网络在进行关联操作的用户之间建立关联关系,并通过
关联操作对应的文本信息记录存在关联关系的用户之间的关联属性;步骤32,根据待评估
用户和第一一级关联用户的关联属性中的文本信息,获取待评估用户的至少一个一级关联
词汇,并基于至少一个一级关联词汇生成待评估用户的第一一级关联特征;步骤33,基于人
际关系网络,确定待评估用户的至少一个二级关联用户,其中,上述至少一个二级关联用户
与第一一级关联用户具有关联关系;步骤34,根据第一一级关联用户和各个二级关联用户
的关联属性中的文本信息,获取待评估用户的至少一个二级关联词汇,并基于至少一个二
级关联词汇生成待评估用户的第一二级关联特征;步骤35,至少基于第一一级关联特征及
第一二级关联特征,通过预先训练的信用评估模型评估待评估用户的信用度。
[0030] 首先,在步骤31,基于人际关系网络确定与待评估用户具有关联关系的第一一级关联用户。值得说明的是,人际关系网络是基于用户之间的关联操作建立的网络结构,用于
记录用户与用户之间的关联关系。用户之间还可以具有关联属性,该关联属性通过上述关
联操作中的文本信息记录。一级关联用户是具有直接关联关系的用户。实践中,用户之间的
关联操作例如可以包括但不限于以下至少一项:加好友、转账、发红包,等等。
[0031] 结合图2所示的人际关系网络,用户21和用户22之间具有关联操作,例如用户21向用户22进行了转账操作,则用户21和用户22之间通过连线24连接,表示他们具有关联关系。
连线24可以对应记录有用户21和用户22之间的关联属性,该关联属性通过关联操作中的文
本信息记录,例如用户21向用户22转账时的转账留言“中午的餐费”。同样,具有关联操作的
用户22和用户23之间可以通过连线25连接,连线25可以通过用户22和用户23之间进行关联
操作对应的文本信息记录用户22和用户23之间的关联属性。
[0032] 可以理解,在图2所示的人际关系网络中:根据一方面的实施例,连线(如连线24)可以是无方向的,具体而言,只要用户21和用户22中的一个向另一个进行了关联操作,则认
为他们相互具有关联关系;根据另一方面的实施例,连线(如连线24)也可以是有方向的,具
体而言,用户21向用户22进行了关联操作(如转账等),则用户22是与用户21具有关联关系
的用户,而用户21未必是与用户22具有关联关系用户。为了便于说明,本说明书实施例中以
连线无方向进行说明。
[0033] 在图2所示的人际关系网络中,用户21、用户23等都与用户22具有直接关联关系,可以是用户22的一级关联用户。用户22是用户21的一级关联用户,但用户23和用户21没有
直接关联关系,因此,用户23和用户21相互不是对方的一级关联用户。
[0034] 根据一方面的设计,上述文本信息可以是短语、语句信息。举例而言,当关联操作是加好友时,上述文本信息可以是发送添加好友请求时的验证留言,比如“欠你钱的人”,或
者是为好友设置的备注或标签,例如“赌鬼”、“吹牛大王”、“实诚”等等。当关联操作是转账
或发红包时,上述文本信息可以是留言语句“信用卡还款”、“下个月房租”等等。在一些实施
例中,上述文本信息还可以是从留言、备注、标签等信息中提取的关键词,例如:“信用卡”、
“还款”、“下个月”、“房租”、“赌鬼”、“吹牛”、“大王”、“实诚”等等。
[0035] 根据另一方面的设计,上述文本信息还可以是从短语、语句信息中提取的关联词汇。当上述的文本信息是关联词汇时,可以将预定操作中的留言、备注、标签等信息先通过
诸如N‑gram、Bigram之类的分词方法进行切词处理,得到初始词汇。以Bigram为例,对于留
言“中午的餐费”,分词的结果是“中午”、“午的”、“的餐”、“餐费”。接着,可以将分词得到的
初始词汇分别与预先生成的关键词集合中的关键词进行匹配,将在关键词集合中匹配到的
初始词汇作为,用于记录用户之间的关联属性的关联操作中的文本信息。
[0036] 其中,上述关键词集合中的关键词可以通过以下方式提取:首先,选择用户正样本和用户负样本,用户正样本和用户负样本都可以是人为标定的用户样本。例如,对于某个资
金管理平台(如支付宝)的用户,查看其信用卡还款记录、或者在该平台的借贷记录,如果信
用良好,如每次都按时还款,则标定为用户正样本,反之,如果信用不好,如出现还款逾期、
借贷不还等情况,则标定为用户负样本。
[0037] 接着,对于用户正样本和用户负样本,分别通过上述人际关系网络,获取与其他用户的关联属性中的样本文本信息,并进行切词处理,得到的切词词汇作为关键词加入关键
词集合。可选地,还可以对所得到的切词词汇进行过滤,如去除停用词、虚词等,将剩下的词
汇加入关键词集合。
[0038] 在一个实施例中,上述关键词集合中的关键词还可以分别对应有统计指标,作为他们在用户正、负样本中的统计参数。统计指标可以包括但不限于以下至少一项:在用户正
样本的文本信息中出现的次数、在用户负样本的文本信息中出现的次数、偏向用户正样本
的概率、偏向用户负样本的概率,等等。当用户正、负样本数量一致时,词汇在用户正样本的
文本信息中出现的次数和/或在用户负样本的文本信息中出现的次数、偏向用户正(负)样
本的概率都可以作为它们的统计指标。此时,以偏向用户正样本的概率为例,词汇偏向用户
正样本的概率=在用户正样本的文本信息中出现的次数/(在用户正样本的文本信息中出
现的次数+在用户负样本的文本信息中出现的次数)。当用户正、负样本数量不一致时,可以
通过词汇偏向用户正(负)样本的概率作为统计指标。仍以偏向用户正样本的概率为例,假
设用户正、负样本数量比为M:N,则词汇偏向用户正样本的概率=N×词汇在用户正样本的
文本信息中出现的次数/(N×在用户正样本的文本信息中出现的次数+M×在用户负样本的
文本信息中出现的次数)。
[0039] 容易理解,词汇在用户正样本的文本信息中出现的次数越多、偏向用户正样本的概率越大,其更容易偏向用户正样本,在用户负样本的文本信息中出现的次数越多、偏向用
户正样本的概率越小,其更容易偏向用户负样本。对于等量的用户正、负样本,在用户正样
本和用户负样本的文本信息中出现的次数相差较小(小于预设次数),或者对于任意分配数
量的用户正、负样本,偏向用户正(负)样本的概率在中等位置(如0.5附近)的词汇,词汇偏
向用户正样本和偏向用户负样本的趋势都较弱,可以认为是中性词。对于中性词汇,从统计
学来讲,当用户样本数量足够大时,偏向用户正(负)样本的概率稳定在0.5附近的一个范围
内,然而,如果以0.5作为偏向用户正、负样本的分界概率,在一次划分中可能偏向用户正样
本,在另一次划分中也可能偏向用户负样本,影响数据处理的稳定性。因此,在一个实施例
中,还可以过滤掉这样的中性词,例如偏向用户正(负)样本的概率在预设范围(如0.4‑0.6
中)的词汇,从而使关键词集合中的词汇更稳定,提高数据处理的稳定性。
[0040] 在一个可能的设计中,对于关键词集合中的关键词,还可以根据其在用户正样本的文本信息中出现的次数、在用户负样本的文本信息中出现的次数或者偏向用户正(负)样
本的概率,区分正向词汇和负向词汇。其中,正向词汇是在用户正样本的文本信息中出现的
次数偏多,或者偏向用户正样本的概率较大的词汇,负向词汇是在用户负样本的文本信息
中出现的次数偏多,或者偏向用户正样本的概率较小的词汇。
[0041] 通过人际关系网络充分利用用户之间进行关联操作的关联关系,不仅可以明确用户之间的关联关系,还可以根据关联操作对应的文本信息记录用户之间的关联属性。如图2
所示,待评估用户可能和多个用户具有一级关联关系,为了便于说明,在本说明书实施例中
通过待评估用户的某一个一级关联用户进行描述。换句话说,本说明书实施例中描述的“第
一一级关联用户”中的“第一”,并不表示序列或数量,而是泛指其中一个、某一个。
[0042] 步骤32,根据待评估用户和第一一级关联用户的关联属性中的文本信息,获取待评估用户的至少一个一级关联词汇,并基于至少一个一级关联词汇生成待评估用户的第一
一级关联特征。可以理解,在上述文本信息是从短语、语句信息中提取的关联词汇的情况
下,可以直接获取这些关联词汇作为待评估用户的至少一个一级关联词汇。在上述文本信
息是短语、语句信息的情况下,可以按照前述的提取关联词汇的方法,提取出短语、语句信
息中的关联词汇,作为待评估用户的至少一个一级关联词汇,即:对短语、语句信息进行切
词得到初始词汇;将各个初始词汇分别与预先生成的关键词集合中的关键词进行匹配;将
在关键词集合中匹配到的初始词汇作为一级关联词汇。在此不再赘述。
[0043] 根据待评估用户的至少一个一级关联词汇,可以进一步生成待评估用户的一级关联特征。其中,一级关联特征可以是用于体现待评估用户和其一级关联用户之间的单个人
际关系的特征。
[0044] 在一个实施例中,关键词集合中的词汇对应有统计指标,由于各个一级关联词汇是在关键词集合中匹配到的词汇,所以各个一级关联词汇也对应所匹配到的关键词的统计
指标。此时,可以根据待评估用户与一级关联用户的各个一级关联词汇对应的统计指标进
行第一预定处理生成一级关联特征。该第一预定处理例如可以是对各个关键词的统计指标
的求和、最大值、最小值、平均值、求加权和等等。以求加权和为例,假设待评估用户与一个
一级关联用户之间进行了2次转账,2次转账的留言分别是“今天的餐费”、“上月所欠餐费”,
所获取的一级关联词汇例如是:“餐费”,对应偏向正样本的概率p1=0.7,出现次数c1=2;
“今天”,对应偏向正样本的概率p2=0.7,出现次数c2=1;“上月”,对应偏向正样本的概率p3
=0.3,出现次数c3=1。则计算待评估用户对应于该一级关联用户的一级关联特征为:(p1×
c1+p2×c2+p3×c3)/(c1+c2+c3)=(0.7×2+0.7+0.3)/(2+1+1)。
[0045] 在另一个实施例中,关键词集合中的关键词可以对应有正向词汇和负向词汇标签,所以各个一级关联词汇也对应有正向词汇和负向词汇标签。此时,还可以统计上述至少
一个一级关联词中的正向词汇个数,根据正(负)向词汇的比重来确定一级关联特征。还参
照以上例子进行说明。假设,“餐费”为正向词汇1,出现次数c1=2;“今天”为正向词汇2,出
现次数c2=1;“上月”,为负向词汇1,出现次数c3=1。正向词汇的比重可以是:正向词汇个
数/(正向词汇个数+负向词汇个数)=2/(2+1)。还可以将一级关联词的出现次数作为权重
进行计算,正向词汇的比重可以是:(正向词汇1出现次数c1+正向词汇2出现次数c2)/(正向
词汇1出现次数c1+正向词汇2出现次数c2+负向词汇1出现次数c3)=(2+1)/(2+1+1)。
[0046] 如此,可以生成待评估用户对应于各个一级关联用户的一级关联特征。可选地,还可以将这些一级关联特征加入待评估用户的一级关联特征集合。
[0047] 步骤33,基于人际关系网络,确定待评估用户的至少一个二级关联用户,其中,上述至少一个二级关联用户与第一一级关联用户具有关联关系。可以理解,与待评估用户的
一级关联用户具有关联关系的用户,可以称之为待评估用户的二级关联用户。以图2为例,
用户22是用户21的一级关联用户,用户23、用户26等与用户22具有直接关联关系的用户是
用户21的二级关联用户。可选地,与用户22关联的用户还包括用户21,在确定用户21的二级
关联用户时,还可以将自身排除。
[0048] 如此,针对待评估用户对应的每一个一级关联用户,可以获取待评估用户的至少一个二级关联用户。
[0049] 步骤34,根据第一一级关联用户和各个二级关联用户的关联属性中的文本信息,获取待评估用户的至少一个二级关联词汇,并基于至少一个二级关联词汇生成待评估用户
的第一二级关联特征。其中,这里的“第一二级关联特征”中的“第一”是用于表达与“第一一
级关联用户”的对应关系,而非对序号或数量的限定。
[0050] 可以理解,对某个一级关联用户和与其相关联的任一个二级关联用户,在上述文本信息是从短语、语句信息中提取的关键词的情况下,可以直接获取这些关键词作为待评
估用户的至少一个二级关联词汇。在上述文本信息是短语、语句信息的情况下,可以按照前
述的提取关键词的方法,提取出短语、语句信息中的关键词,作为待评估用户的至少一个二
级关联词汇,在此不再赘述。
[0051] 根据待评估用户的至少一个二级关联词汇,可以进一步生成待评估用户的二级关联特征。其中,二级关联特征可以用于体现待评估用户对应的某个一级关联用户的整体人
际关系的特征。
[0052] 可以理解,待评估用户是人际关系网络中的任意用户,因此,与待评估用户的一级关联特征类似地,对于待评估用户的任一个一级关联用户,也可以生成其一级关联特征(方
法同前文所述),用以表示该一级关联用户与某个上述二级关联用户的单个人际关系的特
征。而待评估用户对应于该一级关联用户的二级关联特征可以是,该一级关联用户的一级
关联特征的综合体现。
[0053] 如此,根据一个实现方式,针对待评估用户(如图2中的用户21)对应的任一个一级关联用户(如图2中的用户22等),可以首先生成该一级关联用户(如图2中的用户22)的各个
一级关联特征(如用户22和用户23的一级关联特征、用户22和用户26的一级关联特征、用户
22和用户27的一级关联特征),然后对该一级关联用户(如图2中的用户22)的这些一级关联
特征进行第二预定处理,以生成待评估用户(如图2中的用户21)的一个二级关联特征。其
中,该第二预定处理可以包括但不限于:求和、最大值、最小值、平均值、求加权和等等。以求
加权和为例,可以对应每个二级关联用户设置一个权重,该权重可以和该一级关联用户与
相应二级关联用户之间的关联操作次数正相关,也可以是和与该一级关联用户相关联的二
级关联用户的数量(如N,N为正整数)负相关(如1/N),等等,只要能合理体现二级关联用户
的重要度,本说明书实施例对此不作限定。
[0054] 根据另一个实施方式,还可以针对待评估用户(如图2中的用户21)对应的任一个一级关联用户(如图2中的用户22等),获取该一级关联用户(如图2中的用户22)与各个二级
关联用户(如用户23、用户26和用户27)的关联属性中的文本信息对应的一级关联词汇,并
对这些一级关联词汇进行汇总,并对它们的统计指标进行包括但不限于以下的至少一种预
定处理,以生成待评估用户(如图2中的用户21)的一个二级关联特征:求和、最大值、最小
值、平均值、求加权和等等。其中,以求加权和为例,每个一级关联词汇对应的权重可以与该
一级关联词汇出现次数正相关。
[0055] 如此,可以对应于待评估用户的各个一级关联用户,分别生成一个二级关联特征。可选地,还可以将这些二级关联特征加入待评估用户的二级关联特征集合。
[0056] 步骤35,至少基于第一一级关联特征及第一二级关联特征,通过预先训练的信用评估模型评估待评估用户的信用度。可以理解,“第一一级关联特征”和“第一二级关联特
征”都是针对待评估用户对应的某一个一级关联用户生成的特征,事实上,针对待评估用户
对应的每一个一级关联用户,都可以对应生成一个一级关联特征及一个二级关联特征。
[0057] 可以将上述一级关联特征及二级关联特征输入预先训练的信用评估模型,以获取信用评估模型的输出结果,根据该输出结果确定待评估用户的信用度。如图4所示,至少将
一级关联特征41及二级关联特征42输入信用评估模型,获取输出结果。如果还有其他特征,
如用户身份特征、履约概率特征等,可以将上述一级关联特征及二级关联特征与其他特征
一起输入预先训练的信用评估模型,以确定待评估用户的信用度。
[0058] 可以理解,在待评估用户只对应一个一级关联用户,且没有其他特征的情况下,可以基于上述第一一级关联特征及第一二级关联特征,通过预先训练的信用评估模型评估待
评估用户的信用度。
[0059] 其中,信用评估模型可以是预先训练的诸如评分卡模型、随机森林模型、梯度提升决策树(Gradient Boosting Decision Tree,GBTD)模型之类的分类或打分模型,在此不再
赘述。信用评估模型的输出结果可以是分类结果,例如信用良好用户、信用不好用户等;也
可以是打分结果,例如1‑1000内的任意分数等;等等,本说明书实施例对此不作限定。该输
出结果可以直接作为用户的信用度评估结果,也可以进一步处理(如归一化处理等)之后作
为用户的信用度评估结果。
[0060] 实际应用中,在上述信用度结果用到信贷领域的情况下,可以根据待评估用户的信用度设定借贷条件,例如,信用分值低于600的,无法进行借贷活动,等等。
[0061] 回顾以上过程,在对用户进行信用评估过程中,基于用户之间的关联数据,充分利用用户之间的关联关系以及发生关联关系时的文本信息。具体地,基于待评估用户与直接
关联的一级关联用户发生关联关系时对应的文本信息生成一级关联特征,根据一级关联用
户与直接关联的二级关联用户发生关联关系时对应的文本信息生成待评估用户的二级关
联特征。将该一级关联特征和二级关联特征作为信用评估模型的特征的一部分,由于考虑
了与待评估用户具有关联关系的其他用户对待评估用户信用的影响,从而可以提高信用评
估的准确性。
[0062] 根据另一方面的实施例,还提供一种信用评估的装置。图5示出根据一个实施例的用于信用评估的装置的示意性框图。如图5所示,用于信用评估的装置500包括:第一确定单
元51,配置为基于人际关系网络确定与待评估用户具有关联关系的第一一级关联用户,其
中,人际关系网络在进行关联操作的用户之间建立关联关系,并通过关联操作对应的文本
信息记录存在关联关系的用户之间的关联属性;第一生成单元52,配置为根据待评估用户
和第一一级关联用户的关联属性中的文本信息,获取待评估用户的至少一个一级关联词
汇,并基于至少一个一级关联词汇生成待评估用户的第一一级关联特征;第二确定单元53,
配置为基于人际关系网络,确定待评估用户的至少一个二级关联用户,其中,二级关联用户
与第一一级关联用户具有关联关系;第二生成单元54,配置为根据第一一级关联用户和各
个二级关联用户的关联属性中的文本信息,获取待评估用户的至少一个二级关联词汇,并
基于该至少一个二级关联词汇生成待评估用户的第一二级关联特征;信用评估单元55,配
置为至少基于第一一级关联特征及第一二级关联特征,通过预先训练的信用评估模型评估
待评估用户的信用度。
[0063] 在本实施例中,第一确定单元51可以基于人际关系网络确定与待评估用户具有关联关系的一级关联用户。其中,人际关系网络是基于用户之间的关联操作建立的网络结构,
用于记录用户与用户之间的关联关系。用户之间还可以具有关联属性,该关联属性通过上
述关联操作对应的文本信息记录。实践中,用户之间的关联操作例如可以包括但不限于以
下至少一项:加好友、转账、发红包,等等。
[0064] 根据一个实施方式,上述关联属性中记录的文本信息是用户之间进行关联操作时的短语、语句信息。第一生成单元52可以从短语、语句信息中提取出关联词汇作为至少一个
一级关联词汇。具体地,第一生成单元52可以:对短语、语句信息进行切词得到初始词汇;将
各个初始词汇分别与预先生成的关键词集合中的关键词进行匹配;将在关键词集合中匹配
到的初始词汇作为一级关联词汇。
[0065] 根据另一个实施方式,上述关联属性中记录的文本信息是从上述短语、语句信息中提取的关联词汇,第一生成单元52可以直接获取所记录的关联词汇作为至少一个一级关
联词汇。
[0066] 根据一个可能的设计,装置500还可以包括关键词确定单元(未示出),配置为通过以下方法提取关键词集合中的关键词:获取人为标定的用户正样本和用户负样本;基于人
际关系网络确定用户正样本和用户负样本与其他用户的关联属性中的样本文本信息;根据
样本文本信息确定关键词集合中的关键词。
[0067] 在一个实施例中,关键词集合中的各个关键词还可以对应有统计指标。统计指标可以包括以下至少一项:在用户正样本的文本信息中出现的次数、在用户负样本的文本信
息中出现的次数、偏向用户正样本的概率、偏向用户负样本的概率。
[0068] 根据一种实施方式,各个一级关联词汇对应有在关键词集合中匹配到的关键词的统计指标;以及,针对某个一级关联用户,第一生成单元52还可以配置为:获取各个一级关
联词汇对应的统计指标;对各个一级关联词汇对应的统计指标进行第一预定处理,生成一
级关联特征,其中,第一预定处理包括以下至少一项:求最大值、求最小值、求和、求平均值、
求加权和。
[0069] 在本实施例中,第二确定单元53可以基于人际关系网络,针对第一确定单元51所确定的每个一级关联用户,确定待评估用户的至少一个二级关联用户,其中,二级关联用户
与该一级关联用户具有关联关系。
[0070] 第二生成单元54可以针对每个一级关联用户,根据第二确定单元53所确定的二级关联用户,获取待评估用户的至少一个二级关联词汇,并基于至少一个二级关联词汇生成
待评估用户的一个二级关联特征。
[0071] 在进一步地实施例中,第二生成单元54可以包括:
[0072] 第一生成模块,配置为针对每个一级关联用户,根据二级关联词汇生成一级关联用户和各个二级关联用户分别对应的第二一级关联特征;
[0073] 第二生成模块,配置为对每个一级关联用户对应的各个第二一级关联特征进行第二预定处理,将处理结果作为待评估用户的一个二级关联特征,其中,第二预定处理包括以
下至少一项:求最大值、求最小值、求和、求平均值、求加权和。
[0074] 信用评估单元55可以至少基于第一生成单元52生成的一级关联特征和第二生成单元54生成的二级关联特征,通过预先训练的信用评估模型评估待评估用户的信用度。
[0075] 值得说明的是,图5所示的装置500是与图3示出的方法实施例相对应的装置实施例,图3示出的方法实施例中的相应描述同样适用于装置500,在此不再赘述。
[0076] 通过以上装置,将该一级关联特征和二级关联特征作为信用评估模型的特征的一部分,由于考虑了与待评估用户具有关联关系的其他用户对待评估用户信用的影响,从而
可以提高信用评估的准确性。
[0077] 根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3所描述的方法。
[0078] 根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3所述的方法。
[0079] 本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能
存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0080] 以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明
的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应
包括在本发明的保护范围之内。