基于决策树的个贷风险评估方法转让专利

申请号 : CN202211663660.9

文献号 : CN115660834B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张洪江李岩于入洋武永鑫朱启功

申请人 : 河北雄安舜耕数据科技有限公司

摘要 :

本发明涉及数据处理领域,具体涉及一种基于决策树的个贷风险评估方法。该方法通过获得个人贷款数据,根据个人贷款数据中任意两类数据的数据类相关性筛选出候选特征类数据集合,在候选特征类数据集合内根据还款金额比例获得完全还款数据和部分还款数据,通过部分还款数据获得还款金额影响度,根据还款金额影响度和完全还款与部分还款之间的数据差异获得数据类决策相关性,根据数据决策类相关性获得特征数据,根据特征数据对决策树进行训练并优化获得风险评估决策树,完成风险评估。本发明通过对特征数据的处理,使参与决策树的数据集合更完整、冗余小且对决策影响程度大,使构建的决策树分类效果更好,进而风险评估的效果更加全面,更加准确。

权利要求 :

1.基于决策树的个贷风险评估方法,其特征在于,所述方法包括:

获得历史数据库中每个用户下所有类型的个人贷款数据;每个类型下的每个个人贷款数据对应一个用户;对任意两类个人贷款数据进行关联性分析,获得数据类相关性,根据数据类相关性筛选出候选特征类数据;

根据候选特征类数据集合内目标类数据中每个用户对应的还款金额比例将目标类数据划分为完全还款数据和部分还款数据;根据部分还款数据中的相邻数据差异与对应的还款金额比例差异获得还款金额影响度;获得完全还款数据和部分还款数据的数据差异程度,根据还款金额影响度和数据差异程度获得目标类数据的数据类决策相关性;获得候选特征类数据集合中每类候选类特征数据的数据类决策相关性,根据数据类决策相关性筛选出特征数据;

根据由特征数据构成的样本集对决策树进行训练,根据样本集中特征数据的数据类决策相关性获得节点优选值,根据节点优选值构建初始决策树;对初始决策树进行优化获得风险评估决策树,根据风险评估决策树进行个人贷款风险评估;

所述还款金额影响度的获取包括:

根据部分还款数据中的相邻数据差异与对应的还款金额比例差异获得还款金额影响度,所述还款金额影响度包括:式中,表示为还款金额影响度, 表示为目标类数据, 表示为在 中的部分还款数据中的数据总个数, 表示为在 中的部分还款数据中第 个数据, 表示为在 中的部分还款数据中第 个数据, 表示为数据 对应的还款金额比例, 表示为数据对应的还款金额比例, 表示为最大值提取函数,表示为自然常数,为常数系数。

2.根据权利要求1所述的基于决策树的个贷风险评估方法,其特征在于,所述数据类相关性包括:获得个人贷款数据中的任意两类数据,通过卡方检验判断两类数据是否相关,获得个人贷款数据中所有数据之间的数据类相关性。

3.根据权利要求2所述的基于决策树的个贷风险评估方法,其特征在于,所述根据数据类相关性筛选出候选特征类数据集合包括:将个人贷款数据中存在至少两个数据类相关性的数据进行筛除,获得剩余数据;对剩余数据中具有数据类相关性的两个数据再次筛除,获得不存在数据类相关性的最终剩余数据,构成候选特征类数据集合。

4.根据权利要求1所述的基于决策树的个贷风险评估方法,其特征在于,所述数据差异程度包括:获得完全还款数据和部分还款数据对应的数据均值,将完全还款数据和部分还款数据的均值差值绝对值作为数据差异程度。

5.根据权利要求1所述的基于决策树的个贷风险评估方法,其特征在于,所述数据类决策相关性包括:对数据差异程度进行归一化处理,将还款金额影响度和处理后的数据差异程度相乘,乘积作为目标类数据的数据类决策相关性。

6.根据权利要求1所述的基于决策树的个贷风险评估方法,其特征在于,所述根据数据类决策相关性筛选出特征数据包括:当候选特征类数据集合内的候选特征类数据的决策相关性大于等于预设的决策阈值时,将候选特征类数据作为特征数据,获得所有特征数据。

7.根据权利要求1所述的基于决策树的个贷风险评估方法,其特征在于,所述节点优选值包括:获得每个特征数据在决策树内训练过程中的信息增益率,将特征数据的信息增益率和数据类决策相关性的均值作为节点优选值,获得所有节点优选值。

8.根据权利要求1所述的基于决策树的个贷风险评估方法,其特征在于,所述对初始决策树进行优化获得风险评估决策树包括:采用错误率降低剪枝的后剪枝算法对初始决策树进行优化获得风险评估决策树。

说明书 :

基于决策树的个贷风险评估方法

技术领域

[0001] 本发明涉及数据处理领域,具体涉及一种基于决策树的个贷风险评估方法。

背景技术

[0002] 随着国家信贷行业的发展,个人信用评估问题逐渐受到广泛重视。然而,由于信贷系统不完善,不仅给借贷人带来了损失,也在一定程度上给个人信贷市场造成了负面影响。故对个人贷款风险进行评估能够有效降低损失,维护信贷市场的良性发展。
[0003] 在对个人信贷风险评估时,大多会采用构建决策树的方法,决策树的构建是一种自上而下、分而治之的归纳过程,其中数据的预处理,测试属性的选择和如何划分样本集是构建决策树的关键环节。在现有技术中,对特征数据的提取,更多的是根据经验直接选取,但个人贷款的数据种类繁杂,冗余和无关的数据很多,直接提取的特征数据,没有考虑到数据的冗余性,没能更全面地提取影响个人信贷的特征数据,使最终风险评估结果不够全面且评估效果不够准确。

发明内容

[0004] 为了解决现有技术中直接提取的特征数据,没有考虑到数据的冗余性,没能更全面地提取影响个人信贷的特征数据,使最终风险评估结果不够全面且评估效果不够准确的问题,本发明的目的在于提供一种基于决策树的个贷风险评估方法,所采用的技术方案具体如下:
[0005] 本发明提供了一种基于决策树的个贷风险评估方法,所述方法包括:
[0006] 获得历史数据库中所有类型的个人贷款数据;对个人贷款数据中任意两类数据进行关联性分析,获得数据类相关性,根据数据类相关性筛选出候选特征类数据集合;
[0007] 根据候选特征类数据集合内目标类数据中每个用户对应的还款金额比例将目标类数据划分为完全还款数据和部分还款数据;根据部分还款数据中的相邻数据差异与对应的还款金额比例差异获得还款金额影响度;获得完全还款数据和部分还款数据的数据差异程度,根据还款金额影响度和数据差异程度获得目标类数据的数据类决策相关性;获得候选特征类数据集合中的所有数据类决策相关性,根据数据类决策相关性筛选出特征数据;
[0008] 根据由特征数据构成的样本集对决策树进行训练,根据样本集中特征数据的数据类决策相关性获得节点优选值,根据节点优选值构建初始决策树;对初始决策树进行优化获得风险评估决策树,根据风险评估决策树进行个人贷款风险评估。
[0009] 进一步地,所述数据类相关性包括:
[0010] 获得个人贷款数据中的任意两类数据,通过卡方检验判断两类数据是否相关,获得个人贷款数据中所有数据之间的数据类相关性。
[0011] 进一步地,所述根据数据类相关性筛选出候选特征类数据集合包括:
[0012] 将个人贷款数据中存在至少两个数据类相关性的数据进行筛除,获得剩余数据;对剩余数据中具有数据类相关性的两个数据再次筛除,获得不存在数据类相关性的最终剩余数据,构成候选特征类数据集合。
[0013] 进一步地,所述还款金额影响度的获取包括:
[0014] 根据部分还款数据中的相邻数据差异与对应的还款金额比例差异获得还款金额影响度,所述还款金额影响度包括:
[0015]
[0016] 式中,表示为还款金额影响度,表示为目标类数据, 表示为在 中的部分还款数据中的数据总个数, 表示为在 中的部分还款数据中第个数据, 表示为在 中的部分还款数据中第 个数据, 表示为数据  对应的还款金额比例, 表示为数据对应的还款金额比例, 表示为最大值提取函数,表示为自然常数,为常数系数。
[0017] 进一步地,所述数据差异程度包括:
[0018] 获得完全还款数据和部分还款数据对应的数据均值,将完全还款数据和部分还款数据的均值差值绝对值作为数据差异程度。
[0019] 进一步地,所述数据类决策相关性包括:
[0020] 对数据差异程度进行归一化处理,将还款金额影响度和处理后的数据差异程度相乘,乘积作为目标类数据的数据类决策相关性。
[0021] 进一步地,所述根据数据类决策相关性筛选出特征数据包括:
[0022] 当候选特征类数据集合内数据的决策相关性大于等于预设的决策阈值时,将候选特征类数据集合内的数据作为特征数据,获得所有特征数据。
[0023] 进一步地,所述节点优选值包括:
[0024] 获得每个特征数据在决策树内训练过程中的信息增益率,将特征数据的信息增益率和数据类决策相关性的均值作为节点优选值,获得所有节点优选值。
[0025] 进一步地,所述对初始决策树进行优化获得风险评估决策树包括:
[0026] 采用错误率降低剪枝的后剪枝算法对初始决策树进行优化获得风险评估决策树。
[0027] 本发明具有如下有益效果:
[0028] 本发明实施例考虑到在个人贷款数据中,很多数据具有相关性,这些相关性的数据会对贷款影响有相同的效果,因此通过对个人贷款的数据进行相关性分析,可以将具有相关性的数据进行筛除,减少计算数据的种类,同时对剩余的待定数据与还贷金额比例进行分析,考虑到完全还款的数据对计算该类数据与还款金额的关系具有影响,因此根据待定数据是否完全还款,得到完全还款数据和部分还款数据,通过对部分还款数据与对应还款金额比例之间的关系影响,可以得到部分还款数据对还款金额的影响度,进一步获取部分还款数据和完全还款数据之间的差异,与还款金额影响度共同分析,得到该类待定数据对后续分类的影响,即该类待定数据对个人还贷的影响程度,进一步将无关数据进行筛除,使提取的特征数据更加全面且对于决策具有较强的影响力。最后将特征数据对决策的影响程度也作为决策树的节点选取影响数值,构建风险评估决策树,使风险评估效果更加全面,更加准确,进而帮助了借款方进行借款决策,降低借款人不还款的可能性。

附图说明

[0029] 为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0030] 图1为本发明一个实施例所提供的一种基于决策树的个贷风险评估方法流程图。

具体实施方式

[0031] 为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于决策树的个贷风险评估方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0032] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0033] 下面结合附图具体的说明本发明所提供的一种基于决策树的个贷风险评估方法的具体方案。
[0034] 请参阅图1,其示出了本发明一个实施例提供的一种基于决策树的个贷风险评估方法流程图,该方法包括:
[0035] 步骤S1:获得历史数据库中所有类型的个人贷款数据;对个人贷款数据中任意两类数据进行关联性分析,获得数据类相关性,根据数据类相关性筛选出候选特征类数据集合。
[0036] 在本发明实施例中,获得历史数据库中所有类型的个人贷款数据,主要通过对个人贷款管理系统数据库中个人信息数据表进行读取,获取个人信息包括贷款申请表、借贷人基本情况表、经济情况调查表、还款信息表、担保情况表、拟购房屋基本情况表和家庭成员情况表等,从各表中提取相关数据,以便进行后续分析。需要说明的是,提取的个人贷款数据中每个类别表中的每个数据均对应一个用户。
[0037] 由于获取的个人贷款数据过于繁杂,相关数据中无意义的成分很多,严重影响后续数据挖掘算法的执行效率,且存在的噪声干扰数据使数据挖掘结果产生偏差。在数据挖掘算法中,对要处理的数据集合要保证数据的完整性要好,冗余较小,数据之间的相关性要小,因此需要对个人贷款数据进行筛选,在保留数据完整性的同时减少数据量,对数据属性相关性较强的数据进行筛除。因此对个人贷款数据中任意两类数据进行关联性分析,获得数据类相关性,根据数据类相关性筛选出候选特征类数据集合,具体包括:
[0038] 在个人贷款数据中任选两类数据,通过卡方检验判断这两类数据是否相关,在本发明实施例中,选取一类数据 ,中数据分别记为 , … ,通过卡方检验计算其与另一类数据 ,中数据分别记为 , … 的相关性,在卡方检验中将 中数据和 中数据构成的矩阵作为样本频数列联表,计算公式包括:
[0039]
[0040] 式中,表示为 与 卡方检验的统计量,表示为样本频数列联表的总样本数,表示为当 满足 时的样本数, 表示为当 满足 时的样本数, 表示为当 满足 且满足 时的样本数,表示为 中数据的个数,表示为 中数据的个数。 表示当 满 且满足 时的理论频数,即为 化简得到的理论频数。需要说明的是,卡方检验和检验中的样本频数列联表为本领域技术人员熟知的技术手段,该卡方检验计算公式为在现有技术的基础上对数据组进行分析,因此该公式的具体公式意义不再赘述。
[0041] 将获得的 与 卡方检验的统计量 与预设的相关性阈值进行判断,当统计量 小于等于相关性阈值时,则判断 与 之间相关,与 具有数据类相关性,获得个人贷款数据中所有数据之间的数据类相关性,需要说明的是,每个数据可能存在与其他多个数据的数据类相关性,即一个数据可能与多个数据均有相关性。在本发明实施例中,相关性阈值为0.05。
[0042] 当数据间具有相关性时,具有数据类相关性的数据对后续数据的判断具有相同的影响作用,为了减少数据冗余并保证数据的完整性,需对具有数据类相关性的数据进行筛除,获得候选特征类数据集合。
[0043] 优选地,首先将个人贷款数据中存在至少两个数据类相关性的数据进行筛除,得到剩余数据,然后在剩余数据中,当两个数据之间存在数据类相关性时,则将其中任意一个数据进行筛除,最终得到的剩余数据中不存在数据类相关性,获得由最终剩余数据组成的候选特征类数据集合。通过筛选过程使得待定集合中不存在相关数据,减少了数据冗余,便于后续分析。
[0044] 步骤S2:根据候选特征类数据集合内目标类数据中每个用户对应的还款金额比例将目标类数据划分为完全还款数据和部分还款数据;根据部分还款数据中的相邻数据差异与对应的还款金额比例差异获得还款金额影响度;获得完全还款数据和部分还款数据的数据差异程度,根据还款金额影响度和数据差异程度获得目标类数据的数据类决策相关性;获得候选特征类数据集合中的所有数据类决策相关性,根据数据类决策相关性筛选出特征数据。
[0045] 根据步骤S1可以得到较为完整的,且数据间相关性小的数据集合,减少了数据冗余,对候选特征类数据集合来说,其中还存在无意义、对后续数据挖掘相关度不大的数据,因为本发明的数据挖掘算法为决策树,因此需要对候选特征类数据集合中的数据进一步分析,得到对决策影响程度大的数据作为特征数据,进一步构建决策树。在对候选特征类数据集合中的数据进行分析时,需要考虑目标类数据与用户对应的还款金额比例是否相关,只有对还款金额有影响的数据才能够影响后续对个人信贷的评估,所以判断目标类数据是否能够影响决策时,先分析目标类数据对于还款金额比例的影响度,因此根据候选特征类数据集合内目标类数据中每个用户对应的还款金额比例将目标类数据划分为完全还款数据和部分还款数据;根据部分还款数据中的相邻数据差异与对应的还款金额比例差异获得还款金额影响度,具体包括:
[0046] 获取用户的还款金额比例数据,对于候选特征类数据集合内目标类数据中的数据按顺序排列,在本发明实施例中,将目标类数据中的数据按从小到大的顺序排列。目标类数据中每个数据均代表了一个用户,所以每个数据均对应一个该用户的还款金额比例。对于完全还款的用户,该用户对应的数据无法很好的反应目标类数据对还款金额的影响所以需要先将完全还款用户对应的数据划分出来,采用部分还款用户的数据对还款金额进行分析。根据每个数据对应的还款金额比例,将完全还款的数据作为完全还款数据,其余数据作为部分还款数据,完成对目标类数据的划分。
[0047] 根据部分还款数据中的相邻数据差异与对应的还款金额比例差异获得还款金额影响度,所述还款金额影响度包括:
[0048]
[0049] 式中 表示为还款金额影响度,表示为目标类数据, 表示为在 中的部分还款数据中的数据总个数 表示为在 中的部分还款数据中第个数据, 表示为在 中的部分还款数据中第 个数据, 表示为数据 对应的还款金额比例, 表示为数据对应的还款金额比例, 表示为最大值提取函数,表示为自然常数,为常数系数。
[0050] 为预设的常数系数,在本发明实施例中为1,为了防止分母为零导致公式无意义的情况。 表示为部分还款数据中相邻两个数据间的差异情况, 表示为归一化后的相邻数据差异, 表示为相邻两个数据对应的还款金额比例的差异情况, 表示为通过以自然常数为底的指数函数对还款金额比例的差异进行映射并归一化操作,得到对应的还款金额比例差异,对部分还款数据中的所有相邻数据差异和对应的还款金额比例差异的乘积取均值得到还款金额影响度,相邻数据差异和对应的还款金额比例差异与还款金额影响度成正相关关系,当部分还款金额的相邻数据差异越大,对应的还款金额比例差异越大,说明部分还款数据与对应的还款金额比例的关系就越大,该目标类数据越可能为影响还款金额的特征数据。
[0051] 为了后续决策树可以更好的评估个人信贷风险,需要获得更能够反应个人还款情况的特征数据,即与决策树决策的相关性强的数据。对目标类数据进一步分析,获得完全还款数据和部分还款数据的数据差异程度,根据还款金额影响度和数据差异程度获得目标类数据的数据类决策相关性;获得候选特征类数据集合中的每类候选类特征数据的数据类决策相关性,根据数据类决策相关性筛选出特征数据,具体包括:
[0052] 获得完全还款数据和部分还款数据对应的数据均值,将完全还款数据和部分还款数据的均值差值绝对值作为数据差异程度。对数据差异程度进行归一化处理,将还款金额影响度和归一化处理后的数据差异程度相乘,乘积作为目标类数据的数据类决策相关性。数据类决策相关性表示了目标类数据影响个人还款情况的程度,在本发明实施例中,考虑到数据计算的便捷性,数据类决策相关性包括:
[0053]
[0054] 式中 表示为数据类决策相关性,表示为还款金额影响度,表示为目标类数据,表示为在 中的完全还款数据中的数据总个数, 表示为在 中的部分还款数据中的数据总个数, 表示为在 中的完全还款数据中第个数据, 表示为在 中的完全还款数据中第个数据,表示为自然常数,为常数系数。
[0055] 为预设的常数系数,在本发明实施例中为1,为了防止分母为零导致公式无意义的情况。 表示为完全还款数据的均值, 表示为部分还款数据的均值,表示为将完全还款数据和部分还款数据的均值差值的绝对值作为数据差异
程度。 表示为通过以自然常数为底的指数函数对数据差异程度进行映
射并归一化操作,归一化后的值与数据差异程度正相关,将归一化后的值与还款金额影响度相乘得到数据类决策相关性。当数据差异程度越大时,说明完全还款数据与部分还款数据之间的差异越明显,当还款金额影响度越大时,说明目标类数据对还款情况的影响越大,进一步表明目标类数据越可能为对个人贷款决策影响强的数据。
[0056] 当目标类数据的数据类决策相关性大于等于预设的决策阈值时,说明目标类数据更能影响个人还款情况,故认为目标类数据对决策树的影响程度高,将该目标类数据作为特征数据,获得候选特征类数据集合中的所有特征数据。在本发明实施例中,决策阈值为0.9。
[0057] 步骤S3:根据由特征数据构成的样本集对决策树进行训练,根据样本集中特征数据的数据类决策相关性获得节点优选值,根据节点优选值构建初始决策树;对初始决策树进行优化获得风险评估决策树,根据风险评估决策树进行个人贷款风险评估。
[0058] 根据步骤S1和步骤S2,对数据源进行了预处理,去除了与决策无关的属性数据,得到了更完整的对个人贷款决策影响程度更大的特征数据,将特征数据作为样本集对决策树进行训练,最终构建决策树,完成对个贷风险评估。为了使决策树的分类更准确,将由步骤S2获得的数据类决策相关性也作为节点分类的特征值之一,因此根据由特征数据构成的样本集对决策树进行训练,根据样本集中特征数据的数据类决策相关性获得节点优选值,根据节点优选值构建初始决策树;对初始决策树进行优化获得风险评估决策树,根据风险评估决策树进行个人贷款风险评估,具体包括:
[0059] 获得每个特征数据在决策树内训练过程中的信息增益率,将特征数据的信息增益率和数据类决策相关性的均值作为节点优选值,获得所有节点优选值。需要说明的是,信息增益率为本领域技术人员熟知的技术手段,在此不做赘述。
[0060] 当节点优选值越大时,说明当前特征数据对决策树的决策影响越大,该特征数据越应该作为当前决策树的主属性节点。选择节点优选值最大的特征数据作为当前决策树的主属性节点,为该特征数据的每一个可能的取值构建一个分支。对子节点所包含的样本子集递归执行该选取过程,直至子集中的数据记录在主属性上取值都相同或没有特征数据可再划分使用时,生成了初始决策树。
[0061] 为了得到具有更好分类效果的决策树,优选的,采用错误率降低剪枝的后剪枝算法对初始决策树进行优化获得风险评估决策树,完成了决策树的构建。需要说明的是,错误率降低剪枝的后剪枝算法为本领域技术人员熟知的技术手段,在此不做赘述。
[0062] 当用户需要通过个人贷款管理系统进行个人贷款申请时,系统运用风险评估决策树对个人贷款相关数据进行分析,当根据风险评估决策树获得的个人风险评估较高时,则不同意该用户的个人贷款申请;当根据风险评估决策树获得的个人风险评估较低时,则同意该用户的个人贷款申请。
[0063] 综上所述,本发明通过获得个人贷款数据,根据个人贷款数据中任意两类数据的数据类相关性筛选出候选特征类数据集合,根据候选特征类数据集合内目标类数据的对应还款金额比例获得完全还款数据和部分还款数据,根据部分还款数据间的差异和对应还款金额比例间的差异获得还款金额影响度,根据还款金额影响度和完全还款数据与部分还款数据的差异获得目标类数据的数据类决策相关性,根据数据决策类相关性获得特征数据,根据特征数据对决策树进行训练并根据特征数据的数据类决策相关性获得节点优选值,根据节点优选值构建决策树并优化获得风险评估决策树,完成风险评估。本发明通过对特征数据的提取,使参与决策树的数据集合更完整、冗余小且对决策影响程度大,使构建的决策树分类效果更好,进而根据决策树完成的风险评估效果更加全面,更加准确。
[0064] 需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0065] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。