基于控制图的信贷风险评估方法及系统转让专利

申请号 : CN202110584049.6

文献号 : CN113421154B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈宏叶恒青张思宇

申请人 : 上海交通大学

摘要 :

本发明提供了一种基于控制图的信贷风险评估方法及系统,包括采集交易流水数据、信贷审核数据和逾期天数数据,进行预处理,得到常规特征和违约特征;交易流水数据聚合,得到初始交易流水指标;初始交易流水指标转换为警告信号;警告信号处理成信号特征;整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征得到多类风控评估样本;针对风控评估样本,建立机器学习模型,评估根据不同风控评估样本的机器学习模型结果选定最佳风控模型;根据最佳风控模型建立信贷平台线上机器学习模型,对申请客户进行实时风险评估,输出风险评估结果。本发明提高了信贷风险评估的准确性,且应用于不同场景下的信贷风险评估,有利于提高信贷风险评估的适用范围。

权利要求 :

1.一种基于控制图的信贷风险评估方法,其特征在于,包括如下步骤:步骤1:采集已发放贷款客户的交易流水数据、信贷审核数据和逾期天数数据,并对各类数据进行预处理,得到常规特征和违约特征;

步骤2:将预处理过后的所述交易流水数据聚合并进行标准化,得到标准化后的初始交易流水指标;

步骤3:将所述标准化后的初始交易流水指标转换为警告信号;

步骤4:将所述警告信号处理成信号特征;

步骤5:整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征,得到多类风控评估样本;

步骤6:针对所述风控评估样本,建立对应的机器学习模型,评估根据不同风控评估样本的机器学习模型结果,选定最佳风控模型;

步骤7:根据最佳风控模型建立信贷平台线上机器学习模型,对申请客户进行实时风险评估,输出风险评估结果;

所述步骤2包括如下步骤:

步骤2.1:将预处理后的交易流水数据聚合成初始交易流水特征指标,按照多类控制图对初始交易流水特征指标进行分组;

步骤2.2:对初始交易流水特征指标进行标准化,得到标准化后的初始交易流水指标;

所述步骤3包括如下步骤:

步骤3.1:针对标准化后的初始交易流水指标,计算每组中该指标对应的控制图的均值、上限及下限;

步骤3.2:根据步骤3.1得到的多类控制图的均值、上限和下限,制定交易流水监测期间预定时间段的警告信号;

所述步骤4包括如下步骤:

步骤4.1:分别统计在交易流水监测期间每类控制图中每种警告信号的总和,将警告信号转化为信号特征;

步骤4.2:为方便解读最后一个预定时间段的异常状态,再引入一个信号特征标识最后一个预定时间段的交易流水总体异常情况。

2.根据权利要求1所述的基于控制图的信贷风险评估方法,其特征在于,所述步骤1中的预处理包括如下步骤:交易流水数据预处理步骤:针对交易流水,剔除预定交易金额范围的交易;

信贷审核数据预处理步骤:针对客户信贷的生命周期,剔除预定日期范围的客户所有数据记录;

逾期天数数据预处理步骤:针对客户逾期程度,剔除预定逾期天数范围的客户所有数据记录,根据逾期天数形成违约特征。

3.一种基于控制图的信贷风险评估系统,其特征在于,应用权利要求1‑2任一所述的基于控制图的信贷风险评估方法,包括如下模块:模块M1:采集已发放贷款客户的交易流水数据、信贷审核数据和逾期天数数据,并对各类数据进行预处理,得到常规特征和违约特征;

模块M2:将预处理过后的所述交易流水数据聚合并进行标准化,得到标准化后的初始交易流水指标;

模块M3:将所述标准化后的初始交易流水指标转换为警告信号;

模块M4:将所述警告信号处理成信号特征;

模块M5:整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征,得到多类风控评估样本;

模块M6:针对所述风控评估样本,建立对应的机器学习模型,评估根据不同风控评估样本的机器学习模型结果,选定最佳风控模型;

模块M7:根据最佳风控模型建立信贷平台线上机器学习模型,对申请客户进行实时风险评估,输出风险评估结果。

4.根据权利要求3所述的基于控制图的信贷风险评估系统,其特征在于,所述模块M1中的预处理包括如下模块:交易流水数据预处理模块:针对交易流水,剔除预定交易金额范围的交易;

信贷审核数据预处理模块:针对客户信贷的生命周期,剔除预定日期范围的客户所有数据记录;

逾期天数数据预处理模块:针对客户逾期程度,剔除预定逾期天数范围的客户所有数据记录,根据逾期天数形成违约特征。

5.根据权利要求3所述的基于控制图的信贷风险评估系统,其特征在于,所述模块M2包括如下模块:模块M2.1:将预处理后的交易流水数据聚合成初始交易流水特征指标,按照多类控制图对初始交易流水特征指标进行分组;

模块M2.2:对初始交易流水特征指标进行标准化,得到标准化后的初始交易流水指标。

6.根据权利要求5所述的基于控制图的信贷风险评估系统,其特征在于,所述模块M3包括如下模块:模块M3.1:针对标准化后的初始交易流水指标计算每组中该指标对应的控制图的均值、上限及下限;

模块M3.2:根据模块M3.1得到的多类控制图的均值、上限和下限,制定交易流水监测期间预定时间段的警告信号。

7.根据权利要求6所述的基于控制图的信贷风险评估系统,其特征在于,所述模块M4包括如下模块:模块M4.1:分别统计在交易流水监测期间每类控制图中每种警告信号的总和,将警告信号转化为信号特征;

模块M4.2:为方便解读最后一个预定时间段的异常状态,再引入一个信号特征标识最后一个预定时间段的交易流水总体异常情况。

说明书 :

基于控制图的信贷风险评估方法及系统

技术领域

[0001] 本发明涉及信贷风险评估的技术领域,具体地,涉及一种基于控制图的信贷风险评估方法及系统。

背景技术

[0002] 在信贷审批过程中,目前众多的风险评估方法集中在实现智能化风险评级,而缺乏对不同渠道数据源的挖掘。
[0003] 公开号为CN110415111A的中国发明专利公开了基于用户数据与专家特征合并逻辑回归信贷审批的方法,包括输入数据进行清洗、数据降维和预处理、对数据进行分类、对数据进行特征工程并提取特征、引入专家特征、对特征进行预测和输出审批名单。此专利中,该信贷审批的方法将传统金融模型中的专家特征和经典机器学习方法结合起来,并结合市场实时更新数据和特征工程来对可能的动态变化的未来违约可能性进行预测,采用了预测模型和优化的逻辑回归算法,满足复杂的信贷约束,获得的违约概率预测和风险溢价的结果更加准确,并且使得审核人员可以从繁重的信用风险评估审核和定价中解放出来,使得大规模的小微企业信贷审批得以快速实现,确保智能评级和规避风险成为可能。该方法分析了用户数据及专家特征,整合了两类常见的数据源,其虽然能够实现快速审批,但在违约概率预测的准确性上仍然存在提升空间。
[0004] 公开号为CN107093101A的中国发明专利公开了一种基于POS交易流水数据的潜在贷款用户挖掘与风险评分方法,包括:获取POS交易流水数据;从扩大经营方面和资金周转方面这两方面入手对获取的POS交易流水数据进行潜在贷款用户挖掘;确定用于POS交易流水风险评分的统计指标,并根据确定的统计指标和获取的POS交易流水数据采用设定的评分模型进行POS交易流水风险评分。本发明结合了POS交易流水数据从扩大经营方面和资金周转方面入手进行潜在贷款用户挖掘,能快速且准确地挖掘出潜在的贷款用户,且POS交易流水数据很好地体现了商户对于资金以及贷款的需求量,转化的成功率较高;基于POS交易流水数据提出了新的POS交易流水风险评分方法,更加有效。该方法可广泛应用于数据挖掘领域。该方法提出通过POS交易流水的统计指标进行风险评估,其虽然实现了对POS交易流水数据的分析,但其使用的数据挖掘方法过于简易且缺少扩展性,该技术披露的方法及给定的数值结果过于具体,并不适用于广泛应用于不同场景下的信贷审核过程。
[0005] 针对上述中的现有技术,发明人认为违约概率预测的准确性较差,且信贷审核过程的适用范围较小,导致信贷风险评估的效果较差。

发明内容

[0006] 针对现有技术中的缺陷,本发明的目的是提供一种基于控制图的信贷风险评估方法及系统。
[0007] 根据本发明提供的一种基于控制图的信贷风险评估方法,包括如下步骤:
[0008] 步骤1:采集已发放贷款客户的交易流水数据、信贷审核数据和逾期天数数据,并对各类数据进行预处理,得到常规特征和违约特征;
[0009] 步骤2:将预处理过后的所述交易流水数据聚合并进行标准化,得到标准化后的初始交易流水指标;
[0010] 步骤3:将所述标准化后的初始交易流水指标转换为警告信号;
[0011] 步骤4:将所述警告信号处理成信号特征;
[0012] 步骤5:整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征,得到多类风控评估样本;
[0013] 步骤6:针对所述风控评估样本,建立对应的机器学习模型,评估根据不同风控评估样本的机器学习模型结果,选定最佳风控模型;
[0014] 步骤7:根据最佳风控模型建立信贷平台线上机器学习模型,对申请客户进行实时风险评估,输出风险评估结果。
[0015] 优选的,所述步骤1中的预处理包括如下步骤:
[0016] 交易流水数据预处理步骤:针对交易流水,剔除预定交易金额范围的交易;
[0017] 信贷审核数据预处理步骤:针对客户信贷的生命周期,剔除预定日期范围的客户所有数据记录;
[0018] 逾期天数数据预处理步骤:针对客户逾期程度,剔除预定逾期天数范围的客户所有数据记录,根据逾期天数形成违约特征。
[0019] 优选的,所述步骤2包括如下步骤:
[0020] 步骤2.1:将预处理后的交易流水数据聚合成初始交易流水特征指标,按照多类控制图对初始交易流水特征指标进行分组;
[0021] 步骤2.2:对初始交易流水特征指标进行标准化,得到标准化后的初始交易流水指标。
[0022] 优选的,所述步骤3包括如下步骤:
[0023] 步骤3.1:针对标准化后的初始交易流水指标计算每组中该指标对应的控制图的均值、上限及下限;
[0024] 步骤3.2:根据步骤3.1得到的多类控制图的均值、上限和下限,制定交易流水监测期间预定时间段的警告信号。
[0025] 优选的,所述步骤4包括如下步骤:
[0026] 步骤4.1:分别统计在交易流水监测期间每类控制图中每种警告信号的总和,将警告信号转化为信号特征;
[0027] 步骤4.2:为方便解读最后一个预定时间段的异常状态,再引入一个信号特征标识最后一个预定时间段的交易流水总体异常情况。
[0028] 根据本发明提供的一种基于控制图的信贷风险评估系统,包括如下模块:
[0029] 模块M1:采集已发放贷款客户的交易流水数据、信贷审核数据和逾期天数数据,并对各类数据进行预处理,得到常规特征和违约特征;
[0030] 模块M2:将预处理过后的所述交易流水数据聚合并进行标准化,得到标准化后的初始交易流水指标;
[0031] 模块M3:将所述标准化后的初始交易流水指标转换为警告信号;
[0032] 模块M4:将所述警告信号处理成信号特征;
[0033] 模块M5:整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征,得到多类风控评估样本;
[0034] 模块M6:针对所述风控评估样本,建立对应的机器学习模型,评估根据不同风控评估样本的机器学习模型结果,选定最佳风控模型;
[0035] 模块M7:根据最佳风控模型建立信贷平台线上机器学习模型,对申请客户进行实时风险评估,输出风险评估结果。
[0036] 优选的,所述模块M1中的预处理包括如下模块:
[0037] 交易流水数据预处理模块:针对交易流水,剔除预定交易金额范围的交易;
[0038] 信贷审核数据预处理模块:针对客户信贷的生命周期,剔除预定日期范围的客户所有数据记录;
[0039] 逾期天数数据预处理模块:针对客户逾期程度,剔除预定逾期天数范围的客户所有数据记录,根据逾期天数形成违约特征。
[0040] 优选的,所述模块M2包括如下模块:
[0041] 模块M2.1:将预处理后的交易流水数据聚合成初始交易流水特征指标,按照多类控制图对初始交易流水特征指标进行分组;
[0042] 模块M2.2:对初始交易流水特征指标进行标准化,得到标准化后的初始交易流水指标。
[0043] 优选的,所述模块M3包括如下模块:
[0044] 模块M3.1:针对标准化后的初始交易流水指标计算每组中该指标对应的控制图的均值、上限及下限;
[0045] 模块M3.2:根据模块M3.1得到的多类控制图的均值、上限和下限,制定交易流水监测期间预定时间段的警告信号。
[0046] 优选的,所述模块M4包括如下模块:
[0047] 模块M4.1:分别统计在交易流水监测期间每类控制图中每种警告信号的总和,将警告信号转化为信号特征;
[0048] 模块M4.2:为方便解读最后一个预定时间段的异常状态,再引入一个信号特征标识最后一个预定时间段的交易流水总体异常情况。
[0049] 与现有技术相比,本发明具有如下的有益效果:
[0050] 1、通过三类控制图的技术原理解析客户的交易流水数据,捕捉和解析异常交易流水,形成警告信号,并进一步将其转化为衡量风险的信贷指标。填补了业内利用交易流水进行风险评估的空白;
[0051] 2、增加了从交易流水数据源中提取的信号特征,作为信贷风控模型的输入指标。结果表明,该技术提高了信贷风险评估的准确性,从而提高了信贷风险评估的效果;
[0052] 3、可应用于不同场景下的信贷风险评估,如可应用于贷前审核帮助决策信贷审批,贷中管理帮助进行客户管理。既适用于B端小微企业,利用其经营交易流水进行信贷评估,也适用于C端消费者,利用个人交易流水进行信贷评估。适用性强,有利于提高信贷风险评估的适用范围;
[0053] 4、在构造特征的过程中依赖于客户自己的交易流水信息,对于金融机构而言,获得客户授权即可采集交易流水数据。数据源易于获取且本发明方法易于实现;
[0054] 5、针对交易流水数据进行动态评估,实时性强,有利于金融机构掌握客户最真实的风险情况,快速对其采取对应的管理手段。

附图说明

[0055] 通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0056] 图1为I‑MR控制图中的I控制图;
[0057] 图2为I‑MR控制图中的MR控制图;
[0058] 图3为 控制图中的 控制图;
[0059] 图4为 控制图中的R控制图;
[0060] 图5为 控制图中的 控制图;
[0061] 图6为 控制图中的s控制图。

具体实施方式

[0062] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
[0063] 本发明实施例公开了一种基于控制图的信贷风险评估方法及系统,包括如下步骤:
[0064] 步骤1:从信贷平台数据库中采集已发放贷款客户的交易流水数据及其他可获得的信贷审核数据,其中,交易流水数据的时间窗口为申请贷款前30天。如,某客户于2021年4月1日提出贷款申请,金融机构采集的交易流水数据为该客户在2021年3月2日至2021年3月31日产生的交易流水。同时采集已发放贷款客户的逾期天数数据,并对各类数据进行预处理。
[0065] 步骤1中的预处理包括如下步骤:交易流水数据预处理步骤:针对每一笔交易流水,剔除预定交易金额范围的交易,预定交易金额范围比如是交易金额小于0.1元。信贷审核数据预处理步骤:针对客户信贷的生命周期,剔除预定日期范围的已发放贷款客户所有数据记录,预定日期范围比如是未超过第一期还款日30天。逾期天数数据预处理步骤:针对客户逾期程度,剔除在预定逾期天数范围内的客户的所有数据记录,预定逾期天数范围比如是逾期天数大于0且小于30天;根据逾期天数形成违约特征,逾期天数为0的客户其违约特征取值为0,逾期天数大于0的客户其违约特征取值为1。
[0066] 步骤2:将预处理过后的交易流水数据聚合并进行标准化,得到标准化后的初始交易流水指标。
[0067] 步骤2包括如下步骤:步骤2.1:从交易时间、交易金额、交易类型、交易卡类型四个方面解析交易流水数据。其中,交易类型包括消费、预授权及退款;交易卡类型包括信用卡、借记卡、准贷记卡。将交易流水数据以每日为统计维度聚合成如表1所示的初始交易流水特征指标,如交易金额,交易笔数,终端使用数量等,并按照三类控制图对初始交易流水特征指标进行分组,三类控制图分别是I‑MR控制图、 控制图和 控制图。如在I‑MR控制图中,交易金额为组1,交易笔数为组2,终端使用数量为组3;在 控制图中,交易金额,交易笔数及终端使用数量三个初始交易流水特征指标构成组1;在 控制图中,所有的初始交易流水特征指标构成组1。根据三类控制图每一个分组中初始交易流水特征指标的数量,列出控制图参数设置的取值。表1详细列明了初始交易流水特征指标及其说明,各指标在三类控制图中的所属分组编号及其参数设置。
[0068] 表1初始交易流水特征指标
[0069]
[0070] 步骤2.2:对单个初始交易流水特征指标进行均值为0方差为1的标准化得到标准化后的初始交易流水指标,例如,在交易流水监测时间窗口长度为T的场景下,第i个单个初始交易流水特征指标Xi包含每一天该初始交易流水特征指标的取值,用Xi={x1i,x2i,...xti,...xTi}表示,如,第i个单个初始交易流水特征指标在第t天的取值为xti,在最后一天的取值为xTi,其标准化后的初始交易流水指标记为Xi′={x′1i,x′2i,...x′ti,...x′Ti},标准化后的第i个单个初始交易流水特征指标在第t天的取值计算逻辑为 其中代表第i个单个初始交易流水特征指标Xi在监测时间T内的均值,
代表第i个单个初始交易流水特征指标Xi在监测时间T内的方差,且T=
30,从业务场景考虑,T也代表了当前时间,即客户递交贷款申请的时间点。
[0071] 步骤3:将标准化后的初始交易流水指标通过三类控制图原理转换为警告信号。
[0072] 步骤3包括如下步骤:步骤3.1:针对表1中三类控制图的初始交易流水特征指标分组情况,计算每组标准化后的初始交易流水指标中每类控制图的均值、上限及下限。其中,由于每类控制图产生两组控制图,即I‑MR控制图包含I控制图和MR控制图, 控制图包含 控制图和R控制图, 控制图包含 控制图和s控制图,以CLx,UCLx和LCLx表示第一组控制图的均值、上限及下限,以CLs,UCLs和LCLs表示第二组控制图的均值、上限及下限,并以T作为交易流水监测时间窗口长度(T=30)。以下详细说明每类控制图中均值、上限和下限的计算方法。
[0073] 如图1和图2所示,对I‑MR控制图而言,每个分组内包含如表1所列一个标准化后的初始交易流水指标。与步骤2.2的定义相同,以x′ti表示组内第i个单个标准化后的初始交易流水指标在第t天的取值。由于I‑MR控制图每组仅含一个标准化后的初始交易流水指标,即i恒等于1,为简化说明,以x′t代表每个组内标准化后的初始交易流水指标在第t天的取值(即把下标i省略),计算均值 第t天与前一天的极差MRt,并进一步计算移动极差
[0074]
[0075] 根据均值 和移动极差 以及表1中所示I‑MR控制图参数d2、D3及D4,计算I‑MR控制图的均值、上限及下限:
[0076]
[0077]
[0078] 以交易流水监测时间t为横坐标(t取值为1,2,…,T),在I控制图画出xt、均值CLx、上限UCLx及下限LCLx,在MR控制图画出MRt、均值CLs、上限UCLs及下限LCLs。如图1所示,以表1中X1,即交易金额为例,描绘了某一客户申请贷款前30天其交易金额的标准化取值,并给出了根据I控制图计算得到的均值、上限及下限。
[0079] 如图3和图4所示,对 控制图而言,每个分组内包含如表1所列2到4个标准化后的初始交易流水指标。与步骤2.2的定义相同,以x′ti表示组内第i个单个标准化后的初始交易流水指标在第t天的取值。先将每组内的标准化后的初始交易流水指标以交易流水监测时间t为统计维度汇总,得到组内均值 及组内极差Rt,并进一步计算组内均值 和组内极差Rt的均值,分别记为 及 计算逻辑如下:
[0080]
[0081] Rt=max{x′ti,x′ti,...x′tN}‑min{x′ti,x′ti,...x′tN},t=1,2,...,T;
[0082]
[0083] 其中,N为组内标准化后的初始交易流水指标的数量,取值为2,3或4,详细分组及取值情况可见表1。根据 及 以及表1中所示 控制图参数A2、D3及D4,计算 控制图的均值、上限及下限:
[0084]
[0085]
[0086] 以交易流水监测时间t为横坐标(t取值为1,2,…,T),在 控制图画出 均值、上限及下限,在R控制图画出Rt、均值、上限及下限。
[0087] 如图5和图6所示,对 控制图而言,只有一个分组,该组包含如表1所列23个标准化后的初始交易流水指标。与步骤2.2的定义相同,以x′ti表示组内第i个单个标准化后的初始交易流水指标在第t天的取值。 控制图的均值 及均值 的均值 与 控制图的均值计算逻辑一致,根据xti和均值 计算交易流水监测时间t时的方差st,并进一步计算方差st的均值,记为 计算逻辑如下:
[0088]
[0089] 其中,N为组内标准化后的初始交易流水指标的数量,即为23。根据 及 以及表1中所示 控制图参数A3、B3及B4,计算 控制图的均值、上限及下限:
[0090]
[0091]
[0092] 以交易流水监测时间t为横坐标(t取值为1,2,…,T),在 控制图画出 均值、上限及下限,在s控制图画出st、均值、上限及下限。
[0093] 步骤3.2:根据步骤3.1各类控制图均值、上限和下限的计算结果,制定交易流水监测期间的每个预定时间段的警告信号,预定时间段为监测日,警告信号为二进制,其中,取值“1”代表该监测日交易流水有显著变化,取值“0”代表该监测日交易流水无异常。在一张控制图中,每个监测日包含三个警告信号,分别统计该监测日是否出现以下三种情况:(1)监测日当日的取值超出了控制图的上下限;(2)近8日中,连续8个监测日的取值均位于均值同一侧;(3)近6日中,连续6个监测日的取值均持续上升或下降。若符合,则取值为“1”。
[0094] 步骤4:将警告信号处理成信号特征。
[0095] 步骤4包括如下步骤:步骤4.1:分别统计在交易流水监测期间每类控制图出现三种异常情况的交易流水监测日天数,即分别统计在交易流水监测期间每类控制图中每种警告信号的总和,将警告信号转化为信号特征。
[0096] 步骤4.2:为方便解读最后一个监测日T的异常状态,再引入一个信号特征标识最后一个监测日的交易流水总体异常情况,其取值逻辑为该监测日产生的六个警告信号的并集运算,即若该监测日的任意一张控制图存在步骤3.2中三种情况之一,则取值为“1”,否则取值为“0”。结合步骤4.1中的六个信号特征可知,每类控制图产生共七个信号特征。以I‑MR控制图为例,它的信号特征包括:(1)I控制图中超过控制图上下限的天数;(2)I控制图中连续8个监测日位于均值同一侧的天数;(3)I控制图中连续6个监测日持续上升或下降的天数;(4)MR控制图中超过控制图上下限的天数;(5)MR控制图中连续8个监测日位于均值同一侧的天数;(6)MR控制图中连续6个监测日持续上升或下降的天数;(7)最后一个监测日交易流水是否异常。
[0097] 步骤5:整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征,得到三类风控评估样本。
[0098] 步骤5包括如下步骤:步骤5.1:将由I‑MR控制图产生的23组信号特征(共23×7个)与信贷审核数据提炼的常规特征及逾期天数数据提炼的违约特征整合,得到I‑MR风控评估样本。步骤5.2:将由 控制图产生的8组信号特征(共8×7个)与信贷审核数据提炼的常规特征及逾期天数数据提炼的违约特征整合,得到 风控评估样本。步骤5.3:将由控制图产生的1组信号特征(共1×7个)与信贷审核数据提炼的常规特征及逾期天数数据提炼的违约特征整合,得到 风控评估样本。
[0099] 步骤6:针对每一类风控评估样本,分别做样本预处理和自变量挑选,建立机器学习模型,评估根据不同风控评估样本的机器学习模型结果,选定最佳风控模型,本实施例机器学习模型比如是逻辑回归模型。
[0100] 步骤6包括如下步骤:步骤6.1:处理样本缺失值,检查每一个特征中缺失值的情况,对可以根据业务含义补全的特征,依据业务意义填补缺失值(如某一天的交易流水交易金额为空,可填补为0),对无法根据业务含义填补且缺失比例过高的特征,删除特征,对缺失比例较小的特征,判断其数据类型,若为类型变量,将缺失值归为一组,若为数值型变量,取该特征均值填补。
[0101] 步骤6.2:处理类型变量,借助哑变量将样本中的类型变量转换为0‑1取值。
[0102] 步骤6.3:基于主成分分析对自变量进行分组,具体如下,
[0103] 对所有自变量做主成分分析,挑选出最显著的第一主成分和第二主成分,并依据所有自变量与两个主成分的相关系数大小关系将变量分成两组A和B。对任一自变量,若它和第一主成分相关系数大于和第二主成分的相关系数,则把它归于A组,否则把它归于B组。针对每一组,再次利用主成分分析分成两组,直至满足以下条件之一:
[0104] 1)该组中只有一个自变量;
[0105] 2)与上一次迭代结果相比,一半以上的自变量x的决定系数比(R‑Squared Ratio)2
下降,决定系数比R‑r(x)的计算逻辑为
[0106]
[0107] 其中,自变量x的所属组为m,当前迭代结束时,全部自变量分成了n组。 代表用第i组的所有自变量线性回归拟合x,得到的决定系数。 代表用第m组的除x以外的自变量进行线性回归拟合x,得到的决定系数。
[0108] 步骤6.4:依据信息值挑选自变量,具体如下,
[0109] 计算每个自变量的信息值,删除信息值大于0.5的自变量,对步骤6.3得到的每一类进行自变量筛选,在保证每类中至少有一个自变量下,保留自变量数量由该类中所有自变量的信息值与所有类的总信息值的比例决定,如类i包含ni个自变量,该类的信息值为Mi,所有自变量的信息值为M,自变量的挑选过程为选取该类中信息值大的前ni×Mi/M个自变量,并遵循向上取整的原则,其中,信息值的计算逻辑为,
[0110] 针对单个自变量,依照其取值将其分成K组,并依照以下公式计算分组i的证据权重
[0111]
[0112] %defaulti代表第i组中违约样本在所有违约样本的占比,%paidi代表第i组中正常还款样本在所有正常还款样本中的占比,并根据以下公式计算该自变量的信息值IV,[0113]
[0114] 步骤6.5:使用随机抽样的方法切割训练样本与测试样本,使它们保持6:4的结构,同时,对训练样本采取重复抽样的方法使其中的非违约样本与违约样本的比例保持1:1的结构。
[0115] 步骤6.6:对每一类预处理及自变量挑选完成的样本,分别对训练样本建立机器学习模型,将违约概率p(X)=Pr(Y=1|X)表述为自变量X=(X1,...,Xn)关于因变量Y,即违约特征的函数,
[0116]
[0117] 其中,Xi代表第i个自变量,βi(i=0到n)为回归系数,Yi代表第i个因变量,并利用极大似然估计求解回归系数,即极大化
[0118]
[0119] 求解得到回归系数后代入违约概率p(X)的表达式中,并检验方程的显著性及各个自变量的显著性,确定最终变量组合及其回归系数为最终的机器学习模型。
[0120] 步骤6.7:计算测试样本在最终的机器学习模型中的预测结果,通过列出混淆矩阵与实际违约特征进行比较,以混淆矩阵为基础,根据业务目标选定评估指标,评估三类风控评估样本的三种机器学习模型,选定最佳风控模型。
[0121] 步骤7:根据最佳风控模型建立信贷平台线上机器学习模型(信贷平台线上机器学习模型比如是信贷平台线上逻辑回归模型),对申请客户进行实时风险评估,输出风险评估结果,并定期重复步骤1‑6,导入新的客户进行训练,更新信贷平台线上机器学习模型。
[0122] 本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0123] 以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。