基于深度双向语言模型的风险预测方法、装置和电子设备转让专利

申请号 : CN202110148727.4

文献号 : CN112507628B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王骞沈赟

申请人 : 北京淇瑀信息科技有限公司

摘要 :

本发明提供了一种基于深度双向语言模型的风险预测方法、装置和电子设备。该方法包括:获取历史用户的位置文本信息,提取历史用户在至少一个特定时间点的地址文本信息;基于自注意力机制,使用Bert模型预训练一个深度双向语言模型,以用于语义向量转换;使用所述深度双向语言模型,对所述地址文本信息进行拼接处理,进行词向量和句向量转换,以生成用户地址特征数据;构建风险预测模型,使用训练数据集训练该风险预测模型;使用风险预测模型,计算当前用户的风险评估值,以对当前用户进行风险预测。本发明通过将深度双向语言模型增设Sigmoid层得到风险预测模型,能有效特征数据挖掘,更准确地识别风险用户,还能进一步提高模型精度。

权利要求 :

1.一种基于深度双向语言模型的风险预测方法,其特征在于,包括:获取历史用户的位置文本信息,提取历史用户在至少三个特定时间点的地址文本信息,该特定时间点包括金融产品的请求节点、注册节点、登录节点、交易节点、违约节点和归还节点中的一个或多个;

基于自注意力机制,使用Bert模型预训练一个深度双向语言模型,以用于语义向量转换;

使用所述深度双向语言模型,对所述地址文本信息进行拼接处理,合并成一个特定长度的地址文本句,使用预训练好的深度双向语言模型进行深度双向表示,得到各词的词向量、各词与合并后的地址文本句中其他词的相关度及各词的权重,根据不同词之间的相关度及各词在当前文本句中的权重,进行参数调整,重新得到各词的词向量,以生成用户地址特征数据;

建立训练数据集和测试数据集,所述训练数据集包括历史用户的用户地址特征数据和抗风险表现数据;

使用Bert模型,将深度双向语言模型增设Sigmoid层作为附加输出层,以得到风险预测模型,使用所述训练数据集训练该风险预测模型;

使用所述风险预测模型,将所生成的用户地址特征数据、风险系数值、用户特征数据输入所述风险预测模型,计算当前用户的风险评估值,以对所述当前用户进行风险预测。

2.根据权利要求1所述的风险预测方法,其特征在于,所述提取历史用户在至少一个特定时间点的用户地址信息包括:

提取历史用户在申请、注册和登录时的地址文本信息,所述地址文本信息包括经纬度信息、详细地理信息。

3.根据权利要求1或2所述的风险预测方法,其特征在于,所述深度双向语言模型包含如下结构层:第一层为输入层,将待预测的文本句输入到所述深度双向语言模型中;第二层为词向量构造层,将每个词映射到低维向量;第三层为Bi‑LSTM网络层,基于各词向量和句向量,使用Bi‑LSTM从词向量层抽取相关度特征;第四层为自注意力机制层,生成与各词对应的权重向量,通过与各权重向量相乘,使每一次迭代中的词级的特征合并为句级的特征,以得到用户地址特征数据;第五层为输出层,将该用户地址特征数据用于用户风险分类。

4.根据权利要求1所述的风险预测方法,其特征在于,所述生成用户地址特征数据包括:

使用Transformer双向编码器表示,通过联合调节各层中的上下文来预先训练深度双向表示,以得到各词的词向量、各词与文本句中其他词的相关度及各词的权重;

根据不同词之间的相关度及各词在文本句中的权重,进行参数调整,重新得到各词的词向量,以生成用户地址特征数据。

5.根据权利要求4所述的风险预测方法,其特征在于,所述各词的词向量包括词向量、分段向量和位置向量。

6.根据权利要求4所述的风险预测方法,其特征在于,还包括:设定用于预先训练深度双向表示的预训练任务,所述预训练任务为多个任务,包括词预测任务和下一文本句预测任务。

7.一种基于深度双向语言模型的风险预测装置,其特征在于,包括:获取模块,用于获取历史用户的位置文本信息,提取历史用户在至少三个特定时间点的地址文本信息,该特定时间点包括金融产品的请求节点、注册节点、登录节点、交易节点、违约节点和归还节点中的一个或多个;

处理模块,基于自注意力机制,使用Bert模型预训练一个深度双向语言模型,以用于语义向量转换;

数据生成模块,使用所述深度双向语言模型,对所述地址文本信息进行拼接处理,合并成一个特定长度的地址文本句,使用预训练好的深度双向语言模型进行深度双向表示,得到各词的词向量、各词与合并后的地址文本句中其他词的相关度及各词的权重,根据不同词之间的相关度及各词在当前文本句中的权重,进行参数调整,重新得到各词的词向量,以生成用户地址特征数据;

建立模块,用于建立训练数据集和测试数据集,所述训练数据集包括历史用户的用户地址特征数据和抗风险表现数据;

模型构建模块,用于使用Bert模型,将深度双向语言模型增设Sigmoid层作为附加输出层,以得到风险预测模型,使用所述训练数据集训练该风险预测模型;

预测模块,使用所述风险预测模型,将所生成的用户地址特征数据、风险系数值、用户特征数据输入所述风险预测模型,计算当前用户的风险评估值,以对所述当前用户进行风险预测。

8.一种电子设备,其中,该电子设备包括:处理器;以及,

存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1‑6中任一项所述的基于深度双向语言模型的风险预测方法。

9.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1‑6中任一项所述的基于深度双向语言模型的风险预测方法。

说明书 :

基于深度双向语言模型的风险预测方法、装置和电子设备

技术领域

[0001] 本发明涉及计算机信息处理领域,具体而言,涉及一种基于深度双向语言模型的风险预测方法、装置和电子设备。

背景技术

[0002] 风险控制(简称为风控)是指风险管理者采取各种措施和方法,消灭或减少风险案件发生的各种可能性,或风险控制者减少风险案件发生时造成的损失。风险控制一般应用
于金融行业,如对公司的交易、商家的交易或个人交易等进行风险控制。
[0003] 随着机器学习技术的迅猛发展,相关技术中通过训练机器学习模型来实现风险预测。具体地,训练机器学习模型的过程中,一般以降低模型的分类损失作为训练目标,最终
得到分类损失满足设定需求的风险预测模型,进而通过训练后的风险预测模型进行风险等
级信息的预测。然而,相关技术所提供的风险预测模型的模型精度有待提高。事实上,金融
风险预测主要的目的是如何区分出好客户和坏客户,预测用户的风险情况,以降低信用风
险实现利润最大化。此外,对于一些高风险用户的排查、抗风险能力特征提取以及模型预测
精度方面仍存在很大改进空间。
[0004] 因此,有必要提供一种精度更高的风险预测方法。

发明内容

[0005] 为了提高模型预测精度,准确评估用户的风险情况,进一步改进特征数据提取方法,本发明提供了一种基于常驻地的风险预测方法,包括:获取历史用户的位置文本信息,
提取历史用户在至少一个特定时间点的地址文本信息;基于自注意力机制,使用Bert模型
预训练一个深度双向语言模型,以用于语义向量转换;使用所述深度双向语言模型,对所述
地址文本信息进行拼接处理,进行词向量和句向量转换,以生成用户地址特征数据;建立训
练数据集和测试数据集,所述训练数据集包括历史用户的用户地址特征数据和抗风险表现
数据;构建风险预测模型,使用所述训练数据集训练该风险预测模型;使用所述风险预测模
型,计算当前用户的风险评估值,以对所述当前用户进行风险预测。
[0006] 优选地,所述提取历史用户在至少一个特定时间点的用户地址信息包括:提取历史用户在申请、注册和登录时的地址文本信息,所述地址文本信息包括经纬度信息、详细地
理信息。
[0007] 优选地,所述深度双向语言模型包含如下结构层:第一层为输入层,将待预测的文本句输入到所述深度双向语言模型中;第二层为词向量构造层,将每个词映射到低维向量;
第三层为Bi‑LSTM网络层,基于各词向量和句向量,使用Bi‑LSTM从词向量层抽取相关度特
征;第四层为自注意力机制层,生成与各词对应的权重向量,通过与各权重向量相乘,使每
一次迭代中的词级的特征合并为句级的特征,以得到用户地址特征数据;第五层为输出层,
将该用户地址特征数据用于用户风险分类。
[0008] 优选地,所述生成用户地址特征数据包括:使用Transformer双向编码器表示,通过联合调节各层中的上下文来预先训练深度双向表示,以得到各词的词向量、各词与文本
句中其他词的相关度及各词的权重;根据不同词之间的相关度及各词在文本句中的权重,
进行参数调整,重新得到各词的词向量,以生成用户地址特征数据。
[0009] 优选地,所述各词的词向量包括词向量、分段向量和位置向量。
[0010] 优选地,所述构建风险预测模型包括:使用Bert模型,将深度双向语言模型增设Sigmoid层作为附加输出层,以得到所述风险预测模型。
[0011] 优选地,还包括:设定用于预先训练深度双向表示的预训练任务,所述预训练任务为多个任务,包括词预测任务和下一文本句预测任务。
[0012] 优选地,所述预训练任务包括:随机遮蔽特定数量的词,使用完形填空机制进行预测所述被遮蔽的词;在数据生成执行时,在80%的时间段,用遮蔽标记替换单词;在10%的时
间段,用一个随机的单词标记替换单词;在10%的时间段,保持原单词不变。
[0013] 优选地,所述预训练任务还包括:预先训练一个二分类任务作为下一文本句预测任务,并将该下一文本句预测任务加入到词预测任务中,进行多任务学习;获取50%的样本
句子对,将该样本句子对中的一个样本句替换为随机句以作为负样本,以用于建立训练数
据集。
[0014] 优选地,所述抗风险表现数据包括逾期概率和/违约概率。
[0015] 优选地,使用无监督聚类算法,对所述历史用户的位置文本信息、所抽取的地址文本信息、所述用户地址特征数据进行聚类分析;基于聚类分析结果,确定不同用户地址之间
的风险对应关系,以标注各用户的风险标签,以用于建立训练数据集。
[0016] 此外,本发明还提供了一种基于常驻地的风险预测装置,包括:获取模块,用于获取历史用户的位置文本信息,提取历史用户在至少一个特定时间点的地址文本信息;处理
模块,基于自注意力机制,使用Bert模型预训练一个深度双向语言模型,以用于语义向量转
换;数据生成模块,使用所述深度双向语言模型,对所述地址文本信息进行拼接处理,进行
词向量和句向量转换,以生成用户地址特征数据;建立模块,用于建立训练数据集和测试数
据集,所述训练数据集包括历史用户的用户地址特征数据和抗风险表现数据;模型构建模
块,用于构建风险预测模型,使用所述训练数据集训练该风险预测模型;预测模块,使用所
述风险预测模型,计算当前用户的风险评估值,以对所述当前用户进行风险预测。
[0017] 优选地,还包括提取模块,所述提取模块用于提取历史用户在申请、注册和登录时的地址文本信息,所述地址文本信息包括经纬度信息、详细地理信息。
[0018] 优选地,所述深度双向语言模型包含如下结构层:第一层为输入层,将待预测的文本句输入到所述深度双向语言模型中;第二层为词向量构造层,将每个词映射到低维向量;
第三层为Bi‑LSTM网络层,基于各词向量和句向量,使用Bi‑LSTM从词向量层抽取相关度特
征;第四层为自注意力机制层,生成与各词对应的权重向量,通过与各权重向量相乘,使每
一次迭代中的词级的特征合并为句级的特征,以得到用户地址特征数据;第五层为输出层,
将该用户地址特征数据用于用户风险分类。
[0019] 优选地,所述生成用户地址特征数据包括:使用Transformer双向编码器表示,通过联合调节各层中的上下文来预先训练深度双向表示,以得到各词的词向量、各词与文本
句中其他词的相关度及各词的权重;根据不同词之间的相关度及各词在文本句中的权重,
进行参数调整,重新得到各词的词向量,以生成用户地址特征数据。
[0020] 优选地,所述各词的词向量包括词向量、分段向量和位置向量。
[0021] 优选地,所述构建风险预测模型包括:使用Bert模型,将深度双向语言模型增设Sigmoid层作为附加输出层,以得到所述风险预测模型。
[0022] 优选地,还包括设定模块,所述设定模块用于设定用于预先训练深度双向表示的预训练任务,所述预训练任务为多个任务,包括词预测任务和下一文本句预测任务。
[0023] 优选地,所述预训练任务包括:随机遮蔽特定数量的词,使用完形填空机制进行预测所述被遮蔽的词;在数据生成执行时,在80%的时间段,用遮蔽标记替换单词;在10%的时
间段,用一个随机的单词标记替换单词;在10%的时间段,保持原单词不变。
[0024] 优选地,所述预训练任务还包括:预先训练一个二分类任务作为下一文本句预测任务,并将该下一文本句预测任务加入到词预测任务中,进行多任务学习;获取50%的样本
句子对,将该样本句子对中的一个样本句替换为随机句以作为负样本,以用于建立训练数
据集。
[0025] 优选地,所述抗风险表现数据包括逾期概率和/违约概率。
[0026] 优选地,使用无监督聚类算法,对所述历史用户的位置文本信息、所抽取的地址文本信息、所述用户地址特征数据进行聚类分析;基于聚类分析结果,确定不同用户地址之间
的风险对应关系,以标注各用户的风险标签,以用于建立训练数据集。
[0027] 此外,本发明还提供了一种电子设备,其中,该电子设备包括:处理器;以及,存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行本发明所述的
基于深度双向语言模型的风险预测方法。
[0028] 此外,本发明还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现本发明所述的基于深
度双向语言模型的风险预测方法。
[0029] 有益效果
[0030] 与现有技术相比,本发明使用Bert模型,采用表义能力更强的双向Transformer网络结构,对大量语料进行预训练,能够得到更通用的深度双向语言模型,并能够提高模型的
语言理解力,还能够提高模型精度;通过将深度双向语言模型增设Sigmoid层得到风险预测
模型,能够对位置(或地理)文本信息进行有效特征数据挖掘,由此,能够进一步优化特征数
据的提取方法,能够更准确地识别风险用户,并能够防止过拟合,还能够进一步提高模型精
度。

附图说明

[0031] 为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本
发明本发明示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前
提下,可以根据这些附图获得其他实施例的附图。
[0032] 图1是本发明的实施例1的基于深度双向语言模型的风险预测方法的一示例的流程图。
[0033] 图2是本发明的实施例1的基于深度双向语言模型的风险预测方法的另一示例的流程图。
[0034] 图3是本发明的实施例1的基于深度双向语言模型的风险预测方法的又一示例的流程图。
[0035] 图4是本发明的实施例2的基于深度双向语言模型的风险预测装置的一示例的示意图。
[0036] 图5是本发明的实施例2的基于深度双向语言模型的风险预测装置的另一示例的示意图。
[0037] 图6是本发明的实施例2的基于深度双向语言模型的风险预测装置的又一示例的示意图。
[0038] 图7是根据本发明的一种电子设备的示例性实施例的结构框图。
[0039] 图8是根据本发明的计算机可读介质的示例性实施例的结构框图。

具体实施方式

[0040] 现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性
实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术
人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重
复描述。
[0041] 在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
[0042] 在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发
明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
[0043] 附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合
并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0044] 附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现
这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0045] 应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但这不应受这些定语限制。这些定语乃是用以区分一者与另一者。例
如,第一器件亦可称为第二器件而不偏离本发明实质的技术方案。
[0046] 术语“和/或”或者“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
[0047] 为了提高模型预测精度,准确评估用户风险情况,进一步改进特征数据提取方法,本发明提供了一种基于深度双向语言模型的风险预测方法,通过使用Bert模型,采用表义
能力更强的双向Transformer网络结构,对大量语料进行预训练,能够得到更通用的深度双
向语言模型,并能够提高模型的语言理解力,还能够提高模型精度。此外,还通过将深度双
向语言模型增设Sigmoid层得到风险预测模型,能够对位置(或地理)文本信息进行有效特
征数据挖掘,能够更准确地识别风险用户,并能够防止过拟合,还能够进一步提高模型精
度。以下将详细描述具体风险预测过程。
[0048] 实施例1
[0049] 下面,将参照图1至图3描述本发明的基于深度双向语言模型的风险预测方法的实施例。
[0050] 图1为本发明的基于深度双向语言模型的风险预测方法的流程图。如图1所示,该风险预测方法包括如下步骤。
[0051] 步骤S101,获取历史用户的位置文本信息,提取历史用户在至少一个特定时间点的地址文本信息。
[0052] 步骤S102,基于自注意力机制,使用Bert模型预训练一个深度双向语言模型,以用于语义向量转换。
[0053] 步骤S103,使用所述深度双向语言模型,对所述地址文本信息进行拼接处理,进行词向量和句向量转换,以生成用户地址特征数据。
[0054] 步骤S104,建立训练数据集和测试数据集,所述训练数据集包括历史用户的用户地址特征数据和抗风险表现数据。
[0055] 步骤S105,构建风险预测模型,使用所述训练数据集训练该风险预测模型。
[0056] 步骤S106,使用所述风险预测模型,计算当前用户的风险评估值,以对所述当前用户进行风险预测。
[0057] 首先,在步骤S101中,获取历史用户的位置文本信息,提取历史用户在至少一个特定时间点的地址文本信息。
[0058] 例如,通过第三方数据库,或者从某金融产品APP使用数据中,获取历史用户的用户特征信息和位置文本信息。
[0059] 具体地,特定时间点包括金融产品的请求节点、注册节点、登录节点、交易节点、违约节点和归还节点等。
[0060] 需要说明的是,在本示例中,金融产品为金融服务产品、资金管理产品或理财产品等。但是不限于此,上述仅作为示例进行说明,不能理解成对本发明的限制。
[0061] 优选地,提取历史用户在申请、注册和登录时的地址文本信息,所述地址文本信息包括经纬度信息、详细地理信息。
[0062] 例如,提取历史用户A在注册时的地址文本信息“北京市朝阳区*街道*号,经度为**度、维度为**度”。再例如,提取该历史用户A在*年*月*日登录时的地址文本信息“河北
省*市*县**乡**村,经度为**度、纬度为**度”。再例如,提取该历史用户A在资源归还节点
的地址文本信息“北京市昌平区*小区*楼”。
[0063] 需要说明的是,上述仅作为优选示例进行说明,不能理解成对本发明的限制。在其他示例中,还可以提取三个节点以上的地址文本信息,或者提取所有节点的地址文本信息
等。
[0064] 接下来,在步骤S102中,基于自注意力机制,使用Bert模型预训练一个深度双向语言模型,以用于语义向量转换。
[0065] 具体地,构建基于自注意力机制和BERT(Bidirectional  Encoder Representations from Transformers)的语言模型。
[0066] 在本示例中,为深度双向语言模型,该深度双向语言模型具体包含如下结构层:第一层为输入层,将待预测的文本句输入到所述深度双向语言模型中;第二层为词向量构造
层,将每个词映射到低维向量;第三层为Bi‑LSTM网络层,基于各词向量和句向量,使用Bi‑
LSTM从词向量层抽取相关度特征;第四层为自注意力机制层,生成与各词对应的权重向量,
通过与各权重向量相乘,使每一次迭代中的词级的特征合并为句级的特征,以得到用户地
址特征数据;第五层为输出层,将该用户地址特征数据用于用户风险分类。
[0067] 具体地,上述深度双向语言模型主要使用双向 Transformer 编码层,舍弃了RNN的循环式网络结构,并完全基于注意力机制。所述深度双向语言模型使用Transformer的
Encoder进行文本特征抽取,Encoder由自注意力机制(Self‑Attention)和网络(Feed 
Fordward Neural Network)组成,其中,Encoder的核心是Self‑Attention,并且能够确定
每一个词和当前文本句中其他词之间的关系,而且没有距离限制,由此,能够充分挖掘到每
个词的左右上下文信息,从而得到词的双向表示。
[0068] 在本示例中,所述深度双向语言模型是使用一段地址文本作为建模特征数据,其中,该一段地址文本包括上述所提取用户的至少三个特定时间点的地址文本信息。
[0069] 如图2所示,还包括设定用于预先训练深度双向表示的预训练任务的步骤S201。
[0070] 在步骤S201中,设定用于预先训练深度双向表示的预训练任务,以用于预训练该深度双向语言模型。
[0071] 在本示例中,所述预训练任务为多个任务,该多个任务包括词预测任务和下一文本句预测任务。
[0072] 具体地,随机遮蔽特定数量的词,使用完形填空机制进行预测所述被遮蔽的词,其中,特定数量为当前文本句的词总量的10%~30%,优选为16%,更优选为14%;在数据生成执
行时,在80%的时间段,用遮蔽标记替换单词;在10%的时间段,用一个随机的单词标记替换
单词;在10%的时间段,保持原单词不变。
[0073] 进一步地,预先训练一个二分类任务作为下一文本句预测任务,并将该下一文本句预测任务加入到词预测任务中,进行多任务学习。
[0074] 更进一步地,从所提取的所有历史用户的地址文本信息中,获取50%的样本句子对,将该样本句子对中的一个样本句替换为随机句以作为负样本,以用于建立用于预训练
的训练数据集,并使用Transformer双向编码器表示,通过联合调节各层中的上下文来预先
训练深度双向表示。由此,使用Bert模型,采用表义能力更强的双向Transformer网络结构,
对大量语料进行预训练,能够得到更通用的深度双向语言模型,并能够提高模型的语言理
解力,还能够提高模型精度。
[0075] 需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
[0076] 接下来,在步骤S103中,使用所述深度双向语言模型,对所述地址文本信息进行拼接处理,进行词向量和句向量转换,以生成用户地址特征数据。
[0077] 在本示例中,提取历史用户在申请、注册和登录时的地址文本信息,分别对每个地址文本信息进行分词,并对这三个地址文本信息进行拼接处理,合并成一个特定长度的地
址文本句。
[0078] 具体地,对上述所提取用户的地址文本信息的各词和合并后的地址文本句,使用预训练好的深度双向语言模型进行深度双向表示,以得到各词的词向量、各词与文本句(即
合并后的地址文本句)中其他词的相关度及各词的权重。
[0079] 进一步地,根据不同词之间的相关度及各词在当前文本句中的权重,进行参数调整,重新得到各词的词向量,以生成用户地址特征数据,其中,所述各词的词向量包括词向
量、分段向量和位置向量,即所生成的每个用户地址特征数据都包括词向量、分段向量和位
置向量。
[0080] 需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
[0081] 接下来,在步骤S104中,建立训练数据集和测试数据集,所述训练数据集包括历史用户的用户地址特征数据和抗风险表现数据。
[0082] 具体地,对训练数据集,定义好坏样本,标签为0,1,其中,1表示用户违约概率(和/或逾期概率)为大于等于特定阈值的样本,0表示用户小于违约概率(和/或逾期概率)该特
定阈值的样本。通常,所计算出的风险评估值(在本示例中为逾期概率)是0~1之间的数值,
用于表示用户风险情况。用户的风险评估值越接近1,表示用户的抗风险能力越小(即资金
回收越有风险),而用户的风险评估值越接近0,表示用户的抗风险能力越大(即,资金回收
越好)。
[0083] 如图3所示,还包括对所述历史用户的位置文本信息、所抽取的地址文本信息、所述用户地址特征数据进行聚类分析的步骤S301。
[0084] 在步骤S301中,对所述历史用户的位置文本信息、所抽取的地址文本信息、所述用户地址特征数据进行聚类分析。
[0085] 优选地,使用K‑means聚类算法,进行聚类分析。
[0086] 进一步地,基于聚类分析结果,确定不同用户地址之间的风险对应关系,标注各用户的风险标签,即给定各用户一个风险系数值。
[0087] 具体地,风险对应关系是用户的地址文本信息与该用户的抗风险能力形成对应关系。
[0088] 在另一示例中,基于不同用户的地址文本信息的向量相似度的计算,确定两个或更多个用户的风险对应关系。
[0089] 进一步地,根据所述风险对应关系,用户的地址文本信息,能够确定该用户的抗风险值。优选地,训练数据集还包括历史用户的抗风险值。或者使用标注有风险标签的历史用
户的用户地址特征数据和抗风险表现数据,建立训练数据集。
[0090] 在本示例中,所述抗风险表现数据包括逾期概率和/违约概率。
[0091] 具体地,输入特征为用户地址特征数据、抗风险值、用户特征数据,输出特征为风险评估值。
[0092] 需要说明的是,对于输入特征,在其他示例中,还可以仅包括用户地址特征数据,或者,还可以包括社交文本数据、职业类别的表现数据等。上述仅作为优选示例进行说明,
不能理解成对本发明的限制。
[0093] 进一步地,还包括建立测试数据集,并评估参数及相应阈值,其中,该评估参数包括AUC值、KS值。还使用所述测试数据进行模型参数调整和模型效果验证。
[0094] 优选地,在评估参数小于等于相应阈值的情况下,进行模型参数调整,直到评估参数大于相应阈值为止。
[0095] 需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
[0096] 接下来,在步骤S105中,构建风险预测模型,使用所述训练数据集训练该风险预测模型。
[0097] 在本示例中,所述构建风险预测模型包括:使用Bert模型,将深度双向语言模型增设Sigmoid层作为附加输出层,以得到所述风险预测模型。
[0098] 具体地,在最外层加入Sigmoid函数形成附加输出层,输出风险评估值,该风险评估值用于表示用户倾向于逾期或违约的概率,所述风险评估值是0~1之间的一个数值。
[0099] 进一步地,使用步骤S104中所建立的训练数据集,训练所述风险预测模型。
[0100] 优选地,还包括设定评估参数,其中,该评估参数包括AUC值、KS值,并且所述评估参数用于调整模型参数和验证模型效果。
[0101] 具体地,使用所建立的测试数据集,在模型训练过程中,计算上述评估参数,进行模型效果验证,并进行模型参数调整,以得到更优化的风险预测模型。
[0102] 在模型效果验证中,在训练数据集上的AUC值为0.717, 在测试数据集上的AUC值为0.687,而在训练数据集上的KS值为0.341,在测试数据集上的KS值为0.287。因此,本发明
通过将深度双向语言模型增设Sigmoid层得到风险预测模型,能够对位置(或地理)文本信
息进行有效特征数据挖掘,由此,能够进一步优化特征数据的提取方法,能够更准确地识别
风险用户,并能够防止过拟合,还能够进一步提高模型精度。
[0103] 接下来,在步骤S106中,使用所述风险预测模型,计算当前用户的风险评估值,以对所述当前用户进行风险预测。
[0104] 在本示例中,获取当前用户的位置文本信息,并提取该当前用户的地址文本信息,以生成所述当前用户的用户地址特征数据,该用户地址特征数据包括词向量、分段向量和
位置向量。
[0105] 需要说明的是,由于提取当前用户的地址文本信息与步骤S101中历史用户的地址文本信息的提取方法相同,因此,省略了对其的描述。另外,由于当前用户的用户地址特征
数据的生成方法与步骤S103中历史用户的用户地址特征方法相同,因此,省略了对其的描
述。
[0106] 进一步地,将所生成的用户地址特征数据、风险系数值、用户特征数据输入所述风险预测模型,以计算当前用户的风险评估值。
[0107] 在本示例中,还包括预设风险阈值,该风险阈值用于判断风险用户和非风险用户,其中,将所计算风险评估值大于或等于所述风险阈值的用户,判断为风险用户,将所计算风
险评估值小于所述风险阈值的用户,判断为非风险用户。
[0108] 优选地,还包括设定多个风险等级阈值,该多个风险等级阈值用于判断用户的风险情况并将用户的风险情况细分成多个区段。
[0109] 具体地,将所计算的用户风险评估值与各风险阈值进行比较,判断用户所属的风险区段,以更精确地判断用户的风险情况。
[0110] 需要说明的是,上述仅作为优选示例进行说明,不能理解成对本发明的限制。
[0111] 本领域技术人员可以理解,实现上述实施例的全部或部分步骤被实现为由计算机数据处理设备执行的程序(计算机程序)。在该计算机程序被执行时,可以实现本发明提供
的上述方法。而且,所述的计算机程序可以存储于计算机可读存储介质中,该存储介质可以
是磁盘、光盘、ROM、RAM等可读存储介质,也可以是多个存储介质组成的存储阵列,例如磁盘
或磁带存储阵列。所述的存储介质不限于集中式存储,其也可以是分布式存储,例如基于云
计算的云存储。
[0112] 与现有技术相比,本发明使用Bert模型,采用表义能力更强的双向Transformer网络结构,对大量语料进行预训练,能够得到更通用的深度双向语言模型,并能够提高模型的
语言理解力,还能够提高模型精度;通过将深度双向语言模型增设Sigmoid层得到风险预测
模型,能够对位置(或地理)文本信息进行有效特征数据挖掘,由此,能够进一步优化特征数
据的提取方法,能够更准确地识别风险用户,并能够防止过拟合,还能够进一步提高模型精
度。
[0113] 实施例2
[0114] 下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例的补充;对于在本发明装置
实施例中未披露的细节,可以参照上述方法实施例来实现。
[0115] 参照图4、图5和图6,本发明还提供了一种基于深度双向语言模型的风险预测装置400,包括:获取模块401,用于获取历史用户的位置文本信息,提取历史用户在至少一个特
定时间点的地址文本信息;处理模块402,基于自注意力机制,使用Bert模型预训练一个深
度双向语言模型,以用于语义向量转换;数据生成模块403,使用所述深度双向语言模型,对
所述地址文本信息进行拼接处理,进行词向量和句向量转换,以生成用户地址特征数据;建
立模块404,用于建立训练数据集和测试数据集,所述训练数据集包括历史用户的用户地址
特征数据和抗风险表现数据;模型构建模块405,用于构建风险预测模型,使用所述训练数
据集训练该风险预测模型;预测模块406,使用所述风险预测模型,计算当前用户的风险评
估值,以对所述当前用户进行风险预测。
[0116] 如图5所示,还包括提取模块501,所述提取模块501用于提取历史用户在申请、注册和登录时的地址文本信息,所述地址文本信息包括经纬度信息、详细地理信息。
[0117] 优选地,所述深度双向语言模型包含如下结构层:第一层为输入层,将待预测的文本句输入到所述深度双向语言模型中;第二层为词向量构造层,将每个词映射到低维向量;
第三层为Bi‑LSTM网络层,基于各词向量和句向量,使用Bi‑LSTM从词向量层抽取相关度特
征;第四层为自注意力机制层,生成与各词对应的权重向量,通过与各权重向量相乘,使每
一次迭代中的词级的特征合并为句级的特征,以得到用户地址特征数据;第五层为输出层,
将该用户地址特征数据用于用户风险分类。
[0118] 优选地,还包括:使用Transformer双向编码器表示,通过联合调节各层中的上下文来预先训练深度双向表示,以得到各词的词向量、各词与文本句中其他词的相关度及各
词的权重;根据不同词之间的相关度及各词在文本句中的权重,进行参数调整,重新得到各
词的词向量,以生成用户地址特征数据。
[0119] 优选地,所述各词的词向量包括词向量、分段向量和位置向量。
[0120] 优选地,所述构建风险预测模型包括:使用Bert模型,将深度双向语言模型增设Sigmoid层作为附加输出层,以得到所述风险预测模型。
[0121] 如图6所示,还包括设定模块601,所述设定模块601用于设定用于预先训练深度双向表示的预训练任务,所述预训练任务为多个任务,包括词预测任务和下一文本句预测任
务。
[0122] 优选地,所述预训练任务包括:随机遮蔽特定数量的词,使用完形填空机制进行预测所述被遮蔽的词;在数据生成执行时,在80%的时间段,用遮蔽标记替换单词;在10%的时
间段,用一个随机的单词标记替换单词;在10%的时间段,保持原单词不变。
[0123] 优选地,所述预训练任务还包括:预先训练一个二分类任务作为下一文本句预测任务,并将该下一文本句预测任务加入到词预测任务中,进行多任务学习;获取50%的样本
句子对,将该样本句子对中的一个样本句替换为随机句以作为负样本,以用于建立训练数
据集。
[0124] 优选地,所述抗风险表现数据包括逾期概率和/违约概率。
[0125] 优选地,使用无监督聚类算法,对所述历史用户的位置文本信息、所抽取的地址文本信息、所述用户地址特征数据进行聚类分析;基于聚类分析结果,确定不同用户地址之间
的风险对应关系,以标注各用户的风险标签,以用于建立训练数据集。
[0126] 需要说明的是,在实施例2中,省略了与实施例1相同的部分的说明。
[0127] 本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模
块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0128] 与现有技术相比,本发明使用Bert模型,采用表义能力更强的双向Transformer网络结构,对大量语料进行预训练,能够得到更通用的深度双向语言模型,并能够提高模型的
语言理解力,还能够提高模型精度;通过将深度双向语言模型增设Sigmoid层得到风险预测
模型,能够对位置(或地理)文本信息进行有效特征数据挖掘,由此,能够进一步优化特征数
据的提取方法,能够更准确地识别风险用户,并能够防止过拟合,还能够进一步提高模型精
度。
[0129] 实施例3
[0130] 下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节,应视为对
于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参
照上述方法或装置实施例来实现。
[0131] 图7是根据本发明的一种电子设备的示例性实施例的结构框图。下面参照图7来描述根据本发明该实施例的的电子设备200。图7显示的电子设备200仅仅是一个示例,不应对
本发明实施例的功能和使用范围带来任何限制。
[0132] 如图7所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储
单元220和处理单元210)的总线230、显示单元240等。
[0133] 其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子设备的处理方法部分中描述的根据本发
明各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图1所示的步骤。
[0134] 所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
[0135] 所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序
模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0136] 总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构
的局域总线。
[0137] 电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得
该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调
器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以
通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,
例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当
明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限
于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数
据备份存储系统等。
[0138] 通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发
明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算
机可读的存储介质(可以是CD‑ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一
台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当
所述计算机程序被一个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上
述方法。
[0139] 如图8所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、
光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更
具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存
取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式
紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0140] 所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁
信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何
可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或
者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包
括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0141] 可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的
过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户
计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算
设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远
程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网
(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商
来通过因特网连接)。
[0142] 综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理
器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者
全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分
或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明
的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信
号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0143] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种
通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发
明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明
的保护范围之内。