一种基于逻辑回归的员工操作风险预测方法转让专利

申请号 : CN202011491129.9

文献号 : CN112418738B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 向阳李锦松颜科琦陈继春黄文邬小峰岳雨蒂程云黄奕乐张欣华崔文军李威曾浩王承林

申请人 : 泸州银行股份有限公司富华融科(成都)科技有限公司泸州老窖集团有限责任公司

摘要 :

本发明提供一种基于逻辑回归的员工操作风险预测方法,包括:S1,采集操作风险点清单数据和员工信息数据;S2,对所述操作风险点清单数据中的风险点进行分类;S3,提取各类风险点的操作风险事件和员工信息数据形成操作风险数据集;S4,根据操作风险事件的发生情况给员工打标签;S5,对每类风险点操作风险数据集中的员工信息数据分别进行数据预处理;S6,基于员工标签,对每类风险点分别建立逻辑回归模型;S7,使用经数据预处理后每类风险点操作风险数据集中的员工信息数据训练对应的逻辑回归模型;S8,利用训练好的逻辑回归模型计算员工发生各类操作风险事件的概率。本发明收集员工信息数据,监控员工行为,不需人工实地检查,减少人力成本。

权利要求 :

1.一种基于逻辑回归的员工操作风险预测方法,其特征在于,包括如下步骤:S1,采集操作风险点清单数据和员工信息数据;所述员工信息数据包含以下采集范围:a.基础信息,包括:性别、年龄、教育水平、所属部门、岗位、请假次数、请假时长和调休时长;

b.工作信息,包括:工作内容、工作行为:在各系统中的登录、操作情况、任务数量、完成情况、任务完成耗时;职责权限、工作能力;工作沟通、工作日记:工作圈信息更新时间、工作圈信息条数、工作圈信息内容、沟通情况、工作日志更新次数、工作日志更新内容、公告阅读时长和公告阅读次数;

c.资金往来信息,包括:员工存款账户、交易内容、交易对手、交易金额、交易时间、员工投资账号、投资金额和投资时间;

d.操作风险信息,包括:操作风险事件库中的员工发生的操作风险事件和风险事件严重性;

S2,根据影响程度对所述操作风险点清单数据中的风险点进行分类;影响程度包括:涉及金额、法律影响、名誉影响、涉及范围和风险内容;

S3,提取各类风险点的操作风险事件和员工信息数据形成操作风险数据集;操作风险数据集中包括了该类风险点的操作风险事件,以及与该类风险点有关的员工信息数据;

S4,根据每类风险点操作风险数据集中的操作风险事件的发生情况给员工打标签;步骤S4中给员工打标签的方法为:发生过此类风险点的操作风险事件的员工在该类风险点的操作风险事件的标签为1,未发生过此类风险点的操作风险事件的员工在该类风险点的操作风险事件的标签为0;

S5,对每类风险点操作风险数据集中的员工信息数据分别进行数据预处理;步骤S5中所述数据预处理包括:

数据清洗:异常值处理、缺失值处理、重复值删除、定性变量转化为数值型变量、以及日期由文本格式转换为时间格式;

生成衍生变量:将数据清洗后的员工信息数据作为原始变量,通过设计衍生条件得到原始变量的衍生变量;

S6,基于员工标签,对每类风险点分别建立逻辑回归模型;

S7,使用经数据预处理后每类风险点操作风险数据集中的员工信息数据训练对应的逻辑回归模型;步骤S7包括如下子步骤:S71,将所属风险点类别的员工信息数据的原始变量和衍生变量划分为训练集和测试集;

S72,采用相关性分析和方差膨胀因子对训练集进行变量初筛;

S73,计算woe值和iv值,并根据计算得到的iv值从初筛后的训练集中选择要输入逻辑回归模型的输入数据;首先使用自动分箱函数将连续变量进行分箱离散化,在自动分箱函数中使用卡方检验合并分布类似的连续变量的箱子和分类变量的类别箱子,确定所有变量的箱子个数、箱子区间和woe值;系统给出推荐箱子个数,客户根据系统界面给出的变量好坏员工分布直方图对该变量的箱子个数进行调整;然后根据计算的woe值计算所有变量的iv值,iv值从初筛后的训练集中选择要输入逻辑回归模型的输入数据;其中,可以首先设定一个iv阈值筛选出iv值大的变量推荐给用户,再由用户在筛选后的变量中选择iv值大的变量作为逻辑回归模型的输入数据;

S74,选择的输入数据输入所述逻辑回归模型,并利用损失函数对所述逻辑回归模型进行训练;

S75,使用测试集输入训练后的逻辑回归模型进行评估,通过评估的逻辑回归模型即为训练好的逻辑回归模型;

S76,当采集的操作风险点清单数据和员工信息数据有更新,则将所述逻辑回归模型随之更新;

S8,利用训练好的逻辑回归模型计算员工发生各类操作风险事件的概率;步骤S8还包括,设定概率阈值,通过比较所述概率阈值与计算得到的员工发生各类操作风险事件的概率进行预警;所述概率阈值有多个,分别表示不同的风险影响程度;

S9,收集并统计员工发生各类操作风险事件的实际情况,将计算得到的员工发生各类操作风险事件的概率与实际情况进行比对,根据比对结果对所述逻辑回归模型进行优化;

具体为:监控当前逻辑回归模型预测效果,指标包括:模型区分能力ks值、模型预测准确性、模型稳定性PSI、模型误放率、好员工预测准确率、坏员工预测准确率;对逻辑回归模型进行持续监控,通过折线图对比模型不同时期变化趋势,在模型效果下降时及时调整模型。

2.根据权利要求1所述的基于逻辑回归的员工操作风险预测方法,其特征在于,步骤S6中建立所述逻辑回归模型的方法为,在线性回归基础上通过Sigmoid函数将结果映射到(0,

1)之间,从而得到计算员工发生某类操作风险事件的概率的逻辑回归模型;该逻辑回归模型的表达式为:

其中: 表示标签为1的第n个员工发生某类操作风险事件的概率;

为逻辑回归模型的输入数据,

T

即所属风险点类别的员工信息数据的原始变量和衍生变量;w为通过损失函数训练得到的最佳系数;xn表示所属风险点类别的第n个员工的员工信息数据的原始变量和衍生变量;wn表示xn的最佳系数;yn表示所属风险点类别的第n个员工的标签。

3.根据权利要求2所述的基于逻辑回归的员工操作风险预测方法,其特征在于,所述损失函数为:

其中,N表示所属风险点类别的员工总数。

4.根据权利要求1所述的基于逻辑回归的员工操作风险预测方法,其特征在于,所述预警通过平台消息或短信推送给管理人员。

说明书 :

一种基于逻辑回归的员工操作风险预测方法

技术领域

[0001] 本发明涉及金融机构及银行业操作风险防控管理领域,具体而言,涉及一种基于逻辑回归的员工操作风险预测方法。

背景技术

[0002] 目前,金融机构及银行业对员工操作风险行为的排查多局限于人工排查和监管,需要耗费大量的人力、物力。排查和监管范围往往仅局限于个别部门或支行,无法覆盖整个
机构或银行。银行的内控机制和监管机制存在弊端,操作风险的管控重事后清查,轻事前预
防,很多事件都是在风险发生后才开始进行详细调查,忽略了前期预防工作,使得机构错失
化风险于无形或降低风险成本的机会,造成不必要的损失。

发明内容

[0003] 本发明旨在提供一种基于逻辑回归的员工操作风险预测方法,以解决上述采用人工排查和监管员工操作风险存在的问题。
[0004] 本发明提供的一种基于逻辑回归的员工操作风险预测方法,包括如下步骤:
[0005] S1,采集操作风险点清单数据和员工信息数据;
[0006] S2,根据影响程度对所述操作风险点清单数据中的风险点进行分类;
[0007] S3,提取各类风险点的操作风险事件和员工信息数据形成操作风险数据集;
[0008] S4,根据每类风险点操作风险数据集中的操作风险事件的发生情况给员工打标签;
[0009] S5,对每类风险点操作风险数据集中的员工信息数据分别进行数据预处理;
[0010] S6,基于员工标签,对每类风险点分别建立逻辑回归模型;
[0011] S7,使用经数据预处理后每类风险点操作风险数据集中的员工信息数据训练对应的逻辑回归模型;
[0012] S8,利用训练好的逻辑回归模型计算员工发生各类操作风险事件的概率。
[0013] 进一步的,步骤S4中给员工打标签的方法为:发生过此类风险点的操作风险事件的员工在该类风险点的操作风险事件的标签为1,未发生过此类风险点的操作风险事件的
员工在该类风险点的操作风险事件的标签为0。
[0014] 进一步的,步骤S5中所述数据预处理包括:
[0015] 数据清洗:异常值处理、缺失值处理、重复值删除、定性变量转化为数值型变量、以及日期由文本格式转换为时间格式;
[0016] 生成衍生变量:将数据清洗后的员工信息数据作为原始变量,通过设计衍生条件得到原始变量的衍生变量。
[0017] 进一步的,步骤S6中建立所述逻辑回归模型的方法为,在线性回归基础上通过Sigmoid函数将结果映射到(0,1)之间,从而得到计算员工发生某类操作风险事件的概率的
逻辑回归模型;该逻辑回归模型的表达式为:
[0018]
[0019] 其中: 表示标签为1的第n个员工发生某类操作风险事件的概率;为逻辑回归模型的输入数据,
T
即所属风险点类别的员工信息数据的原始变量和衍生变量;w为通过损失函数训练得到的
最佳系数;xn表示所属风险点类别的第n个员工的员工信息数据的原始变量和衍生变量;wn
表示xn的最佳系数;yn表示所属风险点类别的第n个员工的标签。
[0020] 进一步的,所述损失函数为:
[0021]
[0022] 其中,N表示所属风险点类别的员工总数。
[0023] 进一步的,步骤S7包括如下子步骤:
[0024] S71,将所属风险点类别的员工信息数据的原始变量和衍生变量划分为训练集和测试集;
[0025] S72,采用相关性分析和方差膨胀因子对训练集进行变量初筛;
[0026] S73,计算woe值和iv值,并根据计算得到的iv值从初筛后的训练集中选择要输入逻辑回归模型的输入数据;
[0027] S74,选择的输入数据输入所述逻辑回归模型,并利用损失函数对所述逻辑回归模型进行训练;
[0028] S75,使用测试集输入训练后的逻辑回归模型进行评估,通过评估的逻辑回归模型即为训练好的逻辑回归模型;
[0029] S76,当采集的操作风险点清单数据和员工信息数据有更新,则将所述逻辑回归模型随之更新。
[0030] 进一步的,步骤S8还包括,设定概率阈值,通过比较所述概率阈值与计算得到的员工发生各类操作风险事件的概率进行预警。
[0031] 进一步的,所述概率阈值有多个,分别表示不同的风险影响程度。
[0032] 进一步的,所述预警通过平台消息或短信推送给管理人员。
[0033] 进一步的,所述预测方法还包括:
[0034] S9,收集并统计员工发生各类操作风险事件的实际情况,将计算得到的员工发生各类操作风险事件的概率与实际情况进行比对,根据比对结果对所述逻辑回归模型进行优
化。
[0035] 综上所述,由于采用了上述技术方案,本发明的有益效果是:
[0036] 1、本发明收集员工信息数据,监控员工行为,不需人工实地检查,减少人力成本。
[0037] 2、本发明引入机器学习算法,通过客观数据建立模型,能够在操作风险事件发生之前做出预警,重点关注高危风险员工,避免精力分散,减少不必要的损失。
[0038] 3、本发明根据数据自动更新模型,实时监控模型表现,便于及时人为介入修改模型。

附图说明

[0039] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限
定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获
得其他相关的附图。
[0040] 图1为本发明一实施例基于逻辑回归的员工操作风险预测方法的流程框图。
[0041] 图2为本发明一实施例训练逻辑回归模型的流程框图。
[0042] 图3为本发明另一实施例基于逻辑回归的员工操作风险预测方法的流程框图。

具体实施方式

[0043] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施
例的组件可以以各种不同的配置来布置和设计。
[0044] 因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通
技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范
围。
[0045] 实施例
[0046] 如图1所示,本实施例提出一种基于逻辑回归的员工操作风险预测方法,包括如下步骤:
[0047] S1,采集操作风险点清单数据和员工信息数据;
[0048] 所述员工信息数据包括个人信息数据和工作行为数据,采集数据的主要系统来源有操作风险系统、OA系统、各类业务系统,如:理财系统、柜面系统、信贷系统等,将采集的数
据作为后续分析的基础,有助于提高预测精度。本实施例中,所述员工信息数据包含以下采
集范围:
[0049] a.基础信息,包括:性别、年龄、教育水平、所属部门、岗位、请假次数、请假时长、调休时长等;
[0050] b.工作信息,包括:工作内容、工作行为:在各系统中的登录、操作情况、任务数量、完成情况、任务完成耗时;职责权限、工作能力;工作沟通、工作日记:工作圈信息更新时间、
工作圈信息条数、工作圈信息内容、沟通情况、工作日志更新次数、工作日志更新内容、公告
阅读时长、公告阅读次数等;
[0051] c.资金往来信息,包括:员工存款账户、交易内容、交易对手、交易金额、交易时间、员工投资账号、投资金额、投资时间等;
[0052] d.操作风险信息,包括:操作风险事件库中的员工发生的操作风险事件、风险事件严重性等。
[0053] 上述所列衡量指标可根据内容是定量或定性的区别进行划分。定量数据主要根据历史数据分析得出,使用数值的形式对分析维度进行展示,如工作完成度、工作总量等。
[0054] S2,根据影响程度对所述操作风险点清单数据中的风险点进行分类;
[0055] 即是由机构内或行内业务专家对本机构内操作风险点清单进行梳理,根据每个风险点的影响程度对风险点进行分类,影响程度包括:涉及金额、法律影响、名誉影响、涉及范
围、风险内容等。
[0056] S3,提取各类风险点的操作风险事件和员工信息数据形成操作风险数据集;
[0057] 也即是说,根据风险点分类形成各个分类的操作风险数据集,在操作风险数据集中包括了该类风险点的操作风险事件,以及与该类风险点有关的员工信息数据。
[0058] S4,根据每类风险点操作风险数据集中的操作风险事件的发生情况给员工打标签;
[0059] 具体地,所述给员工打标签的方法为:发生过此类风险点的操作风险事件的员工在该类风险点的操作风险事件的标签为1,未发生过此类风险点的操作风险事件的员工在
该类风险点的操作风险事件的标签为0。
[0060] S5,对每类风险点操作风险数据集中的员工信息数据分别进行数据预处理;
[0061] 所述数据预处理包括:
[0062] 数据清洗:异常值处理(如员工年龄100岁删除)、缺失值处理、重复值删除、定性变量转化为数值型变量(如:学历为高中及以下为1、大专为2、本科为3、硕士为4、博士为5)、以
及日期由文本格式转换为时间格式。一般地,将数据清洗的代码抽象出来封装成函数,方便
在系统中调用。
[0063] 生成衍生变量:将数据清洗后的员工信息数据作为原始变量,通过设计衍生条件得到原始变量的衍生变量。衍生变量可以由业务人员根据业务经验在系统中衍生变量创建
页面创建。该衍生变量创建页面会列出所有原始变量,通过对已有的原始变量进行组合运
算,如:+、‑、*、/、^等,生成新的变量,即得到衍生变量。可以通过设计衍生条件,根据衍生条
件生成衍生变量计算公式,如:工作岗位为柜员,工作量公式为处理账户数,工作岗位为信
贷员工,工作量为贷款金额等。
[0064] S6,基于员工标签,对每类风险点分别建立逻辑回归模型;
[0065] 建立所述逻辑回归模型(logistic模型)的方法为,在线性回归基础上通过Sigmoid函数将结果映射到(0,1)之间,从而得到计算员工发生某类操作风险事件的概率的
逻辑回归模型;
[0066] Sigmoid函数是一种阶跃函数(step function)。用yn表示所属风险点类别的第n个员工的标签,通过上述可知发生过此类风险点的操作风险事件的员工在该类风险点的操
作风险事件的标签为1,未发生过此类风险点的操作风险事件的员工在该类风险点的操作
风险事件的标签为0,也即是说,yn∈(0,1)。把第n个员工发生操作风险事件的概率看做pn,
则标签为1(即yn=1)的员工发生操作风险事件的概率为:
[0067]
[0068] 其中, 为逻辑回归模型的输入数据,即所属风险点类别的员工信息数据的原始变量和衍生变量,例如:员工与客
T
户之间大额资金往来类操作风险,其数据有往来金额、往来频率等;w 为通过损失函数训练
得到的最佳系数;xn表示所属风险点类别的第n个员工的员工信息数据的原始变量和衍生
变量;wn表示xn的最佳系数。当z趋近正无穷时,概率pn趋近于1,当z趋近负无穷时,pn趋近于
0。自变量取值为任意实数,通过线性回归中可以得到一个预测值z,再将该值映射到
Sigmoid函数中,这样就完成了由值到概率的转换。
[0069] 同理,标签为0(即yn=0)的员工发生操作风险事件的概率为:
[0070]
[0071] 由此,该逻辑回归模型的表达式可以写为:
[0072]
[0073] 对于损失函数,假设各个员工之间相互独立,则根据最大似然函数这组输入数据发生操作风险事件的概率可以写成:
[0074]
[0075] 对上述似然函数取对数,取对数不影响原本函数的单调性,而且会放大概率之间的差异,更好的区分各个样本的类别。转换为:
[0076]
[0077] 然后在log P总前面加一个负号变为最小化负对数似然函数:
[0078]
[0079] 最小化负对数似然函数对N个样本(N也表示所属风险点类别的员工总数)取平均即得到损失函数:
[0080]
[0081] 由此通过在0‑1分布的基础上取对数然后再取负数,将该损失函数与0‑1分布的分布律对应起来。当yn=1时,pn越接近1,损失函数越小;当yn=0时,pn越接近0,损失函数越
小。因此,通过训练,可以迫使pn趋近于yn,从而正确分类。
[0082] S7,使用经数据预处理后每类风险点操作风险数据集中的员工信息数据训练对应的逻辑回归模型;
[0083] 具体地,步骤S7包括如下子步骤:
[0084] S71,将所属风险点类别的员工信息数据的原始变量和衍生变量划分为训练集和测试集;
[0085] S72,采用相关性分析和方差膨胀因子对训练集进行变量初筛;
[0086] S73,计算woe值和iv值,并根据计算得到的iv值从初筛后的训练集中选择要输入逻辑回归模型的输入数据;
[0087] 首先使用自动分箱函数将连续变量进行分箱(即分段)离散化,在自动分箱函数中使用卡方检验合并分布类似的连续变量的箱子和分类变量的类别箱子,确定所有变量的箱
子个数、箱子区间和woe值。系统给出推荐箱子个数,客户可根据系统界面给出的该变量好
坏员工分布直方图对该变量的箱子个数进行调整。然后根据计算的woe值计算所有变量的
iv值,iv值从初筛后的训练集中选择要输入逻辑回归模型的输入数据。其中,可以首先设定
一个iv阈值筛选出iv值大(如iv>0.03)的变量推荐给用户,再由用户在筛选后的变量中选
择iv值大的变量作为逻辑回归模型的输入数据。
[0088] S74,选择的输入数据输入所述逻辑回归模型,并利用损失函数对所述逻辑回归模型进行训练;即利用损失函数能够得到wn的最佳值,从而完成模型训练。
[0089] S75,使用测试集输入训练后的逻辑回归模型进行评估,通过评估的逻辑回归模型即为训练好的逻辑回归模型;所述测试集也可以经过步骤S72和S73进行筛选后再输入训练
后的逻辑回归模型进行评估。评估结果可以通过图形化界面展示给用户,若用户判定评估
结果不满意,则重新选择变量训练所述逻辑回归模型。
[0090] S76,当采集的操作风险点清单数据和员工信息数据有更新,则将所述逻辑回归模型随之更新。也即是说,随着采集的数据不断积累,应当更新逻辑回归模型以更接近当前的
判定结果。另一方面,考虑到节约计算资源,可以设置所述逻辑回归模型定期更新。
[0091] S8,利用训练好的逻辑回归模型计算员工发生各类操作风险事件的概率。对于每类风险点都有一个训练好的逻辑回归模型,运用各类风险点的逻辑回归模型可以实现对员
工发生各类操作风险事件的概率进行预测。进一步的,步骤S8还包括,设定概率阈值,通过
比较所述概率阈值与计算得到的员工发生各类操作风险事件的概率进行预警。所述预警通
过平台消息或短信推送给管理人员,以及时通知到管理人员进行重点关注。再进一步,所述
概率阈值有多个,分别表示不同的风险影响程度,由此能够让管理人员直观地知晓风险等
级。
[0092] 在一些实施例中,所述预测方法还包括:
[0093] S9,收集并统计员工发生各类操作风险事件的实际情况,将计算得到的员工发生各类操作风险事件的概率与实际情况进行比对,根据比对结果对所述逻辑回归模型进行优
化。
[0094] 监控当前逻辑回归模型预测效果,指标包括:模型区分能力ks值、模型预测准确性、模型稳定性PSI、模型误放率(未超过预警概率阈值的员工中实际上发生该类操作风险
事件的比例)、好员工预测准确率(未超过预警概率阈值的员工中实际上也未发生该类操作
风险事件的比例)、坏员工预测准确率(实际上发生该类操作风险事件的员工中超过预警概
率阈值的比例)。其中好员工预测准确率、坏员工预测准确率的计算公式是基于本项目实际
情况得出。对逻辑回归模型进行持续监控,通过折线图对比模型不同时期变化趋势,在模型
效果下降时及时调整模型。
[0095] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包含在本发明的保护范围之内。