一种基于流式计算的风控方法、系统及设备转让专利
申请号 : CN202110603658.1
文献号 : CN113052516B
文献日 : 2022-01-04
发明人 : 张民遐 , 邓振鹏 , 曾德长 , 刘武阳
申请人 : 深圳高灯计算机科技有限公司
摘要 :
权利要求 :
1.一种基于流式计算的风控方法,其特征在于,该方法包括:根据当前业务数据获取至少一个风控指标值,包括:针对每个所述风控指标值,通过积分图算法计算每次获取的所述风控指标值的累加值,包括:确定每个时间间隔对应的风控指标值;
确定第一时间段内所有风控指标值的第一累加值,所述第一累加值为所述第一时间段内各个时间间隔对应的风控指标值的和;
确定第二时间段内所有风控指标值的第二累加值,所述第二累加值为所述第二时间段内各个时间间隔对应的风控指标值的和;
确定第三时间段内所有风控指标值的第三累加值,所述第三时间段为所述第二时间段的终止时间与所述第一时间段的终止时间之间的时间区间,所述第三累加值为所述第二累加值减去所述第一累加值;
确定至少一个风控特征,每个所述风控特征包括N个所述风控指标值,其中,N为大于或等于1的整数;
分别确定每个所述风控指标值对应的子风控策略,M个所述子风控策略组成一个风控策略,其中,M为大于或等于1的整数;并针对每个所述风控策略进行风控策略配置,所述风控策略配置包括:设定所述风控特征中每个风控指标值的阈值和权重,包括:根据每个所述风控指标值对应的历史业务数据,确定每个所述风控指标值对应的实际风控准确率;
根据每个所述风控指标值的实际风控准确率确定每个所述风控指标值的权重,包括:在所述风控指标值的实际风控准确率小于或等于第一预设阈值时,确定所述风控指标的权重为第一目标权重;
在所述风控指标值的实际风控准确率大于第一预设阈值且小于或等于第二预设阈值时,确定所述风控指标的权重为第二目标权重;
在所述风控指标值的实际风控准确率大于第二预设阈值且小于或等于第三预设阈值时,确定所述风控指标的权重为第三目标权重;
依次类推,在所述风控指标值的实际风控准确率大于第K预设阈值时,确定所述风控指标的权重为第K目标权重,其中,K为正整数;其中,各个目标权重通过以下方法获取:设定一个包含初始化权重的权重范围;
将所述权重范围进行网格划分,得到多个权重区间,其中,每个权重区间对应一个参考权重,多个所述参考权重集合成一个权重集;
在所述权重集中选取一个参考权重作为目标权重;
根据所述风控指标值以及所述风控指标值的阈值和权重计算所述当前业务数据的风险系数,包括:
针对N个风控指标值,分别计算每个所述风控指标值与其阈值的偏离系数,得到N个偏离系数;
对所述N个偏离系数进行加权求和得到所述风险系数,其中,每个偏离系数的权重为所述偏离系数对应的风控指标值在风控策略配置时设定的权重;
并根据所述风险系数对所述当前业务数据做出风控决策。
2.根据权利要求1所述的方法,其特征在于,设定所述风控特征中每个风控指标值的阈值,包括:
根据每个所述风控指标值对应的历史业务数据,确定所述历史业务数据的最值或概率值,根据所述最值或概率值确定所述阈值,其中,所述最值为最大值或最小值。
3.一种基于流式计算的风控系统,其特征在于,该系统包括:风控指标获取模块,其用于根据当前业务数据获取至少一个风控指标值,包括:针对每个所述风控指标值,通过积分图算法计算每次获取的所述风控指标值的累加值,,包括:确定每个时间间隔对应的风控指标值;
确定第一时间段内所有风控指标值的第一累加值,所述第一累加值为所述第一时间段内各个时间间隔对应的风控指标值的和;
确定第二时间段内所有风控指标值的第二累加值,所述第二累加值为所述第二时间段内各个时间间隔对应的风控指标值的和;
确定第三时间段内所有风控指标值的第三累加值,所述第三时间段为所述第二时间段的终止时间与所述第一时间段的终止时间之间的时间区间,所述第三累加值为所述第二累加值减去所述第一累加值;
风控特征确定模块,其用于确定至少一个风控特征,每个所述风控特征包括N个所述风控指标值,其中,N为大于或等于1的整数;
风控策略确定模块,其用于分别确定每个所述风控指标值对应的子风控策略,M个所述子风控策略组成一个风控策略,其中,M为大于或等于1的整数;
风控策略配置模块,其用于针对每个所述风控策略进行风控策略配置,所述风控策略配置包括:设定所述风控特征中每个风控指标值的阈值和权重;包括:根据每个所述风控指标值对应的历史业务数据,确定每个所述风控指标值对应的实际风控准确率;
根据每个所述风控指标值的实际风控准确率确定每个所述风控指标值的权重,包括:在所述风控指标值的实际风控准确率小于或等于第一预设阈值时,确定所述风控指标的权重为第一目标权重;
在所述风控指标值的实际风控准确率大于第一预设阈值且小于或等于第二预设阈值时,确定所述风控指标的权重为第二目标权重;
在所述风控指标值的实际风控准确率大于第二预设阈值且小于或等于第三预设阈值时,确定所述风控指标的权重为第三目标权重;
依次类推,在所述风控指标值的实际风控准确率大于第K预设阈值时,确定所述风控指标的权重为第K目标权重,其中,K为正整数;其中,各个目标权重通过以下方法获取:设定一个包含初始化权重的权重范围;
将所述权重范围进行网格划分,得到多个权重区间,其中,每个权重区间对应一个参考权重,多个所述参考权重集合成一个权重集;
在所述权重集中选取一个参考权重作为目标权重;
风控策略执行模块,其用于根据所述风控指标值以及所述风控指标值的阈值和权重计算所述当前业务数据的风险系数;包括:针对N个风控指标值,分别计算每个所述风控指标值与其阈值的偏离系数,得到N个偏离系数;
对N个偏离系数进行加权求和得到所述风险系数,其中,每个偏离系数的权重为所述偏离系数对应的风控指标值在风控策略配置时设定的权重;
风控决策模块,其用于根据所述风险系数对所述当前业务数据做出风控决策。
4.一种发票开具实时风控系统,其特征在于,该系统包括:区块链电子发票开具系统和实时风控系统,
其中,所述区块链电子发票开具系统为多个用户提供开票服务,所述区块链电子发票开具系统将多个用户的实时开票数据发送至所述实时风控系统;
所述实时风控系统包括:
流式计算模块,其用于接收所述区块链电子发票开具系统发送的所述实时开票数据,并根据每个用户的实时开票数据分别计算每个用户的风控指标值,形成风控指标库;
风控策略执行模块,其用于根据每个用户的实时开票数据分别计算得到相应用户的实时风控决策:
风控决策执行模块,其用于根据每个用户的实时风控决策对相应用户执行相应的决策行为;
其中,所述风控策略执行模块采用如权利要求1‑2中任一项所述的方法。
5.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被处理器执行以实现如权利要求1‑2中任一项所述的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行以实现如权利要求1‑2中任一项所述的方法。
说明书 :
一种基于流式计算的风控方法、系统及设备
技术领域
背景技术
时,风控系统对数据的读取、计算会造成分钟级别的时延,相应时间太慢,导致风控系统无
法在短时间内进行快速应对。
时的发票虚开风控方法。
发明内容
述风控策略配置包括:设定所述风控特征中每个风控指标值的阈值和权重;
二累加值减去所述第一累加值。
二累加值减去所述第一累加值。
据按照先后顺序逐条发送至所述实时风控系统。
算的风控方法。
方法、缓存中间计算状态等方法实现实时数据分析和特征计算,实现实时的、快速的识别业
务行为风险并进行风控决策。
务端进行前置风险判断、活动留痕,便于追溯,实现实时的税务风险控制。同时,能帮助用户
进行风险内控,避免出现税务风险动作,有利于纳税人促进遵从、提高信用、降低涉税成本。
附图说明
具体实施方式
本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本公开保护的范围。
特征包括N个风控指标值,其中,N为大于等于1的整数;根据风控特征中包含的N个风控指标
值,分别确定每个风控指标值对应的子风控策略,M个子风控策略组成一个风控策略;并针
对每个风控策略进行风控策略配置,风控策略配置包括:设定风控特征中每个风控指标值
的阈值和权重;根据风控指标值以及风控指标值的阈值和权重计算当前业务数据的风险系
数,并根据风险系数对当前业务数据做出风控决策。
20%”、“该商户最近开具的100张发票的平均开票金额为1234元”,其中“10个”、“20%”、“1234
元”为风控指标值。风控指标值也可以是对窗口内的数值进行求和、累加、平均、并集、交集
等运算后计算出来的数值,窗口例如可以是时间窗口(例如:最近1天、最近7天、最近30天)、
张数窗口(例如:最近50张、最近100张)。其中,时间窗口又分滑动窗口与翻滚窗口,例如:
“以7天为窗口大小,以1天为步长”类型的,窗口之间具有重叠部分的称为滑动窗口;而例如
“本周”、“上个月”、“今年”类型的,窗口之间没有重叠部分的称之为翻滚窗口。
户的开票行为可以用一个风控特征表示为:<最近3天的开票量, 最近10张发票平均金额>,
若某用户最近3天开票量为5张,最近10张发票平均金额为1234元,那么可以将该用户从数
学上形式化为一个特征向量<5,1234>,包含两个风控指标值,其中,一个风控指标值为5,另
一个风控指标值为1234。
成一个风控策略,M为大于或等于1的整数,通常M=N,一个风控策略例如为:“用户最近3天开
票量超过3张,且最近10张发票平均金额大于等于1000元”。对每个风控策略进行风控策略
配置,即设定风控特征中每个风控指标值的阈值和权重;例如,“用户最近3天开票量超过3
张,且最近10张发票平均金额大于等于1000元”,可以设定阈值为3张、1000元,两个风控指
标值的权重均为0.5。本发明对权重和阈值不做具体限定,包括但不限于与上述示例。
阈值的偏离系数,得到N个偏离系数;对N个偏离系数进行加权求和得到风险系数,其中,每
个偏离系数的权重为偏离系数对应的风控指标值在风控策略配置时设定的权重。例如,风
控特征包括两个风控指标值,即风控特征为<5,1234>,阈值为<3,1000>,则偏离系数包括:
(5‑3)/3=0.66,(1234‑1000)/1000=0.234;风险系数为0.66*0.5+0.234*0.5=0.447,并通过
计算得到的风险系数做出相应的风控决策。
次计算获取风控指标值。针对每个风控指标值,通过积分图算法计算每次获取的风控指标
值的累加值,包括:确定每个时间间隔对应的风控指标值;从某一时间点开始,确定第一时
间段内所有风控指标值的第一累加值,第一累加值为第一时间段内各个时间间隔对应的风
控指标值的和;确定第二时间段内所有风控指标值的第二累加值,第二累加值为第二时间
段内各个时间间隔对应的风控指标值的和,第一时间段和第二时间段的起始时间相同;确
定第三时间段内所有风控指标值的第三累加值,第三时间段为第二时间段的终止时间与第
一时间段的终止时间之间的时间区间,第三累加值为第二累加值减去第一累加值。在风控
系统中,最耗时、计算量最大的部分为风控指标值的计算,例如,若需要统计某用户“在过去
365天内,以7天为窗口大小,以1天为窗口步长,平均开票金额大于1万元的次数”,当数据量
较大时,计算量也相应变大。可以采取积分图、快速滑动并集等方法来对窗口计算进行优
化,通过降低计算复杂度,从而减少计算时间,实现毫秒级的计算。在风控过程中,业务数据
是一条一条流式地产生的,当以窗口的方式进行滑动求和、求平均计算时,往往有许多重叠
的区域发生重复运算。例如,通过某用户某个月每一天的开票金额,计算1号到10号的开票
金额总和,以及5号到15号的开票金额总和,若分别进行计算,则其中5号到10号区间的开票
金额总和就被重复计算了两次,而通过计算每一天的累加值,可以避免上述情况出现重复
计算,即积分图算法。例如要计算5号到10号的开票金额总和(即计算第三累加值),1号到5
号为第一时间段,1号到10号为第二时间段,5号到10号为第三时间段,1号到5好的开票金额
总和为第一累加值,1号到10号的开票金额总和为第二累加值,则计算5号到10号的开票金
额总和(第三累加值)为第二累加值减去第一累加值。
第i天的开票金额,y[i]表示截止第i天的累加值(即积分值),y[i] = x[1] + x[2] + ....
x[i]。
天的积分数组y之后,那么1号到10号的开票金额等于y[10] ‑ y[0];5号到15号的开票金额
等于y[15] ‑ y[5],均只需通过一次普通减法运算即可算出。相比于每次遍历10天求和的
方式,运算次数从10次加法优化到了1次减法,相当于减少了90%的计算量。当数组x的长度
越长,i和j的距离越大的情况下,采用上述一维积分数组求和方法,计算量会显著降低。
通过1次(一维积分数组)或3次(二维积分图)加减法运算计算得出。若某个用户的风控特征
需要在不同的维度上计算上百万次,那么积分图可以通过利用上次计算结果、减少计算次
数来将每次计算时间减少到毫秒级内完成。
定阈值。例如,风险指标值为“一个用户一周内开具的发票抬头数”,根据该风险指标值的历
史业务数据,若一个用户一周内开具的发票抬头数最大值为5张,则设定该风险指标值的阈
值为5,超过5个则被视为具有一定的虚假开票风险。例如,若某用户一天内在5家不同的商
户发生消费行为并开具5张1000元以上的发票的用户数量占比小于0.1%,结合历史业务数
据确定该风险指标值的阈值为0.1%,基于该阈值筛选出来的用户确实具有一定的假开票风
险,与实际情况是相符的。
风控指标值的实际风控准确率确认每个风控指标值的权重,若风控指标值的实际风控准确
率越高,则风控指标的权重越大。例如在风控指标值的实际风控准确率小于或等于第一预
设阈值时,确定风控指标的权重为第一目标权重;在风控指标值的实际风控准确率大于第
一预设阈值且小于或等于第二预设阈值时,确定风控指标的权重为第二目标权重;在风控
指标值的实际风控准确率大于第二预设阈值且小于或等于第三预设阈值时,确定风控指标
的权重为第三目标权重;依次类推,在风控指标值的实际风控准确率大于第K预设阈值时,
确定风控指标的权重为第K目标权重,其中,K为正整数。
果去初始化特征的权重,若单个风控指标值的区分效果越好,则该风控指标值对应的权重
应该更大。初步确定权重后,在初步的确定的权重(初始化权重)的左右区间设置一个范围,
在该范围内划分出几个区间(网格),每个区间包括一个候选权重;依次使用每个候选权重
在历史数据上进行回测,对比不同候选权重的回测效果,并采用候选权重中效果最好的作
为最终的权重。例如,一个风控指标值的权重初始化为0.3,那么可以左右设置一个范围
[0.25, 0.35], 然后以0.01为步长,得到候选权重集 [0.25, 0.26, 0.27, 0.28, 0.29,
0.30, 0.31, 0.32, 0.33, 0.34, 0.35] ,最后根据每个候选权重的效果去确定最终的权
重。其中,风控指标值的分类效果的可使用混淆矩阵(confusion matrix)评估,混淆矩阵是
一种多类别分类模型的效果评估计算方法,使用TP/FN/FP/TN来计算, TP(True Positive)
为正类被预测为正类的数量,FN(False Negative)为正类被预测为负类的数量,FP(False
Positive) 为负类被预测为正类的数量,TN(True Negative)为负类被预测为负类的数量。
若TP/TN越高、FN/FP越低,则代表模型的分类效果越好,预测越准确。在给定的权重参数集
合中,若一组权重参数计算出的分类混淆矩阵结果比另一组权重参数计算出的好,则表示
前者的权重分类效果更高。
~ ~
大于等于0.2的高风险,对于不同的风险等级采用不同的风控策略,风控策略例如为封号、
冻结和阻断等。
中间计算状态等方法实现实时数据分析和特征计算,实现实时的、快速的识别业务行为风
险并进行风控决策。
风控决策模块。其中,风控指标获取模块用于根据当前业务数据获取至少一个风控指标值;
风控特征确定模块用于根据风控指标值确定至少一个风控特征,每个风控特征包括N个风
控指标值,其中,N为大于等于1的整数;风控策略确定模块用于根据风控特征中包含的N个
风控指标值,分别确定每个风控指标值对应的子风控策略,M个子风控策略组成一个风控策
略;风控策略配置模块用于针对每个风控策略进行风控策略配置,风控策略配置包括:设定
风控特征中每个风控指标值的阈值和权重;风控策略执行模块用于根据风控指标值以及风
控指标值的阈值和权重计算当前业务数据的风险系数;风控决策模块用于根据风险系数对
当前业务数据做出风控决策。
值与其阈值的偏离系数,得到N个偏离系数;对N个偏离系数进行加权求和得到风险系数,其
中,每个偏离系数的权重为偏离系数对应的风控指标值在风控策略配置时设定的权重。
态),累积值用于下一次计算获取风控指标值。
值与其阈值的偏离系数,得到N个偏离系数;对N个偏离系数进行加权求和得到风险系数,其
中,每个偏离系数的权重为偏离系数对应的风控指标值在风控策略配置时设定的权重。
准确率;根据每个风控指标值的实际风控准确率确认每个风控指标值的权重,风控指标值
的实际风控准确率高,则风控指标值的权重大。
发票开具系统为多个用户提供开票服务,区块链电子发票开具系统将多个用户的实时开票
数据发送至实时风控系统;实时风控系统包括:流式计算模块、风控策略执行模块和风控决
策执行模块。其中,
模块用于根据每个用户的实时开票数据分别计算得到相应用户的实时风控决策:风控决策
执行模块用于根据每个用户的实时风控决策对相应用户执行相应的决策行为;
的N个风控指标值,分别确定每个风控指标值对应的子风控策略,M个子风子风控控策略组
成一个风控策略;并针对每个风控策略进行风控策略配置,风控策略配置包括:设定风控特
征中每个风控指标值的阈值和权重;根据风控指标值以及风控指标值的阈值和权重计算当
前业务数据的风险系数,并根据风险系数对当前业务数据做出风控决策。
数;对N个偏离系数进行加权求和得到风险系数,其中,每个偏离系数的权重为偏离系数对
应的风控指标值在风控策略配置时设定的权重。
值。
中每个风控指标值的权重,包括:根据每个风控指标值对应的历史业务数据,确定每个风控
指标值对应的实际风控准确率;并根据每个风控指标值的实际风控准确率确认每个风控指
标值的权重;若风控指标值的实际风控准确率高,则风控指标值的权重大。
痕,便于追溯,也有利于税务系统进行风险导向下的税收管理,实现针对风险的税管效益最
大化。同时,能帮助用户进行风险内控,避免出现税务风险动作;并帮助纳税人建立风险管
理意识,在税务部门和服务机构帮助下对涉税风险进行事前、事中和事后的全方位管理,有
利于纳税人促进遵从、提高信用、降低涉税成本。
信组件在处理器的控制下接收和发送数据;其中,存储器存储有可被至少一个处理器执行
的指令,指令被至少一个处理器执行以实现上述实施例中的方法。
存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处
理,即实现方法。
随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或
其他非易失性固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的
存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互
联网、企业内部网、局域网、移动通信网及其组合。
得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法
的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only
Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程
序代码的介质。
和技术,以便不模糊对本说明书的理解。
的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之
一都可以以任意的组合方式来使用。
明的实质范围的情况下,可进行许多修改以使特定情况或材料适应本发明的教导。因此,本
发明不限于所公开的特定实施例,而是本发明将包括落入所附权利要求范围内的所有实施
例。