一种基于大数据的智能案防系统转让专利

申请号 : CN201910448366.8

文献号 : CN110264336B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孙斌杰王新根黄滔鲁萍吴晶晶赵俊华席龙黄兴志

申请人 : 浙江邦盛科技有限公司

摘要 :

本发明公开了一种基于大数据的智能案防系统,该系统包括管理平台、spark大数据平台、分析引擎、数据预处理引擎、指标引擎、训练引擎和决策引擎。本发明将规则进行细粒度拆分,进行了指标化,进一步提升规则的准确度;指标引擎采用的流处理技术能对原始数据进行特征单点快速提取和计算,从海量原始数据中得到有代表性的特征,充分提取数据中的信息;模型训练使用多种优化过的机器学习模型和集成学习框架,能够克服单个模型过拟合、不稳定的缺陷;智能决策双核引擎订阅规则和模型,两者并行运行,互相补充,可实时判断业务数据和规则和模型的匹配度,提升风险识别能力;基于知识图谱,能够通过关联分析和模型分析快速定位可疑的风险数据。

权利要求 :

1.一种基于大数据的智能案防系统,其特征在于,该系统包括管理平台、spark大数据平台、分析引擎、数据预处理引擎、指标引擎、训练引擎和决策引擎;

所述管理平台包括机器学习建模平台、指标管理平台、智能决策平台、核查平台和知识图谱平台;

所述机器学习建模平台用于对spark大数据平台的数据进行管理、分析和预处理,以及对机器学习模型进行训练、预测以及管理操作;

所述指标管理平台通过调用流处理引擎和DAG引擎,对指标进行加工和管理;

所述智能决策平台基于机器学习模型和加工出来的指标,进行规则的可视化配置,具体为:基于业务指标、机器学习模型结合阈值组合成条件;在条件的基础上通过逻辑与、或关系组合成规则;在规则基础上,通过或的关系组成规则包,用于不同的业务场景;

所述核查平台对触发了规则的核查单进行管理,同时将可疑的数据通过下发流程发至指定机构进行进一步核查;

所述知识图谱平台是基于图库的可视化分析技术,结合时间、空间、行为特征多种维度探索对象间的关联关系,通过关联分析和模式分析辅助业务人员在核查过程中帮助用户快速发现风险点;

所述分析引擎是指通过Python或者SQL对spark大数据平台的数据进行分析,包括技术分析和业务分析,技术分析通过分析数据的质量及分布,确认数据是否可用,业务分析通过分析数据的结构,明确数据的应用场景、当前业务下风险案件的作案手法,获得更符合业务场景特征的指标与规则;

所述数据预处理引擎基于分析引擎的数据分析结果,对于不规范或者不合理的数据,对其进行规范化处理;

所述指标引擎包括通过DAG引擎进行指标加工和通过流处理引擎进行指标加工;

DAG指标加工基于spark大数据平台,通过SQL对静态类指标进行加工、提取和计算;流处理指标加工是通过流式大数据处理对时序有要求或者统计类的指标的加工、快速提取和计算,这些指标可以作为机器学习模型、规则配置以及知识图谱的输入参数;

所述训练引擎包括基于加工好的指标进行模型训练、模型评估;所述模型训练,根据设定的模型参数,利用清洗后的特征数据进行训练;所述模型评估,利用新的数据集对训练好的模型进行评价,如果质量符合要求即可进行模型部署和使用;

所述决策引擎用于订阅上线的规则和模型,两者并行运行,互相补充,决策引擎可实时判断业务数据、规则和模型的匹配度;当触发对应的规则时,会对规则进行汇总,并根据当初设置的规则处置策略和风险等级,选择优先级高的规则执行相应的处置动作;之后再将触发规则的数据生成核查单传送到核查平台。

2.根据权利要求1所述的一种基于大数据的智能案防系统,其特征在于,所述核查平台将已确认为有风险的业务数据生成案件,后续再根据新增的案件进行分析,总结、优化规则和机器学习模型指标。

3.根据权利要求1所述的一种基于大数据的智能案防系统,其特征在于,所述数据预处理引擎中,对不规范或者不合理的数据进行的规范化处理包括:缺失值填补、异常值替换、数据量纲消除。

4.根据权利要求1所述的一种基于大数据的智能案防系统,其特征在于,所述训练引擎中,所述模型训练具体为:读取机器学习建模平台配置的算法名称和算法参数,调用常见的机器学习算法,包括有监督算法和无监督算法进行学习;有监督算法包括随机森林、LASSO、决策树、逻辑回归、GBDT;无监督算法包括k-means聚类。

5.根据权利要求1所述的一种基于大数据的智能案防系统,其特征在于,所述训练引擎中,模型训练通过预先设置的更新时间,自动获取最新数据并重新训练模型,从而使模型始终保持有效性。

6.根据权利要求1所述的一种基于大数据的智能案防系统,其特征在于,所述训练引擎中的机器学习算法,针对黑样本查全率进行改造,具体为:给黑样本损失函数赋以比白样本大的权重,使其更倾向于找出更多的黑样本;或者,对黑样本进行过采样,白样本进行欠采样;或者,在损失函数后增加正则项,降低模型复杂度,提高模型范化能力;或者,采用集成学习框架,克服单模型的过拟合;针对算法性能做优化,使用GPU加速算法中可以并行化执行的函数,降低训练和预测时间;或者,使用线性代数库实现算法底层的计算操作;或者,使用多线程技术并行化实现算法。

7.根据权利要求1所述的一种基于大数据的智能案防系统,其特征在于,所述知识图谱平台,基于图库的可视化技术,结合模式匹配、提供全方位的图设计、图搜索、图分析功能,帮助用户快速发现风险点,实现“人机结合”形式的智能化分析、研判和决策。

说明书 :

一种基于大数据的智能案防系统

技术领域

[0001] 本发明属于案防领域,尤其涉及一种基于大数据的智能案防系统。

背景技术

[0002] 近年来,我国金融操作风险案件呈现多发、高发态势,多家银行相继曝出涉案金额巨大的运营风险案件,有关银行在业务操作方面的案件屡屡发生,且运营操作风险方面的案情日趋复杂,作案手法隐秘。运营操作风险案件频发,造成了巨大的经济损失和社会影响,给银行业稳健运营带来全新挑战。随着金融行业的改革发展不断深化,管理手段不断升级,尤其是国家大数据战略的推行,对银行的运营操作风险与案件防控能力提出了更高要求。由于风险案件的频发以及银监会要求,针对运营风险案件防控的管理系统也逐渐进行了演变,从全面后督系统到重点后督系统,再从运行风险监控系统到基于大数据的运营风险监控系统。虽然这些系统都多多少少对操作风险进行了防控,但是随着案件越来越复杂,规则也越来越复杂,对案件风险的防控力度不够。案件规则复杂,导致规则细粒度不够,业务人员无法参与规则的可视化配置,只能通过科技人员写SQL配置规则,无法及时发现规则存在的问题和效果;案件规则复杂,且规则重复运行,导致运行耗时、性能低下,系统无法支撑;人工经验达到极限,现有的规则已无法满足当前案件风险防控,急切需要引入人工智能提升规则同时找出更多有效的规则,揭示出“隐藏信息”和“共同信息”。

发明内容

[0003] 本发明的目的在于针对案防存在的问题,提供一种基于大数据的智能案防系统,通过对复杂案件规则指标化,拆分细粒度化方便规则的组建和运行;同时使用人工智能机器学习模型,将规则和模型组合决策,进一步提升案防能力;基于知识图谱,通过关联分析技术和模型分析技术,快速发现风险点。
[0004] 本发明的目的是通过以下技术方案来实现的:一种基于大数据的智能案防系统,该系统包括管理平台、spark大数据平台、分析引擎、数据预处理引擎、指标引擎、训练引擎和决策引擎。
[0005] 所述管理平台包括机器学习建模平台、指标管理平台、智能决策平台、核查平台和知识图谱平台。
[0006] 所述机器学习建模平台用于对spark大数据平台的数据进行管理、分析和预处理,以及对机器学习模型进行训练、预测以及管理操作。
[0007] 所述指标管理平台通过调用流处理引擎和DAG引擎,对指标进行加工和管理。
[0008] 所述智能决策平台基于机器学习模型和加工出来的指标,进行规则的可视化配置,具体为:基于业务指标、机器学习模型结合阈值组合成条件;在条件的基础上通过逻辑与、或关系组合成规则;在规则基础上,通过或的关系组成规则包,用于不同的业务场景。
[0009] 所述核查平台对触发了规则的核查单进行管理,同时将可疑的数据通过下发流程发至指定机构进行进一步核查。
[0010] 所述知识图谱平台是基于图库的可视化分析技术,结合时间、空间、行为特征多种维度探索对象间的关联关系,通过关联分析和模式分析辅助业务人员在核查过程中帮助用户快速发现风险点。
[0011] 所述分析引擎是指通过Python或者SQL对spark大数据平台的数据进行分析,包括技术分析和业务分析,技术分析通过分析数据的质量及分布,确认数据是否可用,业务分析通过分析数据的结构,明确数据的应用场景、当前业务下风险案件的作案手法,获得更符合业务场景特征的指标与规则。
[0012] 所述数据预处理引擎基于分析引擎的数据分析结果,对于不规范或者不合理的数据,对其进行规范化处理。
[0013] 所述指标引擎包括通过DAG引擎进行指标加工和通过流处理引擎进行指标加工。
[0014] DAG指标加工基于spark大数据平台,通过SQL对静态类指标进行加工、提取和计算;流处理指标加工是通过流式大数据处理对时序有要求或者统计类的指标的加工、快速提取和计算,这些指标可以作为机器学习模型、规则配置以及知识图谱的输入参数。
[0015] 所述训练引擎包括基于加工好的指标进行模型训练、模型评估;所述模型训练,根据设定的模型参数,利用清洗后的特征数据进行训练;所述模型评估,利用新的数据集对训练好的模型进行评价,如果质量符合要求即可进行模型部署和使用;
[0016] 所述决策引擎用于订阅上线的规则和模型,两者并行运行,互相补充,决策引擎可实时判断业务数据和规则和模型的匹配度;当触发对应的规则时,会对规则进行汇总,并根据当初设置的规则处置策略和风险等级,选择优先级高的规则执行相应的处置动作;之后再将触发规则的数据生成核查单传送到核查平台。
[0017] 进一步地,所述核查平台将已确认为有风险的业务数据生成案件,后续再根据新增的案件进行分析,总结、优化规则和机器学习模型指标。
[0018] 进一步地,所述数据预处理引擎中,对不规范或者不合理的数据进行的规范化处理包括:缺失值填补、异常值替换、数据量纲消除。
[0019] 进一步地,所述训练引擎中,所述模型训练具体为:读取机器学习建模平台配置的算法名称和算法参数,调用常见的机器学习算法,包括有监督算法和无监督算法进行学习;有监督算法包括随机森林、LASSO、决策树、逻辑回归、GBDT等;无监督算法包括k-means聚类等。
[0020] 进一步地,所述训练引擎中,模型训练通过预先设置的更新时间,自动获取最新数据并重新训练模型,从而使模型始终保持有效性。
[0021] 进一步地,所述训练引擎中的机器学习算法,针对黑样本查全率进行改造,具体为:给黑样本损失函数赋以比白样本大的权重,使其更倾向于找出更多的黑样本;或者,对黑样本进行过采样,白样本进行欠采样;或者,在损失函数后增加正则项,降低模型复杂度,提高模型范化能力;或者,采用集成学习框架,克服单模型的过拟合。针对算法性能做优化,使用GPU加速算法中可以并行化执行的函数,大大降低训练和预测时间;或者,使用线性代数库实现算法底层的计算操作;或者,使用多线程技术并行化实现算法。
[0022] 进一步地,所述知识图谱平台,基于图库的可视化技术,结合模式匹配、提供全方位的图设计、图搜索、图分析等功能,帮助用户快速发现风险点和可疑团伙,实现“人机结合”形式的智能化分析、研判和决策。
[0023] 整个系统使用流程上可以分为:数据存储、数据分析、数据预处理、指标加工、模型训练、规则配置、决策、核查和知识图谱分析9个部分。
[0024] 通过大数据平台对银行业务数据进行存储,并通过机器学习建模分析平台对业务数据进行管理;通过Python或者SQL对大数据平台的数据进行分析;并对分析出来的数据进行预处理操作比如对于不规范或者不合理的数据,对其进行规范化处理,如缺失值填补、异常值替换、数据量纲消除等;基于数据的分析和预处理操作,通过指标引擎对指标进行加工,生成指标宽表,用于机器学习建模、规则配置和知识图谱搭建;基于加工好的指标,可进行机器学习模型的训练,评估,发布;基于加工好的指标和训练好的机器学习模型,进行规则的配置;待规则、模型上线后,通过双核决策引擎订阅规则和模型,两者并行运行,互相补充,判断业务数据和规则及模型的匹配度,将触发规则的预警单传到核查平台进行核查;同时基于加工好的指标可进行知识图谱的搭建,待知识图谱搭建完成后,可通过关联分析和模型分析找到更多的可疑数据辅助核查。
[0025] 本发明对比现有技术有明显的优势:本发明系统可以在维持较好稳定性/健壮性的同时,保证规则和模型较高的查全率。上述特征主要由以下几点保证:将规则进行细粒度拆分,进行了指标化,能够进一步提升规则的准确度;指标引擎采用的流处理技术能对原始数据进行特征单点快速提取和计算,从海量原始数据中得到有代表性的特征,充分提取数据中的信息;模型训练使用多种优化过的机器学习模型和集成学习框架,能够克服单个模型过拟合、不稳定的缺陷,提高模型的稳定性和泛化能力;智能决策双核引擎订阅规则和模型,两者并行运行,互相补充,可实时判断业务数据和规则和模型的匹配度,进一步提升风险识别能力;基于知识图谱,能够通过关联分析和模型分析,快速的定位可疑的风险点。本发明基于大数据的智能案防系统能够进一步提升案防能力。

附图说明

[0026] 图1是本发明之较佳实施例中典型时序图。

具体实施方式

[0027] 为更清楚地阐述本发明的结构特征和功效,下面结合附图与具体实施例来对本发明进行详细说明。
[0028] 如图1所示,本发明提供的一种基于大数据的智能案防系统,该系统包括管理平台、spark大数据平台、分析引擎、数据预处理引擎、指标引擎、训练引擎和决策引擎。以下以面向银行案防为例,详细说明各部分的具体内容。
[0029] 所述管理平台是机器学习建模平台、指标管理平台、智能决策平台、核查平台和知识图谱平台的统称。不同的平台会发起不同的请求,让对应的引擎去执行操作。
[0030] 通过spark大数据平台对业务数据进行管理,通过分析引擎对大数据进行分析。
[0031] 所述机器学习建模平台用于对spark大数据平台的数据进行管理、分析和预处理,以及对机器学习模型进行训练、预测以及管理和更新操作。
[0032] 所述指标管理平台则是通过调用流处理引擎和DAG引擎,对指标进行加工和管理。
[0033] 所述智能决策平台基于机器学习模型和加工出来的指标,进行规则的可视化配置。其主要基于业务指标、机器学习模型结合阈值组合成条件;在条件的基础上通过逻辑与、或关系可以组合成规则;在规则基础上,通过或的关系可以组成规则包,用于不同的业务场景。
[0034] 所述核查平台则是基于触发了规则的核查单进行管理,同时将可疑的数据通过下发流程发至指定机构进行进一步核查,并可将已确认为有风险的业务数据生成案件,后续再根据新增的案件进行分析,总结、优化规则和机器学习模型指标。
[0035] 所述知识图谱平台是基于图库的可视化分析技术,结合时间、空间、行为特征等维度探索对象间的关联关系,通过关联分析和模式分析辅助业务人员在核查过程中帮助用户快速发现风险点。
[0036] 分析引擎是指通过Python或者SQL对spark大数据平台的数据进行分析,包括技术分析和业务分析,技术分析通过分析数据的质量及分布,确认数据是否可用,业务分析通过分析数据的结构,明确数据的应用场景、当前业务下风险案件的作案手法,获得更符合业务场景特征的指标与规则。
[0037] 数据预处理引擎基于分析引擎的数据分析结果,对于不规范或者不合理的数据,对其进行规范化处理,如缺失值填补、异常值替换、数据量纲消除等。
[0038] 基于分析和预处理操作过后的数据,指标管理平台数据进行指标化加工,并根据管理平台上需要的特征信息,让指标引擎对原始数据进行特征单点快速提取和计算,从海量原始数据中得到有代表性的特征,充分提取数据中的信息,比如某指标是计算每个用户在过去24小时的累计交易金额,指标引擎就会查找每个用户过去24小时的交易记录并将交易金额进行累加,最终计算好的结果存放在内存中,并持久化到大数据平台中。
[0039] 指标引擎包括通过DAG引擎进行指标加工和通过流处理引擎进行指标加工。
[0040] DAG指标加工基于spark大数据平台,通过SQL对静态类指标比如账户信息数据进行加工,提取和计算(静态类指标指没有统计概念,在一段时间内不变动的指标);流处理指标加工则是通过流式大数据处理对庞大的银行交易数据中对时序有要求或者统计类的指标的加工、快速提取和计算,比如可以获取某个时间区间内某个维度下某用户历史交易量累计、占比、方差、均值、求和、计数、最小数统计、标准差统计计算、偏度、峰度、去重等特征量。这些指标可以作为机器学习模型、规则配置以及知识图谱的输入参数。
[0041] 训练引擎包括基于加工好的指标进行模型训练、模型评估;所述模型训练,根据设定的模型参数,利用清洗后的特征数据进行训练,具体为:读取机器学习建模平台配置的算法名称和算法参数,调用常见的机器学习算法,包括有监督算法和无监督算法进行学习;有监督算法包括随机森林、LASSO、决策树、逻辑回归、GBDT等;无监督算法包括k-means聚类等;这些算法针对黑样本查全率进行改造,具体为:给黑样本损失函数赋以比白样本大的权重,使其更倾向于找出更多的黑样本;或者,对黑样本进行过采样,白样本进行欠采样;或者,在损失函数后增加正则项,降低模型复杂度,提高模型范化能力;或者,采用集成学习框架,克服单模型的过拟合。针对算法性能做优化,使用GPU加速算法中可以并行化执行的函数,大大降低训练和预测时间;或者,使用线性代数库实现算法底层的计算操作;或者,使用多线程技术并行化实现算法。经过调整参数,获取符合准确率、召回率等指标要求的模型,并使用测试集对模型进行评估,观察模型是否可以泛化至其它数据集。训练过程中的信息反馈给管理平台。最终训练完毕的模型写入文件进行永久保存。利用新的数据集对训练好的模型进行评价,根据输出的查全率、查准率,KS值,ROC曲线等指标对模型质量进行评价,如果质量符合要求即可进行模型部署和使用;所述模型训练模块通过预先设置的更新时间,自动获取最新数据并重新训练模型,从而使模型始终保持有效性。
[0042] 决策引擎用于订阅上线的规则和模型,两者并行运行,互相补充,决策引擎可实时判断业务数据和规则和模型的匹配度;当触发对应的规则时,会对规则进行汇总,并根据当初设置的规则处置策略和风险等级,选择优先级高的规则执行相应的处置动作;之后再将触发规则的数据生成核查单传送到核查平台。
[0043] 基于核查平台的可疑数据,可通过知识图谱的关联分析和模型分析快速定位可疑数据,并找到其他相关联的可疑的数据。
[0044] 本发明的设计重点在于:通过管理平台提供GUI界面进行管理;通过大数据平台对数据进行存储;通过分析引擎使用Python和SQL对数据进行分析;通过预处理引擎对不合理和不规范的数据进行处理;通过指标引擎对原始数据进行特征的快速提取和计算,从中得到有代表性的指标;机器学习算法经过黑样本查全率优化,通过设置合理的算法参数,训练出优秀的原型,并对模型进行多个数据集的评估;使用智能决策双核引擎订阅规则和机器学习模型,提高命中率;使用核查平台根据预警单进行问题的核查,同时使用知识图谱关联分析和模型分析帮助核查快速定位可疑数据。通过以上设计,该系统可以进一步提升银行的案防工作。
[0045] 本发明对复杂案件规则进行细粒度划分拆成业务指标,再基于业务指标可以结合阈值组合成条件;在条件的基础上通过逻辑与、或关系可以组合成规则;在规则基础上,通过或的关系可以组成规则包,用于不同的业务场景。引入机器学习通过数据驱动来弥补经验驱动带来的不足,衍生更多的规则并和规则结合进行案件风险的防控进步提升案防能力。结合知识图谱,通过关联分析技术和模型分析技术,帮助银行业务人员快速发现风险点,实现“人机结合”形式的智能化分析、研判和决策。
[0046] 以上所述,仅是本发明的较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。