风险数据识别方法、终端设备及计算机可读存储介质转让专利

申请号 : CN202111237378.X

文献号 : CN113673916B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 温桂龙

申请人 : 深圳市明源云科技有限公司

摘要 :

本发明公开了一种风险数据识别方法、终端设备及计算机可读存储介质,所述风险数据识别方法包括:通过使用由朴素贝叶斯算法构建的计算模型从多个评估角度综合评估待评估数据,如待评估报表数据与样本集均值的契合程度、与样本集整体变化趋势的符合程度和与样本集中最大值和最小值的关系,使得评价结果更加准确,同时还将输出的评估结果输入计算模型的样本集中进行更新,使得计算模型整体评估标准可以适应应用环境的变化趋势,无需人工根据应用环境的变化趋势二次评估,评估过程更加迅速,满足企业获取商业信息的时效性需求。

权利要求 :

1.一种风险数据识别方法,其特征在于,所述风险数据识别方法包括以下步骤:将待评估报表数据的数据值和数据生成时间输入训练后的计算模型计算待评估报表数据基于训练样本集中所有数据样本的全集特征数,其中,所述全集特征数包括第一全集特征值、第二全集特征值、第三全集特征值和第四全集特征值;

根据待评估报表数据的数据值与所有数据样本的数据值平均值的比值得到第一全集特征值;

将待评估报表数据的数据值、所有数据样本的最小数据值、所有数据样本的最大数据值和所有数据样本的数据值平均值代入预设计算公式得到第二全集特征值;

根据待评估报表数据的数据值分别与所有数据样本的最小数据值或者与所有数据样本的最大数据值的大小关系得到第三全集特征值;

根据待评估报表数据的数据值与线性回归值的比值得到第四全集特征值,其中,所述线性回归值为待评估报表数据在由所有数据样本生成的线性回归函数中对应的值;

结合所述全集特征数和所述计算模型输出待评估报表数据的风险评估结果,其中所述计算模型由朴素贝叶斯算法构建,所述风险评估结果包括:正常、轻微异常和严重异常;

将待评估报表数据的数据生成时间、数据值以及与待评估报表数据对应的风险评估结果作为数据样本增添至训练样本集中;

获取所述训练样本集对所述计算模型进行训练,所述训练样本集包括多个数据样本,其中,单个数据样本包括:数据生成时间、数据值以及风险评估结果。

2.如权利要求1所述的风险数据识别方法,其特征在于,所述将待评估报表数据的数据生成时间、数据值以及与待评估报表数据对应的风险评估结果作为数据样本增添至所述练样本集中包括:

根据数据生成时间顺序将待评估报表数据的数据值生成时间、数据值以及与待评估报表数据对应的风险评估结果增添至数据训练样本集前端,同时将数据训练样本集中末端的数据样本删除。

3.如权利要求2所述的风险数据识别方法,其特征在于,所述计算待评估报表数据基于训练样本集中所有数据样本的全集特征数的步骤之后,还包括:计算待评估报表数据基于训练样本集中预设时间段内数据样本的时间窗口特征数,其中,时间窗口特征数包括:第一时间窗口特征值、第二时间窗口特征值、第三时间窗口特征值和第四时间窗口特征值;

根据待评估报表数据的数据值与预设时间段内数据样本的数据值平均值的比值得到第一时间窗口特征值;

将待评估报表数据的数据值、预设时间段内数据样本的最小数据值、预设时间段内数据样本的最大数据值和预设时间段内数据样本的数据值平均值代入预设计算公式得到第二时间窗口特征值;

根据待评估报表数据的数据值分别与预设时间段内数据样本的最小数据值或者预设时间段内数据样本的最大数据值的大小关系得到第三时间窗口特征值;

根据待评估报表数据的数据值与预设时间段线性回归值的比值得到第四时间窗口特征值,其中,所述预设时间段线性回归值为待评估报表数据在由预设时间段内数据样本生成的线性回归函数中对应的值;

结合所述全集特征数、所述时间窗口特征数和所述计算模型输出待评估报表数据的风险评估结果。

4.如权利要求3所述的风险数据识别方法,其特征在于,所述预设计算公式为:其中,a为待评估报表数据的数据值、b为数据集中最小值、c为数据集中最大值、d为数据集中数据值的平均值。

5.如权利要求4所述的风险数据识别方法,其特征在于,所述结合所述全集特征数、所述时间窗口特征数和所述计算模型输出待评估报表数据的风险评估结果包括:根据待评估报表数据的每个特征值,分别计算待评估报表数据风险评估结果为正常的权重、轻微异常的权重和严重异常的权重,将权重最大的风险评估结果作为待评估报表数据的风险评估结果输出。

6.如权利要求5所述的风险数据识别方法,其特征在于,所述分别计算待评估报表数据风险评估结果为正常的权重、轻微异常的权重和严重异常的权重包括:根据待评估报表数据每个特征值在风险评估结果为正常的训练样本集中出现的频率计算待评估报表数据评估结果为正常的权重;

根据待评估报表数据每个特征值在风险评估结果为轻微异常的训练样本集中出现的频率计算待评估报表数据评估结果为轻微异常的权重;

根据待评估报表数据每个特征值在风险评估结果为严重异常的训练样本集中出现的频率计算待评估报表数据评估结果为严重异常的权重。

7.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的风险数据识别程序,所述风险数据识别程序被所述处理器执行时实现如权利要求1至6中任一项所述的风险数据识别方法的步骤。

8.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有风险数据识别程序,所述风险数据识别程序被处理器执行时实现如权利要求1至6中任一项所述的风险数据识别方法的步骤。

说明书 :

风险数据识别方法、终端设备及计算机可读存储介质

技术领域

[0001] 本发明涉及房地产BI领域以及数据识别技术,尤其涉及一种风险数据识别方法、终端设备及计算机可读存储介质。

背景技术

[0002] 在房地产BI(Business Intelligence,商业智能)领域,涉及很多的数据或者指标,如认购未签约数、逾期未签约数、已售货量、剩余货量、回款率等等;这些是房地产从业
人员最关心的数据指标,但是这些数据指标往往是变化的且变化趋势也是动态的,有的变
化是正常的波动,但有的变化则不正常,而这些异常变化的数据可以反映出一些商业信息。
而目前识别数据指标变化是否异常是通过设定简单的规则识别且最终识别结果往往不够
准确,还需要人工进一步判断数据指标变化是否异常,对企业及时跟进商业信息或者及时
调整经营策略带来了一定的麻烦。

发明内容

[0003] 本发明的主要目的在于提供一种风险数据识别方法,旨在解决目前识别数据指标变化是否异常的技术识别结果不准确,还需人工进一步判断的技术问题。
[0004] 为实现上述目的,本发明提供一种风险数据识别方法,所述风险数据识别方法包括以下步骤:
[0005] 将待评估报表数据的数据值和数据生成时间输入训练后的计算模型计算待评估报表数据基于训练样本集中所有数据样本的全集特征数,其中,所述全集特征数包括第一
全集特征值、第二全集特征值、第三全集特征值和第四全集特征值;
[0006] 根据待评估报表数据的数据值与所有数据样本的数据值平均值的比值得到第一全集特征值;
[0007] 将待评估报表数据的数据值、所有数据样本的最小数据值、所有数据样本的最大数据值和所有数据样本的数据值平均值代入预设计算公式得到第二全集特征值;
[0008] 根据待评估报表数据的数据值分别与所有数据样本的最小数据值或者与所有数据样本的最大数据值的大小关系得到第三全集特征值;
[0009] 根据待评估报表数据的数据值与线性回归值的比值得到第四全集特征值,其中,所述线性回归值为待评估报表数据在由所有数据样本生成的线性回归函数中对应的值;
[0010] 结合所述全集特征数和所述计算模型输出待评估报表数据的风险评估结果,其中所述计算模型由朴素贝叶斯算法构建,所述风险评估结果包括:正常、轻微异常和严重异
常;
[0011] 将待评估报表数据的数据生成时间、数据值以及与待评估报表数据对应的风险评估结果作为数据样本增添至训练样本集中;
[0012] 获取所述训练样本集对所述计算模型进行训练,所述训练样本集包括多个数据样本,其中,单个数据样本包括:数据生成时间、数据值以及风险评估结果。
[0013] 进一步的,所述将待评估报表数据的数据生成时间、数据值以及与待评估报表数据对应的风险评估结果作为数据样本增添至所述练样本集中包括:
[0014] 根据数据生成时间顺序将待评估报表数据的数据值生成时间、数据值以及与待评估报表数据对应的风险评估结果增添至数据训练样本集前端,同时将数据训练样本集中末
端的数据样本删除。
[0015] 进一步的,所述计算待评估报表数据基于训练样本集中所有数据样本的全集特征数的步骤之后,还包括:
[0016] 计算待评估报表数据基于训练样本集中预设时间段内数据样本的时间窗口特征数,其中,时间窗口特征数包括:第一时间窗口特征值、第二时间窗口特征值、第三时间窗口
特征值和第四时间窗口特征值;
[0017] 根据待评估报表数据的数据值与预设时间段内数据样本的数据值平均值的比值得到第一时间窗口特征值;
[0018] 将待评估报表数据的数据值、预设时间段内数据样本的最小数据值、预设时间段内数据样本的最大数据值和预设时间段内数据样本的数据值平均值代入预设计算公式得
到第二时间窗口特征值;
[0019] 根据待评估报表数据的数据值分别与预设时间段内数据样本的最小数据值或者预设时间段内数据样本的最大数据值的大小关系得到第三时间窗口特征值;
[0020] 根据待评估报表数据的数据值与预设时间段线性回归值的比值得到第四时间窗口特征值,其中,所述预设时间段线性回归值为待评估报表数据在由预设时间段内数据样
本生成的线性回归函数中对应的值;
[0021] 结合所述全集特征数、所述时间窗口特征数和所述计算模型输出待评估报表数据的风险评估结果。
[0022] 进一步的,所述预设计算公式为:
[0023]
[0024] 其中,a为待评估报表数据的数据值、b为数据集中最小值、c为数据集中最大值、d为数据集中数据值的平均值。
[0025] 进一步的,所述结合所述全集特征数、所述时间窗口特征数和所述计算模型输出待评估报表数据的风险评估结果包括:
[0026] 根据待评估报表数据的每个特征值,分别计算待评估报表数据风险评估结果为正常的权重、轻微异常的权重和严重异常的权重,将权重最大的风险评估结果作为待评估报
表数据的风险评估结果输出。
[0027] 进一步的,所述分别计算待评估报表数据风险评估结果为正常的权重、轻微异常的权重和严重异常的权重包括:
[0028] 根据待评估报表数据每个特征值在风险评估结果为正常的训练样本集中出现的频率计算待评估报表数据评估结果为正常的权重;
[0029] 根据待评估报表数据每个特征值在风险评估结果为轻微异常的训练样本集中出现的频率计算待评估报表数据评估结果为轻微异常的权重;
[0030] 根据待评估报表数据每个特征值在风险评估结果为严重异常的训练样本集中出现的频率计算待评估报表数据评估结果为严重异常的权重。
[0031] 此外,为实现上述目的,本发明还提供一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的风险数据识别程
序,所述风险数据识别程序被所述处理器执行时实现如上述的风险数据识别方法的步骤。
[0032] 此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有风险数据识别程序,所述风险数据识别程序被处理器执行时实现
如上述的风险数据识别方法的步骤。
[0033] 本发明实施例提出的一种风险数据识别方法,通过从多个评估角度综合评估待评估报表数据,比较待评估报表数据和样本集均值、待评估报表数据和样本集整体变化趋势
以及待评估报表数据与样本集中最大值和最小值的关系,使得评估结果更加客观准确,同
时还将输出的评估结果输入计算模型的样本集中进行更新,使得计算模型整体评估标准可
以适应应用环境的变化趋势,无需人工根据应用环境的变化趋势二次评估,评估过程更加
迅速,满足企业获取商业信息的时效性需求。

附图说明

[0034] 图1是本发明实施例方案涉及的硬件运行环境的终端设备结构示意图;
[0035] 图2为本发明风险数据识别方法第一实施例的流程示意图;
[0036] 图3为本发明风险数据识别方法第二实施例的流程示意图。
[0037] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0038] 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0039] 本发明实施例的主要解决方案是:通过从多个评估角度综合评估待评估报表数据,比较待评估报表数据和样本集均值、待评估报表数据和样本集整体变化趋势以及待评
估报表数据与样本集中最大值和最小值的关系,来输出待评估报表数据的风险评估结果,
同时再将待评估报表数据及其结果风险评估结果输入到计算模型中。
[0040] 由于现有技术识别数据指标变化是否异常是通过设定简单的规则识别且最终识别结果往往不够准确,还需要人工进一步判断数据指标变化是否异常,对企业及时跟进商
业信息或者及时调整经营策略带来了一定的麻烦。
[0041] 本发明提供一种解决方案,使得评估结果更加客观准确,同时还将输出的评估结果输入计算模型的样本集中进行更新,使得计算模型整体评估标准可以适应应用环境的变
化趋势,无需人工根据应用环境的变化趋势二次评估,评估过程更加迅速,满足企业获取商
业信息的时效性需求。
[0042] 如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端设备结构示意图。
[0043] 本发明实施例终端可以是PC,也可以是智能手机、平板电脑、便携计算机等具有通讯功能的电子终端设备。
[0044] 如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。
用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口
1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接
口、无线接口(如WI‑FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器
(non‑volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器
1001的存储装置。
[0045] 可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光
传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来
调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为
运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静
止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关
游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配
置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0046] 本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0047] 如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及风险数据识别程序。
[0048] 在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器
1001可以用于调用存储器1005中存储的风险数据识别程序,并执行以下操作:
[0049] 将待评估报表数据的数据值和数据生成时间输入训练后的计算模型进行风险评估,得到待评估报表数据的风险评估结果,其中所述计算模型由朴素贝叶斯算法构建;
[0050] 将待评估报表数据的数据生成时间、数据值以及与待评估报表数据对应的风险评估结果作为数据样本增添至训练样本集中;
[0051] 获取所述训练样本集对所述计算模型进行训练,所述训练样本集包括多个数据样本,其中,单个数据样本包括:数据生成时间、数据值以及风险评估结果。
[0052] 进一步地,处理器1001可以调用存储器1005中存储的风险数据识别程序,还执行以下操作:
[0053] 所述将待评估报表数据的数据生成时间、数据值以及与待评估报表数据对应的风险评估结果作为数据样本增添至所述练样本集中包括:
[0054] 根据数据生成时间顺序将待评估报表数据的数据值生成时间、数据值以及与待评估报表数据对应的风险评估结果增添至数据训练样本集前端,同时将数据训练样本集中末
端的数据样本删除。
[0055] 进一步地,处理器1001可以调用存储器1005中存储的风险数据识别程序,还执行以下操作:
[0056] 所述将待评估报表数据的数据值和数据生成时间输入训练后的计算模型进行风险评估,得到待评估报表数据的风险评估结果包括:
[0057] 计算待评估报表数据基于训练样本集中所有数据样本的全集特征数;
[0058] 结合所述全集特征数和所述计算模型输出待评估报表数据的风险评估结果,其中,所述风险评估结果包括:正常、轻微异常和严重异常。
[0059] 进一步地,处理器1001可以调用存储器1005中存储的风险数据识别程序,还执行以下操作:
[0060] 所述计算待评估报表数据基于训练样本集中所有数据样本的全集特征数包括:
[0061] 根据待评估报表数据的数据值与所有数据样本的数据值平均值的比值得到第一全集特征值;
[0062] 将待评估报表数据的数据值、所有数据样本的最小数据值、所有数据样本的最大数据值和所有数据样本的数据值平均值代入预设计算公式得到第二全集特征值;
[0063] 根据待评估报表数据的数据值分别与所有数据样本的最小数据值或者与所有数据样本的最大数据值的大小关系得到第三全集特征值;
[0064] 根据待评估报表数据的数据值与所有数据样本的线性回归值的比值得到第四全集特征值;
[0065] 其中,所述全集特征数包括第一全集特征值、第二全集特征值、第三全集特征值和第四全集特征值。
[0066] 进一步地,处理器1001可以调用存储器1005中存储的风险数据识别程序,还执行以下操作:
[0067] 所述计算待评估报表数据基于训练样本集中所有数据样本的全集特征数的步骤之后,还包括:
[0068] 计算待评估报表数据基于训练样本集中预设时间段内数据样本的时间窗口特征数,其中,时间窗口特征数包括:第一时间窗口特征值、第二时间窗口特征值、第三时间窗口
特征值和第四时间窗口特征值;
[0069] 根据待评估报表数据的数据值与预设时间段内数据样本的数据值平均值的比值得到第一时间窗口特征值;
[0070] 将待评估报表数据的数据值、预设时间段内数据样本的最小数据值、预设时间段内数据样本的最大数据值和预设时间段内数据样本的数据值平均值代入预设计算公式得
到第二时间窗口特征值;
[0071] 根据待评估报表数据的数据值分别与预设时间段内数据样本的最小数据值或者预设时间段内数据样本的最大数据值的大小关系得到第三时间窗口特征值;
[0072] 根据待评估报表数据的数据值与预设时间段内数据样本的线性回归值的比值得到第四时间窗口特征值;
[0073] 结合所述全集特征数、所述时间窗口特征数和所述计算模型输出待评估报表数据的风险评估结果。
[0074] 进一步地,所述预设计算公式为:
[0075]
[0076] 其中,a为待评估报表数据的数据值、b为数据集中最小值、c为数据集中最大值、d为数据集中数据值的平均值。
[0077] 进一步地,处理器1001可以调用存储器1005中存储的风险数据识别程序,还执行以下操作:
[0078] 所述结合所述全集特征数、所述时间窗口特征数和所述计算模型输出待评估报表数据的风险评估结果包括:
[0079] 根据待评估报表数据的每个特征值,分别计算待评估报表数据风险评估结果为正常的权重、轻微异常的权重和严重异常的权重,将权重最大的风险评估结果作为待评估报
表数据的风险评估结果输出。
[0080] 进一步地,处理器1001可以调用存储器1005中存储的风险数据识别程序,还执行以下操作:
[0081] 所述分别计算待评估报表数据风险评估结果为正常的权重、轻微异常的权重和严重异常的权重包括:
[0082] 根据待评估报表数据每个特征值在风险评估结果为正常的训练样本集中出现的频率计算待评估报表数据评估结果为正常的权重;
[0083] 根据待评估报表数据每个特征值在风险评估结果为轻微异常的训练样本集中出现的频率计算待评估报表数据评估结果为轻微异常的权重;
[0084] 根据待评估报表数据每个特征值在风险评估结果为严重异常的训练样本集中出现的频率计算待评估报表数据评估结果为严重异常的权重。
[0085] 参照图2,本发明风险数据识别方法的第一实施例中,所述风险数据识别方法包括:
[0086] 步骤S10,将待评估报表数据的数据值和数据生成时间输入训练后的计算模型进行风险评估,得到待评估报表数据的风险评估结果,其中所述计算模型由朴素贝叶斯算法
构建;
[0087] 上述计算模型由朴素贝叶斯算法所构建且已经使用训练样本集进行训练,接收待评估的报表数据,所述待评估的报表数据将包含其生成的时间和具体数据值,如数据指标
为签约率,2021年8月的签约率为30%,需对其进行风险评估。计算待评估报表数据基于训练
样本集中所有数据样本的全集特征数;结合所述全集特征数和所述计算模型输出待评估报
表数据的风险评估结果,其中,所述风险评估结果包括:正常、轻微异常和严重异常。
[0088] 为更方便的进行说明,本实施例训练样本中所有数据样本集选取近三年的数据,具体的时间范围可根据实际应用场景决定,此处不做限制。其中,所述全集特征数包括第一
全集特征值、第二全集特征值、第三全集特征值和第四全集特征值,每个全集特征值计算方
式如下:根据待评估报表数据的数据值与所有数据样本的数据值平均值的比值得到第一全
集特征值;将待评估报表数据的数据值、所有数据样本的最小数据值、所有数据样本的最大
数据值和所有数据样本的数据值平均值代入预设计算公式得到第二全集特征值;根据待评
估报表数据的数据值分别与所有数据样本的最小数据值或者预所有数据样本的最大数据
值的大小关系得到第三全集特征值;根据待评估报表数据的数据值与所有数据样本的线性
回归值的比值得到第四全集特征值。如对于签约率,当前待评估报表数据为2021年8月份的
签约率为30%,计算模型统计的近三年每月平均签约率为50%,则第一全集特征值为30%/50%
=0.6;计算模型统计的近三年每月最低签约率为20%、最高签约率为70%,代入预设计算公
式:
[0089]
[0090] (其中,a为待评估报表数据的数据值、b为数据集中最小值、c为数据集中最大值、d为数据集中数据值的平均值),求得第二全集特征值约为0.65;上述的大小关系为是否大于
数据值最大值或者数据值小于最小值,而待评估报表数据的签约率30%大于最低签约率20%
且小于最高签约率70%,因此第三全集特征值为否;上述所有数据样本的线性回归值(由计
算模型根据训练样本集中的每个数据样本,每个数据样本中包含时间和签约率,将时间作
为自变量签约率作为因变量构建的线性回归函数,将待评估报表数据的时间代入构建的线
性回归函数求得线性回归值,线性回归值为根据训练样本预测的在评估数据时间条件下的
签约率)经计算模型计算为60%,则第四全集特征值为0.5。
[0091] 进一步,根据待评估报表数据的每个特征值,分别计算待评估报表数据风险评估结果为正常的权重、轻微异常的权重和严重异常的权重,将权重最大的风险评估结果作为
待评估报表数据的风险评估结果输出。每种风险评估结果的权重具体计算方式如下:根据
待评估报表数据每个特征值在风险评估结果为正常的训练样本集中出现的频率计算待评
估报表数据评估结果为正常的权重;根据待评估报表数据每个特征值在风险评估结果为轻
微异常的训练样本集中出现的频率计算待评估报表数据评估结果为轻微异常的权重;根据
待评估报表数据每个特征值在风险评估结果为严重异常的训练样本集中出现的频率计算
待评估报表数据评估结果为严重异常的权重。如在所有训练样本风险评估结果为正常的占
比为73%,而风险评估结果为正常的数据样本中第一全集特征值的分布情况为小于等于0.4
占比为18%、大于0.4且小于或等于0.8占比为21%、大于0.8且小于或等于1.2占比为29%、大
于1.2且小于或者等于1.6占比为22%、大于1.6占比为10%,而待评估报表数据的第一全集特
征为0.5属于大于0.4且小于或等于0.8,因此其占比为21%即频率为0.21;同样第二全集特
征值、第三全集特征值和第四全集特征值根据其分布情况此处不在赘述,其特征值的频率
分别为0.27、0.89和0.52,计算得出待评估报表数据在评价结果为正常情况下权重为0.73
(所有训练样本风险评估结果为正常的占比)×0.21×0.27×0.89×0.52=0.01915。使用上
述同样的方法计算出待评估报表数据在评价结果为轻微异常情况下和严重异常情况下的
权重分别为0.00725和0.00392,经比较得到待评估报表数据在评价结果为正常的权重更
大,因此将待评估报表数据风险评估结果正常,输出给用户。
[0092] 可以理解的是在对待评估报表数据评估并不是简单设定异常范围,而是使用了数个特征值。其中,第一全集特征值反映待评估报表数据远离或趋近样本集均值的程度;第二
集特征值和第四集特征值反映待评估报表数据远离或趋近整体样本集趋势的程度;第三集
特征值直接反映与样本集中最大值和最小值的关系;进一步,根据每个特征值在每种评估
结果的数据样本中分布情况可以计算出具备上述数个特征值的数据在对应评估结果下的
概率。使得待评估报表数据的风险评估结果评估角度更多,评估结果更准确。
[0093] 步骤S20,将待评估报表数据的数据生成时间、数据值以及与待评估报表数据对应的风险评估结果作为数据样本增添至训练样本集中;
[0094] 可以理解的是,本实施例会根据数据生成时间顺序将待评估报表数据的数据值生成时间、数据值以及与待评估报表数据对应的风险评估结果增添至数据训练样本集前端,
同时将数据训练样本集中末端的数据样本删除,如上述2021年8月份签约率为30%的风险评
估结果为正常,将其输入到训练集中,同时删除2019年8月签约率的相关数据。
[0095] 将计算模型的输出结果再次输入至计算模型的样本集中,形成反馈作用使得计算模型中的样本集不断优化,评价标准更加符合当下应用环境。
[0096] 步骤S30,获取所述训练样本集对所述计算模型进行训练,所述训练样本集包括多个数据样本,其中,单个数据样本包括:数据生成时间、数据值以及风险评估结果。
[0097] 可以理解的是在本实施中通过训练样本集和朴素贝叶斯算法所构建的计算模型是针对某一类数据指标,因此训练样本中的数据样本是该类数据指标的相关数据。其中,训
练样本集可以是该类数据指标的历史数据样本集,也可以是人工生成的该类数据指标的数
据样本集。具体的,单个数据样本包括数据值、数据值生成的日期和该数据值的风险评估结
果。如在房地产领域中数据指标为签约率,在签约率中某单个数据样本包括为:2021年1月
签约率具体数据值为62%且风险评估结果为正常。对于不同的数据指标其训练样本集也将
不同。而对计算模型进行训练是将获取到的训练样本集输入到计算模型中,在后续对当前
数据的风险评估将会以所述训练样本集作为基础。
[0098] 而上述的计算模型将会统计输入的训练样本集中每个数据样本的数据值以及每个数据样本的各项特征值,分别生成在正常、轻微异常和严重异常评估结果下各项指标的
分布情况。所述各项指标在的分布情况可以反映出当前计算模型对上述某一类数据指标判
断标准。由于不断在训练样本中加入计算模型的输出结果,使得后续接收到的待评估报表
数据特征值的计算结果更加符合当前应用环境。
[0099] 在本实施例中对待评估报表数据评估标准并不是简单设定异常范围,而是使用朴素贝叶斯算法从多个评估角度综合评估待评估报表数据,如待评估报表数据与样本集均值
的契合程度、与样本集整体变化趋势的符合程度和与样本集中最大值和最小值的关系,使
得评价结果更加准确,同时还将输出的评估结果输入计算模型的样本集中进行更新,使得
计算模型整体评估标准可以适应应用环境的变化趋势,无需人工根据应用环境的变化趋势
二次评估,评估过程更加迅速,满足企业获取商业信息的时效性需求。
[0100] 进一步的,参照图3,本发明风险数据识别方法的第二实施例,所述风险数据识别方法包括:
[0101] 步骤S11,计算待评估报表数据基于训练样本集中所有数据样本的全集特征数;
[0102] 根据待评估报表数据的数据值与所有数据样本的数据值平均值的比值得到第一全集特征值;将待评估报表数据的数据值、所有数据样本的最小数据值、所有数据样本的最
大数据值和所有数据样本的数据值平均值代入预设计算公式得到第二全集特征值;根据待
评估报表数据的数据值分别与所有数据样本的最小数据值或者预所有数据样本的最大数
据值的大小关系得到第三全集特征值;根据待评估报表数据的数据值与所有数据样本的线
性回归值的比值得到第四全集特征值。在第一实施例中对每个全集特征值计算方式有具体
阐述,此处不再赘述。
[0103] 步骤S12,计算待评估报表数据基于训练样本集中预设时间段内数据样本的时间窗口特征数;
[0104] 其中,时间窗口特征数包括:第一时间窗口特征值、第二时间窗口特征值、第三时间窗口特征值和第四时间窗口特征值,根据待评估报表数据的数据值与预设时间段内数据
样本的数据值平均值的比值得到第一时间窗口特征值;将待评估报表数据的数据值、预设
时间段内数据样本的最小数据值、预设时间段内数据样本的最大数据值和预设时间段内数
据样本的数据值平均值代入预设计算公式得到第二时间窗口特征值;根据待评估报表数据
的数据值分别与预设时间段内数据样本的最小数据值或者预设时间段内数据样本的最大
数据值的大小关系得到第三时间窗口特征值;根据待评估报表数据的数据值与预设时间段
内数据样本的线性回归值的比值得到第四时间窗口特征值。可以理解的是时间窗口特征数
与全集特征数不同的是,时间窗口特征数计算时的样本集选取的为近期的数据,为了方便
的描述,本实施例中选取近一年的数据样本作为时间窗口特征数计算训练样本集,具体的
时间段可根据数据指标的特点以及需求来设定。
[0105] 如上述例子,数据指标为签约率,2021年8月的签约率为30%,根据统计结果近一年每月平均签约率为60%,则第一时间窗口特征值为30%/60%=0.5;近一年每月最低签约率为
30%、最高签约率为80%,代入预设计算公式:
[0106]
[0107] (其中,a为待评估报表数据的数据值、b为数据集中最小值、c为数据集中最大值、d为数据集中数据值的平均值),求得第二时间窗口特征值约为0.5;待评估报表数据签约率
为30%等于最低签约率30%且小于最高签约率80%,因此第三时间窗口特征值为否;预设时间
段内数据样本的线性回归值为65%,则第四全集特征值为0.46。
[0108] 步骤S13,结合所述全集特征数、所述时间窗口特征数和所述计算模型输出待评估报表数据的风险评估结果;
[0109] 计算模型根据待评估报表数据的每个特征值,分别计算待评估报表数据风险评估结果为正常的权重、轻微异常的权重和严重异常的权重,将权重最大的风险评估结果作为
待评估报表数据的风险评估结果输出。其中,计算模型所根据待评估报表数据的每个特征
值可以是单时间窗口特征数所包含的特征值,也可是全集特征数和单时间窗口特征数中所
有的特征值。单时间窗口特征数所包含的特征值情况下计算方式与使用全集特征数的特征
值时的计算方式一致。同样的当全集特征数和单时间窗口特征数都包含时则统计第一全集
特征值、第二全集特征值、第三全集特征值、第四全集特征值、第一时间窗口特征值、第二时
间窗口特征值、第三时间窗口特征值和第四时间窗口特征值分别在正常、轻微异常和严重
异常的风险评估结果下的分布情况,获取待评估报表数据的每个特征值分别在正常、轻微
异常和严重异常的风险评估结果下的频率,再计算待评估报表数据在每个评估结果下的权
重(如:包含全集特征数和单时间窗口特征数时,待评估报表数据评估结果为正常的权重=
第一全集特征值的频率×第二全集特征值的频率×第三全集特征值的频率×第四全集特
征值的频率×第一时间窗口特征值的频率×第二时间窗口特征值的频率×第三时间窗口
特征值的频率×第四时间窗口特征值的频率),将权重最大的评估结果输出。
[0110] 可以理解的是,将第一时间窗口特征值、第二时间窗口特征值、第三时间窗口特征值和第四时间窗口特征值参与到不同的风险评估结果的权重计算,而时间窗口特征值更能
体现待估计数据与近期数据的关系,使得最终的风险评估结果更加贴合近期数据变换趋
势,保证最终评估结果的准确性。
[0111] 步骤S21,将待评估报表数据的数据值生成时间、数据值以及与待评估报表数据对应的风险评估结果作为数据样本增添至所述训练样本集中;
[0112] 将待评估报表数据的数据值生成时间、数据值以及上述最终得到的风险评估结果,重新输入到计算模型,形成一个正向反馈作用不断优化计算模型中的训练样本,使得计
算模型的评估标准实时更新,评估结果更加准确与当前应用环境所契合。
[0113] 步骤S31,获取训练样本集对朴素贝叶斯算法构建的计算模型进行训练,所述训练样本集包括多个数据样本,其中,单个数据样本包括:数据生成时间、数据值以及数据风险
评估结果。
[0114] 使用上述经过更新后的训练样本集对朴素贝叶斯算法构建的计算模型进行训练,单个数据样本包括数据生成时间、数据值以及数据风险评估结果。计算模型将会统计和处
理所述训练样本,计算单个数据样本的多项特征值,具体计算方式如上述第一实施例中对
待评估报表数据特征值的计算方式一致。此外,在统计训练样本集中所有的数据样本的相
关数据时,还将统计近训练样本集中一年数据样本的每个评估结果下每个特征值的分布情
况。
[0115] 在本实施例中,将额外计算并处理近一年的数据样本,在近一年的数据样本基础上计算出待估计报表数据的时间窗口特征数,并将时间窗口特征数参与风险评估中,使得
计算模型的风险评估结果更加贴合实时环境的走势,避免训练样本集时间跨度太长,弱化
近期训练样本的趋势,使得最终风险评估结果更准确。
[0116] 此外,本发明还提供一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的风险数据识别程序,所述风险数据识
别程序被所述处理器执行时实现如上述的风险数据识别方法的步骤。
[0117] 此外,本发明还提供一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有风险数据识别程序,所述风险数据识别程序被处理器执行时实现如上述的风险数据
识别方法的步骤。
[0118] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而
且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有
的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该
要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0119] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0120] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下
前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个
存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,
计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0121] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技
术领域,均同理包括在本发明的专利保护范围内。