一种预测数据异常检测方法、装置、设备及存储介质转让专利

申请号 : CN201911139963.9

文献号 : CN112825164A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 肖沙沙王本玉许颖聪林梦婷戴妍妍金晶

申请人 : 顺丰科技有限公司

摘要 :

本发明实施例公开了一种预测数据异常检测方法、装置、计算机设备及存储介质,涉及数据处理技术领域。其中,方法包括:确定待检测网点,以及所述待检测网点的待检测指标;获取待检测网点的待检测指标的往期预测数据、往期真实数据,以及本期预测数据;根据往期预测数据和往期真实数据,检测本期预测数据是否出现异常。本发明实施例实现根据往期预测数据和往期真实数据,来检测本期预测数据是否出现异常,实现了对本期预测数据是否出现异常的检测,根据是否出现异常来确定本期预测数据的合理性。

权利要求 :

1.一种预测数据异常检测方法,其特征在于,包括:确定待检测网点,以及所述待检测网点的待检测指标;

获取所述待检测网点的所述待检测指标的往期预测数据、往期真实数据,以及本期预测数据;

根据所述往期预测数据和所述往期真实数据,检测所述本期预测数据是否出现异常。

2.如权利要求1所述的预测数据异常检测方法,其特征在于,所述根据所述往期预测数据和所述往期真实数据,检测所述本期预测数据是否出现异常,包括:根据所述待检测网点的所述往期预测数据和所述往期真实数据,计算所述待检测网点的所述本期预测数据的控制上限和控制下限;

在全部的所述待检测网点中,统计所述本期预测数据未在对应的所述控制上限和所述控制下限范围内的待检测网点所占的比值;

根据所述比值确定所述本期预测数据是否出现异常。

3.如权利要求2所述的预测数据异常检测方法,其特征在于,所述根据所述待检测网点的所述往期预测数据和所述往期真实数据,计算所述待检测网点的所述本期预测数据的控制上限和控制下限,包括:

根据所述待检测网点的所述往期预测数据和所述往期真实数据,计算所述待检测网点的所述往期预测数据所对应的控制上限和控制下限;

根据所述待检测网点的所述往期预测数据所对应的控制上限和控制下限,计算所述待检测网点的所述本期预测数据的控制上限和控制下限。

4.如权利要求3所述的预测数据异常检测方法,其特征在于,每期预测数据包括预测当天的预测值和预测当天之后预设时间内每一天的预测值,所述当天之后预设时间内的每一天对应一个预测提前期;所述根据所述待检测网点的所述往期预测数据和所述往期真实数据,计算所述待检测网点的所述往期预测数据所对应的控制上限和控制下限,包括:获取所述待检测网点的所述往期预测数据中的预测本期的预测值,以及获取所述待检测网点的所述往期预测数据中的每个预测提前期的预测值;

根据所述往期预测数据中的预测本期的预测值计算所述往期预测数据中的预测本期的预测均值;

根据所述往期预测数据中的每个预测提前期的预测值和所述往期真实数据,计算每个预测提前期所对应的误差均值;

根据所述预测均值和每个预测提前期所对应的误差均值,计算每个预测提前期所对应的控制上限和控制下限;并将每个预测提前期所对应的控制上限和控制下限,作为所述待检测网点的所述往期预测数据所对应的控制上限和控制下限。

5.如权利要求3所述的预测数据异常检测方法,其特征在于,所述根据所述待检测网点的所述往期预测数据所对应的控制上限和控制下限,计算所述待检测网点的所述本期预测数据的控制上限和控制下限,包括:确定所述待检测网点的所述往期预测数据所对应的控制上限的上α分位数,并将所述上α分位数作为所述待检测网点的所述本期预测数据的控制上限;

确定所述待检测网点的所述往期预测数据所对应的控制下限的下β分位数,并将所述下β分位数作为所述待检测网点的所述本期预测数据的控制下限。

6.如权利要求2所述的预测数据异常检测方法,其特征在于,所述根据所述比值确定所述本期预测数据是否出现异常,包括:判断所述比值是否大于预设比值;

若所述比值大于预设比值,则确定所述本期预测数据异常;并从所述往期预测数据中确定一期预测数据作为本期预测数据;

若所述比值不大于预设比值,则确定所述本期预测数据正常。

7.如权利要求1所述的预测数据异常检测方法,其特征在于,所述确定待检测网点,包括:

获取所有网点中的待检测指标的往期预测数据和往期真实数据;

根据所述往期预测数据和所述往期真实数据,确定每个网点的预测误差;

根据每个网点的预测误差,从所述所有网点中确定待检测网点。

8.一种预测数据异常检测装置,其特征在于,包括:确定单元,用于确定待检测网点,以及所述待检测网点的待检测指标;

获取单元,用于获取所述待检测网点的所述待检测指标的往期预测数据、往期真实数据,以及本期预测数据;

检测单元,用于根据所述往期预测数据和所述往期真实数据,检测所述本期预测数据是否出现异常。

9.一种计算机设备,其特征在于,所述计算机设备包括:一个或多个处理器;存储器;以及一个或多个应用程序,其中所述处理器和所述存储器相连接,所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至7中任一项所述的预测数据异常检测方法。

10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的预测数据异常检测方法中的步骤。

说明书 :

一种预测数据异常检测方法、装置、设备及存储介质

技术领域

[0001] 本发明涉及数据处理技术领域,具体涉及一种预测数据异常检测方法、装置、计算机设备及存储介质。

背景技术

[0002] 物流行业为提前优化配置各网点的人力物力资源,需每天更新各网点当天及未来收派件量的预测数据。其中,预测数据是通过件量预测模型进行预测得到,然而件量预测模
型在每天的预测更新中有时会受到新加入的特征参数和历史数据影响,导致输出的预测数
据出现明显异常,当异常的预测数据输送给下游相关业务人员进行人力物力资源分配时会
造成严重后果。因此使用预测模型对各网点当天及未来收派件量进行预测时,不能对模型
输出的预测数据的准确率进行判定,以及对预测数据的合理性进行评价,降低了用户体验。

发明内容

[0003] 本发明实施例提供一种预测数据异常检测方法、装置、计算机设备及存储介质,可实现对预测数据进行异常检测。
[0004] 本发明实施例提供了一种预测数据异常检测方法,包括:
[0005] 确定待检测网点,以及所述待检测网点的待检测指标;
[0006] 获取所述待检测网点的所述待检测指标的往期预测数据、往期真实数据,以及本期预测数据;
[0007] 根据所述往期预测数据和所述往期真实数据,检测所述本期预测数据是否出现异常。
[0008] 本发明实施例还提供了一种预测数据异常检测装置,包括:
[0009] 确定单元,用于确定待检测网点,以及所述待检测网点的待检测指标;
[0010] 获取单元,用于获取所述待检测网点的所述待检测指标的往期预测数据、往期真实数据,以及本期预测数据;
[0011] 检测单元,用于根据所述往期预测数据和所述往期真实数据,检测所述本期预测数据是否出现异常。
[0012] 进一步地,所述检测单元,包括:
[0013] 计算单元,用于根据所述待检测网点的所述往期预测数据和所述往期真实数据,计算所述待检测网点的所述本期预测数据的控制上限和控制下限;
[0014] 统计单元,用于在全部的所述待检测网点中,统计所述本期预测数据未在对应的所述控制上限和所述控制下限范围内的待检测网点所占的比值;
[0015] 异常确定单元,用于根据所述比值确定所述本期预测数据是否出现异常。
[0016] 进一步地,所述计算单元,包括:
[0017] 第一计算单元,用于根据所述待检测网点的所述往期预测数据和所述往期真实数据,计算所述待检测网点的所述往期预测数据所对应的控制上限和控制下限;
[0018] 第二计算单元,用于根据所述待检测网点的所述往期预测数据所对应的控制上限和控制下限,计算所述待检测网点的所述本期预测数据的控制上限和控制下限。
[0019] 进一步地,每期预测数据包括预测当天的预测值和预测当天之后预设时间内每一天的预测值,所述当天之后预设时间内的每一天对应一个预测提前期;所述第一计算单元,
包括:
[0020] 第二数据获取单元,用于获取所述待检测网点的所述往期预测数据中的预测本期的预测值,以及获取所述待检测网点的所述往期预测数据中的每个预测提前期的预测值;
[0021] 预测均值计算单元,用于根据所述往期预测数据中的预测本期的预测值计算所述往期预测数据中的预测本期的预测均值;
[0022] 误差均值计算单元,用于根据所述往期预测数据中的每个预测提前期的预测值和所述往期真实数据,计算每个预测提前期所对应的误差均值;
[0023] 第一上下限计算单元,用于根据所述预测均值和每个预测提前期所对应的误差均值,计算每个预测提前期所对应的控制上限和控制下限;
[0024] 第一上下限确定单元,用于将每个预测提前期所对应的控制上限和控制下限,作为所述待检测网点的所述往期预测数据所对应的控制上限和控制下限。
[0025] 进一步地,所述第二计算单元,包括:
[0026] 第二上下限计算单元,用于确定所述待检测网点的所述往期预测数据所对应的控制上限的上α分位数,以及用于确定所述待检测网点的所述往期预测数据所对应的控制下
限的下β分位数;
[0027] 第二上下限确定单元,用于将所述上α分位数作为所述待检测网点的所述本期预测数据的控制上限,以及用于将所述下β分位数作为所述待检测网点的所述本期预测数据
的控制下限。
[0028] 进一步地,所述异常确定单元,包括:
[0029] 判断单元,用于判断所述比值是否大于预设比值;
[0030] 数据异常确定单元,用于若所述比值大于预设比值,则确定所述本期预测数据异常,以及若所述比值不大于预设比值,则确定本期预测数据正常;
[0031] 预测数据确定单元,用于若所述本期预测数据异常,从所述往期预测数据中确定一期预测数据作为本期预测数据。
[0032] 进一步地,所述确定单元,包括:
[0033] 第一数据获取单元,用于获取所有网点中的待检测指标的往期预测数据和往期真实数据;
[0034] 第一误差确定单元,用于根据所述往期预测数据和所述往期真实数据,确定每个网点的预测误差;
[0035] 网点确定单元,用于根据每个网点的预测误差,从所述所有网点中确定待检测网点。
[0036] 本发明实施例还提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储器;以及一个或多个应用程序,其中所述处理器和所述存储器相连接,所述一个或
多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述任一项所述的预测
数据异常检测方法。
[0037] 本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行上述任一项所述的预测数据异常检测方法。
[0038] 本发明实施例通过确定待检测网点,以及所述待检测网点的待检测指标;获取所述待检测网点的所述待检测指标的往期预测数据、往期真实数据,以及本期预测数据;根据
所述往期预测数据和所述往期真实数据,检测所述本期预测数据是否出现异常。本发明实
施例实现根据往期预测数据和往期真实数据,来检测本期预测数据是否出现异常,实现了
对本期预测数据是否出现异常的检测,根据是否出现异常来确定本期预测数据的合理性。

附图说明

[0039] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于
本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附
图。
[0040] 图1是本发明实施例提供的预测数据异常检测方法的流程示意图;
[0041] 图2是本发明实施例提供的预测数据异常检测方法的子流程示意图;
[0042] 图3是本发明实施例提供的预测数据异常检测方法的子流程示意图;
[0043] 图4是本发明实施例提供的预测数据异常检测方法的子流程示意图;
[0044] 图5是本发明实施例提供的预测数据异常检测装置的示意性框图;
[0045] 图6是本发明实施例提供的检测单元的示意性框图;
[0046] 图7是本发明实施例提供的计算机设备的示意性框图。

具体实施方式

[0047] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
[0048] 在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第
一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述
中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。另外,“第一”、“第二”这些
术语用来将多个元素彼此区分开。例如,在不脱离本发明范围的前提下,第一计算单元可以
被称为第二计算单元,并且类似地,第二计算单元可以被称为第一计算单元。第一计算单元
和第二计算单元均为计算单元,但它们并非同一计算单元。
[0049] 在本发明中,“示例性”一词用来表示“用作例子、例证或说明”。本发明中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任
何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列
出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况
下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必
要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合
本发明所公开的原理和特征的最广范围相一致。
[0050] 本发明实施例提供一种预测数据异常检测方法、装置、计算机设备及存储介质。该预测数据异常检测方法运行于设备中,该设备可以是服务器,也可以是终端,如手机、Pad、
台式电脑等设备。以下分别进行详细说明。
[0051] 图1是本发明实施例提供的预测数据异常检测方法的流程示意图,该预测数据异常检测方法主要包括下列步骤101~103,具体流程如下:
[0052] 101,确定待检测网点,以及待检测网点的待检测指标。
[0053] 其中,网点指的是存在检测指标的地方。例如,在物流行业中,指的是可以收取快件和派发快件的站点。待检测指标指的是收取快件和派发快件的件量,即收派件量。因为需
要提前优化配置各网点的人力物力资源,需每天利用件量预测模型对各网点当天以及未来
收派件量进行预测,以更新各网点当天及未来收派件量的预测数据,其中,未来收派件量的
预测数据指的是当天之后预设时间段内的每一天的收派件量的预测值。因此,需要对预测
出的收派件量进行异常检测,以确定预测的收派件量是否正常。故待检测网点指的是需要
对预测出来的收派件量进行检测的站点。
[0054] 具体地,如图2所示,步骤101,包括1011-1013。
[0055] 1011,获取所有网点中的待检测指标的往期预测数据和往期真实数据。
[0056] 其中,需要说明的是,件量预测模型每一次的件量预测数据包括预测当天的预测值和预测当天之后预设时间段内每一天的预测值。假设件量预测模型每天输出一次数据,
则将每天的预测数据作为一期预测数据,也可以理解为件量预测模型的更新频率为每天。
如此,每期预测数据包括预测当天的预测值和预测当天之后预设时间内每一天的预测值。
往期预测数据包括预测往期当天的预测值和预测往期当天之后的预设时间段内每一天的
预测值,例如,上一期预测数据包括预测昨天的预测值和预测昨天之后预设时间段内每一
天的预测值。往期真实数据指的是往期当天所对应的实际值。步骤1011,包括:获取所有网
点中的待检测指标的过去多期预测数据和过去多期真实数据。
[0057] 1012,根据往期预测数据和往期真实数据,确定每个网点的预测误差。
[0058] 具体地,步骤1012,包括:获取过去N期预测数据中每期对于当天的预测值和过去N期真实数据,其中,过去N期真实数据,指的是实际件量表中对应的过去N期的历史真实数
据,即过去N天的实际值;然后根据过去N期预测数据中每期对于当天的预测值和过去N天的
实际值,计算每个网点过去N期的平均绝对百分比误差(Mean absolute percentage 
error,MAPE);将所计算的平均绝对百分比误差作为每个网点的预测误差。其中,还可以计
算均方根误差(Root Mean Square Error,RMSE),平均绝对误差(Mean Absolute Error,
MAE)等来代替平均绝对百分比误差,来作为每个网点的预测误差。
[0059] 平均绝对百分比误差的计算公式如公式(1)所示,其中,MAPE表示平均绝对百分比误差,N表示N期,yt表示预测值,st表示实际值。
[0060]
[0061] 1013,根据每个网点的往期预测数据、往期真实数据,以及每个网点的预测误差,从所有网点中确定待检测网点。
[0062] 件量预测模型每一期都会输出所有网点的预测数据,由于涉及的网点较多,若对所有的网点预测数据做对比分析检验效率较低,且有些网点序列由于自身属性情况(网点
的拆分、合并)会导致预测误差较大,选择预测误差较大的网点序列做对比检验不具代表
性。因此,需要从所有网点中确定待检测网点,以根据待检测网点的数据来进行预测数据的
检测,如此,提高预测数据检测的准确度和效率。
[0063] 因此,步骤1013,包括:检测每个网点的往期预测数据中是否存在过去连续2N期预测数据;检测每个网点的往期真实数据中是否存在过去连续N期的实际值;检测每个网点的
预测误差是否小于等于50%,例如,MAPE<=50%;若某网点的往期真实数据中存在过去连
续N期的实际值,且往期预测数据中存在过去连续2N期预测数据,且计算出的该网点的预测
误差小于等于50%(例如,该网点过去N期的实际值与预测值的MAPE<=50),则将该网点确
定为待检测网点;否则,则不将该网点确定为待检测网点。
[0064] 可以简单理解,待检测网点满足以下条件:
[0065] (1)该网点存在过去连续N期的实际值;
[0066] (2)该网点存在过去连续2N期预测数据;
[0067] (3)该网点的预测误差小于等于50%(例如,该网点过去N期的实际值与预测值的MAPE<=50)。
[0068] 102,获取待检测网点的待检测指标的往期预测数据、往期真实数据,以及本期预测数据。
[0069] 上述步骤中确定出了待检测网点后,获取待检测网点的收派件量的往期预测数据、往期真实数据,以及本期预测数据。具体地,获取待检测网点的的收派件量的过去2N期
预测数据,过去N期真实数据,以及本期预测数据。
[0070] 例如,需要确定2018/8/21当天利用件量预测模型输出的预测数据是否正常,则2018/8/21当天的预测数据即为本期预测数据,本期预测数据也包括预测当天(2018/8/21)
的预测值和预测当天之后预设时间段内每一天的预测值。其中,2018/8/21也被称为被检测
日期,即需要检测本期预测数据是否正常的检测日期,对应于本期预测数据的当天。假设N
=10,则往期预测数据,即为过去20期预测数据(2018/8/1-2018/8/20所对应的每期预测数
据),往期真实数据,即为过去10期真实数据(2018/8/11-2018/8/20所对应的每期真实数
据,即2018/8/11-2018/8/20所对应的实际值)。
[0071] 103,根据往期预测数据和往期真实数据,检测本期预测数据是否出现异常。
[0072] 根据历史预测数据和历史真实数据,来检测本期预测数据是否出现异常。具体地,可通过统计过程控制(SPC)的方法来检测本期预测数据是否出现异常。其中,统计过程控制
通常是生产过程中进行实时监控的统计分析技术,运用科学的方法区分生产过程中产品质
量的随机波动与异常波动,从而在发生异常波动趋势时提前给出预警,方便相关管理人员
及时采取措施。SPC在监测过程中可根据控制图来判断异常情况,控制图中包括控制中线
(CL)、控制上线(UCL)、控制下限(LCL)组成,当被检测的点超过控制上限、控制下限时为异
常点。控制上限、控制下限常用的是3σ原理,根据质量特性的均值μ和标准偏差σ来控制上
限、控制下限。本发明中采用统计过程控制的方法来检测本期预测数据是否出现异常。
[0073] 具体地,如图3所示,步骤103,包括1031-1033。
[0074] 1031,根据待检测网点的往期预测数据和往期真实数据,计算待检测网点的本期预测数据的控制上限和控制下限。
[0075] 具体地,步骤1031,包括:根据待检测网点的往期预测数据和往期真实数据,计算待检测网点的往期预测数据所对应的控制上限和控制下限;根据待检测网点的往期预测数
据所对应的控制上限和控制下限,计算待检测网点的本期预测数据的控制上限和控制下
限。
[0076] 其中,每期预测数据包括预测当天的预测值和预测当天之后预设时间内每一天的预测值,当天之后预设时间内的每一天对应一个预测提前期。进一步地,根据待检测网点的
往期预测数据和往期真实数据,计算待检测网点的往期预测数据所对应的控制上限和控制
下限的步骤,如图4所示,包括1031a-1031e。
[0077] 1031a,获取待检测网点的往期预测数据中的预测本期的预测值,以及获取待检测网点的往期预测数据中的每个预测提前期的预测值。
[0078] 假设本期预测数据为2018/8/21日的预测数据,N=10,预设时间段为20天,件量预测模型的更新频率为每天。如此,本期预测数据包括预测2018/8/21日的预测值、以及预测
2018/8/21日之后预设时间段内每一天的预测值,包括2018/8/22日的预测值、预测2018/8/
23日的预测值、预测2018/8/24日的预测值、......。其中,预测本期的预测值,指的是本期
预测数据中选择用来作为检测的预测值。本期预测数据中选择用来作为检测的预测值可以
是2018/8/21(当天)的预测值,也可以是2018/8/22、2018/8/23、2018/8/24......中的任一
天的预测值,通常情况下选择最近日期的预测值来作为检测,故以下方案中选择用当天
2018/8/21日的预测值为例进行说明。如此,往期预测数据中的预测本期的预测值,理解为,
过去N期预测数据中预测2018/8/21日的预测值,即2018/8/11-2018/8/20每天的预测数据
中预测2018/8/21日的预测值。
[0079] 其中,每个预测提前期用T+1、T+2、……、T+N来表示,即有N个预测提前期。其中,T+1的物理意义为今天预测明天(或者昨天预测今天或者今天预测后一天或者前一天预测后
一天等),T+2的物理意义为今天预测后天(或者前天预测今天或者今天预测后两天等),T+
3、……、T+N的物理意义以此类推。需要说明的是,若用来作为检测的预测值是2018/8/21
(当天)的预测值,,那么对应的,每个预测提前期包括T+1、T+2、……、T+N所对应的预测提前
期;若用来作为检测的预测值是2018/8/22的预测值,对应的,每个预测提前期包括T+2、T+
3、……、T+N所对应的预测提前期;若“用来作为检测的预测值是2018/8/23,对应的,每个预
测提前期包括T+3、T+4、……、T+N所对应的预测提前期;若用来作为检测的预测值是2018/
8/24的预测值,对应的,每个预测提前期包括T+4、T+5、……、T+N所对应的预测提前期;依次
类推。
[0080] 若用来作为检测的预测值是2018/8/21(当天)的预测值,对于T+1所对应的预测提前期,则获取2018/8/19日预测的2018/8/20的预测值、2018/8/18日预测的2018/8/19的预
测值、2018/8/17日预测的2018/8/18的预测值、……、2018/8/10日预测的2018/8/11的预测
值。如对于T+2所对应的预测提前期,则获取2018/8/18日预测的2018/8/20的预测值、2018/
8/17日预测的2018/8/19的预测值、2018/8/16日预测的2018/8/18的预测值、……、2018/8/
9日预测的2018/8/11的预测值。对于T+3、……、T+N所对应的预测提前期的预测值以此类
推。具体地,如表1所示,为T+1、……、T+N所对应的预测提前期的预测值。为了简化表达,将
其中的年份去掉了。其中,表1中的最后一列是解释说明;表1中的第一行从左到右依次表示
的是2018/8/11所对应的真实值、2018/8/12所对应的真实值、2018/8/13所对应的真实
值、……,2018/8/20所对应的真实值;从表1中的第二行开始分别对应T+1、……、T+N所对应
的预测提前期的预测值。
[0081] 表1 T+1、……、T+N所对应的预测提前期的预测值
[0082]   8/11 8/12 8/13 ...... 8/20 实际值T+1 8/10 8/11 8/12 ...... 8/19 本行中的每个日期预测后一天的预测值
T+2 8/9 8/10 8/11 ...... 8/18 本行中的每个日期预测后两天的预测值
T+3 8/8 8/9 8/10 ...... 8/17 本行中的每个日期预测后三天的预测值
...... ...... ...... ...... ...... ...... ......
T+N 8/1 8/2 8/3 ...... 8/10 本行中的每个日期预测后N天的预测值
[0083] 1031b,根据往期预测数据中的预测本期的预测值计算往期预测数据中的预测本期的预测均值。
[0084] 若用来作为检测的预测值是2018/8/21的预测值,对于每个待检测网点,根据过去N期预测数据中预测2018/8/21日的预测值,计算过去N期预测数据中预测2018/8/21日的预
测均值。如根据过去2018/8/11-2018/8/20这10期预测数据中预测2018/8/21日的预测值求
平均以得到2018/8/21日的预测均值。具体地,计算公式如公式(2)所示,其中,表示预测
均值,N表示N期,yt表示预测值。
[0085]
[0086] 需要说明的是,若用来作为检测的预测值是2018/8/22的预测值,则对于每个待检测网点,根据过去N期预测数据中预测2018/8/22日的预测值,计算过去N期预测数据中预测
2018/8/22日的预测均值;若用来作为检测的预测值是2018/8/23的预测值,则对于每个待
检测网点,根据过去N期预测数据中预测2018/8/23日的预测值,计算过去N期预测数据中预
测2018/8/23日的预测均值,依次类推。其中,上述公式(2)中有多少个yt,分母就为对应个
数。
[0087] 1031c,根据往期预测数据中的每个预测提前期的预测值和往期真实数据,计算每个预测提前期所对应的误差均值。
[0088] 对于每个待检测网点,根据每个预测提前期的预测值和往期真实数据,计算每个预测提前期的误差;根据每个预测提前期的误差计算每个预测提前期的的误差均值。其中,
根据每个预测提前期的预测值和往期真实数据,计算每个预测提前期的误差,可以理解为,
如对于2018/8/11的实际值,T+1所对应的预测提前期的预测误差是指2018/08/10日输出的
2018/08/11的预测值和2018/08/11的实际值的误差,T+2所对应的预测提前期的预测误差
2018/08/9日输出的2018/08/11的预测值和2018/08/11的实际值的误差,......,T+10所对
应的预测提前期的预测误差是指2018/08/01输出的日期2018/08/11的预测值和2018/08/
11实际值的误差。如表1所示,后面的每期数据的误差计算,以此类推。
[0089] 其中,该处的误差可以指绝对误差(绝对误差=abs(预测值-实际值)),也可以指相对误差(相对误差=abs(预测值-实际值)/实际值),还可以指其他形式的误差。其中,根
据每个预测提前期的误差计算每个预测提前期的的误差均值,理解为,对于选择的N期真实
数据,每一期都计算出了一个T+1、T+2、……、T+N所对应的预测提前期的误差,根据每一期
计算出的一个T+1、T+2、……、T+N所对应的预测提前期的误差计算T+1、T+2、……、T+N所对
应的预测提前期的误差均值。其中,误差均值为 i=1,2,....,N。若误差指的是相对误
差,则计算出的误差均值为相对误差均值,若误差指的是绝对误差,则计算出的误差均值为
绝对误差均值。该步骤的实际意义是,计算预测后一天的误差均值,计算预测后两天的误差
均值,计算预测后三天的误差均值,……,计算预测后N天的误差均值。
[0090] 1031d,根据预测均值和每个预测提前期所对应的误差均值,计算每个预测提前期所对应的控制上限和控制下限。
[0091] 对于每个待检测网点,根据所计算出的预测均值 和计算出的每个预测提前期的误差均值 计算每个预测提前期的控制上限和控制下限。
[0092] 具体地,若计算出的误差均值为相对误差均值,则计算每个预测提前期的控制上限和控制下限的计算公式如公式(3)和公式(4)所示;若计算出的误差均值为绝对误差均
值,则计算每个预测提前期的控制上限和控制下限的计算公式如公式(5)和公式(6)所示。
其中,i=1,2,....,N,Y_UCLi表示第i个预测提前期的控制上限,Y_LCLi表示第i个预测提前
期的控制下限,k为常数。其中,k的值可根据件量预测模型的实际情况进行设定,通常情况
下默认设置为1。
[0093]
[0094]
[0095]
[0096]
[0097] 1031e,将每个预测提前期所对应的控制上限和控制下限,作为待检测网点的往期预测数据所对应的控制上限和控制下限。
[0098] 将所计算出的每个预测提前期的控制上限作为待检测网点的往期预测数据所对应的控制上限,将所计算出的每个预测提前期的控制下限作为待检测网点的往期预测数据
所对应的控制下限。
[0099] 根据往期预测数据中的预测本期的预测均值和每个预测提前期所对应的误差均值,来计算往期预测数据所对应的控制上限和控制下限,综合考虑了往期预测数据的多种
误差情况,根据往期预测数据的多种误差情况,来得到往期预测数据所对应的控制上限和
控制下限,使得计算出的往期预测数据所对应的控制上限和控制下限更加准确,以使后续
利用往期预测数据所对应的控制上限和控制下限计算出的本期预测数据的控制上限和控
制下限也更加准确、合理。
[0100] 进一步地,根据待检测网点的往期预测数据所对应的控制上限和控制下限,计算待检测网点的本期预测数据的控制上限和控制下限的步骤,包括:确定待检测网点的往期
预测数据所对应的控制上限的上α分位数,并将上α分位数作为待检测网点的本期预测数据
的控制上限;确定待检测网点的往期预测数据所对应的控制下限的下β分位数,并将下β分
位数作为待检测网点的本期预测数据的控制下限。可以理解地,对于每个待检测网点的被
检测日期,也即对于每个待检测网点的本期当天来说,每个待检测网点,均有N个预测上限,
即往期预测数据所对应的控制上限;和N个预测下限,即往期预测数据所对应的控制下限。
对N个预测上限,提取上α分位数,将所提取的上α分位数确定为往期预测数据所对应的控制
上限的上α分位数,将上α分位数作为本期预测数据的控制上限。对N个预测下限,提取下β分
位数,将所提取的下β分位数确定为往期预测数据所对应的控制下限的下β分位数,将下β分
位数作为本期预测数据的控制下限。具体地,对于每个待检测网点,确定本期预测数据的控
制上限和控制下限的公式如公式(7)和公式(8)所示。其中,Y_UCL表示本期预测数据的控制
上限,Y_LCL表示本期预测数据的控制下限。
[0101] Y_UCL=Y_UCLi的上α分位数                        (7)
[0102] Y_LCL=Y_LCLi的下β分位数                        (8)
[0103] 其中α、β为0~1的任意值,通常α为1/4,β也为1/4。将每个预测提前期的控制上限(也即往期预测数据的控制上限),按照从小到大排列,本期预测数据的控制上限为排列后
的N个预测提前期的控制上限的上α分位数,例如,上1/4分位数(整体的75%分位数)。将每
个预测提前期的控制下限(也即往期预测数据的控制下限),按照从小到大排列,本期预测
数据的控制下限为排列后的N个预测提前期的控制下限的下β分位数,例如,下1/4分位数
(整体的25%分位数)。对于每个待检测网点,都可计算出本期预测数据的控制上限和控制
下限。
[0104] 其中,通过四分位数统计描述分析方法描述数据时,偏态数据的离散程度,即将全部数据从小到大排列,正好排列在下1/4位置上的数就叫做下四分位数(按照%比,也就是
25%位置上的数)也叫做第一四分位数,排在上1/4位置上的数就叫上四分位数(按照%比,
也就是75%位置上的数)也叫做第三四分位数,同样排列在中间位置的就是中位数,也叫做
第二四分位数,四分位数间距就是指上下四分位数之间的差值。
[0105] 根据往期预测数据的上α分位数确定本期预测数据的控制上限,根据往期预测数据的下β分位数确定本期预测数据的控制下限,考虑了误差的情况,如此使得本期预测数据
的控制上限和控制下限计算的更为准确,合理。
[0106] 1032,在全部的待检测网点中,统计待检测网点的本期预测数据未在对应的控制上限和控制下限范围内的待检测网点所占的比值。
[0107] 获取待检测网点的本期预测数据中预测当天的预测值,将预测当天的预测值和该待检测网点的本期预测数据的控制上限和控制下限进行比对;若待检测网点的本期预测数
据中的预测当天的预测值未在对应的控制上限和控制下限范围内,则确定为异常网点;统
计异常网点所占的比值。具体地,如比值的计算如公式(9)所示,其中,将未在对应的控制上
限和控制下限范围内的待检测网点,即异常网点所占的比值为R表示,M0表示未在对应的控
制上限和控制下限的异常网点的数量;M表示全部的待检测网点的数量。
[0108]
[0109] 可以理解地,由于每个网点的特有属性,少量待检测网点的本期预测数据的预测当天的预测值,超过对应的控制上限和控制下限属于正常现象。
[0110] 1033,根据比值确定本期预测数据是否出现异常。
[0111] 在实际中,根据预测值的实际情况会设定一个合适的预设比值。具体地,步骤1033,包括:判断比值是否大于预设比值;若比值大于预设比值,则确定本期预测数据异常;
并从往期预测数据中确定一期预测数据作为本期预测数据;若比值不大于预设比值,则确
定本期预测数据正常。其中,从往期预测数据中确定一期预测数据作为本期预测数据,包
括:将往期预测数据中的最后一期预测数据(也可以理解为本期预测数据的上一期预测数
据)作为本期预测数据,可以理解地,在一般情况下,前后两期预测数据相差范围不大;也可
以将往期预测数据进行平均,将平均后的预测数据作为本期预测数据;也可以按照其他的
方式从往期预测数据中确定一期预测数据作为本期预测数据。
[0112] 本发明实施例基于SPC控制的控制上限和控制下限来确定本期预测数据是否正常,能够在还没有实际值的情况下对件量预测模型输出的预测数据的合理性进行检测,避
免将存在异常的预测数据输送到业务下游,从而造成相关资源配置的损失。即本发明实施
例中的预测数据异常检测方法可以根据历史预测数据和历史真实数据来对未来预测数据
进行异常检测,提高对预测数据异常检测的效率和准确率,从而降低预测数据异常对业务
的影响,提高用户体验。
[0113] 需要注意的是,以上方法实施例中件量预测模型的更新频率是每天,因此,每期预测数据对应的是每天的预测数据。若在其他的情况下,更新频率不是每天,而是预设时间,
则每期预测数据对应的是预设时间的预测数据,而不是每天的预测数据。
[0114] 为了更好实施本发明实施例中预测数据异常检测方法,在预测数据异常检测方法基础之上,本发明实施例中还提供一种预测数据异常检测装置。该预测数据异常检测装置
集成于设备中,该设备可以是服务器,也可以是终端,如手机、Pad、台式电脑等设备。
[0115] 图5是本发明实施例提供的预测数据异常检测装置的示意性框图,该预测数据异常检测装置包括确定单元201、获取单元202、检测单元203。
[0116] 确定单元201,用于确定待检测网点,以及待检测网点的待检测指标。
[0117] 其中,确定单元201包括第一数据获取单元、第一误差确定单元、网点确定单元。其中,第一数据获取单元,用于获取所有网点中的待检测指标的往期预测数据和往期真实数
据。第一误差确定单元,用于根据往期预测数据和往期真实数据,确定每个网点的预测误
差。网点确定单元,用于根据每个网点的往期预测数据、往期真实数据,以及每个网点的预
测误差,从所有网点中确定待检测网点。
[0118] 获取单元202,用于获取待检测网点的待检测指标的往期预测数据、往期真实数据,以及本期预测数据。
[0119] 检测单元203,用于根据往期预测数据和往期真实数据,检测本期预测数据是否出现异常。
[0120] 其中,如图6所示,检测单元203,包括:计算单元2031、统计单元2032、异常确定单元2033。其中,计算单元2031,用于根据待检测网点的往期预测数据和往期真实数据,计算
待检测网点的本期预测数据的控制上限和控制下限。统计单元2032,用于在全部的待检测
网点中,统计待检测网点的本期预测数据未在对应的控制上限和控制下限范围内的待检测
网点所占的比值。异常确定单元2033,用于根据比值确定本期预测数据是否出现异常。
[0121] 其中,计算单元2031包括第一计算单元、第二计算单元。其中,第一计算单元,用于根据待检测网点的往期预测数据和往期真实数据,计算待检测网点的往期预测数据所对应
的控制上限和控制下限。第二计算单元,用于根据待检测网点的往期预测数据所对应的控
制上限和控制下限,计算待检测网点的本期预测数据的控制上限和控制下限。
[0122] 其中,第一计算单元,包括第二数据获取单元、预测均值计算单元、误差均值计算单元、第一上下限计算单元、第一上下限确定单元。其中,第二数据获取单元,用于获取待检
测网点的往期预测数据中的预测本期的预测值,以及获取待检测网点的往期预测数据中的
每个预测提前期的预测值。预测均值计算单元,用于根据往期预测数据中的预测本期的预
测值计算往期预测数据中的预测本期的预测均值。误差均值计算单元,用于根据往期预测
数据中的每个预测提前期的预测值和往期真实数据,计算每个预测提前期所对应的误差均
值。第一上下限计算单元,用于根据预测均值和每个预测提前期所对应的误差均值,计算每
个预测提前期所对应的控制上限和控制下限。第一上下限确定单元,用于将每个预测提前
期所对应的控制上限和控制下限,作为待检测网点的往期预测数据所对应的控制上限和控
制下限。
[0123] 其中,第二计算单元,包括:第二上下限计算单元、第二上下限确定单元。其中,第二上下限计算单元,用于确定待检测网点的往期预测数据所对应的控制上限的上α分位数,
以及确定待检测网点的往期预测数据所对应的控制下限的下β分位数。第二上下限确定单
元,用于将上α分位数作为待检测网点的本期预测数据的控制上限,以及将下β分位数作为
待检测网点的本期预测数据的控制下限。
[0124] 其中,异常确定单元2033,包括:判断单元、数据异常确定单元、预测数据确定单元。其中,判断单元,用于判断比值是否大于预设比值。数据异常确定单元,用于若比值大于
预设比值,则确定本期预测数据异常,以及若比值不大于预设比值,则确定本期预测数据正
常。预测数据确定单元,用于在本期预测数据异常时,从往期预测数据中确定一期预测数据
作为本期预测数据。
[0125] 需要说明的是,所属领域的技术人员可以清楚地了解到,上述装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘
述。
[0126] 本发明实施例还提供一种计算机设备,其集成了本发明实施例所提供的任一种预测数据异常检测装置,所述计算机设备包括:
[0127] 一个或多个处理器;
[0128] 存储器;以及
[0129] 一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述任一实施例中所述的预测数据异常检测方法中的步骤。
[0130] 如图7所示,其示出了本发明实施例所涉及的计算机设备的结构示意图,具体来讲:
[0131] 该计算机设备可以包括一个或者一个以上处理核心的处理器301、一个或一个以上计算机可读存储介质的存储器302、电源303和输入单元304等部件。本领域技术人员可以
理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或
更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0132] 处理器301是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器302内的软件程序和/或模块,以及调用存储
在存储器302内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整
体监控。可选的,处理器301可包括一个或多个处理核心;优选的,处理器301可集成应用处
理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调
制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处
理器301中。
[0133] 存储器302可用于存储软件程序以及模块,处理器301通过运行存储在存储器302的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器302可主要包括存储程
序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比
如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的
数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如
至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器302还可以
包括存储器控制器,以提供处理器301对存储器302的访问。
[0134] 计算机设备还包括给各个部件供电的电源303,优选的,电源303可以通过电源管理系统与处理器301逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理
等功能。电源303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检
测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0135] 该计算机设备还可包括输入单元304,该输入单元304可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信
号输入。
[0136] 尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器301会按照如下的指令,将一个或一个以上的应用程序的进程对
应的可执行文件加载到存储器302中,并由处理器301来运行存储在存储器302中的应用程
序,从而实现各种功能,如下:
[0137] 确定待检测网点,以及所述待检测网点的待检测指标;
[0138] 获取所述待检测网点的所述待检测指标的往期预测数据、往期真实数据,以及本期预测数据;
[0139] 根据所述往期预测数据和所述往期真实数据,检测所述本期预测数据是否出现异常。
[0140] 该计算机设备可以实现本发明实施例所提供的预测数据异常检测方法任一实施例中的步骤,因此,可以实现本发明实施例所提供的任一预测数据异常检测方法所能实现
的有益效果,详见前面的实施例,在此不再赘述。
[0141] 本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存
储介质中,并由处理器进行加载和执行。
[0142] 为此,本发明实施例提供一种存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。其上
存储有计算机程序,所述计算机程序被处理器进行加载,以执行本发明实施例所提供的任
一种预测数据异常检测方法中的步骤。例如,所述计算机程序被处理器进行加载可以执行
如下步骤:
[0143] 确定待检测网点,以及所述待检测网点的待检测指标;
[0144] 获取所述待检测网点的所述待检测指标的往期预测数据、往期真实数据,以及本期预测数据;
[0145] 根据所述往期预测数据和所述往期真实数据,检测所述本期预测数据是否出现异常。
[0146] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
[0147] 具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法
实施例,在此不再赘述。
[0148] 以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0149] 以上对本发明实施例所提供的一种预测数据异常检测方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐
述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的
技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,
本说明书内容不应理解为对本发明的限制。