运单数据异常的识别方法、装置、电子设备及存储介质转让专利

申请号 : CN202110871678.7

文献号 : CN115700673A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 赵艳坤郭嘉伟黎敏茵李东壕

申请人 : 顺丰科技有限公司

摘要 :

本申请提供一种运单数据异常的识别方法、装置、电子设备及计算机可读存储介质。该运单数据异常的识别方法包括:基于各运单数据在各目标信息维度下的运单信息,获取待识别的运单数据集;根据所述待识别的运单数据集和预设的异常检测策略,确定所述待识别的运单数据集中各目标运单信息Xij的异常值;根据所述待识别的运单数据集中各目标运单信息Xij的异常值,输出所述待识别的运单数据集中异常运单数据的异常信息,其中,所述异常运单数据是指对应的一个或多个信息维度的目标运单信息存在异常的运单数据,所述异常信息用于反映所述异常运单数据存在异常的信息维度。本申请中可以自动地同时识别运单在各个信息维度的异常情况。

权利要求 :

1.一种运单数据异常的识别方法,其特征在于,所述方法包括:

基于各运单数据在各目标信息维度下的运单信息,获取待识别的运单数据集,其中,所述待识别的运单数据集包括多个目标运单信息Xij,1≤i≤n,1≤j≤d,n表示所述运单数据集包括的运单数据的个数,d表示每个运单数据包括的信息维度的个数,目标运单信息Xij表示第i个运单数据在第j个维度的运单信息;

根据所述待识别的运单数据集和预设的异常检测策略,确定所述待识别的运单数据集中各目标运单信息Xij的异常值,其中,第j个维度的目标运单信息Xij的异常值基于第j个维度中的多个目标运单信息X1j、X2j、…、Xnj确定;

根据所述待识别的运单数据集中各目标运单信息Xij的异常值,输出所述待识别的运单数据集中异常运单数据的异常信息,其中,所述异常运单数据是指对应的一个或多个信息维度的目标运单信息存在异常的运单数据,所述异常信息用于反映所述异常运单数据存在异常的信息维度。

2.根据权利要求1所述的运单数据异常的识别方法,其特征在于,所述预设的异常检测策略为COPOD算法,所述根据所述待识别的运单数据集和预设的异常检测策略,确定所述待识别的运单数据集中各目标运单信息Xij的异常值,包括:根据所述待识别的运单数据集和COPOD算法,确定各目标运单信息Xij的左尾经验系数;

根据所述待识别的运单数据集和COPOD算法,确定各目标运单信息Xij的右尾经验系数;

根据所述待识别的运单数据集、各目标运单信息Xij的左尾经验系数和各目标运单信息Xij的右尾经验系数,确定各目标运单信息Xij的偏度修正系数;

根据各目标运单信息Xij的所述左尾经验系数、所述右尾经验系数和所述偏度修正系数,确定各目标运单信息Xij的异常值。

3.根据权利要求2所述的运单数据异常的识别方法,其特征在于,所述根据所述待识别的运单数据集和COPOD算法,确定各目标运单信息Xij的左尾经验系数,包括:根据所述待识别的运单数据集,确定在第j个维度的运单信息分布函数;

根据所述第j个维度的运单信息分布函数和COPOD算法,确定第j个维度的左尾经验函数;

根据所述第j个维度的左尾经验函数和各目标运单信息Xij,确定各目标运单信息Xij的左尾经验系数。

4.根据权利要求3所述的运单数据异常的识别方法,其特征在于,所述根据所述待识别的运单数据集和COPOD算法,确定各目标运单信息Xij的右尾经验系数,包括:根据所述第j个维度的运单信息分布函数和COPOD算法,确定第j个维度的右尾经验函数;

根据所述第j个维度的右尾经验函数和各目标运单信息Xij,确定各目标运单信息Xij的右尾经验系数。

5.根据权利要求2所述的运单数据异常的识别方法,其特征在于,所述根据所述待识别的运单数据集、各目标运单信息Xij的左尾经验系数和各目标运单信息Xij的右尾经验系数,确定各目标运单信息Xij的偏度修正系数,包括:根据所述待识别的运单数据集和COPOD算法,计算各目标运单信息Xij的偏度值;

根据各目标运单信息Xij的左尾经验系数、各目标运单信息Xij的右尾经验系数和各目标运单信息Xij的偏度值,确定各目标运单信息Xij的偏度修正系数。

6.根据权利要求2所述的运单数据异常的识别方法,其特征在于,所述根据各目标运单信息Xij的所述左尾经验系数、所述右尾经验系数和所述偏度修正系数,确定各目标运单信息Xij的异常值,包括:检测各目标运单信息Xij的所述左尾经验系数、所述右尾经验系数和所述偏度修正系数中的最大值,将所述最大值作为各目标运单信息Xij的异常值。

7.根据权利要求1‑5任一项所述的运单数据异常的识别方法,其特征在于,所述根据所述待识别的运单数据集中各目标运单信息Xij的异常值,输出所述待识别的运单数据集中异常运单数据的异常信息,包括:根据所述待识别的运单数据集中各目标运单信息Xij的异常值,检测所述待识别的运单数据集中异常值大于预设阈值的异常目标运单信息Xij;

输出所述待识别的运单数据集中异常运单数据的异常信息,其中,所述异常信息包括所述异常运单数据的所述异常目标运单信息Xij和/或所述异常目标运单信息Xij的异常值,所述异常目标运单信息Xij用于指示所述待识别的运单数据集中第j个维度的目标运单信息存在异常。

8.一种运单数据异常的识别装置,其特征在于,所述运单数据异常的识别装置包括:

获取单元,用于基于各运单数据在各目标信息维度下的运单信息,获取待识别的运单数据集,其中,所述待识别的运单数据集包括多个目标运单信息Xij,1≤i≤n,1≤j≤d,n表示所述运单数据集包括的运单数据的个数,d表示每个运单数据包括的信息维度的个数,目标运单信息Xij表示第i个运单数据在第j个维度的运单信息;

检测单元,用于根据所述待识别的运单数据集和预设的异常检测策略,确定所述待识别的运单数据集中各目标运单信息Xij的异常值,其中,第j个维度的目标运单信息Xij的异常值基于第j个维度中的多个目标运单信息X1j、X2j、…、Xnj确定;

输出单元,用于根据所述待识别的运单数据集中各目标运单信息Xij的异常值,输出所述待识别的运单数据集中异常运单数据的异常信息,其中,所述异常运单数据是指对应的一个或多个信息维度的目标运单信息存在异常的运单数据,所述异常信息用于反映所述异常运单数据存在异常的信息维度。

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的运单数据异常的识别方法。

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的运单数据异常的识别方法中的步骤。

说明书 :

运单数据异常的识别方法、装置、电子设备及存储介质

技术领域

[0001] 本申请涉及物流技术领域,具体涉及一种运单数据异常的识别方法、装置、 电子设备及计算机可读存储介质。

背景技术

[0002] 随着经济的飞速发展,物流行业在社会中扮演着越来越重要的角色。在物 流领域中,通常会记录运单在各个信息维度的运单信息,比如运单的重量、数 量、收寄地址、下单时间、签收时间、路由等信息,以便于运单的信息查询等 管理。
[0003] 现有技术中识别异常运单数据主要是在进行对运单进行某一操作或某一 信息记录时,识别该操作或该信息是否异常。然而,这种异常识别方式主要针 对运单的某一个维度信息进行异常识别,较难及时全面地反映运单在各个信息 维度的异常情况。可见,现有技术中较难自动地同时识别运单在各个信息维度 的异常情况。

发明内容

[0004] 本申请提供一种运单数据异常的识别方法、装置、电子设备及计算机可读 存储介质,旨在解决现有技术中难以自动地同时识别运单在各个信息维度的异 常情况的问题。
[0005] 第一方面,本申请提供一种运单数据异常的识别方法,所述方法包括:
[0006] 基于各运单数据在各目标信息维度下的运单信息,获取待识别的运单数据 集,其中,所述待识别的运单数据集包括多个目标运单信息Xij,1≤i≤n,1≤ j≤d,n表示所述运单数据集包括的运单数据的个数,d表示每个运单数据包括 的信息维度的个数,目标运单信息Xij表示第i个运单数据在第j个维度的运单信 息;
[0007] 根据所述待识别的运单数据集和预设的异常检测策略,确定所述待识别的 运单数据集中各目标运单信息Xij的异常值,其中,第j个维度的目标运单信息 Xij的异常值基于第j个维度中的多个目标运单信息X1j、X2j、…、Xnj确定;
[0008] 根据所述待识别的运单数据集中各目标运单信息Xij的异常值,输出所述待 识别的运单数据集中异常运单数据的异常信息,其中,所述异常运单数据是指 对应的一个或多个信息维度的目标运单信息存在异常的运单数据,所述异常信 息用于反映所述异常运单数据存在异常的信息维度。
[0009] 第二方面,本申请提供一种运单数据异常的识别装置,所述运单数据异常 的识别装置包括:
[0010] 获取单元,用于基于各运单数据在各目标信息维度下的运单信息,获取待 识别的运单数据集,其中,所述待识别的运单数据集包括多个目标运单信息 Xij,1≤i≤n,1≤j≤d,n表示所述运单数据集包括的运单数据的个数,d表示 每个运单数据包括的信息维度的个数,目标运单信息Xij表示第i个运单数据在 第j个维度的运单信息;
[0011] 检测单元,用于根据所述待识别的运单数据集和预设的异常检测策略,确 定所述待识别的运单数据集中各目标运单信息Xij的异常值,其中,第j个维度 的目标运单信息Xij的异常值基于第j个维度中的多个目标运单信息X1j、X2j、…、 Xnj确定;
[0012] 输出单元,用于根据所述待识别的运单数据集中各目标运单信息Xij的异常 值,输出所述待识别的运单数据集中异常运单数据的异常信息,其中,所述异 常运单数据是指对应的一个或多个信息维度的目标运单信息存在异常的运单 数据,所述异常信息用于反映所述异常运单数据存在异常的信息维度。
[0013] 在本申请一种可能的实现方式中,所述预设的异常检测策略为COPOD算 法,所述检测单元具体用于:
[0014] 根据所述待识别的运单数据集和COPOD算法,确定各目标运单信息Xij的 左尾经验系数;
[0015] 根据所述待识别的运单数据集和COPOD算法,确定各目标运单信息Xij的 右尾经验系数;
[0016] 根据所述待识别的运单数据集、各目标运单信息Xij的左尾经验系数和各 目标运单信息Xij的右尾经验系数,确定各目标运单信息Xij的偏度修正系数;
[0017] 根据各目标运单信息Xij的所述左尾经验系数、所述右尾经验系数和所述 偏度修正系数,确定各目标运单信息Xij的异常值。
[0018] 在本申请一种可能的实现方式中,所述检测单元具体用于:
[0019] 根据所述待识别的运单数据集,确定在第j个维度的运单信息分布函数;
[0020] 根据所述第j个维度的运单信息分布函数和COPOD算法,确定第j个维度的 左尾经验函数;
[0021] 根据所述第j个维度的左尾经验函数和各目标运单信息Xij,确定各目标运 单信息Xij的左尾经验系数。
[0022] 在本申请一种可能的实现方式中,所述检测单元具体用于:
[0023] 根据所述第j个维度的运单信息分布函数和COPOD算法,确定第j个维度的 右尾经验函数;
[0024] 根据所述第j个维度的右尾经验函数和各目标运单信息Xij,确定各目标运 单信息Xij的右尾经验系数。
[0025] 在本申请一种可能的实现方式中,所述检测单元具体用于:
[0026] 根据所述待识别的运单数据集和COPOD算法,计算各目标运单信息Xij的 偏度值;
[0027] 根据各目标运单信息Xij的左尾经验系数、各目标运单信息Xij的右尾经验 系数和各目标运单信息Xij的偏度值,确定各目标运单信息Xij的偏度修正系数。
[0028] 在本申请一种可能的实现方式中,所述检测单元具体用于:
[0029] 检测各目标运单信息Xij的所述左尾经验系数、所述右尾经验系数和所述 偏度修正系数中的最大值,
[0030] 将所述最大值作为各目标运单信息Xij的异常值。
[0031] 在本申请一种可能的实现方式中,所述输出单元具体用于:
[0032] 根据所述待识别的运单数据集中各目标运单信息Xij的异常值,检测所述 待识别的运单数据集中异常值大于预设阈值的异常目标运单信息Xij;
[0033] 输出所述待识别的运单数据集中异常运单数据的异常信息,其中,所述异 常信息包括所述异常运单数据的所述异常目标运单信息Xij和/或所述异常目标 运单信息Xij的异常值,所述异常目标运单信息Xij用于指示所述待识别的运单 数据集中第j个维度的目标运单信息存在异常。
[0034] 第三方面,本申请还提供一种电子设备,所述电子设备包括处理器和存储 器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机 程序时执行本申请提供的任一种运单数据异常的识别方法中的步骤。
[0035] 第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程 序,所述计算机程序被处理器进行加载,以执行所述的运单数据异常的识别方 法中的步骤。
[0036] 本申请通过分别基于待识别的运单数据集第j个维度中的多个目标运单信 息X1j、X2j、…、Xnj,确定第j个维度的目标运单信息Xij的异常值,得到待识别 的运单数据集中各目标运单信息Xij的异常值;由于各目标运单信息Xij的异常 值可以在一定程度上反映各信息维度的目标运单信息是否存在异常,从而可以 基于待识别的运单数据集中各目标运单信息Xij的异常值,输出待识别的运单数 据集中异常运单数据的异常信息;并且由于异常运单数据的异常信息反映了异 常运单数据存在异常的信息维度,因此通过本申请实施例,一方面,可以从大 量的运单数据集包括的多个运单数据中自动、快速地查找出存在异常的异常运 单数据,另一方面,还可以自动、快速地查找出异常运单数据的各个信息维度 中存在异常的信息维度。

附图说明

[0037] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请 的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还 可以根据这些附图获得其他的附图。
[0038] 图1是本申请实施例所提供的运单数据异常的识别检测系统的场景示意 图;
[0039] 图2是本申请实施例提供的运单数据异常的识别方法的一种流程示意图;
[0040] 图3是本申请实施例中提供的步骤203的一个实施例流程示意图;
[0041] 图4是本申请实施例中提供的步骤202的一个实施例流程示意图;
[0042] 图5是本申请实施例中提供的步骤401的一个实施例流程示意图;
[0043] 图6是本申请实施例中提供的步骤402的一个实施例流程示意图;
[0044] 图7是本申请实施例中提供的运单数据异常的识别装置的一个实施例结构 示意图;
[0045] 图8是本申请实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

[0046] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是 全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳 动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0047] 在本申请实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描 述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征 的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或 者更多个所述特征。在本申请实施例的描述中,“多个”的含义是两个或两个以 上,除非另有明确具体的限定。
[0048] 为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在 以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术 人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它 实例中,不会对公知的过程进行详细阐述,以避免不必要的细节使本申请实施 例的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本 申请实施例所公开的原理和特征的最广范围相一致。
[0049] 本申请实施例提供一种运单数据异常的识别方法、装置、电子设备和计算 机可读存储介质。其中,该运单数据异常的识别装置可以集成在电子设备中, 该电子设备可以是服务器,也可以是终端等设备。
[0050] 本申请实施例运单数据异常的识别方法的执行主体可以为本申请实施例 提供的运单数据异常的识别装置,或者集成了该运单数据异常的识别装置的服 务器设备、物理主机或者用户设备(User Equipment,UE)等不同类型的电子 设备,其中,运单数据异常的识别装置可以采用硬件或者软件的方式实现, UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者 个人数字助理(Personal Digital Assistant,PDA)等终端设备。
[0051] 该电子设备可以采用单独运行的工作方式,或者也可以采用设备集群的工 作方式,通过应用本申请实施例提供的运单数据异常的识别方法,一方面,可 以从大量的运单数据集包括的多个运单数据中自动、快速地查找出存在异常的 异常运单数据,另一方面,还可以自动、快速地查找出异常运单数据的各个信 息维度中存在异常的信息维度;实现了自动地同时识别运单在各个信息维度的 异常情况。
[0052] 参见图1,图1是本申请实施例所提供的运单数据异常的识别系统的场景示 意图。其中,该运单数据异常的识别系统可以包括电子设备100,电子设备100 中集成有运单数据异常的识别装置。例如,该电子设备可以基于各运单数据在 各目标信息维度下的运单信息,获取待识别的运单数据集,其中,所述待识别 的运单数据集包括多个目标运单信息Xij,
1≤i≤n,1≤j≤d,n表示所述运单 数据集包括的运单数据的个数,d表示每个运单数据包括的信息维度的个数, 目标运单信息Xij表示第i个运单数据在第j个维度的运单信息;根据所述待识别 的运单数据集和预设的异常检测策略,确定所述待识别的运单数据集中各目标 运单信息Xij的异常值,其中,第j个维度的目标运单信息Xij的异常值基于第j个 维度中的多个目标运单信息X1j、X2j、…、Xnj确定;根据所述待识别的运单数 据集中各目标运单信息Xij的异常值,输出所述待识别的运单数据集中异常运单 数据的异常信息,其中,所述异常运单数据是指对应的一个或多个信息维度的 目标运单信息存在异常的运单数据,所述异常信息用于反映所述异常运单数据 存在异常的信息维度。
[0053] 另外,如图1所示,该运单数据异常的识别系统还可以包括存储器200,用 于存储数据,如存储运单的名称、重量、数量、收寄地址、下单时间、签收时 间以及各个路由变更的时间等运单信息。
[0054] 需要说明的是,图1所示的运单数据异常的识别系统的场景示意图仅仅是 一个示例,本申请实施例描述的运单数据异常的识别系统以及场景是为了更 加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技 术方案的限定,本领域普通技术人员可知,随着运单数据异常的识别系统的演 变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题, 同样适用。
[0055] 下面,开始介绍本申请实施例提供的运单数据异常的识别方法,本申请实 施例中以电子设备作为执行主体,为了简化与便于描述,后续方法实施例中将 省略该执行主体。
[0056] 参照图2,图2是本申请实施例提供的运单数据异常的识别方法的一种流 程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况 下,可以以不同于此处的顺序执行所示出或描述的步骤。该运单数据异常的识 别方法包括步骤201~203,其中:
[0057] 201、基于各运单数据在各目标信息维度下的运单信息,获取待识别的运 单数据集。
[0058] 其中,所述待识别的运单数据集包括多个目标运单信息Xij,1≤i≤n,1≤ j≤d,n表示所述运单数据集包括的运单数据的个数,d表示每个运单数据包括 的信息维度的个数,目标运单信息Xij表示第i个运单数据在第j个维度的运单信 息。
[0059] 在物流领域中,为了便于运单的管理,通常会记录运单在各个信息维度的 运单信息。其中,一个运单的运单信息可以包括名称、重量、数量、收寄地址、 下单时间、签收时间以及各个路由变更的时间等运单本身信息,收寄件人的姓 名、手机号、客户评级、月结情况、优惠券的使用信息等客户信息,以及相关 的巴枪操作信息与路由信息等。
[0060] 在一些实施例中,一个运单数据可以是特指一个运单,待识别的运单数据 集包括n个运单在d个维度的运单信息,目标运单信息Xij表示第i个运单数据在 第j个维度的运单信息。即各运单数据在各目标信息维度下的运单信息具体可 以是指多个运单中的每一个运单分别在多个不同目标信息维度下的运单信息, 可以基于多个运单中的每一个运单分别在多个不同目标信息维度下的运单信 息,获取待识别的运单数据集X={Xij}:n个运单在d个维度的运单信息。
[0061] 例如,待识别的运单数据集可以如下表1所示,表1中示出了一个运单数据 是特指一个运单,待识别的运单数据集包括运单1、2、3和4这4个运单的运单 信息情况。其中,每个运单包括多个目标信息维度的运单信息,如每个运单包 括运单本身信息、客户信息、路由信息这3个目标信息维度。
[0062] 表1
[0063]各运单数据\维度 维度1:运单本身信息 维度2:客户信息 维度3:路由信息 运单1 X11 X21 X31
运单2 X12 X22 X32
运单3 X13 X23 X33
运单4 X14 X24 X34
[0064] 通过将待识别的运单数据集设置为n个运单在d个维度的运单信息,在步骤 202中识别目标运单信息Xij的异常值,可以实现从多个运单的多个运单信息中 识别出异常运单、以及异常运单存在异常的运单信息。
[0065] 在一些实施例中,一个运单数据也可以是特指一个运单的一个信息画像, 目标运单信息Xij表示某个运单第i个信息画像在第j个维度的运单信息,待识别 的运单数据集包括某个运单的n个信息画像在d个维度的运单信息。此时,各运 单数据在各目标信息维度下的运单信息具体也可以是某个运单多个信息画像 中每一个信息画像分别在多个不同目标信息维度下的运单信息,可以基于某个 运单多个信息画像中每一个信息画像分别在多个不同目标信息维度下的运单 信息,获取待识别的运单数据集X={Xij}:某个运单的n个信息画像在d个维度 的运单信息。
[0066] 其中,每个信息画像包括该运单的多个运单信息,每个信息画像下的一个 运单信息作为该信息画像的一个目标信息维度。
[0067] 例如,待识别的运单数据集可以如下表2所示,表2中示出了一个运单数据 是特指某个运单的一个信息画像,待识别的运单数据集包括某个运单在运单本 身信息、客户信息、路由信息这3个信息画像的运单信息情况。其中,每个信 息画像包括该运单的多个运单信息,每个信息画像下的一个运单信息作为该信 息画像的一个目标信息维度,如运单本身信息包括名称X11、重量X21、数量 X31这3个目标信息维度。
[0068] 表2
[0069]各运单数据\维度 维度1 维度2 维度3
画像1:运单本身信息 名称X11 重量X21 数量X31
画像2:客户信息 收寄件人的姓名X12 手机号X22 客户评级X32
画像3:路由信息 X13 X23 X33
[0070] 通过将待识别的运单数据集设置为某个运单的n个信息画像在d个维度的 运单信息,在步骤202中识别目标运单信息Xij的异常值,可以实现从某个运单, 比如异常运单的多个运单信息中识别出异常的运单信息。
[0071] 可以理解的是,为了便于后续的异常值检测等数据处理,目标运单信息 Xij为第i个运单数据在第j个维度的运单信息进行数值化或向量化。
[0072] 202、根据所述待识别的运单数据集和预设的异常检测策略,确定所述待 识别的运单数据集中各目标运单信息Xij的异常值。
[0073] 其中,第j个维度的目标运单信息Xij的异常值基于所述待识别的运单数据 集第j个维度中的多个目标运单信息X1j、X2j、…、Xnj确定。
[0074] 其中,预设的异常检测策略用于检测待识别的运单数据集中,每个维度(比 如在第j个维度)的各运单信息中的异常值。
[0075] 在一些实施例中,预设的异常检测策略可以是基于箱型图的异常值检测。 箱形图(Box‑plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数 据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用, 常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据 分布特征的比较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、 中位数和两个四分位数;然后,连接两个四分位数画出箱体;再将上边缘和 下边缘与箱体相连接,中位数在箱体中间。
[0076] 四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到 大排列并分成四等份,处于三个分割点位置的数值。它是一组数据排序后处于 25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中 每部分包含25%的数据。其中,中间的四分位数就是中位数(后续简称Q2), 因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数,后续 简称Q1)和处在75%位置上的数值(称为上四分位数,后续简称Q3)。
[0077] 此外,四分位间距(Inter Quartile Range,IQR,后续简称IQR)是指上 四分位数与下四分位数之间的差值,即:IQR=Q3‑Q1。
[0078] 箱形图提供了识别异常值的一个标准:异常值被定义为小于(Q1‑1.5IQR) 或大于(Q3+1.5IQR)的值。
[0079] 此时,步骤202具体可以包括:基于预设的四分位数确定规则和第j=1、 2、…、d个维度中的每个目标运单信息Xij(包括目标运单信息X1j、X2j、…、 Xnj),分别确定第j=1、2、…、d个维度的上四分位数和下四分位数;基于第 j=1、2、…、d个维度的上四分位数和下四分位数,计算第j=1、2、…、d个维 度的四分位间距;根据第j=1、2、…、d个维度的四分位间距以及预设的异常 上界值界定公式、异常下界值界定公式,确定第j=1、2、…、d个维度的异常 上界值和异常下界值;将第j=1、2、…、d个维度中小于异常下界值或大于异 常上界值的目标运单信息Xij作为第j=1、2、…、d个维度中目标运单信息的异 常值;从而得到待识别的运单数据集中各目标运单信息Xij的异常值。
[0080] 其中,预设的异常上界值界定公式可以是(Q3+1.5IQR),异常下界值界 定公式可以是(Q1‑1.5IQR)。可以理解的是,此处异常上界值界定公式、异 常下界值界定公式仅为举例,实际应用时也可以是基于四分位间距的其他异常 上界值界定公式、异常下界值界定公式,比如,异常上界值界定公式还可以是 (Q3+1IQR)、异常下界值界定公式值还可以是(Q1‑1IQR)。
[0081] 例如,针对表1中的待识别的运单数据集包括第1个维度(运单本身信息)、 第2个维度(客户信息)、第3个维度(路由信息),通过基于箱型图的异常值 检测,首先,可以确定第1个维度(运单本身信息)的上四分位数和下四分位 数;然后,根据第1个维度(运单本身信息)的上四分位数和下四分位数,计 算第1个维度(运单本身信息)的四分位间距;并基于第1个维度(运单本身信 息)的四分位间距以及预设的异常上界值界定公式(Q3+1.5IQR)、异常下界 值界定公式(Q1‑1.5IQR),计算第1个维度(运单本身信息)的异常上界值(记 为)和异常下界值;最后,将第1个维度(运单本身信息)中小于异常下界值 界定公式(Q1‑1.5IQR)、或大于异常上界值(Q3+1.5IQR)的目标运单信息, 作为第1个维度(运单本身信息)中目标运单信息Xij的异常值。同理,可以计 算第2个维度(客户信息)中目标运单信息Xij的异常值、第3个维度(路由信息) 中目标运单信息Xij的异常值,从而得到待识别的运单数据集中各目标运单信息 Xij的异常值。
[0082] 在一些实施例中,预设的异常检测策略也可以是基于COPOD算法的异常 值检测。基于COPOD算法的异常值检测在后文中将详细介绍,为简化表述, 此处不再赘述。
[0083] 203、根据所述待识别的运单数据集中各目标运单信息Xij的异常值,输出 所述待识别的运单数据集中异常运单数据的异常运单信息。
[0084] 其中,异常运单数据是指待识别的运单数据集的多个运单数据中,对应的 一个或多个信息维度的目标运单信息存在异常的运单数据。
[0085] 如图3所示,步骤203具体可以包括以下步骤301~步骤302:
[0086] 301、根据所述待识别的运单数据集中各目标运单信息Xij的异常值,检测 所述待识别的运单数据集中异常值大于预设阈值的异常目标运单信息Xij。
[0087] 其中,异常目标运单信息Xij是指在步骤202中识别出的异常值大于预设阈 值的目标运单信息。
[0088] 预设阈值的具体取值可以根据实际情况而设置,本申请实施例中对预设阈 值的具体取值不作限制。
[0089] 在一些实施例中,可以针对每个信息维度设置一个预设阈值,即针对第j 个维度设置一个预设阈值aj,比如针对第1、2、3、…、d个维度分别设置一个 预设阈值a1、a2、a3、…、ad。然后,基于第j(j=1、2、…、d)个维度的预 设阈值和第j个维度中目标运单信息的异常值,确定第j个维度中异常值大于预 设阈值的异常目标运单信息Xij。同理,可以得到第j=1、2、…、d个维度中异 常值大于预设阈值的异常目标运单信息Xij,从而得到待识别的运单数据集中异 常值大于预设阈值的异常目标运单信息Xij。
[0090] 在一些实施例中,也可以针对d个信息维度设置一个预设阈值,基于第j 个维度中目标运单信息的异常值和预设阈值,确定第j个维度中异常值大于预 设阈值的异常目标运单信息Xij。同理,可以得到第j=1、2、…、d个维度中异 常值大于预设阈值的异常目标运单信息Xij,从而得到待识别的运单数据集中异 常值大于预设阈值的异常目标运单信息Xij。
[0091] 302、输出所述待识别的运单数据集中异常运单数据的异常信息。
[0092] 其中,所述异常信息包括所述异常运单数据的所述异常目标运单信息Xij和/或所述异常目标运单信息Xij的异常值,所述异常目标运单信息Xij用于指示 所述待识别的运单数据集中第j个维度的目标运单信息存在异常。
[0093] 在一些实施例中,可以将待识别的运单数据集中对应的一个或多个信息维 度的运单信息存在异常的运单数据作为异常运单数据输出,以便于快速地、全 面地反映多个运单数据中存在异常的运单数据。
[0094] 进一步地,为了更全面地反映存在异常的运单数据在各信息维度的运单信 息的异常情况,在输出待识别的运单数据集中异常运单数据的同时,也可以同 时输出运单数据集中异常运单数据的异常信息;其中,异常运单数据的异常信 息可以是异常运单数据存在异常的一个或多个异常目标运单信息Xij、异常运单 数据的异常目标运单信息Xij的异常值中的一者或多者。以便于快速地、全面地 反映多个运单数据中存在异常的运单数据、以及异常运单数据在各信息维度的 运单信息的异常情况。
[0095] 例如,表1中的运单1、2、3和4这4个运单数据,若运单1在第1个维度(运 单本身信息)大于预设阈值,则确定运单1在第1个维度(运单本身信息)存在 异常;则可以将运单1作为异常运单数据输出。进一步地的,还可以将运单1 在第1个维度(运单本身信息)的异常目标运单信息X11作为异常运单数据的异 常信息输出。还可以进一步地,将运单1在第1个维度(运单本身信息)的异常 目标运单信息X11的异常值作为异常运单数据的异常信息输出。
[0096] 由以上内容可知,本申请实施例通过分别基于待识别的运单数据集第j个 维度中的多个目标运单信息X1j、X2j、…、Xnj,确定第j个维度的目标运单信息 Xij的异常值,得到待识别的运单数据集中各目标运单信息Xij的异常值;由于 各目标运单信息Xij的异常值可以在一定程度上反映各信息维度的目标运单信 息是否存在异常,从而可以基于待识别的运单数据集中各目标运单信息Xij的异 常值,输出待识别的运单数据集中异常运单数据的异常信息;并且由于异常运 单数据的异常信息反映了异常运单数据存在异常的信息维度,因此通过本申请 实施例,一方面,可以从大量的运单数据集包括的多个运单数据中自动、快速 地查找出存在异常的异常运单数据,另一方面,还可以自动、快速地查找出异 常运单数据的各个信息维度中存在异常的信息维度。
[0097] 下面以基于COPOD算法的异常值检测为例,介绍步骤202中如何确定待识 别的运单数据集中各目标运单信息Xij的异常值。
[0098] COPOD全称是基于Copula的异常点检测(Copula‑Based Outlier Detection),Copula函数是一种统计概率函数,用于对多维累计分布建模,可 以用于对多个随机变量间的依赖关系进行有效建模。
[0099] COPOD的算法框架如下:
[0100]
[0101]
[0102] 其中,输入数据X=(X1i,X2i,…Xdi),i=1,…,n,Xdn指输入数据中的第d 维第n个数据。
[0103] 第2和3行中,公式(1)表示第d个维度上的左尾经验系数分布函数,公式 (2)表示第d个维度上的右尾经验系数分布函数。
[0104] 第8、9行中公式(2)和(3)表示设定第10行中表示偏度修正的经验Copula观察值 的计算:第d个维度上的 偏度值
bd<0时,偏度修正的经验Copula观察值 等于 否则,偏度修正 的经验Copula观察值等于 其中,d个维度的偏度值构成偏度矩阵b, b=[b1,…,bd],在第d个维度上各个数据的偏度值相同。第d个维度上的偏度值bd可以通过如下公式(9)计算得到。
[0105]
[0106] 公式(9)中,xi表示第d个维度上第i个样本维度的样本值, 表示第d 个维度上所有样本维度的平均值,bi表示第d个维度上第i个样本维度的偏度 值,n表示第d个维度上的样本维度的数量。
[0107] 第11至14行表示分别根据公式(6)、(7)、(8)计算数据xi的左尾经 验系数pl、右尾经验系数pr、偏度修正经验系数ps,其中,公式(6)表示左尾 经验系数的计算公式、公式(7)表示右尾经验系数的计算公式、公式(8)表 示偏度修正经验系数的计算公式。
[0108] 第15行表示输出数据xi的左尾经验系数pl、右尾经验系数pr、偏度修正经验 系数ps中的最大值作为数据xi的异常分数值。
[0109] 第17行表示输出X的异常分数值对应的矩阵。
[0110] 如图4所示,上述步骤202具体可以包括以下步骤401~步骤404:
[0111] 401、根据所述待识别的运单数据集和COPOD算法,确定各目标运单信息 Xij的左尾经验系数。
[0112] 如图5所示,步骤401具体可以包括步骤501~步骤503:
[0113] 501、根据所述待识别的运单数据集,确定在第j个维度的运单信息分布函 数。
[0114] 其中,1≤j≤d。具体地,分别计算第j=1、2、…、d个维度的运单信息分 布函数Fj(x)=P(Xi≤x)。
[0115] 例如,基于待识别的运单数据集X={Xij},分别可以计算出第j=1、2、…、 d个维度的运单信息分布函数F1(x)=P(Xi≤x)、F2(x)=P(Xi≤x)、…、Fd(x)=P(Xi≤x)。
[0116] 502、根据所述第j个维度的运单信息分布函数和COPOD算法,确定第j个 维度的左尾经验函数。
[0117] 其中,第j个维度的左尾经验函数是指通过COPOD算法基于上述公式(1) 和第j个维度的运单信息分布函数,计算所得到的第j个维度上的左尾经验系数 分布函数。
[0118] 具体地,可以将待识别的运单数据集X={Xij}作为COPOD算法的输入,通 过COPOD算法可以基于上述公式(1)和第j=1、2、…、d个维度的运单信息 分布函数,计算出第j=1、2、…、d个维度的左尾经验函数。
[0119] 例如,基于上述公式(1)和第d个维度的运单信息分布函数Fd(x)=P(Xi≤ x),可以确定第d个维度的左尾经验函数为
[0120] 503、根据所述第j个维度的左尾经验函数和各目标运单信息Xij,确定各目 标运单信息Xij的左尾经验系数。
[0121] 具体地,可以通过COPOD算法基于上述公式(1)、公式(3)和公式(6), 根据第j=1、2、…、d个维度的左尾经验函数、第j=1、2、…、d个维度中的每 个目标运单信息Xij(包括目标运单信息X1j、X2j、…、Xnj),分别计算得到第 j=1、2、…、d个维度中的每个目标运单信息的左尾经验系数,从而得到待识 别的运单数据集中各目标运单信息Xij的左尾经验系数。
[0122] 例如,针对表1中的待识别的运单数据集包括第1个维度(运单本身信息)、 第2个维度(客户信息)、第3个维度(路由信息),首先,可以通过COPOD 算法中的上述公式(1)确定第1个维度(运单本身信息)左尾经验函数为  第2个维度(客户信息)左尾经验函数为  第3个维度(路由信息)左尾经验函数为 
[0123] 然后,通过COPOD算法基于上述公式(1)、公式(3)和公式(6),即 根据第1个维度(运单本身信息)左尾经验函数 公式(3) 和公式(6),可以确定第1个维度中的每个目标运单信息X11、X12、X13、X14的左尾经验系数,依次记为pl11、pl12、pl13、pl14。根据第2个维度(客户信 息)左尾经验函数 公式(3)和公式
(6),可以确定第2 个维度中的每个目标运单信息X21、X22、X23、X24的左尾经验系数,依次记为 pl21、pl22、pl23、pl24。根据第3个维度(路由信息)左尾经验函数 公
式(3)和公式(6),可以确定第3个维度中的每个目 标运单信息X31、X32、X33、X34的左尾经验系数,依次记为pl31、pl32、pl33、 pl34。从而可以得到待识别的运单数据集中各目标运单信息Xij的左尾经验系 数,如下表3所示。
[0124] 表3
[0125]各运单数据\维度 维度1:运单本身信息 维度2:客户信息 维度3:路由信息 运单1 pl11 Pl21 pl31
运单2 pl12 Pl22 pl32
运单3 pl13 Pl23 pl33
运单4 pl14 Pl24 pl34
[0126] 402、根据所述待识别的运单数据集和COPOD算法,确定各目标运单信息 Xij的右尾经验系数。
[0127] 如图6所示,步骤402具体可以包括步骤601~步骤602:
[0128] 601、根据所述第j个维度的运单信息分布函数和COPOD算法,确定第j个 维度的右尾经验函数。
[0129] 其中,第j个维度的右尾经验函数是指通过COPOD算法基于上述公式(2) 和第j个维度的运单信息分布函数,计算所得到的第j个维度上的右尾经验系数 分布函数。
[0130] 具体地,可以将待识别的运单数据集X={Xij}作为COPOD算法的输入,通 过COPOD算法可以基于上述公式(2)和第j=1、2、…、d个维度的运单信息 分布函数,计算出第j=1、2、…、d个维度的右尾经验函数。
[0131] 例如,基于上述公式(2)和第d个维度的运单信息分布函数Fd(x)=P(Xi≤ x),可以确定第d个维度的右尾经验函数为
[0132] 602、根据所述第j个维度的右尾经验函数和各目标运单信息Xij,确定各目 标运单信息Xij的右尾经验系数。
[0133] 具体地,可以通过COPOD算法基于上述公式(2)、公式(4)和公式(7), 根据第j=1、2、…、d个维度的右尾经验函数、第j=1、2、…、d个维度中的每 个目标运单信息Xij(包括目标运单信息X1j、X2j、…、Xnj),分别计算得到第 j=1、2、…、d个维度中的每个目标运单信息的右尾经验系数,从而得到待识 别的运单数据集中各目标运单信息Xij的右尾经验系数。
[0134] 例如,针对表1中的待识别的运单数据集包括第1个维度(运单本身信息)、 第2个维度(客户信息)、第3个维度(路由信息),首先,可以通过COPOD 算法中的上述公式(2)确定第1个维度(运单本身信息)右尾经验函数为  第2个维度(客户信息)右尾经验函数为  第3个维度(路由信息)右尾经验函数为 
[0135] 然后,通过COPOD算法基于上述公式(2)、公式(4)和公式(7),即 根据第1个维度(运单本身信息)右尾经验函数 公式(4) 和公式(7),可以确定第1个维度中的每个目标运单信息X11、X12、X13、X14的右尾经验系数,依次记为pr11、pr12、pr13、pr14。根据第2个维度(客户信 息)右尾经验函数 公式(4)和公式
(7),可以确定第2 个维度中的每个目标运单信息X21、X22、X23、X24的右尾经验系数,依次记为 pr21、pr22、pr23、pr24。根据第3个维度(路由信息)右尾经验函数 公
式(4)和公式(7),可以确定第3个维度中的每个目 标运单信息X31、X32、X33、X34的右尾经验系数,依次记为pr31、pr32、pr33、 pr34。从而可以得到待识别的运单数据集中各目标运单信息Xij的右尾经验系 数,如下表4所示。
[0136] 表4
[0137]
[0138]
[0139] 403、根据所述待识别的运单数据集、各目标运单信息Xij的左尾经验系数 和各目标运单信息Xij的右尾经验系数,确定各目标运单信息Xij的偏度修正系 数。
[0140] 步骤403具体可以包括步骤c1~步骤c2:
[0141] c1、根据所述待识别的运单数据集和COPOD算法,计算各目标运单信息 Xij的偏度值。
[0142] 具体地,可以根据上述公式(9)计算第j=1、2、…、d个维度中的每个目 标运单信息Xij(包括目标运单信息X1j、X2j、…、Xnj)的偏度值。
[0143] 例如,针对表1中的待识别的运单数据集包括第1个维度(运单本身信息)、 第2个维度(客户信息)、第3个维度(路由信息),根据上述公式(9)可以 计算第1个维度中的每个目标运单信息X11、X12、X13、X14的偏度值,依次记为 b11、b12、b13、b14。
[0144] 根据上述公式(9)可以计算第2个维度中的每个目标运单信息X21、X22、 X23、X24的偏度值,依次记为b21、b22、b23、b24。
[0145] 根据上述公式(9)可以计算第3个维度中的每个目标运单信息X31、X32、 X33、X34的偏度值,依次记为b31、b32、b33、b34。
[0146] 从而可以得到待识别的运单数据集中各目标运单信息Xij的偏度值,如下表 5所示。
[0147] 表5
[0148]各运单数据\维度 维度1:运单本身信息 维度2:客户信息 维度3:路由信息 运单1 b11 b21 b31
运单2 b12 b22 b32
运单3 b13 b23 b33
运单4 b14 b24 b34
[0149] c2、根据各目标运单信息Xij的左尾经验系数、各目标运单信息Xij的右尾经 验系数和各目标运单信息Xij的偏度值,确定各目标运单信息Xij的偏度修正系 数。
[0150] 具体地,可以通过COPOD算法基于上述公式(3)、公式(4)、公式(5) 和公式(8),根据第j=1、2、…、d个维度中的每个目标运单信息Xij(包括目 标运单信息X1j、X2j、…、Xnj),以及第j=1、2、…、d个维度中的每个目标运 单信息Xij的偏度值,分别计算得到第j=1、2、…、d个维度中的每个目标运单 信息的偏度修正系数;从而得到待识别的运单数据集中各目标运单信息Xij的偏 度修正系数。
[0151] 为了方便理解,以步骤c1中的例子继续说明。例如,通过COPOD算法中 的上述公式(3)、公式(4)、公式(5)和公式(8),根据表1中所示第1 个维度中的每个目标运单信息X11、X12、X13、X14,以及表5中所示第1个维度 中的每个目标运单信息X11、X12、X13、X14的偏度值,可以确定第1个维度中的 每个目标运单信息X11、X12、X13、X14的偏度修正系数,依次记为ps11、ps12、 ps13、ps14。
[0152] 根据表1中所示第2个维度中的每个目标运单信息X21、X22、X23、X24,以 及表5中所示第2个维度中的每个目标运单信息X21、X22、X23、X24的偏度值, 可以确定第2个维度中的每个目标运单信息X21、X22、X23、X24的偏度修正系数, 依次记为ps21、ps22、ps23、ps24。
[0153] 根据表1中所示第3个维度中的每个目标运单信息X31、X32、X33、X34,以 及表5中所示第3个维度中的每个目标运单信息X31、X32、X33、X34的偏度值, 可以确定第3个维度中的每个目标运单信息X31、X32、X33、X34的偏度修正系数, 依次记为ps31、ps32、ps33、ps34。从而可以得到待识别的运单数据集中各目标 运单信息Xij的偏度修正系数,如下表6所示。
[0154] 表6
[0155]各运单数据\维度 维度1:运单本身信息 维度2:客户信息 维度3:路由信息 运单1 ps11 Ps21 ps31
运单2 ps12 Ps22 ps32
运单3 ps13 Ps23 ps33
运单4 ps14 Ps24 ps34
[0156] 404、根据各目标运单信息Xij的所述左尾经验系数、所述右尾经验系数和 所述偏度修正系数,确定各目标运单信息Xij的异常值。
[0157] 步骤404具体可以包括:检测各目标运单信息Xij的所述左尾经验系数、所 述右尾经验系数和所述偏度修正系数中的最大值,将所述最大值作为各目标运 单信息Xij的异常值。
[0158] 具体地,将目标运单信息Xij的左尾经验系数、右尾经验系数和偏度修正系 数中的最大值,作为目标运单信息Xij的异常值。
[0159] 例如,针对表1中的待识别的运单数据集X={Xij}={X11、X12、X13、X14、 X21、X22、X23、X24、X31、X32、X33、X34},可以确定待识别的运单数据集中 各目标运单信息Xij的左尾经验系数如表3所示、各目标运单信息Xij的右尾经验 系数如表4所示、各目标运单信息Xij的偏度修正系数如表6所示,可以将目标运 单信息X11的左尾经验系数pl11、右尾经验系数pr11和偏度修正系数ps11中的最 大值(比如最大值ps11),作为目标运单信息X11的异常值;将目标运单信息 X12的左尾经验系数pl12、右尾经验系数pr12和偏度修正系数ps12中的最大值(比 如最大值ps12),作为目标运单信息X12的异常值;…;将目标运单信息X34的 左尾经验系数pl34、右尾经验系数pr34和偏度修正系数ps34中的最大值(比如 最大值ps34),作为目标运单信息X34的异常值,从而可以得到各目标运单信 息Xij的异常值,如表7所示。
[0160] 表7
[0161]各运单数据\维度 维度1:运单本身信息 维度2:客户信息 维度3:路由信息 运单1 ps11 Pl21 pr31
运单2 pl12 Ps22 pr32
运单3 pr13 Pl23 pl33
运单4 pr14 Pr24 ps34
[0162] 本申请实施例中,通过COPOD算法在庞大的待识别的运单数据集上进行 计算,第一方面,由于COPOD算法不需要进行任何样本间的距离计算,因此 运行开销较小、速度较快,使得低性能的机器也能满足该运单数据异常的识别 方法的运行需求。第二方面,由于COPOD算法不需要进行模型调参,直接调 用函数即可,算法复杂度低,比较易于执行,因此更便于庞大的待识别的运单 数据集上的异常识别。第三方面,通过与主流的异常检测算法LOF与孤立森林 (Isolate Forest)相比,COPOD算法效果更好,能在最快的时间检测出异常数 据。
[0163] 因此,通过COPOD算法对待识别的运单数据集进行异常识别,输出待识 别的运单数据集中异常运单数据的异常信息,在物流领域中可以对运单数据进 行更快的监测与智能的识别,及早对异常运单与异常数据进行预警。
[0164] 为了更好实施本申请实施例中运单数据异常的识别方法,在运单数据异常 的识别方法基础之上,本申请实施例中还提供一种运单数据异常的识别装置, 如图7所示,为本申请实施例中运单数据异常的识别装置的一个实施例结构示 意图,该运单数据异常的识别装置700包括:
[0165] 获取单元701,用于基于各运单数据在各目标信息维度下的运单信息,获 取待识别的运单数据集,其中,所述待识别的运单数据集包括多个目标运单信 息Xij,1≤i≤n,1≤j≤d,n表示所述运单数据集包括的运单数据的个数,d表 示每个运单数据包括的信息维度的个数,目标运单信息Xij表示第i个运单数据 在第j个维度的运单信息;
[0166] 检测单元702,用于根据所述待识别的运单数据集和预设的异常检测策略, 确定所述待识别的运单数据集中各目标运单信息Xij的异常值,其中,第j个维 度的目标运单信息Xij的异常值基于第j个维度中的多个目标运单信息X1j、 X2j、…、Xnj确定;
[0167] 输出单元703,用于根据所述待识别的运单数据集中各目标运单信息Xij的 异常值,输出所述待识别的运单数据集中异常运单数据的异常信息,其中,所 述异常运单数据是指对应的一个或多个信息维度的目标运单信息存在异常的 运单数据,所述异常信息用于反映所述异常运单数据存在异常的信息维度。
[0168] 在本申请一种可能的实现方式中,所述预设的异常检测策略为COPOD算 法,所述检测单元702具体用于:
[0169] 根据所述待识别的运单数据集和COPOD算法,确定各目标运单信息Xij的 左尾经验系数;
[0170] 根据所述待识别的运单数据集和COPOD算法,确定各目标运单信息Xij的 右尾经验系数;
[0171] 根据所述待识别的运单数据集、各目标运单信息Xij的左尾经验系数和各 目标运单信息Xij的右尾经验系数,确定各目标运单信息Xij的偏度修正系数;
[0172] 根据各目标运单信息Xij的所述左尾经验系数、所述右尾经验系数和所述 偏度修正系数,确定各目标运单信息Xij的异常值。
[0173] 在本申请一种可能的实现方式中,所述检测单元702具体用于:
[0174] 根据所述待识别的运单数据集,确定在第j个维度的运单信息分布函数;
[0175] 根据所述第j个维度的运单信息分布函数和COPOD算法,确定第j个维度的 左尾经验函数;
[0176] 根据所述第j个维度的左尾经验函数和各目标运单信息Xij,确定各目标运 单信息Xij的左尾经验系数。
[0177] 在本申请一种可能的实现方式中,所述检测单元702具体用于:
[0178] 根据所述第j个维度的运单信息分布函数和COPOD算法,确定第j个维度的 右尾经验函数;
[0179] 根据所述第j个维度的右尾经验函数和各目标运单信息Xij,确定各目标运 单信息Xij的右尾经验系数。
[0180] 在本申请一种可能的实现方式中,所述检测单元702具体用于:
[0181] 根据所述待识别的运单数据集和COPOD算法,计算各目标运单信息Xij的 偏度值;
[0182] 根据各目标运单信息Xij的左尾经验系数、各目标运单信息Xij的右尾经验 系数和各目标运单信息Xij的偏度值,确定各目标运单信息Xij的偏度修正系数。
[0183] 在本申请一种可能的实现方式中,所述检测单元702具体用于:
[0184] 检测各目标运单信息Xij的所述左尾经验系数、所述右尾经验系数和所述 偏度修正系数中的最大值,
[0185] 将所述最大值作为各目标运单信息Xij的异常值。
[0186] 在本申请一种可能的实现方式中,所述输出单元703具体用于:
[0187] 根据所述待识别的运单数据集中各目标运单信息Xij的异常值,检测所述 待识别的运单数据集中异常值大于预设阈值的异常目标运单信息Xij;
[0188] 输出所述待识别的运单数据集中异常运单数据的异常信息,其中,所述异 常信息包括所述异常运单数据的所述异常目标运单信息Xij和/或所述异常目标 运单信息Xij的异常值,所述异常目标运单信息Xij用于指示所述待识别的运单 数据集中第j个维度的目标运单信息存在异常。
[0189] 具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意 组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的 方法实施例,在此不再赘述。
[0190] 由于该运单数据异常的识别装置可以执行本申请如图1至图6对应任意实 施例中运单数据异常的识别方法中的步骤,因此,可以实现本申请如图1至图6 对应任意实施例中运单数据异常的识别方法所能实现的有益效果,详见前面的 说明,在此不再赘述。
[0191] 此外,为了更好实施本申请实施例中运单数据异常的识别方法,在运单数 据异常的识别方法基础之上,本申请实施例还提供一种电子设备,参阅图8, 图8示出了本申请实施例电子设备的一种结构示意图,具体的,本申请实施例 提供的电子设备包括处理器801,处理器801用于执行存储器802中存储的计 算机程序时实现如图1至图6对应任意实施例中运单数据异常的识别方法的各 步骤;或者,处理器801用于执行存储器802中存储的计算机程序时实现如图 7对应实施例中各单元的功能。
[0192] 示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多 个模块/单元被存储在存储器802中,并由处理器801执行,以完成本申请实施 例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令 段,该指令段用于描述计算机程序在计算机装置中的执行过程。
[0193] 电子设备可包括,但不仅限于处理器801、存储器802。本领域技术人员可 以理解,示意仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括 比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子备 还可以包括输入输出设备、网络接入设备、总线等,处理器801、存储器802、 输入输出设备以及网络接入设备等通过总线相连。
[0194] 处理器801可以是中央处理单元(Central Processing Unit,CPU),还可以 是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集 成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field‑Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或 者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理 器也可以是任何常规的处理器等,处理器是电子设备的控制中心,利用各种接 口和线路连接整个电子设备的各个部分。
[0195] 存储器802可用于存储计算机程序和/或模块,处理器801通过运行或执 行存储在存储器802内的计算机程序和/或模块,以及调用存储在存储器802 内的数据,实现计算机装置的各种功能。存储器802可主要包括存储程序区和 存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程 序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设 备的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以 包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插 接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他 易失性固态存储器件。
[0196] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述 的运单数据异常的识别装置、电子设备及其相应单元的具体工作过程,可以参 考如图1至图6对应任意实施例中运单数据异常的识别方法的说明,具体在此 不再赘述。
[0197] 本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步 骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储 于一计算机可读存储介质中,并由处理器进行加载和执行。
[0198] 为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令, 该指令能够被处理器进行加载,以执行本申请如图1至图6对应任意实施例中 运单数据异常的识别方法中的步骤,具体操作可参考如图1至图6对应任意实 施例中运单数据异常的识别方法的说明,在此不再赘述。
[0199] 其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘 等。
[0200] 由于该计算机可读存储介质中所存储的指令,可以执行本申请如图1至图 6对应任意实施例中运单数据异常的识别方法中的步骤,因此,可以实现本申 请如图1至图6对应任意实施例中运单数据异常的识别方法所能实现的有益效 果,详见前面的说明,在此不再赘述。
[0201] 以上对本申请实施例所提供的一种运单数据异常的识别方法、装置、电子 设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请 的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的 方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具 体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解 为对本申请的限制。