一种检测数据异常值处理方式的自动判别方法及系统转让专利

申请号 : CN202210815910.X

文献号 : CN114996318B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 高仕斌占栋李想张金鑫佘夏威熊昊睿黄瀚韬冯中伟

申请人 : 成都唐源电气股份有限公司西南交通大学

摘要 :

本发明公开了一种检测数据异常值处理方式的自动判别方法及系统,通过确定所述每个字段类型;统计每个数据字段中缺失值数据量占所述字段数据总量的比例,判断所述字段是否可用;若所述字段可用则进入下一个判别阶段,否则不进入下一个判别阶段;当类别型字段为可用,且存在缺失值时,将所述类别型字段中缺失值数据量占比与可用性阈值R0比较,根据比较结果判别所述类别型字段缺失值的处理方式;当数值型字段为可用,分别通过计算变异系数值和缺失值数据量占比,对缺失值和异常值的处理方式进行判别。通过将统计学和业务规则相结合的方式,基于数据分析技术,有效提高数据分析的效率,降低大数据分析人员和业务专家的负担。

权利要求 :

1.一种检测数据异常值处理方式的自动判别方法,其特征在于,包括:根据每个字段数据的相关业务规则,确定所述每个字段类型,所述字段类型包括确定型字段和不确定型字段,其中,确定型字段包括数值型字段、类别型字段、时间戳型字段;

统计所述字段中缺失值数量占所述字段数据总量的比例R,判断所述字段是否可用;若所述字段可用则进入下一个判别阶段,否则不进入下一个判别阶段;

当类别型字段为可用,且存在缺失值时,将所述类别型字段中缺失值数据量占比R与可用性阈值R0比较,根据比较结果判别所述类别型字段缺失值的处理方式;

当数值型字段为可用,分别通过计算变异系数值和缺失值数据量占比,对缺失值和异常值的处理方式进行判别;具体包括:计算所述数值型字段的标准差和算术平均值的比例,得到变异系数CV,根据变异系数的值所在阈值范围,利用对应阈值范围设置的判定方法,判定所述数值型字段的数据异常值;将所述数值型字段中缺失值数据量占比R,并与可用性阈值R0比较,根据比较结果填充所述数值型字段的缺失值。

2.根据权利要求1所述的检测数据异常值处理方式的自动判别方法,其特征在于:根据可用数值型字段的数据,构建数值型字段的标准态数据库。

3.根据权利要求1所述的检测数据异常值处理方式的自动判别方法,其特征在于:如果业务规则库中没有确定所述字段类型,则获取所述字段中每个非缺失值对应的数据类型,其中,所述字段的数据类型包括数值型、类别型和时间戳型;

根据非缺失值的三种数据类型对应的数据量,分别计算三种数据类型的数据量占所述字段数据中非缺失值数据总量的比例;

根据所述字段中数据类型数据量的占比,判别所述字段类型。

4.根据权利要求3所述的检测数据异常值处理方式的自动判别方法,其特征在于:所述根据所述字段中数据类型数据量的占比,判别所述字段类型,具体包括:以占比最高的数据类型为所述确定型字段的类型;

若三种数据类型的占比相等,则所述字段类型为不确定型字段。

5.根据权利要求1所述的检测数据异常值处理方式的自动判别方法,其特征在于:所述判断所述字段是否可用,包括:

当缺失值数据量占比R大于设定可用性阈值R0时,则判断该字段不可用。

6.根据权利要求5所述的检测数据异常值处理方式的自动判别方法,其特征在于:所述判断所述字段是否可用,还包括:统计所述确定型字段中另外两种数据类型数量之和占所述字段数据总量的比例;

若大于设定可用性阈值R0,则所述确定型字段不可用,否则所述确定型字段可用。

7.根据权利要求6所述的检测数据异常值处理方式的自动判别方法,其特征在于,当所述确定型字段可用时;

将所述确定型字段中另外两种数据类型的数据转化为缺失值进行处理。

8.根据权利要求1所述的检测数据异常值处理方式的自动判别方法,其特征在于,所述根据比较结果判别所述类别型字段缺失值的处理方式,包括:当所述类别型字段中缺失值数据量占比R小于N倍可用性阈值R0时,利用所述类别型字段的众数填充缺失值;

当所述类别型字段中缺失值数据量占比R大于等于N倍可用性阈值R0时,利用其他字段的数据构建该类别型字段的Softmax分类模型,利用分类模型对所述类别型字段的分类结果填充所述类别型字段的缺失值。

9.根据权利要求1所述的检测数据异常值处理方式的自动判别方法,其特征在于,所述根据变异系数的值所在阈值范围,利用对应阈值范围设置的判定方法,判定所述数值型字段的数据异常值,具体包括:当变异系数CV值,在CV值<15%范围时,利用标准态判定数据异常值;

当变异系数CV值,在15%≤CV值<35%范围时,利用孤立森林算法判定数据异常值;

当变异系数CV值,在35%≤CV值<50%范围时,利用聚类算法判定数据异常值;

当变异系数CV值,在CV值≥50%范围时,利用3σ方法判定数据异常值。

10.根据权利要求1所述的检测数据异常值处理方式的自动判别方法,其特征在于,当R<0.1R0时,则利用该字段非缺失数据的均值填充缺失值;

当0.1R0≤R<0.5R0时,则利用所述数值型字段与检测位置建立插值模型,通过插值法填充缺失值;

当R≥0.5R0时,则利用其他字段的数据构建所述数值型字段的回归模型,利用回归模型填充所述数值型字段的缺失值。

11.一种检测异常值处理方式的自动判别系统,其特征在于,包括业务规则判别模块、数据字段类型自动判别模块、数据字段可用性自动判别模块、标准态数据库模块和数据字段处理方式自动判别模块;

所述业务规则判别模块,用于设置并存储各个字段的业务规则,其中业务规则包括字段的数据类型、字段取值范围或集合;

所述数据字段类型自动判别模块,用于分析业务规则中未明确数据字段的数据类型,以判别所述字段的字段类型,所述字段类型包括确定型字段和不确定型字段,其中所述确定型字段包括数值型字段、类别型字段和时间戳型字段;

所述数据字段可用性自动判别模块,用于判别各个数据字段的质量情况,以判断各个数据字段是否具有分析意义;

所述标准态数据库模块,用于判别数值型字段的异常值和缺失值处理方式;

所述数据字段处理方式自动判别模块,用于判别各个数据字段类型中异常值和/或缺失值的具体处理方式,具体包括:计算所述数值型字段的标准差和算术平均值的比例,得到变异系数CV,根据变异系数的值所在阈值范围,利用对应阈值范围设置的判定方法,判定所述数值型字段的数据异常值;将所述数值型字段中缺失值数据量占比R,并与可用性阈值R0比较,根据比较结果填充所述数值型字段的缺失值。

说明书 :

一种检测数据异常值处理方式的自动判别方法及系统

技术领域

[0001] 本发明涉及统计学和数据挖掘技术的技术领域,具体涉及一种检测数据异常值处理方式的自动判别方法及系统。

背景技术

[0002] 现有对轨道交通检测数据异常值的处理方法判别必须首先通过数据分析人员通过对检测数据每个字段一一进行分析,获取各个字段的数据类型、分布。同时,分析人员必须在业务专家的辅助下,结合数据字段的业务背景最终决定数据各字段的异常值和缺失值处理。上述方式弊端在于如果检测数据的维度或字段较多时,会加大数据分析人员和业务专家的负担,降低数据分析的效率。为此,本发明专利通过将统计学和业务规则相结合的方式,基于数据分析技术构建了轨道交通检测数据异常值和缺失值处理的自动判别系统和方法。

发明内容

[0003] 为了克服上述现有技术中存在的缺陷,本发明的目的是提供适用于轨道交通领域的一种检测数据异常值处理方式的自动判别方法,其通过将统计学和业务规则相结合的方式,基于数据分析技术构建了轨道交通检测数据异常值和缺失值处理的自动判别系统,有效提高数据分析的效率,降低大数据分析人员和业务专家的负担,具有重大的安全意义和实际应用价值。
[0004] 本发明的技术方案如下:
[0005] S1、根据每个字段数据的相关业务规则,确定所述每个字段类型,所述字段类型包括确定型字段和不确定型字段,其中确定型字段包括数值型字段、类别型字段和时间戳型字段。
[0006] 进一步地,所述步骤S1,包括:
[0007] 从业务规则库中,检索每个字段数据的相关业务规则;
[0008] 如果业务规则库中明确了该数据字段的字段类型,则该数据字段类型为业务规则中指定类型;
[0009] 若没有该字段数据的业务规则,则获取该数据字段每个非缺失值的数据类型,所述每个非缺失值的数据类型包括数值型、类别型和时间戳型;
[0010] 根据获取的该字段每个非缺失值的三种数据类型对应的数量,分别计算三种数据类型的数量占该字段非缺失值数据总量的比例,以占比最高的数据类型为该字段的字段类型;若三种数据类型的占比相等,则该字段的字段类型为不确定型。
[0011] S2、统计每个字段中缺失值数量占所述字段数据总量的比例,判断所述字段是否可用;若所述字段可用则进入下一个判别阶段,否则不进入下一个判别阶段。
[0012] 进一步地,当缺失值数量比例R大于设定可用性阈值R0时,则判断该字段不可用。
[0013] 进一步地,对上述确定的字段类型的数据进行分析,若该字段中另外两种数据类型的数据量之和占该字段数据总量大于可用性阈值R0,则该字段不可用;如果该字段可用,则将该字段中另外两种数据类型的数据转化为缺失值处理。
[0014] 进一步地,根据可用数值型字段的数据,构建数值型字段的标准态数据库。
[0015] 进一步地,从历史检测数据中提取质量良好的N次检验数据,根据检测位置将检测数据对齐,得到标准态数据库。
[0016] S3、当类别型字段为可用,且存在缺失值时,将所述类别型字段中缺失值数据量占比R与可用性阈值R0比较,根据比较结果判别所述类别型字段缺失值的处理方式。
[0017] 进一步地,当所述类别型字段中缺失值数据量占比R小于可用性阈值 时,利用所述类别型字段的众数填充缺失值;
[0018] 当所述类别型字段中缺失值数据量占比R大于等于可用性阈值 时,利用其他字段的数据构建该类别型字段的Softmax分类模型,利用分类模型对所述类别型字段的分类结果填充所述类别型字段的缺失值。
[0019] S4、当数值型字段为可用,分别通过计算变异系数值和缺失值数据量占比,对缺失值和异常值的处理方式进行判别。
[0020] 进一步地,所述步骤S4,具体包括:
[0021] S41、计算所述数值型字段的标准差和算术平均值的比例,得到变异系数CV;
[0022] 具体计算公式为:
[0023] ,
[0024] 其中, 为字段数据标准差, 为字段数据算术平均值;
[0025] 根据变异系数的值所在阈值范围,利用对应阈值范围设置的判定方法,判定所述数值型字段的数据异常值;
[0026] S42、将所述数值型字段中缺失值数据量占比R与可用性阈值 比较,根据比较结果判断所述数值型字段的缺失值的填充方式。
[0027] 进一步地,所述步骤S41,包括:
[0028] 当变异系数CV值小于15%时,利用标准态判定数据异常值;
[0029] 当变异系数CV值小于35%,大于等于15%时,利用孤立森林算法判定数据异常值;
[0030] 当变异系数CV值小于50%,大于等于35%时,利用聚类算法判定数据异常值;
[0031] 当变异系数CV值大于等于50%时,利用3σ方法判定数据异常值。
[0032] 根据变异系数的值所在阈值范围对应的判断方法,可提高自动判别的效率。
[0033] 进一步地,所述将所述数值型字段中缺失值数据量占比R与可用性阈值 比较,根据比较结果判断所述数值型字段的缺失值填充方式,包括:
[0034] 当 时,则利用该字段非缺失数据的均值填充缺失值;
[0035] 当 时,则利用所述数值型字段与检测位置建立插值模型,通过插值法填充缺失值;
[0036] 当 时,则利用其他字段的数据构建所述数值型字段的回归模型,利用回归模型填充所述数值型字段的缺失值。
[0037] 与现有技术相比,本发明的有益效果:
[0038] 1. 将专家经验和业务规则结合,使检测数据的异常值和缺失值处理方式的判别实现自动化;
[0039] 2. 从数据质量出发,结合数据的可用性,判别结果更加可靠;
[0040] 3. 在构建数值型变量的过程中,充分利用历史检测数据;
[0041] 4. 自动判别系统模块化构建,有利于计算机实现。
[0042] 基于上述一种检测数据异常值处理方式的自动判别方法,本发明还提供了一种检测数据异常值处理方式的自动判别系统,包括:
[0043] 业务规则判别模块,用于设置并存储各个字段的业务规则,其中业务规则包括字段的数据类型、字段取值范围或集合;
[0044] 字段类型自动判别模块,用于分析业务规则中未明确数据字段的数据类型,以判别所述字段的字段类型,所述字段类型包括确定型字段和不确定型字段,其中确定型字段包括数值型字段、类别型字段和时间戳型字段;
[0045] 数据字段可用性自动判别模块,用于判别各个数据字段的质量情况,以判断各个数据字段是否具有分析意义;
[0046] 标准态数据库模块,用于判别数值型字段的异常值和缺失值处理方式;
[0047] 数据字段处理方式自动判别模块,用于判别各个数据字段类型中异常值和/或缺失值的具体处理方式。
[0048] 进一步地,分析业务规则中未明确数据字段的数据类型,包括通过分析各个数据字段中非缺失值中数值型取值、类别型取值和时间戳型取值的占比,以得出各个数据字段的字段类型。
[0049] 进一步地,判别各个数据字段的质量情况包括数据混乱程度判别、数据缺失值占比判别、数据重复值判别。
[0050] 进一步地,如果所述字段数据混乱且类型不确定,则判定所述字段为不可用。
[0051] 进一步地,当所述字段中数值型和类别型数据的数量相同,则判定数据混乱,并且业务规则中没有指定类型,则所述数据类型为不确定;
[0052] 当所述字段数据中某个值的数量占非缺失值总数的比例超过预设阈值,则判定数据重复值过多;
[0053] 当所述字段数据中缺失值的数量占数据总数的比例超过预设阈值,则判定数据缺失值过多,所述数据不可用。
[0054] 进一步地,所述标准态数据库通过可用数值型字段的数据构建得到。
[0055] 进一步地,从历史检测数据中提取质量良好的N次检验数据,根据检测位置将检测数据对齐,得到标准态数据库。

附图说明

[0056] 图1为本发明的方法流程图。

具体实施方式

[0057] 以下结合实施例和附图对本发明的构思、具体实施方式及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、特征和效果。
[0058] 实施例1
[0059] 如图1所示,本实施例提出了适用于轨道交通领域的一种检测数据异常值处理方式的自动判别方法,包括以下步骤:
[0060] S1、根据每个数据字段的相关业务规则,确定所述每个数据字段类型,所述字段类型包括确定型字段和不确定型字段,其中确定型字段包括数值型字段、类别型字段和时间戳型字段;
[0061] S2、统计每个数据字段中缺失值数据量占所述字段数据总量的比例,判断所述字段是否可用;若所述字段可用则进入下一个判别阶段,否则不进入下一个判别阶段;
[0062] S3、当类别型字段为可用,且存在缺失值时,将所述类别型字段中缺失值数据量占比R与N倍可用性阈值 比较,根据比较结果判别所述类别型字段缺失值的处理方式;
[0063] S4、当数值型字段为可用,分别通过计算变异系数值和缺失值数据量占比,对缺失值和异常值的处理方式进行判别。
[0064] 实施例2
[0065] 在实施例1的基础上,本发明提出了一种数据类型确定方法,包括:
[0066] 从业务规则库中,检索每个数据字段的相关业务规则;
[0067] 如果业务规则库中明确了所述数据字段的字段类型,则所述数据字段类型为业务规则中指定类型;
[0068] 若没有所述数据字段的业务规则,则获取所述数据字段每个非缺失值的类型,所述每个非缺失值的数据类型包括数值型、类别型、时间戳型;
[0069] 根据获取的所述字段每个非缺失值的三种数据类型对应的数据量,计算三种数据类型的数据量占所述字段非缺失值数据总量的比例,以占比最高的数据类型为所述数据字段的字段类型;若三种数据类型的占比相等,则所述数据字段的字段类型为不确定型。
[0070] 实施例3
[0071] 在实施例2的基础上,提出了判别所述字段是否可用的方法,具体包括:
[0072] 当缺失值数据量占比R大于设定可用性阈值 时,则判断该数据字段不可用。
[0073] 进一步地,对上述确定的字段类型的数据进行分析,若该数据字段中另外两种数据类型的数据量之和占该字段数据总量大于可用性阈值 ,则该数据字段不可用;如果可用,则将该数据字段中所述另外两种数据类型的数据转化为缺失值处理。
[0074] 实施例4
[0075] 根据可用数值型字段的数据,构建数值型字段的标准态数据库。
[0076] 进一步地,从历史检测数据中提取质量良好的N次检验数据,根据检测位置将检测数据对齐,得到标准态数据库。
[0077] 实施例5
[0078] 在实施例3的基础上,本方案提出的类别型字段缺失值处理方式,具体判别包括:
[0079] 当所述类别型字段中缺失值数据量占比R小于N倍可用性阈值 时,利用所述类别型字段的众数填充缺失值;
[0080] 当所述类别型字段中缺失值数据量占比R大于等于N倍可用性阈值 时,利用其他字段的非缺失值数据构建该类别型字段的Softmax分类模型,对所述类别型字段进行分类处理,根据分类模型对所述类别型字段的分类结果填充所述类别型字段的缺失值,其中,本方案优选N为0.1。
[0081] 实施例6
[0082] 在实施例3的基础上,本方案提出的数值型字段缺失值和异常值处理方式的具体判别包括:
[0083] S41、计算所述数值型字段的标准差和算术平均值的比例,得到变异系数CV;
[0084] 具体计算公式为:
[0085]
[0086] 其中, 为字段数据标准差, 为字段数据算术平均值;
[0087] 根据变异系数的值所在阈值范围,利用对应阈值范围设置的判定方法,判定所述数值型字段的数据异常值;
[0088] S42、将所述数值型字段中缺失值数据量占比R与可用性阈值 比较,根据比较结果判断所述数值型字段的缺失值填充方式。
[0089] 进一步地,所述步骤S41,包括:
[0090] 当变异系数CV值<15%时,判别结结果为利用标准态判定数据异常值;
[0091] 当15%≤变异系数CV值<35%时,判别结结果为利用孤立森林算法判定数据异常值;
[0092] 当35%≤变异系数CV值<50%时,判别结结果为利用聚类算法判定数据异常值;
[0093] 当变异系数CV值≥50%时,判别结结果为利用3σ方法判定数据异常值。
[0094] 根据变异系数的值所在阈值范围对应的判断方法,可提出自动判别的效率。
[0095] 进一步地,所述将所述数值型字段中缺失值数据量占比R与可用性阈值 比较,根据比较结果判断所述数值型字段的缺失值填充方式,包括:
[0096] 当 时,则利用所述数值型字段中非缺失数据的均值填充缺失值;
[0097] 当 时,则利用所述数值型字段与检测位置建立插值模型,通过插值法填充缺失值;
[0098] 当 时,则利用其他字段的数据构建所述数值型字段的回归模型,利用回归模型填充所述数值型字段的缺失值。
[0099] 与现有技术相比,本发明的有益效果:
[0100] 1. 将专家经验和业务规则结合,使检测数据的异常值和缺失值处理方式的判别实现自动化了;
[0101] 2. 从数据质量出发,结合数据的可用性,判别结果更加可靠;
[0102] 3. 在构建数值型变量的过程中,充分利用历史检测数据;
[0103] 4. 自动判别系统模块化构建,有利于计算机实现。
[0104] 实施例7
[0105] 基于上述一种检测数据异常值处理方式的自动判别方法,本发明还提供了一种检测数据异常值处理方式的自动判别系统,包括:
[0106] 业务规则判别模块,用于设置并存储各个字段的业务规则,其中业务规则包括字段的数据类型、字段取值范围或集合;
[0107] 数据字段类型自动判别模块,用于分析业务规则中未明确数据字段的数据类型,以判别所述字段的字段类型,所述字段类型包括确定型字段和不确定型,其中确定型字段包括数值型字段、类别型字段和时间戳型字段;
[0108] 数据字段可用性自动判别模块,用于判别各个数据字段的质量情况,以判断各个数据字段是否具有分析意义;
[0109] 标准态数据库模块,用于判别数值型字段的异常值和缺失值处理方式;
[0110] 数据字段处理方法自动判别模块,用于判别各个数据字段类型中异常值和/或缺失值的具体处理方式。
[0111] 进一步地,所述分析业务规则中未明确数据字段的数据类型,包括通过分析各个数据字段中非缺失值中数值型取值、类别型取值和时间戳型取值的占比,以得出各个数据字段的字段类型。
[0112] 进一步地,所述判别数据字段的质量情况包括数据混乱程度判别、数据缺失值占比判别、数据重复值判别。
[0113] 进一步地,如果所述字段数据混乱且类型不确定,则判定所述字段为不可用。
[0114] 进一步地,当所述字段中数值型和类别型数据的数量相同,则判定数据混乱,并且业务规则中没有指定类型,则所述数据类型为不确定;
[0115] 当所述字段数据中某个值的数量占非缺失值总数的比例超过预设阈值,则判定数据重复值过多;
[0116] 当所述字段数据中缺失值的数量占数据总数的比例超过预设阈值,则判定数据缺失值过多,所述数据不可用。
[0117] 进一步地,所述标准态数据库通过可用数值型字段的数据构建得到。
[0118] 进一步地,从历史检测数据中提取质量良好的N次检验数据,根据检测位置将检测数据对齐,得到标准态数据库。
[0119] 以上对本发明的实施方式进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下,还可作出种种等同变型或替换,这些等同或替换均包含在本发明权利要求所限定的范围内。