用于大数据任务调度的数据智能处理方法及系统转让专利

申请号 : CN202310643722.8

文献号 : CN116360956B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 宋士彪马海峰李福蕾鲁宽李少敏荆海伟李司慧王静董冉

申请人 : 济南大陆机电股份有限公司

摘要 :

本发明涉及数据处理技术领域,具体涉及一种用于大数据任务调度的数据智能处理方法及系统,包括:对待清洗数据对应的各个数据点进行分类,得到各个第一类数据点簇和第二类数据点簇;根据第一类数据点簇中每个数据点与聚类中心之间的位置差异,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值;根据各个设定方向的偏移值,确定第一类数据点簇对应的基准中心,进而筛选出各个数据点中的异常数据点以得到清洗后的数据。本发明通过获取第一类数据点簇的基准中心,可以准确筛选出待清洗数据中的异常数据,解决了现有的数据清洗处理中异常数据筛选准确性差的问题。

权利要求 :

1.一种用于大数据任务调度的数据智能处理方法,其特征在于,包括以下步骤:

对待清洗数据对应的各个数据点进行分类,得到各个第一类数据点簇和第二类数据点簇,所述第一类数据点簇中数据点的数目大于所述第二类数据点簇中数据点的数目;

根据所述第一类数据点簇中每个数据点与聚类中心之间的位置差异,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,所述设定方向为横向或纵向;

根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重;

根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏移偏向权重,确定所述第一类数据点簇对应的各个设定方向的偏向程度;

根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏向程度,确定所述第一类数据点簇对应的各个设定方向的偏移距离;

根据所述第一类数据点簇对应的各个设定方向的偏移距离,以及所述第一类数据点簇中聚类中心的位置,确定所述第一类数据点簇对应的基准中心;

基于所述第一类数据点簇对应的基准中心,筛选出各个数据点中的异常数据点以得到清洗后的数据;

确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重,包括:

计算所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值的平均值和标准差,从而得到所述第一类数据点簇对应的设定方向的偏移平均值和设定方向的偏移标准差;

根据所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏度;

根据所述第一类数据点簇对应的设定方向的偏移偏度、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏向权重;

确定所述第一类数据点簇对应的各个设定方向的偏向程度,包括:

若所述第一类数据点簇对应的设定方向的偏移偏度大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行负相关映射,并将负相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度;

若所述第一类数据点簇对应的设定方向的偏移偏度不大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行正相关映射,并将正相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度;

确定所述第一类数据点簇对应的各个设定方向的偏移距离对应的计算公式为:

其中, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移距离, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移平均值,为第i个所述第一类数据点簇对应的第k个设定方向的偏向程度。

2.根据权利要求1所述的一种用于大数据任务调度的数据智能处理方法,其特征在于,确定所述第一类数据点簇对应的设定方向的偏移偏向权重对应的计算公式为:其中, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏向权重, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏度, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移平均值, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移标准差。

3.根据权利要求1所述的一种用于大数据任务调度的数据智能处理方法,其特征在于,确定所述第一类数据点簇对应的基准中心,包括:将所述第一类数据点簇中聚类中心的位置的横坐标与所述第一类数据点簇对应的对应所述横向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的横坐标,并将所述第一类数据点簇中聚类中心的位置的纵坐标与所述第一类数据点簇对应的对应所述纵向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的纵坐标。

4.根据权利要求1所述的一种用于大数据任务调度的数据智能处理方法,其特征在于,基于所述第一类数据点簇对应的基准中心,筛选出各个数据点中的异常数据点以得到清洗后的数据,包括:将所述第一类数据点簇中的每个数据点作为第一目标数据点,根据所述第一目标数据点到其所属的第一类数据点簇的基准中心的距离以及所述其所属的第一类数据点簇的数据点的总数目,确定所述第一目标数据点的对应的异常分数;

将所述第二类数据点簇中的每个数据点作为第二目标数据点,根据所述第二目标数据点到所有所述第一类数据点簇的基准中心的距离中的最小值以及第二目标数据点所属的第二类数据点簇的数据点的总数目,确定所述第二目标数据点的对应的异常分数;

根据所有数据点对应的异常分数,将异常分数最大的前设定比例的数据点确定为异常数据点,从所有数据点中删除所述异常数据点以得到清洗后的数据。

5.根据权利要求1所述的一种用于大数据任务调度的数据智能处理方法,其特征在于,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,包括:将所述第一类数据点簇中每个数据点的横坐标与该第一类数据点簇的聚类中心的横坐标的差值,确定为横向的偏移值,并将所述第一类数据点簇中每个数据点的纵坐标与该第一类数据点簇的聚类中心的纵坐标的差值,确定为纵向的偏移值,从而得到所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值。

6.根据权利要求1所述的一种用于大数据任务调度的数据智能处理方法,其特征在于,对待清洗数据对应的各个数据点进行分类,所得到各个第一类数据点簇和第二类数据点簇,包括:根据待清洗数据对应的各个数据点的坐标,利用k均值聚类算法对待清洗数据对应的各个数据点进行聚类,得到至少两个数据点簇;

按照数据点簇中的数据点的数目从大到小的顺序,对各个数据点簇进行排列,从而得到数据点簇序列;

若前t个数据点簇满足设定筛选条件,则将前t个数据点簇确定为第一类数据点簇,并将前t个数据点簇以外的其他数据点簇确定为第二类数据点簇,所述设定筛选条件为:前t个数据点簇中所有数据点的总数目与所有数据点簇中所有数据点的总数目的比值不小于第一设定比值阈值,或者第t个数据点簇中所有数据点的总数目与第t+1个数据点簇中所有数据点的总数目的比值不小于第二设定比值阈值。

7.一种用于大数据任务调度的数据智能处理系统,其特征在于,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令,以实现如权利要求1‑6中任一项所述的一种用于大数据任务调度的数据智能处理方法。

说明书 :

用于大数据任务调度的数据智能处理方法及系统

技术领域

[0001] 本发明涉及数据处理技术领域,具体涉及一种用于大数据任务调度的数据智能处理方法及系统。

背景技术

[0002] 作为数据中台的重要组成部分,大数据任务调度系统负责数据邻域内所有离线任务的编排调度,其主要关注任务是否能够及时准确地执行。在企业工厂生产过程中,需要实时对功率及能耗数据进行采集,并将采集到的数据输入到大数据任务调度系统中,由大数据任务调度系统对这些采集到的数据进行人工智能分析,进而实现工业大数据任务自行调度,有效降低了用人成本。为了避免异常数据对大数据任务调度的影响,需要保证用于分析的数据的准确性及有效性。
[0003] 通过统计可知,数据的预处理清洗占据整个数据分析工作量的60%,异常数据能对数据分析结果产生巨大的影响。在采集数据的过程中,由于采集方式和传输干扰的影响,会造成待分析的数据中夹杂不完整或错误的数据,因此需要先对数据进行清洗处理以得到有效数据。现有的数据清洗方法多为通过判断数据的离散或突变程度作为判断依据,但实际过程中数据存在局部范围内的异常,仅通过数据相较于整体的离散或者突变程度无法准确剔除较多的异常数据。传统局部异常因子算法(Local Outlier Factor, LOF)在进行数据异常分析时,是根据数据点与其周围相邻数据点的密度来计算数据的异常程度,虽然能对局部异常因子实现较好的筛选,但是数据中存在一定的异常数据构成一定范围的小簇,使得小簇仍能对数据异常分析产生影响。
[0004] 在LOF算法的基础上,延伸出了一种基于聚类的局部异常检测算法(Cluster‑based Local Outlier Factor, CBLOF),该CBLOF算法通过对数据点进行聚类后得到大簇和小簇,基于大簇内的数据点到该大簇的聚类中心的欧式距离以及小簇内的数据点到大簇的聚类中心的最短欧式距离,来得到每个数据点的异常分数,并基于该异常分数判断数据点的异常程度,最终实现异常数据的筛选。但是考虑到数据存在随机分布的可能,该CBLOF算法在根据大簇的聚类中心计算数据点的异常分数的过程中,当大簇中的数据点比较集中地分布在聚类中心的一侧时,由于大簇中数据分布的偏移会造成计算出来的异常分数与实际分布存在不符的现象,从而导致异常数据的筛选依旧不够准确,最终影响大数据任务调度。

发明内容

[0005] 本发明的目的在于提供一种用于大数据任务调度的数据智能处理方法及系统,用于解决现有的数据清洗处理中异常数据筛选准确性差的问题。
[0006] 为解决上述技术问题,本发明提供了一种用于大数据任务调度的数据智能处理方法,包括以下步骤:
[0007] 对待清洗数据对应的各个数据点进行分类,得到各个第一类数据点簇和第二类数据点簇,所述第一类数据点簇中数据点的数目大于所述第二类数据点簇中数据点的数目;
[0008] 根据所述第一类数据点簇中每个数据点与聚类中心之间的位置差异,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,所述设定方向为横向或纵向;
[0009] 根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重;
[0010] 根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏移偏向权重,确定所述第一类数据点簇对应的各个设定方向的偏向程度;
[0011] 根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏向程度,确定所述第一类数据点簇对应的各个设定方向的偏移距离;
[0012] 根据所述第一类数据点簇对应的各个设定方向的偏移距离,以及所述第一类数据点簇中聚类中心的位置,确定所述第一类数据点簇对应的基准中心;
[0013] 基于所述第一类数据点簇对应的基准中心,筛选出各个数据点中的异常数据点以得到清洗后的数据。
[0014] 进一步的,确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重,包括:
[0015] 计算所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值的平均值和标准差,从而得到所述第一类数据点簇对应的设定方向的偏移平均值和设定方向的偏移标准差;
[0016] 根据所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏度;
[0017] 根据所述第一类数据点簇对应的设定方向的偏移偏度、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏向权重。
[0018] 进一步的,确定所述第一类数据点簇对应的设定方向的偏移偏向权重对应的计算公式为:
[0019]
[0020] 其中, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏向权重,为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏度, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移平均值, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移标准差。
[0021] 进一步的,确定所述第一类数据点簇对应的各个设定方向的偏向程度,包括:
[0022] 若所述第一类数据点簇对应的设定方向的偏移偏度大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行负相关映射,并将负相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度;
[0023] 若所述第一类数据点簇对应的设定方向的偏移偏度不大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行正相关映射,并将正相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度。
[0024] 进一步的,确定所述第一类数据点簇对应的各个设定方向的偏移距离对应的计算公式为:
[0025]
[0026] 其中, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移距离, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移平均值, 为第i个所述第一类数据点簇对应的第k个设定方向的偏向程度。
[0027] 进一步的,确定所述第一类数据点簇对应的基准中心,包括:
[0028] 将所述第一类数据点簇中聚类中心的位置的横坐标与所述第一类数据点簇对应的对应所述横向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的横坐标,并将所述第一类数据点簇中聚类中心的位置的纵坐标与所述第一类数据点簇对应的对应所述纵向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的纵坐标。
[0029] 进一步的,基于所述第一类数据点簇对应的基准中心,筛选出各个数据点中的异常数据点以得到清洗后的数据,包括:
[0030] 将所述第一类数据点簇中的每个数据点作为第一目标数据点,根据所述第一目标数据点到其所属的第一类数据点簇的基准中心的距离以及所述其所属的第一类数据点簇的数据点的总数目,确定所述第一目标数据点的对应的异常分数;
[0031] 将所述第二类数据点簇中的每个数据点作为第二目标数据点,根据所述第二目标数据点到所有所述第一类数据点簇的基准中心的距离中的最小值以及第二目标数据点所属的第二类数据点簇的数据点的总数目,确定所述第二目标数据点的对应的异常分数;
[0032] 根据所有数据点对应的异常分数,将异常分数最大的前设定比例的数据点确定为异常数据点,从所有数据点中删除所述异常数据点以得到清洗后的数据。
[0033] 进一步的,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,包括:
[0034] 将所述第一类数据点簇中每个数据点的横坐标与该第一类数据点簇的聚类中心的横坐标的差值,确定为横向的偏移值,并将所述第一类数据点簇中每个数据点的纵坐标与该第一类数据点簇的聚类中心的纵坐标的差值,确定为纵向的偏移值,从而得到所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值。
[0035] 进一步的,对待清洗数据对应的各个数据点进行分类,所得到各个第一类数据点簇和第二类数据点簇,包括:
[0036] 根据待清洗数据对应的各个数据点的坐标,利用k均值聚类算法对待清洗数据对应的各个数据点进行聚类,得到至少两个数据点簇;
[0037] 按照数据点簇中的数据点的数目从大到小的顺序,对各个数据点簇进行排列,从而得到数据点簇序列;
[0038] 若前t个数据点簇满足设定筛选条件,则将前t个数据点簇确定为第一类数据点簇,并将前t个数据点簇以外的其他数据点簇确定为第二类数据点簇,所述设定筛选条件为:前t个数据点簇中所有数据点的总数目与所有数据点簇中所有数据点的总数目的比值不小于第一设定比值阈值,或者第t个数据点簇中所有数据点的总数目与第t+1个数据点簇中所有数据点的总数目的比值不小于第二设定比值阈值。
[0039] 为解决上述技术问题,本发明还提供了一种用于大数据任务调度的数据智能处理系统,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令,以实现上述的一种用于大数据任务调度的数据智能处理方法。
[0040] 本发明具有如下有益效果:为了对待清洗数据中的异常数据进行筛选,首先对待清洗数据对应的各个数据点进行分类,得到数据点数目相对较多的各个第一类数据点簇和数据点数目相对较少的第二类数据点簇。由于现有是基于第一类数据点簇的聚类中心,对异常数据进行筛选,但是当第一类数据点簇中数据点分布不均匀时,就会导致最终无法准确地筛选出异常数据。因此,本发明通过对第一类数据点簇中每个数据点对应的各个设定方向的偏移值进行分析,获取第一类数据点簇对应的各个设定方向的偏移偏向权重,该偏移偏向权重表征了第一类数据点簇的基准中心相较于该数据点簇的聚类中心的各个设定方向偏移量情况。通过对第一类数据点簇中每个数据点对应的各个设定方向的偏移值进行综合考察,并结合第一类数据点簇对应的各个设定方向的偏移偏向权重,确定第一类数据点簇对应的各个设定方向的偏向程度,进而最终确定第一类数据点簇对应的各个设定方向的偏移距离,该偏移距离表征了第一类数据点簇的基准中心相较于该数据点簇的聚类中心的各个设定方向的偏移量大小。基于第一类数据点簇对应的各个设定方向的偏移距离,对第一类数据点簇的聚类中心进行偏移,从而可以确定第一类数据点簇的基准中心,该基准中心为第一类数据点簇内大多数集中分布的数据点的分布中心位置,可以更加准确地表征第一类数据点簇的实际分布情况。因此基于获取到的第一类数据点簇的基准中心,最终可以准确筛选出待清洗数据中的异常数据,解决了现有的数据清洗处理中异常数据筛选准确性差的问题。

附图说明

[0041] 为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0042] 图1为本发明实施例的一种用于大数据任务调度的数据智能处理方法的流程图;
[0043] 图2为本发明实施例的某个第一类数据点簇的分布示意图。

具体实施方式

[0044] 为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0045] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。另外,本文所涉及公式中的所有参数或者指标均为归一化之后的消除了量纲影响的数值。
[0046] 本实施例提供了一种用于大数据任务调度的数据智能处理方法,该方法对应的流程图如图1所示,包括以下步骤:
[0047] 步骤S1:对待清洗数据对应的各个数据点进行分类,得到各个第一类数据点簇和第二类数据点簇,所述第一类数据点簇中数据点的数目大于所述第二类数据点簇中数据点的数目。
[0048] 在进行工业大数据任务调度的过程中,需要对工业生产中生产用电设备的能耗和功率进行监测,对监测到的能耗和功率数据进行大数据分析,并根据分析结果生成任务调度。生产用电设备的能耗和功率分别是指生产用电设备的输出功率和输入功率,生产用电设备的输出功率是指生产用电设备在生产过程中实时做功消耗的电能,单位为KW/h,生产用电设备的输入功率是指生产用电设备输入电压与电流的乘积,单位为W。对同一生产用电设备或者相同类型的多个生产用电设备的能耗和功率进行同步采集,且每相邻两次采集时刻的时间间隔相同,从而可以获取得到该同一生产用电设备或者相同类型的多个生产用电设备在每一个采集时刻的能耗和功率。由于生产用电设备的能耗和功率的采集方式均为现有技术,如可以采用仪器仪表对生产用电设备的功率进行监测采集,此处不再赘述。在采集到生产用电设备的能耗和功率数据之后,利用网络技术将这些能耗和功率数据传输至大数据任务调度系统。
[0049] 由于异常的能耗和功率数据对大数据任务调度的分析具有较强的影响,因此大数据任务调度系统在进行任务调度分析之前,需要对监测到的能耗和功率数据进行清洗以获得准确可靠的能耗和功率数据。对于任意一个生产用电设备,将其所采集到的能耗和功率数据作为待清洗数据,为了对这些待清洗数据进行清洗,将每一个采集时刻的能耗和功率分别作为纵坐标和横坐标,将该纵坐标和横坐标所构成的点作为一个数据点,从而可以得到待清洗数据对应的各个数据点。
[0050] 在得到待清洗数据对应的各个数据点之后,对这些数据点进行分类,得到各个第一类数据点簇和第二类数据点簇,实现步骤包括:
[0051] 根据待清洗数据对应的各个数据点的坐标,利用k均值聚类算法对待清洗数据对应的各个数据点进行聚类,得到至少两个数据点簇;
[0052] 按照数据点簇中的数据点的数目从大到小的顺序,对各个数据点簇进行排列,从而得到数据点簇序列;
[0053] 若前t个数据点簇满足设定筛选条件,则将前t个数据点簇确定为第一类数据点簇,并将前t个数据点簇以外的其他数据点簇确定为第二类数据点簇,所述设定筛选条件为:前t个数据点簇中所有数据点的总数目与所有数据点簇中所有数据点的总数目的比值不小于第一设定比值阈值,或者第t个数据点簇中所有数据点的总数目与第t+1个数据点簇中所有数据点的总数目的比值不小于第二设定比值阈值。
[0054] 具体的,根据待清洗数据对应的各个数据点的坐标,使用自适应的k均值聚类算法也就是K‑means聚类算法对这些数据点进行自适应聚类,从而得到各个数据点簇。根据数据点簇包含数据点的数量从大到小的顺序,对各个数据点簇进行排序,从而得到数据点簇序列 ,其中,表示第j个数据点簇,N表示数据点簇的总数目。
[0055] 在得到数据点簇序列 之后,根据绝大多数数据点占比和数据点簇的簇域突降情况,筛选出大簇也就是第一类数据点簇,对应的筛选公式为:
[0056]
[0057] 其中, 为大簇也就是第一类数据点簇构成的序列,t为第一类数据点簇的总数目, 为数据点簇序列, 为数据点簇序列 中第j个数据点簇中数据点的数目, 为所有数据点簇中所有数据点的总数目,为第一设定比值阈值,本实施例设置 =0.9, 为数据点簇序列 中第t个数据点簇中数据点的数目, 为数据点簇序列 中第t+1个数据点簇中数据点的数目,为第二设定比值阈值,本实施例设置 , 为选取数据函数,即在数据点簇序列 中选取出满足后面的设定筛选条件的数据点簇。
[0058] 在上述的筛选公式中,当前t个数据点簇中所有数据点的总数目不小于所有数据点簇中所有数据点的总数目的第一设定比值阈值时,则认为前t个数据点簇中的数据点达到了所有数据点中的绝大多数数据点,或者当两相邻数据点簇的数据点的数目的比值不小于第二设定比值阈值时,则认为两相邻数据点簇存在簇域突降,从而分割得到大簇也就是第一类数据点簇。在数据点簇序列 中去除第一类数据点簇构成的序列 ,从而可以得到小簇也就是第二类数据点簇构成的序列 。
[0059] 步骤S2:根据所述第一类数据点簇中每个数据点与聚类中心之间的位置差异,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,所述设定方向为横向或纵向。
[0060] 传统CBLOF基于大簇内的数据点到该大簇的聚类中心的欧氏距离并结合该大簇的区域大小得到数据点的异常分数,或者基于小簇内的数据点到最近大簇的聚类中心的欧氏距离并结合小簇的区域大小得到数据点的异常分数,然而聚类中心仅能代表大簇区域内数据点的整体分布满足聚类要求时的中心点位置,并不能体现一个簇内部数据点的基准分布。因此本方案通过对大簇内数据点的分布特征进行分析,从而得到大簇的基准中心,通过基准中心计算大簇或者小簇内数据点的异常分数。
[0061] 为了确定大簇的基准中心,将所述第一类数据点簇中每个数据点的横坐标与该第一类数据点簇的聚类中心的横坐标的差值,确定为横向的偏移值,并将所述第一类数据点簇中每个数据点的纵坐标与该第一类数据点簇的聚类中心的纵坐标的差值,确定为纵向的偏移值,从而得到所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值。
[0062] 为了便于理解,对于第一类数据点簇构成的序列 中的任意第i个第一类数据点簇 ,将其聚类中心记为 , 为该聚类中心的横坐标,为该聚类中心的纵坐标,将该第一类数据点簇 内任意一个数据点记为 ,为该数据点的横坐标,为该数据点的纵坐标,则该数据点的各个设定方向的偏移值也就是横向的偏移值和纵向的偏移值为:
[0063]
[0064]
[0065] 其中, 为第i个第一类数据点簇 中坐标位置为 的数据点 的横向的偏移值, 为第i个第一类数据点簇 中坐标位置为 的数据点 的
纵向的偏移值。
[0066] 按照上述方式,可以确定任意一个大簇也就是第一类数据点簇中任意一个数据点对应的横向的偏移值和纵向的偏移值,该横向的偏移值和纵向的偏移值分别表示该数据点相较于该簇的聚类中心的横向偏移和纵向偏移大小,该横向的偏移值和纵向的偏移值即为对应数据点对应的各个设定方向的偏移值,这里的设定方向即是指横向和纵向。
[0067] 步骤S3:根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重。
[0068] 数据点簇的聚类中心表示数据点簇的整体分布中心,但在数据点簇中数据点的分布并不一定均匀,当数据点在簇内相较于聚类中心分布较为均匀时,聚类中心等于基准中心即实际中心。当数据点在簇内的不同方向上分布不均匀时,会存在基准分布与延伸分布,基准分布是指以基准中心为整体趋势中心的数据点构成的簇内区域,其不一定在聚类中心附近,延伸分布是指除基准分布之外的其他数据点构成的簇内区域。基准分布发生偏移会造成基准中心相较于聚类中心发生偏移,直接以聚类中心为基准来计算数据点的异常分数时就会产生误差。为了便于理解,如图2所示,大簇也就是第一类数据点簇C1的聚类中心为c1,小簇也就是第二类数据点簇中的数据点 距离聚类中心c1较远,但实际距离该第一类数据点簇C1的基准分布(点密集部分)较近,此时如何直接根据数据点 到第一类数据点簇C1的聚类中心c1的欧氏距离来确定数据点 的异常分数,就会将数据点 误判为异常数据点。
[0069] 后续为了准确确定数据点的异常分数,需要确定每个大簇也就是第一类数据点簇的基准中心,基准中心是指大簇也就是第一类数据点簇的基准分布所位于的中心位置。为了便于后续确定每个大簇也就是第一类数据点簇的基准中心,根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重,实现步骤包括:
[0070] 计算所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值的平均值和标准差,从而得到所述第一类数据点簇对应的设定方向的偏移平均值和设定方向的偏移标准差;
[0071] 根据所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏度;
[0072] 根据所述第一类数据点簇对应的设定方向的偏移偏度、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏向权重,对应的计算公式为:
[0073]
[0074] 其中, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏向权重,为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏度, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移平均值, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移标准差。
[0075] 具体的,对于第一类数据点簇构成的序列 中的任意第i个第一类数据点簇 ,计算该第i个第一类数据点簇 中所有数据点对应的横向的偏移值的平均值和标准差,从而得到该第i个第一类数据点簇 对应的横向的偏移平均值和横向的偏移标准差,分别记为和 。根据该横向的偏移平均值 和横向的偏移标准差 ,计算该第i个第一类数据点簇 对应的横向的偏移偏度,对应的计算公式为:
[0076]
[0077] 其中, 为第i个第一类数据点簇 对应的横向的偏移偏度, 为第i个第一类数据点簇 中数据点的数目, 为第i个第一类数据点簇 中第l个数据点对应的横向的偏移值, 为第i个第一类数据点簇 对应的横向的偏移平均值, 为第i个第一类数据点簇 对应的横向的偏移标准差。
[0078] 基于该第i个第一类数据点簇 对应的横向的偏移偏度 、横向的偏移平均值和横向的偏移标准差,计算该第i个第一类数据点簇 对应的横向的偏移偏向权重,对应的计公式为:
[0079]
[0080] 其中, 为第i个第一类数据点簇 对应的横向的偏移偏向权重, 为第i个第一类数据点簇 对应的横向的偏移偏度, 为第i个第一类数据点簇 对应的横向的偏移平均值, 为第i个第一类数据点簇 对应的横向的偏移标准差。
[0081] 在上述的第i个第一类数据点簇 对应的横向的偏移偏度和横向的偏移偏向权重的计算公式中, 表示根据该数据点簇的聚类中心相较于横向的偏移平均值所处位置(假设第一类数据点簇 的聚类中心的横坐标为 ,那么 + 对应的横坐标位置即为横向的偏移平均值所处位置)的横向偏移量 与横向的偏移标准差计算得到的标准偏度,通过计算数据簇中所有数据点的横向的偏移偏度 与标准偏度的差值获得横向的偏移偏向权重。当数据簇中所有数据点的横向的偏移偏度 大于0时,表示数据点偏移置信区间位于横向的偏移平均值的左侧,此时 表示数据点簇的基准中心相较于该数据点簇的聚类中心的横向偏移量小于横向的偏移平均值, 表示数据点簇的基准中心相较于该数据点簇的聚类中心的横向偏移量大于横向的偏移平均值;当数据簇中所有数据点的横向的偏移偏度 小于0时,表示数据点偏移置信度位于横向的偏移平均值的右侧,此时 表示数据点簇的基准中心相较于该数据点簇的聚类中心的横向偏移量大于横向的偏移平均值,表示数据点簇的基准中心相较于该数据点簇的聚类中心的横向偏移量小于横向的偏移平均值。
[0082] 按照上述确定第一类数据点簇构成的序列 中的任意第i个第一类数据点簇 对应的横向的偏移偏向权重 的方式,根据该第i个第一类数据点簇 所有数据点对应的纵向的偏移值,计算所有纵向的偏移值的平均值和标准差,从而得到该第i个第一类数据点簇对应的纵向的偏移平均值 和纵向的偏移标准差 ,进而可以确定该第i个第一类数据点簇 对应的纵向的偏移偏度 ,并最终可以确定该第i个第一类数据点簇 对应的纵向的偏移偏向权重 。该第i个第一类数据点簇 对应的横向的偏移偏向权重 和纵向的偏移偏向权重 ,即为该第i个第一类数据点簇 对应的各个设定方向的偏移偏向权重。
[0083] 步骤S4:根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏移偏向权重,确定所述第一类数据点簇对应的各个设定方向的偏向程度。
[0084] 基于每个第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及该第一类数据点簇对应的各个设定方向的偏移偏向权重,可以确定该第一类数据点簇对应的各个设定方向的偏向程度,实现步骤包括:
[0085] 若所述第一类数据点簇对应的设定方向的偏移偏度大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行负相关映射,并将负相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度;
[0086] 若所述第一类数据点簇对应的设定方向的偏移偏度不大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行正相关映射,并将正相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度。
[0087] 具体的,对于第一类数据点簇构成的序列 中的任意第i个第一类数据点簇 ,其对应的横向的偏向程度对应的计算公式为:
[0088]
[0089] 其中, 为第i个第一类数据点簇 对应的横向的偏向程度, 为第i个第一类数据点簇 对应的横向的偏移偏向权重, 为第i个第一类数据点簇 对应的横向的偏移偏度,| |为取绝对值符号。
[0090] 根据上述的第i个第一类数据点簇 对应的横向的偏向程度的计算公式可知,当横向的偏移偏度 时,表示数据点簇的基准中心距横向的偏移平均值的横向偏移量在横向的偏移平均值的左侧,即数据点簇的基准中心位于横向的偏移平均值所处位置的左侧,此时横向的偏移平均值应向左偏移,偏向程度为基准中心与聚类中心的横向偏度差异即横向的偏移偏向权重 的绝对值,此时横向的偏向程度为横向的偏移偏向权重 的绝对值的负相关映射结果,该负相关映射结果为 ,该负相关映射结果与横向的偏移偏向权重 的正负无关,仅与横向的偏移偏向权重 的大小有关;当横向的偏移偏度时,表示数据点簇的基准中心距横向的偏移平均值的横向偏移量在横向的偏移平均值的右侧,即数据点簇的基准中心位于横向的偏移平均值所处位置的右侧,此时横向的偏移平均值应向右偏移,偏移程度为基准中心与聚类中心的横向偏度差异即横向的偏移偏向权重的绝对值,此时横向的偏向程度为横向的偏移偏向权重 的绝对值的正相关映射结果,该正相关映射结果为 ,该正相关映射结果与横向的偏移偏向权重 的正负无关,仅与横向的偏移偏向权重 的大小有关。当且仅当数据点簇内所有数据点均匀分布,即横向的偏移平均值为0时,横向的偏移偏度为0,横向的偏移偏向权重为0,横向的偏向程度为1。
[0091] 按照上述确定第一类数据点簇构成的序列 中的任意第i个第一类数据点簇 对应的横向的偏向程度 的方式,可以确定该第i个第一类数据点簇 对应的纵向的偏移偏度 、纵向的偏移偏向权重 ,进而可以确定该第i个第一类数据点簇 对应的纵向的偏向程度 。该第i个第一类数据点簇 对应的横向的偏向程度 和纵向的偏向程度 ,即为该第i个第一类数据点簇 对应的各个设定方向的偏向程度。
[0092] 步骤S5:根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏向程度,确定所述第一类数据点簇对应的各个设定方向的偏移距离。
[0093] 在上述的步骤S3的基础上,基于每个第一类数据点簇对应的设定方向的偏移平均值,也就是横向的偏移平均值 和纵向的偏移平均值 ,并结合每个第一类数据点簇对应的各个设定方向的偏向程度,也就是横向的偏向程度 和纵向的偏向程度 ,可以确定每个第一类数据点簇对应的各个设定方向的偏移距离,也就是横向的偏移距离和纵向的偏移距离,对应的计算公式为:
[0094]
[0095] 其中, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移距离, 为第i个所述第一类数据点簇对应的第k个设定方向的偏移平均值, 为第i个所述第一类数据点簇对应的第k个设定方向的偏向程度。
[0096] 具体的,根据每个第一类数据点簇对应的横向的偏移平均值 和横向的偏向程度 ,确定每个第一类数据点簇对应的横向的偏移距离,对应的计算公式为:
[0097]
[0098] 其中, 为第i个第一类数据点簇对应的横向的偏移距离, 为第i个第一类数据点簇对应的横向的偏移平均值, 为第i个第一类数据点簇对应的横向的偏向程度。
[0099] 同理,根据每个第一类数据点簇对应的纵向的偏移平均值 和纵向的偏向程度,确定每个第一类数据点簇对应的纵向的偏移距离,对应的计算公式为:
[0100]
[0101] 其中, 为第i个第一类数据点簇对应的纵向的偏移距离, 为第i个第一类数据点簇对应的纵向的偏移平均值, 为第i个第一类数据点簇对应的纵向的偏向程度。
[0102] 通过上述方式,可以确定每个第一类数据点簇对应的横向的偏移距离和纵向的偏移距离,也就是各个设定方向的偏移距离,该横向的偏移距离和纵向的偏移距离分别表征了数据点簇的基准中心相较于聚类中心的横向偏移量和纵向偏移量。当横向的偏向程度大于1时,此时第一类数据点簇对应的横向的偏移距离大于横向的偏移平均值 ,而当横向的偏向程度大于或者等于0且小于1时,此时第一类数据点簇对应的横向的偏移距离小于横向的偏移平均值 ,当且仅当横向的偏向程度等于1时,第一类数据点簇对应的横向的偏移距离等于横向的偏移平均值 。同理,可以确定第一类数据点簇对应的纵向的偏移距离与纵向的偏移平均值之间的关系。
[0103] 步骤S6:根据所述第一类数据点簇对应的各个设定方向的偏移距离,以及所述第一类数据点簇中聚类中心的位置,确定所述第一类数据点簇对应的基准中心。
[0104] 将所述第一类数据点簇中聚类中心的位置的横坐标与所述第一类数据点簇对应的对应所述横向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的横坐标,并将所述第一类数据点簇中聚类中心的位置的纵坐标与所述第一类数据点簇对应的对应所述纵向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的纵坐标。
[0105] 具体的,对于第一类数据点簇构成的序列 中的任意第i个第一类数据点簇 ,根据该第i个第一类数据点簇 对应的各个设定方向的偏移距离,也就是横向的偏移距离和纵向的偏移距离 ,并结合每个第一类数据点簇中聚类中心 ,可以确定该第i个第一类数据点簇 对应的基准中心 。
[0106] 步骤S7:基于所述第一类数据点簇对应的基准中心,筛选出各个数据点中的异常数据点以得到清洗后的数据。
[0107] 在确定每个第一类数据点簇对应的基准中心之后,基于该基准中心,确定第一类数据点簇和第二类数据点簇中每个数据点对应的异常分数,并基于该异常分数,筛选出各个数据点中的异常数据点以得到清洗后的数据,实现步骤包括:
[0108] 将所述第一类数据点簇中的每个数据点作为第一目标数据点,根据所述第一目标数据点到其所属的第一类数据点簇的基准中心的距离以及所述其所属的第一类数据点簇的数据点的总数目,确定所述第一目标数据点的对应的异常分数;
[0109] 将所述第二类数据点簇中的每个数据点作为第二目标数据点,根据所述第二目标数据点到所有所述第一类数据点簇的基准中心的距离中的最小值以及第二目标数据点所属的第二类数据点簇的数据点的总数目,确定所述第二目标数据点的对应的异常分数;
[0110] 根据所有数据点对应的异常分数,将异常分数最大的前设定比例的数据点确定为异常数据点,从所有数据点中删除所述异常数据点以得到清洗后的数据。
[0111] 具体的,对于任意一个数据点 ,为该数据点的横坐标,为该数据点的纵坐标,采用现有的CBLOF算法来确定该数据点 的异常分数。即当该数据点 属于大簇也就是第一类数据点簇时,则计算该数据点 到其所属的第一类数据点簇的基准中心的欧氏距离,同时确定该数据点 所属的第一类数据点簇的数据点的总数目,并将该欧氏距离与总数目的乘积确定为该数据点 的异常分数 。当该数据点 属于小簇也就是第二类数据点簇时,则计算该数据点 到其他第一类数据点簇的基准中心的最小欧氏距离,同时确定该数据点 所属的第二类数据点簇的数据点的总数目,并将该最小欧氏距离与总数目的乘积确定为该数据点 的异常分数 。
[0112] 异常分数表征了对应的数据点属于异常数据的可能性,当异常分数越大时,说明对应的数据点越可能属于异常数据。在得到待清洗数据对应的各个数据点的异常分数之后,选取整体数据点中异常分数较大的部分数据点作为异常数据点,具体实现方法为:按照从大到小的顺序对异常分数进行排序,然后选取异常分数较大的且在所有数据点中设定占比为1%的数据点作为异常数据点。在确定这些异常数据点之后,从所有数据点中删除这些异常数据点,剩余的数据点所对应的横坐标值和纵坐标值,也就是能耗和功率数据,即为清洗后的数据。基于清洗后的数据,即可进行准确的大数据分析和任务调度。由于本方案的重点在于准确得到清洗后的数据,而基于准确得到的清洗后的数据任何具体进行大数据分析和任务调度则属于现有技术,且不属于本方案关注的重点,此处不再赘述。
[0113] 本实施例还提供了一种用于大数据任务调度的数据智能处理系统,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令,以实现上述的一种用于大数据任务调度的数据智能处理方法。由于该用于大数据任务调度的数据智能处理系统实质上是一种软系统,其核心在于实现上述的用于大数据任务调度的数据智能处理方法,而该方法已经在上述内容中进行了详细介绍,此处对该用于大数据任务调度的数据智能处理系统不再做赘述。
[0114] 本发明通过对待清洗数据对应的大簇也就是第一类数据点簇中数据点的分布偏移情况进行分析,从而准确获得第一类数据点簇的基准中心,并基于该基准中心准确获取数据点的异常分数,最终准确筛选出异常的数据,为大数据分析和任务调度提供了可靠的数据基础。
[0115] 需要说明的是:以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。