一种企业生产排放数据智能处理方法转让专利

申请号 : CN202211264671.X

文献号 : CN115329910B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王宝凤马立丰

申请人 : 南通坤鹏科技有限公司

摘要 :

本发明涉及数据处理技术领域,具体涉及一种企业生产排放数据智能处理方法,该方法获取企业的排放数据,并基于时间将排放数据进行分段,得到至少两个数据块;通过所有数据块中数据的数值分布情况确定数据块中每个排放数据的异常程度,将数据块划分为混乱区域和正常波动区域;通过预设参数的DBSCAN聚类算法对排放数据进行聚类压缩,获取混乱区域的混乱程度,以及正常波动区域的混乱程度;改变预设参数中的邻域半径,得到新的混乱程度,基于混乱程度的变化获取最佳邻域半径;以最优邻域半径对排放数据进行聚类压缩。本发明能够使数据的异常信息保存更为完整,同时保证了数据的压缩率。

权利要求 :

1.一种企业生产排放数据智能处理方法,其特征在于,该方法包括以下步骤:获取企业的排放数据,并基于时间将所述排放数据进行分段,得到至少两个数据块;

通过所有数据块中数据的数值分布情况确定数据块中每个排放数据的异常程度,根据历史排放数据中的异常数据获取异常阈值,基于异常阈值将数据块划分为混乱区域和正常波动区域;

通过预设参数的DBSCAN聚类算法对排放数据进行聚类压缩,获取混乱区域的混乱程度,以及正常波动区域的混乱程度;所述预设参数包括邻域半径、邻域密度阈值和最大可达密度距离;

改变所述预设参数中的邻域半径,得到新的混乱程度,基于混乱程度的变化获取最佳邻域半径;以最优邻域半径对所述排放数据进行聚类压缩;

所述异常程度的获取方法为:

计算每个数据块与预先选取的标准波动数据块之间的余弦相似度,以每个数据块中的排放数据与标准波动数据块对应位置的排放数据之间的差值绝对值作为该排放数据的偏离程度,通过所述余弦相似度和所述偏离程度获取对应排放数据的所述异常程度;

所述混乱程度的获取方法为:

对于混乱区域,获取同一数值的排放数据的数量在混乱区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算混乱区域的所述混乱程度;

对于正常波动区域,获取同一数值的排放数据的数量在正常波动区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算正常波动区域的所述混乱程度。

2.根据权利要求1所述的一种企业生产排放数据智能处理方法,其特征在于,所述异常阈值的获取方法为:在历史排放数据中选取预设数量的异常数据,计算选取的异常数据的异常程度并求平均值作为所述异常阈值。

3.根据权利要求1所述的一种企业生产排放数据智能处理方法,其特征在于,所述基于异常阈值将数据块划分为混乱区域和正常波动区域,包括:将异常程度高于所述异常阈值的排放数据划分为混乱区域,否则划分为正常波动区域。

说明书 :

一种企业生产排放数据智能处理方法

技术领域

[0001] 本发明涉及数据处理技术领域,具体涉及一种企业生产排放数据智能处理方法。

背景技术

[0002] 对于时序数据的压缩,常常通过聚类算法对一串数据进行压缩。对于聚类算法中,基于密度的DBSCAN聚类算法常用于数据压缩场景。在使用DBSCAN聚类进行数据压缩时,需要提前设定邻域半径与邻域密度阈值。在对企业排放数据进行压缩时,对于不同种类的排放数据如果使用统一的邻域半径与邻域密度阈值进行聚类压缩回事的压缩效果不好,并且可能会将重要数据丢失。

发明内容

[0003] 为了解决上述技术问题,本发明提供一种企业生产排放数据智能处理方法,所采用的技术方案具体如下:
[0004] 本发明一个实施例提供了一种企业生产排放数据智能处理方法,该方法包括以下步骤:
[0005] 获取企业的排放数据,并基于时间将所述排放数据进行分段,得到至少两个数据块;
[0006] 通过所有数据块中数据的数值分布情况确定数据块中每个排放数据的异常程度,根据历史排放数据中的异常数据获取异常阈值,基于异常阈值将数据块划分为混乱区域和正常波动区域;
[0007] 通过预设参数的DBSCAN聚类算法对排放数据进行聚类压缩,获取混乱区域的混乱程度,以及正常波动区域的混乱程度;所述预设参数包括邻域半径、邻域密度阈值和最大可达密度距离;
[0008] 改变所述预设参数中的邻域半径,得到新的混乱程度,基于混乱程度的变化获取最佳邻域半径;以最优邻域半径对所述排放数据进行聚类压缩。
[0009] 优选的,所述异常程度的获取方法为:
[0010] 计算每个数据块与预先选取的标准波动数据块之间的余弦相似度,以每个数据块中的排放数据与标准波动数据块对应位置的排放数据之间的差值绝对值作为该排放数据的偏离程度,通过所述余弦相似度和所述偏离程度获取对应排放数据的所述异常程度。
[0011] 优选的,所述异常阈值的获取方法为:
[0012] 在历史排放数据中选取预设数量的异常数据,计算选取的异常数据的异常程度并求平均值作为所述异常阈值。
[0013] 优选的,所述基于异常阈值将数据块划分为混乱区域和正常波动区域,包括:
[0014] 将异常程度高于所述异常阈值的排放数据划分为混乱区域,否则划分为正常波动区域。
[0015] 优选的,所述混乱程度的获取方法为:
[0016] 对于混乱区域,获取同一数值的排放数据的数量在混乱区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算混乱区域的所述混乱程度;
[0017] 对于正常波动区域,获取同一数值的排放数据的数量在正常波动区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算正常波动区域的所述混乱程度。
[0018] 本发明实施例至少具有如下有益效果:
[0019] 对于企业排放数据,比较异常的数据是更重要的,期望中对这些重要数据通过聚类可以将其判断为异常点,并且无损压缩,对于重要程度较低的数据可以进行有损压缩。对于时序数据,根据数据的记录方式确定聚类的密度半径。相较于传统的DBSCAN聚类可以使得数据的异常信息保存的更为完整,不会因为压缩而丢失重要数据,对于正常数据将其簇类通过特征值进行保存,既可以存储该时刻的排放信息,根据存储的信息获取排放数据的整体信息,同时保证了数据的压缩率,使得数据更易于存储。

附图说明

[0020] 为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0021] 图1为本发明一个实施例提供的一种企业生产排放数据智能处理方法的步骤流程图;
[0022] 图2为区域划分示意图;
[0023] 图3为本发明一个实施例提供的一个聚类示意图;
[0024] 图4为邻域半径过大时的聚类示意图;
[0025] 图5为正常波动区域编号记录示意图;
[0026] 图6为簇类编号的代表值记录图。

具体实施方式

[0027] 为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种企业生产排放数据智能处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0028] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0029] 在企业的排放数据获取之后需要将数据进行存储,因为数据量大,所以需要对数据进行压缩,在压缩的同时需要保留企业排放的重要数据,对于重要程度低的排放数据进行有损压缩。对于重要数据对其进行无损压缩。下面结合附图具体的说明本发明所提供的一种企业生产排放数据智能处理方法的具体方案。
[0030] 请参阅图1,其示出了本发明一个实施例提供的一种企业生产排放数据智能处理方法的步骤流程图,该方法包括以下步骤:
[0031] 步骤S001,获取企业的排放数据,并基于时间将排放数据进行分段,得到至少两个数据块。
[0032] 具体的步骤包括:
[0033] 获取企业排放的监测数据,排放数据为不同的排放物种类的数据,常规的排放物如 等。将数据进行分块,在后续的分析过程中需要根据数据块的特征进行分析。
[0034] 为保证数据压缩过程中对于不同数据采取不同的方式,将数据通过排放物质种类进行单独确定。将每种排放数据都与记录时间进行划分。在进行不同排放物质的排放数据采集之后,将排放数据进行分块,划分数据块的标准以记录的日期进行划分,例如以记录的时间为标准,每小时为间隔进行数据分段,得到至少两个数据块,具体划分过程根据实际情况进行确定。
[0035] 步骤S002,通过所有数据块中数据的数值分布情况确定数据块中每个排放数据的异常程度,根据历史排放数据中的异常数据获取异常阈值,基于异常阈值将数据块划分为混乱区域和正常波动区域。
[0036] 具体的步骤包括:
[0037] 因为企业排放数据是一个有时序的数据,其时序性体现在每一天的排放量都处于一个相似的波动。这样就可以根据波动的相似性来进行数据点异常程度的衡量。对于每一天的数据块,可以通过衡量每一个数据块中的数据波动来进行波动相似度的判断,那么数据的异常程度一方面是波动的相似度,一方面就是在波动相似的情况下,数据点偏离主波动的距离。通过这两个方面来进行数据点分布异常程度的判断。
[0038] 计算每个数据块与预先选取的标准波动数据块之间的余弦相似度,以每个数据块中的排放数据与标准波动数据块对应位置的排放数据之间的差值绝对值作为该排放数据的偏离程度,通过余弦相似度和偏离程度获取对应排放数据的异常程度。
[0039] 将一个数据块中一个排放物的排放数据看作一个多维向量,对比两个数据块中两个多维向量的向量夹角的余弦值,作为两个数据块中数据波动相似度的衡量。获取第 个数据块与标准数据块的波动相似程度 。
[0040] 将标准波动数据块的波动作为标准进行数据点异常程度的衡量,将每个排放数据记为数据点,如果数据点的数值超过当地政府规定的排放值,无论其波动相似程度的影响都将这个数据点的异常程度设置为1,如果数据块中的数据量与标准不符合,说明排放数据监测传感器记录缺失,将这个数据块中数据的异常程度都设置为1。
[0041] 无上述情况则通过待衡量数据块中的数据点与标准数据块的数据点对应位置的数据点进行对比,使用数据值的差值绝对值作为偏离程度的衡量标准,将一个数据块中的差值绝对值记录为一组数值,将这一组数据进行 归一化作为每一个数据点的偏离程度,将第 个数据块中第 个数据的偏离程度记为 。
[0042] 对于数据点的异常程度通过两个数据块的波动相似度与数据点偏离程度来进行衡量。其中波动相似度 的数值范围为 其数值离 越近则两个波动越相似。
[0043] 通过取值范围将 映射到 :
[0044]
[0045] 其中, 表示波动相似度, 表示波动相似度的归一化数值。
[0046] 对于一个数据点所在波动的波动相似度如果越相似则说明其中数据点的异常程度越低,如果一个数据点的偏离程度越高则说明异常程度越高。
[0047] 数据点的异常程度 的计算公式为:
[0048]
[0049] 其中, 表示第 个数据块中第 个数据点的数值偏离程度, 表示第 个数据块中数据波动与标准波动的相似程度, 表示第 个数据块中第 个数据点的异常程度。
[0050] 在获取到每一个数据点的异常程度之后需要根据其异常程度来划分出对于一种排放物的排放数据中的混乱区域与正常波动区域。
[0051] 在历史排放数据中选取预设数量的异常数据,计算选取的异常数据的异常程度并求平均值作为异常阈值。
[0052] 通过随机抽取 个异常数据点计算其异常程度,通过这 个异常数据点的异常程度均值作为划分混乱区域的异常阈值,异常阈值计算公式为: ,起这种T表示预设数量,在本发明实施例中为20; 表示第 个数据点的异常程度,表示计算得到的异常程度阈值。
[0053] 将异常程度高于异常阈值的排放数据划分为混乱区域,否则划分为正常波动区域。
[0054] 在获取到用于划分混乱区域的异常程度阈值之后,通过阈值 来对所有数据点的异常程度进行划分。异常程度高于阈值 则将这个数据点划分为混乱区域,用以比较在数据压缩之后对于异常数据点的影响。异常程度低于阈值 则将这个数据点划分为正常波动区域,用以比较在数据压缩之后对于正常数据点的压缩效果。
[0055] 将划分得到的混乱区域数据点集合记为 ,将划分得到的正常波动区域数据点集合记为 。在实际数据中混乱区域和正常波动区域的区域划分示意图如图2所示,两条曲线中间的区域为正常波动区域 ,两条曲线外的区域为混乱区域 。
[0056] 企业排放数据块通过数据异常程度判断处理,得到混乱区域与正常波动区域。
[0057] 步骤S003,通过预设参数的DBSCAN聚类算法对排放数据进行聚类压缩,获取混乱区域的混乱程度,以及正常波动区域的混乱程度;预设参数包括邻域半径、邻域密度阈值和最大可达密度距离。
[0058] 具体的步骤包括:
[0059] 通过DBSCAN密度聚类对企业排放数据进行压缩时对于不同的邻域半径参数其压缩效果也不同。为了找到最合适的邻域半径则需要通过对数据压缩的期望来限制邻域半径的选取以确定最优的邻域半径。对于好的邻域半径聚类压缩的效果是将企业排放数据中的正常波动区域数据在保证波动信息的情况下进行压缩,对于混乱区域的数据则需要保证混乱区域的数据无损压缩,也就是期望密度聚类中将混乱区域的数据点识别为噪声点,对于噪声点则是在存储数据时无损存储,以保证可以将排放数据的异常全部保留。
[0060] 根据如上期望对于混乱区域数据的保留情况则通过混乱区域的混乱程度进行衡量,如果在聚类之后混乱程度降低则说明邻域半径的大小已经将混乱区域的数据点进行了有损压缩。
[0061] 对于初始邻域半径的确定,可以通过历史排放数据与排放标准进行确定,因为对于不同的排放物质有着不同的标准,所以对于不同的排放物质会有不同的初始邻域半径。本实施例中以 的排放数据为例,根据企业排放数据的历史数据信息,这里建议将初始窗口大小设置为2。
[0062] 对于邻域密度阈值的确定,需要根据排放物监测传感器的数量与记录时间间隔来确定,对于同一时刻的不同传感器,其监测到的数据理论上偏差不会很大,如果出现较大的偏差也会在聚类中的噪声点识别被识别出,邻域密度阈值则需要根据传感器数量进行设置,如步骤一中的示例数据,有十个传感器进行监测,根据历史数据信息,这里将邻域密度阈值设置为8。
[0063] 初始邻域半径( )设置为1.2,邻域密度阈值( )设置为8。因为在确定初始邻域半径之后还会根据混乱区域的混乱程度与正常波动区域的信息对邻域半径进行迭代修改,所以初始邻域半径根据历史数据来确定初始数值不会影响到最佳邻域半径的确定。
[0064] 通过初始邻域半径对企业排放数据进行聚类压缩,实际上就是将一种排放物的所有排放数据进行聚类,将同一簇类中的数据点使用一个数值进行代表,聚类之后的数据进行存储时可以将同一簇类的数据点使用该簇类的代表值进行存储,因为只需记录簇类中数据点的代表值所以将同一个数值只记录一次以达到数据压缩的效果。
[0065] 如图3的聚类示意图所示,从最左侧数据点开始判断其邻域半径是否符合邻域密度阈值的要求,图中箭头代表密度聚类的移动方向,实线圆圈为能够聚类的点,虚线圆圈内的为离散点,代表识别出的噪声点。
[0066] 通过限制最大密度可达距离来限制簇类的最大范围,来保证整体波动不会被聚为一类,从而使得压缩后的数据还保留着排放数据的波动信息。只要是根据企业排放数据的常规数值分布,将最大可达密度距离设置为5。
[0067] 在密度聚类之后将原始数据中的数据值替换为聚类所得的代表值。
[0068] 对于混乱区域,获取同一数值的排放数据的数量在混乱区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算混乱区域的混乱程度;对于正常波动区域,获取同一数值的排放数据的数量在正常波动区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算正常波动区域的混乱程度。
[0069] 对于混乱区域的数据可以使用该区域数据的信息熵来作为该区域混乱程度的衡量。混乱程度的计算方式如下:
[0070]
[0071] 其中, 表示混乱区域存在的数据点数值,表示数据点数值为 的第 个数据点,表示数据点数值为 的数据点数量, 表示在混乱区域中数据点数值为 中第个数据值的数据点数量在整个区域中出现的概率。
[0072] 的获取方法为: ,其中 表示在集合 中数值为 的数据点的数量。 为混乱区域中数据点的数量,所得 为混乱区域的混乱程度。
[0073] 该公式为信息熵计算公式,所得 表示所计算混乱区域中数据点的信息量,可以将其理解为数据点的混乱程度,因为数据点也不相同也就是越混乱,那么其数值就会越大。以此衡量区域的混乱程度。
[0074] 在获取到初始混乱区域的混乱程度 之后将其作为一个对比值,用以对比在进行聚类压缩之后混乱区域的混乱程度变化情况。
[0075] 根据同样的上述计算过程,同样计算正常波动区域的混乱程度 ,用于对正常波动区域压缩效果的衡量。
[0076] 步骤S004,改变所述预设参数中的邻域半径,得到新的混乱程度,基于混乱程度的变化获取最佳邻域半径;以最优邻域半径对所述排放数据进行聚类压缩。
[0077] 具体的步骤包括:
[0078] 对于初始邻域半径所得的聚类后数据,仍然通过原始数据的混乱区域与正常波动区域来进行新一次的混乱程度确定。计算所得的聚类后数据的混乱区域混乱程度记为 ,正常波动区域混乱程度记为 。
[0079] 对于邻域半径的确定,期望中是混乱区域的混乱程度尽可能保持不变,而正常波动区域混乱程度降低。如下图中所示,如果邻域半径数值过大就会将混乱区域的异常点进行聚类压缩,从而损失的排放数据的异常信息,如图4所示,实线圆圈为能够聚类的点,虚线圆圈内的数据点邻域半径都会将混乱区域的数据点进行包含,在聚类过程中这些数据点的信息就会缺失。
[0080] 在这个过程中如果混乱区域的混乱程度没有变化则继续扩大邻域半径,如果混乱区域混乱程度的变化达到了对于重要数据的最低要求,则停止邻域半径的继续扩大。并以此时的邻域半径作为最佳邻域半径。
[0081] 迭代过程中对于混乱程度最低要求的衡量则需要根据对于数据压缩要求的确定。如果在使用中对于某种物质的排放数据绝对的异常数据无损压缩,那么混乱区域的混乱程度只要发生变化就需要以迭代过程中上一个邻域半径作为最佳邻域半径的选择。对于实际的数据压缩使用,需要给出一个对异常数值的可更改限度,并以此来衡量混乱区域的混乱程度变化。
[0082] 使用获取到的最佳邻域半径参数,对数据进行密度聚类压缩数据,通过迭代过程寻找到的最佳邻域半径可以使得数据无损保留重要数据并以有损的方式压缩不重要的数据,达到最好的排放数据压缩效果。
[0083] 在获取到最佳邻域半径参数之后对数据进行聚类处理,将同一簇类中的数据使用该簇类的记录值来对数据进行记录,相同数值的记录可以进行压缩存储。在DBSCAN密度聚类的过程中还可以检测到密度不可达的噪声点,这些噪声点可以理解为一组数据中的异常点,比如某个时刻监测到排放物排放异常,对于这种表述异常的数值则需要保留其数值进行存储。
[0084] 存储过程中对正常波动区域的数据点记录其所属簇类的编号即可,如图5所示,同时单独记录簇类编号的代表值,如图6所示。
[0085] 对于每种排放物的排放数据都经过上述过程进行聚类压缩存储。
[0086] 综上所述,本发明实施例获取企业的排放数据,并基于时间将排放数据进行分段,得到至少两个数据块;通过所有数据块中数据的数值分布情况确定数据块中每个排放数据的异常程度,根据历史排放数据中的异常数据获取异常阈值,基于异常阈值将数据块划分为混乱区域和正常波动区域;通过预设参数的DBSCAN聚类算法对排放数据进行聚类压缩,获取混乱区域的混乱程度,以及正常波动区域的混乱程度;预设参数包括邻域半径、邻域密度阈值和最大可达密度距离;改变预设参数中的邻域半径,得到新的混乱程度,基于混乱程度的变化获取最佳邻域半径;以最优邻域半径对排放数据进行聚类压缩。本发明实施例能够使得数据的异常信息保存的更为完整,不会因为压缩而丢失重要数据,同时保证了数据的压缩率,使得数据更易于存储。
[0087] 需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0088] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0089] 以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。