基于时间序列分析的输变电设备的状态监测数据清洗方法转让专利

申请号 : CN201410806481.5

文献号 : CN104537034B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郭志红杜修明杨祎陈玉峰盛戈皞严英杰

申请人 : 国家电网公司国网山东省电力公司电力科学研究院

摘要 :

本发明公开了基于时间序列分析的输变电设备的状态监测数据清洗方法,步骤如下:建立输变电设备状态数据的初始时间序列模型,通过初始时间序列模型估计初始拟合的残差序列和残差方差;利用初始时间序列模型,计算每个观测点的检验统计量;判断检验统计量的绝对值的最大值是否大于设定阈值;通过修正后的时间序列模型的模型残差计算每个观测点的检验统计量,根据检验统计量的绝对值的最大值是否大于设定阈值来判断是否存在新的噪声点,直到所有的噪声点都被识别出。本发明具有清洗效率高、保持了数据的完整性、避免数据有用信息丢失的优点。

权利要求 :

1.基于时间序列分析的输变电设备的状态监测数据清洗方法,其特征是,步骤如下:步骤(1):建立输变电设备状态数据的初始时间序列模型,通过初始时间序列模型估计初始拟合的残差序列和残差方差;

步骤(2):

步骤(2-1):利用步骤(1)的初始时间序列模型,计算每个观测点的检验统计量;

所述步骤(2-1)的步骤为:

利用步骤(1)的初始时间序列模型,计算每个观测点的检验统计量步骤为:利用步骤(1)的初始时间序列模型,对t=1,2,…,n,计算每个观测点的检验统计量 和检验统计量所述检验统计量 和检验统计量 的计算公式如下:式(11)、(12)中:t=1,2,...,n表示噪声点产生的时刻;σa为含噪声点的残差 的标准差;所述检验统计量 和检验统计量 的极限分布均为标准正态分布,服从t分布; 表示加性异常值的影响, 表示新息异常值的影响;

步骤(2-2):判断检验统计量的绝对值的最大值是否大于设定阈值,如果大于,则确定存在对初始时间序列模型拟合影响的噪声点,通过修正时间序列数据来修正噪声点,通过返回步骤(2)继续识别并修正时间序列所有的噪声点,然后进入步骤(2-3);如果小于就进入步骤(2-3);

所述步骤(2-2)的步骤为:

将噪声点的种类分为加性异常值AO和新息异常值IO,缺失值被认为是加性异常值;

定义 λT表示检验统计量 和检验统计量 的最大值,T为最大值发生的时刻;

当 时,其中C是设定阈值,确定在时刻T存在加性异常值AO,加性异常值AO对模型拟合的影响 通过式(13)求得;

其中,eT表示时刻T处的残差,eT+j表示时刻T+j处的残差,πj表示时刻j处残差影响的算子;

对于加性异常值,通过式(15)修正初始时间序列数据,得到新的时间序列其中, 表示经过一次修正的时间序列,Zt表示初始时间序列, 表示阶跃函数;

并由式(16)修正后的残差

其中,表示经过一次修正的残差,表示初始残差, 表示残差影响的算子;

式(15)和式(16)中 的定义如式(17)所示:其中, 表示阶跃函数,t表示时间,T表示阶跃函数值由0转为1的时刻;

当 时,确定在时刻T存在新息异常值IO,其对初始时间序列模型拟合的影响通过式(14)求得,利用式(18)修正数据,则IO的影响能够消除,即其中, 表示经过一次修正的时间序列,Zt表示初始时间序列, 表示阶跃函数,d d为初始拟合的平稳算子, 为初始拟合的可逆算子;B表示延迟算子,B Zt=Zt-d,B表示延迟d个时刻的延迟算子,Zt表示时刻t的观测值,Zt-d表示时刻t-d的观测值,▽d是一个表示t时刻与t-d时刻的观测值间的差值的算子,▽d=1-Bd;

由式(19)修正后的残差:

其中,表示经过一次修正的残差,表示初始残差,

使用迭代的方法识别并修正时间序列所有的噪声点;在修正后的残差 和残差标准差的基础上再次计算每个观测点的检验统计量 和检验统计量 并重复步骤(2-2),直到所有的噪声点都被识别出来;

步骤(2-3):拟合修正后的时间序列模型,估计修正后的时间序列模型的模型残差;

步骤(3):通过步骤(2-3)中修正后的时间序列模型的模型残差计算每个观测点的检验统计量,根据检验统计量的绝对值的最大值是否大于设定阈值来判断是否存在新的噪声点,直到所有的噪声点都被识别出,如果存在就返回步骤(2),如果不存在就结束。

2.如权利要求1所述的基于时间序列分析的输变电设备的状态监测数据清洗方法,其特征是,所述步骤(1)的步骤为:对观测序列Zt建立时间序列模型,

设Zt是单个状态量的无异常值的时间序列,Zt服从ARIMA(p,d,q)模型,表示为其中,p,q,d为时间序列ARIMA(p,d,q)模型的阶数,et是不含噪声点的序列初始拟合的残差序列, 是 中相应的参数, 是 中相应的参数;

并由所建立的时间序列模型计算初始拟合的残差序列,即:式(8)中, 为含噪声点的序列初始拟合的残差序列, 为表征残差影响的算子,为 相应的参数,n为残差序列长度,n≥1。

3.如权利要求2所述的基于时间序列分析的输变电设备的状态监测数据清洗方法,其特征是,所述 的定义如(9)所示:其中, 表示表征滞后n个时刻的残差影响的算子。

4.如权利要求1所述的基于时间序列分析的输变电设备的状态监测数据清洗方法,其特征是,所述步骤(1)的残差方差的初始估计为:其中, 表示残差方差,n表示残差序列的长度,n≥1, 的参数含义是残差值的平方。

5.如权利要求2所述的基于时间序列分析的输变电设备的状态监测数据清洗方法,其特征是,所述步骤(2-3)的步骤为:假设有k个异常数据在时刻T1,T2,...,Tk被识别出,其影响分别为 同时异常数据被修正而得到了新的时间序列 代表是步骤(2-2)迭代得到的序列;

利用新的时间序列拟合得到经过一次修正后的时间序列模型;

此时根据式(5)和式(8)重新估计时间序列参数 并得到经过一次修正后的时间序列模型残差

其中

其中, 表示经过一次修正后的时间序列模型残差, 表示经过一次修正的残差的影响算子, 表示经过一次修正的时间序列, 表示噪声点AO或IO的影响因子,表示噪声点AO或IO的修正因子, 表示阶跃函数。

6.如权利要求5所述的基于时间序列分析的输变电设备的状态监测数据清洗方法,其特征是,所述步骤(3)的步骤为:找出是否有新的噪声点出现,直到所有的噪声点都被识别出;在最后一次迭代后,针对修正了噪声点的时间序列 进行联合估计,得到最终的时间序列模型:式(22)中,各参数 是在最后一次迭代中得到的;

其中, 表示经过多次修正后最终的时间序列, 表示噪声点AO或IO的影响因子,表示噪声点AO或IO的修正因子, 表示阶跃函数, 表示最终拟合的可逆算子,表示最终拟合的平稳算子,at表示最终的残差;

至此,针对输变电设备状态数据的数据清洗完成,清洗后的序列为 清洗后的序列即为修正了噪声点的时间序列。

说明书 :

基于时间序列分析的输变电设备的状态监测数据清洗方法

技术领域

[0001] 本发明涉及基于时间序列分析的输变电设备的状态监测数据清洗方法。

背景技术

[0002] 对设备在线监测、带电检测、离线试验等设备全景状态信息进行全方位分析,提升输变电设备评价与异常诊断的准确性是设备状态评估诊断技术的发展趋势。输变电设备全景状态信息呈现来源多、信息异构、数量庞大、属性繁多等特点,其数据往往是不完整的、有噪声的和不一致的。状态量原始的数据质量往往不能满足后续状态评价模型的要求,因此在状态评估或诊断分析之前进行数据清洗是必不可少的。数据清洗通过填充缺失值、平滑噪声数据和识别离群点来提高数据质量,有助于提高数据挖掘过程的准确率和效率。
[0003] 在输变电设备数据清洗方面,国内外现有的研究较少。文献《基于贝叶斯网络分类器的变压器综合故障诊断方法》在建立故障与信息的映射关系时将海量数据通过粗糙集信息熵的方法进行了约简,从而解决了数据缺失的问题,但是破坏了数据自身信息的完整性。
[0004] 文献《A Kernel Fuzzy c-Means Clustering-Based Fuzzy Support Vector Machine Algorithm for Classification Problems with Outliers or Noises》和《FSVM-CIL:Fuzzy Support Vector Machines for Class Imbalanced Learning》在处理支持向量机训练集的噪声和异常数据时使用了模型C均值聚类方法,通过计算数据到聚类中心的距离来分离出噪声数据。但是这种聚类方法将分离出的噪声数据直接剔除,破坏了状态量数据链的连续性。以上研究在数据清洗过程中都丢弃了造成了数据的丢失,不利于在后续状态评估中对数据本身信息的挖掘。

发明内容

[0005] 本发明的目的就是为了解决上述问题,提供一种基于时间序列分析的输变电设备的状态监测数据清洗方法,它具有清洗效率高、保持了数据的完整性、避免数据有用信息丢失的优点。
[0006] 为了实现上述目的,本发明采用如下技术方案:
[0007] 基于时间序列分析的输变电设备的状态监测数据清洗方法,步骤如下:
[0008] 步骤(1):建立输变电设备状态数据的初始时间序列模型,通过初始时间序列模型估计初始拟合的残差序列和残差方差;
[0009] 步骤(2):
[0010] 步骤(2-1):利用步骤(1)的初始时间序列模型,计算每个观测点的检验统计量;
[0011] 步骤(2-2):判断检验统计量的绝对值的最大值是否大于设定阈值,如果大于,则确定存在对初始时间序列模型拟合影响的噪声点,通过修正时间序列数据来修正噪声点,通过返回步骤(2)继续识别并修正时间序列所有的噪声点,然后进入步骤(2-3);如果小于就进入步骤(2-3);
[0012] 步骤(2-3):拟合修正后的时间序列模型,估计修正后的时间序列模型的模型残差;
[0013] 步骤(3):通过步骤(2-3)中修正后的时间序列模型的模型残差计算每个观测点的检验统计量,根据检验统计量的绝对值的最大值是否大于设定阈值来判断是否存在新的噪声点,直到所有的噪声点都被识别出,如果存在就返回步骤(2),如果不存在就结束。
[0014] 所述步骤(1)的步骤为:
[0015] 对观测序列Zt建立时间序列模型,
[0016] 设Zt是单个状态量的无异常值的时间序列,Zt服从ARIMA(p,d,q)模型,表示为[0017]
[0018]
[0019]
[0020] 其中,p,q,d为时间序列ARIMA(p,d,q)模型的阶数, 为初始拟合的平稳算子,是 中相应的参数, 为初始拟合的可逆算子, 是 中相应的参数,et是不含噪声点的序列初始拟合的残差序列,B表示延迟算子,BdZt=Zt-d,Bd表示延迟d个时刻的延迟算子,Zt表示时刻t的观测值,Zt-d表示时刻t-d的观测值, 是一个表示t时刻与t-d时刻的观测值间的差值的算子,
[0021] 并由所建立的时间序列模型计算初始拟合的残差序列,即:
[0022]
[0023] 式(8)中, 为含噪声点的序列初始拟合的残差序列, 为表征残差影响的算子, 为 相应的参数,n为残差序列长度,n≥1。
[0024] 所述 的定义如(9)所示:
[0025]
[0026] 其中, 表示表征滞后n个时刻的残差影响的算子;
[0027] 所述步骤(1)的残差方差的初始估计为:
[0028]
[0029] 其中, 表示残差方差,n表示残差序列的长度,n≥1, 的参数含义是残差值的平方。
[0030] 所述步骤(2-1)的步骤为:
[0031] 利用步骤(1)的初始时间序列模型,计算每个观测点的检验统计量步骤为:利用步骤(1)的初始时间序列模型,对t=1,2,…,n,计算每个观测点的检验统计量 和检验统计量 所述检验统计量 和检验统计量 的计算公式如下:
[0032]
[0033]
[0034] 式(11)、(12)中:t=1,2,,n表示噪声点产生的时刻;σa为含噪声点的残差 的标准差;所述检验统计量 和检验统计量 的极限分布均为标准正态分布,服从t分布; 表示加性异常值的影响, 表示新息异常值的影响;
[0035] 所述步骤(2-2)的步骤为:
[0036] 将噪声点的种类分为加性异常值(Additive Outliers,AO)和新息异常值(Innovational Outliers,IO),缺失值被认为是加性异常值。
[0037] 定义 λT表示检验统计量 和检验统计量 的最大值,T为最大值发生的时刻;
[0038] 当 时,其中C是设定阈值,确定在时刻T存在加性异常值(Additive Outliers,AO),加性异常值AO对模型拟合的影响 通过式(13)求得;
[0039]
[0040] 其中,eT表示时刻T处的残差,eT+j表示时刻T+j处的残差,πj表示时刻j处残差影响的算子。
[0041]
[0042] 其中, 表示新息异常值的影响,eT表示时刻T处的残差;
[0043] 对于加性异常值,通过式(15)修正初始时间序列数据,得到新的时间序列[0044]
[0045] 其中, 表示经过一次修正的时间序列,Zt表示初始时间序列,ωAO表示加性异常值的影响, 表示阶跃函数;
[0046] 并由式(16)修正后的残差
[0047]
[0048] 其中,表示经过一次修正的残差,表示初始残差, 表示残差影响的算子,表示阶跃函数。
[0049] 式(15)和式(16)中 的定义如式(17)所示:
[0050]
[0051] 其中, 表示阶跃函数,t表示时间,T表示阶跃函数值由0转为1的时刻;
[0052] 当 时,确定在时刻T存在新息异常值(Innovational Outliers,IO),其对初始时间序列模型拟合的影响 通过式(14)求得,利用式(18)修正数据,则IO的影响能够消除,即
[0053]
[0054] 其中, 表示经过一次修正的时间序列,Zt表示初始时间序列, 表示阶跃函数,为初始拟合的平稳算子, 为初始拟合的可逆算子;B表示延迟算子,BdZt=Zt-d,Bd表示延迟d个时刻的延迟算子,Zt表示时刻t的观测值,Zt-d表示时刻t-d的观测值, 是一个表示t时刻与t-d时刻的观测值间的差值的算子,
[0055] 由式(19)修正后的残差:
[0056]
[0057] 其中,表示经过一次修正的残差,表示初始残差;
[0058] 使用迭代的方法识别并修正时间序列所有的噪声点。在修正后的残差 和残差标准差 的基础上再次计算每个观测点的检验统计量 和检验统计量 并重复步骤(2-2),直到所有的噪声点都被识别出来。
[0059] 所述步骤(2-3)的步骤为:
[0060] 假设有k个异常数据在时刻T1 ,T2,...,Tk被识别出,其影响分别为同时异常数据被修正而得到了新的时间序列 代表是步骤(2-2)迭代得到的序列;
[0061] 利用新的时间序列拟合得到经过一次修正后的时间序列模型;
[0062] 此时根据式(5)和式(8)重新估计时间序列参数 并得到经过一次修正后的时间序列模型残差
[0063]
[0064] 其中
[0065]
[0066] 其中, 表示经过一次修正后的时间序列模型残差, 表示经过一次修正的残差的影响算子, 表示经过一次修正的时间序列, 表示噪声点AO或IO的影响因子,表示噪声点AO或IO的修正因子, 表示阶跃函数。
[0067] 所述步骤(3)的步骤为:
[0068] 找出是否有新的噪声点出现,直到所有的噪声点都被识别出;在最后一次迭代后,针对修正了噪声点的时间序列 进行联合估计,得到最终的时间序列模型:
[0069]
[0070] 式(22)中,各参数 是在最后一次迭代中得到的;
[0071] 其中, 表示经过多次修正后最终的时间序列, 表示噪声点AO或IO的影响因子, 表示噪声点AO或IO的修正因子, 表示阶跃函数, 表示最终拟合的可逆算子, 表示最终拟合的平稳算子,at表示最终的残差;
[0072] 至此,针对输变电设备状态数据的数据清洗完成,清洗后的序列为 清洗后的序列即为修正了噪声点的时间序列。
[0073] 本发明的有益效果:
[0074] 1相比于传统的删除噪声点,本方法清洗出的数据是不带有噪声点和缺失值的数据,从而避免了时间序列中有用信息的丢失,更能有效地反映原始时间序列的动态变化,适应输变电设备状态数据的特点。
[0075] 2本方法主要用于清洗输变电设备状态数据。在输变电设备的状态数据序列中噪声点是指由于仪器异常或设备系统的扰动引起的严重偏离期望值的数据,这些数据不仅会影响模型拟合的精度,而且会导致后续状态评估出现偏差,引起误诊。缺失值是指由于传感器的短时失效、通信端口异常、记录失误等因素引起的数据中断,状态数据中存在的缺失值破坏了系统运行的连续性,不利于后续的状态评估和趋势检验。通过本方法清洗后的输变电设备状态数据是有效的,能够为后续的设备状态评估、风险评估、故障预警等提供有力的数据支撑。
[0076] 3本方法的时间序列模型充分结合了输变电设备状态数据的特点,能够确保清洗的效率和清洗后数据的可用性。输变电设备状态量的检测是由各个传感器来完成的,但是经过底层的预处理而上传到数据库进行状态评估的原始数据可以认为是按时间序列排列的特征量数据,因此本方法的时间序列模型具有很强的适用性。
[0077] 4对输变电设备的状态数据,设备状态信息获取方式的多样性及采集间隔的不确定性使得各状态量时间序列的参数是未知的、异常数据产生的时刻T是不确定的,针对噪声点出现时刻与个数未知、预先没有模型参数的情况,本方法能识别出噪声点的产生时刻,并反复修正噪声点,清洗后的序列与正常序列较为相近。

附图说明

[0078] 图1为数据清洗流程图;
[0079] 图2为原始数据和含有异常值的数据;
[0080] 图3为原始数据和初始拟合残差序列;
[0081] 图4为原始数据、最终拟合的数据和最终拟合残差序列。

具体实施方式

[0082] 下面结合附图与实施例对本发明作进一步说明。
[0083] 本发明的原理是利用时间序列模型识别各状态量的时间序列,根据序列中噪声点的种类选择不同的修正公式,从而达到修正噪声点数据和填补缺失值的目的,完成对状态量的数据清洗。该方法既能识别出数据中的噪声点和缺失值,又能在分离噪声的过程中噪声点数值进行修正。其总体流程如图1所示。
[0084] 输变电设备状态量的检测是由各个传感器来完成的,但是经过底层的预处理而上传到数据库进行状态评估的原始数据可以认为是按时间序列排列的特征量数据。这些数据的统一格式为“时间.特征量=数值”,因此可认为采集的所有状态量形成了一个单元或多元的连续而完整的时间序列,如矩阵X所示:
[0085]
[0086] 式中,Xmn代表在时刻Tn状态量m的数值。
[0087] 设Xt是单个状态量的无异常值的时间序列,Xt服从ARIMA(p,d,q)模型,可表示为[0088]
[0089] θ(B)=1-θ1B-θ2B2-...-θqBq  (3)
[0090]
[0091] 以上式中:θ(B)和 是没有公共因子的平稳和可逆算子,at是相互独立,具有相同分布 的白噪声序列, 表示延迟算子,BXt=Xt-1,BqXt=Xt-q。
[0092] 设Zt是单个状态量的无异常值的时间序列,Zt服从ARIMA(p,d,q)模型,可表示为[0093]
[0094]
[0095]
[0096] 以上式中: 和 是没有公共因子的平稳和可逆算子,et是不含噪声点的序列初始拟合的残差序列, 与(2)中定义相同。
[0097] 设备状态信息获取方式的多样性,采集间隔的不确定性使得各状态量时间序列的参数是未知的、异常数据产生的时刻T是不确定的,因此时间序列模型的搭建、模型参数估计、异常数据类型识别是必不可少的数据清洗步骤。由于异常数据的存在将使时间序列参数的估计产生偏差,因此针对噪声点出现时刻与个数未知,预先没有模型参数的情况下,对观测的时间序列进行反复的拟合与修正,从而达到数据清洗的目的,其整体流程如图1所示。
[0098] 其中C是预先确定的正常数,通常取3和4之间的值。
[0099] 南网某输电线路采集的导线温度数据如图2中实线所示,该时间序列不存在噪声点和缺失值。为了检验本文数据清洗方法的实用性,将原来的观测时刻t=140的数值剔除(成为缺失点),观测时刻t=26和t=49分别加入一个AO和IO异常值,从而生成了一个带清洗的时间序列Zt,如图2虚线所示。
[0100] 首先根据发明内容中所述步骤S1建立导线温度数据的时间序列ARMA模型,如下所示。
[0101]
[0102] 然后根据步骤S2确立数据清洗的总体流程,根据发明内容中所述步骤S3中的内容对时间序列Zt进行数据清洗,其具体如下:
[0103] 步骤一:首先对时间序列Z拟合ARMA模型,得到初始拟合残差序列:
[0104] et=(1-0.914B)(1-B12)Zt
[0105] 初始拟合残差序列如图3中黄线部分所示,初步推断可能存在多个异常值。
[0106] 步骤二:计算每个观测点的检验统计量TAO和TIO,逐次迭代直到所有的噪声点都被检验出来,结果如表1所示:
[0107] 表1检验出的异常值类型
[0108]
[0109] 因此,考虑如下的修正模型:
[0110]
[0111] 根据表中的拟合影响对时间序列的噪声点和缺失值数值进行修正,同时根据前式对修正后的时间序列重新估计其参数,得到第一次修正后的时间序列及残差图如图3所示:
[0112] 步骤三:根据图3中的残差可以判断原数据的噪声点和缺失值全部被检验出来。但由于噪声点对于观测时刻的数值拟合残差过大,不符合AIC检验,因此需要返回外循环进行迭代计算,进一步修正时间序列,以提高数据清洗质量。
[0113] 表2逐步拟合结果
[0114]
[0115] 步骤四:在通过2次外循环的迭代之后,得到最终清洗后的时间序列,如图4虚线所示,与原始数据基本符合。
[0116] 从图4可以看出,虽然清洗后的时间序列与原始时间序列在异常值发生时刻附近存在偏差,但是偏差都在5%以下,不影响后续的状态评估,属于可接受的范畴。
[0117] 因此可以得出结论,本发明利用模型拟合残差的迭代检验法来检验出输变电设备状态数据中的噪声点和缺失值,并能在迭代过程中对异常数据进行修正。相比于传统的删除噪声点,本发明清洗出的数据是不带有噪声点和缺失值的数据,从而避免了时间序列中有用信息的丢失。
[0118] 上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。