风电机组异常数据清洗方法转让专利

申请号 : CN201910361399.9

文献号 : CN110134919B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘永前王宏钧李莉韩爽阎洁王其乐朱志成

申请人 : 华北电力大学中能电力科技开发有限公司

摘要 :

本发明属于数据分析与处理技术领域,尤其涉及一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,包括:风电机组运行数据预处理;采用最优组内方差法剔除限电区域的数据;采用二维概率密度估计法剔除密度稀疏的异常值;通过上下边界线获取正常运行数据。采用最优组内方差和二维概率密度估计结合的方案,既解决了最优组内方差清洗堆积数据会遗留下离散的数据的问题,又解决了二维概率密度估计无法排除高密度限电数据的问题,整体上提高了数据清洗运行工况的适应性。

权利要求 :

1.一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,其特征在于,包括:步骤1:风电机组运行数据预处理;

步骤2:采用最优组内方差法剔除限电区域的数据;

步骤3:采用二维概率密度估计法剔除密度稀疏的异常值;

步骤4:通过上下边界线获取正常运行数据;

所述预处理包括:删除机组故障、停机或传感器故障条件下风速和功率数值超范围的原始运行数据;

所述步骤2具体包括:将数据集分为n个风速区间,对每个风速区间内的风速功率组按功率降序排序,并对功率集合做滑动方差得到滑差向量,保留比全局阈值小的元素来作为新的风速功率组;

所述步骤3具体包括:对所述步骤2中新的风速功率组进行归一化处理,然后进行非参数二维核密度估计,应用网格法得到概率密度矩阵;保留概率密度矩阵中小于密度阈值的元素,得到新的概率密度矩阵,并按功率从小到大顺序排序,第一个非零元素作为下边界点,最后一个非零元素作为上边界点,连接所有下边界点和上边界点即可分别获得下、上边界线。

2.根据权利要求1所述风电机组异常数据清洗方法,其特征在于,所述步骤4具体包括:对风速功率组的上下边界线进行反归一化,得到实际坐标的上下边界线;保留边界线内的原始数据,删除边界线以外的数据,从而筛选出正常风速功率数据。

说明书 :

风电机组异常数据清洗方法

技术领域

[0001] 本发明属于数据分析与处理技术领域,尤其涉及一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法。

背景技术

[0002] 风电机组功率曲线是反映其性能的最重要特性。标准功率曲线是在标准条件下测试获得,而风电机组的实际运行条件非常复杂,多数偏离标准测试条件。为了获得准确的风电机组的实际运行功率曲线,必须对这些运行数据进行清洗,剔除不符合条件的数据。因此,风电机组运行数据的清洗是风电大数据分析的核心技术之一。
[0003] 海量的风电机组运行数据中存在大量的低于机组设计功率的运行数据,称之为降功率数据。其产生原因可能是:人工限负荷、机组健康状态引起的性能降级、传感器失灵、控制系统故障等。目前风电机组运行数据的清洗方法主要有方差阈值、方差变化率和基于概率密度的聚类等。方差阈值和方差变化率对堆积型限电数据清洗效果好,但会遗漏一些低密度稀疏数据;基于密度的聚类对于低密度的稀疏数据清洗效果好,但无法排除高密度限电数据。当前风电机组运行数据清洗技术的主要缺陷是运行工况适应性差。

发明内容

[0004] 针对上述问题,本发明提出了一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,包括:
[0005] 步骤1:风电机组运行数据预处理;
[0006] 步骤2:采用最优组内方差法剔除限电区域的数据;
[0007] 步骤3:采用二维概率密度估计法剔除密度稀疏的异常值;
[0008] 步骤4:通过上下边界线获取正常运行数据。
[0009] 所述预处理包括:删除机组故障、停机或传感器故障条件下风速和功率数值超范围的原始运行数据。
[0010] 所述步骤2具体包括:将数据集分为n个风速区间,对每个风速区间内的风速功率组按功率降序排序,并对功率集合做滑动方差得到滑差向量,保留比全局阈值小的元素来作为新的风速功率组。
[0011] 所述步骤3具体包括:对所述步骤2中新的风速功率组进行归一化处理,然后进行非参数二维核密度估计,应用网格法得到概率密度矩阵;保留概率密度矩阵中小于密度阈值的元素,得到新的概率密度矩阵,并按功率从小到大顺序排序,第一个非零元素作为下边界点,最后一个非零元素作为上边界点,连接所有下边界点和上边界点即可分别获得下、上边界线。
[0012] 所述步骤4具体包括:对风速功率组的上下边界线进行反归一化,得到实际坐标的上下边界线;保留边界线内的原始数据,删除边界线以外的数据,从而筛选出正常风速功率数据。
[0013] 本发明的有益效果:本发明采用最优组内方差和二维概率密度估计结合的方案,既解决了最优组内方差清洗堆积数据会遗留下离散的数据的问题,又解决了二维概率密度估计无法排除高密度限电数据的问题,整体上提高了数据清洗运行工况的适应性。本发明只需对风速和功率二维数据进行分析,不仅降低了传统方法对多维数据的依赖性,而且可以准确辨识出风电机组的运行状态,具有较强的通用性。

附图说明

[0014] 图1为未经处理的风速功率原始数据。
[0015] 图2为使用最优组内方差进行处理后的数据。
[0016] 图3为使用二维概率密度清洗后的风速功率密度矩阵。
[0017] 图4为优化后的风速功率概率密度矩阵。
[0018] 图5为由风速功率密度矩阵确定的上下边界线。
[0019] 图6为经上下边界线筛选出正常运行数据。
[0020] 图7为原始数据分离结果。
[0021] 图8为密度矩阵的缺失导致上下边界畸形。
[0022] 图9为本发明的方法流程图。

具体实施方式

[0023] 下面结合附图,对实施例作详细说明。
[0024] 本发明提出了一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,如图9所示,包括:
[0025] 步骤1:风电机组运行数据预处理;
[0026] 步骤2:采用最优组内方差法剔除限电区域的数据;
[0027] 步骤3:采用二维概率密度估计法剔除密度稀疏的异常值;
[0028] 步骤4:通过上下边界线获取正常运行数据。
[0029] 1)数据预处理。
[0030] 原始数据中存在很多停机、故障、传感器失灵等原因造成的异常数据甚至是空数据,即,风速大于切出风速或小于0的,功率小于0的。如图1所示。先删除这些数据,保证数据有效性,得到风速功率数据集X。
[0031] 2)使用最优组内方差法剔除高密度限电区域。
[0032] 按照T=0.25m/s的风速区间将步骤1的数据集X分为100个区间,即,X={X1,X2...X100}。以第33个风速区间内有827个风速功率组为例。把这些风速功率组按照功率降序排序,得到X33={(v1,p1),(v2,p2),...(v827,p827)},其中p1>p2>…>p827。
[0033] 然后依次对滑动功率组[p1]、[p1,p2]、[p1,p2,p3]…[p1,p2…p827]求方差,得到第33个风速区间的方差向量 设置全局阈值Si=4900,令S33中大于Si的元素置零,得到 其中S33中非零元素为698个,过程如表1所示。
[0034] 然后对该风速区间的风速功率组进行处理:X33中保留前698个风速功率组。即X33={(v1,p1),(v2,p2),…,(v698,p698)}。
[0035] 同理可得所有风速区间的风速功率组vp={X1,X2,...,X100}。结果如图2所示。
[0036]
[0037] 表1第33个风速区间按功率大小排列的风速功率组
[0038] 3)使用二维概率密度估计法对密度稀疏的异常值进行清洗。
[0039] ①对vp先进行归一化处理,然后对其进行二维核密度估计。对于风速功率组,其二维概率密度函数表示为:
[0040]
[0041] 式中hv和hp分别为风速和功率的窗宽;n为样本数;Kv(·)和Kp(·)分别为风速和功率的核函数,这里我们取高斯核函数。结果如图3所示。
[0042] ②由核密度估计得到概率密度矩阵density。设定密度阈值D,density中小于D的元素,全部置为零。得到新的概率密度矩阵Den。
[0043] ③由于存在正常数据的概率密度低于阈值的情况,尤其在额定风速以后的区域,如果直接求边界线可能会导致密度矩阵的上下边界线产生畸变,如图8。因此需要对额定风速后的密度矩阵进行优化(额定风速到切出风速之间补充密度值),尽量使其边界线连续,从而达到优化边界线的目的。得到den矩阵。如图4。
[0044] ④在den中每个风速区间内按照功率从小到大的顺序,第一个非零元素作为下边界点,最后一个非零元素作为上边界点,连接这些点即可获得上下边界线,Upperline和Lowerline。如图5。
[0045] 4)获取风电机组正常运行数据
[0046] 对风速功率组的上下边界线进行反归一化,得到实际坐标的上下边界线。保留边界线内的原始数据,删除边界线以外的数据,从而筛选出正常风速功率数据。如图6~7所示。
[0047] 此实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。