一种风电机组健康状态实时评估方法转让专利

申请号 : CN201610834211.4

文献号 : CN106446540B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李刚张建付刘丽郭晓红于长海宋雨

申请人 : 华北电力大学(保定)

摘要 :

一种风电机组健康状态实时评估方法,所述方法首先基于风电机组历史运行数据,运用聚类技术实现风电机组运行工况的划分,并计算每种工况下的风电机组标准状态云模型;然后采用流式聚类算法对风电机组的实时数据流进行工况辨识,并计算机组实时状态的云模型;之后计算实时状态的云模型与标准状态云模型的偏离值并将其作为风电机组的健康指数;最后根据健康指数的大小对风电机组的健康状态进行评估。本发明利用云模型来描述风电机组的运行状态,并引入时间窗的方法来获取风电机组健康状态及发展趋势,该方法充分考虑了风电机组状态监测信息的不确定性,大大提高了评估结果的准确性,可为制定风电机组维护计划提供有力支撑。

权利要求 :

1.一种风电机组健康状态实时评估方法,其特征是,所述方法首先基于风电机组历史运行数据,运用聚类技术实现风电机组运行工况的划分,并计算每种工况下的风电机组标准状态云模型;然后采用流式聚类算法对风电机组的实时数据流进行工况辨识,并计算机组实时状态的云模型;之后计算实时状态的云模型与标准状态云模型的偏离值并将其作为风电机组的健康指数;最后根据健康指数的大小对风电机组的健康状态进行评估;

具体评估步骤如下:

a.采用主成分分析方法从风电机组监测参数中选取出工况特征参数,建立工况特征集X(x1,x2,……,xn),xi表示第i个特征参数,i=1,2,…n,n表示特征参数总数;采用聚类算法hc将风电机组的工况空间O聚类成m个运行工况子空间,即O=fO(X)=(o1,o2…oi…om),oi表示第i运行工况空间,将O作为风电机组的标准运行工况空间;

b.对于每种标准工况下的风电机组状态数据,利用云变换的方法得出综合云a表示在第1个运行工况空间下用云变换方法获得的a个云模型,b表示第i个运行工况空间下用云变换方法获得的b个云模型,c表示第m个运行工况空间下用云变换方法获得的c个云模型,则G0可描述每种工况下的风电机组的标准状态;

c.基于Spark采用流式聚类算法对风电机组的实时数据流进行聚类:首先基于时间滑动窗口将数据流按照时间进行分割,形成离散数据流,并将每段数据都转换成一系列的弹性分布数据集缓存在内存中,然后对每段数据用map计算每片数据中所有样本点到聚类中心的距离并归类,再用reduce更新聚类中心,重复上述过程直到完成聚类,定义时间滑动窗口内微簇的结构为CF=[N,LS,SS,CS,BS,t,tl],其中N为该微簇中包含数据点的个数,LS为数据元素属性线性和,SS为数据元素的平方和,CS为数据元素的立方和,BS为数据元素的四次方和,t是微簇生成时间,tl为微簇最后更新时间;

d.在当前时间滑动窗口内,采用下面的方法计算每个微簇的云模型参数:期望Ex:

二阶中心矩:

四阶中心矩;:

云模型的两个参数En和He按下式计算:

e.将每一个云模型视为高斯云变换中的一个概念,将概念之间的交叠程度定义为概念含混度:CD=He/En

其中CD为概念含混度,En表示熵,He表示超熵,计算云模型之间的概念含混度,若两个云模型之间的概念含混度超过设定值,则采用以下方法将二者合并:机组当前的状态用综合云G'来表示:

其中q为机组运行工况个数, 表示第i个工况下用云变换的方法获得的e个云模型,i=1,2,…q,d和f分别表示第1和第q个运行工况下用云变换方法获得云模型个数;

给定两个云模型C1(Ex1,En1,He1),C2(Ex2,En2,He2),令合并后的云模型为C(Ex,En,He),则有:En=En'1+En'2

其中,En'1和En'2的计算方法如下:

设MECc1(x)和MECc2(x)分别是云模型C1和C2的期望曲线,并令则有

其中,U是一个用精确数值表示的定量论域;

云模型C(Ex,En,He)的期望曲线为

f.计算风电机组的健康指数H:

首先计算风电机组当前状态与标准状态的偏离度h:

式中,ωi为第i个云模型的权重系数,ωj为第j个运行工况的权重系数,x0k为第j个运行工况下表示机组标准状态的第k个云滴,xik为第j个运行工况下表示机组当前状态的第k个云滴,n′为第j个运行工况获得的云模型总个数,s为最近一段时间机组运行工况总数,r为总的云滴个数;

风电机组的健康指数H为:

Ht=αHt-1+(1-α)ht

式中:α用于平衡当前健康指数的观察值和历史观察值之间的关系;Ht:表示t时刻风电机组的健康指数;Ht-1:表示t时刻的上一个时刻t-1的风电机组健康指数;ht:表示t时刻风电机组状态与标准状态的偏离度;

g.根据健康指数的大小对风电机组的健康状态进行评估:健康指数为1时,机组处于完全健康状态,随着机组健康指数的减小,机组的健康状况逐渐恶化。

2.根据权利要求1所述的风电机组健康状态实时评估方法,其特征是,为防止时间滑动窗口内的微簇不断增多,每隔一个固定的时间间隔对微簇进行维护,具体操作为:首先计算每两个微簇之间的距离D2,如果D2小于设置的阈值,则对其进行合并,微簇CF1=(N1,LS1,SS1,CS1,BS1)与CF2=(N2,LS2,SS2,CS2,BS2)间的距离:式中,xi和xj分别表示两个不同的微簇中第i和第j个观察值;

合并方法:

CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2,CS1+CS2,BS1+BS2)。

3.根据权利要求2所述的风电机组健康状态实时评估方法,其特征是,对风电机组的健康状态进行评估时,将风电机组的状态分为五种,分别为健康状态、良好状态、警示状态、恶化状态和严重状态,五种状态的健康指数区间依次为:g1[1,a),g2[a,b),g3[b,c),g4[c,d),g5[d,e)。

说明书 :

一种风电机组健康状态实时评估方法

技术领域

[0001] 本发明涉及一种计及信息不确定性的风电机组健康状态实时评估方法,属于发电技术领域。

背景技术

[0002] 随着电力大数据时代的到来,大量高速实时数据流变得越来越常见,大数据分析技术(如分布式计算技术、内存计算技术和流处理技术)为电力工业的发展提供了更为稳定、强大的数据分析能力。当前数据流分析领域的研究主要集中在对数据流的关联分析、聚类分析、分类与频繁项挖掘等方面。有效的动态数据流为监控对象的健康状态评估提供了丰富的状态信息和决策支持信息,但是与传统的分析方法不同,基于实时数据流的分析方法对算法执行效率有更高的要求。因此,研究风电机组监测数据流的实时处理方法对风力发电设备的稳定性、安全性,以及将风电机组的维护策略由传统的异常状态监测转变为健康管理具有重要意义。
[0003] 传统的设备健康评估方法研究取得了较多的成果,诸如模糊综合评判法、灰色理论、灰色聚类方法、贝叶斯网络方法等。但这些方法都是建立在静态数据集的基础之上的,即使有实时评估,也是建立在小规模数据的基础之上,当风电机组状态监测数据流连续、高速到达时,这些方法将被迫舍弃很多信息以尽可能实现快速处理,其结果是以降低算法的精确性为代价,因此,传统的方法不适合处理实时数据流。此外,现有的方法一般都是基于模糊理论的方法,仅仅考虑到了信息不确性中的模糊性,而未考虑到信息的随机性。而风电机组运行工况复杂多变,且受到风速的不确定性、风电转换中的不确定性、风机系统内部和外部不确定性的影响,因而致使其健康状态也具有不确定性特征。
[0004] 总之,现有方法的不足之处主要表现在两个方面:(1)在连续实时数据流环境下,健康状态评估难以实施,致使评估的精确性不高;(2)未能充分考虑信息的不确定性对设备健康评估的影响。

发明内容

[0005] 本发明的目的在于针对现有技术之弊端,提供一种运行效率高且充分考虑信息不确定性的风电机组健康状态实时评估方法,以提高评估结果的精确性。
[0006] 本发明所述问题是以下述技术方案解决的:
[0007] 一种风电机组健康状态实时评估方法,所述方法首先基于风电机组历史运行数据,运用聚类技术实现风电机组运行工况的划分,并计算每种工况下的风电机组标准状态云模型;然后采用流式聚类算法对风电机组的实时数据流进行工况辨识,并计算机组实时状态的云模型;之后计算实时状态的云模型与标准状态云模型的偏离值并将其作为风电机组的健康指数;最后根据健康指数的大小对风电机组的健康状态进行评估。
[0008] 上述风电机组健康状态实时评估方法,所述方法按以下步骤进行:
[0009] a.采用主成分分析方法从风电机组监测参数中选取出工况特征参数,建立工况特征集X(x1,x2,…,xn),xi表示第i个特征参数,i=1,2,…n,n表示特征参数总数,采用聚类算法hc将风电机组的工况空间O聚类成m个运行工况子空间,即O=fO(X)=(o1,o2…oi…om),oi表示第i运行工况空间,将O作为风电机组的标准运行工况空间;
[0010] b.对于每种标准工况下的风电机组正常状态数据,利用云变换的方法得出综合云a表示在第1个运行工况空间下用云变换方法获得的a个云模型,b表示第i个运行工况空间下用云变换方法获得的b个云模型,c表示第m个运行工况空间下用云变换方法获得的c个云模型,则G0描述每种工况下的风电机组的标准状态;
[0011] c.基于Spark采用流式聚类算法对风电机组的实时数据流进行聚类:
[0012] 首先基于时间滑动窗口将数据流按照时间进行分割,形成离散数据流,并将每段数据都转换成一系列的弹性分布数据集(Resilient Distributed Dataset,RDD)(作为Spark架构的核心机制,是一种基于分布式内存的并行数据结构,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现)缓存在内存中,然后对每段数据用map计算每片数据中所有样本点到聚类中心的距离并归类,再用reduce更新聚类中心,重复上述过程直到完成聚类,定义时间滑动窗口内微簇的结构为CF=[N,LS,SS,CS,BS,t,tl],其中N为该微簇中包含数据点的个数,LS为数据元素属性线性和,SS为数据元素的平方和,CS为数据元素的立方和,BS为数据元素的四次方和,t是微簇生成时间,tl为微簇最后更新时间;
[0013] d.在当前时间滑动窗口内,采用下面的方法计算每个微簇的云模型参数:
[0014] 期望Ex:
[0015]
[0016] 二阶中心矩:
[0017]
[0018] 四阶中心矩:
[0019]
[0020] 云模型的两个参数En和He按下式计算:
[0021]
[0022]
[0023] e.将每一个云模型视为高斯云变换中的一个概念,将概念之间的交叠程度定义为概念含混度:
[0024] CD=He/En,
[0025] 其中CD为概念含混度,En表示熵,He表示超熵,计算云模型之间的概念含混度,若两个云模型之间的概念含混度超过设定值,则采用以下方法将二者合并:
[0026] 机组当前的状态用综合云G'来表示:
[0027]
[0028] 其中q为机组运行工况个数, 表示第i个工况下用云变换的方法获得的e个云模型,i=1,2,…q,其中q为运行工况个数,d和f分别表示第1和第q个运行工况下用云变换方法获得云模型个数。
[0029] 给定两个云模型C1(Ex1,En1,He1),C2(Ex2,En2,He2),令合并后的云模型为C(Ex,En,He),则有:
[0030]
[0031] En=En'1+En'2
[0032]
[0033] 其中,En'1和En'2的计算方法如下:
[0034] 设MECc1(x)和MECc2(x)分别是云模型C1和C2的期望曲线,并令
[0035]
[0036]
[0037] 则有
[0038]
[0039]
[0040] 云模型C(Ex,En,He)的期望曲线为
[0041]
[0042] f.计算风电机组的健康指数H:
[0043] 首先计算某个运行工况下风电机组当前状态与标准状态的偏离度h:
[0044]
[0045] 式中,ωi为第i个云模型的权重系数,ωj为第j个运行工况的权重系数,x0k为第j个运行工况下表示机组标准状态的第k个云滴,xik为第j个运行工况下表示机组当前状态的第k个云滴,n′为第j个运行工况获得的云模型总个数,s为最近一段时间机组运行工况总数,r为总的云滴个数。
[0046] 风电机组的健康指数H为:
[0047] Ht=αHt-1+(1-α)ht
[0048] 式中:α用于平衡当前健康指数的观察值和历史观察值之间的关系,当α偏大时,健康指数H受历史值的影响较大而受新产生的数据影响较小,使得健康指数H变化更平稳,当α偏小时则相反,本文取α=0.25;
[0049] g.根据健康指数的大小对风电机组的健康状态进行评估:
[0050] 健康指数为1时,机组处于完全健康状态,随着机组健康指数的减小,机组的健康状况逐渐恶化。
[0051] 上述风电机组健康状态实时评估方法,为防止时间滑动窗口内的微簇不断增多,每隔一个固定的时间间隔对微簇进行维护,具体操作为:首先计算每两个微簇之间的距离D2,如果D2小于设置的阈值,则对其进行合并,
[0052] 微簇CF1=(N1,LS1,SS1,CS1,BS1)与CF2=(N2,LS2,SS2,CS2,BS2)间的距离:
[0053]
[0054] 式中,xi和xj分别表示两个不同的微簇中第i和第j个观察值。
[0055] 合并方法:
[0056] CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2,CS1+CS2,BS1+BS2)。
[0057] 上述风电机组健康状态实时评估方法,对风电机组的健康状态进行评估时,将风电机组的状态分为五种,分别为健康状态、良好状态、警示状态、恶化状态和严重状态,五种状态的健康指数区间依次为:g1[1,a),g2[a,b),g3[b,c),g4[c,d),g5[d,e)。
[0058] 本发明利用云模型来描述风电机组的运行状态,并引入时间窗的方法来获取风电机组健康状态及发展趋势。通常情况下,由于风电机组系统结构、运行过程以及外界化境的复杂性,获取风电机组状态信息过程中存在着诸多的不确定性,严重影响着风电机组自身状态的不确定性,所述方法充分考虑了风电机组状态监测信息的不确定性,使得评估过程和评估结果更合理,可为制定风电机组维护计划提供有力支撑。

附图说明

[0059] 图1是滑动窗口的计算过程;
[0060] 图2为离线部分采用基于MapReduce的k-means聚类对风电机组进行运行工况划分的流程图;
[0061] 图3为在线部分基于Spark的对风电机组实时数据进行工况识别的流程图;
[0062] 图4是离线处理整体流程图;
[0063] 图5是在线处理整体流程图;
[0064] 图6为本发明最终计算出的某1.5WM风电机组的健康指数。
[0065] 文中各符号清单为:U为论域,ωi为第i个高斯云模型的权重系数,ωj为当前工况下第j个云模型的权重系数,α用于平衡当前健康指数的观察值和历史观察值之间的关系,h是偏离度,Ht是t时刻的风电机组健康指数,q为风电机组运行工况个数,G0和G′分别表示风电机组的标准状态和当前状态,C表示论域U中的一个概念,Ex表示期望,En表示熵,He表示超熵,cei表示第i个聚类中心, 表示第i个聚类中的所有点的平均值,CF为微簇,LS为数据元素属性线性和,SS为数据元素的平方和,CD为概念含混度,CS为数据元素的立方和,BS为数据元素的四次方和,tl为微簇最后更新时间,c2为二阶中心矩,c4为四阶中心矩。

具体实施方式

[0066] 下面结合附图对本发明作进一步详述。
[0067] 本发明提出了一种基于Spark Streaming的风力发电机组健康状态评估方法,通过利用云模型处理不确定信息的优势,以及MapReduce并行计算框架处理大规模风电机组数据的优势,给出一种适合处理风电机组实时数据流的基于Spark内存并行计算的风电机组健康状态评估方法。该方法可分为离线部分和在线部分。离线部分,首先基于海量的风电机组历史运行数据,运用聚类技术,实现风电机组运行工况的划分,然后在每种运行工况下,采用云变换的技术将每种工况下的机组标准状态描述出来;在线部分,首先基于Spark采用流式聚类算法对风电机组的实时数据流进行工况辨识,然后实时计算实时工况下的表示机组状态的云模型,计算出实时状态的云模型与标准状态云模型的偏离值,将其值记为风电机组的健康指数,然后构造风电机组健康状态与健康指数之间的定性与定量转换模型,从而实现将风电机组运行状态直观地定性描述。
[0068] 定义1设U是一个用精确数值表示的定量论域,C(Ex,En,He)是U上的一个定性概念,若定量值x(x∈U)是定性概念C的一次随机实现,服从以Ex为期望,En′2为方差的高斯分布x~N(Ex,En′),其中En′又是服从以En为期望,He2为方差的高斯分布,即En′~N(En,He2)的一次随机实现,x对C的确定度μc(x)∈[0,1]满足
[0069]
[0070] x在论域U上的分布称为高斯云,每一个x称为云滴。
[0071] 定义2高斯云发生器,给定概念C的数字特征(Ex,En,He)和特定值a,求出特定值a的云滴(a,μ),μ为a对此概念的隶属度,按下式计算:
[0072] μ=exp{-(a-Ex)2/2(En'2)}
[0073] 式中:En'~N(En,He)。
[0074] 本发明主要提供了一种风电机组健康状态实时评估方法,整体算法流程如图4和图5所示,下面结合附图对本发明做详细说明。
[0075] (1)图4-5为对风电机组进行健康状态评估的总体算法流程,其中包括两大部分,离线部分和在线部分。离线部分主要实现对风电机组的运行工况的划分和挖掘出风电机组在不同工况下的标准运行状态。在线部分主要实现风电机组实时工况的辨识和健康指数的计算。具体实现步骤描述如下:
[0076] 离线部分:
[0077] 步骤1:开始。
[0078] 步骤2:读取风电机组的SCADA历史数据,并对其进行预处理,主要包括去除零功率数据以及归一化。
[0079] 步骤3:从处理后的数据中随机抽样产生m个初始聚类中心,将数据随机分割成多个片段,并分发给集群中的不同节点上,每个节点上的map负责计算每个样本点和初始聚类中心的距离,并将其归类,之后计算每类中各个点的和,从而减少reduce操作的通信量和计算量。Reduce再将所有map产生的聚类结果归并,并更新每类的聚类中心,计算准则函数如式(1)所示,直到准则函数的值不再发生变换或者变换小于某个值。
[0080]
[0081] 式中,m为聚簇的总数, 为聚簇cei的平均值。
[0082] 步骤4:在每种工况下用云变换技术将风电机组的状态描述为综合云的形式。其具体方如下:
[0083] 假设某个工况下的数据样本集X{xi|i=1,2,…,N},迭代终止误差ε1,类间含混度ε2。
[0084] 算法步骤为:
[0085] (1)统计计算数据样本集X的频度分布
[0086] h(yj)=p(xi),(i=1,2,…,N;j=1,2,…,N′)      (2)
[0087] 式中,y为样本论域空间。
[0088] (2)统计h(yj)的波峰数,作为高斯云变换的初始概念数量M。则第k个高斯分布的初始参数设定为
[0089]
[0090] (3)定义并计算目标函数
[0091]
[0092] 式中
[0093] (4)根据极大似然估计计算出高斯分布的新参数 如式(5)-(7)所示。
[0094]
[0095]
[0096]
[0097] 式中
[0098] (5)根据步骤(4)求出的值,计算目标函数的估计值 如果 则停止计算,否则跳转至步骤(3)。
[0099] (6)对于第k个高斯分布,计算其标准差的缩放比αk,则第k个高斯模型的云模型Ck=(Exk,Enk,Hek)参数为
[0100] Exk=μk        (8)
[0101] Enk=(1+αk)×σk/2      (9)
[0102] Hek=(1-αk)×σk/6     (10)
[0103] CDk=(1-αk)/(1+αk)   (11)
[0104] (7)对于第k个高斯云模型,计算其含混度Hek/Enk,如果Hek/Enk≤ε2,则输出k个高斯云模型,否则令M-1,跳转到步骤(2)。
[0105] 步骤5:将步骤6所求得的风电机组每种工况下的标准运行状态用综合云表示。
[0106] 步骤6:利用高斯云发生器对每种标准状态生成一定数目的云滴,并写入存储系统。
[0107] 在线部分:
[0108] 步骤1:首先基于时间滑动窗口将数据流按照时间(如1秒)进行分割形成一段一段的数据,形成离散数据流DStream(Discretized Stream),并将每段数据都转换成一系列的RDD(Resilient Distributed Dataset)缓存在内存中,然后对于每段数据用map计算每片数据中所有样本点到聚类中心的距离并归类,再用reduce更新聚类中心,重复上述过程直到完成聚类。
[0109] 步骤2:每个时间滑动窗口内都会产生一系列的微簇,定义微簇的结构为CF=[N,LS,SS,CS,BS,t,tl],其中N为该微簇中包含数据点的个数,LS为数据元素属性线性和,SS为数据元素的平方和,CS为数据元素的立方和,BS为数据元素的四次方和,t是微簇生成时间,tl为微簇最后更新时间。定义微簇之后可以有效减少后面的计算量并且无需访问原始数据,从而大大加快算法的执行速度,但随着时间的推移,微簇的个数越来越多,需要每隔一个固定的时间间隔对微簇进行维护,步骤为,首先按式(13)计算每两个微簇之间的距离D2,如果D2小于设置的阈值,则按式(12)对其进行合并。
[0110] CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2,CS1+CS2,BS1+BS2)      (12)[0111] 微簇间的距离:
[0112]
[0113] 式中,xi和xj分别表示两个不同的微簇中第i和第j个观察值。
[0114] 步骤3:在该时间滑动窗口内,采用下面的方法计算每个微簇的云模型参数。
[0115] 期望Ex:
[0116]
[0117] 二阶中心矩:
[0118]
[0119] 四阶中心矩:
[0120]
[0121] 云模型的两个参数En和He按下式计算:
[0122]
[0123]
[0124] 步骤4:每一个云模型代表一个概念,不同概念之间会存在不同程度的交叠,交叠程度越大说明概念之间划分越不清晰,将概念之间的交叠程度定义为概念含混度,定义见式(19),因此需要对交叠程度严重的概念进行合并,以得到所需概念层次。
[0125] CD=He/En       (19)
[0126] 机组当前的状态可用综合云G'来表示,如式(20)所示。
[0127]
[0128] 两个云模型的合并方法如下:
[0129] 给定两个云模型C1(Ex1,En1,He1),C2(Ex2,En2,He2),令合并后的云模型为C(Ex,En,He),则有:
[0130]
[0131] En=En'1+En'2        (22)
[0132]
[0133] 其中,式(21)-(23)中的En'1和En'2的计算方法如下:
[0134] 设MECc1(x)和MECc2(x)分别是云模型C1和C2的期望曲线,并令
[0135]
[0136]
[0137] 则有
[0138]
[0139]
[0140] 云模型C(Ex,En,He)的期望曲线为
[0141]
[0142] 步骤5:计算风电机组当前状态与标准状态的偏离度h,风电机组的健康指数H的计算方法如下:
[0143]
[0144] 式中,ωi为第i个云模型的权重系数,ωj为第j个运行工况的权重系数,x0k为第j个运行工况下表示机组标准状态的第k个云滴,xik为第j个运行工况下表示机组当前状态的第k个云滴,n′为第j个运行工况获得的云模型总个数,s为最近一段时间机组运行工况总数,r为总的云滴个数。
[0145] Ht=αHt-1+(1-α)ht         (30)
[0146] 式中,α用于平衡当前健康指数的观察值和历史观察值之间的关系,当α偏大时,健康指数H受历史值的影响较大而受新产生的数据影响较小,使得健康指数H变化更平稳,当α偏小时则相反,本文取α=0.25,机组处于完全健康状态时,健康指数为1,随着与标准状态偏离度的增大,则机组健康指数随之降低;
[0147] 步骤6:将风电机组的状态分为,健康状态、良好状态、警示状态、恶化状态和严重状态五种状态,并用云模型实现定性与定量模型之间的转化。将五种状态的健康指数区间确定为:g1[1,a),g2[a,b),g3[b,c),g4[c,d),g5[d,e),根据这些参数及表1建立每个状态的云模型。
[0148] 表1云模型参数的确定方法
[0149]
[0150] 步骤7:输出结果,结束。
[0151] 本发明首先进行运行工况识别,在此基础上进行风电机组的健康状态评估,可以提高评估的精确性。采用高斯云变换方法对风电机组每种工况下的正常状态进行描述,并且用云模型构造风电机组健康状态与健康指数之间的定性与定量转换模型,可以充分考虑到信息的不确定性,从而使得评判过程和结果更加贴近实际。同时,算法在线部分利用Spark内存并行计算与流式计算的优势,可以快速有效处理风电机组产生的海量、快速的状态数据流。实现风电机组的实时健康评估,对提高风力发电设备的稳定性、安全性,以及对风电机组的维护策略由传统的异常状态监测转变为健康管理具有重要意义。
[0152] 图6为本发明最终计算出的某1.5WM风电机组的健康指数,表2为该机组三个时间点上的健康状态,综合图6和表2的结果,可以看出,故障发生前,该机组运行状态由健康状态逐步过渡到了良好的状态,出现了早期的退化趋势,故障发生前一天机组的健康指数突然出现了明显下降,很好的反映了机组健康状态的变化,从而实现机组故障的早期预警。
[0153] 表2三个时间点的风电机组状态
[0154]
[0155] Spark简介:Hadoop MapReduce设计上的约束适合处理离线的海量数据,在实时查询和迭代计算上存在较大的不足。针对Hadoop存在的问题:缺少对迭代的支持;中间数据需输出到硬盘存储,产生了较高的延迟。Spark利用先进的DAG(Directed Acyclic Graph,DAG,有向无环图)执行引擎,支持循环数据流和内存计算,其中间数据无需输出到硬盘而直接存储在内存中,可以大大加快迭代计算的速度。Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的100倍,在磁盘上的运行速度是Hadoop MapReduce运行速度的10倍。Spark Streaming属于核心Spark API(Spark应用程序接口)的扩展,它将流式计算分解成一系列短小的批处理计算,支持高吞吐量和容错的实时数据流处理。Spark Streaming还提供了基于窗口的计算,允许通过滑动窗口对数据进行转换。图1说明了滑动窗口的计算过程,其中红色矩形是一个窗口,每个窗口保存的是一段时间内的数据流,每个time是一个时间单元,此例中每个窗口包含两个时间单元,每隔两个时间单元向前滑动一次。Spark Streaming提供了一种称为DStream(Discretized Stream,离散流)的高级抽象连续数据流,一个DStream可以看作是一个RDDs的序列。RDD,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。在这些操作中,诸如map、flatMap、filter等转换操作。除此之外,RDD还提供了诸如join、groupBy、reduceByKey等更为方便的操作,以支持常见的数据运算。
[0156] 本发明中使用的专业术语为:时间滑动窗口:处理数据时并不需要处理所有的数据,而是处理某一固定时间段内的数据,将此时间段视为一个时间窗口,每隔固定的时间窗口向前滑动一次,即处理下一时间段的数据。
[0157] MapReduce:是由Google提出的一种用于分布式处理超大规模数据集的并行软件编程模型,其通过分治(Divide and Conquer)的思想对数据集进行处理,也是开源Hadoop平台的核心内容。
[0158] 内存并行计算:Spark内存并行计算其主要的思想就是RDD(Resilient Distributed Dataset),把所有计算的数据保存在分布式的内存中。在迭代计算中,通常情况下,都是对同一的数据集做反复的迭代计算,数据保存在内存中,将大大提高性能。RDD就是数据partition方式保存在集群的内存中。执行计算任务时可以把任务分配给多个计算节点,从而实现并行化。
[0159] 云模型:定义,U是一个用精确数值表示的定量论域,C是U上的一个定性概念,若定量值x(x∈U)是定性概念C的一次随机实现,x对C的确定度μc(x)∈[0,1]是具有稳定倾向的随机数
[0160]
[0161] x在论域U上的分布称为云,每一个x称为云滴。
[0162] 云模型用期望Ex(Expected Value)、熵En(Entropy)和超熵He(Hyper Entropy)三个数字特征来整体表征一个概念。
[0163] 期望Ex:是定性概念的基本确定性度量,是云滴在论域空间分布中的数学期望。
[0164] 熵En:是定性概念的不确定性度量,由概念的随机性和模糊性共同决定。一方面,熵是定性概念随机性的度量,反映了能够代表这个定性概念的云滴的离散程度;另一方面,又是隶属于这个定性概念的度量,决定了论域空间中可被接受的云滴的确定度。
[0165] 超熵He:熵的熵,是熵的不确定性度量,也可以称为二阶熵。对于一个常识性概念,被普遍接受的程度越高,超熵越小;对于一个在一定范围内能够被接受的概念,超商较小;对于难以形成共识的概念,则超熵较大。服从以为期望,En′2为方差的高斯分布x~N(Ex,En′),其中En′又是服从以En为期望,He2为方差的高斯分布,即En′~N(En,He2)的一次随机实现,
[0166] 高斯云模型:设U是一个用精确数值表示的定量论域,C(Ex,En,He)是U上的一个定性概念,若定量值x(x∈U)是定性概念C的一次随机实现,服从以Ex为期望,En′2为方差的高斯分布x~N(Ex,En′),其中En′又是服从以En为期望,He2为方差的高斯分布,即En′~N(En,He2)的一次随机实现,x对C的确定度μc(x)∈[0,1]满足
[0167]
[0168] x在论域U上的分布称为高斯云,每一个x称为云滴。
[0169] 高斯云变换:高斯云变换是将问题域的一个概率密度分布转化为若干高斯云分布的叠加。
[0170] 数据摘要:对数据的特征进行摘取,随后不用直接对原始数据进行处理。
[0171] 论域:指的是特定研究对象或数据的有限非空集合。