基于高斯混合模型的即时学习脱丁烷塔软测量建模方法转让专利

申请号 : CN201410129014.3

文献号 : CN103927412B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 范苗葛志强宋执环

申请人 : 浙江大学

摘要 :

本发明公开了一种基于高斯混合模型(GMM)的即时学习脱丁烷塔软测量建摸方法,该方法首先训练过程高斯混合模型,获取各高斯成分参数,建立相应的子模型;然后通过贝叶斯方法计算待预测样本属于各高斯成分的后验概率,以及各高斯成分下局部马氏距离,从而得到加权的样本相似度定义指标;最后采用新的相似度指标合理选择相似样本用于局部建模。本发明不仅能够很好的处理过程非高斯性和非线性,而且充分提取待预测样本特性,更为合理的选择相似样本用于即时学习建摸,有利于提高模型预测精度。

权利要求 :

1.一种基于高斯混合模型的即时学习脱丁烷塔软测量建模方法,其特征在于,包括以下步骤:(1)通过集散控制系统和实时数据库系统收集脱丁烷工业生产过程关键变量在正常工况下的数据:X={xi∈Rm}i=1,2,…,n;其中,n为样本个数,m为关键变量个数,R为实数集;分别将这些数据存入数据库;

(2)通过离线实验室分析获取历史数据中用于建模的样本所对应的脱丁烷塔塔底丁烷浓度,作为软测量模型的输出y∈Rn;

(3)分别对关键变量和输出变量进行预处理和归一化,使得各个过程变量和塔底丁烷浓度的均值为零,方差为1,得到新的数据集;

(4)给定高斯混合模型的高斯成分个数K,采用K-means方法对数据进行聚类,将数据聚类为K类,计算初始值Ω(0):(0) (0) (0) (0) (0) (0) (0)Ω ={{π1 ,μ1 ,Σ1 },...,{πK ,μK ,ΣK }}其中,πK(0),μK(0),ΣK(0)分别为样本属于第K个高斯成分的先验概率初始值、第K个高斯成分的均值初始值以及协方差的初始值;

(5)利用初始值Ω(0)和训练样本X={xi∈Rm}i=1,2,…,n离线训练高斯混合模型,通过EM算法迭代计算模型参数Ω:Ω={{π1,μ1,Σ1},…,{πK,μK,ΣK}}其中,πK,μK,ΣK分别为样本属于第K个高斯成分的先验概率、第K个高斯成分均值以及协方差;

(6)将建模数据和各个模型参数存入历史数据库和实时数据库中备用;

(7)收集新的过程数据,并对其进行预处理和归一化;

(8)对于每个待预测样本xq,计算其属于每个高斯成分的后验概率以及与训练样本在各高斯成分下的局部马氏距离,得到待预测样本与训练样本的基于高斯混合模型(GMM)的局部加权相似度;

(9)将训练样本按照与待预测样本的相似度从大到小的顺序排列,选择前L个相似度大的训练样本构建局部PLS模型对待预测样本进行在线估计。

2.根据权利要求1所述基于高斯混合模型的即时学习脱丁烷塔软测量建模方法,其特征在于,所述步骤4具体为:(a)从数据集中任意选择K个对象作为初始聚类中心;

(b)根据每个聚类中所有数据的均值,计算样本集中每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分;

(c)重新计算变化后每个聚类的均值;

(d)重复b步和c步,直到每个聚类不再发生变化为止,计算聚类后K个数据类参数

3.根据权利要求1所述基于高斯混合模型的即时学习脱丁烷塔软测量建模方法,其特征在于,所述步骤5具体为:给定训练样本X={x1,x2,...,xn}以及初始化参数采用EM算法迭代最大化似然函数logp(Χ|Ω)来估计高斯混合模型参数;

E步:利用第l次迭代的参数值 通过贝叶斯公式计算第l次迭代时第i个训练样本属于第k个高斯成分的后验概率p(l)(Ck|xi):

其中, 分别为第l次迭代时样本属于第k个高斯成分的先验概率,均值和协方差; 为第l次迭代时样本xi属于第k个高斯成分的概率密度函数,n为样本个数,K为高斯成分个数;

M步:通过采用E步计算得到的后验概率p(l)(Ck|xi),针对每个参数最大化似然函数logp(Χ|Ω),估计模型参数的更新值:

其中, 分别为第l+1次迭代时样本xi属于第k个高斯成分的均值、第k个高斯成分的协方差以及先验概率,n为样本个数。

4.根据权利要求1所述基于高斯混合模型的即时学习脱丁烷塔软测量建模方法,其特征在于,所述步骤8具体为:(a)对待预测样本xq,采用贝叶斯公式计算其属于每个高斯成分的概率p(xq∈Ck|xq):

其中,πk表示待预测样本xq属于第k个高斯成分的概率,p(xq|xq∈Ck)为样本xq属于第k个高斯成分的概率密度函数,(b)待预测样本xq与样本xi在第k个高斯成分下的局部马氏距离MD(xq,xi,Ck)可计算如下:

其中,Σk为第k个高斯成分的协方差矩阵,n为样本个数;

(c)考虑待预测样本xq由贝叶斯公式计算的来自不同高斯成分的后验概率p(xq∈Ck|xq),基于GMM的新的相似度GMMD(xq,xi)如下:

其中,MD(xq,xi,Ck)表示待预测样本xq与样本xi在第k个高斯成分下的局部马氏距离;后验概率p(xq∈Ck|xq)的值越大,说明待预测样本xq与该高斯成分关联性越大;反之,值越小说明该数据属于相应高斯成分的可能性就越小。

5.根据权利要求1所述基于高斯混合模型的即时学习脱丁烷塔软测量建模方法,其特征在于,所述步骤9具体为:局部建模输入输出数据集为{XL,yL},PLS将输入输出分解成得分矩阵TL,负载矩阵PL和qL,权值矩阵WL,如下所示:T

XL=TLPL+EL

yL=TLqL+fL

其中,L为局部建模的样本个数,E和f分别为输入和输出残差;

对于待预测数据xq,输出 为:

其中,PL和qL为负载矩阵,WL为权值矩阵。

说明书 :

基于高斯混合模型的即时学习脱丁烷塔软测量建模方法

技术领域

[0001] 本发明属于工业过程软测量建模领域,尤其涉及一种基于高斯混合模型的即时学习脱丁烷塔软测量建模方法。

背景技术

[0002] 随着现代工业过程对质量控制、可靠性等要求的不断提高,质量相关的过程变量进行实时监测和控制变得更加重要。然而在复杂的工业生产过程中,由于工艺和条件的限制,存在许多难以直接测量的变量。这些变量虽然可以用在线分析仪进行测量,但是由于在线分析仪成本高、维护困难,且存在较大的测量滞后,不能满足实时控制的需要。为了解决上述问题,软测量技术作为具有广阔发展前景的新兴技术应运而生。软测量技术的核心是对于一些难以测量的重要变量(主导变量),选择另外一些容易测量的变量(辅助变量)通过构建数学模型,以实现对主导变量的最佳估计。目前常用的软测量建模方法有主元回归(PCR)、偏最小二乘回归(PLS)、支持向量回归(SVR)、人工神经网络(ANN)等。
[0003] 在实际过程中,软测量模型投入运行后,由于催化剂老化、设备老化、原料变化、产品质量要求改变等过程时变特性以及建模样本的不完备性,随着时间的推移,离线建立的软测量模型预测精度会下降,出现“模型老化”现象,导致模型的输出估计值出现较大的偏差,不再适应当前的工况特性。因此需要对软测量模型进行自适应更新,根据在线样本数据不断修正模型参数以适应过程时变特性。
[0004] 目前常用的对模型进行更新的方法有滑动窗方法和递归方法,能够有效处理慢时变过程,对于过程突变或者变化相对频繁的过程,这类方法效果并不理想。为了解决这个问题,国外学者Cheng(2005)提出基于即时学习(JITL)的局部建模方法用于非线性过程的建模。该方法对于待预测的样本,在历史数据中找出与其最相似的若干个样本建立局部模型,通过局部模型进行在线预测输出。JITL方法既能解决过程时变问题,又能解决过程非线性问题,主要特征有以下几个方面:(1)局部建模针对当前样本建立;(2)采用对应的局部模型计算当前样本的输出预测值;(3)局部模型随着当前样本进行实时更新。
[0005] 相似度准则的选取是JITL建模的核心部分,对于局部模型的预测精度至关重要。目前基于欧式距离(ED)和基于马氏距离(MD)的方法为常用的相似度准则。传统的相似度准则为一种全局相似度指标,仅仅考虑了样本之间的距离信息,并未充分考虑新增样本的特性,同时传统的相似度准则适用于高斯过程,事实上复杂多变的实际工业过程往往会呈现非高斯的特性。这些缺陷将会影响相似样本的选择,进而导致模型预测精度降低。

发明内容

[0006] 本发明的目的在于针对现有技术的不足,提供一种基于高斯混合模型的即时学习脱丁烷塔软测量建模方法。
[0007] 本发明的目的是通过以下技术方案来实现的:一种基于高斯混合模型的即时学习脱丁烷塔软测量建模方法,包括以下步骤:
[0008] (1)通过集散控制系统和实时数据库系统收集脱丁烷工业生产过程关键变量在正常工况下的数据:X={xi∈Rm}i=1,2,…,n。其中,n为样本个数,m为关键变量个数,R为实数集。分别将这些数据存入数据库。
[0009] (2)通过离线实验室分析获取历史数据中用于建模的样本所对应的脱丁烷塔塔底丁烷浓度,作为软测量模型的输出y∈Rn。
[0010] (3)分别对关键变量和输出变量进行预处理和归一化,使得各个过程变量和塔底丁烷浓度的均值为零,方差为1,得到新的数据集。
[0011] (4)给定高斯混合模型的高斯成分个数K,采用K-means方法对数据进行聚类,将数据聚类为K类,计算初始值Ω(0):
[0012]
[0013] 其中πK(0),μK(0),ΣK(0)分别为样本属于第K个高斯成分的先验概率初始值、第K个高斯成分的均值初始值以及协方差初始值。
[0014] (5)利用训练样本离线训练高斯混合模型,通过EM算法迭代计算模型参数Ω[0015] Ω={{π1,μ1,Σ1},…,{πK,μK,ΣK}}
[0016] 其中πK,μK,ΣK为样本属于第K个高斯成分的先验概率、第K个高斯成分均值以及协方差。
[0017] (6)将建模数据和各个模型参数存入历史数据库和实时数据库中备用。
[0018] (7)收集新的过程数据,并对其进行预处理和归一化。
[0019] (8)对于每个待预测样本,计算其属于每个高斯成分的后验概率以及与训练样本在各个高斯成分下的局部马氏距离,得到待预测样本与各个训练样本的基于高斯混合模型(GMM)的局部加权相似度。
[0020] (9)将训练样本按照相似度从大到小的顺序排列,选择前L个样本构建局部PLS模型,对新样本进行在线预测。
[0021] 本发明的有益效果是:本发明通过训练过程高斯混合模型,用多个高斯成分近似描述数据特性,获取过程各高斯成分参数,建立相应的子模型。然后,引入贝叶斯方法构建加权相似度准则,同时充分提取新样本特性,更为合理的选取相似样本,采用PLS方法对相似样本进行局部建模,预测新样本输出。相比目前的其他方法,本发明不仅能够很好的处理过程非高斯性,而且能充分提取待预测样本特性,构建局部加权的相似度指标,更为合理的选择相似样本用于即时学习建模,提高模型预测精度。

附图说明

[0022] 图1是脱丁烷塔的输出特性曲线;
[0023] 图2是脱丁烷塔输入输出的高斯概率曲线;
[0024] 图3本发明方法和传统方法对脱丁烷塔的预测均方根误差对比;
[0025] 图4是本发明方法和传统方法对脱丁烷塔输出预测结果对比;
[0026] 图5是本发明方法和传统方法对脱丁烷塔输出预测误差对比。

具体实施方式

[0027] 本发明针对非高斯非线性工业过程的软测量建模问题,首先训练过程高斯混合模型,获取各高斯成分参数,建立相应的子模型,把所有的模型参数存入数据库中备用。然后,通过贝叶斯方法计算待预测样本属于各高斯成分的后验概率,以及各高斯成分下局部马氏距离,从而得到加权的样本相似度定义指标,更为合理的选择相似样本用于局部建模。相比目前的其他方法,本发明不仅能够很好的处理过程非高斯性和非线性,同时充分提取待预测样本特性,更为合理的选择相似样本用于即时学习建摸,有利于提高模型预测精度。
[0028] 本发明采用的技术方案的主要步骤分别如下:
[0029] 第一步:通过集散控制系统和实时数据库系统收集脱丁烷工业生产过程关键变量在正常工况下的数据:X={xi∈Rm}i=1,2,…,n。其中,n为样本个数,m为关键变量个数,R为实数集。分别将这些数据存入数据库。
[0030] 第二步:通过离线实验室分析获取历史数据中用于建模的样本所对应的脱丁烷塔n塔底丁烷浓度,作为软测量模型的输出y∈R。
[0031] 第三步:分别对关键变量和输出变量进行预处理和归一化,使得各个过程变量和塔底丁烷浓度的均值为零,方差为1,得到新的数据集。
[0032] 在历史数据库中对采集到的过程数据进行预处理,剔除野值点和明显的粗糙误差数据,为了使得过程数据的尺度不会影响到建模的结果,对不同变量的数据分别进行归一化处理,即各个变量的均值为零,方差为1。
[0033] 第四步:给定高斯混合模型的高斯成分个数K,采用K-means方法对数据进行聚类,将数据聚类为K类,计算初始值Ω(0):
[0034]
[0035] 首先从数据集中任意选择K个对象作为初始聚类中心,根据每个聚类中所有数据的均值,计算样本集中每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分,重新计算变化后每个聚类的均值,重复以上步骤直到每个聚类不再发生变化为止,计算聚类后K个数据类参数 其中πK(0),μK(0),ΣK(0)分别为样本属于第K个高斯成分的先验概率初始值、第K个高斯成分的均值初始值以及协方差初始值。
[0036] 第五步:利用训练样本离线训练高斯混合模型,通过EM算法迭代计算模型参数Ω[0037] Ω={{π1,μ1,Σ1},…,{πK,μK,ΣK}}
[0038] 其中πK,μK,ΣK为样本属于第K个高斯成分的先验概率、第K个高斯成分均值以及协方差。
[0039] 给定训练样本X={x1,x2,…xn}以及初始化参数采用EM算法迭代最大化似然函数logp(Χ|Ω)估计高斯混合模型参数Ω。
[0040] E步:利用第l次迭代的参数值 通过贝叶斯公式计算第l次迭代时第i个训练样本属于第k个高斯成分的后验概率p(l)(Ck|xi):
[0041]
[0042] 其中, 分别为第l次迭代时样本属于第k个高斯成分的先验概率,均值和协方差。 为第l次迭代时样本xi属于第k个高斯成分的概率密度函数,n为样本个数,K为高斯成分个数。
[0043] M步:通过采用E步计算得到的后验概率p(l)(Ck|xi),针对每个参数最大化似然函数logp(Χ|Ω),估计模型参数的更新值:
[0044]
[0045]
[0046]
[0047] 其中, μk(l+1), 分别为第l+1次迭代时样本xi属于第k个高斯成分的先验概率、第k个高斯成分的均值和协方差,n为样本个数。
[0048] 第六步:将建模数据和各个模型参数存入历史数据库和实时数据库中备用。
[0049] 第七步:收集新的过程数据,并对其进行预处理和归一化。
[0050] 对于过程中新收集到的数据样本,除了对其进行预处理之外,还有采用建模时的模型参数对该数据点进行归一化,即减去建模均值和除以建模标准差。第八步:对于每个查询样本,计算属于每个高斯成分的后验概率以及局部马氏距离,得到基于GMM的局部加权相似度。
[0051] 首先,对待预测样本xq,通过贝叶斯推理方法计算待预测样本在各个高斯成分下的后验概率值p(xq∈Ck|xq),即
[0052]
[0053] 其中,πk表示待预测样本xq属于第k个高斯成分的概率,p(xq|xq∈Ck)为样本xq属于第k个高斯成分的概率密度函数,
[0054] 然后,待预测样本xq与样本xi在第k个高斯成分下的局部马氏距离MD(xq,xi,Ck)可计算如下:
[0055]
[0056] 其中Σk为第k个高斯成分的协方差矩阵,n为样本个数。
[0057] 最后,基于GMM的新的相似度准则如下:
[0058]
[0059] 其中,MD(xq,xi,Ck)表示待预测样本xq与样本xi在第k个高斯成分下的局部马氏距离。后验概率p(xq∈Ck|xq)的值越大,说明待预测样本xq与该高斯成分关联性越大。反之,值越小说明该数据属于相应高斯成分的可能性就越小。
[0060] 第九步将训练样本按照相似度从大到小的顺序排列,选择前L个样本构建局部PLS模型。
[0061] 局部建模输入输出数据集为{XL,yL},PLS将输入输出分解成得分矩阵TL,负载矩阵PL和qL,权值矩阵WL,如下所示:
[0062] XL=TLTPL+EL
[0063] yL=TLqL+fL
[0064] 其中,L为局部建模的样本个数,E和f分别为输入和输出残差。
[0065] 对于待预测数据xq,输出 为:
[0066]
[0067] 其中,PL和qL为负载矩阵,WL为权值矩阵。
[0068] 以下结合脱丁烷塔的工业过程例子来说明本发明的有效性。脱丁烷塔仿真平台是汽油提炼装置的一部分,用于净化石油中的丙烷和丁烷。脱丁烷装置目标为最小化塔底成分丁烷的浓度同时最大化提纯汽油产量,丁烷浓度的实时估计对过程控制具有重要意义。脱丁烷塔的输出特性曲线如图1所示。为了构建过程软测量模型,一共选取7个过程变量,如表1所示,过程输出为塔底丁烷浓度。一共为2000个正常工况输入输出数据,其中1000个作训练样本,1000个作测试样本。输入变量详细描述见表1,图2为脱丁烷塔输入输出的高斯概率曲线。
[0069] 接下来结合该具体过程对本发明的实施步骤进行详细地阐述:
[0070] 1.采集过程正常工况数据,数据预处理,归一化和重新排列
[0071] 对2000个过程数据样本进行数据预处理,剔除过程的野值点和粗糙误差点。然后选取其中的1000个正常数据组成训练数据矩阵,输入为Xtrn∈R1000×7,相应输出为ytrn∈R1000×1 1000×7 1000×1。1000个正常数据组成测试数据矩阵,输入为Xtest∈R ,相应输出为ytest∈R 。对每一个数据矩阵进行归一化,得到测试集输入 输出 训练集输入
输出 图1为过程输出特性图,由图1可知,工业过程处于动态变化
中。图2为数据的高斯概率图,由图可以看出过程数据非高斯。
[0072] 2.利用训练样本离线训练高斯混合模型
[0073] 给定高斯成分个数K,采用K-means方法得到初始值通过EM算法迭代计算出高斯混合模型参数Ω={{π1,μ1,Σ1},…,{πK,μK,ΣK}},并保存模型参数。
[0074] 3.获取当前待预测数据信息,并对其进行预处理和归一化
[0075] 为了测试新方法的有效性,选取1000个数据作为测试集,并利用训练数据的归一化参数对其进行处理。
[0076] 4.基于高斯混合模型(GMM)的相似度计算
[0077] 对于每个待预测样本,计算属于每个高斯成分的后验概率p(xq∈Ck|xq),以及与局部马氏距离 然后计算各训练样本与待预测样本的基于GMM的局部加权相似度
[0078] 5.在线建模预测
[0079] 将训练样本按照相似度从大到小的顺序排列,选择前L个样本构建局部PLS模型。该方法与两种传统方法的预测均方根误差对比图如图3所示。预测结果输出图与预测误差图分别如图4和图5所示。由图可以看出新的方法相比于传统方法,具有更高的预测精度。
[0080] 表1 过程变量说明
[0081]过程变量 变量描述
1 塔顶温度
2 塔顶压力
3 回流量
4 下一级流量
5 第6块塔板温度
6 塔底温度
7 塔底温度
[0082] 上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。