基于自编码器多样性生成机制的集成学习软测量建模方法转让专利

申请号 : CN202110436544.2

文献号 : CN112989635B

文献日 : 2022-05-06

本发明公开了基于自编码器多样性生成机制的集成学习软测量建模方法。本发明针对流程工业过程数据的辅助变量与主导变量之间的存在的非线性特性、难以提取样本的隐藏结构表达以及常规软测量方法采用单一模型导致模型准确性不高且泛化性难以保证的问题，本发明以多样性的自编码器作为关键特征提取技术，对工业过程建模数据进行预处理，以获得原始数据的隐变量信息；并采用高斯过程回归(GPR)作为子模型，构建多样性的子模型；然后基于阈值筛选和进化优化算法的双重修剪技术，选出准确性高、多样性充分的子模型；最终引入Stacking集成策略对子模型进行融合，实现高性能集成模型的构建和关键质量参数的实时预测。

1.一种基于自编码器多样性生成机制的集成学习软测量建模方法，其特征在于，包括以下步骤：

步骤(1)利用集散控制系统或离线检测的方法，收集工业过程数据，并确定关键质量变d

量y和辅助变量x，x＝[x1，x2，...，xd]∈R ，xd代表样本的第d个特征，x为d个辅助变量构成的向量；

步骤(2)基于Z‑Score归一化方法，对数据集进行归一化预处理，得到均值为0，方差为1的数据集，并划分为训练集Dtrn、测试集Dtest和验证集Dval；

步骤(3)构建多样性的自编码器AE，通过对神经网络设置不同层次结构和参数的组合，构建一组多样的深度自编码网络，用于提取原始数据的隐层特征表示；

所述步骤(3)中多样性自编码器生成机制的建立过程为：通过设置隐层节点数、稀疏性参数、稀疏惩罚项以及堆栈的自编码器个数等不同的参数组合，生成多样性的自编码器，以提取原始数据的隐变量；

T d T h

1)对于自编码器AE，假设x＝[x1，x2，...，xd]∈R和h＝[x1，x2，...，xh]∈R分别表示AE的原始输入和隐层，d和h分别为输入和输出的维度；是输出层的重构输入变量向量；利用编码器，x通过非线性激活函数f转换为隐藏特征h：h＝f(Wx+b) (1)

h×d h

其中，W∈R 和b∈R 分别为输入层和隐含层间权重矩阵和偏置项，然后，输入向量通过解码器的输出层对隐变量向量h进行重构获得：和分别为隐藏层和输出层之间的权重矩阵和偏置向量，给定N个训练样本，有样本矩阵X＝{x1，x2，...，xN}，对应的隐层特征矩阵是H∈{h1，h2，...，hN}，输入数据T d

重构矩阵是对于第i个样本xi＝[x1，x2，...，xd]∈R ，通过反向传递算法优化最小化其重构误差，误差函数如下：

2)堆栈自编码器SAE，采用的是两个AE进行叠加，第一个AE获得的隐层特征将作为第二T h1

个自编码器的输入，第一层自编码器的实现方式同上1)，假设h1＝[x1，x2，...，xh1]∈R 为样本通过第一个自编码器的提取的隐变量，对于第二个自编码器，以h1作为输入向量通过T h2

非线性激活函数f转换为隐藏特征h2＝[x1，x2，...，xh2]∈R ，根据式(1)有：h2＝f(W2f(W1x+b1)+b2) (4)h1×d d

其中，W1∈R 和b1∈R分别为第一个自编码器输入层和隐含层间的权重矩阵和偏置h2×h1 h1

项，W2∈R 和b2∈R 分别为第二个自编码器输入层和隐含层间的权重矩阵和偏置项，然后，输入向量通过解码器的输出层对隐变量向量h2进行重构获得：和分别为第二个自编码器的隐藏层和输出层之间的权重矩阵和偏置向量，给定N个训练样本，有样本矩阵X＝{x1，x2，...，xN}，对应第一层的隐层特征矩阵为H1＝{h1，1，h1，2，...，h1，N}，第二层的隐层特征矩阵为H2＝{h2，1，h2，2，...，h2，N}，输入数据的T d

重构矩阵是对于第i个样本xi＝[x1，x2，...，xd]∈R ，SAE通过反向传递算法优化最小化其重构误差，误差函数如下：根据以上1)、2)两个步骤，将利用多样性条件的自编码器提取原始数据的多组隐变量特征集；

步骤(4)针对工业过程中呈现出的非线性和时变性，选择高斯过程回归GPR模型作为基模型，结合步骤(3)中生成的多样性自编码器构成AE‑GPR子模型；

步骤(5)利用验证集Dval，验证步骤(4)中生成的AE‑GPR子模型的性能，基于新生成AE‑GPR子模型较之在GPR模型上的验证性能不能恶化的假设，设定防止模型恶化阈值，选出一组兼顾模型复杂度和预测精度的基模型；

步骤(6)采用多目标进化优化算法，对步骤(5)中验证集Dval的预测结果进行优化估计，即对第一次集成模型修剪保留下来的基模型进行二次选择，最终获得Sselect个多样性充分、预测精度高的软测量AE‑GPR模型；

步骤(7)引入集成策略将获得的Sselect个AE‑GPR基模型进行融合，并利用测试样本进行测试，最终实现对关键质量变量的离线估计。

2.根据权利要求1所述的基于自编码器多样性生成机制的集成学习软测量建模方法，其特征在于，所述步骤(4)多样性AE‑GPR模型建立过程如下：假设有原始数据集为经过步骤(3)的多样性自编码器数据预处理，将获得M个隐变量数据集，并由每个数据集训练和构建M个AE‑GPR子模型，Dm表示训练第m个AE‑GPR模型的隐变量数据集，N表示数据集的样本个数，xm，i表示第m个训练集的第i个样本，yi为对应的真实标签值，对于数据集Dm中的每个样本xm，i在高斯过程回归模型中的预测输出服从高斯分布：式(7)中，E(.)和Var(.)分别表示均值和方差算子；

所述高斯过程回归模型可描述为：

式(8)中，km，i＝[C(xi，xm，1)，…，C(xi，xm，N))] ，C是一个由X中每个样本彼此之前作协方差组成的N×N阶对称正定矩阵，和分别为第m个AE‑GPR模型的预测均值与方差。

3.根据权利要求2所述的基于自编码器多样性生成机制的集成学习软测量建模方法，其特征在于，所述步骤(5)通过一级模型修剪获得验证预测性能无恶化基模型的实现过程如下：

1)首先，基于新生成的AE‑GPR子模型较之在高斯过程回归模型上的验证性能不能恶化，否则其在测试样本上预测性能也将恶化的假设，设置模型提升率阈值Rimprove＝0；

2)其次，利用原始训练数据集Dtrn训练GPR基模型，验证集Dval进行验证，Dval＝{Xval，yval}，验证集标签矩阵yval对应的预测结果为验证误差为RMSEval：为第i个验证样本的预测值，yi为真实值；

3)再次，根据所述步骤(3)、(4)构建的多样性AE‑GPR子模型，利用训练集和验证集训练和验证每个模型，获得验证误差

4)根据2)、3)计算模型的性能提升率如下；

5)对于第m个AE‑GPR基模型，根据模型性能提升率，若则表示模型鲁棒性高，则保留模型，通过一级模型修剪，将获得S个兼顾多样性和稳定性的基模型。

4.根据权利要求3所述的基于自编码器多样性生成机制的集成学习软测量建模方法，其特征在于，所述步骤(6)基于进化优化算法的二级集成修剪建立过程如下：

1)在一级集成修剪的基础上，采用进化多目标优化算法，据步骤(5)获得的验证集的预测输出将这N个预测输出作为待优化的决策变量，令目标优化函数f1及优化约束函数如下：式(12)中为待优化的精度目标函数，为待优化的决策变量，lb和ub分别为变量y的约束下限和约束上限，精度目标函数定义为基于验证数据的平均预测误差：其中，RMSEs，val为验证样本集在第s个模型上的预测均方根误差；

2)目标函数f2定义为基于验证数据的任意一个模型与任意一个模型相关系数和的平均值，即可将多样性目标函数f2的定义为如下：Sselect为最终选择的基模型数，式(14)中第α个AE‑GPR模型和第β个AE‑GPR模型的相关系数为r(eα，eβ)：

任意两个误差之间的协方差由Cov(*，*)、方差由Var(*)表示，所以目标函数设定为式(14)和(15)，根据目标函数最小化，模型精度和多样性最高，可将优化问题转化为如下：min[f1，f2]＝min[RMSEavg，val，ravg，val] (16)

3)设置的种群数、迭代次数和Pareto解个数范围分别为100‑300、50‑100和5‑20，通过迭代、优化、选择、并解码Pareto最优解集，获得二次修剪的Sselect个AE‑GPR集成基模型。

5.根据权利要求4所述的基于自编码器多样性生成机制的集成学习软测量建模方法，其特征在于，所述步骤(7)采用GPRStacking集成策略将最终获得的Sselect个模型进行融合，最终实现对工业过程中关键质量变量的监测：

1)利用测试集通过步骤(4)构建的多样性AE‑GPR模型得到测试样本的预测输出

2)根据GPRStacking集成的思想，通过步骤(6)选择的Sselect个子模型，获得每个验证样本对应的Sselect个预测值和Sselect个测试样本的预测值并将每个验证样本的Sselect预测值组合为一个新向量作为新的训练样本，每个测试样本的Sselect个预测值作为新的测试输入验证样本的真实标签作为新训练样本集的真实标签，以此训练并测试AE‑GPR模型，获得最终的集成预测输出

基于自编码器多样性生成机制的集成学习软测量建模方法

技术领域

[0001] 本发明涉及工业过程控制领域，尤其涉及基于自编码器多样性生成机制的集成学习软测量建模方法。

背景技术

[0002] 随着各种先进的监测、控制和优化等快速发展和成熟的技术被化工、石油、炼钢、医药、有色金属加工等过程工业领域广泛采用，保证了生产的正常运行、优化了资源利用效
率、减轻了环境污染压力。然而，受限于缺乏可用的硬传感器、传感器可靠性低、测量延迟
大、以及造价成本和购买成本昂贵等原因，产品质量的在线测量往往是困难的。因此，软测
量技术作为物理分析仪的有效替代品，通过建立主导变量与辅助变量的过程变量之间的数
学模型，可以提供高性能的软测量模型实现对主导变量的预测估计。

[0003] 此外，近20年来，随着深度学习的高速发展，深度学习逐渐被引入到了软测量领域中。在过程工业应用中，由于特性监测和数据采集时采用的技术手段存在的局限性，造成数
据样本的辅助变量和关键质量变量之间存在很强的非线性问题。因此，鉴于自编码深度网
络能够提取原始输入数据非线性特征的隐层特征，自编码器将成为解决上述问题的关键技
术手段。与此同时，广泛存在于流程工业当中的非线性、多时段、多模式、时变性、动态特性
的特点，采用常规的单一建模方法会导致模型预测性能不佳，而构建符合多样性条件的子
模型并引入合适的集成策略成为了有效可行的方案。本方法通过构建满足多样性条件的自
编码器，获取原始数据的隐层特征，并构建一组基模型，最终采用集成策略进行模型融合，
以降低问题的复杂度，提高模型鲁棒性、可解释性和预测精度。

[0004] 然而，构建多样性自编码器的过程中，鉴于网络训练过程中缺乏有标签信息的反馈监督，不可避免的会造成特征信息冗余或缺失。因此，所构建基模型的预测性能恐会恶
化，为了规避这些问题，本发明通过预先设定验证阈值和引入一种自适应、随机、全局搜索
的启发式算法如进化多目标优化算法，为选择出一组满足多样性准则和预测精度高的基模
型提供了充足的技术支持。

发明内容

[0005] 本发明旨在解决在软测量建模在过程工业应用中，辅助变量和关键质量变量之间存在的非线性，数据样本的隐层特征难以提取，以及采用单一模型导致预测性能不佳等问
题，提出了一种基于自编码器多样性生成机制的集成学习软测量建模方法。该方法能充分
利用原始样本的有益信息，建立集成软测量模型，有效改善上述问题，实现工业过程中关键
质量变量的在线估计。

[0006] 为解决上述建模过程中的技术问题，本发明的技术方案如下：一种基于自编码器多样性生成机制的集成学习软测量建模方法，主要步骤如下：

[0007] 步骤(1)利用集散控制系统或离线检测的方法，收集工业过程数据，并确定关键质d
量变量y和辅助变量x，x＝[x1,x2,...,xd]∈R ,xd代表样本的第d个变量，x为d个辅助变量构
成的向量；

[0008] 步骤(2)基于Z‑Score归一化方法，对数据集进行归一化预处理，得到均值为0，方差为1的数据集，并划分为训练集Dtrn、测试集Dtest和验证集Dval；

[0009] 步骤(3)构建多样性的自编码器(Auto‑encoder，AE)，通过设置不同层次结构和参数的组合神经网络，构建一组符合多样性条件的自编码深度网络，提取原始数据的隐层特
征；

[0010] 步骤(4)针对工业过程中呈现出的非线性和时变性，选择高斯过程回归(Gaussian Process Regression，GPR)模型作为基模型，结合(3)中生成的多样性自编码器构成AE‑GPR
子模型；

[0011] 步骤(5)利用验证样本，验证步骤(4)中生成的AE‑GPR子模型的性能，基于新生成AE‑GPR子模型较之在GPR模型上的验证性能不能恶化的假设，设定防止模型恶化阈值，选出
一组兼顾模型复杂度和预测精度的基模型；

[0012] 步骤(6)采用多目标进化优化算法，对步骤(5)中验证集Dval的预测结果进行优化估计，即对第一次集成修剪选择的子模型进行二次选择，最终获得Sselect个多样性充分、预
测精度高的AE‑GPR基模型；

[0013] 步骤(7)采用集成策略将获得的Sselect个基模型进行融合，最终实现对工业过程中关键质量变量的进行监测。

[0014] 进一步地，上述步骤(3)自编码器多样性生成机制的实现步骤为：

[0015] 通过设置隐层节点数、稀疏性参数、稀疏惩罚项以及堆栈的自编码器个数等不同的参数组合，生成多样性的自编码器。

[0016] 1)其中，自编码器(AE)是一种无监督的单隐层神经网络，它的输出层设为与输入层神经网络节点相等。AE的目的是在输出层尽可能准确地重建原始输入。假设x＝[x1，
T d T h
x2，...，xd]∈R 和h＝[x1,x2,...,xh]∈R分别表示AE的原始输入和隐层，d和h分别为输入
和输出的维度；是输出层的重构输入变量向量；利用编码器，x
通过非线性激活函数f转换为隐藏特征h：

[0017] h＝f(Wx+b) (1)

[0018] 其中，W∈Rh×d和b∈Rh分别为输入层和隐含层间权重矩阵和偏置项，然后，输入向量通过解码器的输出层对隐变量向量h进行重构获得：

[0019]

[0020] 和分别为隐藏层和输出层之间的权重矩阵和偏置向量，给定N个训练样本，有样本矩阵X＝{x1,x2,...,xN}，对应的隐层特征矩阵是H∈{h1,h2,...,hN}，输入
T d
数据重构矩阵是对于第i个样本xi＝[x1,x2,...,xd]∈R ，通过反向传递
算法优化最小化其重构误差，误差函数如下：

[0021]

[0022] 2)堆栈自编码器(StackAuto‑encoder,SAE)，是由AE堆叠的深度学习网络。本发明采用的是两个AE进行叠加，第一个AE获得的隐层特征将作为第二个自编码器的输入，第一
T h1
层自编码器的实现方式同上1)。假设h1＝[x1,x2,...,xh1]∈R 为样本通过第一个自编码器
的提取的隐变量，对于第二个自编码器，以h1作为输入向量通过非线性激活函数f转换为隐
T h2
藏特征h2＝[x1,x2,...,xh2]∈R ，根据式(1)有：

[0023] h2＝f(W2f(W1x+b1)+b2) (4)

[0024] 其中，W1∈Rh1×d和b1∈Rd分别为第一个自编码器输入层和隐含层间的权重矩阵和h2×h1 h1
偏置项，W2∈R 和b2∈R 分别为第二个自编码器输入层和隐含层间的权重矩阵和偏置
项。然后，输入向量通过解码器的输出层对隐变量向量h2进行重构获得：

[0025]

[0026] 和分别为第二个自编码器的隐藏层和输出层之间的权重矩阵和偏置向量。给定N个训练样本，有样本矩阵X＝{x1,x2,...,xN}，对应第一层的隐层特征
矩阵为H1＝{h1,1,h1,2,...,h1,N}，第二层的隐层特征矩阵为H2＝{h2,1,h2,2,...,h2,N}，输入数
T d
据的重构矩阵是对于第i个样本xi＝[x1,x2,...,xd] ∈R ，SAE通过反向
传递算法优化最小化其重构误差，误差函数如下：

[0027]

[0028] 根据以上1)、2)两个步骤，将利用生成的自编码器以提取原始数据的多组隐变量数据集。

[0029] 进一步地，上述步骤(4)中选择高斯过程回归模型GPR作为基模型并构建AE‑GPR基模型的实现步骤为：

[0030] 假设有原始数据集为经过步骤(3)的多样性自编码器数据预处理，将获得M个隐变量数据集，并由每个数据集训练和构建M个AE‑GPR子模型，
Dm表示训练第m个AE‑GPR模型的隐变量数据集，N表示数据集的样本
个数，xm,i表示第m个训练集的第i个样本，yi为对应的真实标签值，对于数据集Dm中的每个样
本xm,i在高斯过程回归模型中的预测输出服从高斯分布：

[0031]

[0032] 式(7)中，E(.)和Var(.)分别表示均值和方差算子；

[0033] 所述高斯过程回归模型可描述为：

[0034]

[0035] 式(8)中，km,i＝[C(xi,xm,1),…,C(xi,xm,N))]T,C是一个由X中每个样本彼此之前作协方差组成的NⅹN阶对称正定矩阵, 和分别为第m个AE‑GPR模型的预测均值与方差。

[0036] 进一步地，上述步骤(5)根据验证集样本Dval通过一级集成模型修剪获得预测性能无恶化的基模型的实现步骤为：

[0037] 1)首先，设置模型提升阈值Rimprove＝0，基于新生成学习器的验证性能较之在高斯过程回归模型上的验证性能不能恶化，否则其在测试样本上预测性能也较差的假设；

[0038] 2)其次，利用原始训练数据集Dtrn训练GPR基模型，验证集Dval进行验证，Dval＝{Xval,yval}，yval对应的预测结果为验证误差为RMSEval：

[0039]

[0040] 为第i个验证样本的预测值，yi为真实值；

[0041] 3)再次，根据上述步骤(3)、(4)构建的多样性AE‑GPR基模型，利用训练集和验证集训练和验证每个模型，获得验证误差

[0042]

[0043] 4)根据2)、3)计算模型的性能提升率如下；

[0044]

[0045] 5)对于第m个AE‑GPR基模型，根据模型性能提升率，如果这表示该模型被选中，则保留模型，经过一级集成模型修剪，将获得S个预测性能较高的集成基
模型。

[0046] 进一步地，上述步骤(6)进行二级集成修剪的实现步骤为：

[0047] 1)基于一级集成修剪的基础上，采用多目标进化优化算法(遗传算法)，据步骤(5)获得的验证集的预测输出即将N个预测输出作为待优化的决策变量，
令目标优化函数f1及优化约束函数如下：

[0048]

[0049]

[0050] 式(12)中为待优化的精度目标函数，yi为待优化的决策变量，lb和ub分别为变量y的约束下限和约束上限。精度目标函数定义为基于验证数据的平均预测误差：

[0051]

[0052] 其中，RNSEs,val为验证样本集在第s个模型上的预测均方根误差；

[0053] 2)目标函数f2定义为基于验证数据的任意一个模型与任意一个模型相关系数和的平均值，即可将多样性目标函数f2的定义为如下：

[0054]

[0055] 其中，Sselect为最终选择的基模型数，(14)式中第α个AE‑GPR模型和第β个AE‑GPR模型的相关系数为r(eα,eβ)：

[0056]

[0057] 任意两个误差之间的协方差由Cov(*,*)、方差由Var(*)表示。所以目标函数设定为(14)、(15)式。根据目标函数最小化，模型精度和多样性最高，可将优化问题转化为如下：

[0058] min[f1,f2]＝min[RMSEavg,val,ravg,val] (16)

[0059] 3)选择合适的种群数、迭代次数等参数，进行迭代、优化、选择、并解码Pareto最优解集，获得二次修剪的Sselect个AE‑GPR集成基模型。

[0060] 与现有技术相比，本发明的有益效果是：本发明所提出的基于自编码器多样性生成机制的集成学习软测量建模方法，考虑了难以获取与关键质量相关的数据的深层特征表
示即隐变量以及数据采样过程造成的非线性问题，引入自编码器多样性生成机制提取隐变
量，结合传统的建模方法作为基模型，并设置模型提升率阈值和引入进化优化算法对基模
型组进行双重集成修剪，既有效保证了基模型的预测性能和多样性也降级了集成模型复杂
度。最终构建的高性能集成模型为过程检测提供了有效地途径。

附图说明

[0061] 图1是本发明中基于自编码器多样性生成机制的集成学习软测量建模方法的流程图；

[0062] 图2是传统监督高斯过程回归方法的预测值与真实值的曲线图；

[0063] 图3是本发明中基于自编码器多样性生成机制的集成学习软测量建模方法在脱丁烷塔工业过程应用案例中预测值与真实值的曲线图。

具体实施方式

[0064] 下面将依附技术方案流程图对本发明的实施例作详细说明，且本发明的保护范围不局限于本方案涉及案例。

[0065] 实施例1

[0066] 第一步：利用集散控制系统或离线检测的方法，收集工业过程数据，并确定关键质d
量变量y和辅助变量x，x＝[x1，x2，…，xd]∈R ,xd代表样本的第d个特征，x的维度为d维。

[0067] 第二步：基于Z‑Score归一化方法，对数据集进行归一化预处理，得到均值为0，方差为1的数据集，并划分为训练集Dtrn、测试集Dtest和验证集Dval。

[0068] 第三步：根据设置不同的隐层节点数、稀疏性参数、稀疏惩罚项以及堆栈的自编码器个数等不同参数的组合，生成多样性的自编码器以提取原始数据的隐变量。

[0069] 1)其中，自编码器(AE)是一种无监督的单隐层神经网络，它的输出层设为与输入层神经网络节点相等。AE的目的是在输出层尽可能准确地重建原始输入。假设样本x＝[x1，
T d T h
x2，...，xd]∈R 和h＝[x1,x2,...,xh]∈R分别表示AE的原始输入和隐层，d和h分别为输入
和输出的维度；是输出层的重构输入变量向量；利用编码器，x
通过非线性激活函数f转换为隐藏特征h：

[0070] h＝f(Wx+b) (1)

[0071] 其中，W∈Rh×d和b∈Rh分别为输入层和隐含层间权重矩阵和偏置项，然后，输入向量通过解码器的输出层对隐变量向量h进行重构获得：

[0072]

[0073] 和分别为隐藏层和输出层之间的权重矩阵和偏置向量，给定N个训练样本，有样本矩阵X＝{x1,x2,...,xN}，对应的隐层特征矩阵是H∈{h1,h2,...,hN}，输入
T d
数据重构矩阵是对于第i个样本xi＝[x1,x2,...,xd]∈R ，通过反向传递
算法优化最小化其重构误差，误差函数如下：

[0074]

[0075] 2)堆栈自编码器(Stack Auto‑encoder,SAE)，是由AE堆叠的深度学习网络。本发明采用的是两个AE进行叠加，第一个AE获得的隐层特征将作为第二个自编码器的输入，第
T h1
一层自编码器的实现方式同上1)。假设h1＝[x1,x2,...,xh1]∈R 为样本通过第一个自编码
器的提取的隐变量，对于第二个自编码器，以h1作为输入向量通过非线性激活函数f转换为
T h2
隐藏特征h2＝[x1,x2,...,xh2]∈R ，根据式(1)有：

[0076] h2＝f(W2f(W1x+b1)+b2) (4)

[0077] 其中，W1∈Rh1×d和b1∈Rd分别为第一个自编码器输入层和隐含层间的权重矩阵和h2×h1 h1
偏置项，W2∈R 和b2∈R 分别为第二个自编码器输入层和隐含层间的权重矩阵和偏置
项。然后，输入向量通过解码器的输出层对隐变量向量h2进行重构获得：

[0078]

[0079] 和分别为第二个自编码器的隐藏层和输出层之间的权重矩阵和偏置向量。给定N个训练样本，有样本矩阵X＝{x1,x2,...,xN}，对应第一层的隐层特征
矩阵为H1＝{h1,1,h1,2,...,h1,N}，第二层的隐层特征矩阵为H2＝{h2,1,h2,2,...,h2,N}，输入数
T d
据的重构矩阵是对于第i个样本xi＝[x1,x2,...,xd]∈R ，SAE通过反向
传递算法优化最小化其重构误差，误差函数如下：

[0080]

[0081] 根据以上1)、2)两个步骤，将利用自编码器以提取原始数据的多组隐变量。

[0082] 第四步：假设有原始数据集为经过步骤(3)的多样性自编码器数据预处理，将获得M个隐变量数据集，并由每个数据集训练和构建M个AE‑GPR子模型，
Dm表示训练第m个AE‑GPR模型的隐变量数据集，N表示数据集的
样本个数，xm,i表示第m个训练集的第i个样本，yi为对应的真实标签值，对于数据集Dm中的每
个样本xm,i在高斯过程回归模型中的预测输出服从高斯分布：

[0083]

[0084] 式(7)中，E(.)和Var(.)分别表示均值和方差算子；

[0085] 所述高斯过程回归模型可描述为：

[0086]

[0087] 式(8)中，km,i＝[C(xi,xm,1),…,C(xi,xm,N))]T,C是一个由X中每个样本彼此之前作协方差组成的NⅹN阶对称正定矩阵, 和分别为第m个AE‑GPR模型的预测均值与方差。

[0088] 第五步：通过一级模型修剪获得在验证集Dval上无性能恶化的基模型：

[0089] 1)首先，设置模型提升率阈值Rimprove＝0，基于新生成学习器的验证性能较之在高斯过程回归模型上的验证性能不能恶化，否则其在测试样本上预测性能也较差的假设；

[0090] 2)其次，利用原始训练数据集Dtrn训练GPR基模型，验证集Dval进行验证，Dval＝{Xval,yval}，yval对应的预测结果为验证误差为RMSEval：

[0091]

[0092] 为第i个验证样本的预测值，yi为真实值；

[0093] 3)再次，根据上述第三步、第四步骤构建的多样性AE‑GPR基模型，利用训练集和验证集训练和验证每个模型，获得验证误差

[0094]

[0095] 4)根据2)、3)计算模型的性能提升率如下；

[0096]

[0097] 5)对于第m个AE‑GPR基模型，根据模型性能提升率，若表示该模型被选中，则保留该模型，通过一级模型修剪，将获得S个预测性能较高的集成基模型。

[0098] 第六步，基于进化多目标优化算法进行二级修剪：

[0099] 1)第六步将引入进化多目标优化算法，进一步对基学习器进行筛选。据第五步所获得的基模型，预测验证集的输出并将N个预测输出作为待优化的决
策变量，令目标优化函数f1及优化约束函数如下：

[0100]

[0101]

[0102] 式(12)中为待优化的精度目标函数，为待优化的决策变量，lb和ub分别为变量y的约束下限和约束上限。精度目标函数定义为基于验证数据的平均预测误差：

[0103]

[0104] 其中，RMSEs,val为验证样本集在第s个模型上的预测均方根误差；

[0105] 2)目标函数f2定义为基于验证数据的任意一个模型与任意一个模型相关系数和的平均值，即可将多样性目标函数f2的定义为如下：

[0106]

[0107] 其中，Sselect为最终选择的基模型数，式(14)中第α个和第β个AE‑GPR模型的相关系数为r(eα,eβ)：

[0108]

[0109] 任意两个误差之间的协方差由Cov(*,*)、方差由Var(*)表示。所以目标函数设定为式(14)、(15)。根据目标函数最小化，模型精度和多样性最高，可将优化问题转化为如下：

[0110] min[f1,f2]＝min[RMSEavg,val,ravg,val] (16)

[0111] 3)设置的种群数、迭代次数和Pareto解个数范围分别为[100‑300]、[50‑100]和[5‑20]。本实施例发现种群数、迭代次数和Pareto解个数分别为100、50和10，实验效果较
好，通过迭代、优化、选择、并解码Pareto解集，获得二次修剪的Sselect个AE‑GPR集成基模型。

[0112] 第七步，采用GPRStacking集成策略将最终获得的Sselect个模型进行融合并测试，最终实现对工业过程中关键质量参数的监测。

[0113] 1)利用测试集在第四步中的多样性AE‑GPR模型得到测试样本的预测输出

[0114] 2)将第六步中选择的Sselect个基模型对应的验证样本的预测值向量和测试样本的预测值向量并以被选中的Sselect个验证样本的预测值向量作为新的训
练样本，测试样本的预测值向量作为新的测试输入，原始的验证样本真实标签作
为新的训练样本的标签，训练传统的AE‑GPR模型，最终获得测试样本的预测结果并反归一
化，即为最终的集成预测输出

[0115] 上方方法适合多种工业过程质量变量参数的监测，本实施例结合脱丁烷塔工业过程案例的实施验证本发明的有效性。脱丁烷塔是石油提炼行业的重要单元，旨在分离丙烷
和丁烷。该过程主要由六个装置组成：塔顶冷凝器，热交换器，塔顶回流泵，底部再沸器，回
流蓄能器和液化石油气分离器的进料泵。为了进行工艺控制和产品质量监控，必须将底部
产品中丁烷的含量降至最低，因此有必要及时测量丁烷的含量。

[0116] 表1给出了针对关键质量变量丁烷浓度所选择的7个辅助变量。

[0117] 表1辅助变量说明

[0118]

[0119]

[0120] 针对该过程，除了考虑过程数据的非线性特性，还考虑到其数据动态特性。因此，为了有效解决动态问题，对于每个时刻的样本，方案将其前六个时刻的变量作为当前时刻
的延迟变量加入训练集中，最终构造出总计49个输入变量的训练样本。本发明案例样本总
数为2094个，数据划分阶段，从第一个样本开始每隔2个样本选取，总计1194个样本作为训
练集；从第二个样本开始，每隔4个样本选取，总计597个样本作为验证集；从第四个样本开
始，每隔4个样本选取，总计597个样本作为测试集。

[0121] 本发明实施案例采用均方根误差RMSE和决定系数R2作为集成模型预测性能的评价指标，如下所示：

[0122]

[0123]

[0124] 式中Ntest、 ytest、分别表示测试样本个数、测试样本预测值、测试样本真2
实值、测试样本真实值的均值，RMSE值越小且R值越大，说明模型预测性能越好。

[0125] 表2不同方法在脱丁烷塔化工过程中的预测性能评价对比

[0126]

[0127] 根据表2可以看出，本发明提出的建模方法对比传统的高斯过程回归建模方法，本发明提出的EAE‑GPR软测量建模方法预测性能更佳，不但利用自编码器获得了输入变量的
隐层特征信息，还解决了关键质量变量和辅助变量间的非线性特性，结合双重集成修剪策
略，有效地降低了模型集成复杂度，同时兼顾了模型的多样性和预测精度，本发明充分体现
出了自身的优势。

[0128] 上述案例用来解释说明本发明的有效性和可行性，本发明的重点在于利用自编码器提取隐变量数据，并训练一组多样且预测精确的基学习器，引入模型修剪和集成策略是
为了解决工业过程数据中存在的非线性、过程动态特性及常规的单一模型预测性能不佳的
问题，而非针对某一个数值案例，更不是对本发明进行限制，在本发明的精神和权利要求保
护范围内，未对本发明做出的任何修改或改进，都将受到本发明的保护范围限制。

基于自编码器多样性生成机制的集成学习软测量建模方法转让专利

申请号 : CN202110436544.2

文献号 : CN112989635B

文献日 : 2022-05-06

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 金怀平 , 王建军

申请人 : 昆明理工大学

摘要 :

权利要求 :

说明书 :