基于PPLS模型的青霉素发酵设计方法转让专利

申请号 : CN201811548726.3

文献号 : CN109491348B

文献日 : 2020-05-01

本发明公开了一种基于PPLS模型的间歇过程产品设计方法。本发明一种基于PPLS模型的间歇过程产品设计方法，历史运行数据中，输入条件数据为X，产品质量参数为Y，期望产品质量参数为ydes，输入条件为xpred，包括：根据历史运行数据和运行经验，选择用于建立模型的输入条件矩阵X和输出矩阵Y，建立PPLS模型；基于产品质量关于主元的条件概率分布，将期望产品质量参数作为产品质量的点估计，得到主元的点估计；基于主元关于操作轨迹的条件概率分布，使主元的估计等于由产品质量得到的点估计，从而估计出操作轨迹和操作空间。本发明的有益效果：本发明仅仅需要利用过程中现有的历史数据，即可进行产品的设计。

1.一种基于PPLS模型的青霉素发酵设计方法，历史运行数据中，输入条件矩阵为X，输出矩阵为Y，期望产品质量参数为ydes，输入条件为xpred，其特征在于，包括：根据历史运行数据和运行经验，选择用于建立模型的输入条件矩阵X和输出矩阵Y；

将三维的输入条件矩阵和输出矩阵按时间方向展开成二维扩展矩阵，每一列包括一个批次所有的测量值，每一行为所有批次某一运行时候的所有测量值；

建立PPLS模型；

判断产品质量参数是否在知识空间内如果不在知识空间内，则该方法不适用；如果在知识空间内，首先计算出产品质量参数关于主元的条件概率分布如下：则关于产品质量的估计可以表示为：

为了得到期望的产品质量，应满足

ydes＝Qt+μy (3)计算出期望的主元变量如下：

其中，H＝ydes-μy，λ＝{λ1,λ2,…,λv}为任意向量，v为自由度；λ任意变化都不会影响到产品质量，构成了主元的设计空间；

根据上述主元的估计值和设计空间，求输入条件；

“将三维的输入条件矩阵和输出矩阵按时间方向展开成二维扩展矩阵，每一列包括一个批次所有的测量值，每一行为所有批次某一运行时候的所有测量值；”中，展开后的输入矩阵维度为JK×I，产品质量参数矩阵维度为M×I；其中，I、J、M和K分别代表批次数、输入变量数、产品质量参数数和样本数；

“建立PPLS模型；”具体为：

其中tn为主元服从标准正态分布，en和fn分别为输入和产品质量模型的残差，P和Q为负荷向量矩阵，μx和μy分别为输入和产品质量参数的期望向量；

“根据上述主元的估计值和设计空间，求输入条件”具体为：由输入条件得到的主元条件概率分布为

其中，由输入条件得到的主元估计值为

由产品质量得到的期望主元变量和由输入条件得到的期望主元变量相同，则计算得到的输入条件如下：式中，U＝M-1PT，F＝U-1Q-1H，κ＝{κ1,κ2,…,κa+v}＝{λ1U-1,λ2U-1,…,λvU-1,w1,w2,…,wa}和e＝{e1,e2,…,ea+v}＝{c1,c2,…,cv,d1,d2,…,da}，{d1,d2,…,da}是式(6)的解向量，a是输入变量个数与主元个数之差，κ是可以在知识空间中任意变化的向量，和e决定了输入条件的设计空间；

其中，青霉素发酵过程初始条件如表1所示：

表1 初始条件

操作变量的设定值如下：

表2 操作变量

操作变量缺省值范围

基质流加速率(L/h) 0.042 0.035-0.045 通风速率(L/h) 8.6 3-10 搅拌功率(W) 30 20-50

选择操作变量和菌体浓度的初始值作为输入，青霉素浓度作为产品质量；采用30个批次的数据建立PPLS模型，得到主元个数为3个。

2.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述方法的步骤。

3.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1所述方法的步骤。

4.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1所述的方法。

基于PPLS模型的青霉素发酵设计方法

技术领域

[0001] 本发明涉及间歇过程工艺条件设计领域，具体涉及一种基于PPLS模型的间歇过程产品设计方法。

背景技术

[0002] 间歇过程中产品质量取决于初始条件、操作轨迹等，这些条件统称为输入条件。不同的输入条件对应不同的产品质量。因此，给定产品质量，如何得到输入条件一直是企业界和学术界的关注焦点。如何设计输入条件从而得到理想的产品质量的过程称为产品设计。

[0003] 目前，实际工业过程中，常用的产品设计方法主要有三水平正交实验法以及响应曲面法等。其中，三水平正交实验法在保持其它变量不变的情况下，设计单个变量的不同变化，从而在去除其它变量的变化对产品质量影响的基础上，考察单变量对产品质量的影响，工作量大；响应曲面法能够实现多变量同时变化对产品质量的影响，但是如果变量过多，则可能导致实验设计复杂，实验结果不直观等问题。

[0004] 随着计算机控制系统的普及以及传感技术的不断发展，工业过程中积累了大量的数据，不同的产品质量，不同的输入条件，这些构成了生产的知识空间。在该空间内，输入条件和产品质量满足一定的相关关系。如果能够合理利用该相关关系，那么产品设计的流程必然将得到大大简化。Jaeckle C M和MacGregor J F(详细参见文献：Jaeckle C M,MacGregor J F.Industrial applications of product design through the inversion of latent variable models[J].Chemometrics and Intelligent Laboratory Systems,2000,50:199-210.)首先将偏最小二乘(Partial Least Squares，PLS)建模方法应用于产品设计中，PLS的目的是对输入条件和产品质量同时进行信息提取，并使两者信息的相关性达到最大。基于PLS模型的产品设计方法具有可视性好(设计结果可以在低维空间显示)，能够克服输入条件之间相关性的影响(提取的信息不相关)，实现方便等特点，因此，该方法得到了广泛的重视，并取得了显著的应用效果。

[0005] 传统技术存在以下技术问题：

[0006] 但是，PLS模型是一种投影模型，而实际工业过程数据存在很大的随机性，显然概率模型更适合用于描述输入条件和产品质量之间的相关性。另一方面，由于概率框架下，概率推理方法以及贝叶斯理论等方法能够很方便地引入，使得概率模型在处理工业实际问题，比如离群点、多采样率、数据缺失以及多模型扩展等方面，具有PLS模型无法比拟的优点。

发明内容

[0007] 本发明要解决的技术问题是提供一种基于PPLS模型的间歇过程产品设计方法，间歇过程生产具有周期短、转型快、产品附加值高等优点，但是如何根据市场需求，尽快地设计并生产出预期的产品，是制约间歇过程生产的重要瓶颈。目前的方法大多需要进行大量的实验，耗时费力，并且效果不佳。本发明将概率PLS模型引入到产品设计中，解决以下两个方面的技术问题。一方面，PPLS模型下，产品设计的描述问题。企业人员对质量以及输入条件的通常认知都是确定性的值，而在PPLS模型下，所有的数据都是满足一定概率分布的随机值，因此，首先需要解决如何在概率模型下描述产品设计问题。比如，如何将确定性的预期产品质量表示为概率分布问题；预期产品质量下，如何模型反演，求取的信息(主元)分布表达问题；根据主元求解输入条件的问题。另一方面，PPLS模型下，产品设计空间问题。在设计空间内，输入条件的变化对产品质量的影响很小或者几乎无影响，因此任何输入条件都可以得到了期望的产品质量。基于PPLS模型的产品设计空间由两个环节产生，一个是由产品质量求主元的过程，此过程会产生主元空间；另一个则由主元求输入的过程，此过程会产生输入空间。通过解决以上两个方面的问题，本发明能够充分利用工业生产中的现有数据，求解出知识空间内产品质量的输入条件以及设计空间，缩短和减少企业产品开发时间和成本，并为企业后续进一步的优化提供合理空间。

[0008] 为了解决上述技术问题，本发明提供了一种基于PPLS模型的间歇过程产品设计方法，历史运行数据中，输入条件矩阵为X，输出矩阵为Y，期望产品质量参数为ydes，输入条件为xpred，包括：

[0009] 根据历史运行数据和运行经验，选择用于建立模型的输入条件矩阵X和输出矩阵Y；

[0010] 将三维的输入条件矩阵和输出矩阵按时间方向展开成二维扩展矩阵，每一列包括一个批次所有的测量值，每一行为所有批次某一运行时候的所有测量值；

[0011] 建立PPLS模型；

[0012] 判断产品质量参数是否在知识空间内如果不在知识空间内，则该方法不适用；如果在知识空间内，首先计算出产品质量参数关于主元的条件概率分布如下：

[0013]

[0014] 则关于产品质量的估计可以表示为：

[0015]

[0016] 为了得到期望的产品质量，应满足

[0017] ydes＝Qt+μy (3)

[0018] 计算出期望的主元变量如下：

[0019]

[0020] 其中，H＝ydes-μy，λ＝{λ1,λ2,…,λv}为任意向量，v为自由度；λ任意变化都不会影响到产品质量，构成了主元的设计空间；

[0021] 根据上述主元的估计值和设计空间，求输入条件。

[0022] 在其中一个实施例中，“将三维的输入条件矩阵和输出矩阵按时间方向展开成二维扩展矩阵，每一列包括一个批次所有的测量值，每一行为所有批次某一运行时候的所有测量值；”中，展开后的输入矩阵维度为JK×I，产品质量参数矩阵维度为M×I；其中，I、J、M和K分别代表批次数、输入变量数、产品质量参数数和样本数。

[0023] 在其中一个实施例中，“建立PPLS模型；”具体为：

[0024] 其中tn为主元服从标准正态分布，en和fn分别为输入和产品质量模型的残差，P和Q为负荷向量矩阵，μx和μy分别为输入和产品质量参数的期望向量。

[0025] 在其中一个实施例中，“根据上述主元的估计值和设计空间，求输入条件。”具体为：

[0026] 由输入条件得到的主元条件概率分布为

[0027]

[0028] 其中，由输入条件得到的主元估计值为

[0029]

[0030] 由产品质量得到的期望主元变量和由输入条件得到的期望主元变量相同，则计算得到的输入条件如下：

[0031]

[0032] 式中，U＝M-1PT，F＝U-1Q-1H，

[0033] κ＝{κ1,κ2,…,κa+v}＝{λ1U-1,λ2U-1,…,λvU-1,w1,w2,…,wa}和

[0034] e＝{e1,e2,…,ea+v}＝{c1,c2,…,cv,d1,d2,…,da}，{d1,d2,…,da}是式(6)的解向量，a是输入变量个数与主元个数之差，κ是可以在知识空间中任意变化的向量，和e决定了输入条件的设计空间。

[0035] 一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

[0036] 一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

[0037] 一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

[0038] 本发明的有益效果：

[0039] 实际工业过程中，主要采用三水平正交试验和响应曲面方法进行产品设计。在设计新产品时，需要重新根据不同的输入条件，设计并进行大量的试验，然后才能得到理想的输入条件。并且，这些方法在过程变量多时，工作量特别巨大，耗时费力。本发明仅仅需要利用过程中现有的历史数据，即可进行产品的设计，并且设计空间可以在低维主元空间中进行显示，具有可操作性、可视性好等特点。

[0040] 相比于基于PLS模型的产品设计方法，本发明方法采用的是PPLS模型，更符合实际工业过程的数据特点，提供了一个能够应用概率推理方法的概率模型框架，能够很好地处理实际工业过程中缺失数据、离群点以及多采样率等问题。

[0041] 另一方面，相比于基于PLS模型的产品设计方法，本发明得到的产品设计空间维度更高，也就是得到期望产品的输入条件的自由度更大，有利于用户更进一步的优化操作条件等，使得新产品开发更具有灵活性。

附图说明

[0042] 图1是本发明基于PPLS模型的间歇过程产品设计方法中设计空间的示意图。

具体实施方式

[0043] 下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

[0044] 本发明主要基于概率PLS(PPLS)模型，进行产品设计，解决了输入条件的求解问题，进一步求出了输入条件的设计空间，在该空间内，产品质量均符合期望，给企业的后续优化提供了可能。

[0045] 本发明是基于PPLS的产品设计方法，因此技术方案分为两个部分：建立PPLS模型；基于模型进行输入条件求解。首先根据生产过程的需求，以及生产过程的经验，选择输入条件以及产品质量参数，然后选择不同产品质量参数下的历史数据以及其对应的输入条件数据建立PPLS模型，其中PPLS模型的建立可以参见文献(S Li,J Gao,J O Nyagilo,D P Dave.Probabilistic partial least square regression:A robust model for
quantitative analysis of Raman spectroscopy data.IEEE International
Conference on Bioinformatics and Biomedicine,2011,526-531.)。在PPLS模型的基础上，首先根据给定的产品质量，确定产品质量参数的分布，并计算出能够得到期望产品质量的主元期望，再根据主元期望和主元关于输入的条件概率分布，求出输入条件。

[0046] 假设历史运行数据中，输入条件矩阵为X，输出矩阵为Y，期望产品质量参数为ydes，输入条件为xpred。具体的技术步骤如下：

[0047] 步骤1，根据历史运行数据和运行经验，选择用于建立模型的输入条件矩阵X和输出矩阵Y。

[0048] 步骤2，将三维的输入条件矩阵和输出矩阵按时间方向展开成二维扩展矩阵，每一列包括一个批次所有的测量值，每一行为所有批次某一运行时候的所有测量值，则展开后的输入矩阵维度为JK×I，产品质量参数矩阵维度为M×I。其中，I、J、M和K分别代表批次数、输入变量数、产品质量参数数和样本数。

[0049] 步骤3，建立PPLS模型，其中tn为主元服从标准正态分布，en和fn分别为输入和产品质量模型的残差，P和Q为负荷向量矩阵，μx和μy分别为输入和产品质量参数的期望向量。

[0050] 步骤4，判断产品质量参数是否在知识空间内(即历史数据所决定的空间内)，如果不在知识空间内，则该方法不适用。如果在知识空间内，首先计算出产品质量参数关于主元的条件概率分布如下：

[0051]

[0052] 则关于产品质量的估计可以表示为：

[0053]

[0054] 为了得到期望的产品质量，应满足

[0055] ydes＝Qt+μy (3)

[0056] 一般情况下，产品质量参数的维度要小于主元的维度，因此计算出期望的主元变量如下：

[0057]

[0058] 其中，H＝ydes-μy，λ＝{λ1,λ2,…,λv}为任意向量，v为自由度。λ任意变化都不会影响到产品质量，构成了主元的设计空间。

[0059] 步骤5，根据上述主元的估计值和设计空间，求输入条件。由输入条件得到的主元条件概率分布为

[0060]

[0061] 其中，由输入条件得到的主元估计值为

[0062]

[0063] 由产品质量得到的期望主元变量和由输入条件得到的期望主元变量相同，则计算得到的输入条件如下：

[0064]

[0065] 式中，U＝M-1PT，F＝U-1Q-1H，κ＝{κ1,κ2,…,κa+v}＝{λ1U-1,λ2U-1,…,λvU-1,w1,w2,…,wa}和e＝{e1,e2,…,ea+v}＝{c1,c2,…,cv,d1,d2,…,da}，{d1,d2,…,da}是式(6)的解向量，a是输入变量个数与主元个数之差。κ是可以在知识空间中任意变化的向量，和e决定了输入条件的设计空间。

[0066] 下面介绍本发明的一个具体应用场景：

[0067] 通过青霉素发酵过程的仿真应用来验证本发明。青霉素发酵过程是典型的间歇过程，青霉素的仿真软件Pensim已经广泛应用于各种过程监控、控制和优化等算法的验证中，具体的描述可以参见文献(Birol G,Undey C,Cinar A.A modular simulation package for fed-Batch fermentation:penicillin production.Computers&Chemical Engineering,2002；26(11):1553-1565.)。其初始条件如表1所示。

[0068] 表1初始条件

[0069]

[0070] 操作变量的设定值如下：

[0071] 表2操作变量

[0072]操作变量缺省值范围
基质流加速率(L/h) 0.042 0.035-0.045
通风速率(L/h) 8.6 3-10
搅拌功率(W) 30 20-50

[0073] 选择操作变量和菌体浓度的初始值作为输入，青霉素浓度作为产品质量。采用30个批次的数据建立PPLS模型，得到主元个数为3个。设定产品质量为1.3，则PPLS模型的产品设计空间(投影到主元空间内)如图1所示，

[0074] 其中，三角形点代表平面内的点，空心圆点代表在知识空间内的点。在该空间内，如果忽略模型的误差，则任何主元点对应的输入均能得到的满足期望要求的产品质量。

[0075] 以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

基于PPLS模型的青霉素发酵设计方法转让专利

申请号 : CN201811548726.3

文献号 : CN109491348B

文献日 : 2020-05-01

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 赵忠盖 , 李庆华 , 王志国 , 栾小丽 , 陈珺 , 刘飞

申请人 : 江南大学

摘要 :

权利要求 :

说明书 :