一种基于近红外光谱和混合损失的谷氨酸浓度测量方法转让专利

申请号 : CN202311054937.2

文献号 : CN116793991B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 穆国庆何帅焦绪国权利敏刘井响

申请人 : 青岛理工大学

摘要 :

本发明属于计算机化学技术领域,公开了一种基于近红外光谱和混合损失的谷氨酸浓度测量方法,收集近红外光谱和相应的谷氨酸浓度,获得建模训练集;采用LSSVM模型和留一交叉验证方法其进行拟合,然后去除异常样本;采用移动平均法处理干净的近红外光谱Xc,得到移动平均处理后的近红外光谱Xa;最后基于一维搜索和混合损失建立基于移动平均法处理的LSSVM模型,并确定最佳谷氨酸浓度预测模型,将实时获得的新近红外光谱输入到预测模型中,即可实现谷氨酸浓度的实时在线预测,准确性高。

权利要求 :

1.一种基于近红外光谱和混合损失的谷氨酸浓度测量方法,其特征在于,包括以下步骤:步骤1:收集近红外光谱和相应的谷氨酸浓度,获得建模训练集;

其中用 表示工业谷氨酸发酵过程实时测量的近红外光谱,

对于每一条近红外光谱用 表示,其中N和M表示测量近红外光谱的数目和近红外光谱维度,x1,x2,...,xN分别是第1,2,...,N条近红外光谱,xi1,xi2,...,xiM分别是第i条近红外光谱的第1,2,...,M个近红外光谱变量,T表示转置;用表示离线生物传感分析仪获得的与近红外光谱对应的真实谷氨酸浓度,其中y1,y2,...,yN分别是第1,2,...,N条近红外光谱对应的真实谷氨酸浓度;

步骤2:采用LSSVM和留一交叉验证方法对步骤1收集的近红外光谱和相应的谷氨酸浓度进行建模,得到预测模型 的模型参数及对应的预测值 ;

步骤3:根据相对误差采用 准则去除异常样本,获得干净的近红外光谱Xc与对应的真实谷氨酸浓度yc;具体是:首先根据步骤2获得的预测值 与真实值y,进而计算二者的相对误差 ;然后根据准则,将不符合准则的样本确定为异常样本,移出训练集,选取符合 准则的近红外光谱样本和对应的真实谷氨酸浓度作为最终的建模集,即干净的近红外光谱Xc和对应的真实谷氨酸浓度yc,其中 表示根据 准则获得的干净的近红外光谱,是与干净的近红外光谱对应的真实谷氨酸浓度, 准则如公式所示:

,  (3);

其中, 为 的平均值, 为 的标准偏差, 为预测的谷氨酸浓度与真实谷氨酸浓度的相对误差, 为第i个原始收集近红外光谱对应的真实谷氨酸浓度与预测值的相对误差;

步骤4:采用移动平均法处理干净的近红外光谱Xc,得到移动平均处理后的近红外光谱Xa;

其中移动平均法是根据时间序列信息,计算移动窗口内数据的平均值,具体是:针对批次谷氨酸发酵过程,确定每一批的样本,然后对每一批样本独立进行移动窗口处理,得到一个由均值组成的数组,其中每个均值是根据要处理样本的相邻元素结合移动窗口计算;

当窗口大小为奇数时,窗口以当前位置的元素为中心;当窗口大小为偶数时,窗口以当前元素和其之前的元素为中心;当滑动到数据末端,剩余元素小于窗口时,窗口会自动在端点处被截断;

步骤5:基于一维搜索和混合损失建立基于移动平均法处理的LSSVM模型,并确定最佳谷氨酸浓度预测模型 ;

具体是:将移动平均处理后的近红外光谱Xa与对应的真实谷氨酸浓度yc,干净的近红外光谱Xc与对应的真实谷氨酸浓度yc共同输入到新的LSSVM模型,进行建模,得到谷氨酸浓度预测模型 ,其中混合损失是采用干净的近红外光谱Xc和移动平均处理后的近红外光谱Xa获得的谷氨酸浓度预测值与真实谷氨酸浓度的均方根误差共同构建;混合损失的定义如下:混合损失=hRMSECo+(1‑h)RMSECm  (5);

其中RMSECo是采用干净的近红外光谱Xc获得的谷氨酸浓度预测值和对应的真实谷氨酸浓度yc获得的均方根误差,RMSECm是采用移动平均处理后的近红外光谱Xa获得的谷氨酸浓度预测值和对应的真实谷氨酸浓度yc获得的均方根误差,h是RMSECo和RMSECm的平衡权重;

利用留一交叉验证,通过一维搜索以训练数据集的混合损失最小确定窗口大小,由此确定谷氨酸浓度预测模型 ;

步骤6:谷氨酸浓度的实时在线预测:

将实时获得的新近红外光谱xnew输入到步骤1‑5确定的预测模型 中,即可实现谷氨酸浓度的实时在线预测,即获得预测值 。

2.根据权利要求1所述的一种基于近红外光谱和混合损失的谷氨酸浓度测量方法,其特征在于,步骤2中,利用留一交叉验证方法,根据损失函数均方根误差最小的原则,得到预测模型 的模型参数及对应的预测值 ,其表示为如下:(2);

其中, 为预测模型 的高斯核函数, 是预测模型 的拉格朗日乘数,为预测模型 的常值偏差。

3.根据权利要求1所述的一种基于近红外光谱和混合损失的谷氨酸浓度测量方法,其特征在于,步骤5中,谷氨酸浓度预测模型 ,表示如下(4);

其中, 为预测模型 的高斯核函数, 是预测模型 的拉格朗日乘数, 为预测模型 的常值偏差。

说明书 :

一种基于近红外光谱和混合损失的谷氨酸浓度测量方法

技术领域

[0001] 本发明属于计算机化学技术领域,特别涉及一种基于近红外光谱和混合损失的谷氨酸浓度测量方法。

背景技术

[0002] 谷氨酸发酵是生物发酵的重要组成部分,它是生产谷氨酸钠的关键因素。为了获得高质量的谷氨酸产品,在操作工业谷氨酸发酵过程中,有必要建立一个准确的谷氨酸浓度实时测量方法。传统测量方法是通过长间隔取样的方式进行离线测量,导致获得产品质量信息存在明显时间滞后,并且人工测量误差较大。近红外(Near Infrared,NIR)光谱法由于具有无损测量和无需样品制备的重要优势,已经越来越多地被用于生物发酵过程产品质量的在线测量。
[0003] 近红外光谱具有测量微生物发酵过程中产物浓度的潜力。然而,许多应用集中在在线快速测量上,即从反应器中提取样品,在近红外光谱仪上进行测量。这种方法是对传统离线分析的改进,因为它可以在几分钟内迅速给出结果。然而,这种测量模式仍然需要将样品从工艺中取出并处理,并在反应器中设置一个旁路,用近红外光谱仪对旁路进行测量。这种方法是对在线分析的一种改进,然而这种测量模式仍然需要在工艺中添加额外的设备,并不是真正反映过程的实际情况。因此,理想的方法是将近红外探头直接放入反应器中进行测量。
[0004] 在实际应用中,建立工业级近红外光谱标定模型存在以下问题:(1)实际工业过程环境复杂,得到的近红外光谱变量与谷氨酸浓度存在大量异常值。(2)实际工业过程环境复杂,近红外光谱变量与谷氨酸浓度有非线性关系。(3) 工业中的实验室与生产装置往往相隔甚远,这就导致了测量近红外光谱与离线分析值出现不匹配问题。
[0005] 如何在真实复杂的工业环境中为近红外光谱建立一个准确的标定模型,以确保发酵过程中产品浓度测量的准确性,是一个有待解决的问题。到目前为止,很少有学者关注在大规模工业环境中通过定量模型测量发酵过程产物浓度。由于工业环境中的高噪声干扰和近红外光谱标签不匹配,传统有效的近红外光谱建模方法,如最小二乘支持向量机(Least squares support vector machine,LSSVM),最小绝对收缩和选择算子(Minimum absolute shrinkage and selection operator ,Lasso),甚至高度鲁棒的偏最小二乘(Partial least squares, PLS)方法,在面对现实复杂的工业环境时,谷氨酸浓度预测准确度较差。

发明内容

[0006] 针对现有技术存在的不足,本发明提供一种基于近红外光谱和混合损失的谷氨酸浓度测量方法,是一种基于移动平均法、自定义混合损失、一维搜索和LSSVM的工业谷氨酸近红外光谱建模方法。对于工业过程由于采集的近红外光谱与实验室测得的谷氨酸浓度不匹配问题,采用移动平均法处理近红外光谱,缓解不匹配现象。另外通过移动平均处理后的近红外光谱和原始干净近红外光谱建立LSSVM模型获得的预测值与真实谷氨酸浓度的均方根误差共同构建混合损失,利用留一交叉验证,通过一维搜索以混合损失最小确定最佳移动窗口数,由此确定最佳谷氨酸浓度预测模型。最后将实时获得的新近红外光谱输入到预测模型中便可实现谷氨酸浓的在线实时测量。
[0007] 为了解决上述技术问题,本发明采用的技术方案是:
[0008] 一种基于近红外光谱和混合损失的谷氨酸浓度测量方法,包括以下步骤:
[0009] 步骤1:收集近红外光谱和相应的谷氨酸浓度,获得建模训练集,用于建立近红外光谱标定模型;
[0010] 其中用 表示工业谷氨酸发酵过程实时测量的近红外光谱,对于每一条近红外光谱用 表示,其中N和M表示测量近红
外光谱的数目和近红外光谱维度,x1,x2,...,xN分别是第1,2,...,N条近红外光谱,xi1,xi2,...,xiM分别是第i条近红外光谱的第1,2,...,M个近红外光谱变量,T表示转置;用表示离线生物传感分析仪获得的与近红外光谱对应的真实谷氨酸
浓度,其中y1,y2,...,yN分别是第1,2,...,N条近红外光谱对应的真实谷氨酸浓度;
[0011] 步骤2:采用LSSVM和留一交叉验证方法对步骤1收集的近红外光谱和相应的谷氨酸浓度进行建模,得到预测模型 的模型参数及对应的预测值 ;
[0012] 步骤3:根据相对误差采用 准则去除异常样本,获得干净的近红外光谱Xc与对应的真实谷氨酸浓度yc;具体是:
[0013] 首先根据步骤2获得的预测值 与真实值y,进而计算二者的相对误差 ;然后根据 准则,将不符合准则的样本确定为异常样本,移出训练集,选取符合 准则的近红外光谱样本和对应的真实谷氨酸浓度作为最终的建模集,即干净的近红外光谱Xc和对应的真实谷氨酸浓度yc,其中 表示根据 准则获得的干净的近红外光谱, 是与干净的近红外光谱对应的真实谷氨酸浓度, 准则如公
式所示:
[0014] ,  (3);
[0015] 其中, 为 的平均值, 为 的标准偏差, 为预测的谷氨酸浓度与真实谷氨酸浓度的相对误差, 为第i个原始收集近红外光谱对应的真实谷氨酸浓度与预测值的相对误差;
[0016] 步骤4:采用移动平均法处理干净的近红外光谱Xc,得到移动平均处理后的近红外光谱Xa;
[0017] 其中移动平均法是根据时间序列信息,计算移动窗口内数据的平均值,具体是:针对批次谷氨酸发酵过程,确定每一批的样本,然后对每一批样本独立进行移动窗口处理,得到一个由均值组成的数组,其中每个均值是根据要处理样本的相邻元素结合移动窗口计算;
[0018] 当窗口大小为奇数时,窗口以当前位置的元素为中心;当窗口大小为偶数时,窗口以当前元素和其之前的元素为中心;当滑动到数据末端,剩余元素小于窗口时,窗口会自动在端点处被截断;
[0019] 步骤5:基于一维搜索和混合损失建立基于移动平均法处理的LSSVM模型,并确定最佳谷氨酸浓度预测模型 ;
[0020] 具体是:将移动平均处理后的近红外光谱Xa与对应的真实谷氨酸浓度yc,干净的近红外光谱Xc与对应的真实谷氨酸浓度yc共同输入到新的LSSVM模型,进行建模,得到谷氨酸浓度预测模型 ,
[0021] 其中混合损失是采用干净的近红外光谱Xc和移动平均处理后的近红外光谱Xa获得的谷氨酸浓度预测值与真实谷氨酸浓度的均方根误差共同构建;
[0022] 步骤6:谷氨酸浓度的实时在线预测:
[0023] 将实时获得的新近红外光谱xnew输入到步骤1‑5确定的预测模型 中,即可实现谷氨酸浓度的实时在线预测,即获得预测值 。
[0024] 进一步的,步骤2中,利用留一交叉验证方法,根据损失函数均方根误差最小的原则,得到预测模型 的模型参数及对应的预测值 ,其表示为如下:
[0025] (2);
[0026] 其中, 为预测模型 的高斯核函数, 是预测模型 的拉格朗日乘数,为预测模型 的常值偏差。
[0027] 进一步的,步骤5中,谷氨酸浓度预测模型 ,表示如下
[0028] (4);
[0029] 其中, 为预测模型 的高斯核函数, 是预测模型 的拉格朗日乘数, 为预测模型 的常值偏差。
[0030] 进一步的,步骤5中,混合损失的定义如下:
[0031] 混合损失=hRMSECo+(1‑h)RMSECm  (5);
[0032] 其中RMSECo是采用干净的近红外光谱Xc获得的谷氨酸浓度预测值和对应的真实谷氨酸浓度yc获得的均方根误差,RMSECm是采用移动平均处理后的近红外光谱Xa获得的谷氨酸浓度预测值和对应的真实谷氨酸浓度yc获得的均方根误差,h是RMSECo和RMSECm的平衡权重;
[0033] 利用留一交叉验证,通过一维搜索以训练数据集的混合损失最小确定窗口大小,由此确定谷氨酸浓度预测模型 。
[0034] 与现有技术相比,本发明优点在于:
[0035] 对于工业过程由于采集的近红外光谱与实验室测得的谷氨酸浓度不匹配问题,本发明采用移动平均法处理近红外光谱,缓解不匹配现象;通过移动平均处理后的近红外光谱与对应的谷氨酸浓度和原始干净近红外光谱与对应的谷氨酸浓度建立LSSVM模型,并将二者的均方根误差共同构建混合损失,然后使用一维搜索以混合损失最小确定最佳移动窗口数,由此确定最佳预测模型(近红外标定模型),本发明可实现工业谷氨酸浓度实时预测,准确性高。

附图说明

[0036] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037] 图1为本发明的方法流程图;
[0038] 图2为本发明的移动平均处理原理图;
[0039] 图3为本发明的实施例中谷氨酸发酵过程的谷氨酸浓度在线测量结果。

具体实施方式

[0040] 下面结合附图及具体实施例对本发明作进一步的说明。
[0041] 结合图1所示的基于近红外光谱和混合损失的工业谷氨酸发酵过程产品浓度测量方法,本实施例设计了一种基于近红外光谱和混合损失的谷氨酸浓度测量方法,包括以下步骤:
[0042] 步骤1:收集近红外光谱和相应的谷氨酸浓度,获得建模训练集,用于建立基于近红外光谱的谷氨酸浓度预测模型;
[0043] 为了建立近红外光谱标定模型,用 表示工业谷氨酸发酵过程实时测量的近红外光谱,对于每一条近红外光谱用
表示,其中N和M表示测量近红外光谱的数目和近红外光谱维度,x1,x2,...,xN分别是第1,
2,...,N条近红外光谱,xi1,xi2,...,xiM分别是第i条近红外光谱的第1,2,...,M个近红外光谱变量,T表示转置;用 表示离线生物传感分析仪获得的与近红外光
谱对应的真实谷氨酸浓度(即与近红外光谱对应的离线检测参考数据),其中y1,y2,...,yN分别是第1,2,...,N条近红外光谱对应的真实谷氨酸浓度。
[0044] 步骤2:采用LSSVM和留一交叉验证方法对步骤1收集的近红外光谱和相应的谷氨酸浓度进行建模。
[0045] 利用留一交叉验证方法,根据损失函数均方根误差RMSEC的原则,得到预测模型的模型参数及对应的预测值 ,其表示为如下
[0046] (2);
[0047] 其中, 为预测模型 的高斯核函数, 是预测模型 的拉格朗日乘数,为预测模型 的常值偏差,是测量近红外光谱的数目。
[0048] 步骤3:根据相对误差采用 准则去除异常样本,获得干净的近红外光谱样本Xc与对应的真实谷氨酸浓度yc。
[0049] 首先根据步骤2获得的预测值 与真实值y,进而计算二者的相对误差 ;然后根据 准则,将不符合准则的样本确定为异常样本,移出训练集,选取符合 准则的近红外光谱样本和对应的真实谷氨酸浓度作为最终的建模集,即干净的近红外光谱Xc和对应的真实谷氨酸浓度yc,其中 表示根据 准则获得的干净的近红外光谱, 为与干净的近红外光谱对应的真实谷氨酸浓度, 准则如公
式所示:
[0050] ,  (3);
[0051] 其中, 为 的平均值, 为 的标准偏差, 为预测的谷氨酸浓度与真实谷氨酸浓度的相对误差, 为第i个原始收集近红外光谱对应的真实谷氨酸浓度与预测值的相对误差。
[0052] 步骤4:采用移动平均法处理干净的近红外光谱Xc,得到移动平均处理后的近红外光谱Xa。
[0053] 移动平均法是根据时间序列信息,计算移动窗口内数据的平均值,以反映长期趋势。因此,由于离线实验室分析在采样后需要较长的时间来获得谷氨酸浓度,移动平均法可以减少这种影响。
[0054] 具体是:针对批次谷氨酸发酵过程,需要确定每一批的样本,然后对每一批独立进行移动窗口处理。其主要思路是通过移动平均过程,得到一个由均值组成的数组,其中每个均值是根据要处理样本的相邻元素结合移动窗口计算。当窗口大小为奇数时,窗口以当前位置的元素为中心。当窗口大小为偶数时,窗口以当前元素和其之前的元素为中心。当滑动到数据末端,剩余元素小于窗口时,窗口会自动在端点处被截断。
[0055] 图2以5个样本点和窗口大小2为例来说明移动平均的处理策略,[xc1, xc2, xc3, xc4, xc5]表示干净的近红外光谱,[xa1, xa2,xa3, xa4, xa5]表示移动平均处理后的近红外光谱, 表示对应的真实谷氨酸浓度。经过这样的处理后,可以得到一个与原始近红外光谱相同尺寸相同的新近红外光谱。
[0056] 步骤5:基于一维搜索和混合损失建立基于移动平均法处理的LSSVM模型,并确定最佳谷氨酸浓度预测模型 。
[0057] 将移动平均处理后的近红外光谱Xa与对应的真实谷氨酸浓度yc,干净的近红外光谱Xc与对应的真实谷氨酸浓度yc共同输入到新的LSSVM模型,进行建模,得到谷氨酸浓度预测模型 ,表示如下
[0058] (4);
[0059] 其中, 为预测模型 的高斯核函数, 是预测模型 的拉格朗日乘数, 为预测模型 的常值偏差。
[0060] 移动平均法中最重要的参数是窗口大小,它决定了整个方法的好坏。一维搜索可以简单有效的确定最佳的窗口大小。虽然采用移动平均滑动窗口可以解决测量近红外光谱与离线化验值的失配问题,但是在实时检测过程中,光谱标定模型是基于原始采集近红外光谱进行预测。因此,这里提出采用干净的近红外光谱和移动平均处理后的近红外光谱获得的谷氨酸浓度预测值与真实谷氨酸浓度的均方根误差共同构建混合损失。
[0061] 通过一维搜索,给定适当窗口大小,通过留一交叉验证以训练数据集的混合损失最小化为原则,确定最佳窗口大小和最佳预测模型 。其中混合损失的定义如下:
[0062] 混合损失=hRMSECo+(1‑h)RMSECm  (5);
[0063] 其中RMSECo是采用干净的近红外光谱Xc获得的谷氨酸浓度预测值和对应的真实谷氨酸浓度yc获得的均方根误差,RMSECm是采用移动平均处理后的近红外光谱Xa获得的谷氨酸浓度预测值和对应的真实谷氨酸浓度yc获得的均方根误差,h是RMSECo和RMSECm的平衡权重。
[0064] 步骤6:谷氨酸浓度的实时在线预测:
[0065] 将实时获得的新近红外光谱xnew输入到步骤1‑5确定的预测模型 中,即可实现谷氨酸浓度的实时在线预测,即获得预测值 。
[0066] 为了验证本发明的有效性,采集了工业谷氨酸发酵过程数据进行验证。本例的发酵罐容量为500吨,罐中的温度、pH值、搅拌桨转速等由发酵控制设备控制,其中Pt100用于测量发酵罐中温度,pH计用于实时检测发酵过程pH值。
[0067] 实验中采用ABB公司制造的TALYS‑AS531傅里叶近红外光谱分析仪以及配套的浸入式漫反射探头采集近红外光谱。发酵罐、近红外光谱仪的浸入式透射探头和温度计在实‑1 ‑1验前进行了高压灭菌。近红外光谱采集波数范围为4000 cm ‑12000 cm ,近红外光谱仪分‑1
辨率为16 cm ,近红外光谱扫描次数为64次,采集的近红外光谱以蒸馏水为参考背景。原材料为葡萄糖,初始浓度约为3.5 g/L,经过约6小时的发酵后稳定在0.2 g/L,通过发酵过程转化为产品谷氨酸,整个发酵过程的持续时间约为30小时。在发酵过程中,利用近红外光谱仪来实时监测谷氨酸发酵反应过程。同时,每隔1小时从发酵罐中取50毫升的溶液,用生物传感分析仪(型号是SBA‑40D,山东省科学院生产)在实验室化验分析获得谷氨酸浓度,以获得参考数据用作对比分析。
[0068] 利用上述实验平台采集了7个批次发酵过程数据用于构建基于近红外光谱的工业谷氨酸浓度预测模型的训练集。7个批次一共采集了202个样本用于建模。从表中可以看出,每个批次用于建模的样本数都很小,不足40个,属于小样本建模问题。
[0069] 为了评估基于近红外光谱谷氨酸浓度预测模型对谷氨酸浓度的预测性能,这里采2
用预测集均方根误差RMSEP (root mean square error of prediction)、相关系数R (coefficient of determination) 评价指标,其计算公式分别为:
[0070] (6);
[0071] (7)
[0072] 其中 为测试集中第i个样本真实测量值, 为测试集的第i个样本的预测值,是预测样本的均值, 为样本数。
[0073] 为了验证模型的预测性能,通过一个独立批次的谷氨酸发酵实验对上述谷氨酸浓度预测模型进行验证,并与PLS,Lasso和LSSVM预测结果进行了对比,其结果见表1。
[0074] 表1 不同方法的R2和RMSEP结果的比较
[0075]
[0076] 从表1中可以看到本文提出方法的R2最大,RMSEP最小说明本文提出的建模方法有着最佳的预测效果。
[0077] 图3展示了本文提出的方法的预测结果,圆圈散点为基于近红外光谱和提出的预测模型实时预测的结果(即预测值),雪花散点数据为实验室化验分析获得真实谷氨酸浓度(即真实值)。
[0078] 从图3可以看出,本发明提出的模型的实时预测结果同离线检测参考值比较贴近,基本可以反映发酵过程谷氨酸浓度的变化趋势。由此进一步验证了本专利提出的预测模型具有良好的预测准确性。
[0079] 当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。