一种基于局部加权Lasso的近红外模型在线更新方法转让专利

申请号 : CN201810305190.6

文献号 : CN108827905B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 栾小丽刘进冯恩波赵忠盖王志国刘飞

申请人 : 江南大学

摘要 :

本发明提供一种基于局部加权Lasso的近红外模型在线更新方法,属于近红外在线检测领域。该方法分为四个部分:历史数据采集与预处理、得到相似度测量矩阵、建立局部Lasso模型和获取查询样本预测值。本发明提出基于局部加权Lasso的更新方法,兼具JITL方法可以克服工业过程非线性,增强算法泛化性能;以及能同时进行变量选择和回归,从而降低计算量,达到提高模型精度和预测能力,并进一步实现近红外在线分析检测技术的推广。

权利要求 :

1.一种基于局部加权Lasso的近红外模型在线更新方法,其特征在于,步骤如下:步骤一:历史数据采集与预处理

采集样本物性参数和近红外光谱原始数据组成历史数据库,作为样本校正集,对近红外光谱原始数据进行预处理,并对校正集的样本按照3σ准则进行异常值剔除;

步骤二:得到相似度测量矩阵

利用剔除异常值后的样本校正集,建立光谱矩阵 和物性参数矩阵其中,N为样本数目,M为光谱变量数目,xi第i个样本对应的光谱,yi为第i个样本对应的物性参数;

当新来一个查询样本xq时,依据自定义的相似度准则,计算查询样本xq与历史数据库中所有样本的相似度,赋予与xq相似度高的样本更大的权重,得到相似度测量矩阵:W=diag(w1,w2,…,wi),wi为历史数据库中第i个样本被赋予的权重;

步骤三:建立局部加权Lasso模型

(1)将光谱矩阵X作为自变量,物性参数矩阵Y作为因变量,分别对矩阵X和矩阵Y进行加权后的均值中心化处理,得到 和其中,1N∈RN是全为1的列向量,为N个样本的光谱加权平均值,为N个样本的物性参数加权平均值, 为均值中心化处理后的第i个样本的光谱, 为均值中心化处理后的第i个样本的物性参数;

(2)在原有的Lasso方法基础上,给公式(5)添加权值,得到局部加权Lasso建模方法,并得到估计的回归系数

其中,βLasso为Lasso建模方法估计的回归系数,βj为第j个变量对应的回归系数,λ为惩罚参数, 为局部加权Lasso建模方法估计的回归系数,xij为第i个样本的第j个光谱变量, 为均值中心化处理后的第i个样本的第j个光谱变量;

步骤四:获取查询样本预测值

(3)通过步骤三得到的估计的回归系数 完成对新来查询样本xq的预测;得到预测输出值后,丢弃当前模型,直到下一个新的查询样本xq′到来,重复步骤二、步骤三,建立新的局部加权Lasso模型,得到xq′的预测输出值,如此往返。

2.根据权利要求1所述的一种基于局部加权Lasso的近红外模型在线更新方法,其特征在于,所述的预处理方法为平滑法、微分法、标准化法、多元散射校正法、标准正态变量变换法或小波变换法。

3.根据权利要求1或2所述的一种基于局部加权Lasso的近红外模型在线更新方法,其特征在于,所述自定义的相似度准则是基于欧氏距离、马氏距离、角度、贝叶斯、相关性、数据密度、性能指标中的一种方法或两种以上方法的组合。

4.根据权利要求3所述的一种基于局部加权Lasso的近红外模型在线更新方法,其特征在于,当所述自定义的相似度准则采用欧氏距离时,wi的计算公式为:其中,σd是di的标准差,i=1,…,N,是位置参数。

说明书 :

一种基于局部加权Lasso的近红外模型在线更新方法

技术领域

[0001] 本发明属于近红外在线检测领域,尤其涉及一种基于局部加权Lasso的近红外模型在线更新方法。

背景技术

[0002] 近红外光谱分析技术以其检测速度快、分析效率高、无需或极少对样品预处理、不破坏样品等优点,已广泛应用于制药、石油化工、农业、食品、高分子等许多领域。建立光谱与被测样本物性参数之间的模型,可以实现复杂物质的定量分析。然而大多数近红外光谱建模都是离线进行的,当离线模型投入实际生产应用后,其预测性能往往会随着过程状态变化、催化剂活性改变、外界环境的影响、仪表漂移等因素而慢慢降低,致使离线模型已不能满足当前的工况条件。因此,对近红外模型进行维护更新是实现近红外的在线分析检测的必要手段。
[0003] 即时学习(just-in-time learning,JITL)是一种基于数据库的局部模型在线更新方法,它对新样本进行实时建模,与传统的建模方法相比,JIT建模有以下特点:(1)当新的输入、输出数据均可获得时,将它们存入数据库中。(2)当仅有新的输入数据可获得、同时需要估计输出变量值时,计算新来样本与数据库中各数据点之间的相似度,建立局部模型。(3)对输出变量值进行预测后,丢弃建立的局部模型。由此可见,JITL可以很好地跟踪过程当前生产状态、克服实际生产过程的非线性问题。
[0004] 目前常用于模型更新的方法都是利用全光谱信息参与计算,比如将PCR、PLS、KPLS等算法与JITL、移动窗以及递推方法相结合实现模型更新。然而近红外光谱波长范围广,包含成百上千的变量信息,除了与样品性质相关的部分,还有与样品性质相关性很弱或是除了样品自身信息以外的噪声冗余。若直接使用所有变量信息进行建模更新,模型性能恶化的同时计算成本也大大增加,实际可操作性不强、限制了近红外在线检测技术的推广。因此本发明将可同时进行变量选择和回归的(Least absolute shrinkage and selection operator,Lasso)方法应用于JITL学习框架中,提出一种基于局部加权Lasso(LW-Lasso)的近红外模型在线更新方法,降低计算量的同时,可不断在线校正模型以适应最新过程状态,提高建模精度和预测能力,从而达到推广近红外在线分析检测应用的目的。

发明内容

[0005] 本发明旨在提供一种可用于在线检测的近红外模型更新方法。目的是当生产工程呈现非线性、时变性的问题时,能够快速、计算量小的自适应更新近红外模型,从而节约模型维护成本,提高预测精度,满足工业生产在线检测要求。
[0006] 本发明采用的技术方案:
[0007] 一种基于局部加权Lasso的近红外模型在线更新方法,分为四个部分:历史数据采集与预处理、得到相似度测量矩阵、建立局部Lasso模型和获取查询样本预测值;具体步骤如下:
[0008] 步骤一:历史数据采集与预处理
[0009] 采集样本物性参数和近红外光谱原始数据组成历史数据库,作为样本校正集,对近红外光谱原始数据进行预处理,并对校正集的样本按照3σ准则进行异常值剔除;
[0010] 所述的预处理方法为平滑法、微分法、标准化法、多元散射校正法、标准正态变量变换法或小波变换法。
[0011] 步骤二:得到相似度测量矩阵
[0012] 利用剔除异常值后的样本校正集,建立光谱矩阵 和物性参数矩阵 其中,N为样本数目,M为光谱变量数目,xi为第i个样本对应的
光谱,yi为第i个样本对应的物性参数;
[0013] 当新来一个查询样本xq时,依据自定义的相似度准则,计算查询样本xq与历史数据库中所有样本的相似度,赋予与xq相似度高的样本更大的权重,得到相似度测量矩阵:W=diag(w1,w2,…,wi),wi为历史数据库中第i个样本被赋予的权重;
[0014] 所述自定义的相似度准则是基于欧氏距离、马氏距离、角度、贝叶斯、相关性、数据密度、性能指标中的一种方法或两种以上方法的组合。
[0015] 步骤三:建立局部加权Lasso模型
[0016] (1)将光谱矩阵X作为自变量,物性参数矩阵Y作为因变量,分别对矩阵X和矩阵Y进行加权后的均值中心化处理,得到 和
[0017]
[0018]
[0019]
[0020]
[0021] 其中,1N∈RN是全为1的列向量, 为N个样本的光谱加权平均值, 为N个样本的物性参数加权平均值, 为均值中心化处理后的第i个样本的光谱, 为为均值中心化处理后的第i个样本的物性参数;
[0022] (2)在原有的Lasso方法基础上,给公式(5)添加权值,
[0023]
[0024] 得到局部加权Lasso建模方法,并得到估计的回归系数
[0025]
[0026] 其中,βLasso为Lasso建模方法估计的回归系数,βj为第j个变量对应的回归系数,λ为惩罚参数, 为局部加权Lasso建模方法估计的回归系数,xij为第i个样本的第j个光谱变量, 为均值中心化处理后的第i个样本的第j个光谱变量;
[0027] 步骤四:获取查询样本预测值
[0028] (3)通过步骤三得到的估计的回归系数 完成对新来查询样本xq的预测;得到预测输出值后,丢弃当前模型,直到下一个新的查询样本xq′到来,重复步骤二、步骤三,建立新的局部加权Lasso模型,得到xq′的预测输出值,如此往返。
[0029] 本发明的有益效果:本发明提出基于局部加权Lasso的更新方法,兼具JITL方法可以克服工业过程非线性,增强算法泛化性能;以及能同时进行变量选择和回归,从而降低计算量,达到提高模型精度和预测能力,并进一步实现近红外在线分析检测技术的推广。

附图说明

[0030] 图1为本发明中模型更新方法的流程图。
[0031] 图2(a)为Lasso方法的建模效果图。
[0032] 图2(b)为与本发明方法的建模效果图。

具体实施方式

[0033] 以下结合实例对本发明实施步骤进行详细说明。
[0034] 实施例:如图1所示,一种基于局部加权Lasso的近红外模型在线更新方法。
[0035] 步骤1:采用德国Bruker公司生产的MATRIX-F型傅里叶近红外光谱仪对脱盐原油输出过程进行光谱采集,一共采集了262个样本(光谱波长测量范围为1000-2200nm,分辨率选择为2cm-1),并按照标准方法测定样品中的水分含量。将采集得到的光谱和水分含量值组成历史数据库,作为样本校正集。
[0036] 对采集得到的光谱进行一阶微分的预处理,并对校正集的样本按照3σ准则进行异常值剔除。
[0037] 步骤2: 和 分别是光谱矩阵和物性参数矩阵,N为样本数目,M为光谱变量数目。对新来的查询样本xq,基于欧氏距离建立相似度测量矩阵,公式如下:
[0038]
[0039]
[0040] 其中,σd是di(i=1,…,N)的标准差,是位置参数,得到相似度测量矩阵:W=diag(w1,w2,…,wN)。计算得到的wi在0和1之间,wi越接近于1,xi与xq相似度越高。
[0041] 步骤3:将光谱矩阵作为自变量,物性参数作为因变量,并分别对X和Y矩阵进行加权后的均值中心化处理,计算得到 和对 和 进行局部加权Lasso建模得到系数估
计:
[0042] 步骤4:完成对新来查询样本的预测后,丢弃当前模型,直到下一个新的查询样本xq′到来,重复步骤二、三,建立新的局部加权Lasso模型,得到xq′的预测值,如此往返。图2(b)是实验室分析值和局部加权Lasso模型预测值的比较,其相关系数为89.47%,均方误差为0.2888(kg/L)。可以看出本发明提出的在线更新算法提高了模型预测精度。
[0043] 对比例:原有的Lasso方法下石油脱盐过程中水分含量预测
[0044] 采集原油脱盐输出过程不同阶段不同时间下的166组光谱数据作为测试样本,进行和校正集相同的预处理。将本方法和Lasso方法对测试样本进行石油脱盐过程中水分含量预测效果对比:图2(a)是实验室分析值和Lasso模型预测值的比较。其相关系数为57.13%,均方误差为0.3634(kg/L)。