一种基于谱回归的近红外模型转移方法转让专利

申请号 : CN201610153646.2

文献号 : CN105842190B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴继忠徐清泉夏琛毕一鸣吴键廖付李石头夏骏苏燕慕继瑞张立立李永生何文苗郝贤伟

申请人 : 浙江中烟工业有限责任公司

摘要 :

本发明公开了一种基于谱回归的近红外模型转移方法,包括:步骤1,针对多个烟草标定样本,分别利用主机和从机进行近红外光谱采集,得到主机近红外光谱Xm和从机近红外光谱Xs;步骤2,对Xm和Xs分别进行光谱预处理;步骤3,利用谱回归方法,分别计算Xm和Xs在低维度的表示Zm和Zs;步骤4,利用Zm和Zs计算变换,将训练集烟草样本的主机近红外光谱Xtrn转移为从机近红外光谱Xt;步骤5,利用从机近红外光谱Xt以及烟草样本的化学值进行建模;步骤6,利用从机对待测样品进行近红外光谱采集,然后利用步骤5建立的模型进行烟草化学成分含量的计算。本发明提供的方法,能够揭示数据的内部结构,抑制数据中的噪声和冗余特征,提高红外光谱模型转移的成功概率。

权利要求 :

1.一种基于谱回归的近红外模型转移方法,其特征在于,包括:步骤1,针对多个烟草标定样本,分别利用主机和从机进行近红外光谱采集,得到主机近红外光谱Xm和从机近红外光谱Xs;

步骤2,对主机近红外光谱Xm和从机近红外光谱Xs分别进行光谱预处理;步骤2中,对主机近红外光谱Xm和从机近红外光谱Xs作相同的光谱预处理,光谱预处理为平滑,求一阶导数,求二阶导数,标准正态校正中的至少一种;

步骤3,利用谱回归方法,分别计算主机近红外光谱Xm和从机近红外光谱Xs在低维度的表示Zm和Zs;

步骤3包括以下步骤:

步骤3-1,分别构建主机近红外光谱Xm和从机近红外光谱Xs的相关系数矩阵;相关系数矩阵的元素wij的计算公式如下:式中:xi为烟草样本i的近红外光谱;

xj为烟草样本j的近红外光谱;

N(xi)表示烟草样本xi的近邻域;

N(xj)表示烟草样本xj的近邻域;

σ取0.1;

步骤3-2,分别利用谱回归求解主机近红外光谱Xm和从机近红外光谱Xs的特征向量,找到h个特征向量,h的最大值为转移校正光谱的数量;

步骤3-3,利用步骤3所得的h个特征向量,分别求解主机近红外光谱Xm和从机近红外光谱Xs的投影向量集;

步骤3-4,利用下式分别对主机近红外光谱Xm和从机近红外光谱Xs进行谱回归嵌入:式中,Am为主机近红外光谱的投影向量集;

As为从机近红外光谱的投影向量集;

步骤4,利用Zm和Zs计算变换,将训练集烟草样本的主机近红外光谱Xtrn转移为从机近红外光谱Xt;

步骤4中,利用下式计算变换矩阵F1和变换矩阵F2:式中:+表示矩阵的广义逆运算;

利用下式将训练集烟草样本的主机近红外光谱Xtrn转移为从机近红外光谱Xt:步骤5,利用从机近红外光谱Xt以及烟草样本的化学值进行建模;

步骤6,利用从机对待测样品进行近红外光谱采集,然后利用步骤5建立的模型进行烟草化学成分含量的计算。

2.如权利要求1所述的基于谱回归的近红外模型转移方法,其特征在于,步骤3-2中,求解Wy=λDy,找到最大的h个特征向量;

式中,W为相关系数矩阵;

λ为正则化参数;

D为一个对角矩阵,其对角元素为Dii=∑jwji。

3.如权利要求2所述的基于谱回归的近红外模型转移方法,其特征在于,步骤3-3中,利用正则化最小二乘法求解投影向量,使投影向量满足条件XTy=a,式中,a为投影向量;X为烟草标定样本的本机近红外光谱或从机近红外光谱;y为与X对应的特征向量。

4.如权利要求3所述的基于谱回归的近红外模型转移方法,其特征在于,步骤3-3中,利用正则化最小二乘法求解投影向量时的计算公式如下:式中,a为投影向量;

X为烟草标定样本的本机近红外光谱或从机近红外光谱;

y为与X对应的特征向量;

γ为正则化参数。

说明书 :

一种基于谱回归的近红外模型转移方法

技术领域

[0001] 本发明涉及红外光谱分析技术领域,具体涉及一种基于谱回归的近红外模型转移方法。

背景技术

[0002] 红外光谱因具有快速、准确和无损的优点,被广泛应用于工业领域。光谱多元校正技术能够有效地用于物质成分含量检测和在线过程监测,但是多元校正技术在实际应用中常常会受到局限,这主要是由于已经建立的多元校正模型无法有效地应用于新的环境条件下观测的红外谱图或不同仪器采集的谱图。
[0003] 重新校正方法可以克服这个局限,但是每次都需要重新建立模型,不仅代价相当大,而且费时费力。模型转移是解决上述模型推广问题的一种有效方法,它将在一台仪器上建立的定性或定量校正模型可靠地移植到其它相同或类似的仪器上使用,或将在某一条件下建立的模型用于同一台仪器另一条件下采集的谱图,其本质是消除测量信号之间的不一致性,使其适合于同一个模型。
[0004] 模型转移是一种光谱变换的方法,寻找一个变换矩阵将从仪器光谱响应映射到主仪器,实现模型共享,代表性的方法有子空间学习、直接标准化(DirectStandard,DS)和分段直接标准化(PiecewiseDirectStandard,PDS)。
[0005] 常见的子空间学习方法有主成分分析(PCA)、局部保持投影(LPP)和邻域保持嵌入(NPE)等,这些子空间学习方法都可以纳入到图嵌入的统一框架下。子空间学习方法中涉及到稠密矩阵的特征分解,计算量和存储量较大,并且当数据维数超过样本个数时算法极不稳定。
[0006] 直接标准化方法直接寻求主从仪器光谱之间的变换矩阵。分段直接标准化方法中,主仪器某个波长与从仪器相应的局部光谱区间建立变换关系。在现有的光谱变换方法中,PDS方法是应用最广泛的算法,这主要是因为PDS方法中的局部回归模型能够反映主从仪器光谱在对应波长处的变化,同时PDS方法基于光谱信号直接进行校正,简单易用。
[0007] 但是PDS方法需要事先确定变换窗口的大小,在窗口选择不恰当时容易出现转移失败。

发明内容

[0008] 本发明提供了一种基于谱回归的近红外模型转移方法,能够揭示数据的内部结构,抑制数据中的噪声和冗余特征,提高红外光谱模型转移的成功概率。
[0009] 一种基于谱回归的近红外模型转移方法,包括:
[0010] 步骤1,针对多个烟草标定样本,分别利用主机和从机进行近红外光谱采集,得到主机近红外光谱Xm和从机近红外光谱Xs;
[0011] 步骤2,对主机近红外光谱Xm和从机近红外光谱Xs分别进行光谱预处理;
[0012] 步骤3,利用谱回归方法,分别计算主机近红外光谱Xm和从机近红外光谱Xs在低维度的表示Zm和Zs;
[0013] 步骤4,利用Zm和Zs计算变换,将训练集烟草样本的主机近红外光谱Xtrn转移为从机近红外光谱Xt;
[0014] 步骤5,利用从机近红外光谱Xt以及烟草样本的化学值进行建模;
[0015] 步骤6,利用从机对待测样品进行近红外光谱采集,然后利用步骤5建立的模型进行烟草化学成分含量的计算。
[0016] 本发明提供的近红外模型转移方法用于解决不同近红外仪器间的模型共用问题,通过对主机和从机的近红外光谱分别进行谱回归嵌入,然后寻找变换谱图之间的关系。采用谱回归方法能够揭示数据的内在结构,抑制数据中的噪声和冗余特征,提高模型转移的成功概率,降低转移后的模型的预测误差。
[0017] 采用本发明方法将主机建模光谱转化为从机建模光谱后进行建模,避免使用从机对样本重新进行测量后,再进行建模,降低分析的时间成本以及经济成本。
[0018] 所述的主机和从机为两台相同型号的近红外光谱仪,主机为有模型的近红外光谱仪,从机为没有模型的近红外光谱仪。步骤1中在进行近红外光谱测量时,在相同的测试条件下进行。
[0019] 本发明利用谱回归的方法将近红外光谱降至低维,避免了维数大于样本数时出现计算不稳定的问题,此外,本发明避免了现有的部分模型转移方法需要应用模型信息,直接实现由主机到从机的转移。
[0020] 将主机近红外光谱转化为从机近红外光谱后,利用化学值进行建模,然后对从机样本利用建立的模型进行烟草化学成分含量的预测。
[0021] 作为优选,步骤3包括以下步骤:
[0022] 步骤3-1,分别构建主机近红外光谱Xm和从机近红外光谱Xs的相关系数矩阵;
[0023] 步骤3-2,分别利用谱回归求解主机近红外光谱Xm和从机近红外光谱Xs的特征向量,找到h个特征向量,h的最大值为转移校正光谱的数量;
[0024] 步骤3-3,利用步骤3所得的h个特征向量,分别求解主机近红外光谱Xm和从机近红外光谱Xs的投影向量集;
[0025] 步骤3-4,利用下式分别对主机近红外光谱Xm和从机近红外光谱Xs进行谱回归嵌入:
[0026]
[0027]
[0028] 式中,Am为主机近红外光谱的投影向量集;
[0029] As为从机近红外光谱的投影向量集。
[0030] 步骤3-1~步骤3-4中,对于主机近红外光谱和从机近红外光谱采用相同的处理方式,分别进行处理。
[0031] 步骤5中的烟草样本的化学值按照中华人民共和国烟草行业标准YC/T32-1996、YC/T161-2002、YC/T160-2002、YC/T173-2003、YC/T162-2002、YC/T202-2006,检测烟草的总糖、还原糖、总氮、烟碱、钾、氯、多酚含量。
[0032] 步骤5中的建模方法为偏最小二乘算法(Partial Least Squares,PLS),潜变量数目的选取为5折交叉验证。
[0033] 作为优选,步骤4中,利用下式计算变换矩阵F1和变换矩阵F2:
[0034]
[0035]
[0036] 式中:+表示矩阵的广义逆运算。
[0037] 作为优选,步骤4中,利用下式将训练集烟草样本的主机近红外光谱Xtrn转移为从机近红外光谱Xt:
[0038]
[0039] 作为优选,步骤2中,对主机近红外光谱Xm和从机近红外光谱Xs作相同的光谱预处理,光谱预处理为平滑,求一阶导数,求二阶导数,标准正态校正中的至少一种。
[0040] 作为优选,步骤3-1中相关系数矩阵的元素wij的计算公式如下:
[0041]
[0042] 式中:xi为烟草样本i的近红外光谱;
[0043] xj为烟草样本j的近红外光谱;
[0044] N(xi)表示烟草样本xi的近邻域;
[0045] N(xj)表示烟草样本xj的近邻域;
[0046] σ取0.1。
[0047] 作为优选,步骤3-2中,求解Wy=λDy,找到最大的h个特征向量;
[0048] 式中,W为相关系数矩阵;
[0049] λ为正则化参数:
[0050] D为一个对角矩阵,其对角元素为
[0051] 作为优选,步骤3-3中,利用正则化最小二乘法求解投影向量,使投影向量满足条件XTy=a,式中,a为投影向量;X为烟草标定样本的本机近红外光谱或从机近红外光谱;y为与X对应的特征向量。
[0052] 作为优选,步骤3-3中,利用正则化最小二乘法求解投影向量时的计算公式如下:
[0053]
[0054] 式中,a为投影向量;
[0055] X为烟草标定样本的本机近红外光谱或从机近红外光谱;
[0056] y为与X对应的特征向量;
[0057] γ为正则化参数。
[0058] 本发明提供的基于谱回归的近红外模型转移方法,能够揭示数据的内部结构,抑制数据中的噪声和冗余特征,提高红外光谱模型转移的成功概率。

附图说明

[0059] 图1为本发明基于谱回归的近红外模型转移方法的流程图;
[0060] 图2a为烟草标定样本的主机近红外光谱;
[0061] 图2b为烟草标定样本的从机近红外光谱;
[0062] 图3a为主机近红外光谱和从机近红外光谱的差异;
[0063] 图3b为采用PDS方法处理后主机近红外光谱和从机近红外光谱的差异;
[0064] 图3c为采用本发明提供的近红外模型转移方法处理后的主机近红外光谱和从机近红外光谱的差异。

具体实施方式

[0065] 下面结合附图,对本发明基于谱回归的近红外模型转移方法做详细描述。
[0066] 如图1所示,基于谱回归的近红外模型转移方法,包括:
[0067] 步骤1,选用33个烟叶样本作为烟草标定样本,针对各分别利用主机和从机进行近红外光谱采集,得到主机近红外光谱Xm和从机近红外光谱Xs,主机和从机的仪器类型以及采样参数一致。主机近红外光谱如图2a所示,从机近红外光谱如图2b所示。
[0068] 步骤2,利用标准正态校正对主机近红外光谱Xm和从机近红外光谱Xs进行相同的预处理。
[0069] 步骤3,利用谱回归方法,分别计算主机近红外光谱Xm和从机近红外光谱Xs在低维度的表示Zm和Zs,具体操作如下:
[0070] 步骤3-1,分别构建主机近红外光谱Xm和从机近红外光谱Xs的相关系数矩阵,其中,主机近红外光谱Xm对应的相关系数矩阵为Wm,从机近红外光谱Xs对应的相关系数矩阵为Ws。
[0071] 若有K个烟草标定样本,则相关系数矩阵为一个K×K的对称矩阵,相关系数矩阵的元素wij表示烟草样本i与烟草样本j的相关性,相关系数矩阵的元素wij的计算公式如下:
[0072]
[0073] 式中:xi为烟草样本i的近红外光谱;
[0074] xj为烟草样本j的近红外光谱;
[0075] N(xi)表示烟草样本xi的近邻域,本实施例取3邻域(即距离烟草样本xi最近的3个烟草样本);
[0076] N(xj)表示烟草样本xj的近邻域,本实施例取3邻域;
[0077] σ取0.1。
[0078] 步骤3-2,分别求解主机近红外光谱Xm和从机近红外光谱Xs的特征向量,找到最大的h个特征向量分别为y1y2...yh。
[0079] 该步骤中,求解Wy=λDy,找到h个特征向量,h最大值为转移校正样本的数量,本实施例取30。h太小则降维损失了过多的信息,一般在样本数不大时,h取值比样本数略低即可。
[0080] 式中,W为相关系数矩阵;
[0081] λ为正则化参数,本实施例取0.001;
[0082] D为一个对角矩阵,其对角元素为Dii=Σjwji。
[0083] 步骤3-3,利用步骤3所得特征向量,分别求解主机近红外光谱Xm和从机近红外光谱Xs的投影向量。
[0084] 本步骤中,利用正则化最小二乘法求解投影向量,使投影向量满足条件XTy=a,式中,a为投影向量;X为烟草标定样本的本机近红外光谱或从机近红外光谱;y为与X对应的特征向量。
[0085] 例如,Xm的投影向量为a1a2…ah,Xm的投影向量集Am=(a1,a2,…,ah),满足条件XmTyi=ai,i的取值范围为1~h。
[0086] 利用正则化最小二乘法求解投影向量时的计算公式如下:
[0087]
[0088] 式中,a为投影向量;
[0089] X为烟草标定样本的本机近红外光谱或从机近红外光谱;
[0090] y为与X对应的特征向量;
[0091] γ为正则化参数,本实施例中取0.001。
[0092] 步骤3-4,利用下式分别对主机近红外光谱Xm和从机近红外光谱Xs进行谱回归嵌入:
[0093]
[0094]
[0095] 式中,Am为主机近红外光谱的投影向量集;
[0096] As为从机近红外光谱的投影向量集。
[0097] 步骤4,利用Zm和Zs计算变换矩阵,将训练集烟草样本的主机近红外光谱Xtrn转移为从机近红外光谱Xt。
[0098] 该步骤中,利用下式计算变换矩阵F1和变换矩阵F2:
[0099]
[0100]
[0101] 式中:+表示矩阵的广义逆运算。
[0102] 该步骤中,利用下式将训练集烟草样本的主机近红外光谱Xtrn转移为从机近红外光谱Xt:
[0103]
[0104] 步骤5,利用从机近红外光谱Xt以及烟草样本的化学值进行建模。
[0105] 该步骤中的烟草样本的化学值按照中华人民共和国烟草行业标准YC/T32-1996、YC/T161-2002、YC/T160-2002、YC/T173-2003、YC/T162-2002、YC/T202-2006,检测烟草的总糖、还原糖、总氮、烟碱、钾、氯、多酚含量。
[0106] 该步骤中的建模方法为偏最小二乘算法(Partial Least Squares,PLS),潜变量数目的选取为5折交叉验证。
[0107] 步骤6,利用从机对待测样品进行近红外光谱采集,然后利用步骤5建立的模型进行烟草化学成分含量的计算。
[0108] 图3a~图3b分别表示烟草标定样本在主机和从机上的差谱,由图3a~3b可以看出,采用本发明提供的转移方法能够减小烟草标定样本在主机和从机上的差异。
[0109] 不同的模型转移方法下转移后光谱在模型中预测误差如表1所示。
[0110] 表1
[0111]
[0112] 表1中,RMSEC:训练集根均方误差;RMSECV:训练集交叉验证根均方误差;RMSEP:测试集根均方误差。
[0113] 本发明提供的方法相比传统的模型转移方法,利用谱回归,在低维度实现模型的转移,避免了因维数大于样本数导致的计算中的奇异性,保证了转移后的模型具有良好的应用效果。