一种基于共识选择技术的红外光谱建模方法转让专利

申请号 : CN201610157484.X

文献号 : CN105842183B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李志刚吕江涛王巧云

申请人 : 东北大学

摘要 :

本发明公开了一种基于共识选择技术的红外光谱建模方法,步骤包括:根据样品的原始红外光谱数据构建多个不同阶次的导数光谱空间;在的多个不同阶次的导数光谱空间中,构建各自的校正集;利用共识选择技术对各个导数光谱空间中的校正集进行处理,获得基本校正集;根据的基本校正集对不同阶次的导数光谱空间中剩余的样本进行处理,获得扩展校正集;基本校正集和扩展校正集形成最终校正集;并利用该最终校正集及验证集进行回归建模。本发明通过构建多个不同阶次的导数光谱空间,然后利用共识选择技术在不同阶次的导数光谱空间进行校正集划分,使得由基本校正集和扩展校正集形成的最终校正集用于进行回归建模,模型的预测精度高,稳定性好。

权利要求 :

1.一种基于共识选择技术的红外光谱建模方法,其特征在于,包括以下步骤:S1.根据样品的原始红外光谱数据构建多个不同阶次的导数光谱空间;

S2.在所述的多个不同阶次的导数光谱空间中,构建各自的校正集;

S3.利用共识选择技术对各个阶次导数光谱空间中的校正集进行处理,获得基本校正集;

S4.根据所述的基本校正集对所述不同阶次的导数光谱空间中剩余的样本进行处理,获得扩展校正集;具体包括:将不同阶次的导数光谱空间中剩余的样本作为初始验证集;利用初始验证集和基本校正集进行回归建模,计算初始验证集中每个样本的相对预测误差,并且按照降序进行排列;从前至后获取相应数目的样本作为扩展校正集;

S5.所述的基本校正集和扩展校正集形成最终校正集;并利用该最终校正集及验证集进行回归建模。

2.根据权利要求1所述的基于共识选择技术的红外光谱建模方法,其特征在于,步骤S1中所述的不同阶次的导数光谱空间包括:零阶导数光谱空间、一阶导数光谱空间及二阶导数光谱空间。

3.根据权利要求2所述的基于共识选择技术的红外光谱建模方法,其特征在于,根据奇异摄动技术设计导数谱估计器,用以构建导数谱空间。

4.根据权利要求3所述的基于共识选择技术的红外光谱建模方法,其特征在于,所述的导数谱估计器为DSE导数谱估计器,具体设计如下:其中,ε是系统扰动参数,ε>0; m=1,2,3,n=1,2,3;x1是u(v)的零阶导数光谱信号,x2用于估计信号的一阶导数光谱,x3用于估计信号的二阶导数光谱。

5.根据权利要求1所述的基于共识选择技术的红外光谱建模方法,其特征在于,步骤S3具体包括:通过共识选择技术获取各个导数光谱空间中的校正集的交集作为基本校正集。

6.根据权利要求1所述的基于共识选择技术的红外光谱建模方法,其特征在于,步骤S4中所述的扩展校正集包括的样本数目为设定初始校正集的样本个数与基本校正集的样本个数的差。

7.根据权利要求1所述的基于共识选择技术的红外光谱建模方法,步骤S5中所述的模型为PLS模型。

8.根据权利要求7所述的基于共识选择技术的红外光谱建模方法,其特征在于,所述的模型用于对样品成分进行定量分析。

9.根据权利要求8所述的基于共识选择技术的红外光谱建模方法,其特征在于,所述的样品为酒类、中药液或生理体液。

10.根据权利要求9所述的基于共识选择技术的红外光谱建模方法,其特征在于,所述的酒类为啤酒。

说明书 :

一种基于共识选择技术的红外光谱建模方法

技术领域

[0001] 本发明涉及一种基于共识选择技术的红外光谱建模方法,属于光谱分析技术领域。

背景技术

[0002] 多元校正方法广泛地应用于光谱定量分析领域。在多元校正过程中最常用的方法是PLS(偏最小二乘)回归,其模型的性能很大程度上依赖于校正集的质量。而选取信息量丰富且具有代表性的样本作为校正集是一个具有挑战性的难题。
[0003] 目前,已经有几种经典的选取和构建校正集的方法,主要分为两大类,一类是聚类分析,另一类是一致化设计。聚类分析的目标首先是对样本集依据一定规则进行聚类,依据聚类的结果选取具有代表性的样本。而一致性原则要求选取的样本尽量均匀的覆盖整个样本集空间。Kennard-Stone(KS)法是应用最为广泛的经典校正集选择方法。KS方法的目标是通过计算样本光谱数据空间的欧氏距离使其选出的样本尽可能的按照空间距离能够均匀地覆盖整个样本集区域。它的选择原则可以确保X空间的样本集的均匀分布。距离样本集的均值最近的样本视为最具有代表性的样本,作为第一个样本入选校正集。算法中计算每对样本间X向量之间的欧式距离dX(m,n),计算公式如下:
[0004]
[0005] 对于光谱数据来说,Xm(j)和Xn(j)分别表示样本m和n在第j点的波长或波数。j表示波长数目或光谱的波数。具体操作步骤为:
[0006] 步骤1,,计算两两样本之间空间距离,选择距离最大的两个样本进入校正集;
[0007] 步骤2,分别计算剩余的样本与已入选校正集的两个样本之间的空间距离;
[0008] 步骤3,对于每个剩余样本而言,其与已入选校正集样品之间的最短距离被选择,然后选择这些最短距离中相对最长的距离所对应的样本,作为第三个样本;
[0009] 步骤4,重复步骤3,直至获得指定数量的样本。
[0010] 但是,上述的校正集选择方法仅仅是在单一的光谱空间进行,导致所建立的定量分析模型的性能对单一光谱空间质量的依赖性很强,而且在校正集的划分过程中存在对样本光谱信息挖掘不足的问题(比如有些强度较弱的光谱特征峰检测不到),从而导致最终建立的定量分析模型的预测精度较低,稳定性较差。
[0011] 另外,导数光谱方法是经典的光谱处理分析方法,导数光谱能够挖掘原始光谱中细节、微小的信息,能够区别重叠峰。导数光谱已经成功的应用到复杂混合物的定性、定量分析中。然而,现有的导数方法是一个经典的病态难题,也就是说,原始光谱中小的噪声和误差会在导数光谱空间被放大。因此,一个里程碑式的方法Savitzky-Golay(SG)算法被提出来计算信号的导数,并得到了广泛的应用,尤其是在光谱分析等领域。但是,SG算法在使用过程中需要对多项式阶次、求导窗口宽度、导数阶次等参数进行选择和优化,导数光谱的质量很大程度上依赖于参数选择,导数光谱的质量难以得到客观的保障,基于这些导数光谱空间形成的校正集会存在划分不够客观、合理的情况,进而导致最终建立的定量分析模型的预测精度较低,稳定性较差。

发明内容

[0012] 本发明的目的在于,提供一种基于共识选择技术的红外光谱建模方法,以解决上述背景技术中提到的缺点,尤其是校正集选择方法仅仅在单一的光谱空间进行,导致所建立的定量分析模型的性能对单一光谱空间质量的依赖性很强,而且在校正集的划分过程中存在对样本光谱信息挖掘不足的问题(比如有些强度较弱的光谱特征峰检测不到),从而导致最终建立的定量分析模型的预测精度较低,稳定性较差的缺陷。
[0013] 为解决上述技术问题,本发明采用如下的技术方案:一种基于共识选择技术的红外光谱建模方法,包括以下步骤:
[0014] S1.根据样品的原始红外光谱数据构建多个不同阶次的导数光谱空间;
[0015] S2.在所述的多个不同阶次的导数光谱空间中,构建各自的校正集;
[0016] S3.利用共识选择技术对各个阶次的导数光谱空间中的校正集进行处理,获得基本校正集;
[0017] S4.根据所述的基本校正集对所述不同阶次的导数光谱空间中剩余的样本进行处理,获得扩展校正集;
[0018] S5.所述的基本校正集和扩展校正集形成最终校正集;并利用该最终校正集和最终验证集进行回归建模。
[0019] 步骤S5中,所述的最终验证集的样本数目为所有的样本数目与最终校正集样本数目的差。
[0020] 如前述的基于共识选择技术的红外光谱建模方法,步骤S1中所述的不同阶次的导数光谱空间包括:零阶导数光谱空间、一阶导数光谱空间及二阶导数光谱空间,从而可以为共识选择技术提供高质量的多维光谱信息空间,进而可以在提高计算效率的同时保证最终所建模型的性能,使其预测精度较高,同时稳定性较好。
[0021] 如前述的基于共识选择技术的红外光谱建模方法,根据奇异摄动技术设计导数谱估计器DSE,用以构建导数谱空间;由于奇异摄动技术设计导数谱估计器只包含一个调整参数ε,从而可以解决SG算法在使用过程中需要进行多参数选择与调整,难以进行优化的缺陷。
[0022] 如前述的基于共识选择技术的红外光谱建模方法,所述的导数谱估计器为DSE导数谱估计器,具体设计如下:
[0023]
[0024] 其中,ε是系统扰动参数,ε>0; m=1,2,3,n=1,2,3;x1是u(v)的零阶导数光谱信号,x2用于估计信号的一阶导数光谱,x3用于估计信号的二阶导数光谱;x2和x3能够精确地估计信号的一阶和二阶导数光谱,通过利用DSE导数谱估计器构建导数谱空间,从而可以获得更加科学合理的校正集,使得最终所建模型的预测精度更高,稳定性更好。
[0025] 如前述的基于共识选择技术的红外光谱建模方法,步骤S3具体包括:通过共识选择技术获取各个导数光谱空间中的校正集的交集作为基本校正集,从而可以提高所建模型的稳定性和预测精度。
[0026] 如前述的基于共识选择技术的红外光谱建模方法,所述步骤S4具体包括:将不同阶次的导数光谱空间中剩余的样本作为初始验证集;利用初始验证集和基本校正集进行回归建模,计算初始验证集中每个样本的相对预测误差,并且按照降序进行排列;从前至后获取相应数目的样本作为扩展校正集;从而可以使得校正集中包含的样本更加丰富,使得最终所建的定量模型更加科学、稳定,预测精度更高。
[0027] 所述的相对预测误差如下式所示:
[0028]
[0029] 其中,Yrest是初始验证集中样本的参考值,yrest则是相应样本的PLS预测值;在样本集不存在奇异(坏)样本的前提下,相对预测误差越大的样本,越是具备基本样本集中样本所不包含的信息,越有代表性,应该将其添加到扩展校正集中。
[0030] 如前述的基于共识选择技术的红外光谱建模方法,步骤S4中所述的扩展校正集包括的样本数目为设定初始校正集的样本个数与基本校正集的样本个数的差。
[0031] 如前述的基于共识选择技术的红外光谱建模方法,步骤S5中所述的模型为PLS模型。
[0032] 如前述的基于共识选择技术的红外光谱建模方法,所述的模型用于对样品成分进行定量分析。
[0033] 如前述的基于共识选择技术的红外光谱建模方法,所述的样品为酒类、中药液或生理体液;所述的酒类优选为啤酒。经验证,本发明的方法可以在所有光谱分析中得以应用,尤其是对于酒类、中药液以及生理体液等复杂混合液体定量分析的应用具有良好的前景,所建模型的预测精度和稳定性均较好;酒类中特别是对于啤酒的定量分析,所建模型的预测精度和稳定性更好。
[0034] 与现有技术相比,本发明通过构建多个不同阶次的导数光谱空间,然后利用共识选择技术在不同阶次的导数光谱空间进行校正集划分,从而可以在划分的过程中充分挖掘光谱的信息,极大的减弱了所建立的定量分析模型性能对单一光谱空间质量的依赖性;使得由基本校正集和扩展校正集形成的最终校正集用于进行回归建模时,模型的预测精度更高,稳定性更好。据大量数据统计表明:采用本发明的方法建立的校正集更合理、更具有代表性,利用该校正集进行建立光谱定量分析模型时,对于多种样本,本发明的共识选择技术对各个阶次导数谱空间的建模效果都有所改善,二阶导数谱空间效果最明显,与传统KS算法比较,CKS算法对应的该模型的校正集RMSECV预测精度提高了22.5%;验证集RMSEP预测精度提高了62.3%。

附图说明

[0035] 图1为本发明方法流程图;
[0036] 图2为本发明中基本校正集的形成方式示意图;
[0037] 图3为采用CKS(本发明中的共识KS划分方法)策略的校正集构建流程图;
[0038] 图4为实验例中啤酒数据集样本的空间分布示意图;
[0039] 图5为基于KS与CKS方法(即本发明中的共识KS划分方法)所建模型的RPD性能指标比较示意图。
[0040] 附图标记:1-基本校正集,2-零阶导数光谱空间的校正集,3-一阶导数光谱空间的校正集,4-二阶导数光谱空间的校正集。
[0041] 下面结合附图和具体实施方式对本发明作进一步的说明。

具体实施方式

[0042] 实施例:一种基于共识选择技术的红外光谱建模方法,如图1~图3所示,包括以下步骤:
[0043] S1.根据样品的原始红外光谱数据构建多个不同阶次的导数光谱空间;所述的不同阶次的导数光谱空间包括:零阶导数光谱空间、一阶导数光谱空间及二阶导数光谱空间;根据奇异摄动技术设计导数谱估计器,用以构建导数谱空间,所述的导数谱估计器为DSE导数谱估计器,具体设计如下:
[0044]
[0045] 其中,ε是系统扰动参数,ε>0; m=1,2,3,n=1,2,3;x1是u(v)的零阶导数光谱信号,x2用于估计信号的一阶导数光谱,x3用于估计信号的二阶导数光谱;
[0046] S2.在所述的多个不同阶次的导数光谱空间中,构建各自的校正集;
[0047] S3.利用共识选择技术对各个阶次的导数光谱空间中的校正集进行处理,获得基本校正集;具体包括:通过共识选择技术获取各个导数光谱空间中的校正集的交集作为基本校正集;
[0048] S4.根据所述的基本校正集对所述不同阶次的导数光谱空间中剩余的样本进行处理,获得扩展校正集;具体包括:将不同的导数光谱空间中剩余的样本作为初始验证集;利用初始验证集和基本校正集进行回归建模,计算初始验证集中每个样本的相对预测误差,并且按照降序进行排列;从前至后获取相应数目的样本作为扩展校正集;所述的扩展校正集包括的样本数目为设定初始校正集的样本个数与基本校正集的样本个数的差;
[0049] S5.所述的基本校正集和扩展校正集形成最终校正集;并利用该最终校正集及验证集进行回归建模;其中,所述的模型为PLS模型;所述的模型用于对样品成分进行定量分析,所述的样品为任意可进行光谱分析的样品,尤其是对于酒类、中药液以及生理体液等复杂混合液体定量分析的应用具有良好的前景,所建模型的预测精度和稳定性均较好;酒类中特别是对于啤酒的定量分析,所建模型的预测精度和稳定性更好。
[0050] 实验例:
[0051] 以60个啤酒样本的光谱定量分析为例进一步说明本发明的方法流程,其中,啤酒数据集样本的空间分布如图4所示,CKS样本空间的划分及构建过程如下:
[0052] 步骤1.构建零阶导数光谱空间、一阶导数光谱空间和二阶导数光谱空间;
[0053] 步骤2.在各自的导数谱空间,利用KS策略分别构建零阶导数光谱空间校正集2、一阶导数光谱空间校正集3和二阶导数光谱空间的校正集4(各阶导数光谱空间的校正集中各包含设定的45个样本);
[0054] 步骤3.通过共识选择获取上述三个导数谱空间校正集的交集作为基本校正集1(如包含34个样本),其余(即剩余的26个样本)作为初始验证集;
[0055] 步骤4.利用基本校正集1和初始验证集构建回归模型,获取初始验证集中每个样本的相对预测误差,并且按照降序进行排序;
[0056] 步骤5.依据设计的选取规则,决定添加到扩展校正集的样本(选取11个样本,使得最终校正集还为45个样本);
[0057] 步骤6.构建最终校正集和最终验证集;其中,最终校正集由基本校正集(34个样本)和扩展校正集(11个样本)共同组成。最终验证集由最后剩余的样本(15个样本)组成。
[0058] 其中,具体的,在零阶、一阶和二阶三个不同阶次的导数光谱空间,利用KS方法确定各自导数谱空间的校正数据集,通过取三个校正集的交集达到共识选择的目的,构建基本校正集,过程如图1所示。随后,构建对应于不同阶次的导数光谱空间的扩展校正集。Nexte是扩展校正集的样本数目,是KS选择策略设定的校正集的样本个数与基本校正集的样本个数的差(Nextend=Ninit-Nbasic)。其中,Ninit是设定校正集样本数目,Nbasic是基本校正集样本数目。剩余的样本作为最终验证集。利用基本校正集和验证集进行PLS(partial least squares偏最小二乘法)建模。
[0059] 另外,构建扩展校正集时,相对预测误差作为一个指标来评判验证集中的哪些样本被用来构建扩展校正集;相对预测误差如下式所示:
[0060]
[0061] 其中,Yrest是初始验证集中样本的参考值,yrest则是相应样本的PLS预测值。在样本集不存在奇异(坏)样本的前提下,相对预测误差越大的样本,越是具备基本样本集中样本所不包含的信息,越有代表性,应该将其添加到扩展数据集。将相对预测误差按照降序排序,将排序前Nexte个样本添加到扩展校正数据集。
[0062] 本发明中最终校正集的构建过程如图3所示。
[0063] 利用本发明中的CKS法获得的最终校正集进行PLS建模,与现有技术中利用KS法获得的校正集进行PLS建模相比,模型性能对比如表1所示:
[0064] 表1 CKS与KS建模性能比较表
[0065]
[0066]
[0067] 表中括号内的数字代表校正集的数目。
[0068] 另外,利用预测均方根误差RMSEP(Root Mean Square Error of Prediction)和交叉验证均方根误差RMSECV(Root Mean Square Error of Cross Validation)、以及相对分析误差RPD(Ratio of Performance to Standard Deviate)作为模型的主要评价指标。RMSECV和RMSEP的值越低,RPD的值越高,则说明模型的稳定性和预测能力越好。其中,RMSECV,RMSEP和RPD计算公式如下所示:
[0069]
[0070] nv是验证集样本数,yi,ref样本参考值,yi,pre i样本PLS预测值;
[0071]
[0072] nc是校正集样本数目yi,ref第i个样本参考值,and yi,pre是PLS模型的交叉验证过程中第i个样本预测值;
[0073]
[0074]
[0075] 其中SD是分析样本的标准差。这个指标用来验证模型的稳定性和预测能力。
[0076] 结合表1及图5可知:利用本发明中的CKS法获得的最终校正集进行PLS建模(在相应光谱空间建模),相对于利用KS法获得的校正集进行PLS建模(在相应光谱空间建模),预测均方根误差RMSEP和交叉验证均方根误差RMSECV更小,同时相对分析误差RPD更高,因此模型性能更优。