一种准连续方式的分光波长组合方法转让专利

申请号 : CN201010111156.9

文献号 : CN101788459A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 潘涛

申请人 : 暨南大学

摘要 :

本发明公开了一种准连续方式的分光波长组合方法,包括以下步骤:S1、测试样品光谱数据和参考化学值;选择波段;S2、设置波长组合点数N的取值范围,设置波长组合间隔G的取值范围;S3、N=Nmin,G=Gmin;S4、设置波长组合起点B从波段内的第一个波长依次变化到最后一个波长;查找所有B、N和G的参数组合,建立模型;S5、判断G<Gmax是否成立,若是,则增加G,并返回S4,否则G=Gmin,并进入S6;S6、判断N<Nmax是否成立,若是,则增加N,并返回S4,否则进入S7;S7、求出所有数学模型的评价指标,选取最佳的模型,得到对应的波长组合。本发明具有计算量少、遴选自由度大、效果好的优点。

权利要求 :

1.一种准连续方式的分光波长组合方法,其特征在于,包括以下步骤:

S1、测试样品,得到光谱数据和样品的参考化学值;选择波长组合所属的特定波段;

S2、设波长组合的点数为N,设置波长组合中点数的取值范围,即Nmin≤N≤Nmax;设波长组合的间隔为G,设置波长组合中间隔的取值范围,即Gmin≤G≤Gmax;

其中N为正整数,Nmin≥1,Nmax≤f;G为整数,Gmin≥0,Gmax≤f-2;f是选定的波段中含有的总波长数,通过下式计算:总波长数=波段长度/波长间隔+1;

上式中,波长间隔由用户设置;

S3、N取最小值Nmin,G取最小值Gmin;

S4、设波长组合的起点为B,设置B从特定波段内的第一个波长依次变化到最后一个波长;查找所有B、N和G的参数组合,利用S1的光谱数据和样品的参考化学值,分别建立定标预测的数学模型;

S5、判断波长组合的间隔G<Gmax是否成立,若是,则增加G,并返回S4,否则G=Gmin,并进入S6;

S6、判断波长组合的点数N<Nmax是否成立,若是,则增加N,并返回S4,否则进入S7;

S7、求出所有数学模型的评价指标,根据评价指标对所有模型进行评价,选取最佳的模型,由最佳模型相应的B、N和G参数组合得到对应的波长组合。

2.根据权利要求1所述准连续方式的分光波长组合方法,其特征在于,所述步骤S7后还包括:S8、对步骤S7选出的波长组合做光谱预处理,建立定标预测模型。

3.根据权利要求2所述准连续方式的分光波长组合方法,其特征在于,所述S8中,对步骤S7选出的波长组合做光谱预处理,具体是指做光谱平滑化、多元散射校正、正交信号校正和/或小波变换处理。

4.根据权利要求1或2所述准连续方式的分光波长组合方法,其特征在于,所述步骤S1中选择波长组合所属的特定波段,该波段是全谱波段、或者是某个部分波段、或者是某些部分波段的组合。

5.根据权利要求1或2所述准连续方式的分光波长组合方法,其特征在于,步骤S2中,所述Nmax、Gmax和波长间隔由用户根据检测对象的特点、所要设计的分光系统特点和计算机的运算速度来选取。

6.根据权利要求1或2所述准连续方式的分光波长组合方法,其特征在于,步骤S4中,所述数学模型包括多元线性回归模型、偏最小二乘法模型、人工神经网络模型中的一种或多种。

7.根据权利要求1或2所述准连续方式的分光波长组合方法,其特征在于,步骤S7中,所述求出所有数学模型的评价指标,根据评价指标对所有模型进行评价,选取最佳的模型,具体是指,求出所有数学模型的三个评价指标:预测均方根偏差、相对预测均方根偏差和预测相关系数;选择预测均方根偏差和相对预测均方根偏差都较小,预测相关系数较大的模型。

说明书 :

技术领域

本发明涉及分光系统设计中的波长优选技术领域,具体涉及一种准连续方式的分光波长组合方法。

背景技术

光谱分析是根据物质的光谱来鉴别物质及确定它的化学组成和含量的方法,由于其具有灵敏、迅速的优点。目前应用的光谱分析主要有中红外光谱分析、紫外可见光谱分析、拉曼光谱分析和近红外光谱分析(NIRS)等。特别是近红外光谱分析技术以其简便快速、非破坏性和易于实时分析等特点已广泛应用于农业、食品、生物医学、石油化工等领域。
研制全波段通用型分析仪器的技术在国外已经比较成熟,但是有的仪器庞大,价格昂贵(全波段通用型近红外分析仪器需要50-80万元左右),因此较适合于实验室分析,不适合在实际领域中推广应用,研发低价格小型专用分析仪器(比如滤光片分立型近红外分析仪器)是非常有必要的。但是,目前在分析模型的波长选择、小型专用光谱仪器的分光系统设计等方面还存在困难,缺乏特定有效的分光波长组合方法。
以近红外光谱为例,近红外光谱是通过对样品进行直接测量得到的,对样品不需要预处理,也不需要生化试剂,所以近红外光谱的检测对象是一个复杂的过程,又因为近红外光谱重叠严重、平坦、没有明显的吸收峰,所以不能依靠直接观察光谱的方法来选择近红外分光波长组合,只能通过对不同的波长组合分别建立定标模型,根据模型的预测效果才能够做出判断,选择适合的波长组合。但是近红外波段的波长数很多,近红外的波段为780-2526nm,如果波长间隔是0.5nm,那么总波长数有3493个,如果是通过任意随机组合再分别建模的方式筛选适合的波长,现有的计算机运算速度远远不能够满足。

发明内容

本发明的目的在于克服现有技术的缺点与不足,提供一种准连续方式的分光波长组合方法,本发明方法具有计算量少、应用范围广、遴选自由度大、准确度高、效果好的优点,可以有效地筛选出分析模型的波长组合,为小型专用分析仪器中分光系统的设计提出有效的解决方案。
本发明的目的通过下述技术方案实现:一种准连续方式的分光波长组合方法,包括以下步骤:
S1、测试样品,得到光谱数据和样品的参考化学值;选择波长组合所属的特定波段;
S2、设波长组合的点数为N(即波长组合所含有的波长数量),设置波长组合点数的取值范围,即Nmin≤N≤Nmax;设波长组合的间隔为G(即波长组合中相邻两波长在波段中间隔的波长数,如间隔的波长数为0,即表示波长组合中的波长为连续波段),设置波长组合间隔的取值范围,即Gmin≤G≤Gmax;
其中N为正整数,Nmin≥1,Nmax≤f;G为整数,Gmin≥0,Gmax≤f-2;f是选定的波段中含有的总波长数,通过下式计算:总波长数=波段长度/波长间隔+1;
上式中,波长间隔由用户设置;
S3、波长组合的点数(N)取最小值Nmin,波长组合的间隔(G)取最小值Gmin;
S4、设波长组合的起点为B(即波长组合中第一个波长所在位置),设置波长组合的起点(B)从特定波段内的第一个波长依次变化到最后一个波长;查找所有可能的(B,N,G)参数组合,利用步骤S1的光谱数据和样品的参考化学值,分别建立定标预测的数学模型;
S5、判断波长组合的间隔G<Gmax是否成立,若是,则增加波长组合的间隔(G),并返回S4,否则G=Gmin,并进入S6;
S6、判断波长组合的点数N<Nmax是否成立,若是,则增加波长组合的点数(N),并返回S4,否则进入S7;
S7、求出所有数学模型的评价指标,根据评价指标对所有模型进行评价,选取最佳的数学模型(或者是最适用的数学模型),由最佳的数学模型相应的(B,N,G)参数组合得到对应的波长组合。
为更好的实现本发明,所述步骤S7后还包括:
S8、对步骤S7选出的波长组合做光谱预处理,建立定标预测模型,进一步提高预测效果。
优选的,所述S8中,对步骤S7选出的波长组合做光谱预处理,具体是指做光谱平滑化、多元散射校正(MSC)、正交信号校正(OSC)和/或小波变换(WT)等。
优选的,所述步骤S1中选择波长组合所属的特定波段,该波段可以是全谱波段,也可以是某个部分波段,或者是某些部分波段的组合;选择特定波段的考虑因素主要包括以下两方面:一是根据检测对象和检测指标所对应的物理、化学特征;二是根据分析仪器的限制条件,如根据分析仪器所采用不同的分光材料选择不同的分光波段。
优选的,步骤S2中,所述Nmax和Gmax和波长间隔由用户根据检测对象的特点、所要设计的分光系统的特点和计算机的运算速度来选取。
优选的,步骤S4中,所述数学模型包括多元线性回归(MLR)模型、偏最小二乘法(PLS)模型、人工神经网络(ANN)模型中的一种或多种。
优选的,步骤S7中,所述求出所有数学模型的评价指标,根据评价指标对所有模型进行评价,选取最佳的数学模型,具体是指,
求出所有数学模型的三个评价指标:预测均方根偏差(RMSEP)、相对预测均方根偏差(RRMSEP)和预测相关系数(RP);选择预测均方根偏差(RMSEP)和相对预测均方根偏差(RRMSEP)较小,预测相关系数(RP)较大的模型;RMSEP和RRMSEP越小,RP越大,说明模型效果越好。
本发明的工作原理:本发明通过设置三个参数来选定波长组合:波长组合的起点(B)、波长组合的点数(N)、波长组合的间隔(G)。根据分析对象的特点和计算机的运算速度来设置三个参数的取值范围,将所有可能的(B,N,G)参数组合,即按照等间隔提取波长的方式从选定的波段内任何位置开始,以不同的波长组合间隔、点数来做任意波长组合,分别建立定标预测的数学模型,然后通过模型评价指标选取最适用的模型,根据该模型相应的(B,N,G)参数组合提取波长,即可得到对应的波长组合。
本发明相对于现有技术具有如下的优点及效果:
第一、有效减少了计算量,减少了构建模型的工作量:本发明的核心是有效地从全谱范围内等间隔的提取少数信息波长点,然后通过组合建模并进行评价后,筛选出特定的波长组合,降低了构建模型的复杂度;同时,由于是选取等间隔的波长点,大大减少了计算量,有效的解决了目前在分析模型的波长选择这一难题,为设计小型专用分析仪器提出有效的方案,并且更容易推广应用。
第二、实现效果好:本发明的一种准连续方式的分光波长组合方法是从连续的光谱波段中等间隔提取波长组合构建模型,特别是建立MLR模型,由于是等间隔提取,所以克服了连续波段MLR模型通常会出现的由光谱共线性而造成模型效果下降这一缺点,而同时又保留了MLR模型简单性的优点。
第三、遴选自由度大,准确度高:本发明准连续方式的分光波长组合方法中的三个重要参数(波长组合的起点B、波长组合的点数N、波长组合的间隔G)都是可变的,因此遴选自由度很大,范围广,可以覆盖全部波段,提高了准确度,同时也是一种计算机能够承受的大规模筛选方法。
第四、利用本发明准连续方式的分光波长组合方法所得到光谱,它还可以同时应用很多光谱预处理方法,如光谱平滑化、多元散射校正(MSC)、正交信号校正(OSC)和/或小波变换(WT)等,然后建立定标预测模型,进一步提高预测效果。
第五、应用范围广:经过实验证实,本发明准连续方式的分光波长组合方法应用于土壤养分(有机质、总氮)近红外光谱分析、人体血清葡萄糖含量分析(近红外光谱、FTIR/ATR光谱)、人体全血血红蛋白分析(近红外光谱、FTIR/ATR光谱)、甘蔗制糖业的原料及中间产品的糖分分析(近红外光谱、FTIR/ATR光谱)等方面,均可得到比常规的光谱分析方法更优的预测效果。
第六、准连续方式:当波长组合的间隔大于0时,被采用的波长组合是严格的离散分立型的,当波长组合的间隔等于0时,被采用的波长组合形成了连续波段,因此,这种等间隔的波长组合方法实际也包含了连续波段的选择。

附图说明

图1是本发明一种准连续方式的分光波长组合方法的工作流程图;
图2是实施例一中根据参数组合(B=6000cm-1,N=5,G=2)选取的等间隔波长组合示意图。

具体实施方式

下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
目前小型专用的近红外分光系统是要求从这么多波长数中找出适当的几个波长的组合,使得它的近红外分析模型的预测效果好、稳定性高。近红外分析模型的预测效果是通过实验来证实的,一方面是样品的近红外光谱测量实验(采用全波段通用型近红外分析仪器),另一方面是采用常规生化方法对样品的分析目标进行定量分析(作为参考化学值)。首先把样品划分为定标集和预测集,利用上述这两方面的数据建立定标预测模型,根据模型的效果筛选出特定的波长组合。以人体血清中葡萄糖含量的近红外分析为例,通过血清样品的葡萄糖常规分析方法测试和近红外光谱测试,所得数据用于建立相应的定标预测模型,利用本发明找出血清葡萄糖所对应的特有分光波长组合。
实施例中,光谱实验仪器为美国Necolet公司的5700傅里叶变换型近红外光谱仪,探测器为铟镓砷(InGaAs)。用光程2mm的石英比色皿测量光谱,扫描谱区10000cm-1-4000cm-1,分辨率4cm-1,扫描次数64。本例中,光谱波段的单位为波数(cm-1),光谱的波长间隔为1.93cm-1。
采用191份人体血清样品,样品葡萄糖的含量由全自动生化分析仪测定作为光谱分析的参考化学值。全体化学值范围3.53mmol/L-6.15mmol/L,均值为4.90mmol/L,标准偏差为0.59mmol/L。按照大约2∶1的比例把全部样品划分为定标集(131个样品)和预测集(60个样品)。
如图1所示,利用本发明准连续方式的分光波长组合方法找出血清葡萄糖所对应的特有分光波长组合:
S1、通过上面对样品进行的红外光谱测量和样品的生化定量分析,得到相应的光谱数据和样品的参考化学值后,选择波长组合所属的特定波段:考虑到在5200cm-1、4000cm-1附近吸收强烈,光谱能量低,信息含量差,噪音大,把这两段(吸光度高于2的波段)光谱数据扣除,选择的特定波段为10000cm-1-5300cm-1和4920cm-1-4160cm-1两段的组合;
设波长间隔为1.93cm-1,计算特定波段的总波长数:总波长数=波段长度/波长间隔+1,则选择的特定波段共有2831个波长。
S2、根据人体血清葡萄糖的光谱吸收特点和所要设计的近红外分析仪器的特点,设波长组合的点数为N(即波长组合所含有的波长数量),设置波长组合点数的取值范围,即1≤N≤100;设波长组合的间隔为G(即波长组合中相邻两波长在波段中间隔的波长数),设置波长组合间隔的取值范围,即0≤G≤249;
S3、波长组合的点数(N)取最小值1,波长组合的间隔(G)取最小值0;
S4、设置波长组合的起点(B)从特定波段内的第一个波长(10000cm-1)依次变化到最后一个波长(4160cm-1);查找所有可能的(B,N,G)参数组合,利用它们的光谱数据和样品的参考化学值,分别建立定标预测的MLR模型;
S5、判断波长组合的间隔G<249是否成立,若是,则增加波长组合的间隔G,并返回S4,否则G=0,并进入S6;
S6、判断波长组合的点数N<100是否成立,若是,则增加波长组合的点数N,并返回S4,否则进入S7;
S7、求出所有MLR模型的评价指标,根据模型评价指标对所有模型进行评价,选取最佳的模型和相应的(B,N,G)参数组合,同时得到对应的波长组合;其中模型效果的评价指标主要有三个:预测均方根偏差(RMSEP)、相对预测均方根偏差(RRMSEP)和预测相关系数(RP)。
S8、对于已经选出的等间隔的波长组合,进一步用光谱平滑化方法做光谱预处理,然后建立定标预测模型,进一步提高预测效果。
为了更好的说明本实施例,如图2所示,上述步骤S4查找到的其中一个参数组合(B=6000cm-1,N=5,G=2)中,在波段为10000cm-1-5300cm-1和4920cm-1-4160cm-1两段的组合,由于波长间隔为1.93cm-1,所以波长组合的起点从6000cm-1开始,以间隔的波长数为2等间隔提取5个波长,最后得到的等间隔波长组合是6000cm-1,5994cm-1,5988cm-1,5982cm-1,5976cm-1。利用这些波长的光谱数据和样品的参考化学值来建立MLR模型。
目前偏最小二乘(PLS)方法是一种应用广泛而有效的近红外光谱分析的建模方法,我们用这种方法来建立全谱段的PLS模型,将等间隔波长组合MLR模型与全谱段PLS模型的预测效果作比较,见表一:。
表一
  模型 参数   采用数据点  的个数   RMSEP  (mmol/L)   RP   RRMSEP   等间隔波长组合的  MLR模型 起点5753cm-1,点数22,间隔33   22   0.326   0.841   6.69%   全谱段的PLS模型 因子数7   2831   0.376   0.781   7.72%
从表一可以看出,由本发明参数组合(B=5753cm-1,N=22,G=33)建立的MLR模型,其预测均方根偏差(RMSEP)为0.326mmol/L,预测相关系数(RP)为0.841,相对预测均方根偏差(RRMSEP)为6.69%,结果表明,将本发明分光波长组合方法应用于人体血清葡萄糖含量的近红外光谱分析,只采用22个波长点进行分光组合优化,就得到比全谱段PLS模型(采用2831个波长点)更高的预测精度,同时降低了模型的复杂性,为设计小型专用近红外分析仪器提供重要依据。
根据参数组合(B=5753cm-1,N=22,G=33)建立的等间隔移动窗口MLR模型,所得到的22个波长组合分别是:5753cm-1、5818cm-1、5884cm-1、5949cm-1、6015cm-1、6081cm-1、6146cm-1、6212cm-1、6277cm-1、6343cm-1、6408cm-1、6474cm-1、6540cm-1、6605cm-1、6671cm-1、6736cm-1、6802cm-1、6867cm-1、6933cm-1、6999cm-1、7064cm-1和7130cm-1。
上面是以人体血清中葡萄糖含量的近红外分析为例,介绍了本发明的效果,实际上,我们在其他的多个实验中也得到了证实,如土壤养分(有机质、总氮)近红外光谱分析、人体血清中葡萄糖含量FTIR/ATR光谱分析、人体全血中血红蛋白分析(近红外光谱、FTIR/ATR光谱)、甘蔗制糖业的原料及中间产品的糖分分析(近红外光谱、FTIR/ATR光谱)等方面,均可得到比常规的光谱分析方法更优的预测效果。
本实施例以近红外分析为例,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。