基于随机森林迁移学习的红外光谱模型传递方法转让专利

申请号 : CN201710037798.0

文献号 : CN106815643B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈媛媛李墅娜张瑞王志斌景宁

申请人 : 中北大学

摘要 :

本发明公开一种基于随机森林迁移学习的红外光谱模型传递方法,利用随机森林思想将主仪器扫描的样本数据集利用Bootstrap方法生成多个子数据集;针对每个子数据集,结合目标仪器扫描的样本数据集,利用迁移学习算法建立目标仪器上的分析模型;针对目标仪器上采集的待测样本红外光谱,根据建立的每个分析模型预测其待测组分含量;计算每个待测样本与建立的各个分析模型中样本之间的结构分布相似度,以确定与每个待测样本对应的各个目标分析模型权重因子;再利用加权平均方法对预测结果进行汇总,得到最终的待测组分含量。该方法具备鲁棒性强、自适应的优点,有效提升模型传递的准确度和稳定性,可以广泛应用于固相、液相和气相的红外光谱模型传递领域中。

权利要求 :

1.一种基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:包括以下步骤:S1、将主仪器扫描采集得到的样本光谱数据集Dm利用Bootstrap随机抽样方法生成K个子数据集:S2、针对每个子数据集 结合目标仪器上扫描得到的数据集Ds,利用迁移学习算法建立目标仪器上的红外光谱与化学组分间的映射模型: 同时形成新的数据集S3、针对待测样本,利用目标仪器扫描其红外光谱xi,并将其送入到每个映射模型从而得到每个映射模型给出的化学组分预测值:S4、计算待测样本xi与数据集 中每个样本的相似度,并进行累加求和,记为:Si(1≤i≤k);

S5、针对待测样本xi,计算各个映射模型对应的权重因子:

S6、利用加权平均方法计算待测样本的化学组分含量:

2.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:所述步骤S2中的迁移学习算法包括基于实例的迁移算法或基于特征的迁移算法。

3.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:所述步骤S2中映射模型包括线性模型或非线性模型。

4.根据权利要求3所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:所述线性模型为多元回归或偏最小二乘;非线性模型为人工神经网络、支持向量机或极限学习机。

5.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:所述步骤S2中映射模型的建立包括红外光谱预处理和特征选择。

6.根据权利要求5所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:所述红外光谱预处理包括去噪和基线校正;特征选择包括无信息变量消除法、区间偏最小二乘法、遗传算法、蝙蝠算法或稀疏优化等。

7.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:所述步骤S4中相似度度量方法包括欧式距离法、L范数法、相关系数法,以及将样本映射到其它高维或者低维空间后再计算得到的相似性度量方法。

8.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:所述步骤S4中相似度度量结果包括样本间越接近,相似度越高,Si值越大。

9.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:所述步骤S5中各个映射模型对应的权重因子满足关系:

说明书 :

基于随机森林迁移学习的红外光谱模型传递方法

技术领域

[0001] 本发明涉及一种基于随机森林迁移学习的红外光谱模型传递方法,适用于不同厂家、不同型号红外光谱仪的跨平台模型通用方法。

背景技术

[0002] 红外光谱分析是一种新兴的分析技术,由于它具有快速、无损和无污染等优点,在农业、化工和环境监测等领域有着广泛的应用。红外光谱分析技术要求红外光谱仪和定性/定量分析模型必须协调工作,否则均会对分析结果由影响。然而,在实际的应用过程中,通常会存在红外光谱仪生产厂家不同、型号不同等情况,致使所建立的分析模型无法适用于所有红外光谱仪,而为每台设备单独建立一个分析模型,则会花费大量的人力物力和时间。
[0003] 传统的模型传递方法包括斜率截距法、直接校正法、分段直接校正法、Shenk’s法等。但是上述几种方法均为有标样方法,即事先准备好多个标准样本,分别在主仪器和目标仪器上对这些样本进行光谱扫描,接着利用数学方法确定两者间的映射关系。对于新的待测样本,在目标仪器上扫描光谱后,利用映射函数对其进行转换,再使用主仪器上建立的原模型进行预测。但是在实际应用中,一方面,用户通常很难将标准样本长期保存,环境的变化往往会造成样本性质变化;另一方面,由于受物理空间影响,将标准样本进行长途运输亦显得不具操作性。
[0004] 中国海洋大学贺英于2012年在其博士论文中提出了一种新的模型传递方法——基于集成迁移学习的近红外光谱模型传递方法,通过将迁移学习、样本相似匹配和集成学习等方法相互结合,构建了具有一定稳健性的迁移模型。但是,该方法存在以下两点不足:(1)该方法中分别利用支持向量机(Support Vector Machine,SVM)、K近邻(K-Near Neighbor,KNN)和偏最小二乘(Partial Least Square,PLS)三种方法建立回归模型,然后再进行加权集成,但是三种方法所建立的模型均是在同一样本分布的前提下完成的,因此当待测样本的分布与建模时所用的样本分布不同时,则可能会出现“负迁移”现象;换句话说,当原模型的泛化性能(鲁棒性)较差时,原模型的误差也会传递到目标仪器上;(2)当目标仪器上的待测样本分布发生变化时,如何根据待测样本的局部结构,自适应地调整各个弱目标分析模型的权重。
[0005] 因此,研究跨设备的模型传递方法,使得在某台红外光谱仪上已经建立好的分析模型能够快速转换到新的仪器上,具有重要的研究意义和应用价值。

发明内容

[0006] 针对背景技术中存在的问题,本发明的目的是提供一种基于随机森林迁移学习的红外光谱模型传递方法,可以自适应地调整随机森林中各个映射模型的权重因子,有效提升模型传递的准确度和稳定性。
[0007] 本发明的技术方案是这样实现的:一种基于随机森林迁移学习的红外光谱模型传递方法,包括以下步骤:S1、将主仪器扫描采集得到的样本光谱数据集Dm利用Bootstrap随机抽样方法生成K个子数据集: S2、针对每个子数据集 结合目标仪器上扫描得到的数据集Ds,利用迁移学习算法建立目标仪器上的红外光谱与化学组分间的映射模型: 同时形成新的数据集 S3、针对待
测样本,利用目标仪器扫描其红外光谱xi,并将其送入到每个映射模型 从而得到每个映射模型给出的化学组分预测值: S4、计算待测样本xi与数据集中每个样本的相似度,并进行累加求和,记为:Si(1≤i≤k);S5、针对待测样本xi,计算各个映射模型对应的权重因子: S6、利用加权平均方
法计算待测样本的化学组分含量:
[0008] 在上述技术方案中,所述步骤S2中的迁移学习算法包括基于实例的迁移算法和基于特征的迁移算法。
[0009] 在上述技术方案中,所述步骤S2中映射模型包括线性模型和非线性模型。
[0010] 在上述技术方案中,所述线性模型为多元回归和偏最小二乘;非线性模型为人工神经网络、支持向量机和极限学习机。
[0011] 在上述技术方案中,所述步骤S2中映射模型的建立包括红外光谱预处理和特征选择。
[0012] 在上述技术方案中,所述红外光谱预处理包括去噪和基线校正;特征选择包括无信息变量消除法、区间偏最小二乘法、遗传算法、蝙蝠算法和稀疏优化等。
[0013] 在上述技术方案中,所述步骤S4中相似度度量方法包括欧式距离法、L范数法、相关系数法,以及将样本映射到其它高维或者低维空间后再计算得到的相似性度量方法。
[0014] 在上述技术方案中,其特征在于:所述步骤S4中相似度度量结果包括样本间越接近,相似度越高,Si的值越大。
[0015] 在上述技术方案中,所述步骤S5中各个映射模型对应的权重因子满足关系:
[0016] 本发明基于随机森林迁移学习的红外光谱模型传递方法,首先利用随机森林思想,将主仪器扫描得到的样本数据集利用Bootstrap方法生成多个分布结构不同的子数据集;其次,针对每个子数据集,结合目标仪器扫描得到的样本数据集,利用基于实例的迁移学习算法建立目标仪器上的分析模型;接着,针对目标仪器上采集的待测样本红外光谱,根据建立的每个分析模型预测其待测组分含量;然后,基于局部结构映射思想,计算每个待测样本与建立的各个分析模型中样本之间的结构分布相似度,以确定与每个待测样本对应的各个目标分析模型权重因子;最后,利用加权平均方法对预测结果进行汇总,以得到最终的待测组分含量。与现有方法相比,该方法具备鲁棒性强、自适应的优点,不仅可以有效提升模型传递的准确度和稳定性,还可以自适应样本分布结构发生变化的情形,因此可以广泛应用于固相、液相和气相的红外光谱模型传递领域中。

附图说明

[0017] 图1为本发明基于随机森林迁移学习的红外光谱模型传递方法流程图;
[0018] 图2为同一样本在三台不同仪器下扫描的红外光谱图;
[0019] 图3为目标仪器mp5测试集预测结果对比示意图;
[0020] 图4为目标仪器mp6测试集预测结果对比示意图;
[0021] 图5为两个不同样本对应的随机森林映射模型权重因子大小情况示意图。

具体实施方式

[0022] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023] 如图1所示,本发明所述的一种基于随机森林迁移学习的红外光谱模型传递方法流程如图1所示,不失一般性,假设各有一台主仪器和目标仪器,已知利用主仪器扫描多个样本的光谱及其化学组分含量的数据集Dm,记为 其中,为包含P个波长点的样本扫描红外光谱; 为各个样本的化学组分含量;N为样本的个数。
[0024] 已知利用目标仪器扫描多个样本的光谱及其化学组分含量数据集Ds,记为其中, 为包含P个波长点的样本扫描红外光谱;为各个样本的化学组分含量;M为样本的个数。一般情况下,M<N。以及利用目标仪器扫描得到的待分析样本红外光谱 对应的化学组分含量yi为未知量,需要我们通过计算得出。
[0025] 首先,将主仪器扫描采集得到的光谱样本数据集Dm利用Bootstrap随机抽样方法生成K个子数据集: 即采用有放回抽样方式,以第i(1≤i≤k)轮为例,每次从Dm中抽取一个样本,共抽取N次,形成新的集合 由于是有放回抽样,集合 虽然同样包含了N个样本,但可能包含了若干重复样本,将重复样本剔除后,即形成第i(1≤i≤k)个子数据集 根据概率论相关知识可以计算出,子数据集 中包含了原数据集Dm中约62%的样本。尽管子数据集中样本数量有所减少,但每个子数据集中的样本分布规律均不相同,这是随机森林算法的本质,从而可以提升模型的鲁棒性。
[0026] 其次,针对每个子数据集 结合目标仪器上扫描得到的数据集Ds,利用迁移学习算法建立目标仪器上的红外光谱与化学组分间的映射模型: 由于针对每个子数据集,迁移学习过程中会将其与Ds合并,从而形成新的数据集,记为:
[0027] 需要说明的是:(1)模型建立的方法可以是线性如多元回归、偏最小二乘等,也可以是非线性如人工神经网络、支持向量机、极限学习机等;(2)在建模之前,若有需要的话,可以对红外光谱进行预处理和特征选择,而红外光谱进行预处理包括去噪、基线校正等;特征选择包括无信息变量消除法、区间偏最小二乘法、遗传算法、蝙蝠算法、稀疏优化等。
[0028] 接着,针对待测样本,利用目标仪器扫描其红外光谱xi,并将其送入到每个映射模型 从而得到每个映射模型给出的化学组分预测值:
[0029] 然后,计算待测样本xi与数据集 中每个样本的相似度,并进行累加求和,记为:Si(1≤i≤k)。需要指出的是:(1)这里关于相似度的度量,可以是欧式距离、L范数等,也可以是先将样本映射到其它高维或者低维空间后再计算得到的度量结果;(2)为了便于后面的表述,不失一般性,这里假设样本间越接近,相似度越高,即Si的值越大。在此基础上,根据下式计算针对待测样本xi,各个映射模型对应的权重因子:
[0030]
[0031] 从上式可以看出,
[0032] 最后,利用加权平均方法计算待测样本的化学组分含量:
[0033] 结合附图2、图3和图4对本发明进行具体实施方式进行分析:本实施例中所选用的数据来源是80个玉米样本的近红外光谱数据集,其光谱扫描范围为1100-2498nm,扫描间隔为2nm,每个样本包含700个波长点。分别用3台近红外光谱仪对所有玉米样本进行扫描,为了表述方便,3台仪器的名称分别命名为:m5、mp5和mp6。
[0034] 在本实施例中,将仪器m5作为主仪器,mp5和mp6作为目标仪器。在80个样本中,随机选择50个样本构成主仪器m5下扫描得到的数据集 剩下的30个样本中,分别随机选择5个样本构成目标仪器mp5和mp6下扫描得到的数据集最终剩下的20个样本分别作为目标仪器mp5和mp6的待测样本
(各10个)xi(i=1,2,...,10)。这里,我们选择玉米的蛋白质含量作为待测组分。
[0035] 在本实施例中,映射模型的建立采用极限学习机(Extreme Learning Machine,ELM)算法,与传统的神经网络相比,ELM的输入层与隐含层之间的连接权值可以随机设定,且隐含层与输出层之间的连接权值可以直接通过线性方程组求解得到,而不需要迭代学习,因此建模时间可以大大减少。与支持向量机等方法相比,ELM具有可调参数少的优点,可以有效地保证模型的稳定性和泛化性能。迁移学习算法采用的是戴文渊等人于2008年提出的TrAdaBoost算法。随机森林的规模设为20,即K=20。
[0036] 为了客观地评价本发明所提出的基于随机森林迁移学习的红外光谱模型传递方法(以下简记为RF-TrAdaBoost)的效果,这里我们将该方法与未迁移模型法以及贺英提出的SM-TrBoostEns方法进行对比,其中未迁移模型指的是利用ELM算法基于主仪器m5数据集Dm建立的模型。目标仪器mp5和mp6测试集的预测结果分别如图3和图4所示,对应的模型泛化性能指标(均方根误差RMSE和决定系数R2)如下表1所列。
[0037] 表1几种模型传递方法对测试集预测结果的对比
[0038]
[0039] 从中可以看出,若未对模型进行迁移,将主仪器m5建立的映射模型直接应用到目标仪器mp5和mp6上,效果较差,决定系数最小;使用本发明所提出的模型传递方法,效果最佳,要明显优于SM-TrBoostEns方法。究其原因,主要有以下两个:
[0040] (1)尽管SM-TrBoostEns方法中也引入了集成学习的思想,但是其是在相同的样本分布结构下分别使用SVM、KNN和PLS方法建立映射模型。众所周知,当样本分布结构确定时,无论使用哪种建模方法,差别均很小,因此该方法起到了重复计算的效果。而与之相反,本发明所提出的随机森林集成是建立在不同的样本分布结构的基础上的,因此每个映射模型学习的侧重点均有所不同,因而可以使得模型的泛化性能和鲁棒性更优。
[0041] (2)本发明所提出的方法中还引入了局部结构映射的思想,即可以根据待测样本的分布结构特点,自适应地调整随机森林中每个映射模型的权重因子。图5给出了两个不同的待测样本进行组分预测时,随机森林中每个映射模型的权重因子大小。如图5中所示,对于#1待测样本而言,第2个映射模型的权重因子最大;而对于#2待测样本而言,第18个映射模型的权重因子最大。权重因子越大,表明对应的映射模型“正迁移”效果越佳,通过加权平均,可以大大提升整个模型的预测精度。
[0042] 本发明基于随机森林迁移学习的红外光谱模型传递方法通过将随机森林思想和迁移学习方法相结合,提出了一种新型的红外光谱模型传递方法。同时,当待测样本的分布结构发生变化时,本发明所提出的方法能够自适应地调整随机森林中各个映射模型的权重因子。与现有方法相比,该方法具备鲁棒性强、自适应等优点,不仅可以有效提升模型传递的准确度和稳定性,还可以自适应样本分布结构发生变化的情形,因此可以广泛应用于固相、液相和气相的红外光谱模型传递领域中。
[0043] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。