基于快速衰减式淘汰算法和PLSDA鉴别黄花梨成熟度的方法转让专利

申请号 : CN201710408854.7

文献号 : CN107247033B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 林敏徐微微黄咏梅刘辉军

申请人 : 中国计量大学

摘要 :

本发明公开了一种基于快速衰减式淘汰算法和PLSDA鉴别黄花梨成熟度的方法,包括以下步骤:(1)收集样品,采集样品光谱,得到样品近红外漫反射光谱数据,并使用一阶微分法预处理原始近红外光谱数据;(2)将预处理后光谱数据使用快速衰减式淘汰算法筛选特征波长;(3)使用偏最小二乘判别法,将筛选后光谱作为模型输入,对应的成熟度作为输出,建立偏最小二乘判别分析模型;(4)模型的质量评价,对待鉴别样品的成熟度测定。本发明能够快速鉴别黄花梨成熟度,丰富了化学计量学方法,具有良好的应用前景。

权利要求 :

1.一种基于快速衰减式淘汰算法和PLSDA鉴别黄花梨成熟度的方法,其特征在于,包括以下步骤:(1)收集样品,在样品成熟期前d天、成熟期期间、成熟期后d天,各至少采集一次样品,其中4≤d≤10;采集样品的近红外光谱,并对近红外光谱进行一阶微分预处理,得到预处理后的近红外光谱数据矩阵;

(2)将步骤(1)得到的预处理后的近红外光谱数据矩阵进行快速衰减式淘汰算法处理,筛选出特征波长;

所述步骤(2)中的快速衰减式淘汰算法具体实现如下:

设定y表示样本的m×1的目标性质矩阵,X表示样本测得的m×n的光谱矩阵,m表示样本数,n表示变量数;W表示组合系数;T表示X的分矩阵,为X与W的线性组合;c是y和T所建模型的回归系数向量;b表示为n维的回归系数向量,e表示预测残差,有式(1)和式(2):T=W·X    (1)

y=c·T+e=cWX+e=b·X+e    (2)

式(2)中b=W·c=[b1,b2,…,bn],b中第i个元素绝对值|bi|(1≤i≤n)表示第i个波长变量对y贡献,那么所有波长对y的总贡献 为了评价每个波长的重要性,定义权重wi为|bi|占总贡献的比例,作为变量优选的标准,|bi|值越大,wi值越大,该波长变量越重要,权重wi表达式如(3)式:wi=|bi|/f    (3)

利用波长点的保留率对波长进行快速筛选,第i次筛选波长时,波长的保留率为rj=ae-ki,其中:a与k为常数,其值可根据下列两种情况求出:①第一次筛选波长时,n个变量均被用于建模,故r1=1;②第N次筛选波长时,仅2个波长被使用,故rN=2/n,a和k的计算公式如下:筛选完成后,从筛选后的变量中提取新的变量集合,基于新变量集合再次建立校正模型,计算RMSECV值;

重复以上筛选过程N次,通过比较获得模型RMSECV值最小的优选变量子集,将其确定为最优变量子集;

(3)使用偏最小二乘判别方法,建立偏最小二乘判别模型,将成熟期前d天、成熟期期间、成熟期后d天采集的样品的实际成熟度以及由步骤(2)得到的成熟期前d天、成熟期期间、成熟期后d天采集的样品的筛选特征波长后的光谱作为偏最小二乘判别模型的模型输入,进而得到最佳偏最小二乘判别模型;

(4)将筛选特征波长后的待鉴别样品的光谱输入最佳偏最小二乘判别模型,得到待鉴别样品的成熟度。

2.根据权利要求1所述的基于快速衰减式淘汰算法和PLSDA鉴别黄花梨成熟度的方法,其特征在于,所述步骤(1)具体实现如下:使用近红外光谱仪对样品进行扫描,得到样品的近红外光谱,将成熟期前d天、成熟期间、成熟期后d天采集的样品随机分为校正集样品和预测集样品,其中,校正集样品用于模型训练,预测集样品用于模型的质量评价;将样品的近红外光谱进行一阶微分预处理,选取窗口宽度,得到预处理后的近红外光谱数据矩阵。

3.根据权利要求1所述的基于快速衰减式淘汰算法和PLSDA鉴别黄花梨成熟度的方法,其特征在于,所述步骤(3)具体实现如下:将成熟期前d天、成熟期间、成熟期后d天采集的样品的实际成熟度以及筛选特征波长后的光谱作为偏最小二乘判别模型,使用偏最小二乘判别法建立偏最小二乘判别模型;在得到最佳偏最小二乘判别模型过程中,确定最适主因子数,从而获得最佳偏最小二乘判别模型。

说明书 :

基于快速衰减式淘汰算法和PLSDA鉴别黄花梨成熟度的方法

技术领域

[0001] 本发明涉及红外无损检测技术领域,尤其涉及一种基于快速衰减式淘汰算法和PLSDA鉴别黄花梨成熟度的方法。

背景技术

[0002] 黄花梨是一种精品梨,采收时间对黄花梨品质的影响很大。采收时,黄花梨的成熟度未达到要求或过熟,都会造成果实品质不高,经济收益不理想的情况。因此,做到适时采收才能将经济效益最大化。
[0003] 现代近红外光谱分析法是一种快速无损的检测方法,其原理为对有机物中的含氢基团X-H的倍频合频产生吸收,通过化学计量方法测得有机物的理化指标,用有效的数学算法将理化指标与光谱建立函数关系,它已经被广泛应用于农产品的定量分析和定性分析中。目前存在的基于近红外光谱法的水果成熟度鉴别方法,建模所需样品基数大、训练时间久,大量样品理化值的获取耗时耗力。对此情况,急需一种普适性较强的模型,有效的鉴别黄花梨的成熟度。

发明内容

[0004] 本发明的目的在于针对现有技术的不足,提供一种基于快速衰减式淘汰算法和PLSDA鉴别黄花梨成熟度的方法。
[0005] 本发明是通过以下技术方案实现的:一种基于快速衰减式淘汰算法和PLSDA鉴别黄花梨成熟度的方法,包括以下步骤:
[0006] (1)收集样品,在样品成熟期前d天(4≤d≤10)、成熟期期间、成熟期后d天,各至少采集一次样品;采集样品的近红外光谱,并对近红外光谱进行一阶微分预处理,得到预处理后的近红外光谱数据矩阵;
[0007] (2)将步骤(1)得到的预处理后的近红外光谱数据矩阵进行快速衰减式淘汰算法处理,筛选出特征波长;
[0008] (3)使用偏最小二乘判别(PLSDA)方法,建立偏最小二乘判别模型,将成熟期前d天、成熟期期间、成熟期后d天采集的样品的实际成熟度以及由步骤(2)得到的成熟期前d天、成熟期期间、成熟期后d天采集的样品的筛选特征波长后的光谱作为偏最小二乘判别模型的模型输入,进而得到最佳偏最小二乘判别模型;
[0009] (4)将筛选特征波长后的待鉴别样品的光谱输入最佳偏最小二乘判别模型,得到待鉴别样品的成熟度。
[0010] 进一步的,所述步骤(1)具体实现如下:
[0011] 使用近红外光谱仪对样品进行扫描,得到样品的近红外光谱,将成熟期前d天、成熟期间、成熟期后d天采集的样品随机分为校正集样品和预测集样品,其中,校正集样品用于模型训练,预测集样品用于模型的质量评价;将样品的近红外光谱进行一阶微分预处理,选取窗口宽度,得到预处理后的近红外光谱数据矩阵。
[0012] 进一步的,所述步骤(2)中的快速衰减式淘汰算法具体实现如下:
[0013] 设定y表示样本的m×1的目标性质矩阵,X表示样本测得的m×n的光谱矩阵,m表示样本数,n表示变量数;W表示组合系数;T表示X的分矩阵,为X与W的线性组合;c是y和T所建模型的回归系数向量;b表示为n维的回归系数向量,e表示预测残差,有式(1)和式(2):
[0014] T=W·X   (1)
[0015] y=c·T+e=cWX+e=b·X+e   (2)
[0016] 式(2)中b=W·c=[b1,b2,…,bn],b中第i个元素绝对值|bi|(1≤i≤n)表示第i个波长变量对Y贡献,那么所有波长对Y的总贡献 为了评价每个波长的重要性,定义权重wi为|bi|占总贡献的比例,作为变量优选的标准,|bi|值越大,wi值越大,该波长变量越重要,权重wi表达式如(3)式:
[0017] wi=|bi|/f   (3)
[0018] 利用波长点的保留率对波长进行筛选,第i个波长的保留率为ri=ae-ki,其中:a与k为常数,其值可根据下列两种情况求出:①第一次筛选波长时,n个变量均被用于建模,故r1=1;②第N次筛选波长时,仅2个波长被使用,故rN=2/n,a和k的计算公式如下:
[0019]
[0020]
[0021] 筛选完成后,从筛选后的变量中提取新的变量集合,基于新变量集合再次建立校正模型,计算RMSECV值。重复以上筛选过程N次,通过比较获得模型RMSECV值最小的优选变量子集,将其确定为最优变量子集。
[0022] 进一步的,所述步骤(3)具体实现如下:
[0023] 将成熟期前d天、成熟期间、成熟期后d天采集的样品的实际成熟度以及筛选特征波长后的光谱作为偏最小二乘判别模型,使用偏最小二乘判别法建立偏最小二乘判别模型;在得到最佳偏最小二乘判别模型过程中,确定最适主因子数,从而获得最佳偏最小二乘判别模型。
[0024] 本发明的有益效果是:利用快速衰减式淘汰算法,快速筛选特征波长建立校正模型;采用PLSDA建立模型,易于快速训练,提高模型精度,选取最优模型。与现有技术相比,如主成分回归等,经快速衰减式淘汰算法得到的光谱所含有效信息比例更高,所建模型更具实际意义,运行速度更快。整个测量过程不消耗化学试剂,测试快速,节省人力物力,批量测试时结果准确,大大提高检测效率。本方法可以在黄花梨采摘环节中推广使用。

附图说明

[0025] 图1为本发明鉴别黄花梨成熟度方法流程图;
[0026] 图2为本发明成熟度不同的三个黄花梨样品原始光谱图;
[0027] 图3为本发明中应用的快速衰减式淘汰算法变量筛选效果图。

具体实施方式

[0028] 本发明提供了一种黄花梨成熟度准确鉴别的近红外光谱分析法。下面结合附图1、附图2、附图3以及实施例对本发明进一步说明。实施例为本发明举例,并非对该发明限定。
[0029] 近红外光谱通常由大量数据点构成,建模时波长点数远大于样本数,且光谱的共线性非常严重,本身有效信息量很弱,各谱区的噪声水平也不一致。因此,波长变量筛选是很有必要的预处理手段。快速衰减式淘汰算法不仅可以去除原始光谱数据中的无信息变量,同时也能够对共线性的变量进行压缩去除,该方法能够有效地用于高光谱数据变量的选择。同时,结合偏最小二乘判别分析建模,PLSDA是一种用于判别分析的多变量统计分析方法。判别分析是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用统计分析方法。偏最小二乘法判别分析可以减少变量间多重共线性产生的影响。
[0030] 本发明采用了快速衰减式淘汰算法和偏最小二乘判别结合的方法,使近红外光谱分析法可以有效的鉴别黄花梨成熟度,丰富了化学计量方法并为近红外光谱分析领域中农作物成熟度鉴别提供了理论前提和技术支持。
[0031] 本发明的技术方案为,收集样品和采谱,对原始光谱预处理,首先用一阶微分法对近红外光谱数据进行有效预处理,得到数据量适中的光谱,对该光谱使用快速衰减式淘汰算法筛选特征波长,将筛选后光谱作为模型输入,通过偏最小二乘判别分析法建模。整个方案流程图如附图1所示。
[0032] 由近红外光谱仪直接获取的原始光谱,数据量庞大,重复性高,冗余信息重,并受噪声干扰。利用一阶微分法,预处理光谱数据,并去除光谱噪声,保留了光谱的主要信息且大大减小了数据量,此步骤需选择合适的窗口宽度。
[0033] 快速衰减式淘汰算法用于提取预处理后光谱的特征波长。快速衰减式淘汰算法是基于达尔文适者生存进化理论基础上提出的一种新的变量选择方法,该方法利用指数衰减函数,优选出每次循环所构建的模型中回归系数绝对值大的变量点,利用十折交叉验证,可以得到N个子集模型中交叉验证均方根误差最小的子集,定义为最优变量子集。该方法不仅可以去除原始光谱数据中的无信息变量,同时也能够对共线性的变量进行压缩去除,能够有效地用于高光谱数据变量的选择。
[0034] 偏最小二乘判别分析法是一种基于类别变量的回归分析方法,在多元统计调查分析及科学研究分析中得到了广泛的实际应用,并可以减少变量间多重共线性产生的影响。本发明基于偏最小二乘回归判别分析,将黄花梨光谱数据与黄花梨成熟度进行判别分析,对黄花梨光谱信息矩阵和黄花梨成熟度矩阵同时进行正交分解,着重增加黄花梨光谱信息对黄花梨成熟度分类解释的作用,由此可以提取出与黄花梨成熟度最为相关的黄花梨光谱信息,即可最大化提取不同成熟度之间黄花梨光谱信息的差异,进而实现不同成熟度黄花梨样品的识别与预测。
[0035] 实施例
[0036] 1.样品收集与光谱采集
[0037] 供试黄花梨样品均来自杭州滨江果业有限公司,在样品成熟期前一周、成熟期间、成熟期后一周各采集一次,三种成熟度光谱如图2所示。一共144个黄花梨样品,对其进行编号,并随机选取其中108个作为校正集,其余36个作为预测集。光谱采集仪器是型号为MCS600的德国蔡司光谱仪,谱区采集范围:190nm-2150nm,实验均在室温下进行。实验中对每个样品沿赤道进行12次不同位置的扫描,使用BaSO4化片做为参比样品,取其平均光谱。为避免杂散光的干扰,采集光谱时使用了1.5mm垫片遮光。模型建立软件基于Matlab2012a进行。
[0038] 2.光谱数据处理
[0039] 为压缩近红外光谱数据,对采集到的原始光谱进行一阶微分处理,窗口宽度选择9点。
[0040] 用快速衰减式淘汰算法筛选出预处理后黄花梨光谱的特征波长。其中,黄花梨样本的目标性质矩阵为y,黄花梨样本测得的光谱矩阵为X。由式(2)和式(3)计算出|bi|,可知第i个波长变量对y的贡献,从而确定变量优选的标准权重wi,在前一次筛选出的变量集的基础上,保留权重大的波长变量,去除权重小的波长变量,从而提取出新的变量集合。基于新变量集合建立校正模型,计算RMSECV值。如图3所示,随着运行次数的增加,保留的波长数减少,说明光谱中的无用信息已被去除,且是一个由粗选到精选的过程。在运行次数为24时,交互验证均方根误差(RMSECV)最小,为0.4062%,保留波长数为33个。当运行次数大于24时,交互验证均方根误差变大,说明光谱中的有效信息也被剔除了。故选择运行次数为24时的最优变量子集,作为偏最小二乘判别模型的输入。
[0041] 3.建立偏最小二乘判别分析模型
[0042] 偏最小二乘判别分析建模中,主因子个数的选取对模型的分类识别至关重要。本实施例中,先分别选择不同的主因子个数,经试验可知,当主因子数为4时,模型判别性能较为稳定,且具有较高的判别精度。以经快速衰减式淘汰算法筛选变量后得到的光谱数据作为模型输入,模型内部交叉验证考察偏最小二乘判别模型的泛化能力,模型交叉验证准确率为98.14%。将预测集样品的36条光谱导入模型,对其成熟度预测。经验证,预测结果与实际情况有极好的线性关系,预测准确率达97.22%,从而验证了偏最小二乘判别分析模型的正确性。4.待鉴别样品的成熟度鉴别
[0043] 将待鉴别样品的光谱采集后,逐步使用一阶微分、快速衰减式淘汰算法做预处理,输入至偏最小二乘判别分析模型中,输出待鉴别样品成熟度。