一种基于多元回归结合稀疏自编码器光谱特征降维方法转让专利

申请号 : CN202111030705.4

文献号 : CN113804657B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孙兰香吕尊记张鹏于海斌曾鹏

申请人 : 中国科学院沈阳自动化研究所

摘要 :

本发明涉及光谱分析领域,具体是一种基于多元回归结合稀疏自编码器光谱特征降维方法。针对数据存在噪声和光谱数据维度过高带来的问题,提出基于稀疏自编码器特征降维神经网络的LIBS的定量分析方法以提高陶瓷原理元素检测精度。具体步骤为:(1)计算训练集中每列特征与标签之间的权重系数;(2)训练集中选取权重系数在前L的特征;(3)测试集保留与训练集剩余特征相同的特征列;(4)用训练集剩余特征建立稀疏自编码器模型,将特征由L维重构为M维;(5)使用自编码器模型对测试集数据进行降维。本发明提供了一种有效降低数据特征维度的方法,提高了分析精度。

权利要求 :

1.一种基于多元回归结合稀疏自编码器光谱特征降维方法,其特征在于,包括以下步骤:离线建模的步骤:采集陶瓷原料样本的激光诱导击穿光谱原始数据;对每张原始光谱特征进行权重系数的特征筛选;利用特征筛选后新特征建立稀疏自编码器模型,并反复迭代过程中根据目标函数不断更新稀疏自编码器模型的权值获取优化的稀疏自编码器模型;

所述离线建模包括以下步骤:

步骤1:数据预处理:对获得的待测物质的激光诱导击穿光谱原始数据,进行均值处理;

步骤2:数据集划分:将采集的陶瓷原料样本数据划分为训练集和测试集;训练样本用于建模,测试样本用于评价最终模型的预测精度;

步骤3:计算训练集中每列特征与标签之间的权重系数;所述训练集中每列特征与标签之间的权重系数的获取包括:通过建立光谱特征与标签之间的多元线性方程计算权重系数;

步骤4:训练集中选取权重系数的绝对值按由大到小排序的前L个的光谱特征;

步骤5:测试集保留与训练集剩余特征相同的特征列;

步骤6:用训练集剩余特征建立稀疏自编码器模型,将特征由L维重构降维至M维;所述建立稀疏自编码器模型包括:a.在编码过程,输入向量x通过参数Wr,br获得隐含层输出y,y是经过编码后的特征向量;在解码过程利用参数Wt,bt获得到重建向量z,公式如下:y=f(Wrx+br)

z=f(Wty+bt)

式中:x为输入光谱信号,z为输出光谱信号,Wr和Wt分别表示编码和解码过程矩阵的权值;br和bt分别表示偏置项,f()为激活函数;

b.通过设置隐藏层节点数、学习率、迭代次数、稀疏惩罚参数,反复迭代进行调试,优化稀疏自编码器模型的权值,得到优化后的模型;

c.利用下式计算目标函数,再计算目标函数的均方根误差,当误差满足阈值要求时得到隐含层输出的降维后的新的光谱特征量y;

其中,上式中为在隐藏层加入L1正则化约束项对权值w进行限制,使得w尽量为0;

实时检测的步骤:利用现场设备采集现场陶瓷原料样本的实时光谱数据,经多元线性回归处理后,输入优化的稀疏自编码器模型,对光谱特征进行降维。

2.根据权利要求1所述的一种基于多元回归结合稀疏自编码器光谱特征降维方法,其特征在于,所述采集陶瓷原料样本的激光诱导击穿光谱原始数据是采用激光诱导击穿光谱仪采集的。

3.根据权利要求1所述的基于多元回归结合稀疏自编码器光谱特征降维方法,其特征在于,采集多次光谱数据,并将每个样本采集到的光谱数据取平均值。

4.根据权利要求1所述的一种基于多元回归结合稀疏自编码器光谱特征降维方法,其特征在于,该方法通过python中sklearn函数包来实现。

5.一种基于多元回归结合稀疏自编码器光谱特征降维系统,其特征在于,包括:光谱采集设备、处理器、存储器;所述光谱采集设备用于采集陶瓷原料样本的激光诱导击穿光谱原始数据;所述存储器存储有如下程序模块,处理器读取程序执行如权利要求1‑4任意一项所述的方法步骤,实现当前陶瓷原料样本光谱特征的降维;

离线建模程序模块:采集陶瓷原料样本的激光诱导击穿光谱原始数据;对每张原始光谱特征进行权重系数的特征筛选;利用特征筛选后新特征建立稀疏自编码器模型,并反复迭代过程中根据目标函数不断更新稀疏自编码器模型的权值获取优化的稀疏自编码器模型;

实时检测程序模块:利用现场设备采集现场陶瓷原料样本的实时光谱数据,经多元线性回归处理后,输入优化的稀疏自编码器模型,对光谱特征进行降维。

说明书 :

一种基于多元回归结合稀疏自编码器光谱特征降维方法

技术领域

[0001] 本发明涉及光谱分析领域,具体是一种基于多元回归结合稀疏自编码器光谱特征降维方法。

背景技术

[0002] 作为陶瓷生产和消费大国,据统计2019年,我国规模以上建筑陶瓷企业1453家。产值3831亿元,日用陶瓷产量310亿件,然而我国的陶瓷行业属于资源型、高污染、高耗能行业。陶瓷原料种类繁多,结构多变,化学元素组成和含量差异较大。在陶瓷生产过程中需要对这些原料的化学元素含量进行监测,可以提高配方的准确性,保证产品质量的一致性,减少坯体废料、废品的产生,达到节约资源、降低能耗,实现绿色可持续的发展,进而提高产品质量及市场竞争力。
[0003] 目前国内陶瓷原料企业检测陶瓷原料成分相对准确的方法是化学分析,但化学分析预处理复杂,检测过程周期长,有滞后性,无法做到在线检测分析并且所用试剂易造成环境二次污染。近几年,也出现了新的检测技术对陶瓷原料进行在线检测,如X射线荧光(XRF)分析法。XRF分析法能够做到实时在线检测,但是用于陶瓷原料在线分析的XRF分析仪容易受相互元素干扰和叠加峰影响,且X射线具有放射性,具有潜在的危害性。激光诱导击穿光谱技术是一种新兴的检测技术,被世界著名的光谱分析学家Winefordner称为“一颗未来巨星”,它具有多元素同时分析、无需对样品处理、对样品的破坏小、快速分析实时检测等优点,相比其他方法,LIBS更有利于对陶瓷原料的检测。
[0004] 在分析陶瓷原料中元素时,陶瓷原料的成分复杂且自吸效应比较严重,采用传统的单变量定量分析方法不能达到对铁陶瓷原料中元素定量分析的要求,因此在分析陶瓷原料时,常采用多变量分析方法以校正自吸收效应和基体效应。其中,神经网络是一种机器学习算法,可以在自变量多重相关的情况下实现定量分析,并较为容易地排除自变量中的噪声,能够解决多元线性回归中比较难分析的问题。而LIBS采集到的光谱数据中有大量对成分分析无用的冗余信息,采用全谱数据进行建模会增加建模复杂程度,导致建立的模型精确度不够、泛化能力不强。
[0005] 为了降低建模复杂程度,避免数据维度过多,减少冗余信息的干扰的问题,本发明提出一种基于多元回归结合稀疏自编码器光谱特征降维方法。

发明内容

[0006] 本发明的目的是解决光谱数据维度过高给神经网络建模带来的数据冗余和过拟合问题,以及激光诱导击穿光谱在进行成分分析时受自吸收效应和基体效应造成的影响。将稀疏自编码器网络特征降维引入到光谱数据的处理中,提出一种基于稀疏自编码器网络特征降维神经网络的模型以提高陶瓷原料元素的定量分析的精度。
[0007] 为此,本发明是采用如下技术方案实现的:一种基于多元回归结合稀疏自编码器光谱特征降维方法,包括以下步骤:
[0008] 离线建模的步骤:采集陶瓷原料样本的激光诱导原始光谱数据;对每张原始光谱特征进行权重系数的特征筛选;利用特征筛选后新特征建立稀疏自编码器模型,并反复迭代过程中根据目标函数不断更新稀疏自编码器模型的权值获取优化的稀疏自编码器模型;
[0009] 实时检测的步骤:利用现场设备采集现场陶瓷原料样本的实时光谱数据,输入优化的稀疏自编码器模型,对光谱特征进行降维。
[0010] 所述采集陶瓷原料样本的激光诱导原始光谱数据是采用激光诱导击穿光谱仪采集的。
[0011] 所述离线建模包括以下步骤:
[0012] 步骤1:数据预处理:对获得的待测物质的激光诱导击穿光谱原始数据,进行均值处理;
[0013] 步骤2:数据集划分:将采集的陶瓷原料样本数据划分为训练集和测试集;训练样本用于建模,测试样本用于评价最终模型的预测精度;
[0014] 步骤3:计算训练集中每列特征与标签之间的权重系数;
[0015] 步骤4:训练集中选取权重系数的绝对值按由大到小排序的前L个的光谱特征;
[0016] 步骤5:测试集保留与训练集剩余特征相同的特征列;
[0017] 步骤6:用训练集剩余特征建立稀疏自编码器模型,将特征由L维重构降维至M维。
[0018] 将采集多次光谱数据,并将每个样本采集到的光谱数据取平均值。
[0019] 所述训练集中每列特征与标签之间的权重系数的获取包括:通过建立光谱特征与标签之间的多元线性方程计算权重系数。
[0020] 所述建立稀疏自编码器模型包括:
[0021] a.在编码过程,输入向量x通过参数Wr,br获得隐含层输出y,y是经过编号后的特征向量;在解码过程利用参数Wt,bt获得到重建向量z,公式如下:
[0022] y=f(Wrx+br)
[0023] z=f(Wty+bt)
[0024] 式中:x为输入光谱信号,z为输出光谱信号,Wr和Wt分别表示编码和解码过程矩阵的权值;br和bt分别表示偏置项,f()为激活函数;
[0025] b.通过设置隐藏层节点数、学习率、迭代次数、稀疏惩罚参数,反复迭代进行调试,优化稀疏自编码器模型的权值,得到优化后的模型;
[0026] c.利用下式计算目标函数,再计算目标函数的均方根误差,当误差满足阈值要求时得到隐含层输出的降维后的新的光谱特征量y;
[0027]
[0028] 其中,上式中为在隐藏层加入L1正则化约束项对权值w进行限制,使得w尽量为0。
[0029] 该方法通过python中sklearn函数包来实现。
[0030] 一种基于多元回归结合稀疏自编码器光谱特征降维系统,包括:光谱采集设备、处理器、存储器;所述光谱采集设备用于采集陶瓷原料样本的激光诱导原始光谱数据;所述存储器存储有如下程序模块,处理器读取程序执行如上所述的方法步骤,实现当前陶瓷原料样本光谱特征的降维;
[0031] 离线建模程序模块:采集陶瓷原料样本的激光诱导原始光谱数据;对每张原始光谱特征进行权重系数的特征筛选;利用特征筛选后新特征建立稀疏自编码器模型,并反复迭代过程中根据目标函数不断更新稀疏自编码器模型的权值获取优化的稀疏自编码器模型;
[0032] 实时检测程序模块:利用现场设备采集现场陶瓷原料样本的实时光谱数据,输入优化的稀疏自编码器模型,对光谱特征进行降维。
[0033] 本发明具有以下有益效果及优点:
[0034] 本发明方法通过本发明通过基于稀疏自编码器特征降维神经网络模型以进行LIBS的定量分析,降低了数据冗余带来建模复杂度以及自吸收和基体效应带来的影响,提高了陶瓷原料元素含量定量分析的精度。

附图说明

[0035] 图1为本发明的流程图。
[0036] 图2为特征降维的示意图。
[0037] 图3为陶瓷原料Si元素预测值与真实值的比较图。
[0038] 图4为陶瓷原料Al元素预测值与真实值的比较图。
[0039] 图5为陶瓷原料Fe元素预测值与真实值的比较图。
[0040] 图6为陶瓷原料Mg元素预测值与真实值的比较图。
[0041] 图7为陶瓷原料Ti元素预测值与真实值的比较图。

具体实施方式

[0042] 下面结合陶瓷原料的LIBS品位分析实例对本发明的技术方案进行进一步说明。
[0043] 一种基于多元回归结合稀疏自编码器光谱特征降维方法。具体描述为:由于受到基体效应,自吸收效应的影响,特征谱线与元素浓度之间除了存在线性关系也存在非线性的关系。
[0044] 其中,稀疏自编码器,在训练过程中通过目标函数使输出光谱逼近输入光谱,获得了更强的非线性特征提取能力。自编码器的输入是经过LR特征提取过后的光谱数据,输出为重构的光谱数据,训练目标是最小化输入与输出均方根误差,从而获得经隐藏层降维后的新的特征量。
[0045] 在编码过程,输入向量x通过参数Wr,br获得隐含层输出y,y是经过编号后的特征向量;在解码过程利用参数Wt,bt获得到重建向量z,公式为
[0046] y=f(Wrx+br)
[0047] z=f(Wty+bt)
[0048] 式中:x为输入光谱信号,z为输出光谱信号,Wr和Wt分别表示编码和解码过程矩阵的权值。br和bt分别表示偏置项,f()为激活函数。隐藏层节点数、学习率、迭代次数、稀疏惩罚等参数的设置都会对特征提取结果产生影响,需要不断进行调试确定。训练集共M个样本,在隐藏层加入L1正则化约束项对权值w进行限制,使得w尽量为0。如式[0049]
[0050] 主要通过python中sklearn函数包来实现。
[0051] 稀疏自编码器网络特征降维是与标签浓度没有相关性的(包括线性关系和非相关系)稀疏自编码器网络的层数可以根据样本个数与特征维数以及降维的目标来进行调整重构的维数M可以根据样本个数与特征维数以及降维的目标来进行调整。
[0052] 实施例:一种基于多元回归结合稀疏自编码器光谱特征降维方法,流程图如图1所示,具体包括以下步骤:
[0053] (1)数据预处理。38个样本一共获得342×8188大小的光谱矩阵,每个样品有9张光谱数据。对每个样品采集到的9张光谱数据再进行均值化处理,最终38个样品共获得38×8188光谱数据矩阵。
[0054] (2)划分训练集和测试集。总样本数为38,使用5折交叉验证划分训练集和测试集每一折的训练集和测试集样本数依次为(30,8),(30,8),(30,8),(31,7),(31,7)[0055] (3)通过建立光谱特征与标签之间的多元线性方程,计算训练集中每列特征与标签之间的权重系数;
[0056] (4)训练集中选取权重系数的绝对值在前100的特征;
[0057] (5)测试集保留与训练集剩余特征相同的特征列;
[0058] (6)用训练集剩余特征建立稀疏自编码器模型,将特征由100维重构为32维;
[0059] (7)使用自编码器模型对测试集数据进行降维。
[0060] 如图2所示,为特征降维示意图,有图可见:原始光谱的特征维数为8188维,首先经多元线性回归处理后,特征谱线后降至100维,最后经SUAC处理后降至32维。
[0061] 结果验证:图3‑图7示为采用本方法得到的训练集和测试集的预测值与真实值的比较图。
[0062] 表1
[0063]
[0064]
[0065] 表1比较了本发明方法与全谱PLS方法,基于多元线性回归提取特征的PLS、神经网络方法以及基于稀疏编码器多元线性回归结合PLS方法的结果,本发明方法取得了最低的预测均方根误差(RMSE),最低的预测平均相对误差(MRE)和最高的决定系数R2。表明本发明方法对维度较高光谱数据降维、降低自吸收和基体效应带来的影响对定量分析有明显的提升效果。
[0066] 本实例采用陶瓷原料,仅为优选实施例,具体实施时可根据应用对象不同进行分析,调整多元线性回归选择的特征数,稀疏自编码器隐藏的神经元个数和网络参数以及神经网络参数。
[0067] 以上说明所描述的实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变换和改进。这些都属于本发明的保护范围。