一种基于弹性分段标准化算法的模型迁移方法及系统转让专利

申请号 : CN202210977891.0

文献号 : CN115049025B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄少文周平孙兰香张学民王键刘文凭何毅高山倪培亮李长新李洋刘俊宝

申请人 : 山东钢铁股份有限公司

摘要 :

本发明提供一种基于弹性分段标准化算法的模型迁移方法及系统,涉及光谱分析领域,方法先获取由主机和卫星机采集的光谱数据,作为样本,并确定光谱数据的波长范围;对光谱数据进行全谱分析和归一化操作;将每一折光谱数据分为训练数据集和验证数据集;使用主机光谱数据建立定量分析模型;设置窗口初始宽度;训练多元回归模型;记录验证集校正后卫星机光谱谱线与主机光谱谱线;根据验证集的RMSE选择最优的窗口宽度建立转换矩阵;将卫星机光谱数据通过转换矩阵转换;将转换后的卫星机光谱数据作为主机模型的输入,使用主机模型进行预测。本发明降低了波峰位置的光谱谱线之间的RMSE,提高了模型迁移的准确性。

权利要求 :

1.一种基于弹性分段标准化算法的模型迁移方法,其特征在于,方法包括:步骤1:获取由主机和卫星机采集的光谱数据,作为样本,并确定光谱数据的波长范围;

使用多元线性回归表示卫星机光谱数据和主机光谱数据之间的关系;

步骤2:对光谱数据进行全谱分析和归一化操作;

步骤3:将每一折光谱数据分为训练数据集和验证数据集;

步骤4:使用主机光谱数据建立定量分析模型;

步骤5:设置窗口初始宽度为WL,最大宽度为WLmax;将初始宽度width设置为WL,来实现卫星机光谱数据的转换;窗口宽度根据谱线的位置变化而进行自动调整;

步骤6:将卫星机训练集光谱作为输入,对应的主机谱线作为输出,训练多元回归模型;

步骤7:记录验证集校正后卫星机光谱谱线与主机光谱谱线的RMSE,窗口宽度width = width+1;

其中,主机与卫星机之间通过分段的方式建立光谱数据的函数关系,对卫星机的光谱数据进行校正,公式为:式中:Ri是主机光谱数据的第i条谱线的谱线强度值,窗口宽度是d,D是在窗口宽度d下的光谱;fi为对应第i条谱线的转换函数;

步骤8:重复步骤5 步骤6,直至width = WLmax;

~

步骤9:根据验证集的RMSE选择最优的窗口宽度建立转换矩阵;

步骤10:将卫星机光谱数据通过转换矩阵转换;

步骤11:将转换后的卫星机光谱数据作为主机模型的输入,使用主机模型进行预测。

2.根据权利要求1所述的基于弹性分段标准化算法的模型迁移方法,其特征在于,对每个样本进行多次光谱数据的采集,对样本中的多个光谱数据进行平均值计算。

3.一种基于弹性分段标准化算法的模型迁移系统,其特征在于,方法采用如权利要求1至2任意一项所述的基于弹性分段标准化算法的模型迁移方法;

系统包括:迁移终端、主机和卫星机;

主机用于使用光谱数据建立定量分析模型;

迁移终端用于获取由主机和卫星机采集的光谱数据,并确定光谱数据的波长范围;

对光谱数据进行全谱分析和归一化操作;将每一折光谱数据分为训练数据集和验证数据集;

设置窗口初始宽度为WL,最大宽度为WLmax;

将卫星机训练集光谱作为输入,对应的主机谱线作为输出,训练多元回归模型;

记录验证集校正后卫星机光谱谱线与主机光谱谱线的RMSE,窗口宽度width = width+

1,使 width = WLmax;

根据验证集的RMSE选择最优的窗口宽度建立转换矩阵;

将卫星机光谱数据通过转换矩阵转换;

将转换后的卫星机光谱数据作为主机模型的输入,使用主机模型进行预测;

主机与卫星机之间通过分段的方式建立光谱数据的函数关系,对卫星机的光谱数据进行校正,公式为:式中:Ri是主机光谱数据的第i条谱线的谱线强度值,窗口宽度是d,D是在窗口宽度d下的光谱;fi为对应第i条谱线的转换函数。

说明书 :

一种基于弹性分段标准化算法的模型迁移方法及系统

技术领域

[0001] 本发明涉及光谱分析领域,尤其涉及一种基于弹性分段标准化算法的模型迁移方法及系统。

背景技术

[0002] 近几年来,随着光谱仪器的制造水平的提升、光谱分析算法和软件的开发,激光诱导击穿光谱技术也得到了快速的发展。得益于激光诱导击穿光谱技术可以对样本进行无损、多元素同时检测、快速实时的检测,使其在土壤检测、煤炭开采、冶金分析、矿产开发、生物医学等众多领域得到了广泛的应用。实践已经证明,利用化学计量学方法,结合神经网络、机器学习等方法应用于激光诱导击穿光谱的数据处理,能够大幅提高产品检测的质量和效率,降低生产成本和能源消耗,激光诱导击穿光谱技术已经成为一种重要的检测分析手段。由于激光诱导击穿光谱数据普遍存在一些噪声,基线漂移,自吸收效应等缺点,需要借助稳定的模型才能进行定量或者定性的分析。
[0003] 然而建立一个稳定、可靠的高质量激光诱导击穿光谱分析模型,通常需要大量的光谱样本,代价高、费时费力,并且建好的模型难以维护。在实际的生产中,光谱仪测量的光谱会受到很多因素的影响,如环境的不同、仪器加工机械的差异都将导致光谱之间存在一定的差异,例如:前一批样本的光谱模型不能用于下一批次样本的数据分析;相同样本建立的模型在不同的仪器之间不能共用。这些问题都严重制约了激光诱导击穿光谱技术的发展和应用。因此,建立一种模型之间高质量传递以便光谱模型之间共享的理论及系统方法,已经成为激光诱导击穿光谱技术的一项重要研究工作。
[0004] 目前激光诱导击穿光谱技术是通过建立主机和卫星机光谱之间的联系,找到一种映射,从而将卫星机仪器的光谱转换成可以使用主机模型的光谱数据,实现多台仪器光谱共享一个模型的效果。在实际的生产中,光谱仪会随着场景的变化,环境条件的改变,仪器的老化等原因,使得之前建立的激光诱导击穿光谱分析模型需要定期的维护。
[0005] 目前,激光诱导击穿光谱模型传递技术已经取得了一些成果,但在实际的生产中,模型传递技术并没有广泛的使用,根本原因还是模型传递后的预测精度,模型的稳定性还有待提高。可以预见在便携式光谱仪迅速发展的今天,绿色快速无污染的激光诱导击穿光谱技术将广泛应用于生活中的方方面面,模型迁移的方法的研究依旧具有广泛的前景。
[0006] 建立分析模型是激光诱导击穿光谱技术进行定量或定性分析的基础,然而建立一个稳定、可靠的光谱分析模型需要消耗巨大的人力物力,光谱的采集和处理都需要消耗大量的时间和精力。然而当建好的模型只能用于当前一段时间或者单一样本的测量,这是实际生产中所不能接受的。模型之间通用性的问题,已经严重阻碍了激光诱导击穿光谱技术的发展。现有的情况,一般导致模型的“失效”有两个主要原因,具体如下:
[0007] 1)待测样本的改变。当用高质量的有标签数据进行学习建立好其分析模型之后,用来待测分析的样本因为时间的差异,环境的不同,导致不同批次的样本之间存在着一些差异,此时如果直接用原来的模型不加修正和优化直接用于分析现有的样本,便会出现较大的误差,导致模型的“失效”。
[0008] 2)仪器的不同。一般光谱仪的生产厂商,相同型号的光谱仪不仅只生产一台,往往都是批量化的生产。由于一些加工工艺和机械结构上的微小差异,会导致相同型号生产的仪器不能通用一个分析模型。或者在一些研究单位,仪器的采购时间不同,或者相同型号采购的厂商不同都会造成预测误差。

发明内容

[0009] 为解决上述问题,本发明提出模型迁移的思想,即:在只需要在少量新测量的样本条件下,就能对模型进行改进和维护,实现模型迁移追求的目标。
[0010] 本发明为提高模型迁移的精度,降低了波峰位置的光谱谱线之间的RMSE,本发明提出一种基于弹性分段标准化算法的模型迁移方法。
[0011] 方法包括:
[0012] 步骤1:获取由主机和卫星机采集的光谱数据,作为样本,并确定光谱数据的波长范围;
[0013] 步骤2:对光谱数据进行全谱分析和归一化操作;
[0014] 步骤3:将每一折光谱数据分为训练数据集和验证数据集;
[0015] 步骤4:使用主机光谱数据建立定量分析模型;
[0016] 步骤5:设置窗口初始宽度为WL,最大宽度为WLmax;
[0017] 步骤6:将卫星机训练集光谱作为输入,对应的主机谱线作为输出,训练多元回归模型;
[0018] 步骤7:记录验证集校正后卫星机光谱谱线与主机光谱谱线的RMSE,窗口宽度width = width+1;
[0019] 步骤8:重复步骤5 步骤6,直至width = WLmax;~
[0020] 步骤9:根据验证集的RMSE选择最优的窗口宽度建立转换矩阵;
[0021] 步骤10:将卫星机光谱数据通过转换矩阵转换;
[0022] 步骤11:将转换后的卫星机光谱数据作为主机模型的输入,使用主机模型进行预测。
[0023] 优选的,对每个样本进行多次光谱数据的采集,对样本中的多个光谱数据进行平均值计算。
[0024] 优选的,将初始宽度width设置为WL,来实现卫星机光谱数据的转换。
[0025] 优选的,使用多元线性回归表示卫星机光谱数据和主机光谱数据之间的关系。
[0026] 优选的,窗口宽度根据谱线的位置变化而进行自动调整。
[0027] 优选的,主机与卫星机之间通过分段的方式建立光谱数据的函数关系,对卫星机的光谱数据进行校正,公式为:
[0028]
[0029] 式中:Ri是主机光谱数据的第i条谱线的谱线强度值,窗口宽度是d,D是在窗口宽度d下的光谱;fi为对应第i条谱线的转换函数。
[0030] 本发明还提供一种基于弹性分段标准化算法的模型迁移系统,系统包括:迁移终端、主机和卫星机;
[0031] 更进一步地,主机用于使用光谱数据建立定量分析模型;
[0032] 更进一步地,卫星机用于各个实际应用场景上的激光诱导光谱采集系统,可以按照要求采集相关的光谱数据;
[0033] 更进一步地,迁移终端用于获取由主机和卫星机采集的光谱数据,并确定光谱数据的波长范围;
[0034] 对光谱数据进行全谱分析和归一化操作;
[0035] 将每一折光谱数据分为训练数据集和验证数据集;
[0036] 设置窗口初始宽度为WL,最大宽度为WLmax;
[0037] 将卫星机训练集光谱作为输入,对应的主机谱线作为输出,训练多元回归模型;
[0038] 记录验证集校正后卫星机光谱谱线与主机光谱谱线的RMSE,窗口宽度width = width+1,使 width = WLmax;
[0039] 根据验证集的RMSE选择最优的窗口宽度建立转换矩阵;
[0040] 将卫星机光谱数据通过转换矩阵转换;
[0041] 将转换后的卫星机光谱数据作为主机模型的输入,使用主机模型进行预测。
[0042] 更进一步地,主机与卫星机之间通过分段的方式建立光谱数据的函数关系,对卫星机的光谱数据进行校正,公式为:
[0043]
[0044] 式中:Ri是主机光谱数据的第i条谱线的谱线强度值,窗口宽度是d,D是在窗口宽度d下的光谱;fi为对应第i条谱线的转换函数。
[0045] 从以上技术方案可以看出,本发明具有以下优点:
[0046] 本发明通过基于弹性分段标准化算法以进行LIBS的定量分析模型的迁移,降低了波峰位置的光谱谱线之间的RMSE,提高了模型迁移的准确性。
[0047] 本发明方法与分段直接标准化算法,在PLS和LR+SUAC+BPNN定量分析模型上的表现。经FPDS转化后的卫星机数据的预测准确度有了很大的提高,综合谱线之间的RMSE以及迁移模型的预测精度两种评价指标,FPDS相较于PDS能够对波峰进行精度更高的转换。

附图说明

[0048] 为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0049] 图1为基于弹性分段标准化算法的模型迁移方法流程图。
[0050] 图2为基于弹性分段标准化算法的模型迁移系统示意图。

具体实施方式

[0051] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052] 本发明的目的是解决不同生产线的LIBS设备共享已训练好的定量分析模型问题,也就是要解决用高质量的有标签数据进行学习建立好其分析模型之后,用来待测分析的样本因为时间的差异,环境的不同,导致不同批次的样本之间存在着一些差异的问题。避免直接用原来的模型不加修正和优化直接用于分析现有的样本,导致出现较大的误差,使模型的“失效”。
[0053] 本发明涉及的基于弹性分段标准化算法的模型迁移方法还可以解决由于一些加工工艺和机械结构上的微小差异,导致相同型号生产的仪器不能通用一个分析模型,造成预测误差的问题。
[0054] 具体来讲,如图1所示,本发明提供的基于弹性分段标准化算法的模型迁移方法涉及弹性分段直接标准化,基于主机设备的光谱数据每条谱线与卫星机设备对应谱线附近的其他谱线之间存在一定的函数关系。主机与卫星机之间通过分段的方式建立光谱数据的函数关系,进而对卫星机的光谱数据进行校正,公式为:
[0055]
[0056] 式中:Ri是主机光谱数据的第i条谱线的谱线强度值,窗口宽度是d,D是在窗口宽度d下的光谱;fi为对应第i条谱线的转换函数。窗口的大小往往小于转移样本的个数。
[0057] 每条谱线的转换函数是通过滑动窗口遍历主机设备上采集的光谱数据的所有特征谱线建立的。通过转换函数,可以实现卫星机设备上采集的光谱数据的标准化。为了尽可能的提高谱线的拟合精度,因此,将滑动窗口的宽度设为可变的。通过改变滑动窗口的宽度来减小转换后卫星机的光谱数据与主机光谱数据之间的RMSE。通过观察验证集光谱的每一条谱线的RMSE来确定对应窗口的宽度。
[0058] 也就是本发明的方法通过Python中sklearn函数包来实现。
[0059] 本发明提供的基于弹性分段标准化算法的模型迁移方法包括:
[0060] (1)获获取由主机和卫星机采集的光谱数据,作为样本,并确定光谱数据的波长范围。
[0061] 示例性的讲,系统可以配置38个样本,在两台设备上分别获得342×8188大小的光谱矩阵,每个样品有9张光谱数据。对每个样品采集到的9张光谱数据再进行均值化处理,最终38个样品在每台设备上共获得38×8188光谱数据矩阵。
[0062] (2)对光谱数据进行全谱和归一化操作。原始光谱数据除以全谱的平均值后得到的归一化的光谱数据;
[0063] (3)将每一折光谱数据分为训练集和验证集;
[0064] (4)使用主机光谱数据建立定量分析模型;
[0065] (5)设置窗口初始宽度为WL,最大宽度为WLmax;
[0066] (6)将卫星机训练集光谱作为输入,对应的主机谱线作为输出,训练多元回归模型;
[0067] (7)记录验证集校正后卫星机光谱谱线与主机光谱谱线的RMSE,窗口宽度width = width+1;
[0068] (8)重复步骤(5)~步骤(6),直至width = WLmax;
[0069] (9)根据验证集的RMSE选择最优的窗口宽度建立转换矩阵;
[0070] (10)将卫星机光谱数据通过转换矩阵转换;
[0071] (11)将转换后的卫星机光谱数据作为主机模型的输入,使用主机模型进行预测。
[0072] 本发明通过基于弹性分段标准化算法以进行LIBS的定量分析模型的迁移,降低了波峰位置的光谱谱线之间的RMSE,提高了模型迁移的准确性。
[0073] 本发明还对基于弹性分段标准化算法的模型迁移方法进行结果验证:其中本发明采用本方法与分段直接标准化算法得到的5折交叉验证的预测值与真实值的比较结果。
[0074] 表1比较了本发明方法与分段直接标准化算法,在PLS和LR+SUAC+BPNN定量分析模型上的表现。经FPDS转化后的卫星机数据的预测准确度有了很大的提高,综合谱线之间的RMSE以及迁移模型的预测精度两种评价指标,FPDS相较于PDS能够对波峰进行精度更高的转换。
[0075] 表1 本发明方法与分段直接标准化算法得出的分析结果
[0076]
[0077] 本实例采用钢铁冶金渣原料,仅为优选实施例,具体实施时可根据应用对象不同进行分析,调整窗口宽度。
[0078] 当然对于上述基于弹性分段标准化算法的模型迁移方法来讲,本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0079] 方法和系统的附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0080] 本发明还提供一种基于弹性分段标准化算法的模型迁移系统,如图2所示,系统包括:迁移终端、主机和卫星机;
[0081] 迁移终端、主机和卫星机之间可以通过网络通信连接。也就是说,网络是用以在迁移终端、主机和卫星机之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0082] 迁移终端分别与主机和卫星机通信连接。迁移终端接收主机和卫星机的信息,还可以向主机和卫星机发送信息。
[0083] 迁移终端可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
[0084] 基于弹性分段标准化算法的模型迁移系统中,例如可以采用机器学习方法、深度学习方法等生成模型迁移方法。其中,主机用于使用光谱数据建立定量分析模型;
[0085] 迁移终端用于获取由主机和卫星机采集的光谱数据,作为样本,并确定光谱数据的波长范围;
[0086] 对光谱数据进行全谱分析和归一化操作;将每一折光谱数据分为训练数据集和验证数据集;
[0087] 设置窗口初始宽度为WL,最大宽度为WLmax;
[0088] 将卫星机训练集光谱作为输入,对应的主机谱线作为输出,训练多元回归模型;
[0089] 记录验证集校正后卫星机光谱谱线与主机光谱谱线的RMSE,窗口宽度width = width+1,使 width = WLmax;
[0090] 根据验证集的RMSE选择最优的窗口宽度建立转换矩阵;
[0091] 将卫星机光谱数据通过转换矩阵转换;
[0092] 将转换后的卫星机光谱数据作为主机模型的输入,使用主机模型进行预测。
[0093] 其中,主机与卫星机之间通过分段的方式建立光谱数据的函数关系,对卫星机的光谱数据进行校正,公式为:
[0094]
[0095] 式中:Ri是主机光谱数据的第i条谱线的谱线强度值,窗口宽度是d,D是在窗口宽度d下的光谱;fi为对应第i条谱线的转换函数。
[0096] 本发明提供的基于弹性分段标准化算法的模型迁移系统通过基于弹性分段标准化算法以进行LIBS的定量分析模型的迁移,降低了波峰位置的光谱谱线之间的RMSE,提高了模型迁移的准确性。
[0097] 对于本发明提供的基于弹性分段标准化算法的模型迁移方法及系统是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0098] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。