拉曼光谱数据处理方法、装置、设备与可读存储介质转让专利

申请号 : CN202111593447.0

文献号 : CN113971747B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 何兆铭王晨卉李贺军毕海王悦

申请人 : 季华实验室

摘要 :

本发明公开了一种拉曼光谱数据处理方法、装置、设备与可读存储介质,属于数字信号处理技术领域。本发明通过获取原始光谱数据,对所述原始光谱数据进行降维,得到降维后的光谱信息;并基于所述原始光谱数据,获取平移特征信息;将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法,使用本发明中的新的特征表示方法进行预测,能够有效地避免测试时间不同引起的采样点平移的影响,并且显著提升预测模型的预测精度以及模型的泛化能力,提高了检测效率。

权利要求 :

1.一种拉曼光谱数据处理方法,其特征在于,所述拉曼光谱数据处理方法包括以下步骤:

获取原始光谱数据;

对所述原始光谱数据进行降维,得到降维后的原始信息;

基于所述原始光谱数据,获取平移特征信息;

将所述原始信息和所述平移特征信息进行特征拼接,以得到特征数据集;

所述平移特征信息包括:平移信息,所述基于所述原始光谱数据,获取平移特征信息的步骤包括:

基于所述原始光谱数据,得到获取每个光谱对应的参考点;

计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息。

2.如权利要求1所述的拉曼光谱数据处理方法,其特征在于,所述计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息的步骤包括:

计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;

将所述相对平移程度与所述第一权重系数相乘,得到平移信息。

3.如权利要求1所述的拉曼光谱数据处理方法,其特征在于,所述平移特征信息包括:频域信息,所述基于所述原始光谱数据,获取平移特征信息的步骤包括:对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;

对所述光谱频域信息进行降维,得到所述频域信息。

4.如权利要求3所述的拉曼光谱数据处理方法,其特征在于,所述对所述光谱频域信息进行降维,得到所述频域信息的步骤包括:对所述光谱频域信息进行降维,得到对应的光谱频域降维信息;

基于所述光谱频域降维信息,获取对应的第二权重系数;

将所述光谱频域降维信息与所述第二权重系数相乘,得到所述频域信息。

5.如权利要求4所述的拉曼光谱数据处理方法,其特征在于,所述基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:基于所述光谱频域信息,获取所述第二权重系数的候选参数表;

遍历所述候选参数表,确认所述候选参数表选中效果最优的候选参数,将所述候选参数作为所述第二权重系 数。

6.如权利要求4所述的拉曼光谱数据处理方法,其特征在于,所述基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:将所述光谱频域信息输入预构建的神经网络;

由所述神经网络得到对应的第二权重系数。

7.如权利要求1所述的拉曼光谱数据处理方法,其特征在于,所述对所述原始光谱数据进行降维,得到降维后的原始信息的步骤包括:对所述原始光谱数据进行降维,将降维后数据作为测试集;

用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;

基于所述维度数,对所述原始光谱数据进行降维,得到所述原始信息。

8.一种拉曼光谱数据处理装置,其特征在于,所述装置包括:获取模块,用于获取原始光谱数据;

处理模块,用于对所述原始光谱数据进行降维,得到降维后的原始信息;

平移特征模块,用于基于所述原始光谱数据,获取平移特征信息;

特征融合模块,用于将所述原始信息和所述平移特征信息进行特征拼接,以得到特征数据集。

9.一种拉曼光谱数据处理设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的拉曼光谱数据处理程序,所述拉曼光谱数据处理程序配置为实现如权利要求1至7中任一项所述的拉曼光谱数据处理方法的步骤。

10.一种可读存储介质,其特征在于,所述可读存储介质上存储有拉曼光谱数据处理程序,所述拉曼光谱数据处理程序被处理器执行时实现如权利要求1至7任一项所述的拉曼光谱数据处理方法的步骤。

说明书 :

拉曼光谱数据处理方法、装置、设备与可读存储介质

技术领域

[0001] 本发明涉及数字信号处理领域,尤其涉及拉曼光谱数据处理方法、装置、设备与可读存储介质。

背景技术

[0002] 拉曼光谱分析法是基于印度科学家C.V.拉曼(Raman)所发现的拉曼散射效应,对与入射光频率不同的散射光谱进行分析以得到分子振动、转动方面信息,并应用于分子结
构研究的一种分析方法。
[0003] 现有的拉曼光谱分析技术通常使用PCA(Principal Component Analysis,PCA)算法结合分类器构建预测模型的方式对测试样品进行定性或者定量分析。具体通常首先构建
测试样品数据集,将拉曼光谱进行平滑去噪处理后进行降维,使用降维后的数据进行后续
分析处理。
[0004] 但在现有拉曼光谱分析技术中,在对一批样本进行测试时,除了需要采集待测样品的光谱外,还需要在同等条件下采集构建用于模型训练的数据集,一旦设备中的光学部
件随着环境温湿度等因素发生变化后,新的测试样品光谱会在采样位置出现一定的偏移。
这时候,如果待测样品之间的区别很小,使用上一次测量结果构建的模型将无法准确地对
新测试获得的样品进行预测。这就使得下一次进行检测时又需要重新构建一次用于模型训
练的数据集,这样检测的效率会大大降低。

发明内容

[0005] 本发明的主要目的在于提供一种拉曼光谱数据处理方法、装置、设备与可读存储介质,旨在解决拉曼光谱设备采样位置出现平移误差时,如何获得更为精准的预测信息,提
高检测效率的问题。
[0006] 为实现上述目的,本发明提供一种拉曼光谱数据处理方法,所述拉曼光谱数据处理方法包括以下步骤:
[0007] 获取原始光谱数据;
[0008] 对所述原始光谱数据进行降维,得到降维后的光谱信息;
[0009] 基于所述原始光谱数据,获取平移特征信息;
[0010] 将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法。
[0011] 可选地,所述平移特征信息包括:平移信息,所述基于所述原始光谱数据,获取平移特征信息的步骤包括:
[0012] 基于所述原始光谱数据,得到每个光谱对应的参考点;
[0013] 计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息;
[0014] 可选地,所述计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息的步骤包括:
[0015] 计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;
[0016] 将所述相对平移程度与所述第一权重系数相乘,得到平移信息。
[0017] 可选地,所述平移特征信息包括:频域信息,所述基于所述原始光谱数据,获取平移特征信息的步骤包括:
[0018] 对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;
[0019] 对所述光谱频域信息进行降维,得到所述频域信息。
[0020] 可选地,所述对所述光谱频域信息进行降维,得到所述频域信息的步骤包括:
[0021] 对所述光谱频域信息进行降维,得到对应的光谱频域降维信息;
[0022] 基于所述光谱频域降维信息,获取对应的第二权重系数;
[0023] 将所述光谱频域降维信息与所述第二权重系数相乘,得到所述频域信息。
[0024] 可选地,所述基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:
[0025] 基于所述光谱频域信息,获取所述第一权重系数的候选参数表;
[0026] 遍历所述候选参数表,确认所述候选参数表选中效果最优的候选参数,将所述候选参数作为所述第二权重系数。
[0027] 可选地,所述基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:
[0028] 将所述光谱频域信息输入预构建的神经网络;
[0029] 由所述神经网络得到对应的第二权重系数。
[0030] 可选地,所述对所述原始光谱数据进行降维,得到降维后的光谱信息的步骤包括:
[0031] 对所述原始光谱数据进行降维,将降维后数据作为测试集;
[0032] 用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
[0033] 基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
[0034] 此外,为实现上述目的,本发明还提供一种拉曼光谱数据处理装置,所述装置包括:
[0035] 获取模块,用于获取原始光谱数据;
[0036] 处理模块,用于对所述原始光谱数据进行降维,得到降维后的光谱信息;
[0037] 平移特征模块,用于基于所述原始光谱数据,获取平移特征信息;
[0038] 特征融合模块,用于将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法。
[0039] 可选地,所述平移特征模块还用于:
[0040] 基于所述原始光谱数据,得到每个光谱对应的参考点;
[0041] 计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息;
[0042] 可选地,所述平移特征模块还用于:
[0043] 计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;
[0044] 将所述相对平移程度与所述第一权重系数相乘,得到平移信息。
[0045] 可选地,所述平移特征模块还用于:
[0046] 对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;
[0047] 对所述光谱频域信息进行降维,得到所述频域信息。
[0048] 可选地,所述平移特征模块还用于:
[0049] 对所述光谱频域信息进行降维,得到对应的光谱频域降维信息;
[0050] 基于所述光谱频域降维信息,获取对应的第二权重系数;
[0051] 将所述光谱频域降维信息与所述第二权重系数相乘,得到所述频域信息。
[0052] 可选地,所述平移特征模块还用于:
[0053] 基于所述光谱频域信息,制定所述第二权重系数的候选参数表;
[0054] 遍历所述候选参数表,确认所述候选参数表选中效果最优的候选参数,将所述候选参数作为所述第二权重系数。
[0055] 可选地,所述平移特征模块还用于:
[0056] 将所述光谱频域信息输入预构建的神经网络;
[0057] 由所述神经网络得到对应的第二权重系数。
[0058] 可选地,所述处理模块还用于:
[0059] 对所述原始光谱数据进行降维,将降维后数据作为测试集;
[0060] 用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
[0061] 基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
[0062] 此外,为实现上述目的,本发明还提供一种拉曼光谱数据处理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的拉曼光谱数据处理
程序,所述拉曼光谱数据处理程序配置为实现如上所述的拉曼光谱数据处理方法的步骤。
[0063] 此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有拉曼光谱数据处理程序,所述拉曼光谱数据处理程序被处理器执行时实现如上所述的
拉曼光谱数据处理方法的步骤。
[0064] 本发明提出的拉曼光谱数据处理方法,通过获取原始光谱数据,并对原始光谱数据进行降维处理,得到原始数据;再对原始光谱数据进行快速傅里叶变换,得到光谱频域信
息,对光谱频域信息进行降维处理,得到频域信息;从原始光谱数据中获取平移信息;将所
述光谱信息、频域信息和平移信息进行特征拼接以得到新的特征表示方法。本发明对拉曼
光谱数据进行处理,得到了融合了拉曼光谱的平移特征信息的新的特征表示方法,从而支
持使用训练好的数学模型对不同时间测试的样本进行准确分析,克服了传统方法需要在测
试待测物品前需要重新用标定的样品重新构建数学模型的问题,提高了检测效率。

附图说明

[0065] 图1是本发明实施例方案涉及的硬件运行环境的拉曼光谱数据处理设备的结构示意图;
[0066] 图2为本发明拉曼光谱数据处理方法第一实施例的流程示意图;
[0067] 图3为本发明拉曼光谱数据处理方法一实施例特征融合方式示意图;
[0068] 图4为本发明拉曼光谱数据处理方法一实施例的功能模块示意图。
[0069] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0070] 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0071] 参照图1,图1为本发明实施例方案涉及的硬件运行环境的拉曼光谱数据处理设备结构示意图。
[0072] 如图1所示,该拉曼光谱数据处理设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器
1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示
屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接
口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真
(WIreless‑FIdelity,WI‑FI)接口)。存储器1005可以是高速的随机存取存储器(Random 
Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non‑Volatile Memory,
NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
[0073] 本领域技术人员可以理解,图1中示出的结构并不构成对拉曼光谱数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0074] 如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及拉曼光谱数据处理程序。
[0075] 在图1所示的拉曼光谱数据处理设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明拉曼光谱数据处理设备中
的处理器1001、存储器1005可以设置在拉曼光谱数据处理设备中,所述拉曼光谱数据处理
设备通过处理器1001调用存储器1005中存储的拉曼光谱数据处理程序,并执行本发明实施
例提供的拉曼光谱数据处理方法。
[0076] 本发明实施例提供了一种拉曼光谱数据处理方法,参照图2,图2为本发明一种拉曼光谱数据处理方法第一实施例的流程示意图。
[0077] 本实施例中,所述拉曼光谱数据处理方法包括:
[0078] 步骤S10,获取原始光谱数据;
[0079] 步骤S20,对所述原始光谱数据进行降维,得到降维后的光谱信息;
[0080] 步骤S30,基于所述原始光谱数据,获取平移特征信息;
[0081] 步骤S40,将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法。
[0082] 本实施例拉曼光谱数据处理方法用于拉曼光谱仪获取拉曼光谱数据时,对获取的数据进行修正处理。在测量拉曼光谱时,拉曼设备中的光学部件会随着环境温湿度等因素
发生变化,这些变化会造成光路系统的微小偏差,最终导致CCD采样位置发生一定平移。此
外设备在测试前通常会进行自校正,在重置光路时也会造成CCD采样位置发生一定平移。
CCD采样位置的偏差通常能够达到分辨率的5%左右,在对新数据进行预测时,通常会由于采
样位置的轻微平移对预测精度造成很大的影响。当我们希望使用同一个模型对不同时间测
量得到的拉曼光谱进行分类时,特别是预测对象的光谱极为相似较难区分的情况下,就需
要使用合适的方法避免或者减少光谱采样位置平移对样品分类模型的影响。因此,本发明
融合了与平移误差相关的平移特征信息和降维后原始光谱数据,以得到新的特征表示方
法,由此新的特征表示方法进行预测,可以减少由设备采样位置平移误差带来的影响,提高
后续预测模型的对测试样品的组成或性质预测的精度。
[0083] 以下将对各个步骤进行详细说明:
[0084] 步骤S10,获取原始光谱数据;
[0085] 在一实施例中,获取原始光谱数据,具体的,通过历史实验数据,获得历史通过拉曼光谱仪测试得到的原始光谱数据。其中,原始光谱数据包括多组,并且原始光谱数据的来
源或者包含的特征不同,能够在后续处理中得到不一样的特征。
[0086] 步骤S20,对所述原始光谱数据进行降维,得到降维后的光谱信息;
[0087] 在一实施例中,对原始光谱数据进行降维处理,以获得降维后的光谱信息。在机器学习项目中,通常需要进行特征选择/降维,因为数据维度过大会提高模型的复杂度,特别
对于一些样本数据不足的情况,最终训练的模型会泛化性差。因此,本实施例通过对原始光
谱数据进行降维,以去除数据属性之间的共线性,可以优化模型,提高模型鲁棒性和泛化
性。常用的降维方法有:主成分析(PCA)、线性判断分析(LDA)等,降维方法的选择可以根据
实际情况进行选择。
[0088] 步骤S30,基于所述原始光谱数据,获取平移特征信息;
[0089] 在一实施例中,根据原始光谱数据,获取平移特征信息。可以理解的,为了消除由采样位置偏移所带来的误差,需要获取能够帮助确定光谱平移数值的特征参数,利用这些
平移特征信息来对不同情况下获取的光谱数据进行预测分析。
[0090] 步骤S40,将所述光谱信息和所述平移特征信息进行特征拼接,得到能够更好描述原始光谱数据的新的特征表示方法。
[0091] 在一实施例中,将降维得到的光谱信息和平移特征信息进行特征拼接,得到新的特征表示方法,该新的特征表示方法是能够更好描述原始光谱数据的特征表示方法。可以
理解的,如果只有降维得到的光谱信息,就无法根据检测设备出现的偏差对预测结果做出
调整,因此,本实施例在预测模型的输入数据中加入了平移特征信息,将光谱信息和平移特
征信息进行拼接,以生成新的特征表示方法。
[0092] 在本实施例中,通过对获取的原始光谱数据进行降维得到降维后的光谱信息,并获取光谱的平移特征信息(一种方式中:光谱的平移特征信息可以通过对原始光谱数据进
行快速傅里叶变换处理,得到光谱频域信息,再对光谱频域信息进行降维得到),对光谱信
息和平移特征信息进行特融合后,得到新的特征表示方法,预测模型使用提取的新的特征
表示方法,能够有效反应不同批次的测量结果间的关系,从而支持使用训练好的预测模型
对不同时间测试的样本进行准确分析。克服了传统方法需要在测试待测物品前需要重新用
标定的样品重新构建预测模型的问题,为光谱检测产品推广提供了一种可靠的特征提取方
法。
[0093] 进一步地,基于本发明拉曼光谱数据处理方法第一实施例,提出本发明拉曼光谱数据处理方法第二实施例。
[0094] 参照图3,图3为图2中所述基于所述原始光谱数据,获取平移特征信息的细化流程示意图,在第二实施例中,所述平移特征信息包括:平移信息,则步骤S30包括:
[0095] 步骤S31,基于所述原始光谱数据,得到原始光谱数据中的参考点;
[0096] 步骤S32,计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息;
[0097] 在一实施例中,基于原始光谱数据,确认原始光谱数据中的参考点,计算每个光谱相对参考点的相对平移程度,将相对平移程度作为平移信息。本实施例中,平移特征信息还
包括平移信息。具体的,得到平移信息的方法为:根据每次测试设置的采集范围,得到参考
点,再将此参考点与光谱数据进行对比,得到每个光谱相对参考点的相对平移程度。比如我
们想采集的光谱是从100.000 1000.000这一部分波数的,但是仪器给的窗口的起始位置是
~
100.002 1000.001,或者是99.999 999.999,会有小数点后几位差值,如果将参考点确认为
~ ~
100.000、1000.000,那么这几位差值就是我们的平移信息。参考点的确认跟仪器的分辨率,
所处环境等有关,每次仪器校准的时候会被记录在仪器的状态里,影响后续光谱x轴的确
定。因此,为了更好地提升预测模型的分类精度,通过确认参考点,获取光谱的相对平移程
度作为平移信息。
[0098] 进一步地,在一实施例中,所述计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息的步骤包括:
[0099] 步骤S321,计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;
[0100] 在一实施例中,根据相对平移程度,去获取对应的第一权重系数。可以理解的,在进行特征拼接时,需要对拼接的各个部分数据进行权重调整,如果某一部分数据的数值较
大,可能在后续的预测中对这部分的特征会更加偏重,导致预测结果的偏差,因此,需要对
相对平移程度的融合权重进行处理,也即需要获取对应的第一权重系数。
[0101] 步骤S322,将所述相对平移程度与所述第一权重系数相乘,得到平移信息。
[0102] 在一实施例中,在得到第一权重系数后,将第一权重系数与相对平移程度相乘,得到最终的平移信息。第一权重系数为调整相对平移程度的权重系数,为了提高后续特征拼
接效果,将获得的相对平移程度信息与第一权重系数相乘得到平移信息。
[0103] 进一步地,在一实施例中,所述平移特征信息包括:频域信息,所述基于所述原始光谱数据,获取平移特征信息的步骤包括:
[0104] 步骤S33,对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;
[0105] 在一实施例中,将原始光谱数据进行快速傅里叶变换,以得到光谱频域信息。其中,通过快速傅里叶变换(Fast Fourier Transform,FFT)可以将一个原始光谱数据中的信
号从时域变换到频域,其本质是把原光谱分解成许多不同频率的正弦波的叠加和。可以理
解的,由于快速傅里叶变换的方法对光谱采样点平移较为敏感,使用快速傅里叶变换提取
的附加信息能够帮助分类器得到更加明显的平移信息。具体的,一种实施方法为设置FFT窗
宽为光谱的长度,使用汉明窗(hamming window)作为变换窗口。由于FFT变换具有对称性,
FFT变换后的频谱图,有实部和虚部,为了减少数据量,使用变换后的实部的前半部分或者
后半部分进行降维。可以理解的,在数字信号处理过程中,每次FFT变换只能对有限长度的
时域数据进行变换,因此,需要对时域信号进行信号截断。即使是周期信号,如果截断的时
间长度不是周期的整数倍,那么,截取后的信号将会存在泄漏,为了将这个泄漏误差减少到
最小程度,我们需要使用窗函数。上述汉明窗为窗函数中的一种,本实施例还可以选用汉宁
窗等其他变化窗口,变换窗口可以根据具体情况选择。
[0106] 步骤S34,对所述光谱频域信息进行降维,得到所述频域信息;
[0107] 在一实施例中,对原始光谱数据进行快速傅里叶变换处理后,得到光谱频域信息,对该光谱频域信息进行降维得到频域信息。需要说明的,数据是否需要降维虽然是取决于
后续预测模型的,例如:模型对输入数据维度要求不高或者模型特征提取能力比较强,可以
不进行降维,但是为了减轻后续模型提取数据工作量,提高数据与模型适配率,以及提高效
率,因此本实施中对数据进行降维处理。
[0108] 本实施例中平移特征信息包括平移信息和频域信息,通过从原始光谱数据,得到每个光谱对应的参考点,计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平
移程度,将所述相对平移程度作为平移信息;计算得到所述原始光谱数据中每个光谱相对
所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;将所述相
对平移程度与所述第一权重系数相乘,得到平移信息;对所述原始光谱数据进行快速傅里
叶变换处理,得到光谱频域信息;对所述光谱频域信息进行降维,得到所述频域信息,实现
了平移特征信息的获取,以对新的特征表示方法进行丰富,方便后续预测试样过程中对平
移误差的校正。
[0109] 进一步地,基于本发明拉曼光谱数据处理方法的在前实施例,提出本发明拉曼光谱数据处理方法的第三实施例,在本实施例中,所述对所述光谱频域信息进行降维,得到所
述频域信息的步骤包括:
[0110] 步骤S341,对所述光谱频域信息进行降维,得到对应的光谱频域降维信息;
[0111] 在一实施例中,对光谱频域信息进行降维得到对应的光谱频域降维信息。此部分的降维方式可选地有PCA、LDA等等,可以与对原始光谱数据进行降维的方法一致,因此,在
此不加赘述。
[0112] 步骤S342,基于所述光谱频域降维信息,获取对应的第二权重系数;
[0113] 在一实施例中,根据光谱频域降维信息,得到对应的第二权重系数。其中,第二权重系数为调整频域信息的权重系数。第二权重系数与第一权重系数类似,都是为了提高后
续特征拼接效果。第二权重系数可以由人为设定,也可以通过计算得到。
[0114] 步骤S343,将所述光谱频域降维信息与所述第二权重系数相乘,得到所述频域信息。
[0115] 在一实施例中,将光谱频域降维信息与第二权重系数相乘,得到频域信息。在本实施例中,对快速傅里叶变换后得到的光谱频域信息进行降维,并且赋予降维后光谱频域降
维信息一个第二权重系数,就是为了调整在后续特征拼接中,光谱频域信息对特征的贡献,
因此,将光谱频域降维信息与第二权重系数相乘,得到最终的频域信息。
[0116] 进一步地,在一实施例中,基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:
[0117] 步骤a,基于所述光谱频域信息,制定所述第二权重系数的候选参数表;
[0118] 步骤b,遍历所述候选参数表,确认所述候选参数表选中效果最优的候选参数,将所述候选参数作为所述第二权重系数。
[0119] 在一实施例中,基于光谱频域信息,获取第二权重系数的候选参数表,通过遍历候选参数表的方式得到第二权重系数。可以理解的,在进行特征融合时需要进行融合系数的
调整来获得最佳的预测准确度。使用常用的超参数优化方法可以对第二权重系数进行优
化。其中,超参数优化是为学习算法选择一组最优超参数的问题,超参数是在建立模型时用
来控制算法行为的参数。这些参数不能从正常的训练过程中学习。他们需要在训练模型之
前被分配。在本实施例中,基于所述光谱频域信息,由研发人员根据经验设置第二权重系数
的候选参数表,使用网格搜索(Grid search)法,在所有候选的参数选择中,通过循环遍历,
尝试每一种可能性,表现最好的参数就是最终选定的参数。通过超参数优化方法得到一个
固定的第一权重参数。当然,其他可选的超参数优化方法还有随机搜索,贝叶斯优化等。
[0120] 进一步地,在一实施例中,所述基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:
[0121] 步骤c,将所述光谱频域信息输入预构建的神经网络;
[0122] 步骤d,由所述神经网络得到对应的第二权重系数。
[0123] 在一实施例中,可以理解的,当所述为定值的第二权重系数不能满足某些任务,或者精度达不到要求时,需要获取一个能根据输入的光谱频域信息动态生成的第二权重系
数。因此,将光谱频域信息输入预构建的神经网络,通过神经网络得到第二权重系数。
[0124] 在使用神经网络构建的预测模型进行预测时,本实施例提出使用self‑attention的方式训练一个小的神经网络根据输入光谱频域信息降维后的数据动态生成不同特征对
应的系数。
[0125] 在使用非神经网络模型作为预测模型时,如果预测模型能支持梯度传播,则仍然可以使用self‑attention的方式产生第二权重系数。但是在训练网络和预测模型时需要分
开进行训练,具体训练步骤如下:
[0126] (1)初始化attention神经网络。
[0127] (2)使用新的特征表示方法训练预测模型。
[0128] (3)固定预测模型的参数,对attention神经网络进行训练。
[0129] (4)重复步骤(1)和(2)直到模型达到想要的效果,目标。
[0130] 也即对attention神经网络和预测模型进行交替训练,以对attention神经网络和预测模型进行调参。
[0131] 需要说明的是,对第一权重参数进行优化方法不进行限定,本实施例使用self‑attention的方法仅作为一种优选方法,经过测试使用self‑attention进行优化得到的第
一权重参数在后续预测中能够取到更好的预测精度。
[0132] 参照图3对本实施例进行解释,图3为本发明拉曼光谱数据处理方法一实施例特征融合方式示意图。
[0133] 需要说明的是,图中原始光谱就是本文中提到的原始光谱数据,光谱频移信息就是相对平移程度,图中以使用PCA(主成分分析)方法进行降维为例,对原始光谱进行PCA降
维得到降维后的光谱信息;对原始光谱进行FFT变换得到光谱频域信息,对光谱频域信息进
行降维,得到PCA降维后的频域也即降维信息,基于attention(注意力)网络获取傅里叶系
数也即第二权重系数,将傅里叶系数与PCA降维后的频域相乘,得到频域信息;基于
attention网络,获取光谱频移信息也即相对平移程度对应的平移信息系数,也即本实施例
中的第一权重参数,将所述第二权重系数与光谱频移信息相乘得到平移信息;将降维后的
光谱信息、频域信息和平移信息进行特征拼接。
[0134] 其中,对第一权重参数进行优化的方法与对第二权重系数进行优化的方式相同,在此不加赘述。需要说明的是,上述调整权重参数的方法可以是固定其中一个权重参数对
另一个权重参数进行调参,也可以两个权重参数同时进行调参。
[0135] 本实施例在获取平移特征信息的过程中做了多项处理,通过给降维得到光谱频域信息和相对平移程度增加了特征融合系数,也即第一权重系数和第二权重系数,并且对第
一权重系数和第二权重系数进行调参优化,以获得提高的特征拼接效果。
[0136] 进一步地,基于本发明拉曼光谱数据处理方法的在前实施例,提出本发明拉曼光谱数据处理方法第四实施例。
[0137] 拉曼光谱数据处理方法方法的第四实施例与拉曼光谱数据处理方法的在前实施例的区别在于,所述对所述原始光谱数据进行降维,得到降维后的光谱信息的步骤包括:
[0138] 步骤S21,对所述原始光谱数据进行降维,将降维后数据作为测试集;
[0139] 步骤S22,用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
[0140] 步骤S23,基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
[0141] 本实施例对原始光谱数据进行降维所需的维度数进行确认。可以理解的,一般在构建光谱数据集时,特征的维度对预测模型的性能有很大影响,需要设置合适的特征维度。
[0142] 以下将对各个步骤进行详细说明:
[0143] 步骤S21,对所述原始光谱数据进行降维,将降维后数据作为测试集;
[0144] 本实施例对原始光谱数据进行降维,把降维得到的数据作为测试集数据。在一实施例中,降维可以使用PCA(Principal Component Analysis,主成分分析),PCA 是一种常
见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。经过研发人
员测试,使用PCA降维的效果更佳,例如:将PCA降维后的数据用于后面模型中,进行预测分
析,所得到特征分的比较开,对两种相似的物品进行预测,最后得到结果的区分度高。
[0145] 步骤S22,用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
[0146] 在一实施例中,用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数。以使用PCA降维为例,PCA的原理是,为了将数据从n维降低到k
维,需要找到k个向量,用于投影原始数据,使投影误差(投影距离)最小,其中k就是主成分
数量也即维度数。本实施例以采用PCA方法对原始光谱数据进行降维为例,在确定这个部分
各包含的维度数时可以使用如下方法:(1)使用原始光谱PCA降维后的数据作为训练集的数
据,加上一个支持向量机(support vector machines,SVM)或者全连接神经网络等分类器,
进行K折交叉验证,由小向大逐渐增加维度数,直到预测精度开始下降,选择K折交叉验证预
测最高时的主成数量作为原始数据PCA降维的维度数。
[0147] 需要说明的是,本实施例中对原始光谱数据进行降维以及对光谱频域信息进行降维的过程中,都需要确定维度数,在确认光谱频域信息的维度数时,步骤(1)后,确认光谱频
域信息降维维度数的步骤为:固定原始数据PCA降维的维度数,利用测试集数据来调整维度
数。将FFT得到的信息数据通过PCA降维后直接拼接在第一部分获得的数据后面,由小向大
逐渐增加新增维度数,在测试集中验证预测精度。直到预测精度开始下降,选择在测试集中
高时的主成数量作为FFT使用PCA降维的维度数。
[0148] 步骤S23,基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
[0149] 在一实施例中,将获得的维度数用于对原始光谱数据进行降维,得到光谱信息。可以理解的,得到具有最优效果的维度数后,就根据该维度数对原始光谱数据进行降维,具体
的降维过程在此不加赘述。
[0150] 本实施例通过对原始光谱数据进行降维,得到初始的训练集数据,通过训练集数据优化初始维度数,得到最终原始光谱数据降维的维度数,再用这个维度数对原始光谱数
据进行降维,以提高降维后的数据在后续特征预测模型中的预测效果。
[0151] 本发明还提供一种拉曼光谱数据处理装置。如图3所示,图3是本发明拉曼光谱数据处理方法一实施例的功能模块示意图。
[0152] 本发明拉曼光谱数据处理装置包括:
[0153] 获取模块,用于获取原始光谱数据;
[0154] 处理模块,用于对所述原始光谱数据进行降维,得到降维后的光谱信息;
[0155] 平移特征模块,用于基于所述原始光谱数据,获取平移特征信息;
[0156] 特征融合模块,用于将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法。
[0157] 可选地,所述平移特征模块还用于:
[0158] 基于所述原始光谱数据,得到每个光谱对应的参考点;
[0159] 计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息;
[0160] 可选地,所述平移特征模块还用于:
[0161] 计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;
[0162] 将所述相对平移程度与所述第一权重系数相乘,得到平移信息。
[0163] 可选地,所述平移特征模块还用于:
[0164] 对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;
[0165] 对所述光谱频域信息进行降维,得到所述频域信息。
[0166] 可选地,所述平移特征模块还用于:
[0167] 对所述光谱频域信息进行降维,得到对应的光谱频域降维信息;
[0168] 基于所述光谱频域降维信息,获取对应的第二权重系数;
[0169] 将所述光谱频域降维信息与所述第二权重系数相乘,得到所述频域信息。
[0170] 可选地,所述平移特征模块还用于:
[0171] 基于所述光谱频域信息,制定所述第二权重系数的候选参数表;
[0172] 遍历所述候选参数表,确认所述候选参数表选中效果最优的候选参数,将所述候选参数作为所述第二权重系数。
[0173] 可选地,所述平移特征模块还用于:
[0174] 将所述光谱频域信息输入预构建的神经网络;
[0175] 由所述神经网络得到对应的第二权重系数。
[0176] 可选地,所述处理模块还用于:
[0177] 对所述原始光谱数据进行降维,将降维后数据作为测试集;
[0178] 用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
[0179] 基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
[0180] 本发明还提供一种可读存储介质。
[0181] 本发明可读存储介质上存储有拉曼光谱数据处理程序,所述拉曼光谱数据处理程序被处理器执行时实现如上所述的拉曼光谱数据处理方法的步骤。
[0182] 其中,在所述处理器上运行的拉曼光谱数据处理程序被执行时所实现的方法可参照本发明拉曼光谱数据处理方法各个实施例,此处不再赘述。
[0183] 本发明提出的拉曼光谱数据处理方法、装置、设备与可读存储介质,通过获取原始光谱数据,对所述原始光谱数据进行降维,得到降维后的光谱信息;并基于所述原始光谱数
据,获取平移特征信息;将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特
征表示方法,使用本发明中的新的特征表示方法进行预测,能够有效地避免测试时间不同
引起的采样点平移的影响,并且显著提升预测模型的预测精度以及模型的泛化能力,提高
了检测效率。
[0184] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而
且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有
的要素。在没有更多限制的情况下,由语句“包括一个拉曼光谱数据处理”限定的要素,并不
排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0185] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0186] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下
前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个
存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,
计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0187] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技
术领域,均同理包括在本发明的专利保护范围内。