一种基于低秩张量算法的拉曼光谱图像数据预处理方法转让专利

申请号 : CN201710859605.X

文献号 : CN107764797B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李奇峰马翔云王慧捷王洋胡一帆陈达

申请人 : 天津大学

摘要 :

一种基于低秩张量算法的拉曼光谱图像数据预处理方法,包括:将采集得到的拉曼光谱图像数据转换成三阶张量的形式,利用张量分解与重构的方法构建新的低秩三阶张量;通过迭代优化算法、最优逼近算法得到原始数据张量的低秩逼近张量;构建噪声分布的数据库,基于大数据统计判断原始数据中的噪声分量是否符合噪声分布;如果符合,此时的低秩逼近张量即为最佳低秩逼近张量,所述最佳低秩逼近张量是原始数据中的光谱信息部分,剔除了大量的白噪声与光子噪声,从而提高了拉曼光谱图像数据的信噪比。本方法简单易行,不用对采集仪器进行改造,对于现有的拉曼光谱成像技术,可以极大地降低信号采集时间,在拉曼光谱成像技术研究上将有着广阔前景。

权利要求 :

1.一种基于低秩张量算法的拉曼光谱图像数据预处理方法,其特征在于,所述拉曼光谱图像数据预处理方法包括以下步骤:

1)将采集得到的拉曼光谱图像数据转换成三阶张量的形式,利用张量分解与重构的方法构建新的低秩三阶张量;

2)通过迭代优化算法、最优逼近算法得到原始数据张量的低秩逼近张量;

3)构建噪声分布的数据库,基于大数据统计判断原始数据中的噪声分量是否符合噪声分布;

如果符合,此时的低秩逼近张量即为最佳低秩逼近张量,所述最佳低秩逼近张量是原始数据中的光谱信息部分,剔除了大量的白噪声与光子噪声,从而提高了拉曼光谱图像数据的信噪比,流程结束;

如果不符合,进行下次迭代,重新执行步骤2);

其中,步骤1)具体为:

将采集得到的拉曼光谱图像数据构成三阶张量 通过迭代优化的方法由张量 求得张量 使得张量 是张量 的最佳低秩逼近张量,即:将张量 降秩处理,构成秩为1的张量 作为初始值;

通过比较张量 和 来寻找 的最优逼近方向st+1,即:其中,s为最优逼近方向,t为迭代次数, 为微分算子;

其中,步骤2)具体为:

根据最陡梯度算法,计算最优迭代步长r:依据最优逼近方向st+1与最优迭代步长rt+1对 进行更新,得到Nt+1为此次迭代下原始数据中的噪声分量:构建噪声分布的数据库,基于大数据统计判别Nt+1是否符合噪声分布;

当Nt+1符合噪声分布时,迭代停止,此时的张量 即为原始数据张量 的最佳低秩逼近张量。

说明书 :

一种基于低秩张量算法的拉曼光谱图像数据预处理方法

技术领域

[0001] 本发明涉及光谱检测技术领域,尤其涉及一种基于低秩张量算法的拉曼光谱图像数据预处理方法。

背景技术

[0002] 拉曼光谱成像技术是拉曼光谱分析技术的新发展,它将拉曼光谱技术与显微技术有效结合,借助共聚焦显微拉曼光谱仪以及信号探测装置,将拉曼测量的空间分辨率提升到微米尺度,对传统拉曼光谱技术中单点的分析方式进行拓展,在一定范围内进行综合性的分析,从而用图像的方式显示样品的物理、化学性质的空间分布,在环境学、医药学和生命科学等方面有着广泛的应用。
[0003] 目前,对于拉曼图像数据噪声处理的手段比较单一,局限于一些常规的数字信号滤波手段,如:傅里叶滤波和小波滤波。
[0004] 这些常规滤波方法不能从本质上提高信号的信噪比。所以对于信号采集来说,为了保证数据的有效性,拉曼采集过程需要较长的积分时间,这样导致整个信号采集过程变得非常漫长,极大的限制了拉曼光谱成像技术的应用与发展。

发明内容

[0005] 本发明提供了一种基于低秩张量算法的拉曼光谱图像数据预处理方法,本发明可以极大地提高拉曼光谱图像数据的信噪比,从而缩短光谱图像数据的采集时间,快速准确的得到拉曼光谱图像,是一种高效准确的拉曼光谱图像预处理方式,详见下文描述:
[0006] 一种基于低秩张量算法的拉曼光谱图像数据预处理方法,所述拉曼光谱图像数据预处理方法包括以下步骤:
[0007] 1)将采集得到的拉曼光谱图像数据转换成三阶张量的形式,利用张量分解与重构的方法构建新的低秩三阶张量;
[0008] 2)通过迭代优化算法、最优逼近算法得到原始数据张量的低秩逼近张量;
[0009] 3)构建噪声分布的数据库,基于大数据统计判断原始数据中的噪声分量是否符合噪声分布;
[0010] 如果符合,此时的低秩逼近张量即为最佳低秩逼近张量,所述最佳低秩逼近张量是原始数据中的光谱信息部分,剔除了大量的白噪声与光子噪声,从而提高了拉曼光谱图像数据的信噪比;
[0011] 如果不符合,进行下次迭代,重新执行步骤2)。
[0012] 所述将采集得到的拉曼光谱图像数据转换成三阶张量的形式,利用张量分解与重构的方法构建新的低秩三阶张量具体为:
[0013] 将采集得到的拉曼光谱图像数据构成三阶张量 通过迭代优化的方法由张量求得张量 使得张量 是张量 的最佳低秩逼近张量,即:
[0014]
[0015] 将张量 降秩处理,构成秩为1的张量 作为初始值;
[0016] 通过比较张量 和 来寻找 的最优逼近方向st+1,即:
[0017]
[0018] 其中,s为最优逼近方向,t为迭代次数,▽为微分算子。
[0019] 所述通过迭代优化算法、最优逼近算法得到原始数据张量的低秩逼近张量具体为:
[0020] 根据最陡梯度算法,计算最优迭代步长r:
[0021]
[0022] 依据最优逼近方向st+1与最优迭代步长rt+1对 进行更新,得到
[0023]
[0024] Nt+1为此次迭代下原始数据中的噪声分量:
[0025]
[0026] 构建噪声分布的数据库,基于大数据统计判别Nt+1是否符合噪声分布;
[0027] 当Nt+1符合噪声分布时,迭代停止,此时的张量 即为原始数据张量 的最佳低秩逼近张量。
[0028] 本发明提供的技术方案的有益效果是:
[0029] 1、本方法简单易行,不用对采集仪器进行改造,可以极大地提高数据的信噪比;
[0030] 2、对于现有的拉曼光谱成像技术,可以极大地降低信号采集时间,在拉曼光谱成像技术研究上将有着广阔前景。

附图说明

[0031] 图1是一种基于低秩张量算法的拉曼光谱图像数据预处理方法的流程图;
[0032] 图2是本发明提供的二维拉曼光谱图像;
[0033] (a)和(c)是原始数据在拉曼频移574.3cm-1和746.4cm-1处的二维拉曼图像;
[0034] (b)和(d)是用本发明处理后的数据在拉曼频移574.3cm-1和746.4cm-1处的二维拉曼图像。
[0035] 图3是本发明提供的一维拉曼光谱图。
[0036] 其中,(a)是原始数据;(b)是用本发明处理后的数据;(a)和(b)取自数据的同一位置点。

具体实施方式

[0037] 为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
[0038] 实施例1
[0039] 一种基于低秩张量算法的拉曼光谱图像数据预处理方法,参见图1,该方法包括以下步骤:
[0040] 101:将采集得到的拉曼光谱图像数据转换成三阶张量的形式,利用张量分解与重构的方法构建新的低秩三阶张量;
[0041] 102:通过迭代优化算法、最优逼近算法得到原始数据张量的低秩逼近张量;
[0042] 103:构建噪声分布的数据库,基于大数据统计判断原始数据中的噪声分量是否符合噪声分布,如果是,执行步骤104;如果否,执行步骤105;
[0043] 104:此时的低秩逼近张量即为最佳低秩逼近张量,所述最佳低秩逼近张量是原始数据中的光谱信息部分,剔除了大量的白噪声与光子噪声,从而提高了拉曼光谱图像数据的信噪比;
[0044] 105:进行下次迭代,重新执行步骤102。
[0045] 综上所述,本发明实施例应用张量最佳低秩逼近的方法对拉曼光谱数据进行降噪处理,可以大幅度的提高原始数据的信噪比。本发明实施例适用于目前所有的拉曼光谱成像技术,可以将光谱积分时间缩短到1/10到1/20之间,无需对光谱仪进行任何硬件调整,快速准确地得到拉曼光谱图像数据。
[0046] 实施例2
[0047] 下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
[0048] 本发明实施例主要通过低秩张量算法来实现,以拉曼光谱图像全局低秩分解的方法为例,下面详细介绍本发明具体实现方法:
[0049] 拉曼光谱图像中各个光谱有着极大的相关性,而依据线性光谱混合模型,每条光谱又可以由少量的光谱端元组成,这证明了真实的拉曼光谱图像具有低秩性。
[0050] 在实际测量中,噪声会极大的破坏拉曼光谱图像的低秩性,可以通过构建采集数据的最佳逼近张量来分离拉曼光谱图像中的噪声,从而加快拉曼光谱图像的采集速度。
[0051] 拉曼光谱图像全局低秩分解是本发明实施例提出的一种用于分解三维拉曼光谱图像成分的一种方法。拉曼光谱图像全局低秩分解以逐次张量最佳秩一逼近为基础,结合拉曼光谱图像噪声大信号弱的特点,同时考虑信号分布与噪声分布,可自适应调节参数,从而高效的将采集数据中的光谱信息与噪声分离。
[0052] 将采集得到的拉曼光谱图像数据构成三阶张量 通过迭代优化的方法由张量求得张量 使得张量 是张量 的最佳低秩逼近张量,即:
[0053]
[0054] 将张量 降秩处理,构成秩为1的张量 作为初始值。通过比较张量 和 来寻找 的最优逼近方向st+1,即:
[0055]
[0056] 其中,s为最优逼近方向,t为迭代次数,▽为微分算子。
[0057] 根据最陡梯度算法,计算最优迭代步长r:
[0058]
[0059] 依据最优逼近方向st+1与最优迭代步长rt+1对 进行更新,得到
[0060]
[0061] 此时的张量 即为原始数据张量 的低秩逼近张量,Nt+1为此次迭代下原始数据中的噪声分量:
[0062]
[0063] 构建噪声分布的数据库,基于大数据统计判别Nt+1是否符合噪声分布。当不符合时进行下次迭代;当符合噪声分布时,迭代停止,此时的张量 即为原始数据张量 的最佳低秩逼近张量。最佳低秩逼近张量是原始数据中的光谱信息部分,剔除了大量的白噪声与光子噪声,可以极大的提高光谱图像的信噪比。
[0064] 其中,上述构建噪声分布的数据库具体为:可以在实验之前对仪器的自身噪声进行检测,将检测到的数据存放在数据库中,形成噪声分布的数据库。当噪声分量Nt+1的数据在数据库中有对应匹配时,即说明噪声分量Nt+1符合噪声分布,反之,则不符合噪声分布,需要进行下次迭代。
[0065] 实施例3
[0066] 下面结合具体的试验、图2和图3对实施例1和2中的方案进行可行性验证,详见下文描述:
[0067] 图2的(a)和(c)是原始数据在拉曼频移574.3cm-1和746.4cm-1处的二维拉曼图像;(b)和(d)是用本方法处理后的数据在拉曼频移574.3cm-1和746.4cm-1处的二维拉曼图像。
测量样品是由两种样本混合而成的二元样品,通过两种物质的两个特征峰位置的二维拉曼光谱图像可以看出,原始数据完全无法区分两种样本的空间分布,而经过本方法处理后,可以清晰的区分样品的空间分布情况。
[0068] 图3是处理结果的一维拉曼光谱图。其中(a)是原始数据,(b)是用本方法处理后的数据。(a)和(b)取自数据的同一位置点,光谱(a)的信噪比为2.14,光谱(b)的信噪比为195.21,信噪比提高了91.22倍。
[0069] 从结果可以看出,本方法可以极大地提高拉曼光谱图像数据的信噪比,从而降低拉曼光谱成像技术对于原始数据质量的要求,极大的减少拉曼光谱采集的积分时间,是一种简单高效的拉曼光谱图像数据处理技术。
[0070] 本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0071] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。