一种基于一级谱图与深度学习的色谱保留时间对齐方法转让专利

申请号 : CN202111467115.8

文献号 : CN114267413B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 常乘朱云平刘祎

申请人 : 中国人民解放军军事科学院军事医学研究院

摘要 :

本发明公开了一种基于一级谱图与深度学习的色谱保留时间对齐方法。本方法为:1)提取每个样本中各质谱文件的离子流色谱峰;2)任选一个样本作为参考样本,根据其它样本每一保留时间窗口内的离子流色谱峰与参考样本的平均保留时间偏差,对对应样本的离子流色谱峰进行校正;3)根据两校正后的待对齐样本的离子流色谱峰的保留时间信息和强度信息,构建特征向量;4)根据已有的鉴定结果对所述特征向量进行标注;5)用标注好的特征向量训练深度学习分类模型;6)对于两待对齐的质谱数据,构建该两待对齐的质谱数据对应的特征向量并将其输入到训练好的分类模型进行对齐。本发明能够根据一级谱信息给出对齐结果,有助于微量化合物的分析。

权利要求 :

1.一种基于一级谱图与深度学习的色谱保留时间对齐方法,其步骤包括:

1)提取每个样本中各质谱文件的离子流色谱峰;

2)任选一个样本作为参考样本,根据其它样本每一保留时间窗口内的离子流色谱峰与参考样本的平均保留时间偏差,对对应样本的离子流色谱峰进行校正;

3)根据两校正后的待对齐样本的离子流色谱峰的保留时间信息和强度信息,构建特征向量;其中,构建所述特征向量的方法为:对于两待对齐样本A、B;从样本A的离子流色谱峰中选取一色谱峰作为样本A的中心色谱峰,从样本B的离子流色谱峰中选取一色谱峰作为样本B的中心色谱峰;

利用样本A的中心色谱峰的保留时间信息和强度信息构建样本A的中心色谱峰向量,利用样本A的中心色谱峰前后各N个色谱峰中的每一色谱峰的保留时间信息和强度信息构建一色谱峰向量;

利用样本B的中心色谱峰的保留时间信息和强度信息构建样本B的中心色谱峰向量,利用样本B的中心色谱峰前后各N个色谱峰中的每一色谱峰的保留时间信息和强度信息构建一色谱峰向量;

将样本A的中心色谱峰向量及2N个色谱峰向量分别与样本B的中心色谱峰向量相减,得到2N+1个色谱峰向量偏差;将样本B的中心色谱峰向量及2N个色谱峰向量分别与样本A的中心色谱峰向量相减,得到2N+1个色谱峰向量偏差;

根据所得各色谱峰向量偏差、样本A的中心色谱峰向量及2N个色谱峰向量、样本B的中心色谱峰向量及2N个色谱峰向量构成一个向量,作为两待对齐样本A、B对应的所述特征向量;

4)根据已有的鉴定结果对所述特征向量进行标注;

5)用标注好的特征向量训练深度学习分类模型;

6)对于两待对齐的质谱数据,构建该两待对齐的质谱数据对应的特征向量并将其输入到训练好的分类模型进行对齐。

2.根据权利要求1所述的方法,其特征在于,步骤2)中,对对应样本的离子流色谱峰进行校正的方法为:

21)对于每个非参考样本,按所述保留时间窗口对该非参考样本的离子流色谱峰进行分组,同一保留时间窗口内的离子流色谱峰为一个分组;对于每个分组中的每个色谱峰i,在参考样本中查找与该色谱峰i具有相同质荷比的色谱峰的保留时间,计算二者的保留时间的偏差;

22)统计该非参考样本的每个分组中所有色谱峰的保留时间偏差,以平均保留时间偏差作为对应分组的保留时间偏差;

23)根据分组的保留时间偏差对该分组各色谱峰的保留时间进行校正。

3.根据权利要求1所述的方法,其特征在于,步骤4)中,利用肽段鉴定结果对步骤3)构建的特征向量进行标注,如果两待对齐样本A、B的中心色谱峰对应的肽段相同,则所述特征向量标注为对齐标记0,否则标注为未对齐标记1。

4.根据权利要求1所述的方法,其特征在于,所述特征向量为(2N+1)×4的向量,其中所述特征向量的第一列为样本A的中心色谱峰向量及2N个色谱峰向量、第二列为样本A的各色谱峰向量偏差、第三列为样本B的各色谱峰向量偏差、第四列为样本B的中心色谱峰向量及

2N个色谱峰向量;样本A的第i个色谱峰向量位于第一列第i行,第二列第i行的色谱峰向量偏差为样本A的第i个色谱峰向量与样本B的中心色谱峰向量的色谱峰向量偏差;样本B的第i个色谱峰向量位于第四列第i行,第三列第i行的色谱峰向量偏差为样本B的第i个色谱峰向量与样本A的中心色谱峰向量的色谱峰向量偏差。

5.根据权利要求1或2所述的方法,其特征在于,所述保留时间窗口的长度为一分钟。

6.一种基于一级谱图与深度学习的色谱保留时间对齐装置,其特征在于,所述装置包括:离子流色谱峰提取模块,用于提取每个样本中各质谱文件的离子流色谱峰;

色谱峰校正模块,用于任选一个样本作为参考样本,根据其它样本每一保留时间窗口内的离子流色谱峰与参考样本的平均保留时间偏差,对对应样本的离子流色谱峰进行校正;

特征向量构建模块,用于根据两校正后的待对齐样本的离子流色谱峰的保留时间信息和强度信息,构建特征向量;

其中,构建特征向量的方法为:对于两待对齐样本A、B;从样本A的离子流色谱峰中选取一色谱峰作为样本A的中心色谱峰,从样本B的离子流色谱峰中选取一色谱峰作为样本B的中心色谱峰;利用样本A的中心色谱峰的保留时间信息和强度信息构建样本A的中心色谱峰向量,利用样本A的中心色谱峰前后各N个色谱峰中的每一色谱峰的保留时间信息和强度信息构建一色谱峰向量;利用样本B的中心色谱峰的保留时间信息和强度信息构建样本B的中心色谱峰向量,利用样本B的中心色谱峰前后各N个色谱峰中的每一色谱峰的保留时间信息和强度信息构建一色谱峰向量;将样本A的中心色谱峰向量及2N个色谱峰向量分别与样本B的中心色谱峰向量相减,得到2N+1个色谱峰向量偏差;将样本B的中心色谱峰向量及2N个色谱峰向量分别与样本A的中心色谱峰向量相减,得到2N+1个色谱峰向量偏差;根据所得各色谱峰向量偏差、样本A的中心色谱峰向量及2N个色谱峰向量、样本B的中心色谱峰向量及2N个色谱峰向量构成一个向量,作为两待对齐样本A、B对应的所述特征向量;

模型训练模块,用于根据已有的鉴定结果对所述特征向量进行标注,然后用标注好的特征向量训练深度学习分类模型;

色谱保留时间对齐模块,用于对于两待对齐的质谱数据,将该两待对齐的质谱数据对应的特征向量输入到训练好的分类模型进行对齐。

7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行,以实现如权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。

说明书 :

一种基于一级谱图与深度学习的色谱保留时间对齐方法

技术领域

[0001] 本发明涉及分析化学中色谱保留时间的对齐方法,特别是鸟枪法蛋白质组学中不同样本间色谱保留时间的对齐方法。

背景技术

[0002] 色谱是分析复杂化合物的常用仪器,保留时间指的是各种成分对应的色谱信号从进样开始到最大值的时间,是区分各种成分的重要指标。在多批次的实验设计中,由于仪器状态的变化,不同样本中同一成分的保留时间会存在偏差。对这种偏差进行校正的方法被称为保留时间对齐。定量蛋白质组学实验主要基于液相色谱质谱联用技术(LC‑MS)。其中的质谱为多级串联质谱,传统的方法会首先对二级谱图进行鉴定,根据鉴定结果来进行不同样本中同一成分的对齐。但是目前由于质谱技术的限制,一级谱图中的大量谱峰无法得到对应的二级谱图,所以大量的一级谱峰无法通过传统的鉴定方式进行对齐。进行保留时间对齐,可以对不同样本间无对应二级谱图的一级谱峰进行对比和研究。
[0003] 目前,保留时间对齐的计算方法主要有两种,一种是翘曲函数法,另一种是直接匹配法。翘曲函数法是先根据数据拟合出一个单调的翘曲函数,然后根据函数进行对齐。翘曲函数方法不能纠正非单调偏移,因为翘曲函数必须是单调的。直接匹配法则不依赖于翘曲函数,由谱峰的相似性进行对齐。由于质谱信号的不稳定性,不同样本中同一成分的色谱信号其形状等特征可能区别较大,导致现有的直接匹配工具的性能弱于使用翘曲函数的工具。
[0004] 深度学习作为一种机器学习技术,可以从现有的数据中自动提取有效模式,有助于提升直接匹配方法的准确性。有工作已经将深度学习用于气相色谱保留时间的对齐,但其深度学习网络的特征使用了二级谱图,限制了其应用范围。

发明内容

[0005] 针对现有技术存在的技术问题,本发明的目的是利用深度学习方法,以质谱原始文件作为输入数据,在基于一级谱数据的基础上对不同样本的保留时间进行对齐。
[0006] 本发明方法的步骤包括:
[0007] 步骤1)提取每个样本中各质谱原始文件的离子流色谱峰;一个样本包含若干个质谱文件,从每个质谱文件中可以提取到若干个离子流色谱峰;本发明的目的是对齐一个样本的离子流色谱峰与另一个样本的离子流色谱峰;
[0008] 步骤2)任意选取一个样本作为参考样本,将其它样本每一分钟的离子流色谱峰按照与参考样本的平均保留时间偏差进行校正;
[0009] 步骤3)提取待对齐样本离子流色谱峰的保留时间信息和强度信息,构建特征向量;
[0010] 步骤4)根据已有的鉴定结果对特征向量进行标注;
[0011] 步骤5)用标注好的特征向量训练深度学习分类模型;
[0012] 步骤6)用训练好的分类模型对其它待对齐质谱数据进行对齐,在对齐之前也要重复步骤1)至步骤3)。
[0013] 在上述技术方案中,步骤1)的处理可以参考申请号:2019110496896、名称“一种不依赖数据库搜索的蛋白质生物标志物鉴定方法”的专利文献,其中提取质谱原始文件离子流色谱峰的步骤包括:
[0014] 步骤1‑1)读取所有质谱原始文件,获得每张谱图的编号、保留时间、谱峰数目、谱峰强度、谱峰质荷比等信息;
[0015] 步骤1‑2)寻找每张谱图中的同位素峰簇,其特征为几个质荷比差值相等的连续谱峰,并记录每个同位素峰簇中强度最高的峰为单同位素峰;
[0016] 步骤1‑3)将保留时间相差5min以内的等质荷比单同位素峰记录为一个离子流色谱峰组;
[0017] 步骤1‑4)用高斯峰拟合每个离子流色谱峰组,作为离子流色谱峰,计算每个离子流色谱峰的峰面积及平均保留时间;
[0018] 步骤1‑5)将所有获得的离子流色谱峰信息按列表输出,每一行保存一个离子流色谱峰的信息,这些信息主要包括质荷比、峰面积、强度及保留时间。
[0019] 在上述技术方案中,在所述的步骤2)中,偏差校正的步骤包括:
[0020] 步骤2‑1)任意指定一个样本为参考样本;
[0021] 步骤2‑2)对于每个非参考样本,按1min的保留时间窗口将离子流色谱峰进行分组,对于每个组中的每个色谱峰,在参考样本中查找具有相同质荷比色谱峰的保留时间,计算保留时间的偏差;
[0022] 步骤2‑3)统计非参考样本每个分组中所有色谱峰的保留时间偏差,以平均保留时间偏差作为该组的保留时间偏差;
[0023] 步骤2‑4)对每个分组的保留时间偏差进行校正,使非参考样本与参考样本达到粗略的对齐。比如非参考样本每个分组中各色谱峰的保留时间加上该分组对应的平均保留时间偏差。
[0024] 在上述技术方案中,在所述的步骤3)中,用待对齐的两个色谱峰作为中心色谱峰构建特征向量,同时考虑每一待对齐色谱峰的前两个和后两个色谱峰,每个色谱峰的强度和保留时间信息构成一个1×2的向量,称为色谱峰向量,中心色谱峰信息构成的向量称为中心色谱峰向量,如附图3所示,每个样本的向量由如上所述的10个色谱峰向量拼接而成,除此之外再将来源于样本1的5个色谱峰向量减去来源于样本2的中心色谱峰向量,来源于样本2的5个色谱峰向量减去样本1的中心色谱峰向量,最后将所得向量按附图3所示的顺序依次排列,构成一个5×8的向量(每个色谱峰向量包含强度和时间二维信息,即图3中每个小框是二维的)。
[0025] 在上述技术方案中,在所述的步骤4)中,利用肽段鉴定结果对步骤3)构建的特征向量进行标注,如果特征向量中对应的两个中心色谱峰对应的肽段相同,则特征向量的标注为0(即对齐),如果两个中心色谱峰对应不同的肽段,则标注为1(即未对齐)。由于特征向量包含了样本中心色谱峰前后的色谱峰信息,因此标注后的特征向量所训练的神经网络可以使神经网络判断得更准确。训练方法可以参考深度学习教材:Goodfellow I,Bengio Y,Courville A.Deep learning[M].MIT press,2016。
[0026] 在上述技术方案中,在所述的步骤5)中,构建的深度学习模型以基本的全连接神经网络为基础,由三个完全连接层组成,大小均为5000。其输入层根据步骤2)所得的特征向量调整大小,输出为0或1,以步骤4)标注好的特征向量训练该深度学习模型。
[0027] 在上述技术方案中,在所述的步骤6)中,对于两待对齐的质谱数据(每个待对齐的质谱数据包括一系列谱图)先重复步骤1)至步骤3),得到特征向量,将该向量输入步骤5)训练好的深度学习模型,根据深度学习模型的输出值判断两个色谱峰是否应该对齐,最终将应该对齐的色谱峰列表输出。
[0028] 本发明具有以下优点:
[0029] 1,不依赖于二级谱信息,虽然在标注时需要二级谱信息提供鉴定结果,训练好的模型能够根据一级谱信息给出对齐结果,有助于微量化合物的分析;
[0030] 2,作为深度学习模型,模型可以根据训练数据自动调整,不需要用户设置参数。

附图说明

[0031] 图1为本发明基于一级谱图与深度学习技术的色谱保留时间对齐方法流程图。
[0032] 图2为粗略对齐过程示意图。
[0033] 图3为特征构建过程示意图。

具体实施方式

[0034] 下面结合附图和具体实施方式对本发明做进一步的说明。
[0035] 具体实施所使用的训练数据来源于文献(参考文献:Jiang Y,Sun A,Zhao Y,et al.Proteomics identifies  new therapeutic targets of  early‑stage hepatocellular carcinoma.Nature.2019,567(7747):257‑261.),文献中的质谱原始文件来源于110位病人的癌组织及癌旁组织,每个组织样本由质谱仪采集了6个文件,共1332个质谱原始文件;所使用的测试数据来源于文献(参考文献:S G,X X,C D,et  al.A proteomic  landscape  of  diffuse‑type  gastric  cancer.Nature communications.2018,9(1):1012.),文献中的质谱原始文件来源于84位病人的癌组织及癌旁组织,每个组织样本由质谱仪采集了6个文件,共1008个质谱原始文件。所有质谱原始文件的格式都为raw。
[0036] 使用Thermo Fisher公司提供的MSFileReader软件接口读取作为训练数据1332个raw文件。每个raw文件由若干张谱图组成,在读取每张谱图后,寻找并记录每张谱图中质荷比差值相等的若干个连续谱峰,其中强度最高的记录为单同位素峰。将质荷比相等的所有单同位素峰按时间排列,并用高斯峰拟合,得到离子流色谱峰。按保留时间顺序输出每个raw文件拟合得到的离子流色谱峰峰面积、保留时间、质荷比。以离子流色谱峰面积作为每个离子流色谱峰信号的强度。共得到1332个离子流色谱峰列表。
[0037] 以来源于编号L001的病人癌组织的数据作为参考,其他病人的数据按粗略对齐的步骤与L001数据进行粗略对齐。
[0038] 将所有样本进行配对,作为待对齐样本,本实施方式中,按L001‑L002,L002‑L003,……L110‑L111配对。每对样本中,保留时间相差5min以内的离子流色谱峰两两配对,构建特征向量,作为待对齐的离子流色谱峰。
[0039] 用Mascot软件对所有质谱数据进行鉴定,确定每个离子流色谱峰对应的肽段。选取两个待对齐的离子流色谱峰都有对应鉴定结果的特征向量作为训练数据,如果两个肽段相同,该特征向量标注为0,如果两个肽段不同,则该特征向量标注为1。
[0040] 深度学习模型用Pytorch构建,该模型用于判断来源于不同样本的两个离子流色谱峰是否应该被对齐。从标注好的特征向量中随机选取500万个特征向量训练构建好的深度学习模型。经过400个epoch的训练后,loss从0.77降为0.04。
[0041] 测试数据集按照与训练数据集相同的方法,以编号GC012的病人数据作为参考,使用Mascot软件对数据进行鉴定并标注,从标注好的特征向量中随机选取500万个特征向量用于测试。
[0042] 用标注好的特征向量测试构建好的深度学习模型,precision为0.92,recall为0.74。
[0043] 最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。