一种交联二肽快速鉴定方法转让专利

申请号 : CN201510112890.X

文献号 : CN106033501B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孟佳明樊盛博迟浩卢珊孙瑞祥董梦秋贺思敏

申请人 : 中国科学院计算技术研究所

摘要 :

本发明提供一种交联二肽快速鉴定方法,包括:1)提取待鉴定串联谱图中的有效谱峰,根据各个有效谱峰对应的质量,查找碎片索引得到相应的肽段序列作为候选α肽序列,其中所述碎片索引记录了各个碎片质量及其对应的肽段序列;2)对于每个候选α肽序列,根据所述待鉴定串联谱图的母离子质量计算相应的β肽质量,进而得到相应的候选β肽序列,将候选α肽序列和相应的候选β肽序列组合得到候选交联二肽;3)将步骤2)所得的候选交联二肽与串联谱图进行精细匹配,得出鉴定结果。本发明不需使用特殊交联剂;搜索速度快,鉴定效率高;搜索灵敏度高。

权利要求 :

1.一种交联二肽快速鉴定方法,其特征在于,包括下列步骤:

1)提取待鉴定串联谱图中的有效谱峰,根据各个有效谱峰对应的质量,查找碎片索引得到相应的肽段序列作为候选α肽序列,其中所述碎片索引记录了各个碎片质量及其对应的肽段序列;

2)对于每个候选α肽序列,根据所述待鉴定串联谱图的母离子质量计算相应的β肽质量,进而得到相应的候选β肽序列,将候选α肽序列和相应的候选β肽序列组合得到候选交联二肽;

3)将步骤2)所得的候选交联二肽与串联谱图进行精细匹配,得出鉴定结果。

2.根据权利要求1所述的交联二肽快速鉴定方法,其特征在于,所述步骤1)中,所述碎片索引根据酶切序列列表建立,酶切序列列表是计算机模拟酶切蛋白质序列库中的蛋白质序列后,得到的肽段序列列表。

3.根据权利要求2所述的交联二肽快速鉴定方法,其特征在于,所述步骤1)中,所述碎片索引包括与前缀碎片对应的b离子索引和与后缀碎片对应的y离子索引,所述碎片索引的建立方法如下:

1a)对肽段序列列表的每条肽段序列,分析该条序列碎裂时所有可能产生的前缀碎片,得出对应的前缀碎片质量和肽段序列,进而获得b离子索引;

1b)对肽段序列列表的每条肽段序列,分析该条序列碎裂时所有可能产生的后缀碎片,得出对应的后缀碎片质量和肽段序列,进而获得y离子索引。

4.根据权利要求3所述的交联二肽快速鉴定方法,其特征在于,所述步骤1)包括下列子步骤:

11)提取待鉴定串联谱图中的有效谱峰;

12)对于每个有效谱峰,计算其所对应的碎片质量,然后根据b离子索引和y离子索引,得到该有效谱峰所对应的可能的肽段序列作为候选α肽序列;

13)从待鉴定串联谱图的各个有效谱峰的候选α肽序列中,选出该待鉴定串联谱图的候选α肽序列。

5.根据权利要求4所述的交联二肽快速鉴定方法,其特征在于,所述步骤12)还包括:根据有效谱峰的特征,判断该有效谱峰是普通b离子,交联b离子,普通y离子,还是交联y离子所形成的谱峰,然后再选择对应的b离子索引或者y离子索引进行查找,得到该有效谱峰所对应的可能的肽段序列作为候选α肽序列。

6.根据权利要求4所述的交联二肽快速鉴定方法,其特征在于,所述步骤11)中,通过滤除待鉴定串联谱图中的噪音峰、母离子峰、失水峰、失氨峰和同位素峰得到所述有效谱峰。

7.根据权利要求4所述的交联二肽快速鉴定方法,其特征在于,所述步骤13)还包括:在待鉴定串联谱图的各个有效谱峰的候选α肽序列中,选择在碎片索引查找中匹配次数最多的那些候选α肽序列作为该待鉴定串联谱图的候选α肽序列。

8.根据权利要求7所述的交联二肽快速鉴定方法,其特征在于,所述步骤13)还包括:对各个有效谱峰的候选α肽段与待鉴定串联谱图中的匹配程度进行粗打分,根据粗打分结果选出待鉴定串联谱图的候选α肽序列。

9.根据权利要求1所述的交联二肽快速鉴定方法,其特征在于,所述步骤2)包括下列子步骤:

21)对于每个候选α肽序列,用所述待鉴定串联谱图的母离子质量减去该候选α肽序列的质量,得出相应的β肽质量;

22)基于步骤21)所得出的β肽质量查找肽段索引,得出相应的候选β肽序列,进而将候选α肽序列和相应的候选β肽序列组合得到候选交联二肽;其中所述肽段索引记录了各个肽段质量及其对应的肽段序列。

10.根据权利要求9所述的交联二肽快速鉴定方法,其特征在于,所述步骤21)中,根据所述待鉴定串联谱图的一级谱图得到其母离子质量。

说明书 :

一种交联二肽快速鉴定方法

技术领域

[0001] 本发明涉及生物信息学技术领域,具体地说,本发明涉及一种交联二肽快速鉴定方法。

背景技术

[0002] 化学交联结合质谱技术(简称交联质谱技术)是规模化研究蛋白质间相互作用与蛋白质折叠的有效方法,其核心研究和鉴定的对象是交联二肽,这源于交联二肽的交联位点提供了序列相距远而空间相距近的信息。交联质谱技术中,鉴定交联二肽主要通过串联谱图的数据库搜索技术实现。然而不同于传统单肽序列搜索,交联二肽的数据库搜索的候选空间增长到了原单肽序列数量的平方级的规模,这给大规模数据库搜索带来了挑战。现有的解决方案分三种技术路线,分别是以xQuest为代表的同位素标记方法,以PIR技术(Protein Interaction Reporter)为代表的三级谱鉴定方法和以pLink为代表的开放式搜索方法,这三种路线从不同的角度降低了搜索难度。接下来分别介绍这三种技术。
[0003] xQuest的同位素标记方法利用轻重相差12道尔顿的交联剂在一级谱上形成的固定质量差能够找到轻重对的交联串联谱图。进一步,通过比对两张串联谱图,区分出普通离子和交联离子。先利用普通离子查询离子标签做一次匹配筛选,再结合交联离子做进一步的筛选,取前5000名。最后对5000名候选肽两两组合,以母离子质量作为限制筛选出误差范围内的候选肽段对,进行细打分。xQuest方案利用同位素标记交联剂和离子标签粗步筛选,可以将每张谱图的单肽候选缩减在5,000名以内,有助于提高交联二肽的鉴定速度。然而,xQuest方案需要使用相差12道尔顿的轻重标记的交联剂,这限制了该方法应用到更广泛的交联鉴定中,例如xQuest方案无法用于二硫键鉴定。
[0004] PIR技术使用了一种能够在质谱仪中低能量碎裂的交联剂,并且该交联剂释放的特征离子能够被检测出,以此判断出交联信号的存在。进一步,对剩下的两条完整的子序列扫描三级谱图,用单肽搜索的方法鉴定。由于PIR技术通过设计能够在质谱仪中低能量被碎裂和被检测的交联剂来将问题转化为常规肽段的鉴定问题,因此能够有效降低候选规模。然而,PIR技术不仅对交联剂有要求,对质谱仪也有要求,并且需要集成特殊的信号离子检测软件。此外,这种PIR技术所需的交联剂容易设计得过长、水溶性差。这些都导致PIR技术的适用范围较窄。
[0005] pLink的开放式搜索方法将两条交联肽段当作彼此的修饰,将修饰质量加在每条候选单肽上,先和谱图进行粗打分,分别筛选出打分最高的前500名的α肽段(质量大于等于谱图母离子质量一半的肽段)和500名的β肽(质量小于谱图母离子质量一半的肽段),而后两两组合两个列表中的肽段序列,进行细打分。pLink开放式的方法相比前两种方法的优势在于不需使用特殊的交联剂,容易推广到内源交联的形式上,实验成本低、应用面广。然而,这种方法中序列库中接近一半的肽段都要与每张谱图进行粗打分,存在计算量大的问题,进而造成鉴定效率低。

发明内容

[0006] 因此,本发明的任务是提供一种不需使用特殊交联剂的鉴定效率高的交联二肽快速鉴定解决方案。
[0007] 根据本发明的一个方面,提供了一种交联二肽快速鉴定方法,包括下列步骤:
[0008] 1)提取待鉴定串联谱图中的有效谱峰,根据各个有效谱峰对应的质量,查找碎片索引得到相应的肽段序列作为候选α肽序列,所述碎片索引记录了各个碎片质量及其对应的肽段序列;
[0009] 2)对于每个候选α肽序列,根据所述待鉴定串联谱图的母离子质量计算相应的β肽质量,进而得到相应的候选β肽序列,将候选α肽序列和相应的候选β肽序列组合得到候选交联二肽;
[0010] 3)将步骤2)所得的候选交联二肽与串联谱图进行精细匹配,得出鉴定结果。
[0011] 其中,所述步骤1)中,所述碎片索引根据酶切序列列表建立,酶切序列列表是计算机模拟酶切蛋白质序列库中的蛋白质序列后,得到的肽段序列列表。
[0012] 其中,所述步骤1)中,所述碎片索引包括与前缀碎片对应的b离子索引和与后缀碎片对应的y离子索引,所述碎片索引的建立方法如下:
[0013] 1a)对肽段序列列表的每条肽段序列,分析该条序列碎裂时所有可能产生的前缀碎片,得出对应的前缀碎片质量和肽段序列,进而获得b离子索引;
[0014] 1b)对肽段序列列表的每条肽段序列,分析该条序列碎裂时所有可能产生的后缀碎片,得出对应的后缀碎片质量和肽段序列,进而获得y离子索引。
[0015] 其中,所述步骤1)包括下列子步骤:
[0016] 11)提取待鉴定串联谱图中的有效谱峰;
[0017] 12)对于每个有效谱峰,计算其所对应的碎片质量,然后根据b离子索引和y离子索引,得到该有效谱峰所对应的可能的肽段序列作为候选α肽序列;
[0018] 13)从待鉴定串联谱图的各个有效谱峰的候选α肽序列中,选出该待鉴定串联谱图的候选α肽序列。
[0019] 其中,所述步骤12)还包括:根据有效谱峰的特征,判断该有效谱峰是普通b离子,交联b离子,普通y离子,还是交联y离子所形成的谱峰,然后再选择对应的b离子索引或者y离子索引进行查找,得到该有效谱峰所对应的可能的肽段序列作为候选α肽序列。
[0020] 其中,所述步骤11)中,通过滤除待鉴定串联谱图中的噪音峰、母离子峰、失水峰、失氨峰和同位素峰得到所述有效谱峰。
[0021] 其中,所述步骤13)还包括:在待鉴定串联谱图的各个有效谱峰的候选α肽序列中,选择在碎片索引查找中匹配次数最多的那些候选α肽序列作为该待鉴定串联谱图的候选α肽序列。
[0022] 其中,所述步骤13)还包括:对各个有效谱峰的候选α肽段与待鉴定串联谱图中的匹配程度进行粗打分,根据粗打分结果选出待鉴定串联谱图的候选α肽序列。
[0023] 其中,所述步骤2)包括下列子步骤:
[0024] 21)对于每个候选α肽序列,用所述待鉴定串联谱图的母离子质量减去该候选α肽序列的质量,得出相应的β肽质量;
[0025] 22)基于步骤21)所得出的β肽质量查找肽段索引,得出相应的候选β肽序列,进而将候选α肽序列和相应的候选β肽序列组合得到候选交联二肽。
[0026] 其中,所述步骤21)中,根据所述待鉴定串联谱图的一级谱图得到其母离子质量。
[0027] 与现有技术相比,本发明具有下列技术效果:
[0028] 1、本发明不需使用特殊交联剂。
[0029] 2、本发明的搜索速度快,鉴定效率高。
[0030] 3、本发明的搜索灵敏度高。
[0031] 4、本发明在维持高灵敏度的情况下,相比传统的pLink开放式搜索至少加速10倍。

附图说明

[0032] 以下,结合附图来详细说明本发明的实施例,其中:
[0033] 图1示出了本发明一个实施例中碎片索引的创建的流程示意图;
[0034] 图2示出了本发明一个实施例中肽段索引的创建的流程示意图;
[0035] 图3示出了本发明一个实施例中基于碎片索引和肽段索引的交联二肽快速鉴定的流程示意图。

具体实施方式

[0036] 为帮助读者更好地理解本发明,首先给出本发明所涉及的一些专业词汇的解释。
[0037] 肽段:由氨基酸排列成的字符串,长度范围通常在4到100个氨基酸之间。肽段的质量是指将构成肽段的氨基酸的质量求和后的质量。肽段一般由蛋白质水解得到,蛋白质可以理解为很长的肽段。在本领域中,肽段常常也被称为肽段序列。
[0038] 氨基酸:常见的有二十种,一般用二十个大写英文字母表示,通常每个氨基酸有唯一的质量,但也有两个氨基酸质量相同。
[0039] 交联二肽:两条肽段通过交联剂链接在一起的肽段对。
[0040] α肽:本发明中将一条交联二肽中匹配相对好的那条肽段称为α肽。
[0041] β肽:本发明中将一条交联二肽中匹配相对差的那条肽段称为β肽。
[0042] 以上匹配相对好或者匹配相对差指的是同一条交联二肽中的α肽和β肽的相对好或者差。每条交联二肽中必然有一条α肽和一条β肽。
[0043] 碎片:肽段的一部分片段。
[0044] 前缀碎片:肽段中间断裂后,所形成的左侧(指分子式结构的左侧)的碎片。
[0045] 后缀碎片:肽段中间断裂后,所形成的后侧(指分子式结构的右侧)的碎片。
[0046] 谱图:通过质谱仪测量的带电离子信号构成的图,一般有两个维度,质荷比(质量除以电荷)和强度,通常质荷比是测量的关键。通过质荷比和电荷可以计算质量。
[0047] 带电离子:非中性的携带有电荷的离子,一般是正电荷。可以是任意的带电物质,比如氨基酸、肽段或者肽段的片段。在串联质谱技术中,所检测的肽段或交联二肽或碎片均携带有电荷。
[0048] 一级谱图:检测的带电离子为肽段或交联二肽的谱图。
[0049] 二级谱图:检测的带电离子为肽段或交联二肽碎裂后所产生的碎片的谱图,其中所检测的碎片既有前缀碎片,也有后缀碎片。在本领域中,二级谱图有时也被称为串联谱图。
[0050] b离子:被质谱仪检测到的前缀碎片。
[0051] y离子:被质谱仪检测到的后缀碎片。
[0052] 由于可被质谱仪检测的碎片均携带有电荷,所以本文中也将肽段或交联二肽碎裂后产生的可被质谱仪检测的碎片称为碎片离子。
[0053] 如前文所述,开放式搜索更具普适性、推广能力强,但现有的开放式搜索方案计算量大,鉴定效率低。发明人在进行交联鉴定的加速研究时,发现开放式搜索的技术瓶颈在于粗打分次数过多,如果建立碎片索引,就能够快速筛选掉大量无效候选肽段,从而大规模降低打分次数,显著提升搜索速度。进一步地,发明人还发现基于碎片离子索引的技术被引入后,碎片匹配需要面对较大的候选空间,为应对这一情况,发明人进一步提出了经验谱峰提取算法(即提取有效谱峰并对有效谱峰进行初步分类)来保证搜索的灵敏度。
[0054] 下面结合附图和实施例对本发明做进一步地描述。
[0055] 根据本发明的一个实施例提供了一种交联二肽快速鉴定方法,该方法包括:建立碎片索引,建立肽段索引,以及基于碎片索引和肽段索引的交联二肽快速鉴定三个部分,下面分别介绍。
[0056] 一、碎片索引及其建立方法
[0057] 碎片索引是发明人为实现基于开放式搜索的交联二肽快速鉴定而提出的新概念。碎片索引的每个索引项包括:碎片质量(指碎片中性质量,即不带电荷时的质量)和与之对应的肽段序列。其中,每个索引项的碎片质量代表一个很小的质量区间,该碎片质量所对应的肽段序列来自于已知的酶切序列列表(酶切序列列表是计算机模拟酶切蛋白质序列库中的蛋白质序列后,得到的肽段序列列表),一个碎片质量可以对应于多个肽段序列。在碎片索引中,碎片质量可以看做key,即用于检索的关键词,与之对应的肽段序列则可以看做value,即索引值。
[0058] 图1示出了本发明一个实施例中碎片索引的创建的流程示意图,参考图1,计算机模拟酶切蛋白质序列库中的蛋白质序列后,得到酶切序列列表。再基于酶切肽段列表,对每一条肽段用计算机模拟碎裂,得到碎片列表,最后根据碎片的质量和存储位置得到碎片索引。其中存储位置实际上就代表了碎片的序列,只要找到存储位置,即可找到相应的碎裂的氨基酸序列
[0059] 在一个实施例中,建立碎片索引的方法包括下列步骤:
[0060] 步骤101:对于给定的酶切序列列表中的每条序列(即肽段),分析该条序列碎裂时所有可能产生的前缀碎片(下文中有多处将其简称为前缀),计算所有可能的前缀的质量作为b离子索引的关键词。
[0061] 步骤102:根据预先给定的质谱仪中碎片离子的长度(指碎片离子包括的氨基酸个数)范围和质量范围,从步骤101所得的所有前缀中滤除在所给定范围之外的前缀。
[0062] 步骤103:根据给定的固定修饰,计算保留下来前缀加固定修饰后的质量。固定修饰是:实验中引入的一些以很大概率发生的修饰,搜索时认为是必然发生的修饰。
[0063] 步骤104:根据给定的可变修饰,生成保留下来前缀所有可能的加可变修饰的形式,同时计算质量。可变修饰是:鉴定中认为可能发生也可能不发生的修饰。
[0064] 步骤105,将步骤104处理后的碎片离子的质量(单位为道尔顿)整数化,即乘以1000后取整,然后以碎片离子的质量作为数组下标,统计所有保留的前缀质量出现的碎片个数。
[0065] 步骤106,从小质量到大质量,计算每个前缀质量累积出现的碎片个数。
[0066] 步骤107,第二遍扫描酶切序列,把每个碎片质量的累积碎片个数作为新的倒排表数组的下标,而把数组中存储碎片来源的酶切序列在蛋白质库中的起始位置和长度作为倒排项。
[0067] 步骤108,每记录一个倒排项,对应质量的累积碎片个数减一。扫描完所有的序列后b离子的索引表就完成了。
[0068] 步骤109,重复101到108步骤,将其中的前缀质量换成后缀质量,建立y离子索引表。
[0069] 二、肽段索引及其建立方法
[0070] 肽段索引也是发明人为实现基于开放式搜索的交联二肽快速鉴定而提出的新概念。肽段索引的每个索引项包括:肽段质量(指中性质量)和与之对应的肽段序列。肽段质量可以看做key,即用于检索的关键词,与之对应的肽段序列则可以看做value,即索引值。
[0071] 图2示出了本发明一个实施例中肽段索引的创建的流程示意图,参考图2,计算机模拟酶切蛋白质序列库中的蛋白质序列后,得到酶切序列列表。再基于酶切肽段列表,根据每条肽段的质量和序列构成得到肽段索引。
[0072] 在一个优选实施例中,建立肽段索引的方法包括下列子步骤:
[0073] 步骤201,对于给定的酶切序列列表中的每条肽段序列,加入给定固定修饰,生成修饰肽段。
[0074] 步骤202,对于步骤201中的肽段序列,生成所有指定可变修饰形式,得到修饰肽段。
[0075] 步骤203,将步骤202得到的修饰肽段质量整数化,即乘以1000后取整,然后以肽段质量作为数组下标,统计所有修饰肽段质量出现的次数。
[0076] 步骤204,从小质量到大质量,计算每个质量累积出现的次数。
[0077] 步骤205,第二遍扫描酶切序列,把每个修饰肽段质量的累积次数作为新的倒排表数组的下标,而把数组中带修饰的肽段序列作为倒排项。
[0078] 步骤206,每记录一个倒排项,对应质量的累积次数减一。扫描完所有的序列后肽段索引表就完成了。
[0079] 三、基于碎片索引和肽段索引的交联二肽快速鉴定方法
[0080] 步骤1:接收待鉴定的串联谱图,提取该串联谱图的所有有效谱峰,根据谱峰计算所检测到的碎片质量。将碎片质量作为碎片查询关键词。
[0081] 步骤2:根据碎片质量查询碎片索引,得到候选肽段(相应的索引值就是候选肽段)。每张串联谱图可能存在多个有效谱峰,本步骤中的候选肽段包含了待鉴定串联谱图所有谱峰在碎片索引中所对应的肽段,对于每张串联谱图,它的所有候选肽段构成了该串联谱图的候选肽段集合。
[0082] 步骤3:通过粗打分对候选肽段集合进行过滤,筛除匹配度较差的候选肽段。本步骤中,对候选肽段进行粗打分(pre-scoring,具体方法可参考文献Yang,B.,et al.,Identification of cross-linked peptides from complex samples.Nature Methods,2012.9(9):p.904-+),每张谱保留前若干名(例如前十名)组成过滤后的候选肽段集合。由于本发明所鉴定的是交联二肽,而在串联质谱检测中,通常会有一条肽段匹配相对好于另一条肽段,因此本步骤中通过粗打分所保留的备选肽段应为α肽。后续步骤中还需要再鉴定出可能的β肽。
[0083] 步骤4:根据串联谱图所对应的一级谱图,计算母离子的质量,母离子即一级谱所鉴定的碎裂前的交联二肽离子。根据母离子和α肽质量(例如直接用母离子质量减去α肽质量),即可得到谱图信息所反映的β肽的质量。这个β肽质量可以作为肽段索引检索的关键词。
[0084] 本步骤中,遍历所有备选α肽,对于任一条备选α肽,根据母离子和α肽质量得到与之对应的β肽的质量。
[0085] 步骤5:根据步骤4所得的β肽质量检索肽段索引,得到相应的β肽结构,这样就得到了α肽和β肽组合,可称为候选交联二肽。步骤5完毕后再回到步骤4,直至所有的备选α肽均已遍历完毕,得到所有的候选交联二肽。
[0086] 步骤6:对所有候选交联二肽进行细打分并记录,根据所有备选交联二肽的细打分得出鉴定结果。细打分即refined score,具体方法可参考文献Yang,B.,et al.,Identification of cross-linked peptides from complex samples.Nature Methods,2012.9(9):p.904-+。
[0087] 进一步地,分析交联二肽的质谱实验,母离子在主干上一次碎裂通常形成b离子与y离子。由于交联剂通常不断裂,所以会形成一些带有一条完整肽段的碎裂离子,即交联b离子或者交联y离子。与之对应不带有交联剂部分的离子称为普通b离子和普通y离子。在提取谱峰时,谱峰的离子身份未知,为降低错误转换的概率,可以通过统计标注数据中各种类型离子出现的经验频率,以及不同离子的质量分布来降低错误转换的概率,同时缩小离子索引搜索的空间。因此,在一个优选实施例中,对于每张串联谱图(即二级谱图),首先对谱峰进行过滤和分类,以尽可能在保证准确率的前提下减少搜索空间。根据本发明的一个优选实施例,步骤1包括下列子步骤:
[0088] 步骤11,对于每张谱图,依次标记噪音峰、母离子峰、失水峰、失氨峰、同位素峰、普通谱峰,标记中间四种类型谱峰的同时确定谱峰的电荷状态。
[0089] 步骤12,只保留普通谱峰,去除其余五种类型的谱峰,并对剩余谱峰按照强度由高到底排序。
[0090] 步骤13,在步骤12保留的谱峰中,从高强度至低强度依次提取质量范围在2000道尔顿以下的98根峰作为普通y离子。
[0091] 步骤14,在步骤12保留的谱峰中,从高强度至低强度依次提取质量范围在900道尔顿以上的34根谱峰作为交联y离子。
[0092] 步骤15,在步骤12保留的谱峰中,从高强度至低强度依次提取质量范围在1500道尔顿以下的38根谱峰作为普通b离子。
[0093] 步骤16,在步骤12保留的谱峰中,从高强度至低强度依次提取质量范围在900道尔顿以上的30根谱峰作为交联b离子。
[0094] 上述步骤13至16实际上是通过谱峰的特征(包括强度和质量)对碎片离子进行提取和分类,得到各个有效谱峰(指步骤12之后保留下的谱峰)对应的碎片离子类型,这个分类过程也可以省略,在省略时,每个有效谱峰都可能存在四种可能,即它可能是普通b离子,交联y离子,交联b离子,或者普通y离子。
[0095] 在一个优选实施例中,所述步骤2包括下列子步骤:
[0096] 步骤21,假设交联二肽碎裂后,形成一普通b离子和一交联y离子,用普通b离子的中性质量查询b离子索引得到潜在候选序列的b离子匹配计数。其中,交联y离子是指携带了一条β肽的y离子,普通b离子是指未携带β肽的b离子。普通b离子的中性质量可以根据步骤1中所得的谱峰及其对应的碎片离子类型得到。例如,如果一个有效谱峰质量为1400道尔顿,在步骤13至16中判断该谱峰为普通b离子,则可能直接通过该谱峰获得相应普通b离子的中性质量。如果一个有效谱峰质量为1100,并在步骤13至16中判断该谱峰为交联y离子,则可以通过对应一级谱图获得其母离子质量,然后减去根据该谱峰所得的交联y离子质量,进而再考虑电荷的影响,即可获得碎片离子中普通b离子的中性质量。
[0097] 步骤22,假设交联二肽碎裂后,形成一普通y离子和一交联b离子,用普通y离子的中性质量查询y离子索引得到潜在候选序列的y离子匹配计数。其中,交联b离子是指携带了一条β肽的b离子,普通y离子是指未携带β肽的y离子。普通y离子的中性质量的获取方法可以根据步骤1中所得的谱峰及其对应的碎片离子类型得到。此处不再赘述。
[0098] 需要说明的是,如果省略上述步骤13至16,即不对有效谱峰的碎片类型进行划分,则每个有效谱峰均有四种可能,为保证准确度,需要分别假设每个有效谱峰为某种特定类型的碎片离子,然后再计算相应的普通b或者y离子的中性质量,最后基于相应的离子索引(b离子索引或者y离子索引)进行检索。
[0099] 步骤23,计算每条候选序列的离子匹配数,即b离子匹配计数与y离子匹配计数的总和。
[0100] 步骤24,保留碎片离子匹配数大于等于2的肽段序列。碎片离子匹配数小于2的肽段绝大多数是随机匹配,并且规模巨大,因此本步骤中提前排除这些序列可以提高鉴定效率。
[0101] 在一个优选实施例中,所述步骤3包括下列子步骤:
[0102] 步骤31,对步骤24中选出的每条肽段序列,加入固定修饰。
[0103] 步骤32,对步骤31加修饰后的肽段序列,生成所有的可变修饰形式。
[0104] 步骤33,对于每条肽段生成的各种修饰形式,保留具有交联特性并且质量小于等于母离子质量的序列,对这些序列生成理论谱依次与实际的串联谱图(二级谱图)进行粗打分,选择打分最高的一名。其中,母离子质量根据实际串联质谱对应的一级谱图得出。
[0105] 步骤34,对于每张谱图,用最小优先队列根据粗打分保留前十名的肽段序列作为候选α肽段。
[0106] 在一个优选实施例中,所述步骤4包括下列子步骤:
[0107] 步骤41,对于每张二级谱图,计算该二级谱图母离子质量与步骤24中保留的前十名的肽段(即候选的α肽段)的质量差作为β肽的质量查询关键词。
[0108] 步骤42,记录每条β肽对应α肽的存储位置。
[0109] 在一个优选实施例中,所述步骤5包括下列子步骤:
[0110] 步骤51,利用步骤41中获得的β肽的质量查询肽段索引获取β肽候选。
[0111] 步骤52,组合α肽与β肽,检查交联位点的合法性,保留合法的候选交联二肽。
[0112] 在一个优选实施例中,所述步骤6包括下列子步骤:
[0113] 步骤61,对步骤52检验合法的组合肽段对(即候选交联二肽)进行细打分。
[0114] 步骤62,对于每张谱图,用最小优先队列根据细打分保留前三名的肽段对序列作为输出。
[0115] 与现有技术相比,本发明不需使用特殊交联剂;搜索速度快,鉴定效率高;搜索灵敏度高。在维持高灵敏度的情况下,本发明相比传统的pLink开放式搜索至少加速10倍。
[0116] 最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其它的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。