使用优化的低聚物调度用于质谱生物聚合物分析的方法转让专利

申请号 : CN201510257432.5

文献号 : CN105092726B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : R·A·小格罗斯I·莫塔舍米

申请人 : 萨默费尼根有限公司

摘要 :

本发明涉及一种使用优化的低聚物调度用于质谱生物聚合物分析的方法。一种用于检测已知生物聚合物分子列表的方法,该方法包括:对于每种生物聚合物,计算预测由化学处理产生的对应的低聚物分子列表;对于每种低聚物分子,计算对应的预测的色谱洗脱时间段;对于每种生物聚合物分子,指定一种或多种选择的低聚物分子进行检测,其中该选择是使用从这些预测洗脱时间确定的加权选择概率进行的;调度检测系统的多个低聚物检测事件,其中每个低聚物检测事件对应于这些预测的洗脱时间段中的一个对应的时间段;进行该样品的化学反应或处理以产生经处理的样品;将该经处理的样品引入一个色谱系统中;将任何洗脱低聚物引入该检测系统中;并且运行该检测系统以便根据这些经调度的检测事件搜索这些选择的低聚物分子中的每一种。

权利要求 :

1.一种用于通过运行液相色谱和质谱仪来检测已知蛋白质分子列表中的两种或更多种蛋白质分子中的每一种在样品内的存在或量值的方法,该方法包括:对于所述已知蛋白质分子列表中的每种蛋白质分子,计算预测由该对应的蛋白质分子的胰蛋白酶消解产生的对应的肽列表;

对于每个预测产生的肽列表中的每种肽计算对应的预测的色谱洗脱时间段;

对于每种蛋白质分子,指定选自该对应的预测肽列表的一种或多种肽作为该对应的蛋白质分子的代理,其中该选择是使用从这些预测肽的色谱洗脱时间确定的一组加权选择概率进行,其中对加权选择概率的选择使得选择概率加权因子远离最大数目的肽共洗脱的时间逐渐增大或对加权选择概率的选择使得选择概率加权因子远离平均肽洗脱时间逐渐增大;

调度质谱仪的多个肽检测事件,其中每个肽检测事件对应于指定的肽的一个对应的色谱洗脱时间段;

进行该含蛋白质样品的胰蛋白酶消解以便产生经处理的样品;

将该经处理的样品引入液相色谱系统中,这样使得从该液相色谱系统洗脱的肽被引入质谱仪中;并且运行质谱仪以便根据肽检测事件的时间段来搜索指定的肽中的每一种的存在或量值。

2.如权利要求1所述的方法,其中该质谱仪的运行使得可以检测到从每种肽产生的特定离子。

3.如权利要求1所述的方法,其中对于每个计算出的肽列表中的每一种肽计算对应的预测的色谱洗脱时间段是基于这些肽的疏水性指数。

4.如权利要求1所述的方法,其中对于每个计算出的肽列表中的每一种肽计算对应的预测的色谱洗脱时间段是基于这些肽的组分和氨基酸序列。

5.如权利要求1所述的方法,其中运行质谱仪以便搜索这些指定肽的存在或量值包括在每个经调度的检测事件过程中进行以下步骤:尝试检测包括特定的质荷比的离子,该特定的质荷比用于诊断与该经调度的检测事件相关联的对应的指定的肽的存在;并且,如果检测到所述离子;

将这些检测到的离子的一部分碎裂以便形成产物离子;并且

尝试检测包括特定的不同质荷比的产物离子,该特定的不同质荷比用于诊断与该经调度的检测事件相关联的对应的指定的肽的存在。

说明书 :

使用优化的低聚物调度用于质谱生物聚合物分析的方法

发明领域

[0001] 本发明总体上涉及质谱法,并且更具体地涉及通过各种生物聚 合物的碎裂、裂解或消解形成的低聚物分子的质谱检测来表征生物样品中 的多种生物聚合物分析物的方法。
[0002] 发明背景
[0003] 在过去的几十年中质谱法已经发展到了这样的程度:它是用于 检测和表征宽类别的分子的最广泛地可适用的分析工具之一。质谱分析可 适用于能够形成呈气相的离子的几乎任何种类,并且因此可能提供最普遍 适用的定量分析方法。此外,质谱法是一种特别好地适合于分析变化浓度 的不同化合物的复杂混合物的高选择性技术。质谱法提供非常高的检测灵 敏度,对于一些种类接近万亿分之十。作为这些有益属性的结果,在过去 几十年中大量的关注已指向发展质谱法用于分析生物分子的复杂混合物, 例如肽、蛋白质、碳水化合物和寡核苷酸以及这些分子的复合物。
[0004] 质谱法应用于分析天然样品的一种常见类型涉及生物分子的复 杂混合物的组分的表征和/或定量。许多感兴趣的此类生物分子是生物聚合 物,例如多核苷酸(RNA和DNA)、多肽和多糖。总体上,单体的化学组 成(与组成该聚合物的单体的特定集合相关)和顺序是一种给定种类的生 物聚合物分子的区别分析特征。然而,由于一种给定种类的生物聚合物分 子总体上具有高分子量并且可以产生具有宽范围的电荷状态的离子,通过 质谱法区分在此类分子的混合物内的不同分子可能是具有挑战性的。
[0005] 生物聚合物的质谱法分析的一个重要应用发生在蛋白质研究 (蛋白质组学)领域。在此种研究中,两者类型的蛋白质测序方法已经变 得受欢迎:(1)所谓的“自下而上”方法和(2)所谓的“自上而下”方法。 在该自上而下方法中,将完整的蛋白质电离并且通过质谱仪直接取样并且 然后在MS/MS分析过程中碎裂。出于上述原因,使用此种方法进行质谱分 析可能是具有挑战性的。在该替代性的自下而上方法中,将含蛋白质的样 品用蛋白酶消解,产生可以被认为是低聚物的肽的复杂混合物。然后,将 该消解的样品进行色谱分离(在一维或多维上),从而使得消解组分根据它 们的柱保留时间(RT)在不同时间洗脱。然后将这些不同洗脱组分引入质 谱仪上的一个离子源,通常电喷射电离(ESI)源。该ESI源将从该HPLC 柱洗脱的凝聚相离子转化为呈气相的多重质子化的分子(阳离子)。该质谱 仪然后检测这些离子并且通常使用串联质谱法技术鉴别这些不同的肽,该 技术有时被称为“MS/MS”质谱法或“选择反应监测(SRM)”并且在以下 更详细地进行讨论。在典型的“鸟枪法蛋白质组学”实验中,使用该自下而 上方法分析包含多达数千种蛋白质的细胞裂解物或其他样品。
[0006] 在串联质谱法操作过程中,分离已被选择为代表对应的肽的不 同前体离子类型。这些分离的前体离子然后经受碎裂(例如,在碰撞室中), 并且所得到的碎片(产物)离子被输送用于在第二质量分析阶段或第二质 量分析器中的分析。该方法可以扩展到提供选定n
碎片的碎裂,等等,其中 对每次产生所得到的碎片进行分析。这典型地被称为MS 谱法,其中n表 示质量分析步骤的数目以及离子产生的次数。因此,MS2质量分析(也被 称为MS/MS质量分析)对应于其中分析了两次离子产生(前体和产物)的 两个质量分析阶段。所得到的产物谱展现了一组碎裂峰(一个碎片组),这 些峰在许多情况下可以用作指纹来识别衍生该特定前体和产物离子的肽。
[0007] 尽管单一SRM跃迁可以用于成功地识别一种特定的肽,为了识 别形成这些肽(在消解步骤中)的每一种不同蛋白质,通常需要多于一种 的诊断性肽。具体地,一定数目Q的肽识别被认为是必须的以便确信地推 断原始样品中一种特定蛋白质的存在,存在任何给定肽可能在来自多于一 种蛋白质的消解物中产生的可能性。假如完全相同的肽偶然在多于一种蛋 白质的胰蛋白酶消解中形成,使用该消解物的多于一种肽作为一种给定蛋 白质的标记提供冗余。常规地,三种肽被认为足以推断一种特定蛋白质的 存在(也就是说,Q=3)。
[0008] 因为在胰蛋白酶消解中产生的不同肽在从下而上的蛋白质组学 实验过程中将在不同时间洗脱,该质谱仪系统应进行编程以便在该色谱洗 脱过程中在适当时间搜索不同的诊断性离子。不幸地,然而,经常遇到基 于预期保留时间调度SRM或目标MS/MS采集上的问题。类似的调度问题 总体上发生在其中对于一种资源的需求随时间推移不均均分布的各种情况 下。当每单位时间可递送的最大量的资源存在上限时,在需求上的蜂拥产 生了问题。这种问题的一个常见实例是在炎热的夏日中的下午的电力使用。 在配电的情况下或者在消费者为使用或商品付费的许多其他情况下,自由 市场可以通过将更高的价格分配给在高需求的时间段内的消费来提供一种 解决方案。这具有鼓励某一部分的对价格敏感的用户将他们的使用重新安 排到较低需求的时间段的作用,因此降低对于该商品的总体需求。
[0009] 一般而言,保留时间的分布是大致高斯分布的,具有在中心处 的峰密度和在尾部中的低得多的密度。这种分布形状是基本的,因为肽的 保留时间可以精确地近似为其组成氨基酸残基的保留时间的总和。其结果 是,随机产生的肽的保留时间的分布遵守统计学的中心极限定理。该中心 极限定理陈述的是:独立的、完全相同地分布的随机变量的总和随着该总 和中的项的数目增加而倾向于高斯分布。如在蛋白质组学实验中通常遇到 的具有多于5或6个残基的肽产生遵循预期的高斯分布的保留时间分布。
[0010] 在图1-2中示意性地示出以上所讨论的产生SRM调度问题的现 象。在图1的下部部分中的曲线10代表一个假设的色谱图(相对于保留时 间绘制检测到的离子强度),该色谱图示出了多种肽的洗脱-每种对应于 该色谱图中的一个峰-在单一实验运行的过程中。仅出于说明目的,假定 色谱图10包括总计170个分开的洗脱峰。为了方便起见,每种肽可以由一 个数字指数k指代,其中1≤k≤170,并且其中,在这个实例中,指数 k是按洗脱顺序指定的。对于不同肽的一个子集通过图1的上部部分中的水 平线指示洗脱时间段。例如,水平条k5指示第五种肽的洗脱(即,k=5 的肽)。同样地,水平条k10、k20、k30、k50、k60、k100和kl20分别指 示k=10、k=20、k=30、k=50、k=60、k=100和k=120的肽的洗脱。 注意,指数k是沿着图1的上部部分的竖直轴绘制的。在每个水平条末端 处的小竖直条指示对于对应的肽的对应的洗脱开始和洗脱结束时间。为了 清楚起见,相应于其他肽的洗脱时间段未被具体指出,但可以被假定遵循 图1的上部部分中示出的总体趋势。
[0011] 一般而言,并非色谱图10的所有色谱峰可以被完全分辨出来, 因为一些紧密间隔的峰的重叠。图1的下部部分示出了峰的密度总体上在 该运行的中心处更大,因为遵守如以上所指出的中心极限定理。如图1的 上部部分中示意性地示出的,相对于该实验运行的开始和结束部分,更大 峰密度的中心区域导致在这个区域中的更大的峰重叠。
[0012] 图2A示意性地示出了蛋白质胰蛋白酶消解的总色谱运行的每 个区段的肽峰的数目的直方图的预期一般形式,如果要将总运行时间分区 为相等的时间区段并且计数在每个区段中的洗脱肽峰的数目。例如,在图 2A中以保留时间t1-t10为中心的竖直条代表每个分区的峰计数的假设分布, 如果要将一个色谱图分区为十个相等宽度的时间区段。根据该中心极限定 理分析,随着肽的总数目增加以及分区宽度减少,此种直方图的形式应该 接近高斯概率密度分布的形式,作为曲线80示出。在任何时间点的肽选择 概率密度可以被定义为在包括该时间点的一个时间分区内选择一种肽的每 单位时间的概率。如果要从此种高斯分布中随机选择有待均匀地检测的肽, 即,不将预测的保留时间考虑在内,这些选择的肽的保留时间分布将与下 层的分布(即高斯的)基本上相同。在这种情况下,将遇到以下缺点:在 该实验运行的开始和结束时每单位时间具有显著更少的SRM或MS/MS事 件而在该运行的中间更多,导致质量分析器的次优的、低效的利用,以及 可能不希望的结果。在一些情况下,这是不可避免的。诸位发明人已经认 识到,然而,在许多其他情况下,在实验设计中存在允许将对SRM或MS/MS 事件的需求在一个色谱运行内平均分配的自由。
[0013] 一种用于检测已知生物聚合物分子列表中的两种或更多种生物 聚合物分子中的每一种在样品内的存在或量值的方法,该方法包括:对于 每种生物聚合物分子,计算预测由该对应的生物聚合物分子的化学反应或 处理产生的对应的低聚物分子列表;对于每个低聚物分子列表中的每种低 聚物分子计算一个对应的预测的色谱洗脱时间段;对于每种生物聚合物分 子,指定选自该对应的低聚物分子列表的一种或多种低聚物分子作为该对 应的生物聚合物分子的代理,其中该选择是使用从这些预测的色谱洗脱时 间确定的一组加权选择概率进行的;调度检测系统的多个低聚物检测事件, 其中每个低聚物检测事件对应于这些选择的低聚物分子的预测的色谱洗脱 时间段中的一个对应的预测的色谱洗脱时间段;进行该样品的化学反应或 处理以便产生一个经处理的样品;将该经处理的样品引入一个色谱系统中, 这样使得从该色谱系统洗脱的低聚物,如果有的话,被引入该检测系统中; 并且运行该检测系统以便根据该多个经调度的低聚物检测事件搜索这些选 择的低聚物分子中的每一种的存在或量值。
[0014] 根据不同的实施例,指定该一种或多种低聚物分子可以使用一 组加权选择概率,对该组加权选择概率进行选择以便使得低聚物选择概率 密度分布相对于保留时间预测指数(例如熟知的疏水性指数)是基本上均 匀的。根据不同的实施例,指定该一种或多种低聚物分子可以使用一组加 权选择概率,对该组加权选择概率进行选择以便使得该多个经调度的低聚 物检测事件在时间上是基本上均匀分布的。根据不同的实施例,指定该一 种或多种低聚物分子可以使用一组加权选择概率,对该组加权选择概率进 行选择使得经调度的低聚物检测事件的重叠数目相对于时间是基本上均匀 的。根据不同的实施例,指定该一种或多种低聚物分子可以使用一组加权 选择概率,对该组加权选择概率进行选择使得选择概率加权因子远离最大 数目的低聚物分子共洗脱的时间逐渐增大。根据不同的实施例,指定该一 种或多种低聚物分子可以使用一组加权选择概率,对该组加权选择概率进 行选择使得选择概率加权因子远离平均低聚物分子洗脱时间逐渐增大。
[0015] 在不同的实施例中,这些生物聚合物分子是蛋白质,这些低聚 物分子是肽,进行该样品的化学反应或处理包括进行这些蛋白质的胰蛋白 酶消解,并且运行该检测系统包括运行一个质谱仪检测系统,这样使得可 以检测从每种低聚物分子产生的特定离子。因此,作为本传授内容的方法 的一个实例,考虑了通过从下而上蛋白质组学方法表征感兴趣的蛋白质列 表的情况。该表征涉及测定从这些蛋白质选择的胰蛋白酶肽的子集。可以 预测这些胰蛋白酶肽的序列,因为这些感兴趣的蛋白质的序列是提前已知 的。这允许使用多个可用的建模工具之一提前预测这些肽的预期保留时间。 考虑到该预测的保留时间分布,通过产生基本上均匀的SRM或MS/MS事 件调度,从胰蛋白酶肽的总池中选择代表该分析器的最佳利用的胰蛋白酶 肽子集。根据本传授内容的方法,使得经调度的肽检测事件沿时间轴的分 布在一个实验运行过程中尽可能均匀分布。
[0016] 为了完成这种有效的SRM调度,对肽选择进行加权以便有利于 在该保留时间直方图的低峰密度区域中出现的这些肽超过在高峰密度区域 中出现的肽。在一个特定时间点选择一种肽的概率等于该保留时间概率分 布(如以上所指出的总体上高斯分布)乘以我们自由选择的概率加权因子。 本传授内容的想法是人为地增加洗脱时间(保留时间)落入该保留时间分 布的尾部的肽的选择概率并且人为地减少落入该分布的中心的那些肽的选 择概率。具体地,为了使得选择的肽的调度在整个运行时间段内尽可能均 匀地分布,我们构建了一种选择方法,在该选择方法中任何肽的加权因子 精确地是与其洗脱时间段重叠的其他肽的数目的倒数。这种权重选择产生 了一种选择,该选择使得在时间上重叠的肽洗脱段的数目从统计学上来说 在整个运行中尽可能均匀分布。
[0017] 附图简要说明
[0018] 从下面仅以举例方式并且参照未按比例绘制的附图所给出的说 明中,本发明的以上指出的和各种其他方面将变得清楚,在附图中:
[0019] 图1是由一种或多种蛋白质的胰蛋白酶消解产生的肽的假设色 谱图的示意图(上部部分)以及这些组分肽的洗脱时间范围(下部部分);
[0020] 图2A是从图1中示出的类型的色谱图所预期的肽分布的假设预 期直方图;
[0021] 图2B是根据本传授内容的可以修改肽选择概率的方式的近似 示意性描绘,以便使得在一个实验运行过程中的经调度的肽检测事件随着 时间推移接近均匀分布;
[0022] 图3是可以通过使用包括覆盖一定的疏水性指数值范围的肽的 一个校准集对实际的肽保留时间进行建模的方式的概括化的描绘;
[0023] 图4A-4D描绘了根据本传授内容的方法的流程图;
[0024] 图5A是对于在一组433种随机选择的肽内的每种肽预测发生的 肽洗脱重叠数目的图形描绘,相对于疏水性指数绘制;并且
[0025] 图5B是预测在根据本传授内容的方法选择的145种肽的子集中 的每一种的洗脱过程中发生的肽洗脱重叠的数目的图形描绘。
[0026] 详细说明
[0027] 以下说明被呈现为使得本领域的任何技术人员能够制造和使用 本发明并且是在特定的应用和其要求的背景下提供的。对于本领域技术人 员来说,对所描述的实施例的各种修改将是显而易见的,并且在此的一般 原则可以应用到其他实施例。因此,本发明并非旨在局限于所示出的实施 例和实例,而是要根据所示出和所描述的特征和原则而给予可能的最宽范 围。结合以下描述参考附图,本发明的具体特征和优点将变得更加清楚。
[0028] 图2B是根据本传授内容的可以修改肽选择概率的方式的近似 示意性描绘,以便使得在一个实验运行过程中的经调度的肽检测事件随着 时间的推移接近均匀分布。为了设计“鸟枪法蛋白质组学”多重蛋白质测 定,需要为每种感兴趣的蛋白质选择一组诊断性胰蛋白酶消解肽,这些肽 的存在将代理该母本蛋白的存在。然而,如以上讨论的,如果从肽的自然 类高斯分布(参见图2A)中随机选择这些诊断性代理肽,那么问题可能发 生在肽检测事件的调度中,由于这些肽的大部分在一个窄时间范围内(相 对于一个实验运行的总时间范围)洗脱。
[0029] 如以下进一步讨论的,这些不同洗脱低聚物的预期保留时间可 以用保留时间预测指数(例如所谓的疏水性指数)进行建模,该指数是源 自于化学成分或其他化学或分子特性或实验参数的量值。因此,该保留时 间预测指数可以用于例如图2A-2B中,作为代替真实保留时间的代理。因 此,图2A-2B中的水平轴示意性地用保留时间(R.T.)和保留时间预测指 数(RTP指数)进行标记。该保留时间预测指数用于提供不同化合物的相 对洗脱行为的一般模型,由于真实保留时间可能依赖于任何实验设置的细 节。
[0030] 使用一些分析物检测技术,例如串联质谱法,用于检测一种特 定分析物所需要进行的操作的顺序将随着该分析物的性质而变化。在使用 其他检测技术,例如UV-可见光谱法、振动光谱法或荧光光谱法的情况下, 多个重叠的洗脱事件的几乎同时出现可能产生难以分解的复杂信号。因此, 重叠的洗脱事件可能导致检测中的误差或其他困难。因此,诸位发明人已 经将计算一组概率加权因子的方法概念化,以便(如由图2B中的箭头所指 示的)人为地增加选择保留时间落入该自然类高斯分布的尾部的肽的概率 并且减少选择在该分布的中心的肽的概率。
[0031] 可以将图2B中示出的概率加权方案(或概率密度加权方案)一 般化,通过认识到这些概率调整可以被认为是每个概率(或概率密度)值 乘以一个远离曲线80的顶部(或,作为一个替代近似,远离该直方图的最 大或中间值)逐渐增加的可变乘法加权因子。例如,为了将靠近曲线80的 顶部的值调整到均匀分布线85的水平,将这些原始概率密度值中的每一个 乘以约0.58的加权因子。在均匀分布线85的与曲线80相交的两个点处, 该加权因子已经增加到1.00。进一步朝向该图的左和右边缘,该加权因子 逐渐仍更大。不考虑线85相对于曲线80的顶部的位置,这种概括成立。 通过实现此种程序,选择的肽的分布应该接近就保留时间预测指数而言是 均匀的分布,如图2B(还参见图5B)中由水平线85表示的。
[0032] 使得选择的肽的分布相对于时间平坦(即,像水平线85)的一 种可能方式可以是简单地将每种肽加权其在该直方图上或对该直方图的高 斯近似上出现的概率密度的倒数并且然后将这些如此加权的概率在任何实 验运行的开始检测时间和结束检测时间之间归一化。为了产生这些概率加 权因子,需要已知或估算这些肽的身份和它们的不同洗脱时间。在许多情 况下,可以使用已知的胰蛋白酶消解建模和肽保留时间建模算法预测该信 息,如以下参考图4中的方法200进一步讨论的。注意到,在具有接近零 的宽度的无穷多的分区的极限情况下,该直方图众数和平均数均接近高斯 平均数,该概率加权程序可以通过注释该预测的直方图的众数或平均数的 位置并且选择在时间增加或时间减少方向上远离这个点减小的概率加权因 子来简化。该加权方案可以基于一种选择的函数形式-例如线性函数、多 项式函数、类高斯函数或某一其他形式-用于近似加权因子远离该直方图 众数或平均数的减小。然后,在这种加权方式的情况下,填充该直方图的 任何给定区段(bin)的概率是均匀的,其中这些“区段”被认为是该总检 测时间段(在该时间段期间该检测器运行以检测这些肽)的一组等时间宽 度分段(分区)。
[0033] 尽管根据本传授内容的不同方法考虑了并且可以包括以上所述 的简单加权方式,但它不产生最佳调度结果。相反,最好的程序是使得这 些经调度的肽检测事件尽可能均匀分布在时间线上,其中每个“经调度的 肽检测事件”包括一个确定的时间段-具有一个对应的开始时间和一个对 应的终止时间-在该确定的时间段期间搜索该对应肽的特征标志 (signature)。这种最好的程序稍微不同于产生均匀直方图,因为该直方图 的区段是任意的,而该检测事件调度取决于这些保留时间本身。使得这些 经调度的肽检测事件尽可能均匀分布的这个程序还导致重叠的数目-同 时的经调度的肽检测事件的出现-也尽可能均匀地分布。换句话说,尽管 两种或更多种肽的经调度的检测事件在一个实验运行中可能重叠,但在该 运行中应该不存在重叠检测事件的数目显著大于(或小于)重叠的平均数 的时间点。
[0034] 因此,图4是根据本传授内容的一般方法200的流程图。根据 该方法,从一个目标蛋白质池开始。这个列表可以包括总计M种感兴趣的 特定蛋白质,希望关于一个样品确定这些蛋白质的存在或不存在。可替代 地或另外地,可以希望确定该样品中的不同特定蛋白质的浓度。对于每种 此类蛋白质(迭代的步骤202-208,图4A),使用多个可用的化学消解模拟 模型中的任一个经由电脑模拟(步骤204)确定理想的(计算的)胰蛋白酶 消解。这些模型计算从该感兴趣的蛋白质池中的每一种蛋白质产生一个理 论胰蛋白酶肽的总列表(步骤206)。任选地(步骤210),可以通过限制该 肽列表来对其进行过滤以便仅包括原型肽,这些原型肽是最容易被质谱仪 检测到的肽。任选地(步骤211),可以在填充该总肽列表之后或在其产生 过程中,消除由在该消解阶段过程中多于一种蛋白质产生完全相同的肽 (即,相同的化学成分和氨基酸序列)的情况引起的“简并”肽条目。
[0035] 在已经计算该理论胰蛋白酶消解之后,对于每种此类肽计算一 个预测的保留时间(步骤212)。多个保留时间计算模型可供用于此目的。 该保留时间的计算可以利用一个保留时间预测指数,该保留时间预测指数 可以是从分子组成、分子结构或其他化学或分子特性或此类特性的某一组 合计算的一个量值。该保留时间预测指数(RTP指数)还可以从与所用的 色谱柱的类型的特性相关的参数来计算。例如,被称为“疏水性指数”的半 经验度量是一种类型的保留时间预测指数。该疏水性指数的值可以基于该 肽组成对于每种肽进行计算。发现在反相高压液相色谱法(RP-HPLC)中 观察到的肽保留时间取决于肽疏水性并且可以就疏水性指数而言进行建 模。
[0036] 近来,已经扩展了肽保留时间预测模型,例如基于疏水性指数 的那些,以便不仅将氨基酸成分而且还将该肽链内的残基位置考虑在内 [例如,Krokhin等人,“一种用于在离子对反相HPLC中胰蛋白酶肽的保留 时间的预测的改进模型(An Improved Model for Prediction of Retention Times of Tryptic Peptides in Ion Pair Reversed-phase HPLC)”分子与细胞蛋白质组 学(Molecular&Cellular Proteomics:MCP),2004,3(9),第908-919页; Krokhin,“序列特异的保留计算器用于离子对RP-HPLC中的肽保留预测 的算法:应用于300-和100-A孔径C18吸附剂(Sequence-specific  retention 
calculator.Algorithm for peptide retention prediction in ion-pair RP-HPLC: application to 300-and 100-A pore size C18sorbents)”,分析化学(Anal Chem.),
2006,78(22),第7785-7795页;Krokhin等人,“通过离线反相 HPLC-MALDI MS/MS的肽保留时间预测用于肽识别的用途(Use of Peptide Retention Time Prediction for Protein Identification by off-line Reversed-Phase HPLC-MALDI MS/MS)”,分析化学,2006,78(17),第6265-6269页; Spicer等人,“序列特异的保留计算器在反相HPLC中的一系列肽保留时 间预测算法:可应用于不同的色谱条件和柱中(Sequence-Specific Retention Calculator.A Family of Peptide Retention Time Prediction Algorithms in Reversed-Phase HPLC:Applicability to Various Chromatographic Conditions and Columns)”,分析化学,2007,79(22),第8762-8768页;Dwivedi等 人,“对于高通量从下而上蛋白质组学的具有两个维上的精确肽保留预测 的2D HPLC方案的实际实施(Practical Implementation of 2D HPLC Scheme with Accurate Peptide Retention Prediction in Both Dimensions for High-Throughput Bottom-Up Proteomics)”,分析化学,2008,
80(18),第 7036-7042页;Krokhin和Spicer,“肽的反相高效液相色谱法中的肽保留 标准和疏水性指数(Peptide Retention Standards and Hydrophobicity Indexes in Reversed-Phase High-Performance Liquid Chromatography of Peptides)”, 分析化学,2009,81(22),第9522-9530页].为了将LC系统依赖性考虑在 内,含有选定的肽化合物组的校准混合物是可获得的。一旦校准是可获得 的,那么测试肽的所测量的保留时间(R.T.)倾向于紧密遵循预测的R.T., 该预测的R.T.是基于所应用的校准以及序列特异的保留时间计算器算法的 预测两者而产生的(图3)。
[0037] 一旦已经对于理论胰蛋白酶消解的所有预期肽计算了该保留时 间列表,按保留时间的顺序对不同的肽进行分类(步骤214)。在步骤216-221 的循环中,对于每种肽计算该组中的多少其他肽具有调度重叠(步骤218), 其中一个“调度重叠”被定义为其中在所考虑的肽与这些肽中的另一个之 间的预测保留时间差小于该调度窗口(例如色谱峰宽度或以另外方式预定 的测量持续时间)的情况。因此,在步骤216中,这些肽按它们的保留时 间被考虑。对于每种肽,该方法进行重叠计算(步骤218):通过首先在该 列表中向回移动来计数在较早保留时间遇到的所有肽直到到达该列表的开 始或直到从所考虑的肽的R.T.在时间上向回的一个调度窗口。类似地向前 移动继续该计数,直到达到该列表的结束或直到从所考虑的肽的R.T.向前 的一个调度窗口。然后对于每种肽记录该累积的重叠计数,向前和向后两 者。
[0038] 在步骤220中,该重叠计数的乘法逆元素作为该加权因子用于 调整选择每种肽的概率。然后,使用这些加权因子,根据本传授内容对于 M种感兴趣的蛋白质中的每一种确定某一预定数目Q的诊断性肽,这样使 得该保留时间的聚集分布将,在平均上,最小化调度冲突的程度。这种肽 选择在跨越图4B和4C的步骤222-240的循环中进行。数目Q可以被设定 为任何希望的值例如Q=3。在考虑每种蛋白质j时,查询该理论肽的总列 表(例如,参见步骤206),这样使得仅考虑预测在蛋白质j的消解中产生 的那些肽。假设存在总共Y种此类候选肽。考虑所有和仅与所考虑的特定 蛋白质(蛋白质j)相关的这些Yj种候选肽,然后在这些候选肽之中对实数 区间[0,1]进行分区(从概念上)。根据这些不同的加权因子,这些分区由不 等尺寸组成。为了计算每个分区的尺寸,在步骤224中计算这些加权因子 的总和,其中每个加权因子wk等于1/nk,其中nk是肽k遇到的重叠数目。 假设这个总和是S。然后,在步骤226中,将这些分区尺寸归一化为值pk= (wk/S),使得这些分区尺寸pk总和为一。然后(步骤228),计算这些不同 分区的边界值。例如,让bk表示前k个归一化分区尺寸的总和。然后,属 于候选肽k的区间[0,1]的分区是区间[bk-l,bk]。这些值b1…bN可以被认为是 在区间[0,1]内的分区边界的位置。
[0039] 仍考虑在所考虑的每种蛋白质(蛋白质j),步骤230-240使用 以上加权方案从Yj种候选肽之中随机选择总共Q种肽(例如3种肽)。这 是通过以下方式进行的:产生在区间[0,1]中的一个均匀随机数x(步骤232) 并且然后确定随机数x出现在哪个区间[bk-1,bk]内(步骤234)。然后选择肽 k用于与蛋白质j相关联(步骤238),除非已经选择了这种肽。如果已经选 择了该肽,那么再次执行步骤232-236。如果还未选择肽k,那么将肽k添 加到选择的肽的列表中。重复执行步骤230-240直到Q种诊断性肽已经与 蛋白质j相关联。对于每种感兴趣的蛋白质执行步骤222-242直到已经考虑 了所有此类蛋白质。
[0040] 在所有感兴趣的蛋白质已经与诊断性肽相关联之后,然后,在 步骤244中,LC仪器系统-包括一台液相色谱仪以及联接到该色谱仪上 的一个检测器或检测系统以便检测从该色谱仪洗脱的分析物-进行编程 以便在所有指定的肽(如在方法200的先前步骤中确定的)的对应的预期 洗脱时间段内自动尝试检测所有指定的肽。(在此使用短语“尝试检测”, 因为并非所有感兴趣的蛋白质可能存在于样品中。)原则上,可以使用任何 类型的检测器。优选地,然而,该检测器包括质谱仪,因为质谱仪仪器的 高灵敏度和分析特异性。
[0041] 如果该检测器是质谱仪,那么该编程步骤(步骤244)总体上将 包括对于每种肽选择有待搜索的一种或多种诊断性离子,以便确认该肽的 存在并且可能地以便定量该肽。在这种情况下,该质谱仪检测器的编程可 以包括编程的指令以自动搜索一种前体离子,并且如果识别出该前体离子, 包括编程的指令以将该前体离子碎裂并且搜索在该碎裂过程中形成的特定 产物离子。因为质谱仪可以在比任何肽的典型的洗脱时间段短得多的一个 时间段内进行这一步骤序列,该质谱仪在少或中等数目的重叠肽洗脱峰的 情况下可以基本上同时成功地检测多种肽分析物。然而,对于可以同时检 测多少共洗脱肽存在上限。在大多数情况下,根据本传授内容的方法被设 计为防止到达该上限。
[0042] 在步骤246中,胰蛋白酶消解物由感兴趣的带有蛋白质的样品 组成。原则上,这个步骤对于实际上存在于该样品中的感兴趣的蛋白质中 的任一种将物理地产生如步骤204中预测的相同肽种类。在步骤248中, 将该胰蛋白酶消解物引入该LC仪器系统中,该LC仪器系统然后根据步骤244中编程的指令运行以便检测可能存在于该胰蛋白酶消解物中的任何指 定的肽。最后,在步骤250中,如从检测到的肽(如果存在的话)推断的, 记录检测到的该样品中的蛋白质的存在和/或量值。
[0043] 图5A-5B是当选择肽由两种不同方法检测时预测出现的肽洗脱 重叠的数目的模拟曲线图。图5A是对于在一组433种随机选择的肽内的每 种肽预测出现的肽洗脱重叠数目的图形描绘。该洗脱重叠的数目是相对于 疏水性指数绘制的,出于这个实例的目的,该疏水性指数可以用作保留时 间的代理。图5A表明了当随机选择肽用于检测时,如在常规方法中,大量 的此类肽可能同时洗脱。大量肽的同时洗脱可能对质谱仪仪器成功完成所 有要求的肽的存在的测量的能力造成压力。相比之下,图5B是在145种肽 的一个子集中的每一种肽的洗脱过程中预测出现的肽洗脱重叠的数目的图 形描绘,其中根据本传授内容的方法选择并且调度这些肽用于检测。在这 后一种情况下,洗脱重叠的数目是大致均匀的-在相对低数目的此种重叠 下-在整个蛋白质组学分析的过程中。
[0044] 本申请中所包括的论述是旨在用作基本的说明。尽管已经根据 所显示和描述的不同实施例对本发明进行了说明,但本领域普通技术人员 将容易认识到,可以存在对这些实施例的变更,并且这些变更将是在本发 明的精神和范围之内的。读者应该意识到,该具体的论述可能没有明确地 描述所有可能的实施例;许多替代方案是隐含的。因此,在不脱离本发明 的范围和本质的情况下,本领域普通技术人员可以做出许多改变。作为只 是一个实例,尽管本发明的实例已经描述了使用质谱法用于检测,但可以 使用其他化学检测手段,例如分子振动光谱法(例如,拉曼光谱法、共振 拉曼光谱法、表面增强拉曼光谱法)或紫外可见光谱法。这些检测技术可 以用于检测未改性分析物的存在,或者可替代地,可以用于检测在消解和 色谱分析之前已经用化学方法结合到蛋白质上的-例如同位素标记的基 团或荧光团标记的基团等的-信息分子基团。作为另一个实例,尽管在此 的描述已经描述了分析肽用于识别或定量蛋白质的目的,相同的方法可以 用于识别或定量其他种类的生物聚合物,如果(a)每种感兴趣的生物聚合 物可以进行化学碎裂或反应以便产生聚合物碎片(例如,低聚物)或其他 产物种类,这些聚合物碎片或其他产物种类的检测到的存在可以用于推断 关于样品中的母体生物聚合物的存在或量值的信息;(b)对于每种感兴趣的 生物聚合物可以理论上预测碎片或产物种类的类型;并且(c)可以预测或 估算不同的理论上预测的碎片或产物种类的色谱分离时间,例如洗脱时间 或保留时间。描述和术语均不旨在限制本发明的范围。在此所提及的任何 专利、专利申请、专利申请公开或其他文献通过引用将以其各自的全部内 容结合在此,就如同在此完全阐述一般。