一种色谱峰选择方法转让专利

申请号 : CN201710825440.4

文献号 : CN109507347B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 伍毅子杨华武魏维伟孔波李燕春庹苏行钟科军陈增萍尹双凤

申请人 : 湖南中烟工业有限责任公司

摘要 :

本发明公开了一种色谱峰选择方法,该方法首先对所有保留时间点计算加权成峰指数,初选一定数量的色谱峰,然后相继利用变异系数控制法和一种局部比对策略去除不合理峰,得到最终峰选择结果。该方法为零阶方法,不涉及一阶或高阶导数的计算,实现简单;该方法使用张量数据,可选出包含在大峰中的小峰,有利于定位不易发觉的隐藏成分;该方法提供了加权成峰指数、变异系数阈值、局部带宽法则和局部筛峰阈值等交互参数,用户可通过调控这些参数快速锁定合理的峰选择方案。

权利要求 :

1.一种色谱峰选择方法,其特征在于:以所有m/z曲线的峰为筛选对象,先采用加权成峰指数法进行初步筛选,再利用变异系数阈值法进行二次筛选,最后通过局部搜索法和局部筛峰阈值法进一步剔除不合理峰;

采用加权成峰指数法进行初步筛选的过程为:先设置一个与保留时间采样点数等长的向量ω,用于记录加权成峰指数,并将其初始化为零向量;其次,对色谱图中的任意m/z,考虑其在保留时间方向的变化曲线x,对该曲线进行递增和递减趋势分析,获得若干峰顶;然后根据峰顶位置更新向量ω相应位置的值,设时间t处为峰顶,则按以下公式计算:其中,T为总离子流向量;

所有m/z曲线按上述过程遍历完成后,加权成峰指数向量ω便计算完成;最后,设定阈值C1,选择所有满足ω(t)>C1的t组成初选峰列表P0;

利用变异系数阈值法进行二次筛选的过程为:对列表P0中所存的每一个时间点t,首先找到该点处取值最大的若干条m/z曲线,然后对所选的每条m/z曲线,从t点出发向左侧搜索峰的起点,向右侧搜索峰的终点;选择计算所得的若干起点的最左侧起点作为最终的起点,选择计算所得的若干终点的最右侧终点作为最终终点;最后截取总离子流向量在最终起点和最终终点之间的丰度数据,计算其变异系数,若变异系数低于某阈值C2,则认为该峰并未达到成峰条件,将所考虑的时间点t从列表P0中删除;其中所述变异系数为算数平均值与标准差的比值。

2.根据权利要求1所述的一种色谱峰选择方法,其特征在于:所述阈值C1取值区间为(0,

1)。

3.根据权利要求1所述的一种色谱峰选择方法,其特征在于:所述阈值C2的取值在0.6±

0.2范围内。

4.根据权利要求1~3任一项所述的一种色谱峰选择方法,其特征在于:采用局部搜索法与局部筛峰阈值法剔除不合理峰:局部搜索法考虑候选峰所在邻域内的其他候选峰,所述邻域由阈值C3确定,若某峰的位置与所考虑候选峰的位置之间的间隔小于阈值C3,则认为该峰在所考虑的邻域内;求出在所述邻域中的所有峰的相对丰度的平均值,计算所考虑候选峰的相对丰度值与该平均值的比值,若该比值低于阈值C4,则剔除该峰。

5.根据权利要求4所述的一种色谱峰选择方法,其特征在于:所述阈值C3设置为40~100个保留时间采样间隔,阈值C4设置为区间[0.1,0.2]内的数值。

说明书 :

一种色谱峰选择方法

技术领域

[0001] 本发明涉及一种色谱峰选择方法,特别涉及一种色谱共流出峰解析及混合质谱解析的方法,属于检测分析技术领域。

背景技术

[0002] 气相色谱-质谱(GC-MS)联用技术是复杂样品定性定量分析中应用最广泛的技术之一,随着美国国家标准局推出的NIST质谱库容量的不断增大,GC-MS已经成为复杂样品的挥发性和半挥发性小分子有机化合物的首选分析技术。然而,实际的色谱指纹图谱往往难以将色谱峰完全分离开来,色谱共流出峰非常普遍,主要是受限于气相色谱硬件本身分离能力的限制,其次是实验条件的限制。当前技术,如渐进因子分析法,固定尺寸移动窗口因子分析法,局部正交投影方法等(参见《复杂体系仪器分析--白、灰、黑分析体系及其多变量解析方法》,梁逸曾、许青松等著)对部分色谱共流出峰有一定的分离效果,但对色谱峰形有较强依赖,且对完全重叠峰尚无一般性的分离方案,无法满足某些特殊领域的应用需求。基于标准质谱数据库对色谱图中任意保留时间点的混合质谱进行分析是解析色谱共流出峰的一个重要思路。
[0003] 理论上,一般混合质谱解析算法可对任意保留时间点的混合质谱进行定性估计,但是,若保留时间点选取过于随意,由于某些化合物出峰不完全,影响后续定性估计的精确性,同时,过多地选取无效保留时间点,对系统的计算性能也会造成较大影响。因此,有必要将混合质谱分解与一种适当的峰选择算法相结合,以取得更好的分析结果。经典的峰选择算法,一般选取总离子流图中成峰比较明显的峰位置,无法囊括包埋在大峰内的小峰。在某些情况下,特别是共流出峰现象比较严重的情况下,大峰内的小峰也是重要的定性位置。

发明内容

[0004] 针对现有技术存在的问题,本发明的目的是在于为GC-MS复杂体系解析提供一种能够简单、快速锁定合理的色谱峰的方法。
[0005] 为了实现上述技术目的,本发明提供了一种色谱峰选择方法,该方法以所有m/z曲线的峰为筛选对象,先采用加权成峰指数法进行初步筛选,再利用变异系数阈值法进行二次筛选,再通过局部搜索法和局部筛峰阈值法剔除不合理峰。
[0006] 优选的方案,采用加权成峰指数法初步筛选的过程为:对各m/z曲线的峰进行加权叠加,并计算各峰的加权成峰指数,将加权成峰指数低于阈值C1的峰筛除;所述阈值C1在具体计算时,可由用户交互确定,一般取值区间为(0,1)。本发明采用加权成峰指数逐一计算所有m/z随保留时间的变化趋势,可发掘仅使用总离子流图容易丢失的细节;单个m/z曲线的成峰机理更为简单,计算时不必考虑峰叠加或其他复杂原因造成的影响,计算时仅需寻找其各个局部峰值位置,不必涉及一阶或二阶导数的计算,计算更加简单高效,更能适应各种峰形;所谓加权,是指计算阈值时灵活利用了各m/z的相对丰度。
[0007] 优选的方案,采用变异系数阈值法进行筛选的过程为:针对候选峰所覆盖范围内的典型数据,计算其变异系数,删除变异系数小于阈值C2的峰;所述变异系数为算术平均值与标准差的比值;所述阈值C2根据具体实验,由用户交互确定,一般的取值在0.6±0.2范围内。本发明采用的变异系数阈值方法,考虑了峰附近各相对丰度的统计特性,若变异系数过低,表明曲线趋于平坦,未达到成峰条件。相对仅考虑峰形进行寻峰的方法,该方法更为简单有效,可作为已经考虑峰形之后的补充判断方法。
[0008] 较优选的方案,候选峰所覆盖范围内的典型数据即仅利用在封顶处各m/z曲线的相对丰度从大到小排序靠前的少部分m/z曲线进行峰起点与峰终点搜索,计算变异系数时仅利用峰起点与峰终点之间的m/z曲线数据或总离子流数据。
[0009] 优选的方案,采用局部搜索法与局部筛峰阈值法剔除不合理峰:局部搜索法考虑候选峰所在邻域内的其他候选峰,所述邻域由阈值C3确定,若某峰的位置与所考虑候选峰的位置之间的间隔小于阈值C3,则认为该峰在所考虑的邻域内;求出在所述邻域中的所有峰的相对丰度的平均值,计算所考虑候选峰的相对丰度值与该平均值的比值,若该比值低于阈值C4,则剔除该峰;阈值C3和阈值C4取值可由用户根据具体计算环境确定;一般情况下,所述阈值C3设置为40~100个保留时间采样间隔,阈值C4设置为区间[0.1,0.2]内的数值。本发明采用的局部搜索技术和局部筛峰阈值方法,将前两步所选色谱峰进行局部搜索和比对(相对保留时间),以进一步排除一些“不合理”的峰。相比整体比对排除,该方法所采用的局域策略,能有效保留重要的小峰。
[0010] 本发明提出的色谱峰选择方法:首先,全面考虑色谱矩阵数据,考虑所有m/z随保留时间的变化趋势,定位所有峰值,进而计算各峰处的加权成峰指数,进行第一轮筛选;然后,利用峰周围的典型数据,考察各峰处的变异系数,进行第二轮筛选;最后,利用局部搜索技术和局部筛峰阈值方法对各峰进行第三轮筛选,形成最终的峰选择状态。
[0011] 本发明提出的色谱峰选择方法包括如下具体步骤:
[0012] 1.对色谱数据进行适当的预处理,如去噪、平滑、保留时间校正等;
[0013] 2.计算加权成峰指数;加权成峰指数是对成峰有贡献的相对丰度总和与所有相对丰度总和的比值(如图1所示);具体计算时,首先设置一个与保留时间采样点数等长的向量ω,用于记录加权成峰指数,并将其初始化为零向量;其次,对色谱图中的任意m/z,考虑其在保留时间方向的变化曲线x,对该曲线进行递增和递减趋势分析,获得若干峰顶;然后根据峰顶位置更新向量ω相应位置的值,例如,若时间t处为峰顶,则:
[0014]
[0015] 其中,T为总离子流向量;所有m/z曲线按上述过程遍历完成后,加权成峰指数向量ω便计算完成;最后,设定阈值C1,选择所有满足ω(t)>C1的t组成初选峰列表P0;
[0016] 3.对列表P0中所存的每一个时间点t,首先找到该点处取值最大的若干条(一般3-5条)m/z曲线,然后对所选的每条m/z曲线,从t点出发向左侧搜索峰的起点,向右侧搜索峰的终点;选择计算所得的若干起点的最左侧起点作为最终的起点,选择计算所得的若干终点的最右侧终点作为最终终点;最后截取总离子流向量在最终起点和最终终点之间的丰度数据,计算其变异系数(算数平均值与标准差的比值),若变异系数低于某阈值C2,则认为该峰并未达到成峰条件,将所考虑的时间点t从列表P0中删除;
[0017] 4.对列表P0中的每一个时间点t,考虑所有距离该点小于C3个时间单位并含于P0中的时间点,获取这些时间点对应丰度值并计算其算术平均值m。设定阈值C4,若点处的丰度值满足ω(t)>C4m,则将时间点加入列表P1。
[0018] 5.以上所有计算完成后,列表P1即最终峰选择结果,其中每个时间点代表相应峰顶的位置。
[0019] 相对现有技术,本发明的技术方案带来的有益效果:
[0020] 相对于传统算法,本发明的色谱峰选择方案主要表现出几方面的改进:
[0021] 其一,加权成峰指数的计算考虑了所有m/z曲线的加权贡献。一方面,任意单条m/z曲线结构较为简单,不存在共流出峰等问题,仅使用零阶方法(无须计算一阶或高阶导数)即可有效寻峰;另一方面,加权求和的思想可有效克服单一曲线计算的噪声敏感性。该方法的另一重要优势是,可定位包埋在总离子流曲线单峰中的若干小峰,为共流出峰解析提供了一种辅助手段。
[0022] 其二,使用变异系数阈值法筛峰,可有效筛除加权成峰指数计算中得到的平坦峰。相比传统算法,将成峰强度与峰形判别分开考虑,可有效避免若干复杂计算,如窗口宽度设置、高阶导数计算等。另外,变异系数是一个无量纲指标,可自动适应各种尺度的数据。
[0023] 其三,局部搜索与局部筛峰阈值方法是对变异系数法的有效补充,主要考虑了峰强度的绝对大小对成峰的贡献。局部方法仅考虑峰周围的状态,而非与整体色谱数据进行对比。该方法与人类的思路更加吻合,可有效避免局部状态对整体结果造成不稳定性影响,提高算法的适应性。
[0024] 其四,对全自动系统,本发明所提方法基本上满足峰选择要求;对交互式系统,用户往往只需通过微调自动计算结果即可获得满意的峰选择方案。

附图说明

[0025] 【图1】为加权成峰指数示意图,其中S2为对成峰有贡献的相对丰度总和,S1为对成峰没有贡献的相对丰度总和,S1+S2为所有相对丰度总和。
[0026] 【图2】为峰选择计算过程实验图。
[0027] 【图3】为包埋峰解析实验图。

具体实施方式

[0028] 以下实施例旨在进一步说明本发明内容,而不是限制本发明权利要求的保护范围。
[0029] 本发明使用Python编程语言实现了所提算法,算法实现部分主要选用了Numpy和Pandas等函数库,可视化部分使用了Matplotlib绘图函数库。
[0030] 为验证本发明所提算法,将香精香料中常见的38种化合物配置为混合物,经GC-MS仪器分析,获得测试数据。
[0031] 以下所有实施例中,算法的参数设置为,C1=0.4,C2=0.6,C3=40,C4=0.1。一般情况下,该默认参数设置可使得算法工作良好。交互式工作环境中,用户可实时地对这些参数进行微调,以期达到更好的选峰结果。
[0032] 实施例1
[0033] 峰选择过程分析:
[0034] 本实施例分析本发明所提算法的计算过程,如图1所示。
[0035] 1)图2的上图为经历加权成峰指数计算后的峰选择结果。从图中可见,所有色谱峰已入选,但仍有许多平坦区域和异常数据点被识别为峰。
[0036] 2)图2的中图为经历变异系数阈值法计算后的峰选择结果。经历该方法筛选后,许多平坦峰已从列表中删除。
[0037] 3)图2的下图为经历局部搜索与局部筛峰阈值后的峰选择结果。相比上一步,该步骤进一步通过局部比对进一步筛除不合理的色谱峰,如4.9min附近的大峰峰尾部分被中图误标记为色谱峰的小峰被有效地移除。
[0038] 实施例2
[0039] 包埋峰解析案例:
[0040] 本实施例给出一个包埋峰解析案例。如图3所示,在保留时间3.84min与3.85min处,两峰重叠较为严重。使用商业软件(安捷伦工作站)只能自动获得3.85min处的峰。本发明算法在逐m/z曲线计算完成后,定位到两个峰(分别在3.84min与3.85min处),经历后续变异系数阈值法、局部搜索与局部筛峰阈值法后,这两个峰仍然未被算法删除,都被认定为色谱峰。为进一步验证其实际意义,使用混合质谱分解方法对该两峰处进行定性,可算出在3.84min处可检出1-Hexanol,在3.85min处可检出5-Hepten-2-one,6-methyl-,与真实实验结果吻合。使用商业软件分析该色谱数据,会漏测1-Hexanol。