一种基于ToF-SIMS质谱数据的PCA分析方法转让专利

申请号 : CN202310763159.8

文献号 : CN117055853B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘敏周亚东贾恩东李晔黄晔何尔凯

申请人 : 华东师范大学

摘要 :

本发明公开了一种基于ToF‑SIMS质谱数据的PCA分析软件和使用方法,包括软件和使用方法;所述软件包括:SIMS质谱数据批量处理工作流程和PCA自动分析通过定制编写的Python脚本,涉及PCA分析领域。本申请的新软件包有一些非常明显的优势,首先它是免费的对所有人开放,包括它所的基于Python平台。再次就是本申请提供了详细的软件操作手册,使得本申请的新软件包简单易操作,零基础编程的使用者也可以轻松上手。更重要的是,本申请的新软件非常灵活,大多数导出文件的参数都可以根据用户的需要进行调整,本申请将人工智能/机器学习部分加入本申请的软件中来进一步提升软件的功能和实用性。

权利要求 :

1.一种基于ToF‑SIMS质谱数据的PCA分析方法,其特征在于,包括以下步骤:步骤S1:使用基于ToF‑SIMS质谱数据的PCA分析软件的Python软件包;其中,所述PCA分析软件包括:SIMS质谱数据批量处理工作流程和PCA自动分析通过定制编写的Python脚本,整个工作流程包括文件的输入和输出、与使用者的交互、数据预处理、主成分分析、可视化图像的绘制和度量的计算,输入的是原始的谱图的文本数据,其中包含所有峰值位置和峰值强度,输入文件需按照要求划分排列为不同的组,代表不同的样品组,输出的主成分分析结果,包括各主成分重要比例的柱状图、主成分作为提取特征的分数散点图、各主成分峰值的因子载荷图;

从规定格式的txt数据文件中自动读取质谱信息,并提取主成分,将提取出的前5个最重要主成分每两个相互组合并分别作为x轴和y轴,绘制分数散点图,同时对于提取出的前5个最重要主成分,程序将计算数值的平均中心值和方差,然后绘制一个90%置信区间;

步骤S2:气溶胶颗粒样品;

‑1

采用流速为16.7 L· min 的低流量PM2.5采样器采集环境中的气溶胶颗粒样品,采样前,将石英滤膜在450℃下预焙4小时,待滤膜取下后在室温下称重,所有烘烤过的滤膜在使用前都将密封在储存箱内,在六天的采样期内每天采集2份重复样本,采样时间为24 h,采样后,将滤膜烘干,后称重,放置于‑20℃的冰箱中保存直至表征分析;

步骤S3: ToF‑SIMS检测;

用环形切割器分别从每个石英滤膜中取出一个直径12.7 mm的区域用于ToF‑SIMS分

3+

析,ToF‑SIMS分析使用TOF‑SIMS5仪器,采用25kev Bi 离子束作为分析离子束,采集SIMS质

3+ 2

谱和图像,Bi 离子束聚焦直径为5 μm,扫描面积超过500×500μm,在脉冲频率为10 kHz的

3+

情况下,Bi 离子束流的电流为0.63 pA,每次频谱测试的数据采集时间为30s,总离子剂量在静态限制下,仅采集表面信息,在采集数据的同时,利用低能量电子喷枪在10 eV,1.0 μA‑8 电流条件下进行表面充电补偿,分析室压力为1×10 mbar,在每个样品上采集六个位置,即会产生六个正离子质谱和六个负离子质谱。

2.根据权利要求1所述的一种基于ToF‑SIMS质谱数据的PCA分析方法,其特征在于,所述Python脚本为pca7.py,可编辑的软件文件为Editable Files of Software.zip,Python脚本中使用的软件包包括:PANDAS (v0.23.4)、NUMPY (v1.15)、SCIKIT‑LEARN (v0.20.2)和MATPLOTLIB (v3.0.2)。

3.根据权利要求2所述的一种基于ToF‑SIMS质谱数据的PCA分析方法,其特征在于,所述步骤S1中的质谱信息为txt数据格式的信息。

4.根据权利要求3所述的一种基于ToF‑SIMS质谱数据的PCA分析方法,其特征在于,所述Python脚本的代码文件pca7.py是可编辑的。

说明书 :

一种基于ToF‑SIMS质谱数据的PCA分析方法

技术领域

[0001] 本发明PCA分析涉及领域,具体是一种基于ToF‑SIMS质谱数据的PCA分析方法。

背景技术

[0002] 众所周知空气污染是21世纪人类面临的最大环境挑战之一。由于经济和城市化的快速发展,许多发展中国家都经历了严重的空气污染。大气颗粒物(PM),又称气溶胶,是大气污染物中重要的复杂成分。特别是细颗粒物或PM2.5(空气动力直径小于2.5μm的PM),因其对人类健康、生态系统、能见度、天气和气候的严重影响而引起人们的关注。ToF‑SIMS作为一种非常有用的分析方法,利用其高灵敏度等优势应用于PM成分的检测。主成分分析法也一直被应用于气溶胶相关研究的数据处理中,这对于了解PM组成成分及其来源具有重要意义。
[0003] 飞行时间二次离子质谱(ToF‑SIMS)是一种功能强大的表面分析工具,具有许多独特的优点。首先,它可以同时提供元素、同位素和分子信息。其次,它的信息深度很浅(通常为1‑3nm),所以可以收集到特定于表面的信息。此外,它有极好的灵敏度(ppm级)和非常好的空间分辨率(亚微米级别)。虽然ToF‑SIMS功能强大,但它还没有被广泛使用。其中一个主要原因是数据分析方面比较具有挑战。ToF‑SIMS质谱数据非常复杂,每个质谱数据可能由数百个乃至上千个离子信号组成。主成分分析法(PCA)应用于ToF‑SIMS数据分析已有近20年的历史。PCA可以将大数据矩阵简化为描述数据中主要差异的几个关键变量的组合。它在区分和提取不同样品的化学信息,以及在解释ToF‑SIMS质谱数据方面展示出了其巨大的作用。
[0004] ToF‑SIMS软件在他们刚刚推出的最新的版本(version 7)中提供了PCA功能,但很多老用户需要支付高额费用升级软件才能获得PCA功能。同样的,另一个主要的ToF‑SIMS制造商公司所提供的质谱PCA分析软件服务也需要支付高昂的费用。因此,虽然主成分分析对于质谱分析帮助很大,但在ToF‑SIMS质谱分析中并没有得到非常广泛的应用。因此研究开发一款基于MATLAB语言编写的PCA分析软件非常必要。该软件包已被多个研究团队用于ToF‑SIMS质谱数据分析。例如在生物膜、气溶胶和土壤有机质的研究中使用了这种工具,在区分样品和提取有用的化学信息方面显示出了巨大的威力。但是它是基于MATLAB的软件构件,然而到目前为MATLAB仍然不是一个免费开放的平台。同时该软件的操作较为复杂,前期需要大量时间和精力对数据进行前处理工作,效率也很低。
[0005] 所以为了兼顾实用性和提高效率,需要使用python代码开发一个理想的计算工具。Python编程语言是免费和开源的,它已经成为主流编程语言之一。Python以其简单、简洁和模块化的方法而闻名,它在解释语言中已经成为最流行的动态编程语言之一,Python以其庞大而活跃的科学计算领域而流行起来。自21世纪初以来,在工业应用和学术研究中采用Python进行科学计算的情况显著增加。在应用与数据的分析和交互、探索性计算和数据可视化过程中,Python不可避免地会与许多其他广泛使用的开源或商业编程语言和工具进行比较,如R语言、MATLAB、SAS等。近年来,Python改进了对库的支持,使其成为数据操作任务的强大的替代工具。结合Python在通用编程方面的优势,作为ToF‑SIMS质谱分析的编程语言,它是一个很好的选择。
[0006] 到目前为止,随着计算机能力和算法的不断发展,用数学方法对ToF‑SIMS光谱进行主成分分析已不是难事。事实上在ToF‑SIMS领域,如何方便地从PCA分析结果中提取有用的、简明的化学信息是对普通用户的一个巨大挑战。因此如果能够自动生成一系列非常理想的PCA分析结果图形和表格,那么对于普通的ToF‑SIMS用户来说,将会更好地帮助其理解样品之间的化学成分差异。那么这种诉求使用Python平台很容易实现。
[0007] 在本申请中开发了一个基于python的免费的软件包,并成功地使用它从一组气溶胶样本中提取出有用的、简明的化学信息。结果表明,该软件不仅是免费的,而且对用户来说省时简单易上手,具有较高的灵活性。本申请期望该软件包将广泛应用于ToF‑SIMS质谱数据分析的各个研究领域。本申请将新软件应用于大气颗粒物样品的研究为例来阐述本软件的功能及优点。

发明内容

[0008] 本发明的目的在于提供一种基于ToF‑SIMS质谱数据的PCA分析软件和使用方法,基于以上国内外对于场地环境有机物运移模拟的研究进展,可以发现以往研究往往对有机物某单一相态关注较多,缺少对不同相态有机物的耦合数值模拟;此外,通过数值模拟仿真在产及停产场地环境中的有机物运移情况,将对之后的环境监测和修复治理提供科学支撑,具有相当大的应用性和实用性。
[0009] 为实现上述目的,本发明提供如下技术方案:
[0010] 一种基于ToF‑SIMS质谱数据的PCA分析软件,所述软件包括:SIMS质谱数据批量处理工作流程和PCA自动分析通过定制编写的Python脚本,整个工作流程包括文件的输入和输出、与使用者的交互、数据预处理、主成分分析、可视化图像的绘制和度量的计算,输入的是原始的谱图的文本数据,其中包含所有峰值位置和峰值强度,输入文件需按照要求划分排列为不同的组,代表不同的样品组,输出的主成分分析结果,包括各主成分重要比例的柱状图、主成分作为提取特征的分数散点图、各主成分峰值的因子载荷图。
[0011] 一种基于ToF‑SIMS质谱数据的PCA分析软件的使用方法,
[0012] 所述使用方法包括步骤S1、步骤S2和步骤S3,
[0013] 步骤S1:使用用于ToF‑SIMS质谱数据PCA分析的Python软件包;
[0014] 从规定格式的txt数据文件中自动读取质谱信息,并提取主成分,将提取出的前5个最重要主成分每两个相互组合并分别作为x轴和y轴,绘制分数散点图,同时对于每一个单独的数据组,程序将计算数值的平均中心值和方差,然后绘制一个90%置信区间,结合新模式采集的分数和载荷图;
[0015] 步骤S2:气溶胶颗粒样品;
[0016] 在气溶胶颗粒样品采样过程中获取PM2.5样品,采用流速为16.7L·min‑1的低流量PM2.5采样器,在环境条件下,将石英滤膜在450℃下预焙4小时,待滤膜取下后在室温下称重,所有烘烤过的滤膜在使用前都将密封在储存箱内,在六天的采样期内每天采集2份重复样本,采样时间为24h,采样后,将滤膜烘干,后称重,放置于‑20℃的冰箱中保存直至表征分析;
[0017] 步骤S3:ToF‑SIMS检测;
[0018] 用环形切割器分别从每个石英过滤膜中取出一个直径12.7mm的区域用于ToF‑SIMS分析,ToF‑SIMS分析使用TOF‑SIMS5仪器,采用25kev Bi3+离子束作为分析离子束,采集SIMS质谱和图像,Bi3+离子束聚焦直径约为5μm,扫描面积超过500×500μm2,在脉冲频率为10kHz的情况下,Bi3+离子束流的电流约为0.63pA,每次频谱测试的数据采集时间为30s,总离子剂量在静态限制下,仅采集表面信息,在采集数据的同时,利用低能量电子喷枪在‑810eV,~1.0μA电流条件下进行表面充电补偿,分析室压力约为1×10 mbar,在每个样品上采集六个位置,即会产生六个正离子质谱和六个负离子质谱。
[0019] 进一步的,所述Python脚本为pca7.py,可编辑的软件文件为Editable Files of Software.zip,,脚本中使用的软件包包括:PANDAS(v0.23.4)、NUMPY(v1.15)、SCIKIT‑LEARN(v0.20.2)和MATPLOTLIB(v3.0.2)。
[0020] 更进一步的,所述步骤S1中的质谱信息为txt数据格式的信息。
[0021] 更进一步的,所述Python代码文件pca7.py是可编辑的。
[0022] 与现有技术相比,本发明的有益效果是:
[0023] 本申请的新软件包有一些非常明显的优势,首先它是免费的对所有人开放,包括它所的基于Python平台。再次就是本申请提供了详细的软件操作手册,使得本申请的新软件包简单易操作,零基础编程的使用者也可以轻松上手。更重要的是,本申请的新软件非常灵活,大多数导出文件的参数都可以根据用户的需要进行调整。未来本申请将人工智能/机器学习部分加入本申请的软件中来进一步提升软件的功能和实用性。

附图说明

[0024] 图1为本发明气溶胶样品的代表性ToF‑SIMS正离子谱图。4.05、4.06、4.07、4.08、4.09、4.10为采样日期(2020年4月05日、4月06日、4月07日、4月08日、4月09日、4月10日);
[0025] 图1显示了从石英纤维滤膜上收集的气溶胶颗粒样品中几个具有代表性的正离子质谱,可以看到空白滤膜样品的质谱与带有气溶胶颗粒的滤膜样品的质谱有很大的不同,但气溶胶‑滤膜样品的质谱相互之间的相似度较高,想要直接在这些样品数据中提取化学差异有些困难,因此,采用一些先进的数据分析工具帮助分析数据就尤为重要;
[0026] 图2为本发明气溶胶样品的ToF‑SIMS正离子质谱的双主成分PCA分数图。(a)‑(j)为10个由PC1、PC2、PC3、PC4、PC5的全部相互组合的双主成分PCA分数图,含有90%置信区间;(k)含有95%置信区间的PC1 vs PC3分数图;(l)不含置信区间的PC1 vs PC3分数图;
[0027] 图3为本发明两个具有代表性的载荷图,显示气溶胶样品之间的化学差异,其中:(a)PC1载荷图、(b)PC3载荷图。

具体实施方式

[0028] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0029] 请参阅图1‑3,本发明实施例中,一种基于ToF‑SIMS质谱数据的PCA分析软件和使用方法,包括软件和使用方法:所述软件包括:SIMS质谱数据批量处理工作流程和PCA自动分析通过定制编写的Python脚本(pca7.py,可在支持信息,文件S2中获得)。可编辑的软件文件(Editable Files of Software.zip),在一个名为WINPYTHON的免费、开源和可移植的基于python的科学环境中,脚本中使用的软件包包括:PANDAS(v0.23.4)、NUMPY(v1.15)、SCIKIT‑LEARN(v0.20.2)和MATPLOTLIB(v3.0.2)。整个工作流程包括文件的输入和输出、与使用者的交互、数据预处理、主成分分析、可视化图像的绘制和度量的计算。输入的是原始的谱图的文本数据,其中包含所有峰值位置和峰值强度。输入文件需按照要求划分排列为不同的组,代表不同的样品组。输出的主成分分析结果,包括各主成分重要比例的柱状图、主成分作为提取特征的分数散点图、各主成分峰值的因子载荷图。Python软件包下载和安装的详细信息见本申请的操作手册(文件S1。操作手册.docx,可在支持信息中找到)。
[0030] 所述方法包括步骤S1、步骤S2和步骤S3,
[0031] 步骤S1:使用用于ToF‑SIMS质谱数据PCA分析的Python软件包;
[0032] 可编程从规定格式的txt数据文件中自动读取质谱信息(txt数据格式的详细信息见本申请的操作手册),并提取主成分。将提取出的前5个最重要主成分每两个相互组合并分别作为x轴和y轴,绘制分数散点图,同时对于每一个单独的数据组,程序将计算数值的平均中心值和方差,然后绘制一个90%置信区间。结合新模式采集的分数和载荷图,可以发现不同样本之间的组成成分差别的更深层信息。因此,该方法对于同时有多个样本组进行PCA分析的情况更方便、更新颖,可以在SIMS检测后立即得到结果。然而,这项技术还需要研究人员简单地总结并判断解释所得到的结果。
[0033] 同时需要说明的是,本申请提供的Python代码文件pca7.py是可编辑的,因此许多参数,如置信区间(90%或95%),PC的分数和载荷图中显示的很多相关的参数,都可以很容易地按照意愿进行调整。详细信息可以在本申请的操作手册中得到。
[0034] 步骤S2:气溶胶颗粒样品;
[0035] 气溶胶颗粒样品的常规试验检测中,PM2.5样品采用流速为16.7L·min‑1的低流量PM2.5采样器,取样器在环境条件下。将石英滤膜在450℃下预焙4小时,待滤膜取下后在室温下称重。所有烘烤过的滤膜在使用前都将密封在储存箱内。2020年4月05至10日,每天采集2份重复样本,采样时间为24h。采样后,将滤膜烘干,后称重,放置于‑20℃的冰箱中保存直至表征分析。
[0036] 步骤S3:ToF‑SIMS检测;
[0037] 用环形切割器分别从每个石英过滤膜中取出一个直径12.7mm的区域用于ToF‑SIMS分析。ToF‑SIMS分析使用TOF‑SIMS5仪器(IONTOF GmbH, 德国)。采用25kev Bi3+离子束作为分析离子束,采集SIMS质谱和图像。Bi3+离子束聚焦直径约为5μm,扫描面2
积超过500×500μm。在脉冲频率为10kHz的情况下,Bi3+离子束流的电流约为0.63pA,每次频谱测试的数据采集时间为30s。总离子剂量在静态限制下,仅采集表面信息(<2nm)。在采集数据的同时,利用低能量电子喷枪(10eV,~1.0μA电流)进行表面充电补偿。分析室压力约为1×10‑8mbar。在每个样品上采集六个位置,即会产生六个正离子质谱和六个负离子质谱。
[0038] 作为本发明再进一步的方案:所述Python脚本为(pca7.py,可在支持信息,文件S2中获得),可编辑的软件文件(Editable Files of Software.zip),在一个名为WINPYTHON的免费、开源和可移植的基于python的科学环境中(v3.6.7.0,https://winpython.github.io/),脚本中使用的软件包包括:PANDAS(v0.23.4)、NUMPY(v1.15)、SCIKIT‑LEARN(v0.20.2)和MATPLOTLIB(v3.0.2)。
[0039] 作为本发明再进一步的方案:所述Python软件包下载和安装的详细信息见操作手册(文件S1,操作手册.docx,可在支持信息中找到)。
[0040] 作为本发明再进一步的方案:所述步骤SI中的质谱信息为txt数据格式的信息,详见操作手册。
[0041] 作为本发明再进一步的方案:所述Python代码文件pca7.py是可编辑的,因此参数如置信区间(90%或95%),PC的分数和载荷图中显示的很多相关的参数,都可以很容易地按照意愿进行调整,详见操作手册。
[0042] 图1显示了从石英纤维滤膜上收集的气溶胶颗粒样品中几个具有代表性的正离子质谱。本申请可以看到空白滤膜样品的质谱与带有气溶胶颗粒的滤膜样品的质谱有很大的不同。但气溶胶‑滤膜样品的质谱相互之间的相似度较高,想要直接在这些样品数据中提取化学差异有些困难。因此,采用一些先进的数据分析工具帮助分析数据就尤为重要,[0043] 实施例一:
[0044]
[0045] 表1.PCA软件分析后输出的数据文件列表
[0046] 表1列出了本申请的PCA分析软件可输出的所有文件:5张从主成分1(PC1)至主成分5(PC5)单主成分分数图,10张包含PC1至PC5相互组合的双主成分分数图(不含置信区间),10张包含PC1至PC5相互组合的双主成分分数图(包含90%的置信区间),5张PC1至PC5单独的载荷图,5张PC1至PC5载荷前20的峰值表(分别包含了该主成分的正载荷和负载荷各前10位),1张包含PC1至PC5的全质谱的载荷表,1张包含PC1至PC5的分数表,1张包含PC1至PC10“解释方差的百分比”的柱状图,1张包含PC1至PC10“解释方差的百分比”的表。
[0047] 使用PCA分数图可视化样本差异。使用PCA分析ToF‑SIMS质谱数据的主要目的是更有效地提取样品之间的化学成分差异,并以更生动的方式将结果展示出来。在PCA分析中,分数图通常用来区分样本。在理想的情况下,单一PC1分数图就可以很好地区分样本,因为它贡献了大部分的解释方差。由于前5个PC贡献了被解释方差的主要百分比(例如,本工作中总共99.28%),因此软件输出的内容中包含了相应的5个单PC分数图。但在大多数情况下,二维或更多维的组合可以更好地分离样本,其中目前最常使用就是二维主成分分数图。当然,要预测哪个组合是解释质谱数据的最佳组合可能并不容易。因此,本软件包中显示了PC1、PC2、PC3、PC4和PC5的10种相互的二维组合,用户可以从中选择最理想的组合。这是一个非常有用功能,在其他PCA分析软件包中很少出现。图2显示了一个例子,显示了PC1‑PC5的10种组合的分数图,其置信区间为90%。需要注意的是,如果用户想要从这10个二维分数图中选择合理的组合分数图,需要对样本进行一些基本的信息了解和预判。例如,在本工作中,空白样品的数据点应该与其他样品分离。而另一个预判是严重污染样品之间的成分应该相似,轻污染样品之间的成分也应该相似。相关的体相分析数据提供了不同样品的污染程度的信息。根据这一信息,本申请可以看到PC1 vs PC3分数图的组合是最贴合实际体相数据的一个,所以本申请选择它来进行进一步的分析。
[0048] 样品的均匀性,即样品表面质谱的重复性,也是ToF‑SIMS质谱分析中的一个重要参数。在双主成分分数图中,也可以清晰的显示出样品自身的均匀性。例如,在这项工作中,对每个样品进行了6次检测,并绘制90%的置信区间来显示样品的可重复性。本申请可以看到PC1 vs PC3分数图中的所有的置信区间的范围都很小,样本与样本之间的差异也可以明显区分开,这种情况说明样品的均匀性是相当好的。那么在这样的情况下,其实使用较少的检测次数,比如对每个样品进行4次检测可能就足够了。作为比较,可以看到在某些主成分的组合中,则样本的重复性相对较差,例如PC4 vs PC5的分数图。如果这种组合是本申请感兴趣的,本申请可能需要对每个样品进行更多次的检测来进行进一步的确认。在这里,本申请可以看到PCA分析的其中一个优点:它可以直观的看到样本间的差异和样本中检测的重复性,而如果直接比较质谱数,就无法直观的得到这些信息。
[0049] 使用PCA载荷图提取样品之间的化学差异。分数图可以将样品之间的差异可视化,而了解详细的化学组分差异则更加重要。这些信息可以在相应的荷载图中找到。值得注意的是,在这种分析中,最常用的策略是样本与样本的比较或组与组之间的相互比较。例如,在PC1 vs PC3的分数图中,本申请可以看到空白样本和气溶胶样本的主要区别是,气溶胶样本PC1的分数要相对低得多。为了得到相应的化学差异,本申请需要查看PC1的载荷图。本申请的软件包可直接提供PC1到PC5的载荷图和载荷表,每个PC的前20个载荷(前10个正载荷和前10个负载荷)都会在输出的excel文件中列出。这样的功能可以非常方便和帮助普通用户进行PCA分析。图3a显示了PC1载荷图,为了方便用户使用,本申请在载荷图中标出了前5个正载荷和前5个负载荷。从图中可以看到排名前五的正载荷分别为m/z 28、m/z 45、m/z 
23、m/z 73、m/z 62,排名前五的负载荷分别为m/z 39、m/z 43、m/z 41、m/z 57、m/z 55。由于主成分分析采用的是单位质谱,这些载荷的实际峰值的确认还需在原始的高质量分辨率质谱中进行。准确测得的m/z值如表2所示,从表2中可以看出,PC1正向载荷前5位分别为Si+、SiOH+、Na+、SiC3H9+、Na2O+,而PC1负载荷前5位分别为K+、C3H7+、C3H5+、C4H9+、C4H7+。通过PC1的载荷图可看出,空白样品具有较多的硅和钠的相关物质,气溶胶样品则具有较多的钾和烃类相关的物质。这是非常合理的,因为空白样品是石英纤维,纤维表面则可能会存在一些Na+污染的情况(如图1Blank所示),而钾和碳氢化合物则是气溶胶颗粒重要的组成成分。
[0050] 本申请可以看到PCA分析的另一个主要优点是简化数据分析过程。首先,本申请可以专注于影响较大的强载荷,避免耗费精力逐个分析质谱中的数百个峰。然后本申请就可以将化学性质相似的信号进行分组,例如PC1正载荷中和硅相关的信号和PC1负载荷中的烃类信号,可进一步节省数据分析时间。图中可以看出重污染样本和轻污染样本的主要区别是PC3的分数。轻污染样品PC3的分数较低,重污染样品PC3的分数较高。PC3正载荷的前5位分别为m/z 108、m/z 92、m/z63、m/z 55、m/z 62,负载荷的前5位分别为m/z 39、m/z 73、m/z 18、m/z 74、m/z 59。在原始的高质量分辨谱中,PC3的前5个的正载荷分别是Na2NO3+、Na2NO2+、Na2OH+、C4H7+和Na2O+,而PC3的前5个的正离子载荷分别是K+、SiC3H9+、NH4+、C3H8NO+和C2H5NO+。PC3载荷图显示重污染样品中有更多的NaNO3相关物质,而轻污染样品中有更多的钾和有机氮相关物质。这个结果是非常有意思的,因为(NH4)2SO4和NH4NO3等铵的化合物通常被认为是中国重污染事件中的主要污染成分,而不是本申请得到的NaNO3。所以通过查阅科研文献本申请发现,本申请发现很多报道说明了上海周围的大气颗粒物的主要污染来源是汽车尾气的排放,而不是像中国北方一样主要来自煤炭燃烧的污染;而氮氧化物则主要来源于汽车尾气的排放。上海是一座沿海城市,离海非常近,来源于海洋中的海盐(主要是NaCl)气溶胶粒子也是影响上海城市中的大气颗粒物的重要来源,同时本申请发现有科研报道显示NaCl海盐颗粒在含有NOx的环境中老化后可以形成NaCl核和NaNO3壳的结构。因此本申请推断海盐中的钠则是形成NaNO3中钠的主要来源。所以NaNO3的增加可能是上海大气污染案例的一个典型特征。而以上的这些数据结论本申请可以通过ToF‑SIMS质谱和主成分分析的结合使用很容易的提取出来。
[0051] 实施例二
[0052]
[0053]
[0054] *在原始的高质量分辨率质谱中确定
[0055] 表2.PC1的前20个载荷(前10个正载荷和前10个负载荷)实施例三
[0056]
[0057] 表3.PC3的前20个载荷(前10个正载荷和前10个负载荷)实施例四
[0058]
[0059] 表4.用于ToF‑SIMS质谱数据分析的PCA软件包的比较
[0060] 本申请的软件包的其中一个优点是用户友好和操作简单。并附有一本简短的操作手册,很容易理解。应该指出的是,本申请的新软件包最重要的优势是它的灵活性,由于其基于强大的Python平台。例如,一些科学家更喜欢在他们的双主成分分数图中使用95%置信区间。在本申请的软件中,本申请可以进入pca7.py,第136行,将值1.645更改为1.960,即可得到具有95%置信区间的双主成分分数图(如图2k)。另外,在当前版本中,只有PC1到PC5的分数图和载荷图可用。实际上,很容易按照本申请的操作手册中的注3来更改pca7.py中的参数来获得更多的主成分的分数和载荷数据文件。此外,Python提供了强大的绘图功能,因此不仅可以很容易地对目前有的图得参数,比如图大小、载荷线颜色、厚度、线等进行调整;也可以进行更加复杂的图形绘制,如含有三个主成分的分数图,如有需要后期也可以很轻松地将该功能添加进去。
[0061] 本申请的新软件包的另一个值得注意的优势是具有使用AI机器学习兼容性。这样的特性非常重要。因为事实上,如本申请前文中提到的不少软件包也都可以进行PCA分析质谱数据,同时获得主成分分析的结果。然而数据分析的关键问题和目的是如何解释PCA数据的结果,到目前为止,完成数据解释判断峰位主要还是基于科研人员及专家的个人经验。AI机器学习功能不仅可以将用户已有的经验整合到软件包中,还可以在使用过程中生成新的经验来进一步解读PCA数据结果。该函数将极大地促进PCA分析在质谱领域的应用。目前传统的统计和机器学习工具包,如NumPy,SciPy,Scikit‑learn已经在Python中提供,这些工具包的出现让AI机器学习可以适用于绝大多数的场景,无论是在学术界还是在工业界。Python语言的通用性使得其在科学研究中被广泛采用。同时深度学习工具包,如PyTorch,TensorFlow等提供了更复杂的模型来学习科研工作者的经验。所以本申请的下一步开发重点是将这些人工智能机器学习包集成到本申请当前的软件包中。本申请将使用科研专家的经验来指导算法从数据中自动构建、训练、学习和推理。
[0062] 在本工作中,本申请设计了一个新的基于Python的软件包来进行ToF‑SIMS质谱的PCA分析。为了展示本申请的新软件的优点,本申请使用了一组气溶胶数据作为模型系统。经过本申请的软件包分析输出了39个数据文件。这些文件,特别是10个双主成分分数图,提供了一个非常有用的概述,因此可以方便地从这些可视化的图中找到最佳的区分样本之间差异的分数图。此外文件中还包含了PC1‑PC5的载荷图,每个PC的载荷都包含其前20个载荷(前10个正载荷,前10个负载荷),因此用来分析样本间具体的化学成分的差异非常方便。与其他可用的软件包相比,本申请的新软件包有一些非常明显的优势,首先它是免费的对所有人开放,包括它所的基于Python平台。再次就是本申请提供了详细的软件操作手册,使得本申请的新软件包简单易操作,零基础编程的使用者也可以轻松上手。更重要的是,本申请的新软件非常灵活,大多数导出文件的参数都可以根据用户的需要进行调整。未来本申请将人工智能/机器学习部分加入本申请的软件中来进一步提升软件的功能和实用性。
[0063] 以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。