基于ctDNA长度的分析方法和系统转让专利

申请号 : CN202111513450.7

文献号 : CN113903401B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨顺莉于佳宁张亚晰刘异倩李宇龙陈维之何骥杜波

申请人 : 臻和(北京)生物科技有限公司臻和精准医学检验实验室无锡有限公司无锡臻和生物科技有限公司

摘要 :

本发明提供了一种基于ctDNA长度的分析方法和系统,其中,分析方法中包括:基于NGS平台对待检测血浆样本进行低深度的全基因组测序;采用预先选定大小的窗口对全基因组区间进行划分,并对各窗口内短插入片段和长插入片段的数量比值ratio进行计算,短插入片段的数量据预先设定的短插入片段区间阈值统计得到,长插入片段的数量根据预先设定的长插入片段区间阈值统计得到;由统计得到的数量比值ratio使用预先训练的ctDNA长度分析模型得到待检测血浆样本的评分,进而根据评分对待检测血浆样本进行分析。该方法能够对待检测血浆样本的cfDNA长度进行精确分析,为后续应用提供部分依据。

权利要求 :

1.一种基于ctDNA长度的分析系统,其特征在于,包括:NGS平台,用于对待检测血浆样本进行低深度的全基因组测序;

数据处理终端,包括相互连接的计算模块和分析模块,其中,计算模块,用于采用预先选定大小的窗口对全基因组区间进行划分,并对各窗口内短插入片段和长插入片段的数量比值ratio进行计算,所述短插入片段的数量据预先设定的短插入片段区间阈值统计得到,长插入片段的数量根据预先设定的长插入片段区间阈值统计得到;

分析模块,用于由统计得到的数量比值ratio根据预先训练的ctDNA长度分析模型得到所述待检测血浆样本的评分,进而根据所述评分对待检测血浆样本进行分析;

所述NGS平台还用于分别对健康人血浆样本和肿瘤血浆样本进行低深度的全基因组测序得到FASTQ文件,所述健康人血浆样本和肿瘤血浆样本中的cfDNA携带有预先接入的分子标签;

所述数据处理终端中还包括阈值设定模块,包括:数据质控单元,用于对所述FASTQ文件进行数据质控,包括去除cfDNA携带的分子标签;

统计单元,用于对数据质控后的插入片段大小进行统计;

分析单元,用于对统计的片段大小进行累计概率密度分析,及比较不同长度的插入片段健康人血浆样本和肿瘤血浆样本之间的差异显著性;

片段区间阈值设定单元,用于由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长插入片段区间阈值进行选定。

2.如权利要求1所述的基于ctDNA长度的分析系统,其特征在于,阈值设定模块还用于根据不同测序深度下的采样样本与原始血浆样本之间的相关性对测序深度进行设定及基于短插入片段数量、长插入片段数量及其数量比值ratio对窗口大小进行设定。

3.如权利要求2所述的基于ctDNA长度的分析系统,其特征在于,所述数据处理终端还包括ctDNA长度分析模型训练模块,用于由选定窗口大小健康人血浆样本和肿瘤血浆样本之间的差异程度对创建的ctDNA长度分析模型进行训练,得到各窗口的权重并输出各血浆样本的评分。

说明书 :

基于ctDNA长度的分析方法和系统

技术领域

[0001] 本发明涉及生物医学技术领域,尤其涉及一种基于ctDNA长度的分析方法和系统。

背景技术

[0002] 根据《美国医学会杂志》报道,全球发病率排在前10位的癌症分别为:非黑素瘤皮肤癌、肺癌、乳腺癌、结直肠癌、前列腺癌、胃癌、肝癌、宫颈癌、非霍奇金淋巴瘤和膀胱癌。全
球死亡率排在前10位的癌症分别为:肺癌、结直肠癌、胃癌、肝癌、乳腺癌、胰腺癌、食管癌、
前列腺癌、宫颈癌和非霍奇金淋巴瘤。而全世界人类癌症的大部分发病率和死亡率都是由
于治疗干预效果较差而导致的晚期诊断。不幸的是,临床证明可用于诊断和治疗患者的生
物标志物并不广泛。而在平均风险人群中进行常规筛查,将有助于早期发现癌症,并大大降
低癌症的发病率和死亡率,并且早期鉴别致命性癌症和非致命性疾病将减少过度诊断,而
这两种医疗需求都要求具有超高特异度(>99%)和高灵敏度的非侵入性生物标志物,现如今
临床上紧迫需要新的肿瘤分子诊断工具。
[0003] 最近对循环游离细胞DNA(cfDNA)的分析表明,利用肿瘤特异性改变的方法可能为早期诊断提供新的机会。循环游离细胞DNA(cfDNA)即存在与血浆、尿液和其他体液中的DNA
片段。传统的抽样方法如穿刺活组织切片除了具有创伤性,还难以获得足够多且高质量的
样本用于基因组分析。疾病的检测和监测往往依赖于体内的流体标记物,而成像检测往往
会使患者暴露于电离辐射中,并且这种方法无论在时间还是在空间上的分辨率都是有限
的。cfDNA无须有创肿瘤活检,而是从常规抽血中分析来自肿瘤的DNA,这一能力代表了潜在
转化性临床应用的一个关键进展。特别是cfDNA分析属于微创,为活检困难或不安全的肿瘤
提供了便利,并提供了一种能够随时间推移连续监测肿瘤DNA的实用方法,而没有标准肿瘤
活检的风险和潜在并发症。近年来循环无细胞DNA(cfDNA)的研究进展表明,利用肿瘤特异
性的遗传和表观遗传改变(如突变、拷贝数变异和DNA甲基化)进行肿瘤诊断是一种很有前
途的非侵入性方法。同时,随着精准医学时代的到来,越来越多的研究者和临床医生将基于
cfDNA的液体活检技术应用于肿瘤的早期筛查、治疗监测、预后评估等多个方面。
[0004] 对ctDNA的研究可推断出:突变(Mutations)、拷贝数变异(Copy number alterations)、表观遗传学的改变(Epigenetic alterations)、基因融合(Fusion genes)
等方法。然而,通过全基因组测序(WGS)鉴定出的肿瘤特异性改变在早期癌症患者中的数量
很少,也很难被检测到。此外,在cfDNA中存在克隆性造血相关的变异,其与癌症无关。亚硫
酸氢钠处理DNA甲基化引起的序列降解会降低检测的灵敏度。这些局限性给利用遗传和表
观遗传变异进行早期诊断带来了挑战。与数量有限的遗传性改变相比,插入片段在体内会
大量存在且容易被检测到,近年来许多研究表明ctDNA和cfDNA的片段长短存在差异,2016
年香港大学卢煜明教授的团队在Cell Press上发表了一篇综述,介绍了cfDNA长度的几种
分析方法:凝胶电泳、qPCR(实时荧光定量PCR)、显微镜、NGS(新一代测序)等,其中,凝胶电
泳的分辨率有限,不能用于区分和量化cfDNA的大小;qPCR方法只能应用于已知序列的限
制,不能适用于全基因组分析;电子显微镜在插入片段研究中非常耗费人力,耗时且通量
低;NGS使得数百万甚至数十亿cfDNA分子的大小测量成为可能,是以目前最为常用。目前采
用较多的是双末端测序法(paired‑end sequencing),在测序过程中,对于每个血浆DNA分
子,对分子的两端进行测序,然后与参考基因组比对,再使用每个末端最外层核苷酸的坐标
来推断分子的长度。与凝胶电泳或qPCR测定相比,NGS测序可在全基因组层面进行分析,不
仅通量高而且分析的精度高,可达单碱基的水平。
[0005] 现有许多研究表明,来自于肿瘤的ctDNA片段长度比非肿瘤来源的插入片段短;来自于胎儿的插入片段长度比孕妇的插入片段短;来自肝/骨髓移植和系统性红斑狼疮患者
的插入片段长度比正常人的插入片段短。另外,相关研究发现,来自于尿液中的插入片段平
均长度比血浆中插入片段短。通常健康个体的插入片段大小分布通常主要集中在167bp左
右,这与一个核小体及其连接(linker)组蛋白长度相一致。插入片段(frangment)模式,例
如覆盖度和大小,会随着癌症的发生而产生变化,且与克隆性造血无关。derived模式,如核
小体位置、转录起始点附近的模式、cfDNA末端位置以及在成千上万个碱基水平上的大规模
碎片化变化,提供了许多的肿瘤信号。另外,最近的许多研究也表明在癌症患者晚期短长度
的cfDNA比例会增加。

发明内容

[0006] 针对上述问题,本发明提供了一种基于ctDNA长度的分析方法和系统,对待检测血浆样本的cfDNA长度进行分析及分析,为后续应用提供部分依据。
[0007] 本发明提供的技术方案如下:
[0008] 一方面,本发明提供了一种基于ctDNA长度的分析方法,包括:
[0009] 基于NGS平台对待检测血浆样本进行低深度的全基因组测序;
[0010] 采用预先选定大小的窗口对全基因组区间进行划分,并对各窗口内短插入片段和长插入片段的数量比值ratio进行计算,所述短插入片段的数量据预先设定的短插入片段
区间阈值统计得到,长插入片段的数量根据预先设定的长插入片段区间阈值统计得到;
[0011] 由统计得到的数量比值ratio使用预先训练的ctDNA长度分析模型得到所述待检测血浆样本的评分,进而根据所述评分对待检测血浆样本进行分析。
[0012] 进一步优选地,所述基于ctDNA长度的分析方法还包括对短插入片段区间阈值和长插入片段区间阈值进行选定的步骤,包括:
[0013] 分别对健康人血浆样本和肿瘤血浆样本进行不同深度的全基因组测序得到FASTQ文件,所述健康人血浆样本和肿瘤血浆样本中的cfDNA携带有预先接入的分子标签;
[0014] 对所述FASTQ文件进行数据质控,包括去除cfDNA携带的分子标签;
[0015] 对数据质控后的插入片段大小进行统计;
[0016] 对统计的片段大小进行累计概率密度分析,及比较不同长度的插入片段健康人血浆样本和肿瘤血浆样本之间的差异显著性;
[0017] 由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长插入片段区间阈值进行选定。
[0018] 进一步优选地,所述对统计的片段大小进行累计概率密度分析,及比较不同长度的插入片段健康人血浆样本和肿瘤血浆样本之间的差异显著性之后,还包括根据不同测序
深度下的采样样本与原始血浆样本之间的相关性选定测序深度及基于短插入片段数量、长
插入片段数量及其数量比值ratio选定窗口大小的步骤。
[0019] 进一步优选地,对测序深度及窗口大小进行设定之后,还包括对ctDNA长度分析模型进行训练的步骤:
[0020] 创建ctDNA长度分析模型;
[0021] 由选定窗口大小健康人血浆样本和肿瘤血浆样本之间的差异程度对ctDNA长度分析模型进行训练,得到各窗口的权重并输出各血浆样本的评分。
[0022] 另一方面,本发明提供了一种基于ctDNA长度的分析系统,包括:
[0023] NGS平台,用于对待检测血浆样本进行低深度的全基因组测序;
[0024] 数据处理终端,包括相互连接的计算模块和分析模块,其中,
[0025] 计算模块,用于采用预先选定大小的窗口对全基因组区间进行划分,并对各窗口内短插入片段和长插入片段的数量比值ratio进行计算,所述短插入片段的数量据预先设
定的短插入片段区间阈值统计得到,长插入片段的数量根据预先设定的长插入片段区间阈
值统计得到;
[0026] 分析模块,用于由统计得到的数量比值ratio根据预先训练的ctDNA长度分析模型得到所述待检测血浆样本的评分,进而根据所述评分对待检测血浆样本进行分析。
[0027] 进一步优选地,所述NGS平台还用于分别对健康人血浆样本和肿瘤血浆样本进行一定深度的全基因组测序得到FASTQ文件,所述健康人血浆样本和肿瘤血浆样本中的cfDNA
携带有预先接入的分子标签;
[0028] 所述数据处理终端中还包括阈值设定模块,包括:
[0029] 数据质控单元,用于对所述FASTQ文件进行数据质控,包括去除cfDNA携带的分子标签;
[0030] 统计单元,用于对数据质控后的插入片段大小进行统计;
[0031] 分析单元,用于对统计的片段大小进行累计概率密度分析,及比较不同长度的插入片段健康人血浆样本和肿瘤血浆样本之间的差异显著性;
[0032] 片段区间阈值设定单元,用于由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长插入片段区间阈值。
[0033] 进一步优选地,阈值设定模块还用于根据不同测序深度下的采样样本与原始血浆样本之间的相关性对测序深度进行设定及基于短插入片段数量、长插入片段数量及其数量
比值ratio对窗口大小进行设定。
[0034] 进一步优选地,所述数据处理终端还包括ctDNA长度分析模型训练模块,用于由选定窗口大小健康人血浆样本和肿瘤血浆样本之间的差异程度对创建的ctDNA长度分析模型
进行训练,得到各窗口的权重并输出各血浆样本的评分。
[0035] 低深度本发明提供的基于ctDNA长度的分析方法和系统,通过选定适宜的短插入片段区间阈值、长插入片段区间阈值、窗口大小及测序深度对待检测样品进行测序,并根据
统计得到的数量比值ratio计算得到评分,进而根据该评分完成对待检测血浆样本cfDNA长
度的分析,该方法简单方便且精确度高,分析结果能够为后续区分待检测血浆样本是否来
源于癌症组织提供依据,尤其能够提高某些良性结节、早期癌症患者的检测灵敏度,从而有
效辅助癌症的早期诊断以及癌症的早期筛查,提高筛查效率和精度。

附图说明

[0036] 下面将以明确易懂的方式,结合附图说明优选实施方式,对上述特性、技术特征、优点及其实现方式予以进一步说明。
[0037] 图1为本发明中基于ctDNA长度的分析方法流程示意图;
[0038] 图2为本发明中健康人血浆样本和肿瘤血浆样本插入片段大小概率分布图;
[0039] 图3为本发明中累计概率密度分布图;
[0040] 图4为本发明中健康人血浆样本和肿瘤血浆样本统计检验的pvalue值分布图;
[0041] 图5为本发明中基于ctDNA长度的分析系统结构示意图;
[0042] 图6为本发明实例中ROC曲线图。
[0043] 附图标记:
[0044] 100‑基于ctDNA长度的分析系统,110‑NGS平台,120‑数据处理终端,121‑计算模块,122‑分析模块。

具体实施方式

[0045] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图,并获得其他的实施方式。
[0046] 本发明的第一种实施例,如图1所示,一种基于ctDNA长度的分析方法,包括:S10 基于NGS平台对待检测血浆样本进行低深度的全基因组测序;S20 采用预先选定大小的窗
口对全基因组区间进行划分,并对各窗口内短插入片段和长插入片段的数量比值ratio进
行计算,全基因组短插入片段的数量据预先设定的短插入片段区间阈值统计得到,长插入
片段的数量根据预先设定的长插入片段区间阈值统计得到;S30 由统计得到的数量比值
ratio使用预先训练的ctDNA长度分析模型得到全基因组待检测血浆样本的评分,进而根据
全基因组评分对待检测血浆样本进行分析。
[0047] 在本实施例中,在构建文库时通过连接接头引入4‑5NT的特异性分子标签(UMI)连接到cfDNA分子中,标记待检测血浆样本中的每个分子,对同一来源扩增产物进行追踪和最
终提取分组,测序过程中加入UMI的优点包括:1)UMI技术无需跟踪拷贝数,可达到区分来自
单个分子冗余的PCR重复序列,减少重复定量,屏蔽PCR偏好性,矫正测序错误等;2)相同UMI
标记的reads可进行相互矫正,对于测定的reads均会保留,而不会被当作背景噪音剔除,相
比常规建库方式得到的有效数据量增多;3)UMI技术降低了文库构建过程中的扩增及测序
错误引入的假阳性,在进行SNP、Indel的分析中获得的信息更为准确;4)对于UMI技术的建
库起始DNA量要求很低。
[0048] 基于此,基于NGS对待检测血浆样本进行全基因组测序(sWGS)之后,首先对测序数据进行预处理,将下机数据fastq文件进行数据质控,去掉不固定长度的UMI之后,基于bwa
软件与人类基因组(hg19)进行比对并对数据进行过滤,包括去重、去除多重比对的reads以
及只保留质量值大于30和常染色体的reads等。在一实例中,首先,识别read1和read2 5’端
的UMI序列(3NT&4NT序列)并切掉;之后调用Trimmomatic将每一对FASTQ文件都作为成对
(paired)reads进行去除低质量碱基处理,生成去接头后的FASTQ文件。具体,在切除接头序
列后,切去剩余部分开头和结尾处碱基质量低于20的碱基,从reads的5’端开始,以大小为5
的窗口进行划窗计算平均质量,如果窗口内平均碱基质量低于20,则切除该窗口,并要求切
除后剩余碱基数量超过75。之后,调用Bwa(一种比对方法软件,用于查找测序序列在基因参
考序列中的位置,可输出Bam格式结果文件)将每一对fastq文件作为成对reads与hg19人类
参考基因组序列进行比对去重,生成初始Bam文件和比对报告。之后,调用Samtools对初始
Bam文件按照染色体位置进行排序;接着,为了更准确的计算甲基化水平,调用BamUtil去除
成对reads之间的重叠区间。之后,调用Samtools中的view命令对去除了重叠区域的Bam文
件进行筛选,对比对质量(用于量化比对到错误位置的可能性,值越高表示可能性越低)进
行过滤,要求比对质量超过20,生成最终的Bam文件。最后,调用Samtools中的index模块对
最终生成的Bam文件建立索引,生成与标记重复后的Bam文件配对的bai文件。
[0049] 完成了预处理操作之后,采用预先选定大小的窗口对全基因组区间进行划分(划分规则可根据实际情况进行设定,例如将全基因组区间划分为504个5M的区间等),进而对
待检测样本进行插入片段大小分析,包括对插入片段大小进行统计,并根据统计结果对数
量比值ratio进行计算,以此预先训练的ctDNA长度分析模型根据得到的数量比值ratio输
出待检测血浆样本的评分,进而根据评分对待检测血浆样本进行分析。为了提高分析的准
确性,在计算得到对数量比值ratio之后,进一步对每个窗口内插入片段的数目进行GC校
正。对于ctDNA长度分析模型的输出结果,为ctDNA长度分析模型根据训练的权重(可通过卡
方检验方法得到)对各窗口进行加权平均得到的分值(score值),基于健康人血浆样本和肿
瘤血浆样本中cfDNA长度之间的差异,在后续诊断过程中,医生即能根据该值对待检测血浆
样本是否来源于癌症组织提供部分依据,为医生诊断提供一定的帮助,尤其是能够大大提
升某些良性结节、早期癌症患者的检测灵敏度,提高筛查效率和精度(分析方法为将计算得
到的score值与预先设定的阈值进行比较,当score值大于该阈值,判断待检测血浆样本可
能来源于癌症组织,其中,阈值具体根据实际应用中对于敏感性和特异性的要求进行选定,
这里不做具体限定)。在其他实施例中,ctDNA长度分析模型的输出结果还可以为待检测血
浆样本所属类别的概率,如来源为肿瘤患者的概率等。
[0050] 另外,该基于ctDNA长度的分析方法中还包括对短插入片段区间阈值、长插入片段区间阈值、窗口大小及测序深度进行选定的步骤,具体:
[0051] 在对短插入片段区间阈值和长插入片段区间阈值进行选定中:首先分别对健康人血浆样本和肿瘤血浆样本进行全基因组测序得到FASTQ文件,健康人血浆样本和肿瘤血浆
样本中的cfDNA携带有预先接入的分子标签;对FASTQ文件进行数据质控,包括去除cfDNA携
带的分子标签;对数据质控后的插入片段大小进行统计;对统计的片段大小进行累计概率
密度分析,及比较不同长度的插入片段健康人血浆样本和肿瘤血浆样本之间的差异显著
性;由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长插入片段
区间阈值进行选定。
[0052] 在该过程中,首先通过相对较高( 9X)的测序深度对健康人血浆样本和肿瘤血浆~
样本进行测序,之后对其进行预处理,将下机数据fastq文件进行数据质控,去掉不固定长
度UMI,基于bwa软件比对到人类基因组(hg19),并对数据进行过滤,包括去重、去除多重比
对的reads以及只保留质量值大于30和常染色体的reads等。
[0053] 之后,分别对肿瘤血浆样本和健康人血浆样本的插入片段大小分析,如图2所示((a)为健康人血浆样本插入片段大小概率分布图,(b)为肿瘤血浆样本插入片段大小概率
分布图),健康人血浆样本插入片段峰值为166.6bp( 167bp),肿瘤血浆样本插入片段峰值
~
为165.6bp( 166bp)。可以看出,与健康人血浆样本比较,肿瘤血浆样本整体分布向左移,且
~
在以10bp为单位的递减处有一系列较小的峰,血浆中肿瘤DNA的含量越大,癌症患者血浆中
短DNA的比例就越高;相反,血浆中肿瘤DNA含量越低,癌症患者血浆中长DNA的比例就越高。
[0054] 为了找到用于区分健康人血浆样本和肿瘤血浆样本的短插入片段和长插入片段的区间阈值,首先进行累计概率密度分析,如图3所示,在长度大小分别为169bp和308bp的
cfDNA累计概率密度达到极值;之后对数据进行统计学检验比较不同插入片段长度健康人
血浆样本和肿瘤血浆样本的差异显著性,如图4所示(a1表示p=0.05,a2表示p=0.01),当插
入片段为100bp 168bp和172bp< 240bp两个连续区域时,健康人血浆样本和肿瘤血浆样本
~ ~
具有显著性的差异(T检验,p<=0.05),以此将100bp阈值(short frangment),将172bp<=long<=240bp定义为长插入片段区间阈值(long 
frangment),进而计算数量比值ratio,用于后续分别对健康人血浆样本和肿瘤血浆样本的
cfDNA长度进行分析评价。一般来说,肿瘤血浆样本的数量比值ratio小,健康人血浆样本的
数量比值ratio大。
[0055] 在全基因组区间计算插入片段比例,理论上讲,窗口大小范围可以在几千到百万级碱基,且窗口越小分辨率越高。经过比较1M、5M、10M、15M窗口分析发现窗口越小健康人血
浆样本和肿瘤血浆样本差异的窗口所占比例越多,综合考虑在低深度(1 2X)时有足够的插
~
入片段用于分析,且为了保证分析的稳定性以及健康人血浆样本和肿瘤血浆样本的差异显
著性,本实施例采用5M的窗口来估计cfDNA片段模型。
[0056] 为了找到最优的测序深度,对原始健康人血浆样本和肿瘤血浆样本进行降采样(downsample)分析,分别将数据downsample到7X、5X、4X、2X、1X、0.5X及0.1X,并分别分析与
原始样本的相关性,结果表明随着深度的降低,相关性逐渐降低,当深度降低为1X时仍能保
持较好的相关性(皮尔逊相关系数>0.8)。因此,本实施例中为了保证分析的稳定性,采用3X
的测序深度。
[0057] 完成了短插入片段区间阈值、长插入片段区间阈值、窗口大小及测序深度进行的选定之后,根据各项参数、健康人血浆样本和肿瘤血浆样本之间的差异程度对创建的ctDNA
长度分析模型进行训练,得到各窗口的权重及血浆样本的评分。以此后续在对待检测血浆
样本进行cfDNA长度分析时,根据得到的各窗口的权重计算得到相应的评分。在一实例中,
使用卡方检验为每个窗口计算对应的卡方值作为权重,进而根据该权重进一步使用加权平
均的方法计算评分。
[0058] 本发明的另一实施例,如图5所示,一种基于ctDNA长度的分析系统100,包括:NGS平台110,用于对待检测血浆样本进行低深度的全基因组测序;数据处理终端120,包括相互
连接的计算模块和分析模块,其中,计算模块121,计算模块,用于采用预先选定大小的窗口
对全基因组区间进行划分,并对各窗口内短插入片段和长插入片段的数量比值ratio进行
计算,所述短插入片段的数量据预先设定的短插入片段区间阈值统计得到,长插入片段的
数量根据预先设定的长插入片段区间阈值统计得到;分析模块122,用于由统计得到的数量
比值ratio根据预先训练的ctDNA长度分析模型得到待检测血浆样本的评分,进而根据评分
对待检测血浆样本进行分析。
[0059] 在本实施例中,在构建文库时通过连接接头引入4‑5NT的特异性分子标签(UMI)连接到cfDNA分子中,标记待检测血浆样本中的每个分子,对同一来源扩增产物进行追踪和最
终提取分组,用于排除PCR扩增偏好性和测序偏好性引入的定量偏差,便于获得足够的读数
以进行分析。
[0060] 基于此,基于NGS对待检测血浆样本进行全基因组测序(sWGS)之后,首先对测序数据进行预处理,将下机数据fastq文件进行数据质控,去掉不固定长度的UMI之后,基于bwa
软件与人类基因组(hg19)进行比对并对数据进行过滤,包括去重、去除多重比对的reads以
及只保留质量值大于30和常染色体的reads等。完成了预处理操作之后,对待检测样本进行
插入片段大小分析,包括对插入片段大小进行统计,并根据统计结果对数量比值ratio进行
计算,以此预先训练的ctDNA长度分析模型根据得到的数量比值ratio输出待检测血浆样本
的评分,进而根据评分对待检测血浆样本进行分析。为了提高分析的准确性,在计算得到对
数量比值ratio之后,进一步对每个窗口内插入片段的数目进行GC校正。对于ctDNA长度分
析模型的输出结果,为ctDNA长度分析模型根据训练的权重(可通过卡方检验方法得到)对
各窗口进行加权平均得到的分值(score值),基于健康人血浆样本和肿瘤血浆样本中cfDNA
长度之间的差异,在后续诊断过程中,医生即能根据该值对待检测血浆样本是否来源于癌
症组织提供部分依据,为医生诊断提供一定的帮助,尤其是能够大大提升某些良性结节、早
期癌症患者的检测灵敏度,提高筛查效率和精度(分析模块122的分析方法为将计算得到的
score值与预先设定的阈值进行比较,当score值大于该阈值,判断待检测血浆样本可能来
源于癌症组织,其中,阈值具体根据实际应用中对于敏感性和特异性的要求进行选定,这里
不做具体限定)。在其他实施例中,ctDNA长度分析模型的输出结果还可以为待检测血浆样
本所属类别的概率,如来源为肿瘤患者的概率等。
[0061] NGS平台110还用于分别对健康人血浆样本和肿瘤血浆样本进行一定深度的全基因组测序得到FASTQ文件,健康人血浆样本和肿瘤血浆样本中的cfDNA携带有预先接入的分
子标签。数据处理终端120中还包括阈值设定模块,包括:数据质控单元,用于对FASTQ文件
进行数据质控,包括去除cfDNA携带的分子标签;统计单元,用于对数据质控后的插入片段
大小进行统计;分析单元,用于对统计的片段大小进行累计概率密度分析,及比较不同长度
的插入片段健康人血浆样本和肿瘤血浆样本之间的差异显著性;片段区间阈值设定单元,
用于由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长插入片
段区间阈值。另外,阈值设定模块还用于根据不同测序深度下的采样样本与原始血浆样本
(健康人血浆样本/肿瘤血浆样本)之间的相关性对测序深度进行设定及基于短插入片段数
量、长插入片段数量及其数量比值ratio对窗口大小进行设定。数据处理终端120还包括
ctDNA长度分析模型训练模块,用于由选定窗口大小健康人血浆样本和肿瘤血浆样本之间
的差异程度对创建的ctDNA长度分析模型进行训练,得到各窗口的权重并输出各血浆样本
的评分。具体:
[0062] 在对短插入片段区间阈值和长插入片段区间阈值进行选定中:首先分别对健康人血浆样本和肿瘤血浆样本进行不同深度的全基因组测序得到FASTQ文件,健康人血浆样本
和肿瘤血浆样本中的cfDNA携带有预先接入的分子标签;对FASTQ文件进行数据质控,包括
去除cfDNA携带的分子标签;对数据质控后的插入片段大小进行统计;对统计的片段大小进
行累计概率密度分析,及比较不同长度的插入片段健康人血浆样本和肿瘤血浆样本之间的
差异显著性;由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长
插入片段区间阈值进行选定。
[0063] 在该过程中,首先通过相对较高( 9X)的测序深度对健康人血浆样本和肿瘤血浆~
样本进行测序,之后对其进行预处理,将下机数据fastq文件进行数据质控,去掉不固定长
度UMI,基于bwa软件比对到人类基因组(hg19),并对数据进行过滤,包括去重、去除多重比
对的reads以及只保留质量值大于30和常染色体的reads等。
[0064] 之后,分别对肿瘤血浆样本和健康人血浆样本的插入片段大小分析,如图2所示((a)为健康人血浆样本插入片段大小概率分布图,(b)为肿瘤血浆样本插入片段大小概率
分布图),健康人血浆样本插入片段峰值为166.6bp( 167bp),肿瘤血浆样本插入片段峰值
~
为165.6bp( 166bp)。可以看出,与健康人血浆样本比较,肿瘤血浆样本整体分布向左移,且
~
在以10bp为单位的递减处有一系列较小的峰,血浆中肿瘤DNA的含量越大,癌症患者血浆中
短DNA的比例就越高;相反,血浆中肿瘤DNA含量越低,癌症患者血浆中长DNA的比例就越高。
[0065] 为了找到用于区分健康人血浆样本和肿瘤血浆样本的短插入片段和长插入片段的区间阈值,首先进行累计概率密度分析,如图3所示,在长度大小分别为169bp和308bp的
cfDNA累计概率密度达到极值;之后对数据进行统计学检验比较不同插入片段长度健康人
血浆样本和肿瘤血浆样本的差异显著性,如图4所示(a1表示p=0.05,a2表示p=0.01),当插
入片段为100bp 168bp和172bp< 240bp两个连续区域时,健康人血浆样本和肿瘤血浆样本
~ ~
具有显著性的差异(T检验,p<=0.05),以此将100bp阈值(short frangment),将172bp<=long<=240bp定义为长插入片段区间阈值(long 
frangment),进而计算数量比值ratio,用于后续分别对健康人血浆样本和肿瘤血浆样本的
cfDNA长度进行分析评价。一般来说,肿瘤血浆样本的数量比值ratio小,健康人血浆样本的
数量比值ratio大。
[0066] 在全基因组区间计算插入片段比例,理论上讲,窗口大小范围可以在几千到百万级碱基,且窗口越小分辨率越高。经过比较1M、5M、10M、15M窗口分析发现窗口越小健康人血
浆样本和肿瘤血浆样本差异的窗口所占比例越多,综合考虑在低深度(1 2X)时有足够的插
~
入片段用于分析,且为了保证分析的稳定性以及健康人血浆样本和肿瘤血浆样本的差异显
著性,本实施例采用5M的窗口来估计cfDNA片段模型。
[0067] 为了找到最优的测序深度,对原始健康人血浆样本和肿瘤血浆样本进行降采样(downsample)分析,分别将数据downsample到7X、5X、4X、2X、1X、0.5X及0.1X,并分别分析与
原始样本的相关性,结果表明随着深度的降低,相关性逐渐降低,当深度降低为1X时仍能保
持较好的相关性(皮尔逊相关系数>0.8)。因此,本实施例中为了保证分析的稳定性,采用3X
的测序深度。
[0068] 以下通过一实例对上述实施例及其有益效果进行说明:
[0069] 一、实验流程:
[0070] 1.血浆cfDNA提取
[0071] 使用MagMAX Cell‑Free DNA (cfDNA) Isolation(thermo cat#A29319)提取待检测血浆样本的cfDNA。提取后使用labchip质检是否存在大量基因组污染(>600bp占比小于
30%)。对产量大于10ng且无基因组污染的cfDNA进行后续建库。
[0072] 2. cfDNA建库
[0073] 使用KAPA Hyper Prep Kit(KAPA cat#KK8504)对提取的cfDNA进行建库,并通过连接接头引入UMI标签连接到cfDNA中。具体过程过程如下:
[0074] 末端修复并3’末端加A尾:
[0075] 2.1.1按照下表组分配置末端修复3’末端加A尾反应体系。
[0076]
[0077] 取10μL ER﹠AT Mix加入DNA样本中(冰上操作),震荡混匀,短暂离心。注意ER﹠AT Mix与DNA涡旋混匀立即进行PCR反应。
[0078] 2.1.2反应体系置于PCR仪上,按下表进行PCR反应。
[0079]
[0080] 2.2连接接头
[0081] 2.2.1按照下表配制Ligation Mix(冰上操作)。
[0082]
[0083] 2.2.2震荡混匀,将Ligation Mix 置于冰上。待上一步PCR结束后,取出样本。短暂离心,转入稀释好的Adapter溶液中。加入45μL Ligation Mix,震荡混匀,短暂离心。
[0084] 2.2.3置于PCR仪上,20℃孵育30min,20℃保存。
[0085] 2.3连接后纯化
[0086] 2.3.1分装Beckman Agencourt AMPure XP磁珠至新的U型槽中待用。
[0087] 2.3.2上一步PCR结束后,取出样本,短暂离心,直接向连接产物中加入88μL磁珠。
[0088] 2.3.3震荡混匀,室温孵育15min,使DNA与磁珠充分结合。短暂离心,离心管置于磁力架上磁吸8min待液体澄清,弃去上清。
[0089] 2.3.4 加入200μL 80%乙醇孵育30sec后弃去。重复一次200μL 80%乙醇清洗步骤。
[0090] 2.3.5 用10μL枪头吸尽离心管底部的残留乙醇,室温干燥3‑5min至乙醇完全挥发。
[0091] 2.3.6 从磁力架取下离心管,加入21μL超纯水,震荡混匀,室温孵育5min。
[0092] 2.3.7 短暂离心,离心管置于磁力架上待液体澄清。剩余的21μL清液转移至新的PCR管进行下一步扩增试验。
[0093] 2.4 文库扩增
[0094] 2.4.1按照下表体积依次加入UDI Primer Mix,100μM/each P5+P7,KAPA HiFi HotStart ReadyMix(将金属模块放于冰上操作)到八连管中,震荡混匀。
[0095]
[0096] 2.4.2 将纯化后的DNA转入上述八连管中,震荡混匀。
[0097] 2.4.3 将上一步的文库转入已分装的PCR Mix,震荡混匀。
[0098] 2.4.4 短暂离心,置于PCR仪上,按下表进行PCR反应。
[0099]
[0100] 2.5 DNA的获得(1×Beads回收)
[0101] 2.5.1分装50μL Beckman Agencourt AMPure XP磁珠至新的八连管中。
[0102] 2.5.2待上PCR结束后,取出样本。
[0103] 2.5.3短暂离心,转入已分装的50μL Beckman Agencourt AMPure XP磁珠中。
[0104] 2.5.4震荡混匀,室温孵育15min,使DNA与磁珠充分结合。
[0105] 2.5.5短暂离心,离心管置于磁力架上待液体澄清,弃去上清。注意:不要吸到磁珠。
[0106] 2.5.6加入200μL 80%乙醇孵育30s后弃去,重复一次200μL 80%乙醇清洗步骤。
[0107] 2.5.7用10μL枪头吸尽离心管底部的残留乙醇,室温干燥3‑5min至乙醇完全挥发。
[0108] 2.5.8从磁力架取下离心管,加入50μL超纯水,振荡混匀。
[0109] 2.5.9室温孵育5min洗脱DNA。
[0110] 2.5.10短暂离心,离心管置于磁力架上磁吸5min待液体澄清,将文库转移至新的离心管中。保存于‑20℃。
[0111] 3.文库质检
[0112] 取1μL  DNA文库用于浓度检测。文库浓度检测使用酶标仪HS检测试剂盒(AccuGreen High Sensitivity dsDNA Quantitation Kit)。
[0113] 4.上机
[0114] 将文库稀释后用illumina平台进行上机。
[0115] 二、数据分析流程:
[0116] 2.1数据拆分。将测序结果文件bcl拆分后得到fastq格式的文件。
[0117] 2.2去除UMI。得到fastq文件之后,识别read1和read2 5’端的UMI序列(3NT&4NT序列)并切掉,之后使用软件Trimmomatic进行trim,然后利用bwa将fastq文件与基因组进行
比对,得到比对后的bam文件,并进行过滤。
[0118] 2.3计算数量比值ratio。对生成的bam文件分析,计算得到不同长度插入片段比例,并进行GC校正。
[0119] 三、模型构建
[0120] 3.1 选两组样本,一组癌症患者(N=300),一组良性结节的病人(N=50),分别经过数据预处理、数量比值ratio的计算及ctDNA长度分析模型的训练,得到最终的各个窗口的
权重。
[0121] 3.2 取独立验证集,包含已知的癌症患者(N=22)和良性结节患者(N=341),对构建的ctDNA长度分析模型进行验证并统计结果,模型即为上述的加权平均值模型,计算每个区
间的ratio后,通过卡方检验给每个区间一个权重,最后求得平均值。如图6所示,最终ROC曲
线下的面积AUC=0.823,特异性为80%时,敏感性约为62%。
[0122] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序
模块完成,即将终端的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或
者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物
理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用
硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只
是为了便于相互区分,并不用于限制本申请的保护范围。