基于ctDNA长度的分析方法和系统转让专利
申请号 : CN202111513450.7
文献号 : CN113903401B
文献日 : 2022-04-08
发明人 : 杨顺莉 , 于佳宁 , 张亚晰 , 刘异倩 , 李宇龙 , 陈维之 , 何骥 , 杜波
申请人 : 臻和(北京)生物科技有限公司 , 臻和精准医学检验实验室无锡有限公司 , 无锡臻和生物科技有限公司
摘要 :
权利要求 :
1.一种基于ctDNA长度的分析系统,其特征在于,包括:NGS平台,用于对待检测血浆样本进行低深度的全基因组测序;
数据处理终端,包括相互连接的计算模块和分析模块,其中,计算模块,用于采用预先选定大小的窗口对全基因组区间进行划分,并对各窗口内短插入片段和长插入片段的数量比值ratio进行计算,所述短插入片段的数量据预先设定的短插入片段区间阈值统计得到,长插入片段的数量根据预先设定的长插入片段区间阈值统计得到;
分析模块,用于由统计得到的数量比值ratio根据预先训练的ctDNA长度分析模型得到所述待检测血浆样本的评分,进而根据所述评分对待检测血浆样本进行分析;
所述NGS平台还用于分别对健康人血浆样本和肿瘤血浆样本进行低深度的全基因组测序得到FASTQ文件,所述健康人血浆样本和肿瘤血浆样本中的cfDNA携带有预先接入的分子标签;
所述数据处理终端中还包括阈值设定模块,包括:数据质控单元,用于对所述FASTQ文件进行数据质控,包括去除cfDNA携带的分子标签;
统计单元,用于对数据质控后的插入片段大小进行统计;
分析单元,用于对统计的片段大小进行累计概率密度分析,及比较不同长度的插入片段健康人血浆样本和肿瘤血浆样本之间的差异显著性;
片段区间阈值设定单元,用于由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长插入片段区间阈值进行选定。
2.如权利要求1所述的基于ctDNA长度的分析系统,其特征在于,阈值设定模块还用于根据不同测序深度下的采样样本与原始血浆样本之间的相关性对测序深度进行设定及基于短插入片段数量、长插入片段数量及其数量比值ratio对窗口大小进行设定。
3.如权利要求2所述的基于ctDNA长度的分析系统,其特征在于,所述数据处理终端还包括ctDNA长度分析模型训练模块,用于由选定窗口大小健康人血浆样本和肿瘤血浆样本之间的差异程度对创建的ctDNA长度分析模型进行训练,得到各窗口的权重并输出各血浆样本的评分。
说明书 :
基于ctDNA长度的分析方法和系统
技术领域
背景技术
球死亡率排在前10位的癌症分别为:肺癌、结直肠癌、胃癌、肝癌、乳腺癌、胰腺癌、食管癌、
前列腺癌、宫颈癌和非霍奇金淋巴瘤。而全世界人类癌症的大部分发病率和死亡率都是由
于治疗干预效果较差而导致的晚期诊断。不幸的是,临床证明可用于诊断和治疗患者的生
物标志物并不广泛。而在平均风险人群中进行常规筛查,将有助于早期发现癌症,并大大降
低癌症的发病率和死亡率,并且早期鉴别致命性癌症和非致命性疾病将减少过度诊断,而
这两种医疗需求都要求具有超高特异度(>99%)和高灵敏度的非侵入性生物标志物,现如今
临床上紧迫需要新的肿瘤分子诊断工具。
片段。传统的抽样方法如穿刺活组织切片除了具有创伤性,还难以获得足够多且高质量的
样本用于基因组分析。疾病的检测和监测往往依赖于体内的流体标记物,而成像检测往往
会使患者暴露于电离辐射中,并且这种方法无论在时间还是在空间上的分辨率都是有限
的。cfDNA无须有创肿瘤活检,而是从常规抽血中分析来自肿瘤的DNA,这一能力代表了潜在
转化性临床应用的一个关键进展。特别是cfDNA分析属于微创,为活检困难或不安全的肿瘤
提供了便利,并提供了一种能够随时间推移连续监测肿瘤DNA的实用方法,而没有标准肿瘤
活检的风险和潜在并发症。近年来循环无细胞DNA(cfDNA)的研究进展表明,利用肿瘤特异
性的遗传和表观遗传改变(如突变、拷贝数变异和DNA甲基化)进行肿瘤诊断是一种很有前
途的非侵入性方法。同时,随着精准医学时代的到来,越来越多的研究者和临床医生将基于
cfDNA的液体活检技术应用于肿瘤的早期筛查、治疗监测、预后评估等多个方面。
等方法。然而,通过全基因组测序(WGS)鉴定出的肿瘤特异性改变在早期癌症患者中的数量
很少,也很难被检测到。此外,在cfDNA中存在克隆性造血相关的变异,其与癌症无关。亚硫
酸氢钠处理DNA甲基化引起的序列降解会降低检测的灵敏度。这些局限性给利用遗传和表
观遗传变异进行早期诊断带来了挑战。与数量有限的遗传性改变相比,插入片段在体内会
大量存在且容易被检测到,近年来许多研究表明ctDNA和cfDNA的片段长短存在差异,2016
年香港大学卢煜明教授的团队在Cell Press上发表了一篇综述,介绍了cfDNA长度的几种
分析方法:凝胶电泳、qPCR(实时荧光定量PCR)、显微镜、NGS(新一代测序)等,其中,凝胶电
泳的分辨率有限,不能用于区分和量化cfDNA的大小;qPCR方法只能应用于已知序列的限
制,不能适用于全基因组分析;电子显微镜在插入片段研究中非常耗费人力,耗时且通量
低;NGS使得数百万甚至数十亿cfDNA分子的大小测量成为可能,是以目前最为常用。目前采
用较多的是双末端测序法(paired‑end sequencing),在测序过程中,对于每个血浆DNA分
子,对分子的两端进行测序,然后与参考基因组比对,再使用每个末端最外层核苷酸的坐标
来推断分子的长度。与凝胶电泳或qPCR测定相比,NGS测序可在全基因组层面进行分析,不
仅通量高而且分析的精度高,可达单碱基的水平。
的插入片段长度比正常人的插入片段短。另外,相关研究发现,来自于尿液中的插入片段平
均长度比血浆中插入片段短。通常健康个体的插入片段大小分布通常主要集中在167bp左
右,这与一个核小体及其连接(linker)组蛋白长度相一致。插入片段(frangment)模式,例
如覆盖度和大小,会随着癌症的发生而产生变化,且与克隆性造血无关。derived模式,如核
小体位置、转录起始点附近的模式、cfDNA末端位置以及在成千上万个碱基水平上的大规模
碎片化变化,提供了许多的肿瘤信号。另外,最近的许多研究也表明在癌症患者晚期短长度
的cfDNA比例会增加。
发明内容
区间阈值统计得到,长插入片段的数量根据预先设定的长插入片段区间阈值统计得到;
深度下的采样样本与原始血浆样本之间的相关性选定测序深度及基于短插入片段数量、长
插入片段数量及其数量比值ratio选定窗口大小的步骤。
定的短插入片段区间阈值统计得到,长插入片段的数量根据预先设定的长插入片段区间阈
值统计得到;
携带有预先接入的分子标签;
比值ratio对窗口大小进行设定。
进行训练,得到各窗口的权重并输出各血浆样本的评分。
统计得到的数量比值ratio计算得到评分,进而根据该评分完成对待检测血浆样本cfDNA长
度的分析,该方法简单方便且精确度高,分析结果能够为后续区分待检测血浆样本是否来
源于癌症组织提供依据,尤其能够提高某些良性结节、早期癌症患者的检测灵敏度,从而有
效辅助癌症的早期诊断以及癌症的早期筛查,提高筛查效率和精度。
附图说明
具体实施方式
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图,并获得其他的实施方式。
口对全基因组区间进行划分,并对各窗口内短插入片段和长插入片段的数量比值ratio进
行计算,全基因组短插入片段的数量据预先设定的短插入片段区间阈值统计得到,长插入
片段的数量根据预先设定的长插入片段区间阈值统计得到;S30 由统计得到的数量比值
ratio使用预先训练的ctDNA长度分析模型得到全基因组待检测血浆样本的评分,进而根据
全基因组评分对待检测血浆样本进行分析。
终提取分组,测序过程中加入UMI的优点包括:1)UMI技术无需跟踪拷贝数,可达到区分来自
单个分子冗余的PCR重复序列,减少重复定量,屏蔽PCR偏好性,矫正测序错误等;2)相同UMI
标记的reads可进行相互矫正,对于测定的reads均会保留,而不会被当作背景噪音剔除,相
比常规建库方式得到的有效数据量增多;3)UMI技术降低了文库构建过程中的扩增及测序
错误引入的假阳性,在进行SNP、Indel的分析中获得的信息更为准确;4)对于UMI技术的建
库起始DNA量要求很低。
软件与人类基因组(hg19)进行比对并对数据进行过滤,包括去重、去除多重比对的reads以
及只保留质量值大于30和常染色体的reads等。在一实例中,首先,识别read1和read2 5’端
的UMI序列(3NT&4NT序列)并切掉;之后调用Trimmomatic将每一对FASTQ文件都作为成对
(paired)reads进行去除低质量碱基处理,生成去接头后的FASTQ文件。具体,在切除接头序
列后,切去剩余部分开头和结尾处碱基质量低于20的碱基,从reads的5’端开始,以大小为5
的窗口进行划窗计算平均质量,如果窗口内平均碱基质量低于20,则切除该窗口,并要求切
除后剩余碱基数量超过75。之后,调用Bwa(一种比对方法软件,用于查找测序序列在基因参
考序列中的位置,可输出Bam格式结果文件)将每一对fastq文件作为成对reads与hg19人类
参考基因组序列进行比对去重,生成初始Bam文件和比对报告。之后,调用Samtools对初始
Bam文件按照染色体位置进行排序;接着,为了更准确的计算甲基化水平,调用BamUtil去除
成对reads之间的重叠区间。之后,调用Samtools中的view命令对去除了重叠区域的Bam文
件进行筛选,对比对质量(用于量化比对到错误位置的可能性,值越高表示可能性越低)进
行过滤,要求比对质量超过20,生成最终的Bam文件。最后,调用Samtools中的index模块对
最终生成的Bam文件建立索引,生成与标记重复后的Bam文件配对的bai文件。
待检测样本进行插入片段大小分析,包括对插入片段大小进行统计,并根据统计结果对数
量比值ratio进行计算,以此预先训练的ctDNA长度分析模型根据得到的数量比值ratio输
出待检测血浆样本的评分,进而根据评分对待检测血浆样本进行分析。为了提高分析的准
确性,在计算得到对数量比值ratio之后,进一步对每个窗口内插入片段的数目进行GC校
正。对于ctDNA长度分析模型的输出结果,为ctDNA长度分析模型根据训练的权重(可通过卡
方检验方法得到)对各窗口进行加权平均得到的分值(score值),基于健康人血浆样本和肿
瘤血浆样本中cfDNA长度之间的差异,在后续诊断过程中,医生即能根据该值对待检测血浆
样本是否来源于癌症组织提供部分依据,为医生诊断提供一定的帮助,尤其是能够大大提
升某些良性结节、早期癌症患者的检测灵敏度,提高筛查效率和精度(分析方法为将计算得
到的score值与预先设定的阈值进行比较,当score值大于该阈值,判断待检测血浆样本可
能来源于癌症组织,其中,阈值具体根据实际应用中对于敏感性和特异性的要求进行选定,
这里不做具体限定)。在其他实施例中,ctDNA长度分析模型的输出结果还可以为待检测血
浆样本所属类别的概率,如来源为肿瘤患者的概率等。
样本中的cfDNA携带有预先接入的分子标签;对FASTQ文件进行数据质控,包括去除cfDNA携
带的分子标签;对数据质控后的插入片段大小进行统计;对统计的片段大小进行累计概率
密度分析,及比较不同长度的插入片段健康人血浆样本和肿瘤血浆样本之间的差异显著
性;由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长插入片段
区间阈值进行选定。
样本进行测序,之后对其进行预处理,将下机数据fastq文件进行数据质控,去掉不固定长
度UMI,基于bwa软件比对到人类基因组(hg19),并对数据进行过滤,包括去重、去除多重比
对的reads以及只保留质量值大于30和常染色体的reads等。
分布图),健康人血浆样本插入片段峰值为166.6bp( 167bp),肿瘤血浆样本插入片段峰值
~
为165.6bp( 166bp)。可以看出,与健康人血浆样本比较,肿瘤血浆样本整体分布向左移,且
~
在以10bp为单位的递减处有一系列较小的峰,血浆中肿瘤DNA的含量越大,癌症患者血浆中
短DNA的比例就越高;相反,血浆中肿瘤DNA含量越低,癌症患者血浆中长DNA的比例就越高。
cfDNA累计概率密度达到极值;之后对数据进行统计学检验比较不同插入片段长度健康人
血浆样本和肿瘤血浆样本的差异显著性,如图4所示(a1表示p=0.05,a2表示p=0.01),当插
入片段为100bp 168bp和172bp< 240bp两个连续区域时,健康人血浆样本和肿瘤血浆样本
~ ~
具有显著性的差异(T检验,p<=0.05),以此将100bp
frangment),进而计算数量比值ratio,用于后续分别对健康人血浆样本和肿瘤血浆样本的
cfDNA长度进行分析评价。一般来说,肿瘤血浆样本的数量比值ratio小,健康人血浆样本的
数量比值ratio大。
浆样本和肿瘤血浆样本差异的窗口所占比例越多,综合考虑在低深度(1 2X)时有足够的插
~
入片段用于分析,且为了保证分析的稳定性以及健康人血浆样本和肿瘤血浆样本的差异显
著性,本实施例采用5M的窗口来估计cfDNA片段模型。
原始样本的相关性,结果表明随着深度的降低,相关性逐渐降低,当深度降低为1X时仍能保
持较好的相关性(皮尔逊相关系数>0.8)。因此,本实施例中为了保证分析的稳定性,采用3X
的测序深度。
长度分析模型进行训练,得到各窗口的权重及血浆样本的评分。以此后续在对待检测血浆
样本进行cfDNA长度分析时,根据得到的各窗口的权重计算得到相应的评分。在一实例中,
使用卡方检验为每个窗口计算对应的卡方值作为权重,进而根据该权重进一步使用加权平
均的方法计算评分。
连接的计算模块和分析模块,其中,计算模块121,计算模块,用于采用预先选定大小的窗口
对全基因组区间进行划分,并对各窗口内短插入片段和长插入片段的数量比值ratio进行
计算,所述短插入片段的数量据预先设定的短插入片段区间阈值统计得到,长插入片段的
数量根据预先设定的长插入片段区间阈值统计得到;分析模块122,用于由统计得到的数量
比值ratio根据预先训练的ctDNA长度分析模型得到待检测血浆样本的评分,进而根据评分
对待检测血浆样本进行分析。
终提取分组,用于排除PCR扩增偏好性和测序偏好性引入的定量偏差,便于获得足够的读数
以进行分析。
软件与人类基因组(hg19)进行比对并对数据进行过滤,包括去重、去除多重比对的reads以
及只保留质量值大于30和常染色体的reads等。完成了预处理操作之后,对待检测样本进行
插入片段大小分析,包括对插入片段大小进行统计,并根据统计结果对数量比值ratio进行
计算,以此预先训练的ctDNA长度分析模型根据得到的数量比值ratio输出待检测血浆样本
的评分,进而根据评分对待检测血浆样本进行分析。为了提高分析的准确性,在计算得到对
数量比值ratio之后,进一步对每个窗口内插入片段的数目进行GC校正。对于ctDNA长度分
析模型的输出结果,为ctDNA长度分析模型根据训练的权重(可通过卡方检验方法得到)对
各窗口进行加权平均得到的分值(score值),基于健康人血浆样本和肿瘤血浆样本中cfDNA
长度之间的差异,在后续诊断过程中,医生即能根据该值对待检测血浆样本是否来源于癌
症组织提供部分依据,为医生诊断提供一定的帮助,尤其是能够大大提升某些良性结节、早
期癌症患者的检测灵敏度,提高筛查效率和精度(分析模块122的分析方法为将计算得到的
score值与预先设定的阈值进行比较,当score值大于该阈值,判断待检测血浆样本可能来
源于癌症组织,其中,阈值具体根据实际应用中对于敏感性和特异性的要求进行选定,这里
不做具体限定)。在其他实施例中,ctDNA长度分析模型的输出结果还可以为待检测血浆样
本所属类别的概率,如来源为肿瘤患者的概率等。
子标签。数据处理终端120中还包括阈值设定模块,包括:数据质控单元,用于对FASTQ文件
进行数据质控,包括去除cfDNA携带的分子标签;统计单元,用于对数据质控后的插入片段
大小进行统计;分析单元,用于对统计的片段大小进行累计概率密度分析,及比较不同长度
的插入片段健康人血浆样本和肿瘤血浆样本之间的差异显著性;片段区间阈值设定单元,
用于由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长插入片
段区间阈值。另外,阈值设定模块还用于根据不同测序深度下的采样样本与原始血浆样本
(健康人血浆样本/肿瘤血浆样本)之间的相关性对测序深度进行设定及基于短插入片段数
量、长插入片段数量及其数量比值ratio对窗口大小进行设定。数据处理终端120还包括
ctDNA长度分析模型训练模块,用于由选定窗口大小健康人血浆样本和肿瘤血浆样本之间
的差异程度对创建的ctDNA长度分析模型进行训练,得到各窗口的权重并输出各血浆样本
的评分。具体:
和肿瘤血浆样本中的cfDNA携带有预先接入的分子标签;对FASTQ文件进行数据质控,包括
去除cfDNA携带的分子标签;对数据质控后的插入片段大小进行统计;对统计的片段大小进
行累计概率密度分析,及比较不同长度的插入片段健康人血浆样本和肿瘤血浆样本之间的
差异显著性;由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长
插入片段区间阈值进行选定。
样本进行测序,之后对其进行预处理,将下机数据fastq文件进行数据质控,去掉不固定长
度UMI,基于bwa软件比对到人类基因组(hg19),并对数据进行过滤,包括去重、去除多重比
对的reads以及只保留质量值大于30和常染色体的reads等。
分布图),健康人血浆样本插入片段峰值为166.6bp( 167bp),肿瘤血浆样本插入片段峰值
~
为165.6bp( 166bp)。可以看出,与健康人血浆样本比较,肿瘤血浆样本整体分布向左移,且
~
在以10bp为单位的递减处有一系列较小的峰,血浆中肿瘤DNA的含量越大,癌症患者血浆中
短DNA的比例就越高;相反,血浆中肿瘤DNA含量越低,癌症患者血浆中长DNA的比例就越高。
cfDNA累计概率密度达到极值;之后对数据进行统计学检验比较不同插入片段长度健康人
血浆样本和肿瘤血浆样本的差异显著性,如图4所示(a1表示p=0.05,a2表示p=0.01),当插
入片段为100bp 168bp和172bp< 240bp两个连续区域时,健康人血浆样本和肿瘤血浆样本
~ ~
具有显著性的差异(T检验,p<=0.05),以此将100bp
frangment),进而计算数量比值ratio,用于后续分别对健康人血浆样本和肿瘤血浆样本的
cfDNA长度进行分析评价。一般来说,肿瘤血浆样本的数量比值ratio小,健康人血浆样本的
数量比值ratio大。
浆样本和肿瘤血浆样本差异的窗口所占比例越多,综合考虑在低深度(1 2X)时有足够的插
~
入片段用于分析,且为了保证分析的稳定性以及健康人血浆样本和肿瘤血浆样本的差异显
著性,本实施例采用5M的窗口来估计cfDNA片段模型。
原始样本的相关性,结果表明随着深度的降低,相关性逐渐降低,当深度降低为1X时仍能保
持较好的相关性(皮尔逊相关系数>0.8)。因此,本实施例中为了保证分析的稳定性,采用3X
的测序深度。
30%)。对产量大于10ng且无基因组污染的cfDNA进行后续建库。
比对,得到比对后的bam文件,并进行过滤。
权重。
间的ratio后,通过卡方检验给每个区间一个权重,最后求得平均值。如图6所示,最终ROC曲
线下的面积AUC=0.823,特异性为80%时,敏感性约为62%。
模块完成,即将终端的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或
者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物
理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用
硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只
是为了便于相互区分,并不用于限制本申请的保护范围。