单样本全基因组预测等位基因特异性拷贝数变异的方法转让专利
申请号 : CN202110020493.5
文献号 : CN112802548B
文献日 : 2021-10-22
发明人 : 黄毅 , 陈海新 , 刘久成 , 吴玲清 , 刘青峰
申请人 : 深圳吉因加医学检验实验室
摘要 :
权利要求 :
1.一种单样本全基因组预测等位基因特异性拷贝数变异的方法,其特征在于,包括:分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息;
如果染色体区段的总拷贝数变异信息为非0偶数区间,通过模型预测得到该区间的等位基因特异性拷贝数变异信息的方法包括:按照滑动窗口对总拷贝数变异信息进行切割,并独立预测各个滑动窗口的拷贝数变异类型,然后将所述拷贝数变异类型转换为等位基因特异性拷贝数变异信息,具体地,获取滑动区间内的候选信号位点的次等位基因频率信息分布,然后提取次等位基因频率信息分布曲线矩阵值,将所述次等位基因频率信息分布曲线矩阵值与肿瘤纯度信息、全基因组复制信息整合,将整合结果输入模型,使用模型预测得到该区间的基因拷贝数变异类型,然后将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息;
所述模型的构建方法包括:
信息提取步骤,包括分析比对到参考基因组的肿瘤样本和相应的正常样本的测序数据,提取等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,将这些信息作为答案集,根据等位基因特异性拷贝数变异信息,获得总拷贝数变异信息为非0偶数区间的测序数据的起点、终点以及拷贝数变异类型;
不同纯度肿瘤样本制备步骤,包括将正常样本的测序数据混入同一生物体来源的肿瘤样本的测序数据中,降低肿瘤纯度,获得由不同肿瘤纯度的样本测序数据组成的模拟样本数据集,将模拟样本数据集中候选信号位点的次等位基因频率分布信息、肿瘤纯度信息、全基因组复制信息作为机器学习输入特征值,以各个样本的等位基因特异性拷贝数变异信息作为标签,构建得到机器学习模型。
2.如权利要求1所述的方法,其特征在于,如果总拷贝数变异信息为奇数区间,则等位基因A =1,等位基因B =N‑1;其中,N为该区间的总拷贝数变异信息;如果总拷贝数变异信息为0区间,则等位基因A=0,等位基因B=0。
3.如权利要求1所述的方法,其特征在于,滑动窗口的长度为2Mb‑3Mb。
4.如权利要求1所述的方法,其特征在于,按以下规则将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息:
1)如果模型预测的基因拷贝数变异类型为AA,则等位基因A = 0,等位基因B = N,其中,N为该区间的总拷贝数变异信息;
2)如果模型预测的基因拷贝数变异类型为AB,则等位基因A = 等位基因B = N/2,其中,N为该区间的总拷贝数变异信息。
5.如权利要求1所述的方法,其特征在于,所述候选信号位点需满足以下条件中的至少一种:
1)该位点为杂合位点;
2)位点测序深度大于6;
3)该位点为非复等位基因位点;
4)该位点的变异质量值大于10;
5)该位点不在黑名单区间上;
6)该位点与相邻的候选信号位点距离大于30bp。
6.如权利要求5所述的方法,其特征在于,所述候选信号位点需满足条件1)至条件6)中的全部。
7.如权利要求5所述的方法,其特征在于,所述黑名单区间包括染色体上重复序列区域、端粒重复区域。
8.如权利要求1所述的方法,其特征在于,所述待测样本的测序数据的测序深度≥8×。
9.如权利要求1所述的方法,其特征在于,所述待测样本的测序数据的测序深度为8×至29×,包括边界值。
10.如权利要求1所述的方法,其特征在于,所述待测样本选自肿瘤组织样本、血液细胞游离DNA样本中的至少一种;
所述待测样本来源于人体;
所述待测样本的测序数据为全基因组测序数据;
所述待测样本的测序数据依次经过过滤、比对到参考基因组、质控,得到可用于后续分析的测序数据。
11.如权利要求1所述的方法,其特征在于,所述模型选自分类模型、聚类模型、回归模型中的至少一种;
所述模型的算法选自K近邻、朴素贝叶斯分类器、逻辑回归、决策树、随机森林、支持向量机、神经网络、AdaBoost 中的至少一种;
所述机器学习模型为二分类机器学习模型;
所述次等位基因频率分布信息为次等位基因频率分布曲线矩阵值;
所述模拟样本数据集中候选信号位点需满足以下条件中的至少一种:
1)该位点为杂合位点;
2)位点测序深度大于6;
3)该位点为非复等位基因位点;
4)该位点的变异质量值大于10;
5)该位点不在黑名单区间上;
6)该位点与相邻的候选信号位点距离大于30bp;
所述不同肿瘤纯度的样本为不同梯度肿瘤纯度的样本;
模型的构建方法中,所述肿瘤样本选自肿瘤组织样本、血液细胞游离DNA样本中的至少一种,所述相应的正常样本选自癌旁组织样本、血细胞样本中的至少一种;
模型的构建方法中,所述相应的正常样本是指与肿瘤样本来源于同一生物体的样本;
模型的构建方法中,所述肿瘤样本、相应的正常样本的测序数据均为全基因组测序数据;
模型的构建方法中,所述肿瘤样本、相应的正常样本的测序深度≥10×;
信息提取步骤中,先依次对肿瘤样本的测序数据进行过滤、对比到参考基因组、质控,得到可用于后续分析的比对数据。
12.一种单样本全基因组检测同源重组缺陷的方法,其特征在于,包括:等位基因特异性拷贝数变异预测步骤,包括根据权利要求1 11任意一项所述方法获得~
待测样本中染色体每个区段的等位基因特异性拷贝数变异信息;
同源重组缺陷预测步骤,包括根据待测样本中染色体每个区段的等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,计算得到大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
13.如权利要求12所述的方法,其特征在于,所述综合值是指大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的总和。
14.如权利要求12所述的方法,其特征在于,获得所述综合值之后,根据全基因组复制信息,对所述综合值进行修正,得到修正值,根据所述修正值,预测待测样本是否存在同源重组缺陷。
15.如权利要求12所述的方法,其特征在于,对所述综合值进行修正的方法如下:获得大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值raw HRD score之后,利用全基因组复制信息对该综合值进行修正,当全基因组复制信息WGD=0时,取最优阈值C1,当全基因组复制信息WGD=1时,取最优阈值C2,修正值HRD score = raw HRD score ‑ WGD * (C1 ‑ C2)。
16.如权利要求14所述的方法,其特征在于,得到修正值之后,根据所述修正值与预设的同源重组缺陷阳性阈值之间的大小关系,预测待测样本是否存在同源重组缺陷。
17.如权利要求16所述的方法,其特征在于,如果修正值>同源重组缺陷阳性阈值,则预测待测样本中存在同源重组缺陷;
如果修正值≤同源重组缺陷阳性阈值,则预测待测样本中不存在同源重组缺陷。
18.如权利要求16所述的方法,其特征在于,所述同源重组缺陷阳性阈值为[38‑42]。
19.一种单样本全基因组预测等位基因特异性拷贝数变异的系统,其特征在于,包括:等位基因特异性拷贝数变异预测装置,用于分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息;如果染色体区段的总拷贝数变异信息为非0偶数区间,通过模型预测得到该区间的等位基因特异性拷贝数变异信息的方法包括:按照滑动窗口对总拷贝数变异信息进行切割,并独立预测各个滑动窗口的拷贝数变异类型,然后将所述拷贝数变异类型转换为等位基因特异性拷贝数变异信息,具体地,获取滑动区间内的候选信号位点的次等位基因频率信息分布,然后提取次等位基因频率信息分布曲线矩阵值,将所述次等位基因频率信息分布曲线矩阵值与肿瘤纯度信息、全基因组复制信息整合,将整合结果输入模型,使用模型预测得到该区间的基因拷贝数变异类型,然后将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息;
所述模型的构建方法包括:
信息提取步骤,包括分析比对到参考基因组的肿瘤样本和相应的正常样本的测序数据,提取等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,将这些信息作为答案集,根据等位基因特异性拷贝数变异信息,获得总拷贝数变异信息为非0偶数区间的测序数据的起点、终点以及拷贝数变异类型;
不同纯度肿瘤样本制备步骤,包括将正常样本的测序数据混入同一生物体来源的肿瘤样本的测序数据中,降低肿瘤纯度,获得由不同肿瘤纯度的样本测序数据组成的模拟样本数据集,将模拟样本数据集中候选信号位点的次等位基因频率分布信息、肿瘤纯度信息、全基因组复制信息作为机器学习输入特征值,以各个样本的等位基因特异性拷贝数变异信息作为标签,构建得到机器学习模型。
20.一种单样本全基因组检测同源重组缺陷的系统,其特征在于,包括:等位基因特异性拷贝数变异预测装置,用于分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息;如果染色体区段的总拷贝数变异信息为非0偶数区间,通过模型预测得到该区间的等位基因特异性拷贝数变异信息的方法包括:按照滑动窗口对总拷贝数变异信息进行切割,并独立预测各个滑动窗口的拷贝数变异类型,然后将所述拷贝数变异类型转换为等位基因特异性拷贝数变异信息,具体地,获取滑动区间内的候选信号位点的次等位基因频率信息分布,然后提取次等位基因频率信息分布曲线矩阵值,将所述次等位基因频率信息分布曲线矩阵值与肿瘤纯度信息、全基因组复制信息整合,将整合结果输入模型,使用模型预测得到该区间的基因拷贝数变异类型,然后将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息;
所述模型的构建方法包括:
信息提取步骤,包括分析比对到参考基因组的肿瘤样本和相应的正常样本的测序数据,提取等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,将这些信息作为答案集,根据等位基因特异性拷贝数变异信息,获得总拷贝数变异信息为非0偶数区间的测序数据的起点、终点以及拷贝数变异类型;
不同纯度肿瘤样本制备步骤,包括将正常样本的测序数据混入同一生物体来源的肿瘤样本的测序数据中,降低肿瘤纯度,获得由不同肿瘤纯度的样本测序数据组成的模拟样本数据集,将模拟样本数据集中候选信号位点的次等位基因频率分布信息、肿瘤纯度信息、全基因组复制信息作为机器学习输入特征值,以各个样本的等位基因特异性拷贝数变异信息作为标签,构建得到机器学习模型;
同源重组缺陷预测装置,用于根据待测样本中染色体每个区段的等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,计算得到大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
21.一种单样本全基因组检测同源重组缺陷的装置,其特征在于,包括:存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1 18任意一项所述的~
方法。
22.一种计算机可读存储介质,其特征在于,其上存储有程序,所述程序能够被处理器执行以实现如权利要求1 18任意一项所述的方法。
~
说明书 :
单样本全基因组预测等位基因特异性拷贝数变异的方法
技术领域
背景技术
突变和同源重组缺陷(Homologous Recombination Deficiency,HRD)状态作为标志物的指
导作用在临床实践应用中日益凸显。临床上PARP抑制剂获益人群从BRCA突变患者扩展到
HRD阳性人群,也就意味着,更多癌症患者有机会从PARP抑制剂的治疗中获益。同时,药物适
用癌种也从卵巢癌扩展到乳腺癌、前列腺癌、胰腺癌、膀胱癌等实体瘤患者。
群最高,约为70%。针对HRD的检测方法,虽然有不同的策略和决策,但是检测基因组杂合性
缺失(Loss of Heterozygosity,LOH)、端粒等位基因不平衡(Telomeric Allelic
Imbalance,TAI)、大片段迁移(Large‑scale state Transition,LST)三个基因组不稳定性
指标来计算HRD评分策略的准确度高且被广泛接受。
位点偏好性。但缺点是需要进行高深度测序,造成测序成本较高;低深度测序策略只能准确
分析LST(Large‑scale state Transition,大片段迁移)指标,假阴性高;对于肿瘤纯度低
的样本需要更高的测序深度,进一步增加成本。
发明内容
理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷
贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染
色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特
异性拷贝数变异信息。
失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因
不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷
贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等
位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通
过模型预测得到该区间的等位基因特异性拷贝数变异信息。
个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷
贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等
位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通
过模型预测得到该区间的等位基因特异性拷贝数变异信息;
失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因
不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
测准确度高,可检测低肿瘤纯度样本的同源重组缺陷。
附图说明
具体实施方式
使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征
在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申
请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过
多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们
根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一
个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
间接连接(联接)。
上仍然存在。
位点。
理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷
贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染
色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特
异性拷贝数变异信息。
变异信息进行切割,并独立预测各个滑动窗口的拷贝数变异类型,然后将所述拷贝数变异
类型转换为等位基因特异性拷贝数变异信息。
值与肿瘤纯度信息、全基因组复制信息整合,将整合结果输入模型,使用模型预测得到该区
间的基因拷贝数变异类型,然后将所述基因拷贝数变异类型转换为等位基因特异性拷贝数
变异信息。
数据的测序深度≥10×。该测序数据为低深度测序数据。在一些实施例中,所述待测样本的
测序数据的测序深度为8×至29×的任意一个测序深度,具体可以包括但不限于8×、9×、
10×、11×、12×、13×、14×、15×、16×、17×、18×、19×、20×、21×、22×、23×、24×、25
×、26×、27×、28×、29×。
控合格的数据,用于后续分析。
息作为答案集,根据等位基因特异性拷贝数变异信息,获得总拷贝数变异信息为非0偶数区
间的测序数据的起点、终点以及拷贝数变异类型;
样本数据集,将模拟样本数据集中候选信号位点的次等位基因频率分布信息、肿瘤纯度信
息、全基因组复制信息作为机器学习输入特征值,以各个样本的等位基因特异性拷贝数变
异信息作为标签,构建得到机器学习模型。
续的同源重组缺陷预测步骤预测得到的待测样本的结果(即待测样本是否存在同源重组缺
陷)只是中间结果,供后续的疾病诊断参考,属于中间参考信息,不是最终的诊断结果,在实
际应用中,在利用本发明的方法预测待测样本是否存在同源重组缺陷之后,还需要结合受
试者当前的主观感受症状、既往病史、家族遗传史等信息,才能得出最后的诊断结果或健康
状况。单纯根据本发明的等位基因特异性拷贝数变异预测结果和/或同源重组缺陷预测步
骤预测得到的结果是不能直接得到专利法意义上的诊断结果的。因此,本发明的技术方案
不属于疾病的诊断方法,更不属于疾病的治疗方法。并且,本发明还可用于科研中相关疾病
候选药物和/或候选新药的筛选等其他非诊断、非治疗目的。
失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因
不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
息对该综合值进行修正,当全基因组复制信息WGD=0时,取最优阈值C1,当全基因组复制信
息WGD=0时,取最优阈值C2,修正值HRD score=raw HRD score‑WGD*(C1‑C2)。
以根据需要设置具体的比对参考值。
个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷
贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等
位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通
过模型预测得到该区间的等位基因特异性拷贝数变异信息。
个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷
贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等
位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通
过模型预测得到该区间的等位基因特异性拷贝数变异信息;
失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因
不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
本,提取稀释样本的候选BAF特征并按照答案集CNV类型进行标记,增加肿瘤纯度信息和WGD
信息,构建机器学习模型。
2N,N≥1),则提取TCNV=2N(N≥1)区域的BAF特征,作为机器模型的输入,并预测CNV类型,
再转换成ASCNV信息。
(测序深度为30×)。其中涵盖了健康人(健康人的肿瘤为结节或良性的肿瘤)和四大癌种
(卵巢癌、乳腺癌、前列腺癌、膀胱癌)。数据质量过滤(Q20>80%,N<5%);使用BWA软件比
对到人类参考基因组hg19,评估样本的污染率,去掉污染率高的样本(具体是去掉比对率<
90%的样本),所得的剩余样本用于后续分析。
些结果作为答案集。根据ASCNV信息获得“偶数拷贝候选区间”(偶数拷贝候选区间,即该区
间的总拷贝突变数(TCNV)为2N(N≥1))的起点、终点以及CNV类型。
瘤纯度(按照step=0.05获得梯度样本,如肿瘤纯度等于0.9的,则梯度纯度为[0.9,0.85,
0.8,0.75,0.7,...,0.15,0.1])的模拟样本集,且模拟样本集的数据深度为10×。
型候选信号位点BAF分布在0.2和0.4均存在高峰,依据图2可以判断“偶数拷贝候选区间”的
CNV类型为AA型,即cnLOH型。
复等位基因位点;4.突变质量值大于10;5.不在黑名单区间上(后续分析预测模块的黑名单
区间与此处的黑名单相同);6.相邻信号位点距离大于30bp。黑名单区间包括指染色体上重
复序列区域、端粒重复区域等等,黑名单区间的确定可参考文献《The ENCODE Blacklist:
Identification of Problematic Regions of the Genome》(作者:Haley M.Amemiya,
Anshul Kundaje&Alan P.Boyle,在线公开时间:2019年6月7日,文献网址:https://
www.nature.com/articles/s41598‑019‑45839‑z)。
X 1437739 1438052 X 49008986 49009277 X 104048595 104049120 X 147903688 147903972
Y 2709527 2800041 X 54249757 54250495 X 107386780 107682727 X 150161974 150162564
X 2976264 2976543 X 56269370 56269842 X 107683074 107940775 X 152163780 152164039
Y 5661341 5661778 X 63430570 63430866 X 109096541 109097148 X 152669306 152669599
Y 7192338 7192636 X 67819926 67820315 X 110859125 110859401 X 152927611 152928147
X 12413876 12414286 X 69441858 69442164 X 110867438 110867954 X 152931681 152931970
X 13592865 13593185 X 70182814 70183143 X 112099102 112099388 X 153618315 153637504
X 13614355 13614667 X 70304339 70304637 X 113219603 113219893 X 153724167 153724463
Y 14365457 14366162 X 71264395 71264742 X 113824088 113824403 X 153724534 153724819
Y 14394177 14394465 X 71418562 71418898 X 114432995 114433312 1 1340841 1341132
X 16216551 16217412 X 71443094 71443403 X 115108801 115109100 1 3699379 3699673
X 16557262 16557562 X 71475529 71497150 X 117280026 117280524 1 6241329 6269449
X 18933365 18933653 X 72755339 72756077 X 118568482 118568781 1 8335184 8335438
X 20470226 20470549 X 73462445 73462736 X 118920467 118925606 1 9039637 9039933
X 22072271 22072551 X 73610527 73610822 X 121672106 121673313 1 10007376 10007694
Y 22918050 22942918 X 73629353 73629935 X 122844694 122844982 1 10366523 10366813
X 23854761 23855459 X 73673458 73673691 X 127447259 127448026 1 10450059 10450353
X 25078768 25079056 X 74604181 74604663 X 127972419 127972812 1 10676893 10677170
Y 26357107 26357382 X 77140874 77141127 X 128542359 128542598 1 11293020 11293169
X 36392908 36393298 X 78018723 78019396 X 130268062 130268364 1 12096799 12097071
X 39645780 39646077 X 81761883 81762261 X 133741187 133741662 1 19646299 19646554
X 39724678 39725142 X 92828833 92829578 X 133784860 133785441 1 19750878 19751163
X 40794198 40795117 X 94934129 94934626 X 135873223 135873939 1 19934608 19935062
X 41204835 41205129 X 95278359 95278644 X 136677424 136677710 1 20297462 20297760
X 41496727 41497012 X 95450476 95450616 X 137479510 137479787 1 20852482 20853244
X 41542424 41542719 X 95665431 95665781 X 139168014 139168307 1 21330043 21330427
X 44508375 44508965 X 96596045 96596341 X 139553031 139553439 1 22305444 22305729
X 44632021 44632307 X 97506677 97507541 X 142178133 142178463 1 22313974 22314268
X 47140214 47140462 X 100594905 100595922 X 142285034 142285377 1 22330078 22330361
X 47700362 47701101 X 100645812 100651105 X 144138628 144138957 1 22337143 22337437
位基因特异性拷贝数变异(ASCNV)作为参考标签(AA为0,AB为1),构建二分类机器学习模型
(机器学习模型包括朴素贝叶斯模型、决策树模型、SVM模型等)。对训练模型数据,使用十乘
交叉检验模型的健壮性,结果如图4所示,图4中,横坐标为特异性(%),即Specificity
(%),纵坐标为灵敏度(%),即Sensitivity(%),AUC(Area Under Curve)为ROC曲线
(receiver operating characteristic curve,接收者操作特征曲线)下与坐标轴围成的
面积。从图4可以看出,特异性高达91.1%,灵敏度高达95.8%,曲线下面积(AUC)高达
98.0%,说明模型的健壮性非常好。
人类参考基因组上,根据比对率、测序数据量以及覆盖度进行质控,比对率<90%,或测序数
据量小于9×,或者基因组覆盖度(5×深度)小于60%的样本为不合格样本,也即是说,只要
样本不满足前述三个条件中的任一条件,即判定为不合格样本,应重新采样或重新测序,同
时满足比对率≥90%、测序数据量≥9×、基因组覆盖度(5×深度)≥60%的样本为质控合
格的样本,进入后续分析步骤。
处理,转换成ASCNV结果。
即等位基因A和等位基因B数值;另外一些染色体区段TCNV为非0偶数区间,则需通过模型构
建模块中构建的模型进行预测,得到该区间的ASCNV,作为HRD检测模块的输入值之一。
位点测序深度大于6;3.非复等位基因位点;4.突变质量值大于10;5.不在黑名单区间上(黑
名单区间包括指染色体上重复序列区域、端粒重复区域等等);6.相邻信号位点距离大于
30bp。然后提取BAF分布曲线矩阵值,与肿瘤纯度值和WGD值整合作为机器学习。并利用训练
模型进行预测,预测结果即为该区间的CNV类型。按以下规则转换成ASCNV结果:
scarHRD软件分别计算LST score、LOH score、TAI score,并汇总获得raw HRD score。LST
score表示大片段迁移分数,LOH score表示杂合性缺失分数,TAI score表示端粒等位基因
不平衡分数。
为0.8。对两例肿瘤样本进行稀释,具体是将癌旁样本(与对应的肿瘤样本来自同一受试者)
的reads按照特定比例混入到肿瘤样本数据中,降低肿瘤纯度,从而获得梯度肿瘤纯度(按
照step=0.1获得梯度样本,如肿瘤纯度等于0.9的,梯度纯度为[0.8,0.7,...,0.2,0.1])
的模拟样本集,且模拟样本集的数据深度为10×。
的不同肿瘤纯度梯度的数据结果如表3所示。
189006257TD 0.2 14 19 25 58
189006257TD 0.3 16 20 25 61
189006257TD 0.4 16 23 27 66
189006257TD 0.5 16 23 26 65
189006257TD 0.6 16 23 26 65
189006257TD 0.7 15 23 26 64
189006257TD 0.8 16 23 28 67
的HRD score和配对WES检测的HRD score相关性曲线图,图5中,横坐标Pair‑WES HRD
score为23例配对样本(肿瘤组织和癌旁组织)的WES测序数据的检测结果,纵坐标WGS HRD
score为使用本实施例的方法对23例单肿瘤样本的低深度全基因组测序数据进行检测的结
2
果,可见,R=0.8921,说明本实施例的方法与对比例的方法的检测结果相关性非常高,从
而说明两种方法的一致性强。
通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可
以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述
功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上
述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现
时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质
中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通
过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
推演、变形或替换。