一种基于甲基化水平的多癌种检测系统及电子设备转让专利

申请号 : CN202311744645.1

文献号 : CN117423388B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 蔡丽丽刘文冷雪张怡然郝艳同陈慧娟周启明

申请人 : 北京求臻医疗器械有限公司

摘要 :

本发明提供了一种基于甲基化水平的多癌种检测系统及电子设备,属于医疗检测领域,系统包括:样本采集模块,用于采集待测目标的外周静脉血,得到待测样本;甲基化水平提取模块,与样本采集模块连接,用于提取待测样本的循环游离DNA甲基化水平;预测模块,与甲基化水平提取模块连接,用于根据待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定待测样本的类型;类型为肺癌、肝癌、肠癌或健康;多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。本发明实现了多个癌种(肺癌、肠癌、肝癌)的精准检测。

权利要求 :

1.一种基于甲基化水平的多癌种检测系统,其特征在于,所述基于甲基化水平的多癌种检测系统包括:样本采集模块,用于采集待测目标的外周静脉血,得到待测样本;

甲基化水平提取模块,与所述样本采集模块连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平;

内部数据集获取模块,用于采集肺癌患者、肠癌患者、肝癌患者及健康人员的外周静脉血,得到多个训练样本,并提取各训练样本的循环游离DNA甲基化水平,得到内部数据集;

公共数据集获取模块,用于从基因表达综合数据库中下载肺癌、肠癌、肝癌及健康的循环游离DNA全基因组重亚硫酸盐测序数据,得到多个训练样本,并确定各训练样本的循环游离DNA甲基化水平,得到公共数据集;所述内部数据集及所述公共数据集中均包括各训练样本的全基因甲基化水平及各训练样本的类型;

差异分析模块,与所述公共数据集获取模块连接,用于对所述公共数据集中的阳性样本与阴性样本所共有的基因的甲基化水平进行差异分析,使用R语言的limma包,选择foldchange>=2,P值<=0.05的基因作为差异甲基化基因,分三组进行筛选:单一癌种与健康个体进行差异分析,癌种特有的基因;单一癌种和其他癌种数据进行差异分析,癌种特有的基因;单一癌种和其他单一癌种进行差异分析,癌种特有的基因;合并三组差异基因去重后作为最终的差异基因列表;所述阳性样本为类型为肺癌、肠癌或肝癌的训练样本;所述阴性样本为类型为健康的训练样本;

筛选模块,与所述差异分析模块连接,用于根据所述差异基因列表,对所述内部数据集及所述公共数据集进行筛选,得到训练样本集;

训练模块,与所述筛选模块连接,用于采用所述训练样本集,对XGBoost的参数进行优化,以得到多癌种检测模型;

预测模块,与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。

2.根据权利要求1所述的基于甲基化水平的多癌种检测系统,其特征在于,所述甲基化水平提取模块包括:片段提取子模块,用于提取所述待测样本的循环游离DNA片段;

转化子模块,与所述片段提取子模块连接,用于对所述循环游离DNA片段进行重亚硫酸盐转化理,并扩增得到DNA文库;

测序子模块,与所述转化子模块连接,用于对所述DNA文库进行测序,得到所述待测样本的fastq文件;所述fastq文件中包括每个基因的多个读段,每个读段上有多个CpG位点,多个CpG位点分为甲基化CpG位点及未甲基化CpG位点;

比对子模块,与所述测序子模块连接,用于将所述待测样本的的fastq文件中的读段比对到参考基因组上,确定每条片段的位置,得到所述待测样本的bam文件;

甲基化水平确定子模块,与所述比对子模块连接,用于针对任一基因,根据所述bam文件,确定所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,并根据所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,确定所述基因的甲基化水平。

3.根据权利要求1所述的基于甲基化水平的多癌种检测系统,其特征在于,所述XGBoost的参数包括通用参数、提升参数和学习任务参数;

所述训练模块包括:

学习任务参数设置子模块,用于根据学习目标设置学习任务参数;

提升参数设置子模块,用于根据计算资源设置并行处理任务数量;

通用参数调优子模块,用于根据所述训练样本集,对通用参数进行调优,以得到多癌种检测模型。

4.根据权利要求3所述的基于甲基化水平的多癌种检测系统,其特征在于,所述通用参数包括:学习率、最大深度、树的棵树、结点分类阈值、样本采样比例、构造每棵树时列的子采样率及正则化参数。

5.根据权利要求3所述的基于甲基化水平的多癌种检测系统,其特征在于,所述通用参数调优子模块采用网格搜索方式对通用参数进行调优。

6.一种电子设备,其特征在于,所述电子设备包括存储器及处理器;

所述存储器用于存储多癌种检测模型;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型;

所述处理器与所述处理器连接,所述处理器中包括样本采集模块、甲基化水平提取模块及预测模块;

所述样本采集模块用于采集待测目标的外周静脉血,得到待测样本;

所述甲基化水平提取模块分别与所述样本采集模块及所述存储器连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平;

所述预测模块与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康;

所述处理器中还包括:

内部数据集获取模块,用于采集肺癌患者、肠癌患者、肝癌患者及健康人员的外周静脉血,得到多个训练样本,并提取各训练样本的循环游离DNA甲基化水平,得到内部数据集;

公共数据集获取模块,用于从基因表达综合数据库中下载肺癌、肠癌、肝癌及健康的循环游离DNA全基因组重亚硫酸盐测序数据,得到多个训练样本,并确定各训练样本的循环游离DNA甲基化水平,得到公共数据集;所述内部数据集及所述公共数据集中均包括各训练样本的全基因甲基化水平及各训练样本的类型;

差异分析模块,与所述公共数据集获取模块连接,用于对所述公共数据集中的阳性样本与阴性样本所共有的基因的甲基化水平进行差异分析,使用R语言的limma包,选择foldchange>=2,P值<=0.05的基因作为差异甲基化基因,分三组进行筛选:单一癌种与健康个体进行差异分析,癌种特有的基因;单一癌种和其他癌种数据进行差异分析,癌种特有的基因;单一癌种和其他单一癌种进行差异分析,癌种特有的基因;合并三组差异基因去重后作为最终的差异基因列表;所述阳性样本为类型为肺癌、肠癌或肝癌的训练样本;所述阴性样本为类型为健康的训练样本;

筛选模块,与所述差异分析模块连接,用于根据所述差异基因列表,对所述内部数据集及所述公共数据集进行筛选,得到训练样本集;

训练模块,与所述筛选模块连接,用于采用所述训练样本集,对XGBoost的参数进行优化,以得到多癌种检测模型。

说明书 :

一种基于甲基化水平的多癌种检测系统及电子设备

技术领域

[0001] 本发明涉及医疗检测领域,特别是涉及一种基于甲基化水平的多癌种检测系统及电子设备。

背景技术

[0002] 通常,恶性肿瘤从超早期阶段的分子癌变到中晚期阶段的组织癌变,历时超过10年。在这期间,恶性肿瘤从单个细胞生长到近百万的癌变组织,会经过三个阶段。如果能够在长达10年的最佳预防时期,和长达3年的最佳治疗时期介入,无疑会极大提高肿瘤全流程的诊疗效率。但是由于肿瘤含量非常少,很难通过传统的标记物和影像学检出方法检出,液体活检在基因层面对癌症进行筛查,因此可以检测到早期和超早期的变化。
[0003] 液体活检技术通过血液、唾液、尿液等体液样本对肿瘤信号进行循环肿瘤细胞(circulating tumor cell,CTC)、循环游离DNA(circulating cell‑free DNA,cfDNA)、外泌体和微小核糖核酸检测分析,其他前两种研究比较成熟,但是循环肿瘤细胞的量非常少,临床上通常检测循环游离DNA。循环游离DNA中包含点突变、结构变异、拷贝数变异等基因组变异和DNA甲基化,两者相比甲基化具有绝对优势:首先,基因组变异检测方法的极限在0.1%‑0.5%质检,而早期患者的cfDNA浓度一般在0.008%左右,两者存在数量级上的差异,因此通过基因组变异检测的方法灵敏性有限;其次,DNA甲基化发生在肿瘤早期具有组织特异性;再者,体细胞变异通常局限于肿瘤组织亚群,而DNA甲基化在更大的基因组区域内是一致的,更广泛的存在于相同类型的肿瘤中,其结果更稳定。因此,DNA甲基化数据在多个癌种早期筛查方面具有极大的潜在价值,与传统方法相比具有无创、实时动态监测、克服肿瘤异质性、可重复采样、便于连续取样、一次性可检测多种癌型等优点,不同人群中筛查的准确率也有了明显的提升,可辅助临床肿瘤的早期筛查与诊断。
[0004] 目前临床上传统的检测方法有影像学、血清学、组织活检等方法。影像学筛查方法主要基于CT、B超、钼靶、胃肠镜等影像学仪器进行检测,其检出时间的下限为已经产生一定大小的病变肿瘤组织,其检测的准确性和特异性均较好,可作为诊断的金标准,但是胃镜、肠镜给患者带来极大的痛苦,不适合大范围筛查。组织活检主要针对实体瘤,常规检查的样本来源于肿瘤组织,但是由于异质性,组织活检存在很多局限性。血清学主要是基于AFP、CEA等多种血清标志物,但血清标志物假阳性高,检测效率低。虽然基于液体活检的早筛技术已经取得了很大的进步,但是目前只有肠癌产品已上市,广泛应用于临床检测中,其余癌型产品还处于研发阶段,急需一种取样简单、无创、一次性可以覆盖多种癌型(肺癌、肠癌、肝癌)的早筛产品。

发明内容

[0005] 本发明的目的是提供一种基于甲基化水平的多癌种检测系统及电子设备,可实现多个癌种的高精度检测。
[0006] 为实现上述目的,本发明提供了一种基于甲基化水平的多癌种检测系统,包括以下模块。
[0007] 样本采集模块,用于采集待测目标的外周静脉血,得到待测样本。
[0008] 甲基化水平提取模块,与所述样本采集模块连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平。
[0009] 预测模块,与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
[0010] 为实现上述目的,本发明还提供了一种电子设备,包括存储器及处理器。
[0011] 所述存储器用于存储多癌种检测模型;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
[0012] 所述处理器与所述处理器连接,所述处理器中包括样本采集模块、甲基化水平提取模块及预测模块。
[0013] 所述样本采集模块用于采集待测目标的外周静脉血,得到待测样本。
[0014] 所述甲基化水平提取模块分别与所述样本采集模块及所述存储器连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平。
[0015] 所述预测模块与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康。
[0016] 根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提取待测样本的循环游离DNA甲基化水平,根据待测样本的循环游离DNA甲基化水平,采用预先训练好的多癌种检测模型确定待测样本的类型(肺癌、肝癌、肠癌或健康),其中,多癌种检测模型基于XGBoost构建,能够同时检测多个癌种(肺癌、肠癌、肝癌),并提高了检测精度。

附图说明

[0017] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018] 图1为本发明提供的基于甲基化水平的多癌种检测系统的示意图。
[0019] 图2为多癌种检测模型构建的总体流程图。
[0020] 图3为读段及CpG位点的示意图。
[0021] 图4为差异甲基化基因筛选的示意图。
[0022] 图5为多癌种检测模型构建过程的示意图。

具体实施方式

[0023] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0024] 本发明的目的是提供一种基于甲基化水平的多癌种检测系统及电子设备,对cfDNA进行全基因组甲基化测序,使用高通量测序数据分析各个癌种的甲基化水平,基于集成学习极端梯度提升树(XGBoost)算法进行模型训练、优化和测试,实现高精度多个癌种(肺癌、肠癌、肝癌)的早期筛查和高准确性组织溯源的检测。
[0025] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0026] 如图1所示,本发明提供的基于甲基化水平的多癌种检测系统包括:样本采集模块1、甲基化水平提取模块2及预测模块3。
[0027] 其中,样本采集模块1用于采集待测目标的外周静脉血,得到待测样本。
[0028] 甲基化水平提取模块2与所述样本采集模块1连接,甲基化水平提取模块2用于提取所述待测样本的循环游离DNA甲基化水平。所述循环游离DNA甲基化水平包括多个基因的甲基化水平。
[0029] 具体地,所述甲基化水平提取模块2包括:片段提取子模块、测序子模块、比对子模块、甲基化水平确定子模块。
[0030] 片段提取子模块用于提取所述待测样本的循环游离DNA片段。
[0031] 转化子模块与所述片段提取子模块连接,转化子模块用于对所述循环游离DNA片段进行重亚硫酸盐转化理,并扩增得到DNA文库。
[0032] 测序子模块与所述转化子模块连接,测序子模块用于对所述DNA文库进行测序,得到所述待测样本的fastq文件。所述fastq文件中包括每个基因的多个读段,每个读段上有多个CpG位点,多个CpG位点分为甲基化CpG位点及未甲基化CpG位点。
[0033] 比对子模块与所述测序子模块连接,比对子模块用于将所述待测样本的fastq文件中的读段比对到参考基因组上,确定每条片段的位置,得到所述待测样本的bam文件。
[0034] 甲基化水平确定子模块与所述比对子模块连接,甲基化水平确定子模块用于针对任一基因,根据所述bam文件,确定所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,并根据所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,确定所述基因的甲基化水平。
[0035] 其中,未甲基化CpG位点为未转化为胸腺嘧啶的胞嘧啶的CpG位点,甲基化CpG位点为转化为胸腺嘧啶的胞嘧啶的CpG位点。
[0036] 预测模块3与所述甲基化水平提取模块2连接,预测模块3用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型。所述类型为肺癌、肝癌、肠癌或健康。
[0037] 所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的。所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
[0038] 进一步地,在多癌种检测模型构建方面,所述基于甲基化水平的多癌种检测系统还包括:内部数据集获取模块、公共数据集获取模块、差异分析模块及筛选模块。
[0039] 其中,内部数据集获取模块用于采集肺癌患者、肠癌患者、肝癌患者及健康人员的外周静脉血,得到多个训练样本,并提取各训练样本的循环游离DNA甲基化水平,得到内部数据集。
[0040] 具体地,如图2所示,内部数据集获取的过程包括获取原始数据、数据质控及过滤、序列比对、甲基化水平计算及过滤、基因甲基化水平计算。
[0041] (1)获取原始数据。包括对样本进行DNA提取、样本检测、文库构建、文库质检、上机测序等操作,具体如下。
[0042] DNA提取:采集肺癌、肠癌、肝癌患者及健康人的外周静脉血,在采集后6h内,13000×g离心10min后取上层血清,上清液16000×g离心10min,舍去沉淀物。置于‑80℃冰箱保存备用。采用TIANamp Micro DNA Kit试剂盒提取血浆cfDNA,严格按照说明书步骤进行。
[0043] 样本检测:使用Qubit double‑strand molecular probes kit估计DNA片段降解水平。通过3%琼脂糖凝胶电泳判断DNA降解情况,若DNA降解严重可能会影响后续的检测结果,通过电泳的条带推断cfDNA片段的长度,如果片段长度在170bp左右证明DNA质量比较好,保留此样本,进行后续操作,否则结束实验。
[0044] 文库构建:进行DNA片段末端修复、DNA片段的3'端添加碱基A,并进行甲基化接头连接。然后使用EZ DNA Methylation‑gold kitDNA甲基化试剂盒对cfDNA进行重亚硫酸盐处理,得到全基因组重亚硫酸盐测序文库。使用PCR扩增全基因组重亚硫酸盐测序文库中的DNA的量,得到DNA文库。
[0045] 文库质检:得到DNA文库后,先使用Qubit进行定量分析,随后使用Agilent 2100对DNA文库的insert size进行检测,库检合格后,使用qPCR方法对DNA文库的有效浓度进行准确定量,以保证DNA文库的质量。
[0046] 上机测序:使用Illumina Nextseq 550 System测序仪进行测序。获得各样本的fastq文件。
[0047] (2)数据质控及过滤:对原始下机数据fastq格式文件进行质控,包含去除建库时引进的接头序列以及质量低于15的碱基。这些因素会导致后续比对到参考基因组上的读段(reads)较少,或影响后续结果准确性。使用fastp软件对结果进行去除接头序列和低质量碱基等质控步骤,得到过滤后的fastq格式文件。
[0048] (3)序列比对:经过质控的读段需要根据与参考基因组的序列相似性比对到参考基因组上,确定每条片段的位置。使用Bismark软件进行序列比对,得到reads的比对后的bam文件。
[0049] (4)甲基化水平计算及过滤:经重亚硫酸盐转化,未甲基化的胞嘧啶(C)被转化成尿嘧啶(U),甲基化的胞嘧啶保持不变。再经过碱基互补,序列中未甲基化的胞嘧啶的碱基类型仍然是C,甲基化的胞嘧啶的碱基类型变为胸腺嘧啶(T)。每个CpG位点的甲基化水平可根据bam文件中未转化为胸腺嘧啶的胞嘧啶与转化为胸腺嘧啶的胞嘧啶的reads的比例计算得到,并过滤掉低深度位点。
[0050] 即: ;其中C‑reads为未转化为胸腺嘧啶的胞嘧啶的reads数量,T‑reads为转化为胸腺嘧啶的胞嘧啶的reads数量。
[0051] 过滤掉低深度位点:使用脚本统计序列上每个位点所在滑窗内(120bp)的胞嘧啶(C)和鸟嘌呤(G)含量,当CpG位点的个数小于5时,过滤掉该低深度位点。
[0052] 如图3所示,基因组上包含第一CpG位点C1和第二CpG位点C2,每条横线代表一条reads,白色圆代表未甲基化的CpG位点,黑色圆代表甲基化的CpG位点,CpG位点的甲基化水平根据reads上覆盖的甲基化CpG位点和未甲基化CpG位点的比例确定。图3中,第一CpG位点C1的甲基化水平为 ,第二CpG位点C2的甲基化水平为。
[0053] (5)基因甲基化水平计算:每个基因包含多个CpG位点,将包含的所有CpG位点的甲基化水平均值作为此基因的甲基化水平。
[0054] 公共数据集获取模块用于从基因表达综合(Gene Expression Omnibus data base,GEO)数据库中下载肺癌、肠癌、肝癌及健康的循环游离DNA全基因组重亚硫酸盐测序数据,得到多个训练样本,并确定各训练样本的循环游离DNA甲基化水平,得到公共数据集。其中,按照与内部数据相同的处理方式计算每个位点的甲基化水平、过滤低深度位点、计算基因的甲基化水平。
[0055] 所述内部数据集及所述公共数据集中均包括各训练样本的全基因甲基化水平及各训练样本的类型。
[0056] 差异分析模块与所述公共数据集获取模块连接,差异分析模块用于对所述公共数据集中的阳性样本与阴性样本所共有的基因的甲基化水平进行差异分析,得到差异基因列表。所述阳性样本为类型为肺癌、肠癌或肝癌的训练样本。所述阴性样本为类型为健康的训练样本。
[0057] 全基因甲基化数据中包含1万多个基因的甲基化水平,其中大部分基因的甲基化水平在不同癌型和健康样本中无显著差异,所以需要进行特征选择,挑选出在不同类型样本中显著差异的基因的数据用于模型构建,避免无关基因对多癌种筛查造成的负面影响或特征维度太高在模型构建时产生的维度灾难。
[0058] 具体地,如图4所示,使用公共数据集中的阳性样本(肺癌、肠癌、肝癌)和阴性样本(健康)所共有的所有基因的甲基化水平进行差异分析,使用R语言的limma包,选择foldchange>=2,P值<=0.05的基因作为差异甲基化基因,分三组进行筛选。
[0059] (1)单一癌种与健康个体进行差异分析,癌种特有的基因。
[0060] (2)单一癌种和其他癌种数据进行差异分析,癌种特有的基因。
[0061] (3)单一癌种和其他单一癌种进行差异分析,癌种特有的基因。
[0062] 合并三组差异基因去重后作为最终的差异基因列表,如表1。
[0063] 表1 最终的差异基因列表
[0064]ABHD14B EMX1 LOC100335030 RNF113B
ACP1 ENHO LOC100505795 RNF223
AGPAT2 ETV6 LOC100507577 RPL36AL
AGXT FASN LOC283070 RSC1A1
AK055957 FBXW5 LOC619207 SAMD1
ALDH1L1‑AS1 FGFR3 LOC645434 SEPT5‑GP1BB
ALDH3A1 FLJ45513 LOC728819 SEPT9
ALX4 FOXK2 LPP‑AS2 SFRP2
AOC2 GAMT LRRC33 SFRP5
APC GPR135 LRRC4 SIAH1
APEX1 GPR21 METTL23 SLC15A4
ARL11 GPS1 MGC16025 SLC25A47
B4GALT5 GUCA2B MLH1 SLC35B2
BDH1 HDHD3 MPST SLC6A1‑AS1
BMP3 HGFAC MSL2 SLC9A3R2
BTBD6 HIC1 MTRNR2L3 SMPD2
C11orf86 HLTF MYEOV SPHK2
C2orf82 HNRNPC NAA60 STK25
CA9 HNRNPM NCK2 STUB1
CAPN12 HOXA1 NDRG4 STX11
CBX4 HSPB7 NDUFB7 SYNGR2
CD2BP2 IGF2‑AS NELFCD TAAR3
CDC42 IGFALS NUDT14 TAAR5
CEACAM8 ILK PANK2 TBCC
CEL IRF2 PCGF3 TGOLN2
CLEC11A IRS2 PIP4K2A TSPYL1
COL18A1‑AS2 ISG15 PLD6 TSSK3
COTL1 IST1 PPP1R16A USP22
CRYBB3 ITGA4 PROZ YWHAE
CSNK2A3 ITPRIPL2 PSAPL1 YWHAZ
CXCL5 JARID2 PTBP1 ZADH2
DAB2IP KBTBD6 PTP4A2 ZBTB12
DHRS3 KBTBD7 PXDC1 ZBTB16
DKK4 KLHL9 QPRT ZDHHC7
DOC2GP LBX2 RAB10 ZEB2
E4F1 LCAT RAB1A ZNF516
EDN2 LGMN RAB20 ZNF764
EEF2 LINC00319 RAC1 ZSWIM8‑AS1
EGOT LINC00341 RD3L
EMP3 LINC00656 RER1
[0065] 作为一种具体的实施方式,通过阳性样本(肺癌331例患者、肠癌444例患者、肝癌767例患者)和阴性样本(健康949例样本)进行差异分析,分三组进行筛选。
[0066] (1)单一癌种与健康个体进行差异分析,得到55个癌种特有的基因。
[0067] (2)单一癌种和其他癌种数据进行差异分析,得到43个癌种特有的基因。
[0068] (3)单一癌种和其他单一癌种进行差异分析,得到68个癌种特有的基因。
[0069] 合并三组差异基因去重后共158个作为最终差异基因列表。
[0070] 筛选模块与所述差异分析模块连接,筛选模块用于根据所述差异基因列表,对所述内部数据集及所述公共数据集进行筛选,得到训练样本集。
[0071] 具体地,根据差异基因列表从内部数据集和公共数据集中提取出公共数据子集和内部数据子集作为训练样本集。其中,公共数据子集按照7:3分为训练集和验证集,内部数据子集作为独立测试集,每个数据集中均包含阳性样本(肺癌、肠癌、肝癌)和阴性样本(健康)。
[0072] 作为一种具体的实施方式,如图5所示,公共数据子集中包括2491例样本。训练集中包括1744例样本,肺癌232例,肠癌311例,肝癌537例,健康664例。验证集中包括747例样本,肺癌99例,肠癌133例,肝癌230例,健康285例。内部数据子集中包括491例样本,肺癌65例,肠癌78例,肝癌135例,健康213例。
[0073] 训练模块与所述筛选模块连接,训练模块用于采用所述训练样本集,对XGBoost的参数进行优化,以得到多癌种检测模型。
[0074] 为建立多癌种检测模型,本发明使用Python3的sklearn包,根据训练集和验证集进行模型构建和参数优化。具体地,所述XGBoost的参数包括通用参数、提升参数和学习任务参数。所述训练模块包括:学习任务参数设置子模块、提升参数设置子模块及通用参数调优子模块。学习任务参数设置子模块用于根据学习目标设置学习任务参数。提升参数设置子模块用于根据计算资源设置并行处理任务数量。通用参数调优子模块用于根据所述训练样本集,对通用参数进行调优,以得到多癌种检测模型。
[0075] 本实施例中,通用参数包括:学习率、最大深度、树的棵树、结点分类阈值、样本采样比例、构造每棵树时列的子采样率及正则化参数。所述通用参数调优子模块采用网格搜索方式对通用参数进行调优。
[0076] 极端梯度提升树(XGBoost)是一种集成学习的模型,其核心思想为:不断进行特征分类,生长一棵树,每次添加一颗新树,本质上是学习一个新的函数f(x)去拟合上次预测的残差。当训练完得到k颗树后,将待测样本的特征输入模型中,在每棵树上寻找对应的一个叶子结点,每个叶子结点对应一个分数;最后将每棵树对应的分数求和,得到该待测样本的预测值。目前XGBoost模型封装在python3的xgboost模块中。
[0077] 模型构建的具体步骤为:首先,根据学习目标为多癌种早期筛查将模型的学习任务参数设为多分类参数(objective=’multi:softmax’,eval_metric=’error’,seed=27)。然后,根据计算资源将并行处理任务数设为3(nthread=3)。最后,输入训练集数据特征和对应的类别标签,进行模型构建,得到初始的多癌种检测模型。
[0078] XGBoost模型包含很多通用参数,合理的参数设置可以得到最优的预测效果,本发明采用网格搜索的方式进行模型参数优化,挑选验证集中敏感性+特异性值最高的参数作为多癌种检测的最优模型。模型参数优化的步骤如下。
[0079] (1)设置学习率etc。其取值范围为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],etc=0.5时,模型性能最优。
[0080] (2)进行最大深度max_depth和树的棵树n_estinators调优。max_depth的取值范围为[1,2,3,4,5,6,7,8,9,10],n_estinators的取值范围为[1,6,11,16,21,26,31,36,41,46,51]。当max_depth=3和n_estinators=11时,模型性能最优。
[0081] (3)结点分类阈值gamma调优,gamma的取值范围为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]。当gamma=0.1时,模型性能最优。
[0082] (4)对样本采样比例Subsample和构造每棵树时列的子采样率colsample_bytree进行调优,Subsample和colsample_bytree的取值范围均为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],当Subsample=0.8,colsample_bytree=0.7时,模型性能最优。
[0083] (5)对正则化参数reg_lambda和reg_alpha进行调优,取值范围均为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],当reg_lambda=1,reg_alpha=0.6时,模型性能最优。
[0084] 本实施例中,最终的模型参数为:n_estinators=11,max_depth=3,gamma=0.1,Subsample=0.8,colsample_bytree=0.7,reg_lambda=1,reg_alpha=0.6,eta=0.5。
[0085] 本发明使用测试集,通过灵敏性、特异性、组织溯源准确性作为性能评价核心参数,评估多癌种检测模型的性能。灵敏性指所有实际患癌人群中检测出阳性的比例,代表多癌种检测模型对患者的检出能力水平。特异性指在所有实际未患癌的人群中检出阴性的比例,代表多癌种检测模型对健康人群的排除水平。两个参数从技术层面上体现了多癌种检测模型对受检群体的分辨能力,计算方法如表2。
[0086] 表2 性能指标
[0087]
[0088] 灵敏性=真阳性人群/实际患癌人群=TP/A。
[0089] 特异性=真阴性人群/实际未患癌人群=TN/B。
[0090] 组织溯源准确性=(真阳性人群+真阴性人群)/总人数=(TP+TN)/N。
[0091] 本发明建立的多癌种检测模型在训练集、验证集上的敏感性可达到95%以上,特异性可达到96%以上,组织溯源准确性可达到93%以上,测试集的敏感性可达到94%,特异性可达到93%,组织溯源准确性可达到93%以上,未出现不同集合间差异太大的问题,具体结果如表3至表8所示。
[0092] 表3 训练集预测结果
[0093]
[0094] 表4 验证集预测结果
[0095]
[0096] 表5 训练集组织溯源结果
[0097]
[0098] 表6 验证集组织溯源结果
[0099]
[0100] 表7 测试集预测结果
[0101]
[0102] 表8 测试集组织溯源结果
[0103]
[0104] 本发明使用公共数据集和自建队列进行差异甲基化基因筛选,基于差异甲基化基因的cfDNA甲基化水平通过集成学习进行多个癌种的检测,多癌种检测模型可通过一次检查,进行三种最常见癌种的早期筛查和组织溯源,无创且检测敏感性、特异性、组织溯源准确性高。
[0105] 此外,本发明还提供了一种电子设备,包括存储器及处理器。
[0106] 所述存储器用于存储多癌种检测模型。所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的。所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
[0107] 所述处理器与所述处理器连接,所述处理器中包括样本采集模块1、甲基化水平提取模块2及预测模块3。
[0108] 所述样本采集模块1用于采集待测目标的外周静脉血,得到待测样本。
[0109] 所述甲基化水平提取模块2分别与所述样本采集模块1及所述存储器连接,用于提取所述待测样本的循环游离DNA甲基化水平。
[0110] 所述预测模块3与所述甲基化水平提取模块2连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康。
[0111] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0112] 本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。