基于肺部CT与多基因甲基化的肺结节分类方法及产品转让专利

申请号 : CN202310112740.3

文献号 : CN115984251B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 钟晟郑杰张俊叶伟星任翔严晓芹刘丹

申请人 : 成都泰莱生物科技有限公司

摘要 :

本发明实施例中公开了一种基于肺部CT与多基因甲基化的肺结节分类方法及产品,该方法包括:基于肺结节患者肺部CT影像而获得用于肺结节分类鉴别的影像特征,并将影像特征输入第一分类预测模型,得到第一分类预测结果;基于肺结节患者的cfDNA的多基因甲基化标志物的循环阈值检测结果而获得用于肺结节分类鉴别的循环阈值特征,并将循环阈值特征输入第二分类预测模型,得到第二分类预测结果;将第一预测结果和第二预测结果输入至第三分类预测模型,得到肺结节分类预测结果;因此,本发明能够结合基于肺部CT影像而获得的影像特征与基于多基因甲基化标志物的循环阈值特征共同作用于肺结节分类预测,可提高肺结节分类预测灵敏度和准确率。

权利要求 :

1.基于肺部CT与多基因甲基化的肺结节分类方法,其特征在于,包括:

基于肺结节患者肺部CT影像而获得用于肺结节分类鉴别的影像特征,并将所述影像特征输入第一分类预测模型,得到第一分类预测结果;

基于所述肺结节患者的cfDNA的多基因甲基化标志物的循环阈值检测结果而获得用于肺结节分类鉴别的循环阈值特征,并将所述循环阈值特征输入第二分类预测模型,得到第二分类预测结果;

将所述第一分类预测结果和所述第二分类预测结果输入至第三分类预测模型,得到肺结节分类预测结果;

其中,基于肺结节患者肺部CT影像而获得用于肺结节分类鉴别的影像特征包括以下步骤:S1:基于肺部CT影像中肺结节的完整空间信息,生成用于包含对应肺结节的完整空间信息的正方体空间;

S2:将所述正方体空间切分为若干个同等大小的正方体子空间,并获取经过每个所述正方体子空间中心的横切面、纵切面以及矢状切面;

S3:对所述正方体空间内各个所述正方体子空间对应的横切面、纵切面以及矢状切面进行向量化,得到具有连贯性的浅特征;在步骤S3中,采用第二神经网络对所述正方体空间内各个所述正方体子空间对应的横切面、纵切面以及矢状切面进行向量化;其中,所述浅特征的表达式为: ;其中, 为第i个正方体空间的第m个正方体子空间的特征向量,其包含 ,其中, 为第m个三维正方体子空间的横

切面信息, 为第m个三维正方体子空间的纵切面信息, 为第m个三维正方体子空间的矢状面信息;

S4:将所述浅特征输入至具有至少一个注意力池化模块的第一神经网络进行特征提取,得到用于肺结节分类鉴别的影像特征;其中,所述第一神经网络进行特征提取包括以下步骤:S401:将所述浅特征输入至第一注意力池化模块进行注意力池化操作,而得到第一状态浅特征;

S402:将所述第一状态浅特征输入至多层感知机对进行特征映射,而得到第二状态浅特征;

S403:将所述第二状态浅特征输入至第二注意力池化模块进行注意力池化操作,而得到第三状态浅特征;

S404:将所述第三状态浅特征输入至Transformer模块进行特征提取,得到用于肺结节分类鉴别的特征。

2.如权利要求1所述的基于肺部CT与多基因甲基化的肺结节分类方法,其特征在于,所述S404中,所述Transformer模块进行特征提取的方式为:对输入的所述第三状态浅特征分别进行Patch Embedding和Position Embedding,并将经Patch Embedding和Position Embedding处理的结果相叠加后输入至Transformer Encoder,得到用于肺结节分类鉴别的特征。

3.如权利要求1所述的基于肺部CT与多基因甲基化的肺结节分类方法,其特征在于,所述注意力池化操作包括:计算输入的特征中每个特征向量的注意力得分,并将输入的特征中每个特征向量与其注意力的乘积求和,得到输出的特征。

4.如权利要求1所述的基于肺部CT与多基因甲基化的肺结节分类方法,其特征在于,基于所述肺结节患者的cfDNA的多基因甲基化标志物的循环阈值检测结果包括所述多基因甲基化标志物及其内参基因的循环阈值;所述循环阈值特征为所述多基因甲基化标志物或所述多基因甲基化标志物与其内参基因的循环阈值的差值。

5.如权利要求4所述的基于肺部CT与多基因甲基化的肺结节分类方法,其特征在于:所述多基因甲基化标志物为ARL9、SHOX2、RASSF1A、APC、PCDHGC5、PTGER4等6个基因序列或其片段的任意组合。

6.如权利要求4所述的基于肺部CT与多基因甲基化的肺结节分类方法,其特征在于,所述第二分类预测模型采用M折交叉验证法对训练集进行训练,其中,所述M折交叉验证法将数据集分割为M‑1个训练用的训练数据集和1个验证用的测试数据集。

7.如权利要求6所述的基于肺部CT与多基因甲基化的肺结节分类方法,其特征在于:将多种备选分类预测模型分别进行设定次数的训练,获取每种备选分类预测模型每次训练的AUC得分,并选择AUC得分的平均值和标准差满足相应条件的备选分类预测模型作为所述第二分类预测模型。

8.如权利要求6所述的基于肺部CT与多基因甲基化的肺结节分类方法,其特征在于:所述第三分类预测模型为logistic回归模型。

9.一种肺结节分类装置,其特征在于,包括:

一个或多个处理器;以及,用于存储所述处理器可执行指令的存储器;

所述一个或多个处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现如权利要求1‑8任一所述的基于肺部CT与多基因甲基化的肺结节分类方法。

10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被一个或多个处理器执行时实现如权利要求1‑8任一所述的基于肺部CT与多基因甲基化的肺结节分类方法。

说明书 :

基于肺部CT与多基因甲基化的肺结节分类方法及产品

技术领域

[0001] 本发明涉及医疗影像处理技术、基因甲基化标志物检测技术以及人工智能技术,特别涉及一种基于肺部CT与多基因甲基化的肺结节分类方法及产品。

背景技术

[0002] 肺癌是所有恶性肿瘤中最常见最致命的一种。早期肺癌检出率低于25%,但是早期肺癌5年生存率达到70%,不过由于肺癌的早期特征不明显,采用影像学手段(如低剂量CT),存在假阳性率过高的问题,只有通过定期随访比较肺结节的外部特征和内部特征,才能够提高准确率;但是,CT 检查毕竟含有一定量的辐射,高频率多次的检查可能会对身体造成额外的损伤。
[0003] 由于肿瘤细胞会主动(分泌)或被动(细胞凋亡或坏死)地将核酸分子释放到血液中,即循环肿瘤 DNA(circulating tumor DNA,ctDNA)。由于ctDNA 能更全面地反映肿瘤细胞的全局;因此,近年来,基于血液的液态活检逐渐成为癌症早筛和早诊的一种重要手段;而且,已有很多研究指出,DNA 甲基化与癌症的发生密切相关,将DNA 甲基化相关的生物标志物用于癌症的早期筛查和诊断具有较好的前景,但目前尚缺乏高灵敏度和特异性的肿瘤标志物。
[0004] 随着人工智能的广泛应用,利用人工智能技术辅助临床高效且准确鉴别肺结节,能够很大程度地降低临床医生的工作强度,并改善漏诊和误诊情况。然而目前,单维度的肺结节良恶性分类模型的灵敏度和准确率很难显著提高,比如基于CT影像的肺结节良恶性分类方法,主要通过不同的分类模型和不同的特征提取方式的改进,来提高分类灵敏度和准确率;比如基于影像组学和生物组学的肺结节良恶性分类模型已被认为是进一步提高分类灵敏度和准确率的有力手段,但仍处于研究探索阶段。

发明内容

[0005] 本发明实施例中提供一种基于肺部CT与多基因甲基化的肺结节分类方法,能够结合基于肺部CT影像而获得的影像特征与基于多基因甲基化标志物的循环阈值特征共同作用于肺结节分类预测,可提高肺结节分类预测灵敏度和准确率。
[0006] 本发明的第一方面,提供一种基于肺部CT与多基因甲基化的肺结节分类方法,其包括:
[0007] 基于肺结节患者肺部CT影像而获得用于肺结节分类鉴别的影像特征,并将所述影像特征输入第一分类预测模型,得到第一分类预测结果;
[0008] 基于所述肺结节患者的cfDNA的多基因甲基化标志物的循环阈值检测结果而获得用于肺结节分类鉴别的循环阈值特征,并将所述循环阈值特征输入第二分类预测模型,得到第二分类预测结果;
[0009] 将所述第一分类预测结果和所述第二分类预测结果输入至第三分类预测模型,得到肺结节分类预测结果。
[0010] 在一些可能的实施例中,基于肺结节患者肺部CT影像而获得用于肺结节分类鉴别的影像特征包括以下步骤:
[0011] S1:基于肺部CT影像中肺结节的完整空间信息,生成用于包含对应肺结节的完整空间信息的正方体空间;
[0012] S2:将所述正方体空间切分为若干个同等大小的正方体子空间,并获取经过每个所述正方体子空间中心的横切面、纵切面以及矢状切面;
[0013] S3:对所述正方体空间内各个所述正方体子空间对应的横切面、纵切面以及矢状切面进行向量化,得到具有连贯性的浅特征;
[0014] S4:将所述浅特征输入至具有至少一个注意力池化模块的第一神经网络进行特征提取,得到用于肺结节分类鉴别的影像特征。
[0015] 在本实施例中,通过将肺部CT影像中每个肺结节的完整空间信息进行分块处理,并将肺结节的各个分块的不同切面信息进行向量化,再利用具有注意力机制的池化模块的神经网络进行特征提取,从而提取到更多具有代表性的用于肺结节分类鉴别的影像特征,应用在第一分类预测模型的训练过程中能够增强学习到信息的有效性,并降低模型的训练难度。
[0016] 在一些可能的实施例中,基于所述肺结节患者的cfDNA的多基因甲基化标志物的循环阈值检测结果包括所述多基因甲基化标志物及其内参基因的循环阈值;所述循环阈值特征为所述多基因甲基化标志物或所述多基因甲基化标志物与其内参基因的循环阈值的差值。
[0017] 进一步地,所述多基因甲基化标志物为ARL9、SHOX2、RASSF1A、APC、PCDHGC5、PTGER4等6个基因序列或其片段的任意组合。
[0018] 在本实施例中,由于每个基因对不同类型的早期肺癌的预测效力差别较大,因此,通过选择对多个类型的早期肺癌的预测效力较好的基因作为标志物,同时,不同基因甲基化的检查具有一定的协同作用,能够进一步提高早期肺癌的预测效力。
[0019] 本发明的第二方面,提供一种肺结节分类装置,其包括:
[0020] 一个或多个处理器;以及,用于存储可执行指令的存储器;
[0021] 所述一个或多个处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现本发明第一方面提供的基于肺部CT与多基因甲基化的肺结节分类方法。
[0022] 本发明的第三方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被一个或多个处理器执行时实现本发明第一方面提供的基于肺部CT与多基因甲基化的肺结节分类方法。

附图说明

[0023] 图1为本发明实施例提供的肺结节分类方法的流程示意图;
[0024] 图2为本发明实施例提供的获取影像特征的流程示意图;
[0025] 图3为本发明实施例提供的获得第一分类预测结果的工作过程的示意图;
[0026] 图4为本发明实施例提供的第一神经网络的工作过程的示意图;
[0027] 图5为本发明实施例提供的第一神经网络进行特征提取的流程示意图;
[0028] 图6为本发明实施例提供的Transformer模块的工作流程示意图;
[0029] 图7为本发明实施例提供的第一分类预测模型、第二分类预测模型以及第三分类预测模型在217 例独立验证集的ROC曲线的对比图;
[0030] 图8为本发明实施例提供的装置的结构示意图。

具体实施方式

[0031] 下面结合附图及具体实施例对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
[0032] 如图1所示,本发明实施例提供的基于肺部CT与多基因甲基化的肺结节分类方法,其包括:
[0033] 基于肺结节患者肺部CT影像而获得用于肺结节分类鉴别的影像特征,并将所述影像特征输入第一分类预测模型,得到第一分类预测结果;
[0034] 基于所述肺结节患者的cfDNA的多基因甲基化标志物的循环阈值检测结果而获得用于肺结节分类鉴别的循环阈值特征,并将所述循环阈值特征输入第二分类预测模型,得到第二分类预测结果;
[0035] 将所述第一分类预测结果和所述第二分类预测结果输入至第三分类预测模型,得到肺结节分类预测结果。
[0036] 具体的,如图2和图3所示,本发明实施例中基于肺结节患者肺部CT影像而获得用于肺结节分类鉴别的影像特征包括以下步骤:
[0037] S1:基于肺部CT影像中肺结节的完整空间信息,生成用于包含对应肺结节的完整空间信息的正方体空间;具体的,在步骤S1中,需要通过计算机断层扫描技术获取病患的肺部CT影像,再由放射科医师浏览肺部CT影像并操作软件标记出肺部CT影像内的肺结节,生成该肺部CT影像的标记文件,通过读取该肺部CT影像的标记文件,即可得到该肺部CT影像中肺结节的完整空间信息;然后,通过块状化处理,将肺结节的区域通过标注坐标定位在统一大小的正方体空间内,如此可以保证信息处理的维度一致性。
[0038] S2:将所述正方体空间切分为若干个同等大小的正方体子空间,并获取经过每个所述正方体子空间中心的横切面、纵切面以及矢状切面;具体的,由于包含肺结节的完整空间信息的正方体空间相当于是一个空间实体,通过切块处理,将该正方体空间切分成多个正方体子空间后,使每个正方体子空间内都具有部分肺结节的三维空间信息,再通过切面处理,将每个正方体子空间具有的部分肺结节的三维空间信息转换为二维信息。
[0039] S3:对所述正方体空间内各个所述正方体子空间对应的横切面、纵切面以及矢状切面进行向量化,得到具有连贯性的浅特征;具体的,在步骤S3中,采用第二神经网络对所述正方体空间内各个所述正方体子空间对应的横切面、纵切面以及矢状切面进行向量化;其中,所述浅特征的表达式为: ;其中, 为第i个正方体空间的第
m个正方体子空间的特征向量,其包含 ,其中, 为第m个三维正方
体子空间的横切面信息, 为第m个三维正方体子空间的纵切面信息, 为第m个三维正方体子空间的矢状面信息。进一步地,第二神经网络采用轻量级网络MobileNet‑V2,相对于传统卷积神经网络,基于分层卷积网络的MobileNet‑V2对空间特征的学习能力更强。
[0040] S4:将所述浅特征输入至具有至少一个注意力池化模块的第一神经网络进行特征提取,得到用于肺结节分类鉴别的影像特征。具体的,注意力池化模块是在池化模块中引入了注意力机制,能够避免直接平局池化处理而造成信息丢失。
[0041] 在实施时,如图4所示,第一神经网络100的架构包括:第一注意力池化模块101、多层感知机102、第二注意力池化模块103以及Transformer模块104。进一步地,如图5所示,第一神经网络100进行特征提取包括以下步骤:
[0042] S401:将浅特征输入至第一注意力池化模块进行注意力池化操作,而得到第一状态浅特征;
[0043] S402:将所述第一状态浅特征输入至多层感知机进行特征映射,而得到第二状态浅特征;
[0044] S403:将所述第二状态浅特征输入至第二注意力池化模块进行注意力池化操作,而得到第三状态浅特征;
[0045] S404:将所述第三状态浅特征输入至Transformer模块进行特征提取,得到用于肺结节分类鉴别的影像特征。
[0046] 其中,第一注意力池化模块和第二注意力池化模块可根据实际应用需求配置包括多个基于注意力机制的池化层;而且,注意力池化操作包括:计算输入的特征中每个特征向量的注意力得分,并将输入的特征中每个特征向量与其注意力的乘积求和,得到输出的特征。其中,注意力池化操作通过以下公式表达: ; ;其中, ,hk表示输入特征中的第k个特征向量,ak表示第k个特征向量的
注意力得分,Z表示经过注意力池化操作的输出特征。
[0047] 如图5所示,在S404中,所述Transformer模块进行特征提取的方式为:对输入的所述第三状态浅特征分别进行Patch Embedding和Position Embedding,并将经Patch Embedding和Position Embedding处理的结果相叠加后输入至Transformer Encoder,得到用于肺结节分类鉴别的特征。
[0048] 在第一神经网络进行特征提取之前,在三维层面,通过将包含肺结节的完整空间信息的正方体切分为若干个同等大小的正方体子空间,丰富肺结节的特征信息,但也会使具有相关性的正方体子空间之间产生一定空间距离;在二维层面,通过在每个正方体子空间的基础上进行切面,获取经过每个正方体子空间中心的横切面、纵切面以及矢状切面,进一步丰富肺结节的特征信息,同样也会进一步扩大具有相关性的切面特征的距离;那么,所述正方体空间内各个正方体子空间对应的横切面、纵切面以及矢状切面进行向量化后获得的浅特征,其在不同位置的特征信息也必然有关联性。
[0049] 由于Transformer模块的基础单元是attention神经元,由于attention神经元的特点在于:能够无视两个特征点在空间上的距离长短而计算它们相互之间的关联性。因此,采用Transformer模块对浅特征进行提取,能够观察到不同位置的特征信息的关联性,进而提取出更多具有代表性的用于肺结节分类鉴别的影像特征。
[0050] 再结合图3所示,通过上述步骤S1 S4,获取用于肺结节分类鉴别的影像特征后,将~获取的影像特征输入至第一分类预测模型中,即可得到第一分类预测结果。在实施时,第一分类预测模型为多层感知机,且通过配置多层感知机的输出层输出特征矩阵或预测概率作为第一分类预测结果。
[0051] 具体的,基于肺结节患者的cfDNA的多基因甲基化标志物的循环阈值检测结果包括多基因甲基化标志物及其内参基因的循环阈值;所述循环阈值特征为所述多基因甲基化标志物或所述多基因甲基化标志物与其内参基因的循环阈值的差值。其中,多基因甲基化标志物为ARL9、SHOX2、RASSF1A、APC、PCDHGC5、PTGER4等6个基因序列或其片段的任意组合。
[0052] 以多基因甲基化标志物为ARL9、SHOX2、RASSF1A、APC、PCDHGC5、PTGER4为例;首先,通过对肺结节患者的血浆样本进行一系列处理,提取出血浆中的cfDNA,接着,对提取出的cfDNA进行亚硫酸氢盐转化,并对转化后的cfDNA进行纯化,再接着,完成PCR预反应液和PCR反应板的准备后,通过PCR分析系统PCR甲基化检测;其中,PCR预混液中仅包含所选取的荧光染料,ARL9基因、SHOX2基因、RASSF1A基因、APC基因、PCDHGC5基因、PTGER4基因分别选择不同的荧光通道,ACTB基因选取Cy5通道;最后,由PCR分析系统输出每一个基因甲基化的循环阈值(Ct 值)。如果某一个样本无S型扩增曲线,则将该基因甲基化的 Ct 设为 50。取每一个基因甲基化 Ct 值减去ACTB内参基因的 Ct 值,即可得到每一个基因甲基化的ΔCt 值。
[0053] 对于第二分类预测模型的模型的构建可选择岭回归(Ridge Regression)、支持向量机回归(Support Vector Regression)、随机森林(Forests of randomized trees)、Adaboost等常见的机器学习算法;而为了获得最优的分类器,将岭回归(Ridge Regression)、支持向量机回归(Support Vector Regression)、随机森林(Forests of randomized trees)、Adaboost均作为备选分类预测模型分别进行设定次数的训练,获取每种备选分类预测模型每次训练成功后的AUC得分,并选择AUC得分的平均值和标准差满足相应条件的备选分类预测模型作为第二分类预测模型。
[0054] 具体的,通过收集具有明确病理诊断信息的160 例早期肺癌患者(原位肺腺癌 49 例,微浸润性肺腺癌 54 例和浸润性肺腺癌 57 例)和 48 例良性结节患者的血浆样本,并对血浆样本进行 ARL9、SHOX2、RASSF1A、APC、PCDHGC5和PTGER4基因的甲基化检测,获取 Ct 值数据样本和ΔCt 值数据样本;采用数据分层的方式将数据集按照50%:50%的比例随机划分为训练集和验证集。其中,训练集数据参与模型的构建,超参数的优化;验证集为独立的数据集,不参与模型构建的任意过程,主要用于模型效果的泛化性能评估。
[0055] 再采用 5 折交叉验证,对每种分类算法,每一次按照分层取样的方式将训练集划分成 5 等份(阳性样本和阴性样本在每一折中的比例相同),随机选择其中的 4 份作为训练集用于分类模型的构建,其余的 1 份作为测试集数据进行验证。重复上述过程 20 次,总共得到 100 个模型的 AUC 得分,并分别计算每一个模型的平均 AUC 得分和 AUC 标准偏差,统计结果如表1所示:
[0056] 表1
[0057] 。
[0058] 通过对表1的统计结果分析,优先选择AUC 得分最大的分类器,若不同分类器的 AUC 得分相近,则取AUC标准偏差小的分类模型作为最终的分类器。通过比较,最终选择随机森林作为最终的分类器。
[0059] 最后,采用随机森林算法作为第二分类预测模型的分类器,利用全部的训练数据进行超参数优化,得到训练成功的第二分类预测模型和临界阈值 (Cutoff),利用训练成功的第二分类预测模型验证集中的样本进行预测,获得每一个样本来源于肿瘤样本的概率(P‑value),P‑value >= 0.5000,则被认为是来源于肿瘤患者,反之,则被认为是来源于正常样本。
[0060] 结果显示,模型在验证集中的 AUC 得分为 0.8104。对于 80例肺部恶性结节血浆样本,检测出 65 例样本的预测分值高于Cutoff值,对恶性结节分类的总的灵敏度为 81.25%。对 24 例肺部良性结节血浆样本,检测出 17 例样本的预测分值低于 Cutoff 值,特异性为 70.83%。该模型对这批样本的准确性为 78.85%。
[0061] 具体的,第三分类预测模型为logistic回归模型;而对于第三分类预测模型的训练,首先,通过收集有明确病理诊断信息的 282 例早期肺癌患者(原位肺腺癌 90 例 ,微浸润性肺腺癌 95 例和浸润性肺腺癌 97 例)和 152 例良性结节患者的血浆样本以及CT图像。
[0062] 接着,基于每个患者肺部CT影像而获得用于肺结节分类鉴别的影像特征,并将影像特征输入训练完成的第一分类预测模型,得到每个患者第一分类预测结果;基于每个患者的cfDNA的多基因甲基化标志物的循环阈值检测结果而获得用于肺结节分类鉴别的循环阈值特征,并将所述循环阈值特征输入训练完成的第二分类预测模型,得到第二分类预测结果;从而得到434例肺结节样本的数据集。进一步将434例样本的数据集分为217 例肺结节 (141 例恶性,76 例良性)样本的独立验证集以及217 例肺结节 (141 例恶性,76 例良性)样本的训练集。
[0063] 在实施时,第一分类预测结果和第二分类预测结果为特征矩阵或预测分值。以第一分类预测结果和第二分类预测结果为预测分值为例,第三分类预测模型以多基因甲基化预测分值和 CT 影像预测分值为自变量,肺结节的良恶性作为因变量,并基于logistic回归模型构建多维度联合诊断模型,并利用上述步骤中得到的数据集进行训练。
[0064] 训练完成后,采用 217 例肺结节 (141 例恶性,76 例良性)样本的独立验证集对训练完成的第三分类预测模型进行验证,同时,以AUC分值、灵敏度、特异性和准确度为评价指标,分别评价第一分类预测模型(CT AI)、第二分类预测模型(PCR)和第三分类预测模型(CT AI+PCR)的分类效果,具体的数据统计结果如表2所示:
[0065] 表2
[0066] 。
[0067] 根据表2所示的统计结果,以及图7所示的ROC 曲线对比图,在肺结节良恶性的分类性能上,第三分类预测模型(CT AI+PCR)明显优于第二分类预测模型(PCR)(AUC: 0.8358, 95% CI: 0.7865‑0.8851,准确度:73.73%,95% CI: 67.88%‑79.59%)或第一分类预测模型(CT AI)(AUC: 0.8549, 95% CI: 0.8080‑0.9018,准确度:80.18%,95% CI: 
74.88%‑85.49%)。
[0068] 其中,受试者工作特征曲线 (Receiver Operating Characteristic Curve,ROC曲线) 是根据一系列不同的二分类方式(分界值),以真阳性率(敏感性)为纵坐标,假阳性率(1‑特异性)为横坐标绘制的曲线。
[0069] 受试者曲线下面积(Area Under Curve),被定义为 ROC 曲线下的面积。AUC值常用来评价分类的分类效果。AUC 数值越大,则对应的分类器效果越好;反之,则对应的分类器效果越差。
[0070] 灵敏度(Sensitivity),指所有正例中被分对的比例,衡量了分类器对正例的识别能力。其计算公式为: 。
[0071] 特异性(Specificity),指所有负例中被正确识别为负例的比例,衡量了分类器对负例的识别能力。其计算公式为:  。
[0072] 其中,真阳性(True Positives,TP),样本为正,预测结果为正;假阳性(False Positivies,FP),样本为负,预测结果为正;真阴性(True Negatives,TN),样本为负,预测结果为负;假阴性(False Negatives,FN),样本为正,预测结果为负。
[0073] 如图8所示,该电子装置包括处理器,其可以根据存储在只读存储器(ROM)中的计算机程序或者从存储单元加载到随机访问存储器(RAM)中的计算机程序,来执行各种运算操作。在RAM中,还可存储电子设备操作所需的各种程序和数据。处理器、ROM 以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线,通信单元、输入单元和输出单元通过I/O接口连接至总线,从而实现电子设备与外部设备的数据交互。因此,在该电子装置中的只读存储器(ROM)或者存储单元中存储用于实现本发明实施例提供的基于肺部CT与多基因甲基化的肺结节分类方法的计算机程序或可执行指令,即可得到一种肺结节分类装置。
[0074] 进一步地,本发明还提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被一个或多个处理器执行时实现本发明第一方面提供的基于肺部CT与多基因甲基化的肺结节分类方法。
[0075] 应该理解到,本发明所揭露的装置或设备,可通过其它的方式实现。例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,模块之间的通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0076] 另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0077] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0078] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。