癌症预后生存预测方法、系统、计算机设备及存储介质转让专利

申请号 : CN202211003012.0

文献号 : CN115083574B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王晗江丹章毅杨丽大卫.詹姆斯.克尔李欣洋张海仙

申请人 : 四川大学华西医院

摘要 :

本发明公开了一种癌症预后生存预测方法、系统、计算机设备及存储介质,涉及到人工智能算法以及临床统计学相关技术,目的在于解决现有生存分析技术中存在的生存分析结果与真实结果的一致性并不高、分析结果存在较大误差以及分析结果可解释性较差的问题。其分别构建并训练了病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,然后数字病理片经切片后输入识别、分类模型,得到切片特征,再将切片的特征及位置构建粗粒度图并经生存分析后确定关键切片,再将关键切片的特征及位置构建细粒度图并经生存分析后最后输出的生存风险值即为预后生存预测结果。该方案能够对病理切片进行生存期分析,并结果具有可解释性。

权利要求 :

1.一种癌症预后生存预测方法,其特征在于,包括以下步骤:

步骤S1,数据获取

获取数字病理样本数据、数据集NCT‑CRC‑HE‑100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间;

步骤S2,模型构建及训练

分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,利用步骤S1中获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用步骤S1中获取的数据集NCT‑CRC‑HE‑100K训练病灶组织分类模型,利用步骤S1中获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型;

步骤S3,预后生存预测,具体包括如下步骤:

步骤S31,获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;

步骤S32,将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出;

步骤S33,利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片;

步骤S34,根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。

2.如权利要求1所述的一种癌症预后生存预测方法,其特征在于,步骤S2中,病灶区域识别模型、病灶组织分类模型均采用ResnetXt‑50进行特征提取,粗粒度生存分析模型、细粒度生存分析模型均采用图卷积神经网络。

3.如权利要求2所述的一种癌症预后生存预测方法,其特征在于,粗粒度生存分析模型、细粒度生存分析模型在进行训练时,损失函数均为:其中, 表示死亡的病人数, 表示在时刻 仍具有死亡风险的病人集

合, 和 分别代表死亡时间、死亡事件表示变量、数字病理图以及第i个病人的对数风险值;若死亡事件发生,死亡事件表示变量为1,否则为0。

4.如权利要求1所述的一种癌症预后生存预测方法,其特征在于,步骤S33中,在构建粗粒度图时,将各数字病理切片作为粗粒度图的节点,以步骤S32输出的特征的特征值作为该节点的信息值、节点与节点之间的邻接矩阵进行构建;邻接矩阵的计算方式为:其中, 表示 切片与 切片之间的欧氏距离,为给定的超参数,

表示 切片的前 个最近的邻居。

5.如权利要求4所述的一种癌症预后生存预测方法,其特征在于,确定关键切片的具体方法为:步骤S331、先采用梯度加权类激活映射函数来衡量节点的重要性,该函数的具体计算公式为:其中, 表示第 个节点的第 个特征的卷积激活值, 表示第 个特征的梯度值,表示对第 个节点输出的分数值,LeakyRelu()表示激活函数;

激活函数LeakyRelu()为:

其中,x表示激活函数的输入, =0.01;

步骤S332、再根据各节点的分数值,选取得分前5%的节点作为构建精细图的重要节点,选取出来的重要节点对应的数字病理切片即为关键切片。

6.如权利要求4所述的一种癌症预后生存预测方法,其特征在于,步骤S34中,构建细粒度图的方法与构建粗粒度图的方法一致;

在构建好细粒度图后并输入细粒度生存分析模型,得到生存风险值时;生存风险值的计算公式为:其中, 表示一个线性函数, 表示基准变量,表示时间,表示被医学考察的变量。

7.一种癌症预后生存预测系统,其特征在于,包括:

数据获取模块,获取数字病理样本数据、数据集NCT‑CRC‑HE‑100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间;

模型构建及训练模块,用于分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,利用数据获取模块获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用数据获取模块获取的数据集NCT‑CRC‑HE‑100K训练病灶组织分类模型,利用数据获取模块获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型;

预后生存预测模块,其包括病理切片模块、病理特征生成模块、关键切片生成模块以及生存结果预测模块;

病理切片模块,用于获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;

病理特征生成模块,用于将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出;

关键切片生成模块,用于利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片;

生存结果预测模块,用于根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。

8.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

说明书 :

癌症预后生存预测方法、系统、计算机设备及存储介质

技术领域

[0001] 本发明属于计算机技术、图像分析处理和临床诊断领域,具体涉及到人工智能算法以及临床统计学相关技术,特别涉及一种癌症预后生存预测方法、系统、计算机设备及存储介质。

背景技术

[0002] 生存分析指一系列用来探究感兴趣事件的发生的统计方法,与传统的回归问题不同,生存分析的研究目标为事件在特定时间点发生的概率,然后估计对象随时间变化的生存情况,而不仅仅是预测一个目标变量。
[0003] 在当前高分辨率数字病理切片的生存分析领域,大多数都采用了“分割切片、逐个分析”的策略,该种策略主要包含三个步骤:第一步,从高分辨率的数字病理片中获取大量的小切片;第二步,从上一步中的小切片中提取病理级别的特征;第三步,根据提取出的病理特征进行生存期分析和预测。WSISA就是一种典型的基于数字病理片的生存期分析模型,该模型在获取小切片的过程中,采用了固定采样比例的方法,它在进行特征提取的过程中采用了K均值聚类的算法来对病理片的各个特征进行聚类;该模型在第三步生存期预测的过程中,其采用了经典的Cox比例风险模型(CPH)。同样还有其他采用了球状的K均值聚类的算法对特征进行提取。
[0004] 同样,也有基于深度图神经网络的生存期分析模型(DeepGrahSurv),它是一种端到端的方法,它利用图神经网络对特征进行了提取,也对生存风险进行了预测,几乎同时完成了第二步与第三步。基于端到端的设计思想方法还有DeepMIL和BDOCOX等。
[0005] 与上述现有技术一样,现有的生存分析技术很难直接应用于数字病理片,只有少量的基于深度神经网络的生存分析技术可以应用于数字病理片。但在实际应用中,基于深度神经网络的生存分析技术的生存分析结果与真实结果的一致性并不高,分析结果存在较大误差;同时这些技术无法构建肿瘤区域与预后结果的关系,即无法解释哪些肿瘤区域会导致不好的预后结果,不具备可解释性。

发明内容

[0006] 本发明的目的是为了解决现有生存分析技术中存在的生存分析结果与真实结果的一致性并不高、分析结果存在较大误差以及分析结果可解释性较差的问题,而提出的一种癌症预后生存预测方法及系统,能够有效地分割病灶区域,对病灶区域进行分类,获取病理切片特征,同时对病理切片进行生存期分析,并且生存期分析结果具有一定的可解释性。
[0007] 为了实现上述目的,本发明采用了如下技术方案:
[0008] 一种癌症预后生存预测方法,包括以下步骤:
[0009] 步骤S1,数据获取
[0010] 获取数字病理样本数据、数据集NCT‑CRC‑HE‑100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间;
[0011] 步骤S2,模型构建及训练
[0012] 分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,利用步骤S1中获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用步骤S1中获取的数据集NCT‑CRC‑HE‑100K训练病灶组织分类模型,利用步骤S1中获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型;
[0013] 步骤S3,预后生存预测,具体包括如下步骤:
[0014] 步骤S31,获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;
[0015] 步骤S32,将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出;
[0016] 步骤S33,利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片;
[0017] 步骤S34,根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。
[0018] 优选地,步骤S2中,病灶区域识别模型、病灶组织分类模型均采用ResnetXt‑50进行特征提取,粗粒度生存分析模型、细粒度生存分析模型均采用图卷积神经网络。
[0019] 优选地,粗粒度生存分析模型、细粒度生存分析模型在进行训练时,损失函数均为:
[0020]
[0021] 其中, 表示死亡的病人数, 表示在时刻 仍具有死亡风险的病人集合, 和 分别代表死亡时间、死亡事件表示变量、数字病理图以及第i个病人的对数风险值;若死亡事件发生,死亡事件表示变量为1,否则为0。
[0022] 优选地,步骤S33中,在构建粗粒度图时,将各数字病理切片作为粗粒度图的节点,以步骤S32输出的特征的特征值作为该节点的信息值、节点与节点之间的邻接矩阵进行构建;邻接矩阵的计算方式为:
[0023]
[0024] 其中, 表示 切片与 切片之间的欧氏距离,为给定的超参数,
[0025] 表示 切片的前 个最近的邻居。
[0026] 优选地,确定关键切片的具体方法为:
[0027] 步骤S331、先采用梯度加权类激活映射函数来衡量节点的重要性,该函数的具体计算公式为:
[0028]
[0029] 其中, 表示第 个节点的第 个特征的卷积激活值, 表示第 个特征的梯度值, 表示对第 个节点输出的分数值,LeakyRelu()表示激活函数;
[0030] 激活函数LeakyRelu()为:
[0031]
[0032] 其中,x表示激活函数的输入, =0.01;
[0033] 步骤S332、再根据各节点的分数值,选取得分前5%的节点作为构建精细图的重要节点,选取出来的重要节点对应的数字病理切片即为关键切片。
[0034] 优选地,步骤S34中,构建细粒度图的方法与构建粗粒度图的方法一致;
[0035] 在构建好细粒度图后并输入细粒度生存分析模型,得到生存风险值时;生存风险值的计算公式为:
[0036]
[0037] 其中, 表示一个线性函数, 表示基准变量,表示时间,表示被医学考察的变量。
[0038] 一种癌症预后生存预测系统,包括:
[0039] 数据获取模块,获取数字病理样本数据、数据集NCT‑CRC‑HE‑100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间;
[0040] 模型构建及训练模块,用于分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,利用数据获取模块获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用数据获取模块获取的数据集NCT‑CRC‑HE‑100K训练病灶组织分类模型,利用数据获取模块获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型;
[0041] 预后生存预测模块,其包括病理切片模块、病理特征生成模块、关键切片生成模块以及生存结果预测模块;
[0042] 病理切片模块,用于获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;
[0043] 病理特征生成模块,用于将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出;
[0044] 关键切片生成模块,用于利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片;
[0045] 生存结果预测模块,用于根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。
[0046] 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
[0047] 一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述方法的步骤。
[0048] 与现有技术相比,本发明的有益效果是;
[0049] 1、本发明中,相比于其他现有技术的生产分析方法,通过梯度加权类激活映射函数对重要节点的判定方法,构建出了细粒度图,通过对细粒度图的处理能够提升预测的准确率;采用由粗到细的癌症生存期分析模型有效减少了计算量,提高了计算效率,一定程度上节省计算资源。
[0050] 2、本发明中,经实验分析,本申请的技术方案在结果表现上也很出众,其在精细图基础上的结果表现要优于众多分析模型。
[0051] 3、本发明中,所提出的模型具有可解释性,这在当前癌症病理领域中是难能可贵的,能解释哪些肿瘤区域会导致不好的预后结果。
[0052] 4、本发明中,各模型在不同的数据集上也都展现出不俗的的表现,这也证实我们的模型相比于其他模型具有强大的普适、泛化性。
[0053] 5、本发明中,所采用的生存事件采样法,有效解决了对数部分真数为0的困境,使得模型优化能够顺利推进。

附图说明

[0054] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0055] 图1为本发明的流程示意图;
[0056] 图2为本发明中切片组织的示意图;
[0057] 其中,图a为原数字病理片图,图b为组织掩码图;
[0058] 图3为本发明在不同分辨率下的示意图;
[0059] 其中,图a为不同分辨率下的数字病理图,图b为不同分辨率下病理切片图;
[0060] 图4为本发明的病灶区域概率分布图;
[0061] 其中,图a为原概率分布图,图b为处理后的概率分布图,图c为病灶组织图。

具体实施方式

[0062] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0063] 实施例1
[0064] 本实施例提供一种癌症预后生存预测方法,用于根据癌症患者的病理图片进行生存分析预测,如图1所示,其具体包括以下步骤:
[0065] 步骤S1,数据获取
[0066] 获取数字病理样本数据、数据集NCT‑CRC‑HE‑100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间。
[0067] 数字病理样本数据可直接来自于华西医院的病理科所采集的结直肠癌的数字病理片,病灶标签由医生直接进行标注,生存标签由系统文件中进行获取,获取的数据包括截止观测时间的生存状态和存活时间。而数据集NCT‑CRC‑HE‑100K则为现有的数据集。
[0068] 步骤S2,模型构建及训练
[0069] 分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,病灶区域识别模型、病灶组织分类模型均采用ResnetXt‑50进行特征提取,粗粒度生存分析模型、细粒度生存分析模型均采用图卷积神经网络。
[0070] 训练时,利用步骤S1中获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用步骤S1中获取的数据集NCT‑CRC‑HE‑100K训练病灶组织分类模型,利用步骤S1中获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型。
[0071] 在对粗粒度生存分析模型、细粒度生存分析模型在进行训练时,两个生存分析模型都采用同一损失函数,该损失函数为:
[0072]
[0073] 其中, 表示死亡的病人数, 表示在时刻 仍具有死亡风险的病人集合, 和 分别代表死亡时间、死亡事件表示变量、数字病理图以及第i个病人的对数风险值;若死亡事件发生,死亡事件表示变量为1,否则为0。
[0074] 步骤S3,预后生存预测,即获取待预测患者的病理片并进行生存分析预测,其具体包括如下步骤:
[0075] 步骤S31,获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;
[0076] 先对1.25倍的数字病理片进行前景和背景分割,将原本的RGB图转换为HSV图,并使用其中的S通道的数值,利用大津算法(Otus)来实现前景和背景的分割,分割完成后便得到了组织区域的掩码图,如图2所示。
[0077] 之后在10倍分辨率下的数字病理片进行切片分割,如图3所示。在分割完成后,计算数字病理切片得有效组织的占比;通过预设的占比的阈值,筛除掉有效组织占比低于阈值的数字病理切片;在获取到筛选后的数字病理切片后,对这些切片进行H&E染色,该染色法能够有效减少不同样本来源的影响。
[0078] 步骤S32,将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出。
[0079] 由于是将若干的数字病理切片分别输入病灶区域识别模型,得到每个切片的概率分布图,从而可组合成一个大的病理片,然后采用高斯滤波器来处理该病理片,使得病理片的像素过渡更加自然、平滑,然后再经过二值化,最终得到处理后的概率分布图,结合该概率分布图及原组织图,得到最终的病灶组织图,如图4所示。
[0080] 病灶组织分类模型在进行处理时,并非将病灶组织分类模型最后得出的分类结果作为输出,而是将病灶组织分类模型的倒数第二层的输出作为病灶组织分类模型的输出,即将病灶组织分类模型的倒数第二层输出的数字病理切片的特征作为模型的最终输出。
[0081] 步骤S33,利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片。
[0082] 利用数字病理切片对整个病理图进行表示时,采用图来进行表示,即需要构建粗粒度图。在构建粗粒度图时,将各数字病理切片作为粗粒度图的各节点,以步骤S32输出的数字病理切片的特征的特征值作为该节点的信息值,以节点的信息值、节点与节点之间的邻接矩阵共同构建粗粒度图。其中,该邻接矩阵的计算方式为:
[0083]
[0084] 其中, 表示 切片与 切片之间的欧氏距离,为给定的超参数,
[0085] 表示 切片的前 个最近的邻居。
[0086] 将构建好的粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为粗粒度生存分析模型的输出。
[0087] 粗粒度生存分析模型输出卷积激活值后,再根据卷积激活值来确定关键切片,确定关键切片的具体方法为:
[0088] 步骤S331、先采用梯度加权类激活映射函数来衡量节点的重要性,该函数的具体计算公式为:
[0089]
[0090] 其中, 表示第 个节点的第 个特征的卷积激活值, 表示第 个特征的梯度值, 表示对第 个节点输出的分数值,LeakyRelu()表示激活函数;
[0091] 激活函数LeakyRelu()为:
[0092]
[0093] 其中,x表示激活函数的输入, =0.01;
[0094] 步骤S332、再根据各节点的分数值,选取得分前5%的节点作为构建精细图的重要节点,选取出来的重要节点对应的数字病理切片即为关键切片。
[0095] 步骤S34,根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。
[0096] 同样,在利用数字病理切片对整个病理图进行表示时,还是采用图来进行表示,但这个时候是构建细粒度图。在构建细粒度图时,在40倍分辨率的病理切片上完成,将各关键切片作为粗粒度图的各节点,以步骤S32输出的关键切片的特征的特征值作为该节点的信息值,以节点的信息值、节点与节点之间的邻接矩阵共同构建细粒度图。其中,该邻接矩阵的计算方式为:
[0097]
[0098] 其中, 表示 切片与 切片之间的欧氏距离,为给定的超参数,
[0099] 表示 切片的前 个最近的邻居。
[0100] 将构建好的细粒度图输入细粒度生存分析模型,与粗粒度生存分析模型的输出不同,细粒度生存分析模型将其最后的输出作为输出,得到生存风险值;生存风险值的计算公式为:
[0101]
[0102] 其中, 表示一个线性函数, 表示基准变量,表示时间,表示被医学考察的变量。
[0103] 实施例2
[0104] 本实施例还提供一种癌症预后生存预测系统,用于根据癌症患者的病理图片进行生存分析预测,其具体包括以下步骤:
[0105] 数据获取模块,用于获取数字病理样本数据、数据集NCT‑CRC‑HE‑100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间。
[0106] 数字病理样本数据可直接来自于华西医院的病理科所采集的结直肠癌的数字病理片,病灶标签由医生直接进行标注,生存标签由系统文件中进行获取,获取的数据包括截止观测时间的生存状态和存活时间。而数据集NCT‑CRC‑HE‑100K则为现有的数据集。
[0107] 模型构建及训练模块,用于分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,利用数据获取模块获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用数据获取模块获取的数据集NCT‑CRC‑HE‑100K训练病灶组织分类模型,利用数据获取模块获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型。
[0108] 分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,病灶区域识别模型、病灶组织分类模型均采用ResnetXt‑50进行特征提取,粗粒度生存分析模型、细粒度生存分析模型均采用图卷积神经网络。
[0109] 训练时,利用步骤S1中获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用步骤S1中获取的数据集NCT‑CRC‑HE‑100K训练病灶组织分类模型,利用步骤S1中获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型。
[0110] 在对粗粒度生存分析模型、细粒度生存分析模型在进行训练时,两个生存分析模型都采用同一损失函数,该损失函数为:
[0111]
[0112] 其中, 表示死亡的病人数, 表示在时刻 仍具有死亡风险的病人集合, 和 分别代表死亡时间、死亡事件表示变量、数字病理图以及第i个病人的对数风险值;若死亡事件发生,死亡事件表示变量为1,否则为0。
[0113] 预后生存预测模块,用于获取待预测患者的病理片并进行生存分析预测,其包括病理切片模块、病理特征生成模块、关键切片生成模块以及生存结果预测模块;
[0114] 病理切片模块,用于获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;
[0115] 先对1.25倍的数字病理片进行前景和背景分割,将原本的RGB图转换为HSV图,并使用其中的S通道的数值,利用大津算法(Otus)来实现前景和背景的分割,分割完成后便得到了组织区域的掩码图,如图2所示。
[0116] 之后在10倍分辨率下的数字病理片进行切片分割,如图3所示。在分割完成后,计算数字病理切片得有效组织的占比;通过预设的占比的阈值,筛除掉有效组织占比低于阈值的数字病理切片;在获取到筛选后的数字病理切片后,对这些切片进行H&E染色,该染色法能够有效减少不同样本来源的影响。
[0117] 病理特征生成模块,用于将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出。
[0118] 由于是将若干的数字病理切片分别输入病灶区域识别模型,得到每个切片的概率分布图,从而可组合成一个大的病理片,然后采用高斯滤波器来处理该病理片,使得病理片的像素过渡更加自然、平滑,然后再经过二值化,最终得到处理后的概率分布图,结合该概率分布图及原组织图,得到最终的病灶组织图,如图4所示。
[0119] 病灶组织分类模型在进行处理时,并非将病灶组织分类模型最后得出的分类结果作为输出,而是将病灶组织分类模型的倒数第二层的输出作为病灶组织分类模型的输出,即将病灶组织分类模型的倒数第二层输出的数字病理切片的特征作为模型的最终输出。
[0120] 关键切片生成模块,用于利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片。
[0121] 利用数字病理切片对整个病理图进行表示时,采用图来进行表示,即需要构建粗粒度图。在构建粗粒度图时,将各数字病理切片作为粗粒度图的各节点,以病理特征生成模块输出的数字病理切片的特征的特征值作为该节点的信息值,以节点的信息值、节点与节点之间的邻接矩阵共同构建粗粒度图。其中,该邻接矩阵的计算方式为:
[0122]
[0123] 其中, 表示 切片与 切片之间的欧氏距离,为给定的超参数,
[0124] 表示 切片的前 个最近的邻居。
[0125] 将构建好的粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为粗粒度生存分析模型的输出。
[0126] 粗粒度生存分析模型输出卷积激活值后,再根据卷积激活值来确定关键切片,确定关键切片的具体方法为:
[0127] 步骤S331、先采用梯度加权类激活映射函数来衡量节点的重要性,该函数的具体计算公式为:
[0128]
[0129] 其中, 表示第 个节点的第 个特征的卷积激活值, 表示第 个特征的梯度值, 表示对第 个节点输出的分数值,LeakyRelu()表示激活函数;
[0130] 激活函数LeakyRelu()为:
[0131]
[0132] 其中,x表示激活函数的输入, =0.01;
[0133] 步骤S332、再根据各节点的分数值,选取得分前5%的节点作为构建精细图的重要节点,选取出来的重要节点对应的数字病理切片即为关键切片。
[0134] 生存结果预测模块,用于根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。
[0135] 同样,在利用数字病理切片对整个病理图进行表示时,还是采用图来进行表示,但这个时候是构建细粒度图。在构建细粒度图时,在40倍分辨率的病理切片上完成,将各关键切片作为粗粒度图的各节点,以步骤S32输出的关键切片的特征的特征值作为该节点的信息值,以节点的信息值、节点与节点之间的邻接矩阵共同构建细粒度图。其中,该邻接矩阵的计算方式为:
[0136]
[0137] 其中, 表示 切片与 切片之间的欧氏距离,为给定的超参数,
[0138] 表示 切片的前 个最近的邻居。
[0139] 将构建好的细粒度图输入细粒度生存分析模型,与粗粒度生存分析模型的输出不同,细粒度生存分析模型将其最后的输出作为输出,得到生存风险值;生存风险值的计算公式为:
[0140]
[0141] 其中, 表示一个线性函数, 表示基准变量,表示时间,表示被医学考察的变量。
[0142] 实施例3
[0143] 本实施例还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的一种癌症预后生存预测方法的步骤。
[0144] 其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0145] 所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如运行所述的一种癌症预后生存预测方法的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0146] 所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述的一种癌症预后生存预测方法的程序代码。
[0147] 实施例4
[0148] 本实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的一种癌症预后生存预测方法的步骤。
[0149] 其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行上述的一种癌症预后生存预测方法的步骤。
[0150] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。