一种胰腺神经内分泌肿瘤术后复发风险预测方法转让专利

申请号 : CN202011432605.X

文献号 : CN112561869B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄炳升王铭宇宋晨宇冯仕庭李子平罗宴吉陈洁彭振鹏张洪源王阳迪沈静娴李毅陈佳兆龙廷玉

申请人 : 深圳大学

摘要 :

本申请公开了一种胰腺神经内分泌肿瘤术后复发风险预测方法,所述方法包括获取待预测图像中的若干肿瘤切片图;基于预设的分割模型,确定若干肿瘤切片图中的各肿瘤切片图各自对应的特征图;对若干特征图进行过滤得到待预测图像对应的若干目标特征图,并基于若干目标特征图,确定待预测图像的特征向量;基于所述特征向量及预设的预测模型,确定所述待预测图像对应的预测结果。本申请通过采用分割模型确定特征向量作为预测模型的输入项,并基于该特征图确定所述待预测图像对应的预测结果,这样通过深度迁移学习方式确定待预测图像对应的预测结果,可以提高预测结果的准确性。

权利要求 :

1.一种胰腺神经内分泌肿瘤术后复发风险预测方法,其特征在于,所述方法包括:获取待预测图像中的若干肿瘤切片图;

所述待预测图像为CT图像,且待预测图像携带有胰腺神经内分泌肿瘤区域;

所述待预测图像为通过配置有胰腺神经内分泌肿瘤术后复发风险预测方法的终端设备或外部设备采集再发送给终端设备的图像,所述待预测图像还包括预先存储于终端设备本地的图像;

基于预设的分割模型,确定若干肿瘤切片图中的各肿瘤切片图各自对应的特征图;

对若干特征图进行过滤得到待预测图像对应的若干目标特征图,并基于若干目标特征图,确定待预测图像的特征向量;

基于所述特征向量及预设的预测模型,确定所述待预测图像对应的预测结果;

所述对若干特征图进行过滤得到待预测图像对应的若干目标特征图具体包括:对若干特征图进行聚类分析,以得到若干特征图类;

选取若干特征图类中图像数量最大的特征图类作为目标特征图类;将所述目标特征图类包括的特征图作为所述待预测图像对应的目标特征图;

所述对若干特征图像进行聚类分析具体为采用K‑means聚类算法对若干肿瘤切片图进行聚类分析;

所述预测模型为若干并行的子预测模型,所述若干子预测模型中的各子预测模型的模型结构相同,均是基于支持向量机构建的,各子预测模型的输入项为特征向量,输出项均为特征向量对应的待预测图像的候选预测结果,所述预测结果为高风险复发或者低风险复发,并且,

所述预测结果包括预测概率,当预测结果为高风险复发时,预测概率为高风险概率,当预测结果为低风险复发时,预测概率为低风险概率;

对于每个子预测模型,将特征向量输入该预测模型,通过该子预测模型确定候选高风险概率以及候选低风险概率;

基于获取到所有候选高风险概率确定待预测图像对应的高风险概率,以及基于获取到的所有候选低风险概率确定待预测图像对应的低风险概率;

基于所述高风险概率以及低风险概率,确定所述待预测图像对应的预测结果;

所述预测模型为基于支持向量机构建的,并采用10折交叉验证策略进行训练的,其中,所述预测模型包括10个并行的子预测模型。

2.根据权利要求1所述胰腺神经内分泌肿瘤术后复发风险预测方法,其特征在于,所述若干目标特征图的图像数量小于若干特征图的图像数量,若干目标特征图中的每个目标特征图均包括于若干特征图内。

3.根据权利要求1所述胰腺神经内分泌肿瘤术后复发风险预测方法,其特征在于,所述基于若干目标特征图,确定待预测图像的特征向量具体包括:采用全局平均池化将各目标特征图转换为特征向量;

将转换得到的各特征向量进行融合,以得到待预测图像的特征向量。

4.根据权利要求1所述胰腺神经内分泌肿瘤术后复发风险预测方法,其特征在于,所述分割模型包括编码模块和解码模块;所述特征图为所述编码模块中的激活层的输出项,其中,所述激活层与所述编码模块中位于最后的卷积层相连接,且位于该卷积层之后。

5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1‑4任意一项所述的胰腺神经内分泌肿瘤术后复发风险预测方法中的步骤。

6.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;

所述通信总线实现处理器和存储器之间的连接通信;

所述处理器执行所述计算机可读程序时实现如权利要求1‑4任意一项所述的胰腺神经内分泌肿瘤术后复发风险预测方法中的步骤。

说明书 :

一种胰腺神经内分泌肿瘤术后复发风险预测方法

技术领域

[0001] 本申请涉及生物医学工程技术领域,特别涉及一种胰腺神经内分泌肿瘤术后复发风险预测方法。

背景技术

[0002] 神经内分泌肿瘤(neuroendocrine neoplasms,NENs)起源于神经内分泌细胞,是一种生物学行为复杂的肿瘤。近年来,NENs的发病率不断增加,在中国人群中,胰腺是NENs
最常见的原发部位,约占所有NENs的32%。胰腺神经内分泌肿瘤(pancreatic 
neuroendocrine neoplasms,pNENs)在尚未发生转移时,普遍采用手术进行治疗。
[0003] 基于此,术后复发是目前pNEN患者治疗过程中面临的主要难题(包括局部复发和远处转移)。临床上一旦发现患者出现术后复发,应尽快积极治疗以阻断或延缓疾病的进
程。但更为合理的办法是在术前即对pNEN患者进行全面的评估,包括术前病人病情评估及
术后复发风险预测,这样不仅可以为不同复发风险的病人制定合理有效的监测方案以尽早
检出复发灶,还可以帮助高复发风险的病人进行术前手术方案的优化。然而,考虑到pNENs
生物学行为的复杂性,如何对不同生物学行为的pNEN患者进行复发风险分类是目前临床上
亟待解决的重要难题。

发明内容

[0004] 本申请要解决的技术问题在于,针对现有技术的不足,提供一种胰腺神经内分泌肿瘤术后复发风险预测方法。
[0005] 为了解决上述技术问题,本申请实施例第一方面提供了了一种胰腺神经内分泌肿瘤术后复发风险预测方法,所述方法包括:
[0006] 获取待预测图像中的若干肿瘤切片图;
[0007] 基于预设的分割模型,确定若干肿瘤切片图中的各肿瘤切片图各自对应的特征图;
[0008] 对若干特征图进行过滤得到待预测图像对应的若干目标特征图,并基于若干目标特征图,确定待预测图像的特征向量;
[0009] 基于所述特征向量及预设的预测模型,确定所述待预测图像对应的预测结果。
[0010] 所述胰腺神经内分泌肿瘤术后复发风险预测方法,其中,所述待预测图像为CT图像,且待预测图像携带有胰腺神经内分泌肿瘤区域。
[0011] 所述胰腺神经内分泌肿瘤术后复发风险预测方法,其中,所述若干目标特征图的图像数量小于若干特征图的图像数量,若干目标特征图中的每个目标特征图均包括于若干
特征图内。
[0012] 所述胰腺神经内分泌肿瘤术后复发风险预测方法,其中,所述对若干特征图进行过滤得到待预测图像对应的若干目标特征图具体包括:
[0013] 对若干特征图进行聚类分析,以得到若干特征图类;
[0014] 选取若干特征图类中图像数量最大的特征图类作为目标特征图类;
[0015] 将所述目标特征图类包括的特征图作为所述待预测图像对应的目标特征图。
[0016] 所述胰腺神经内分泌肿瘤术后复发风险预测方法,其中,所述基于若干目标特征图,确定待预测图像的特征向量具体包括:
[0017] 采用全局平均池化将各目标特征图转换为特征向量;
[0018] 将转换得到的各特征向量进行融合,以得到待预测图像的特征向量。
[0019] 所述胰腺神经内分泌肿瘤术后复发风险预测方法,其中,所述分割模型包括编码模块和解码模块;所述特征图为所述编码模块中的激活层的输出项,其中,所述激活层与所
述编码模块中位于最后的卷积层相连接,且位于该卷积层之后。
[0020] 所述胰腺神经内分泌肿瘤术后复发风险预测方法,其中,所述预测模型为若干并行的子预测模型,所述基于所述特征向量及预设的预测模型,确定所述待预测图像对应的
预测结果具体包括:
[0021] 对于每个子预测模型,将特征向量输入该预测模型,通过该子预测模型确定候选高风险概率以及候选低风险概率;
[0022] 基于获取到所有候选高风险概率确定待预测图像对应的高风险概率,以及基于获取到的所有候选低风险概率确定待预测图像对应的低风险概率;
[0023] 基于所述高风险概率以及低风险概率,确定所述待预测图像对应的预测结果。
[0024] 所述胰腺神经内分泌肿瘤术后复发风险预测方法,其中,所述预测模型为基于支持向量机构建的,并采用10折交叉验证策略进行训练的,其中,所述预测模型包括10个并行
的子预测模型。
[0025] 本申请实施例第二方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现
如上任一所述的胰腺神经内分泌肿瘤术后复发风险预测方法中的步骤。
[0026] 本申请实施例第三方面提供一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
[0027] 所述通信总线实现处理器和存储器之间的连接通信;
[0028] 所述处理器执行所述计算机可读程序时实现如上任一所述的胰腺神经内分泌肿瘤术后复发风险预测方法中的步骤。
[0029] 有益效果:与现有技术相比,本申请提供了一种胰腺神经内分泌肿瘤术后复发风险预测方法,所述方法包括获取待预测图像中的若干肿瘤切片图;基于预设的分割模型,确
定若干肿瘤切片图中的各肿瘤切片图各自对应的特征图;对若干特征图进行过滤得到待预
测图像对应的若干目标特征图,并基于若干目标特征图,确定待预测图像的特征向量;基于
所述特征向量及预设的预测模型,确定所述待预测图像对应的预测结果。本申请通过采用
分割模型确定特征向量作为预测模型的输入项,并基于该特征图确定所述待预测图像对应
的预测结果,这样通过深度迁移学习方式确定待预测图像对应的预测结果,可以提高预测
结果的准确性。

附图说明

[0030] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于
本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的
附图。
[0031] 图1为本申请提供的胰腺神经内分泌肿瘤术后复发风险预测方法的流程图。
[0032] 图2为本申请提供的胰腺神经内分泌肿瘤术后复发风险预测方法的流程示例图。
[0033] 图3为本申请提供的胰腺神经内分泌肿瘤术后复发风险预测方法的分割模型的原理示例图。
[0034] 图4为本申请提供的胰腺神经内分泌肿瘤术后复发风险预测方法中的待处理图像对应的特征向量获取过程的是流程示例图。
[0035] 图5为本申请提供的胰腺神经内分泌肿瘤术后复发风险预测方法中的预测模型的原理流程图。
[0036] 图6为本申请提供的终端设备的结构原理图。

具体实施方式

[0037] 本申请提供一种胰腺神经内分泌肿瘤术后复发风险预测方法,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0038] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措
辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加
一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元
件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在
中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措
辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0039] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该
理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的
意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义
来解释。
[0040] 经发明人研究发现,神经内分泌肿瘤(neuroendocrine neoplasms,NENs)起源于神经内分泌细胞,是一种生物学行为复杂的肿瘤。近年来,NENs的发病率不断增加,在中国
人群中,胰腺是NENs最常见的原发部位,约占所有NENs的32%。胰腺神经内分泌肿瘤
(pancreatic neuroendocrine neoplasms,pNENs)在尚未发生转移时,手术是根治性治疗
方法。
[0041] 术后复发是目前pNEN患者治疗过程中面临的主要难题(包括局部复发和远处转移)。临床上一旦发现患者出现术后复发,应尽快积极治疗以阻断或延缓疾病的进程,治疗
方法主要包括介入手术以及药物治疗,甚至再次手术。但更为合理的办法是在术前即对
pNEN患者进行全面的评估,包括术前病人病情评估及术后复发风险预测,这样不仅可以为
不同复发风险的病人制定合理有效的监测方案以尽早检出复发灶,还可以帮助高复发风险
的病人进行术前手术方案的优化。然而,考虑到pNENs生物学行为的复杂性,如何对不同生
物学行为的pNEN患者进行复发风险分类是目前临床上亟待解决的重要难题。
[0042] 目前,国际上已有基于病理指标预测pNEN患者术后复发情况的方法。如基于Ki‑67指数对5年复发率预测的曲线下面积(area under curve,AUC)可达0.683,以Ki‑67=5%为
阈值时,得到最高的敏感度37%与特异度87%。以上方法的缺点为:pNENs有丝分裂计数和
Ki‑67指数必须经手术或术前活检获得,术后切除则无法进行术前治疗指导,术前活检有创
且采样局部无法代表整个肿瘤,且以上方法的预测性能不高,敏感度较低。
[0043] CT是pNENs早期检出及准确诊断的有效方法。目前已有基于人工评价CT图像特征进行pNENs复发及患者预后预测的方法。这些方法提取CT图像中pNENs病灶的大小、血供、CT
值的变化情况等特征,使用传统统计分析方法分析图像特征与复发结果间联系。以上研究
存在明显的局限性:在人工评价图像方面,主观性和测量操作误差都是不可避免的。同时由
于大部分研究仅限于统计分析层面,并没有将研究得到的相关指标用于实际预测模型的建
立与验证中,故其临床指导意义有限。
[0044] 计算机定量分析技术在医学影像分析中已取得极大成功,通过计算机自动分析可以提取图像中的大量特征,进而利用具有高辨识力的高通量特征完成肿瘤的辅助诊断或临
床预测。目前已有较成熟的方法如影像组学,用于预测肿瘤预后,但该方法需人为标注肿瘤
轮廓,费时费力,且特征为人为设计,不可针对任务自适应优化。利用深度学习进行医学影
像分析的技术近年来发展迅猛,性能优越,但性能较优的传统深度学习研究需要较大的样
本量。然而,pNENs是一种相对少见的肿瘤,且无公开数据集,大样本的图像数据难以获取。
[0045] 为了解决上述问题,本申请实施例中,获取待预测图像中的若干肿瘤切片图;基于预设的分割模型,确定若干肿瘤切片图中的各肿瘤切片图各自对应的特征图;对若干特征
图进行过滤得到待预测图像对应的若干目标特征图,并基于若干目标特征图,确定待预测
图像的特征向量;基于所述特征向量及预设的预测模型,确定所述待预测图像对应的预测
结果。本申请通过采用分割模型确定特征向量作为预测模型的输入项,并基于该特征图确
定所述待预测图像对应的预测结果,这样通过深度迁移学习方式确定待预测图像对应的预
测结果,可以提高预测结果的准确性。
[0046] 下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
[0047] 本实施提供了一种胰腺神经内分泌肿瘤术后复发风险预测方法,如图1和图2所示,所述方法包括:
[0048] S10、获取待预测图像中的若干肿瘤切片图。
[0049] 具体地,所述待预测图像可以为通过配置有该胰腺神经内分泌肿瘤术后复发风险预测方法的终端设备采集得到,也可以是外部设备采集并发送给终端设备的,还可以是存
储于终端设备本地的。所述待预测图像为CT图像,并且所述待预测图像携带有胰腺神经内
分泌肿瘤区域。本实施例的应用场景可以为:通过MRT设备采集对患者行CT平扫加增强检
查,以得到CT图像,并将采集到CT图像发送给配置有该胰腺神经内分泌肿瘤术后复发风险
预测方法的终端设备,以得到该终端设备可以获取到待预测图像。所述CT图像对应的患者
在术前两周内获取到CT图像,患者在进行CT检查时(或之前)没有接受任何针对pNENs的药
物或手术治疗;患者CT检查后两周内均行根治性手术切除治疗。此外,待预测图像对应的患
者为存在其它恶性肿瘤的病史以及多发性内分泌腺瘤综合征,这样可以提高预测结果的准
确性。
[0050] 此外,所述若干肿瘤切片图包括CT图像中包括肿瘤区域的切片层,并且CT图像中的所有包括肿瘤区域的切片层均包含于若干肿瘤切片图中。换句话说,若干肿瘤切片图是
由CT图像中包括肿瘤区域的切片层构成的。
[0051] S20、基于预设的分割模型,确定若干肿瘤切片图中的各肿瘤切片图各自对应的特征图。
[0052] 具体地,所述分割模型为经过训练的,用于定位待预测图像中的肿瘤区域。所述分割模型的输入项为待预测图像,所述分割模型的输出项为待预测图像中的肿瘤区域,其中,
所述肿瘤区域为基于分割模型学习到的待预测图像对应的特征图确定的。可以理解的是,
所述分割模型会学习到该待预测图像的图像信息以形成特征图,在通过该特征图对待预测
图像进行定位,以得到该待预测图像对应的肿瘤区域。
[0053] 在本实施例的一个实现方式中,如图3所示,所述分割模型包括编码模块和解码模块;所述候选特征图为所述编码模块中的激活层的输出项,其中,所述激活层与所述编码模
块中位于最后的卷积层相连接,且位于该卷积层之后。可以理解的是,所述特征图为所述编
码模块中最后一个卷积层的输出项通过激活层得到,所述激活层可以配置有Relu激活函
数,这样可以提高特征图携带的图像信息的抽象程度以及表征能力,从而可以提高基于特
征图确定预测结果的准确性。
[0054] 在本实施例的一个实现方式中,所述分割模型可以采用U‑let结构,所述分割模型可以包括编码模块和解码模块,所述编码模块包括若干下采样单元,所解码模块包括若干
上采样单元,所述若干下采样单元与所述若干上采样单元一一对应,并且各下采样单元与
其对应的上采样单元通过跳跃连接连通。所述下采样单元包括下采样层以及残差卷积块,
所述下采样层与所述残差卷积块相连接,所述下采样层的输出项为残差卷积块的输入项。
所述上采样单元包括上采样层以及残差卷积块,所述上采样层与所述残差卷积块相连接,
所述上采样层的输出项为残差卷积块的输入项。所述残差卷积块包括第一卷积单元、第二
卷积单元以及卷积层,所述第一卷积单元与所述第二卷积单元级联,所述第一卷积单元的
输入项为残差卷积块的输入项,所述第二卷积单元的输入项为第一卷积单元的输出项;所
述第一卷积层的输入项为残差卷积块的输入项,所述第二卷积单元的输出项与所述卷积层
的输出项进行残差连接后作为残差卷积块的输出项。所述第一卷积单元和第二卷积单元均
包括3*3卷积层以及激活函数层,其中,所述激活函数层可以配置有relu激活函数,卷积层
可以为3*3卷积层。
[0055] 在本实施例中,在对预设网络模型进行训练时可以采用交叉熵作为损失函数,以‑5
Adam作为优化器,基本学习率(learning rate,lr)为10 。在验证图像集上采用dice相似性
系数筛选获得最优分割模型,其中,Dice相似性系数的计算公式可以为:
[0056]
[0057] 其中,A表示训练图像对应的标注区域,B表示预设网络模型预测的预测区域。
[0058] S30、对若干特征图进行过滤得到待预测图像对应的若干目标特征图,并基于若干目标特征图,确定待预测图像的特征向量。
[0059] 具体地,所述若干目标特征图的图像数量小于若干特征图的图像数量,若干目标特征图中的每个目标特征图均包括于若干特征图内。可以理解的是,若干目标特征图构成
的集合为若干特征图构成的集合的子集。所述特征向量为基于若干目标特征图确定,这样
通过特征向量可以融合若干目标特征图中各特征图携带图像信息,从而丰富特征向量中的
图像信息,进而提高基于特征向量预测的准确性。
[0060] 在本实施例的一个实现方式中,如图4所示,所述对若干特征图进行过滤得到待预测图像对应的若干目标特征图具体包括:
[0061] 对若干特征图进行聚类分析,以得到若干特征图类;
[0062] 选取若干特征图类中图像数量最大的特征图类作为目标特征图类;
[0063] 将所述目标特征图类包括的特征图作为所述待预测图像对应的目标特征图。
[0064] 具体地,所述聚类分析用于将特征图划分为若干特征图类,若干特征图类中的每个特征图类均包括于若干特征图中的至少一张特征图,并且各特征图类中任意两个特征图
类中包括的特征图互不相同。例如,若干特征图类包括特征图类A和特征图类B,特征图类A
包括特征图a和特征图b,特征图类B包括特征图c和特征图d,那么对于特征图a,特征图c和
特征图d均与特征图a互不相同;对于特征图b,特征图c和特征图d均与特征图a互不相同
[0065] 在本实施例的一个实现方式中,所述对若干肿瘤切片图进行聚类分析具体为采用K‑means聚类算法对若干肿瘤切片图进行聚类分析,所述聚类分析过程具体可以为:预将若
干特征图分为K组特征图组,在每个特征图组中随机选取一个特征图作为聚类中心,以得到
K个聚类中心,然后计算每个特征图与各聚类中心之间的欧式距离,把每个特征图分配给距
离它最近的聚类中心,并将聚类中心以及分配给该聚类中心的特征图作为一个特征图个
类。此外,每分配一个特征图,聚类的聚类中心会根据聚类中的特征图被重新计算,并重复
这个过程将不断重复直到满足某个终止条件。其中,终止条件可以是没有(或最小数目)特
征图被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部
最小等。在本实施例的一个具体实现中,所述聚类簇数为2,相应的,对若干特征图进行聚类
分析可以得到两个特征图类。
[0066] 在获取到若干特征图类后,分别获取各特征图类包括的特征图的数量,并根据获取到的各特征图类对应的数量来选取目标特征图类,其中,目标特征图类为若干特征图类
中包括特征图的数量最大的特征图类。所述目标特征图类中的特征图为携带有肿瘤区域特
征多的特征图,这样可以将若干特征图中携带肿瘤区域特征少的特征图去除,使得留下切
片对肿瘤的表征在特征分布空间更加聚拢,以达到去除冗余切片特征并使每个病人聚合后
的切片特征更加一致。这是由于在CT图像的各肿瘤切片图中,存在部分肿瘤切片图未包含
具有分辨力的信息(如,肿瘤最上下层切片),使得肿瘤切片图存在冗余切片,而肿瘤切片图
中包含分辨力的信息的切片数量大于未包含具有分辨力的信息的切片,从而采用聚类分析
并选取包含特征图数量多的特征图类,可以保留肿瘤切片图中包含分辨力的信息的肿瘤切
片图对应的特征图,而去除肿瘤切片图未包含具有分辨力的信息的特征图。
[0067] 在本实施例的一个实现方式中,所述基于若干目标特征图,确定待预测图像的特征向量具体包括:
[0068] 采用全局平均池化将各目标特征图转换为特征向量;
[0069] 将转换得到的各特征向量进行融合,以得到待预测图像的特征向量。
[0070] 具体地,在获取到目标特征图后,可以使用全局平均池化将该目标特征图转换为特征图向量,在将各目标特征图各自对应的特征图向量进行求平均值,以得到待预测图像
对应的特征向量。例如,目标特征图的图像尺度为32*32*512,目标特征图对应的特征图向
量的维度为1*512,那么若干特征图向量求平均值得到的特征图的维度为1*512。
[0071] S40、基于所述特征向量及预设的预测模型,确定所述待预测图像对应的预测结果。
[0072] 具体地,所述预测模型为经过训练的网络模型,所述预测模型用于预测待预测图像对应的预测结果,其中,所述预测结果包括高风险复发或者低风险复发。可以理解的是,
所述待预测图像对应的预测结果为高风险复发或者低风险复发,并且,预测结果包括预测
概率,当预测结果为高风险复发时,预测概率为高风险概率;当预测结果为低风险复发时,
预测概率为低风险概率。本实施例中在对待预测图像进行复发预测时,采用基于分割模型
确定的特征向量作为输入项,可以提高预测类别的准确性。
[0073] 在本实施例的一个实现方式中,所述预测模型为基于支持向量机(Support Vector Machines,SVM)构建的,SVM为按照监督学习方式对样本数据进行二元分类的广义
线性分类器,能够较好地处理小样本、非线性、高维度模式识别等问题。SVM的学习策略是分
类超平面中支持向量的间距最大化,从而将分类问题转换为凸二次规划的优化问题。
[0074] 对于线性可分问题,对于一个在特征空间上的训练数据集T={(x1,y1),(x2,n
y2),...,(xN,yN)},其中,xi∈R ,yi∈{‑1,1},xi为训练数据,yi为xi对应的标签值,线性判别
函数可设置为:
[0075] f(x)=w·x+b
[0076] 其中,w为权重系数,b为偏置参数。
[0077] 线性判别函数对应的分类超平面为:
[0078] w·x+b=0
[0079] 最优的分类超平面需服从以下条件:
[0080] yi·(w·xi+b‑1)≥0
[0081] 根据线性可分理论和最优化理论,通过拉格朗日乘子法来构造并求解约束最优化问题:
[0082]
[0083] 最终得到最优的分类超平面的权重参数和偏置参数:
[0084] w*·x+b*=0
[0085] 对应的分类决策函数定义为:
[0086] F(x)=sign(w*·x)+b*
[0087] 对于非线性可分问题,SVM的算法核心在于通过非线性映射,将原来低维特征空间中的非线性可分问题转换成高维特征空间中的线性可分问题,并依照上述原理进行求解。
但如果将大量低维数据直接映射到高维特征空间,特征空间维度的爆炸性增长会使得计算
复杂度大幅提升。SVM通过引入核函数来解决了低维空间和高维空间之间的转换问题。核函
数的思想在于通过一种映射关系,能够使得特征在低维空间上的计算结果跟将特征映射到
高维空间后所计算的结果大致相同。通过核函数的有效映射,能够大大简化了计算过程,提
升SVM模型的分类能力。
[0088] 在本实施例的一个实现方式中,如图5所示,所述预测模型为若干并行的子预测模型,所述基于所述特征向量及预设的预测模型,确定所述待预测图像对应的预测结果具体
包括:
[0089] 对于每个子预测模型,将特征向量输入该预测模型,通过该子预测模型确定候选高风险概率以及候选低风险概率;
[0090] 基于获取到的所有候选高风险概率确定待预测图像对应的高风险概率,以及基于获取到的所有候选低风险概率确定待预测图像对应的低风险概率;
[0091] 基于所述高风险概率以及低风险概率,确定所述待预测图像对应的预测结果。
[0092] 具体地,若干子预测模型中的各子预测模型的模型结构相同,均时基于支持向量机构建的,各子预测模型的输入项均为特征向量,输出项均为特征向量对应的待预测图像
的候选预测结果。由此,在将特征向量分别输入各子预测模型,该子预测模型确定候选高风
险概率以及候选低风险概率,并将候选高风险概率以及候选低风险概率作为子预测模型对
应的预测结果。此外,所述高风险概率可以为获取到的所有候选高风险概率的平均值,低风
险概率可以为获取到的所有候选低风险概率的平均值。当然,在实际应用中,高风险概率和
低风险概率概率可以采用其他方式来确定,例如,高风险概率为获取到的所有候选高风险
概率中的最大值;低风险概率可以为获取到的所有候选低风险概率中的最小值等。
[0093] 在本实施例的一个实现方式中,所述预测模型采用10折交叉验证策略进行训练的,预测模型包括10个子预测模型。所述预测模型包括所述预测模型的训练过程可以为:将
训练集划分为10个子集,每次取一个子集作为测试集其余作为训练集,进行10次重复建模
(即10折交叉验证),得到10个子预测模型,并将10个模型集成以得到预测模型。其中,每个
子预测模型均基于python平台(https://www.python.org/)的scikit‑learn机器学习库
(https://github.com/scikit‑learn/scikit‑learn)中的支持向量机算法构建复发预测
模型,每个子预测模型构建过程相同,均包括:1)特征选择,2)参数空间寻优,3)模型参数求
解三个过程。
[0094] 1)特征选择过程:
[0095] 在特征选择部分,选用具有组间统计学显著性差异的特征作为最终建模特征。在10折交叉验证中,每折交叉验证中,首先在训练集上进行基于统计方法的特征选择,并在得
到训练集上的显著特征后,在测试集上保留同样特征,基于统计的特征选择方法如下:我们
选用具有组间统计学差异的特征作为最终建模特征。对于每一种特征,我们首先通过
“Shapiro‑wilk检验”判断其组内是否满足正态分布,以及通过“Levene检验”判断组间是否
方差齐次,若各组内满足正态分布且方差齐次其进行student T检验,若满足正态分布但方
差不齐则进行Welch's T检验,若既不满足正态也不满足方差其次,则使用曼‑惠特尼U检
验。特征选择基于python开源scipy库(https://github.com/scipy/scipy)实现。
[0096] 2)参数空间寻优:
[0097] 基于scikit‑learn机器学习库中的支持向量机构建复发预测模型。经过特征选择后的训练集进行网格寻优(基于3折交叉验证),得到最优参数后重新基于训练集训练模型,
并对测试集进行测试。网格寻优参数范围为:1)核函数:rbf、sigmoid;2)惩罚系数C:1,32,
100,200,300,400,1000;Gamma:1e‑8,1e‑6,1e‑5,1e‑3,1e‑2,1e‑1;3)由于正样本较少,故
权重寻优范围中,正样本权重均大于负样本,我们将正样本权重固定为1,负样本权重寻优
范围为:1,0.8,0.7,0.6;4)SVM中求解器迭代数限制(‑1为无限制):60,140,200,300,‑1。
[0098] 3)预测模型集成
[0099] 基于训练数据交叉验证10个模型,首先使用训练数据交叉验证的每一子预测模型对验证数据进行预测,之后将预测结果进行平均,以获得预测模型的预测结果。最终,外部
验证样本的复发预测概率的公式可以为:
[0100] Yi={F(xi,p)|xi,p∈Xi}
[0101]
[0102] 其中,X是病人肿瘤,i是病人序号,x是肿瘤切片,p是肿瘤切片序号,F是分割特征提取函数(输出即分割网络经过池化的输出),Y是病人所有层的特征向量集合,k为聚合函
数,即通过聚类只留下最大簇,并把最大簇的特征向量平均为1个特征向量;g为分类模型,
输入为特征向量,输出为预测概率值;n为交叉验证模型序号;N为分类模型数,即交叉验证
折数。
[0103] 综上所述,本实施例提供了一种胰腺神经内分泌肿瘤术后复发风险预测方法,所述方法包括获取待预测图像中的若干肿瘤切片图;基于预设的分割模型,确定若干肿瘤切
片图中的各肿瘤切片图各自对应的特征图;对若干特征图进行过滤得到待预测图像对应的
若干目标特征图,并基于若干目标特征图,确定待预测图像的特征向量;基于所述特征向量
及预设的预测模型,确定所述待预测图像对应的预测结果。本申请通过采用分割模型确定
特征向量作为预测模型的输入项,并基于该特征图确定所述待预测图像对应的预测结果,
这样通过深度迁移学习方式确定待预测图像对应的预测结果,可以提高预测结果的准确
性。
[0104] 为了进一步说明本实施例提供的胰腺神经内分泌肿瘤术后复发风险预测方法,下面给出具体实验作为依据。
[0105] 1、实验采用的患者信息
[0106] 依托两个数据集进行开发,两数据集分为训练数据集(医院Ⅰ)及验证数据集(医院Ⅱ)。数据集中所有患者均在2010年1月至2018年12月期间经手术病理诊断证实为pNENs。纳
入标准如下:(1)所有患者在术前两周内均行CT平扫加增强检查;(2)患者在进行CT检查时
(或之前)没有接受任何针对pNENs的药物或手术治疗;(3)所有患者CT检查后两周内均行根
治性手术切除治疗。排除标准如下:(1)就诊时已发生远处转移;(2)除pNENs外,患者还存在
其它恶性肿瘤的病史;(3)诊断为多发性内分泌腺瘤综合征;(4)CT图像丢失或无后续随访
信息。数据筛选过程如图5示。最终纳入训练数据56例,验证数据18例。
[0107] CT采集参数
[0108] 医院Ⅰ:患者采用64层螺旋CT扫描仪(Aquilion 64,Canon Medical Systems)行上腹部扫描。具体参数如下:层厚0.5mm,层间隔0.5mm,管电流200mAs,管电压120kVp。在平扫
之后,以3ml/s的速度,使用高压注射器静脉注射碘化造影剂,动脉期和静脉期分别于注射
造影剂后35秒和65秒采集。所有的造影剂注射后,以相同的速度用生理盐水注射40毫升。
[0109] 医院Ⅱ:患者均采用128层螺旋CT扫描仪(Discovery CT750 HD,GE system,Milwaukee,WI,USA)行上腹部扫描。具体参数如下:层厚2mm,层间距1mm,自动调节管电流
(最大450mAs),管电压100‑140kVp。在平扫成像之后,以3ml/s的速度通过高压注射器静脉
注射碘化造影剂,当主动脉CT值达到100亨氏单位(hounsfield unit,HU)后获得动脉期和
静脉期,其中动脉期扫描时间范围为30秒至42秒,静脉期扫描时间范围为58秒至70秒。
[0110] 2、数据标注
[0111] 复发诊断结果标注
[0112] 术后是否复发诊断结果标注根据患者随访信息确定。自患者术后至2019年5月24号进行随访,具体随访细节为:第一年至少每6个月进行一次影像学检查(超声/CT/核磁共
振),1年以后根据肿瘤分级进行每6个月或1年一次的影像学检查(G1:1年一次,G2或G3、神
经内分泌癌:6个月一次)。其中的正电子发射断层成像(68Ga标记的生长抑素类似物受体和
18F标记的葡萄糖)用于确定高度怀疑术后复发而其它影像学方法无法确诊的病例。
[0113] CT征象标注
[0114] 分别由两名具有10年以上腹部疾病影像诊断经验的放射科医师对患者的CT图像进行评估(评估时医生不知道患者的术后复发情况),以获得CT征象标注,其中连续型变量
征象取两位医生测量数据的平均值,分类变量以两位医生评估一致的结果为准,如果出现
不一致的情况,则由一位更高年资的医生确定最后结果。评估的内容包括(1)原发病灶,(2)
胰腺,(3)淋巴结,(4)肝胆系统,(5)门脉系统。
[0115] 肿瘤定位与轮廓标注
[0116] 由两名具有10年以上腹部疾病诊断经验的放射科医师进行(评估时医生不知道患者的术后复发情况)。两家医院肿瘤病灶的轮廓标注(也叫金标准)均基于ITK‑SNAP软件
(http://www.itksnap.org)在动脉期以及静脉期CT图像上分别标注,定位标注过程则由放
射科医生在横断面勾画三层,分别为肿瘤的最上层,最大层以及最下层,勾画不采用严格的
标准,即每层勾画只需画出包含肿瘤区域的四边形即可。
[0117] 3、数据预处理
[0118] 本研究数据预处理过程包括3步,且预处理后的数据作为提取深度迁移学习网络特征的输入数据。1)将DICOM格式的图片转换为NIFTI格式的图片;2)根据医生经验,将动脉
期图像的窗位与窗宽统一设置为130HU和310HU,将静脉期图像窗位与窗宽设置为120HU和
320HU;3)使用cubic插值的方法,将所有图像的体素大小重采样为1×1×1mm。
[0119] 4、性能评估指标与测试结果
[0120] 评估效能
[0121] 使用受试者工作特征曲线(receiver operating characteristic curve,ROC)下面积AUC、准确率ACC、敏感度SEN、特异度SPC三个辅助指标进行评价,不同模型间AUC差异将
使用DeLong test统计学方法进行显著性分析,分析过程使用软件medcalc(https://
www.medcalc.org/)完成。以上指标变化范围为0到1,且越接近1代表预测性能越佳,各指标
计算公式如下:
[0122] ACC计算公式为:
[0123] ACC=(TP+TN)/(TP+FN+TN+FP)
[0124] SEN计算公式为:
[0125] SEN=TP/(TP+FN)
[0126] SPC计算公式为:
[0127] SPC=TN/(TN+FP)
[0128] 其中,真阳性(TP)为正确识别的复发患者,假阳性(FP)为错误预测为复发患者的未复发,假阴性(FN)为错误预测为非复发患者的复发患者,真阴性(TN)为正确识别的未复
发患者。
[0129] 设计如下对比实验以详细评估本发明系统对pNENs预测的效能:
[0130] 1)基于本发明方法与现有技术(如基于影像组学、CT征象模型),比较输入图像的不同期相(动脉期CT和门脉期CT)对模型预测性能的影响;
[0131] 2)比较本发明方法与现有技术(如基于影像组学、CT征象模型)间预测性能差距;
[0132] 3)基于最优模型,结合随访信息进行生存分析,评估模型对预后情况的预测能力。
[0133] 测试结果
[0134] 1)输入图像的不同期相(动脉期CT和门脉期CT)对模型预测性能的影响
[0135] 基于医院Ⅰ数据的影像组学特征和不同期相图像组合模型的10折交叉验证结果见表格1,评价标准分别为ACC,SEN,SPC,AUC,AUC的95%CI以及AUC与AUC=0.5比较的p值。利
用医院Ⅱ的数据分别对所建立的影像组学模型进行外部验证,结果见表格2。可见在影像组
学特征建立的模型中,动脉期的影像组学特征模型AUC最高,且在外部验证数据中泛化性最
佳。
[0136] 表格1影像组学动脉期、静脉期、动脉期+静脉期预测模型效能比较(医院Ⅰ)
[0137]
[0138] 注:p值为与AUC=0.5比较的p值;用来计算预测标签的概率值阈值为训练数据交叉验证ROC上约登指数最高点
[0139] 表格2影像组学动脉期、静脉期、动脉期+静脉期预测模型外验证结果(医院Ⅱ)
[0140]
[0141] 注:p值为与AUC=0.5比较的p值;用来计算预测标签的概率值阈值为训练数据交叉验证ROC上约登指数(0.5×(sen+spc))最高点
[0142] 基于医院Ⅰ数据的DTL特征和不同期相图像组合模型结果见表格3,分别为ACC,SEN,SPC,AUC,AUC的95%CI以及AUC与AUC=0.5比较的p值。利用医院Ⅱ的数据分别对所建
立的DTL模型进行外部验证,结果见表格4。可见在DTL特征建立的模型中,动脉期DTL模型的
AUC最高,且在外部验证数据中泛化性最佳。
[0143] 表格3DTL模型动脉期、静脉期、动脉期+静脉期预测效能比较(医院Ⅰ)
[0144]
[0145] 注:p值为与AUC=0.5比较的p值;用来计算预测标签的概率值阈值为训练数据交叉验证ROC上约登指数最高点
[0146] 表格4DTL模型动脉期、静脉期、动脉期+静脉期预测模型外验证结果(医院Ⅱ)
[0147]
[0148]
[0149] 注:p值为与AUC=0.5比较的p值;用来计算预测标签的概率值阈值为训练数据交叉验证ROC上约登指数最高点
[0150] 2)不同技术性能比较以及统计学分析
[0151] 影像组学特征最优模型、DTL特征最优模型与放射科医生评估的CT征象建立的模型比较结果见表格5,可见基于动脉期图像DTL模型特征建立的复发预测模型(deep 
transfer learning model in arterial phase,DTL‑A)内外AUC均最高,达到了0.80。因此
本发明优于现有技术。
[0152] 表格5影像组学动脉期模型、DTL‑A模型、CT征象模型预测效能比较(医院Ⅰ)
[0153]
[0154] 注:p值为与AUC=0.5比较的p值;用来计算预测标签的概率值阈值为训练数据交叉验证ROC上约登指数最高点
[0155] 将影像组学特征模型、深度迁移学习特征模型以及放射科医生评估的CT征象建立模型的ROC曲线进行了DeLong检验,比较结果见表格6,可见所有的预测模型AUC两两之间均
无统计学差异。这可能是因为开发集样本量较少而导致本技术优势为具有统计显著性。
[0156] 表格6所有模型ROC比较的DeLong test显著性表(医院Ⅰ)
[0157]
[0158] 注:DTL‑A指动脉期深度迁移学习模型,DTL‑V指静脉期深度迁移学习模型,DTL‑A+V指动脉期+静脉期深度迁移学习模型;Radiomics‑A指动脉期影像组学模型,Radiomics‑V
指静脉期影像组学模型,Radiomics‑A+V指动脉期+静脉期影像组学模型;CT肉眼征象指利
用放射科医生评价的CT肉眼征象所建立的模型。
[0159] 3)生存分析结果
[0160] DTL‑A模型的预测值为危险因子,ROC曲线上约登指数最高点为危险因子分层阈值(为0.165499)对两家医院的患者进行危险度分组,生存分析结果为K‑M法中的log‑rank检
验的p值为0.003。结果表明本发明具有良好的预后风险分层能力。
[0161] 在本研究中生存分析所用的危险因子,其本身就是对患者在5年内是否复发的预测概率值,而我们在建模的时候所使用的标签就是以5年为时间截点,因此在模型分类性能
较优的情况下(AUC为0.80),分层后高低危险组间生存情况差异必然很大,其RFS生存分析
的logrank检验结果也自然会显著。
[0162] 基于上述胰腺神经内分泌肿瘤术后复发风险预测方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个
程序可被一个或者多个处理器执行,以实现如上述实施例所述的胰腺神经内分泌肿瘤术后
复发风险预测方法中的步骤。
[0163] 基于上述胰腺神经内分泌肿瘤术后复发风险预测方法,本申请还提供了一种终端设备,如图6所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)
22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示
屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初
始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器
22中的逻辑指令,以执行上述实施例中的方法。
[0164] 此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
[0165] 存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器
22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方
法。
[0166] 存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此
外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动
硬盘、只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,
RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
[0167] 此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
[0168] 最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和
范围。