一种胰腺神经内分泌肿瘤术后复发风险预测方法转让专利
申请号 : CN202011432605.X
文献号 : CN112561869B
文献日 : 2021-11-02
发明人 : 黄炳升 , 王铭宇 , 宋晨宇 , 冯仕庭 , 李子平 , 罗宴吉 , 陈洁 , 彭振鹏 , 张洪源 , 王阳迪 , 沈静娴 , 李毅 , 陈佳兆 , 龙廷玉
申请人 : 深圳大学
摘要 :
权利要求 :
1.一种胰腺神经内分泌肿瘤术后复发风险预测方法,其特征在于,所述方法包括:获取待预测图像中的若干肿瘤切片图;
所述待预测图像为CT图像,且待预测图像携带有胰腺神经内分泌肿瘤区域;
所述待预测图像为通过配置有胰腺神经内分泌肿瘤术后复发风险预测方法的终端设备或外部设备采集再发送给终端设备的图像,所述待预测图像还包括预先存储于终端设备本地的图像;
基于预设的分割模型,确定若干肿瘤切片图中的各肿瘤切片图各自对应的特征图;
对若干特征图进行过滤得到待预测图像对应的若干目标特征图,并基于若干目标特征图,确定待预测图像的特征向量;
基于所述特征向量及预设的预测模型,确定所述待预测图像对应的预测结果;
所述对若干特征图进行过滤得到待预测图像对应的若干目标特征图具体包括:对若干特征图进行聚类分析,以得到若干特征图类;
选取若干特征图类中图像数量最大的特征图类作为目标特征图类;将所述目标特征图类包括的特征图作为所述待预测图像对应的目标特征图;
所述对若干特征图像进行聚类分析具体为采用K‑means聚类算法对若干肿瘤切片图进行聚类分析;
所述预测模型为若干并行的子预测模型,所述若干子预测模型中的各子预测模型的模型结构相同,均是基于支持向量机构建的,各子预测模型的输入项为特征向量,输出项均为特征向量对应的待预测图像的候选预测结果,所述预测结果为高风险复发或者低风险复发,并且,
所述预测结果包括预测概率,当预测结果为高风险复发时,预测概率为高风险概率,当预测结果为低风险复发时,预测概率为低风险概率;
对于每个子预测模型,将特征向量输入该预测模型,通过该子预测模型确定候选高风险概率以及候选低风险概率;
基于获取到所有候选高风险概率确定待预测图像对应的高风险概率,以及基于获取到的所有候选低风险概率确定待预测图像对应的低风险概率;
基于所述高风险概率以及低风险概率,确定所述待预测图像对应的预测结果;
所述预测模型为基于支持向量机构建的,并采用10折交叉验证策略进行训练的,其中,所述预测模型包括10个并行的子预测模型。
2.根据权利要求1所述胰腺神经内分泌肿瘤术后复发风险预测方法,其特征在于,所述若干目标特征图的图像数量小于若干特征图的图像数量,若干目标特征图中的每个目标特征图均包括于若干特征图内。
3.根据权利要求1所述胰腺神经内分泌肿瘤术后复发风险预测方法,其特征在于,所述基于若干目标特征图,确定待预测图像的特征向量具体包括:采用全局平均池化将各目标特征图转换为特征向量;
将转换得到的各特征向量进行融合,以得到待预测图像的特征向量。
4.根据权利要求1所述胰腺神经内分泌肿瘤术后复发风险预测方法,其特征在于,所述分割模型包括编码模块和解码模块;所述特征图为所述编码模块中的激活层的输出项,其中,所述激活层与所述编码模块中位于最后的卷积层相连接,且位于该卷积层之后。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1‑4任意一项所述的胰腺神经内分泌肿瘤术后复发风险预测方法中的步骤。
6.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1‑4任意一项所述的胰腺神经内分泌肿瘤术后复发风险预测方法中的步骤。
说明书 :
一种胰腺神经内分泌肿瘤术后复发风险预测方法
技术领域
背景技术
最常见的原发部位,约占所有NENs的32%。胰腺神经内分泌肿瘤(pancreatic
neuroendocrine neoplasms,pNENs)在尚未发生转移时,普遍采用手术进行治疗。
程。但更为合理的办法是在术前即对pNEN患者进行全面的评估,包括术前病人病情评估及
术后复发风险预测,这样不仅可以为不同复发风险的病人制定合理有效的监测方案以尽早
检出复发灶,还可以帮助高复发风险的病人进行术前手术方案的优化。然而,考虑到pNENs
生物学行为的复杂性,如何对不同生物学行为的pNEN患者进行复发风险分类是目前临床上
亟待解决的重要难题。
发明内容
特征图内。
述编码模块中位于最后的卷积层相连接,且位于该卷积层之后。
预测结果具体包括:
的子预测模型。
如上任一所述的胰腺神经内分泌肿瘤术后复发风险预测方法中的步骤。
定若干肿瘤切片图中的各肿瘤切片图各自对应的特征图;对若干特征图进行过滤得到待预
测图像对应的若干目标特征图,并基于若干目标特征图,确定待预测图像的特征向量;基于
所述特征向量及预设的预测模型,确定所述待预测图像对应的预测结果。本申请通过采用
分割模型确定特征向量作为预测模型的输入项,并基于该特征图确定所述待预测图像对应
的预测结果,这样通过深度迁移学习方式确定待预测图像对应的预测结果,可以提高预测
结果的准确性。
附图说明
本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的
附图。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加
一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元
件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在
中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措
辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的
意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义
来解释。
人群中,胰腺是NENs最常见的原发部位,约占所有NENs的32%。胰腺神经内分泌肿瘤
(pancreatic neuroendocrine neoplasms,pNENs)在尚未发生转移时,手术是根治性治疗
方法。
方法主要包括介入手术以及药物治疗,甚至再次手术。但更为合理的办法是在术前即对
pNEN患者进行全面的评估,包括术前病人病情评估及术后复发风险预测,这样不仅可以为
不同复发风险的病人制定合理有效的监测方案以尽早检出复发灶,还可以帮助高复发风险
的病人进行术前手术方案的优化。然而,考虑到pNENs生物学行为的复杂性,如何对不同生
物学行为的pNEN患者进行复发风险分类是目前临床上亟待解决的重要难题。
阈值时,得到最高的敏感度37%与特异度87%。以上方法的缺点为:pNENs有丝分裂计数和
Ki‑67指数必须经手术或术前活检获得,术后切除则无法进行术前治疗指导,术前活检有创
且采样局部无法代表整个肿瘤,且以上方法的预测性能不高,敏感度较低。
值的变化情况等特征,使用传统统计分析方法分析图像特征与复发结果间联系。以上研究
存在明显的局限性:在人工评价图像方面,主观性和测量操作误差都是不可避免的。同时由
于大部分研究仅限于统计分析层面,并没有将研究得到的相关指标用于实际预测模型的建
立与验证中,故其临床指导意义有限。
床预测。目前已有较成熟的方法如影像组学,用于预测肿瘤预后,但该方法需人为标注肿瘤
轮廓,费时费力,且特征为人为设计,不可针对任务自适应优化。利用深度学习进行医学影
像分析的技术近年来发展迅猛,性能优越,但性能较优的传统深度学习研究需要较大的样
本量。然而,pNENs是一种相对少见的肿瘤,且无公开数据集,大样本的图像数据难以获取。
图进行过滤得到待预测图像对应的若干目标特征图,并基于若干目标特征图,确定待预测
图像的特征向量;基于所述特征向量及预设的预测模型,确定所述待预测图像对应的预测
结果。本申请通过采用分割模型确定特征向量作为预测模型的输入项,并基于该特征图确
定所述待预测图像对应的预测结果,这样通过深度迁移学习方式确定待预测图像对应的预
测结果,可以提高预测结果的准确性。
储于终端设备本地的。所述待预测图像为CT图像,并且所述待预测图像携带有胰腺神经内
分泌肿瘤区域。本实施例的应用场景可以为:通过MRT设备采集对患者行CT平扫加增强检
查,以得到CT图像,并将采集到CT图像发送给配置有该胰腺神经内分泌肿瘤术后复发风险
预测方法的终端设备,以得到该终端设备可以获取到待预测图像。所述CT图像对应的患者
在术前两周内获取到CT图像,患者在进行CT检查时(或之前)没有接受任何针对pNENs的药
物或手术治疗;患者CT检查后两周内均行根治性手术切除治疗。此外,待预测图像对应的患
者为存在其它恶性肿瘤的病史以及多发性内分泌腺瘤综合征,这样可以提高预测结果的准
确性。
由CT图像中包括肿瘤区域的切片层构成的。
所述肿瘤区域为基于分割模型学习到的待预测图像对应的特征图确定的。可以理解的是,
所述分割模型会学习到该待预测图像的图像信息以形成特征图,在通过该特征图对待预测
图像进行定位,以得到该待预测图像对应的肿瘤区域。
块中位于最后的卷积层相连接,且位于该卷积层之后。可以理解的是,所述特征图为所述编
码模块中最后一个卷积层的输出项通过激活层得到,所述激活层可以配置有Relu激活函
数,这样可以提高特征图携带的图像信息的抽象程度以及表征能力,从而可以提高基于特
征图确定预测结果的准确性。
上采样单元,所述若干下采样单元与所述若干上采样单元一一对应,并且各下采样单元与
其对应的上采样单元通过跳跃连接连通。所述下采样单元包括下采样层以及残差卷积块,
所述下采样层与所述残差卷积块相连接,所述下采样层的输出项为残差卷积块的输入项。
所述上采样单元包括上采样层以及残差卷积块,所述上采样层与所述残差卷积块相连接,
所述上采样层的输出项为残差卷积块的输入项。所述残差卷积块包括第一卷积单元、第二
卷积单元以及卷积层,所述第一卷积单元与所述第二卷积单元级联,所述第一卷积单元的
输入项为残差卷积块的输入项,所述第二卷积单元的输入项为第一卷积单元的输出项;所
述第一卷积层的输入项为残差卷积块的输入项,所述第二卷积单元的输出项与所述卷积层
的输出项进行残差连接后作为残差卷积块的输出项。所述第一卷积单元和第二卷积单元均
包括3*3卷积层以及激活函数层,其中,所述激活函数层可以配置有relu激活函数,卷积层
可以为3*3卷积层。
Adam作为优化器,基本学习率(learning rate,lr)为10 。在验证图像集上采用dice相似性
系数筛选获得最优分割模型,其中,Dice相似性系数的计算公式可以为:
的集合为若干特征图构成的集合的子集。所述特征向量为基于若干目标特征图确定,这样
通过特征向量可以融合若干目标特征图中各特征图携带图像信息,从而丰富特征向量中的
图像信息,进而提高基于特征向量预测的准确性。
类中包括的特征图互不相同。例如,若干特征图类包括特征图类A和特征图类B,特征图类A
包括特征图a和特征图b,特征图类B包括特征图c和特征图d,那么对于特征图a,特征图c和
特征图d均与特征图a互不相同;对于特征图b,特征图c和特征图d均与特征图a互不相同
干特征图分为K组特征图组,在每个特征图组中随机选取一个特征图作为聚类中心,以得到
K个聚类中心,然后计算每个特征图与各聚类中心之间的欧式距离,把每个特征图分配给距
离它最近的聚类中心,并将聚类中心以及分配给该聚类中心的特征图作为一个特征图个
类。此外,每分配一个特征图,聚类的聚类中心会根据聚类中的特征图被重新计算,并重复
这个过程将不断重复直到满足某个终止条件。其中,终止条件可以是没有(或最小数目)特
征图被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部
最小等。在本实施例的一个具体实现中,所述聚类簇数为2,相应的,对若干特征图进行聚类
分析可以得到两个特征图类。
中包括特征图的数量最大的特征图类。所述目标特征图类中的特征图为携带有肿瘤区域特
征多的特征图,这样可以将若干特征图中携带肿瘤区域特征少的特征图去除,使得留下切
片对肿瘤的表征在特征分布空间更加聚拢,以达到去除冗余切片特征并使每个病人聚合后
的切片特征更加一致。这是由于在CT图像的各肿瘤切片图中,存在部分肿瘤切片图未包含
具有分辨力的信息(如,肿瘤最上下层切片),使得肿瘤切片图存在冗余切片,而肿瘤切片图
中包含分辨力的信息的切片数量大于未包含具有分辨力的信息的切片,从而采用聚类分析
并选取包含特征图数量多的特征图类,可以保留肿瘤切片图中包含分辨力的信息的肿瘤切
片图对应的特征图,而去除肿瘤切片图未包含具有分辨力的信息的特征图。
对应的特征向量。例如,目标特征图的图像尺度为32*32*512,目标特征图对应的特征图向
量的维度为1*512,那么若干特征图向量求平均值得到的特征图的维度为1*512。
所述待预测图像对应的预测结果为高风险复发或者低风险复发,并且,预测结果包括预测
概率,当预测结果为高风险复发时,预测概率为高风险概率;当预测结果为低风险复发时,
预测概率为低风险概率。本实施例中在对待预测图像进行复发预测时,采用基于分割模型
确定的特征向量作为输入项,可以提高预测类别的准确性。
线性分类器,能够较好地处理小样本、非线性、高维度模式识别等问题。SVM的学习策略是分
类超平面中支持向量的间距最大化,从而将分类问题转换为凸二次规划的优化问题。
y2),...,(xN,yN)},其中,xi∈R ,yi∈{‑1,1},xi为训练数据,yi为xi对应的标签值,线性判别
函数可设置为:
但如果将大量低维数据直接映射到高维特征空间,特征空间维度的爆炸性增长会使得计算
复杂度大幅提升。SVM通过引入核函数来解决了低维空间和高维空间之间的转换问题。核函
数的思想在于通过一种映射关系,能够使得特征在低维空间上的计算结果跟将特征映射到
高维空间后所计算的结果大致相同。通过核函数的有效映射,能够大大简化了计算过程,提
升SVM模型的分类能力。
包括:
的候选预测结果。由此,在将特征向量分别输入各子预测模型,该子预测模型确定候选高风
险概率以及候选低风险概率,并将候选高风险概率以及候选低风险概率作为子预测模型对
应的预测结果。此外,所述高风险概率可以为获取到的所有候选高风险概率的平均值,低风
险概率可以为获取到的所有候选低风险概率的平均值。当然,在实际应用中,高风险概率和
低风险概率概率可以采用其他方式来确定,例如,高风险概率为获取到的所有候选高风险
概率中的最大值;低风险概率可以为获取到的所有候选低风险概率中的最小值等。
训练集划分为10个子集,每次取一个子集作为测试集其余作为训练集,进行10次重复建模
(即10折交叉验证),得到10个子预测模型,并将10个模型集成以得到预测模型。其中,每个
子预测模型均基于python平台(https://www.python.org/)的scikit‑learn机器学习库
(https://github.com/scikit‑learn/scikit‑learn)中的支持向量机算法构建复发预测
模型,每个子预测模型构建过程相同,均包括:1)特征选择,2)参数空间寻优,3)模型参数求
解三个过程。
到训练集上的显著特征后,在测试集上保留同样特征,基于统计的特征选择方法如下:我们
选用具有组间统计学差异的特征作为最终建模特征。对于每一种特征,我们首先通过
“Shapiro‑wilk检验”判断其组内是否满足正态分布,以及通过“Levene检验”判断组间是否
方差齐次,若各组内满足正态分布且方差齐次其进行student T检验,若满足正态分布但方
差不齐则进行Welch's T检验,若既不满足正态也不满足方差其次,则使用曼‑惠特尼U检
验。特征选择基于python开源scipy库(https://github.com/scipy/scipy)实现。
并对测试集进行测试。网格寻优参数范围为:1)核函数:rbf、sigmoid;2)惩罚系数C:1,32,
100,200,300,400,1000;Gamma:1e‑8,1e‑6,1e‑5,1e‑3,1e‑2,1e‑1;3)由于正样本较少,故
权重寻优范围中,正样本权重均大于负样本,我们将正样本权重固定为1,负样本权重寻优
范围为:1,0.8,0.7,0.6;4)SVM中求解器迭代数限制(‑1为无限制):60,140,200,300,‑1。
验证样本的复发预测概率的公式可以为:
数,即通过聚类只留下最大簇,并把最大簇的特征向量平均为1个特征向量;g为分类模型,
输入为特征向量,输出为预测概率值;n为交叉验证模型序号;N为分类模型数,即交叉验证
折数。
片图中的各肿瘤切片图各自对应的特征图;对若干特征图进行过滤得到待预测图像对应的
若干目标特征图,并基于若干目标特征图,确定待预测图像的特征向量;基于所述特征向量
及预设的预测模型,确定所述待预测图像对应的预测结果。本申请通过采用分割模型确定
特征向量作为预测模型的输入项,并基于该特征图确定所述待预测图像对应的预测结果,
这样通过深度迁移学习方式确定待预测图像对应的预测结果,可以提高预测结果的准确
性。
入标准如下:(1)所有患者在术前两周内均行CT平扫加增强检查;(2)患者在进行CT检查时
(或之前)没有接受任何针对pNENs的药物或手术治疗;(3)所有患者CT检查后两周内均行根
治性手术切除治疗。排除标准如下:(1)就诊时已发生远处转移;(2)除pNENs外,患者还存在
其它恶性肿瘤的病史;(3)诊断为多发性内分泌腺瘤综合征;(4)CT图像丢失或无后续随访
信息。数据筛选过程如图5示。最终纳入训练数据56例,验证数据18例。
之后,以3ml/s的速度,使用高压注射器静脉注射碘化造影剂,动脉期和静脉期分别于注射
造影剂后35秒和65秒采集。所有的造影剂注射后,以相同的速度用生理盐水注射40毫升。
(最大450mAs),管电压100‑140kVp。在平扫成像之后,以3ml/s的速度通过高压注射器静脉
注射碘化造影剂,当主动脉CT值达到100亨氏单位(hounsfield unit,HU)后获得动脉期和
静脉期,其中动脉期扫描时间范围为30秒至42秒,静脉期扫描时间范围为58秒至70秒。
振),1年以后根据肿瘤分级进行每6个月或1年一次的影像学检查(G1:1年一次,G2或G3、神
经内分泌癌:6个月一次)。其中的正电子发射断层成像(68Ga标记的生长抑素类似物受体和
18F标记的葡萄糖)用于确定高度怀疑术后复发而其它影像学方法无法确诊的病例。
征象取两位医生测量数据的平均值,分类变量以两位医生评估一致的结果为准,如果出现
不一致的情况,则由一位更高年资的医生确定最后结果。评估的内容包括(1)原发病灶,(2)
胰腺,(3)淋巴结,(4)肝胆系统,(5)门脉系统。
(http://www.itksnap.org)在动脉期以及静脉期CT图像上分别标注,定位标注过程则由放
射科医生在横断面勾画三层,分别为肿瘤的最上层,最大层以及最下层,勾画不采用严格的
标准,即每层勾画只需画出包含肿瘤区域的四边形即可。
期图像的窗位与窗宽统一设置为130HU和310HU,将静脉期图像窗位与窗宽设置为120HU和
320HU;3)使用cubic插值的方法,将所有图像的体素大小重采样为1×1×1mm。
使用DeLong test统计学方法进行显著性分析,分析过程使用软件medcalc(https://
www.medcalc.org/)完成。以上指标变化范围为0到1,且越接近1代表预测性能越佳,各指标
计算公式如下:
发患者。
用医院Ⅱ的数据分别对所建立的影像组学模型进行外部验证,结果见表格2。可见在影像组
学特征建立的模型中,动脉期的影像组学特征模型AUC最高,且在外部验证数据中泛化性最
佳。
立的DTL模型进行外部验证,结果见表格4。可见在DTL特征建立的模型中,动脉期DTL模型的
AUC最高,且在外部验证数据中泛化性最佳。
transfer learning model in arterial phase,DTL‑A)内外AUC均最高,达到了0.80。因此
本发明优于现有技术。
无统计学差异。这可能是因为开发集样本量较少而导致本技术优势为具有统计显著性。
指静脉期影像组学模型,Radiomics‑A+V指动脉期+静脉期影像组学模型;CT肉眼征象指利
用放射科医生评价的CT肉眼征象所建立的模型。
验的p值为0.003。结果表明本发明具有良好的预后风险分层能力。
较优的情况下(AUC为0.80),分层后高低危险组间生存情况差异必然很大,其RFS生存分析
的logrank检验结果也自然会显著。
程序可被一个或者多个处理器执行,以实现如上述实施例所述的胰腺神经内分泌肿瘤术后
复发风险预测方法中的步骤。
22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示
屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初
始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器
22中的逻辑指令,以执行上述实施例中的方法。
22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方
法。
外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动
硬盘、只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,
RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和
范围。