结合全局加权LBP和纹理分析的癌症预后模型构建方法转让专利

申请号 : CN202010109747.6

文献号 : CN111340770B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王彬阎婷王卿宇相洁

申请人 : 太原理工大学

摘要 :

本发明公开一种结合全局加权LBP和纹理分析的癌症预后模型构建方法,包括以下步骤:获取癌症患者的原始术前CT影像数据、病灶部位的标记以及生存资料;对原始CT数据计算三维的全局加权LBP,重构成新的影像数据,即全局加权LBP数据;对于得到的全局加权LBP数据,使用GLSZM纹理分析提取纹理特征;本发明方法所提取的纹理分析特征更加突出患者的肿瘤特点,预后模型构建结果更有效;利用GLSZM表征纹理特征,在纹理一致性、旋转不变性、非周期性方面效果显著,在对细胞核和CT影像纹理方面比共生矩阵、行程矩阵有更好的性能。

权利要求 :

1.结合全局加权LBP和纹理分析的癌症预后模型构建方法,其特征在于,包括以下步骤:步骤1、获取癌症患者的原始术前CT影像数据、病灶部位的标记以及生存资料;

步骤2、对原始术前CT数据,计算三维的全局加权LBP,重构成新的影像数据,即全局加权LBP数据;

计算三维的全局加权LBP的具体步骤包括:

步骤21、计算术前CT影像数据中体素的平均局部灰度值,计算公式为:ALG表示某一体素的平均局部灰度值,g表示某一体素的灰度值,gi表示体素的相邻体素灰度值,即,i=1,2,3,……,26;

步骤22、计算局部振幅LM,为周围体素的平均局部灰度值与中心体素的平均局部灰度值的差值,计算公式为:其中,ALGC表示中心体素的平均局部灰度值,ALGP,R表示周围体素的平均局部灰度值,gc表示中间体素,gci表示中间体素的相邻体素灰度值,gp表示周围体素,gpi表示周围体素的相邻体素灰度值;

步骤23、引入全局加权LM来传递LM的显著成分,准确捕捉图像整个影像中的关键信息,计算公式为:LMGW=α(LMAVG+LMSD)                   (3)其中,LMGW表示全局加权LM,LMAVG表示局部振幅LM的平均值,LMSD表示局部振幅LM的标准差,α是加权系数,本次分别取值为1、2、3、4,可以得到四个加权阈值;

步骤24、把全局加权LM作为LBP二值化的阈值,执行局部二值模式操作,实现全局加权LBP的计算,计算公式为:其中,Q表示体素个数,q表示中心像素邻域内第q个周围体素;

s(x)是一个符号函数,根据计算的幅度和阈值来判定为1或0,计算公式为:其中,x表示为LM-LMGW;

步骤25、逐个计算CT影像体素的全局加权LBP,并重构成新的全局加权LBP数据,根据α加权系数的取值为1、2、3、4,得到四组全局加权LBP数据;

步骤3、使用GLSZM纹理分析提取全局加权LBP数据的纹理特征;

步骤4、使用LASSO对得到的纹理特征进行特征选择,选择10倍交叉验证误差最小时的λ值对应的非零系数特征,作为最重要的预后特征;

LASSO筛选预后特征的具体过程包括:

对步骤3提取到的纹理特征应用LASSO逻辑回归后,对高维数据执行特征选择并进行正则化,通过惩罚估计函数提高预测准确性,将L1惩罚项添加到普通线性模型,估计为:其中,Y表示标签,X表示特征向量,λ表示惩罚系数,β表示特征系数,βj表示第j个特征的特征系数,d表示特征数量,Rd表示维度为d的实数集;

λ的选择方法为10倍交叉验证误差最小时的λ值,筛选出系数不为0的特征作为有价值的全局加权LBP预后特征;

步骤5、根据步骤4所选择的全局加权LBP特征值及其系数权重进行线性拟合,从而得到癌症患者的预后分数,即预后模型。

2.根据权利要求1所述的构建方法,其特征在于,所述步骤3中提取全局加权LBP纹理特征包括:根据伪加权系数的取值为1、2、3、4,四组全局加权LBP数据得到64个纹理特征值。

3.根据权利要求1所述的构建方法,其特征在于,所述步骤5中计算患者的预后分数包括:根据步骤4所筛选的预后特征按各自系数权重及对应特征值进行线性拟合,预后分数计算公式如下:其中pi是第i个特征的系数,vi是患者第i个特征值;

通过计算最终得到患者预后分数,构建出患者有效的预后模型。

说明书 :

结合全局加权LBP和纹理分析的癌症预后模型构建方法

技术领域

[0001] 本发明属于计算机医学图像信息处理技术领域,尤其涉及结合全局加权LBP和纹理分析的癌症预后模型构建方法。

背景技术

[0002] CT作为使用最广泛的成像方式普遍用于癌症患者术前诊断,但由于病灶部位的对比分辨率差,因此难以区分CT中不同的组织层。由于人工分析方法具有很强的主观性,不同的医生在相同的客观条件下在人工评分上具有较大的不一致性。人工分析除了容易受主观和环境因素的影响之外,这个过程也是十分耗时费力的,人力代价很高。近年来影像组学成为一种前沿学科方向。其中纹理分析成为一种重要的视觉底层特征,通过计算来描述区域的稀疏和规则等一些特性,可以提供病灶特征的定量测量。目前基于统计纹理分析的计算机辅助诊断是常见的特征提取方法。例如,基于灰度直方图、灰度共生矩阵等方法提取肿瘤区域的纹理特征。通过基于癌症患者CT影像的纹理特征的预后模型可以弥补人工分析的缺陷,不仅能为医生提供准确客观的预后模型构建结果,而且也可以减少医生的工作量从而极大地提高医生的工作效率。
[0003] 肿瘤纹理结构复杂多变,传统的统计纹理特征并不能很好的解决肿瘤的表征与识别。今年来,研究者不断开拓新的纹理特征提取方法,如小波、Gobar等方法与统计纹理分析,提取高维纹理特征。结合局部二值模式(LBP)是基于提取局部原语或基元并通过直方图测量其分布的方法,它具有灰度不变和旋转不变性等显著优点,但是在纹理分类上的准确率较低,对噪声的鲁棒性也较差。因此,改进LBP算法,并结有效的统计纹理分析将能够提取到新型的肿瘤纹理特征,更有利于构建准确客观的辅助诊断模型。

发明内容

[0004] 针对现有技术的不足,本发明提供一种结合全局加权LBP和纹理分析的癌症预后模型构建方法。采用加权灰度阈值执行LBP操作,对CT影像计算三维全局加权LBP,然后利用灰度区域大小矩阵(GLSZM)提取纹理分析特征;利用使用锁套方法(Lasso)筛选有效的预后特征来计算患者的预后分数,最终构建癌症患者预后的预后模型。
[0005] 本发明是这样实现的,一种结合全局加权LBP和纹理分析的癌症预后模型构建方法,包括以下步骤:
[0006] 步骤1、获取癌症患者的原始术前CT影像数据、病灶部位的标记以及生存资料;
[0007] 步骤2、对步骤1的原始CT数据计算三维的全局加权LBP,重构成新的影像数据,即全局加权LBP数据;
[0008] 步骤3、对于步骤2得到的全局加权LBP数据,使用GLSZM纹理分析提取纹理特征;
[0009] 步骤4、使用锁套方法(Lasso)对步骤3的得到的纹理特征进行特征选择,选择10倍交叉验证误差最小时的λ值对应的非零系数特征,作为最重要的预后特征;
[0010] 步骤5、根据步骤4所选择的全局加权LBP特征值及其系数权重进行线性拟合,从而得到每位患者的预后分数即预后模型;
[0011] 所述步骤2中计算CT影像数据的全局加权LBP的具体过程包括:
[0012] CT影像数据有一定的噪声,为增强对噪声的鲁棒性,使用本地体素的平均灰度值,而忽略了特定的灰度值ALG。
[0013]
[0014] ALG表示某一体素的平均局部灰度值,g表示某一体素的灰度值,gi表示体素的相邻体素灰度值,即,i=1,2,3,……,26。
[0015] 我们把计算的体素设为中心体素,周围体素表示位于半径R球面上的体素,半径R为1时,共有26体素,面相邻的6个体素,边相邻的12个体素,顶点相邻的8个体素,根据实际情况选取不同数目的周围体素个数。在本次实施中半径R取值为1,取值为6。然后计算局部振幅LM,为周围体素的平均局部灰度值与中心体素的平均局部灰度值的差值,计算公式为:
[0016]
[0017] ALGC表示中心体素的平均局部灰度值,ALGP,R表示周围体素的平均局部灰度值。由于肿瘤组织结构复杂,必须准确捕捉图像整个影像中的关键信息,因此引入了一个全局加权LM的来传递LM的显著成分,计算公式为:
[0018] LMGW=α(LMAVG+LMSD)   (3)
[0019] LMGW表示全局加权LM,gc表示中间体素,gci表示中间体素的相邻体素灰度值,gp表示周围体素,gpi表示周围体素的相邻体素灰度值;α是加权系数。本次分别取值为1、2、3、4,可以得到四个加权阈值。LMAVG表示局部振幅LM的平均值,LMSD表示局部振幅LM的标准差。
[0020] 把全局加权LM作为LBP二值化的阈值,进一步执行局部二值模式操作,实现全局加权LBP的计算,计算为:
[0021]
[0022] Q表示体素个数,q表示中心像素邻域内第q个周围体素;
[0023] s(x)是一个符号函数,根据计算的幅度和阈值来判定为1或0,计算为:
[0024]
[0025] x表示为LM-LMGW;
[0026] 逐个计算CT影像体素的全局加权LBP,并重构成新的全局加权LBP数据,根据α加权系数的取值为1、2、3、4,将得到四组全局加权LBP数据。
[0027] 所述步骤3提取全局加权LBP纹理分析特征的具体过程包括:
[0028] 所述灰度区域大小矩阵GLSZM用P(i,j)表示,灰度区域大小矩阵GLSZM为灰度为i的体素连续出现的区域大小j的数量。矩阵行数固定等于灰度级N,列数等于最大区域的大小。
[0029] 基于GLSZM计算16个纹理特征值,包括:小区域重点,大区域重点,灰度不均匀性,区域大小不均匀性,标准化灰度不均匀性,标准化区域大小不均匀性,区域百分比,灰度方差,区域大小方差,区域熵,低灰度区重点,高灰度区重点,小区域低灰度重点,小区域高灰度重点,大区域低灰度重点,大区域低灰度重点。根据α加权系数的取值为1、2、3、4,四组全局加权LBP数据将得到64个纹理特征值。
[0030] 所述步骤4、LASSO筛选重要预后特征的具体过程包括:
[0031] 对步骤3提取到的64个特征应用LASSO逻辑回归后,可以对高维数据执行特征选择并进行正则化,通过惩罚估计函数提高预测准确性。它将L1惩罚项添加到普通线性模型,估计为:
[0032]
[0033] 如公式(6)所示,其中Y表示标签,X表示特征向量,λ表示惩罚系数,β表示特征系数,βj表示第j个特征的特征系数,d是特征数为64,Rd表示维度为d的实数集,λ的选择方法为10倍交叉验证误差最小时的λ值,筛选出系数不为0的特征作为有价值的全局加权LBP预后特征。
[0034] 步骤5、计算患者的预后分数:
[0035] 每位患者根据步骤4所筛选的预后特征按各自系数权重及对应特征值进行线性拟合。预后分数计算公式如下:
[0036]
[0037] 如公式(7)所示,其中pi是第i个特征的系数,vi是患者第i个特征值。程序通过计算最终得到患者预后分数,构建出患者有效的预后模型。
[0038] 本发明采用以上技术方案与现有技术相比,具有以下有益效果:
[0039] (1)本发明方法在癌症CT影像上计算三维的全局加权LBP,所提取的纹理分析特征更加突出患者的肿瘤特点,预后模型构建结果更有效;
[0040] (2)利用GLSZM表征纹理特征,在纹理一致性、旋转不变性、非周期性方面效果显著,在对细胞核和CT影像纹理方面比共生矩阵、行程矩阵有更好的性能;
[0041] (3)在同样的条件下,本发明方法比基于单一的纹理分析更准确。

附图说明

[0042] 图1为本发明方法流程图;
[0043] 图2是预后分数分布图,其中(a)(b)对应训练集和验证集的全局加权LBP预后分数分布图,(c)(d)对应训练集和验证集的常规纹理预后分数分布图;
[0044] 图3为预后分数ROC曲线及AUC值分析图;
[0045] 图4为预后分数DCA曲线图。

具体实施方式

[0046] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0047] 实施例
[0048] 预后模型构建:
[0049] 请参阅图1,一种结合全局加权LBP和纹理分析的癌症预后模型构建方法,包括以下步骤:
[0050] 步骤1、获取癌症患者的原始术前CT影像数据、病灶部位的标记以及生存资料;
[0051] 本实施例将本发明所提供的技术方案应用在食管鳞癌(ESCC)CT影像数据集上。数据是从山西省肿瘤医院的图像存档和通信系统(PACS)中,筛选从2016年2月至2018年10月经组织学证实为ESCC的所有术前CT影像数据以及完整的生存资料包括随访时间、生存状态等。所以CT数据均标注了肿瘤区域。为了提供一个有效的工具来帮助患者早期的个性化治疗,本研究选择了PFS作为终点,计算了从确诊的第一天到疾病进展的日期,以及任何原因的死亡或最后一次随访的日期。最后将数据按大约3:1的比例随机分为训练数据集和验证数据集,以便检验预后模型的泛化能力。
[0052] 本实例中全部患者的数据信息如表1。
[0053] 表1
[0054]   训练(N=59) 验证(N=20)生存时间(月)    
≤25 16(27.1%) 5(25.0%)
25-44 28(47.4%) 10(50.0%)
≥44 15(25.5%) 5(25.0%)
生存状态    
死亡 29(49.2%) 10(50.0%)
存活 30(50.8%) 10(50.0%)
[0055] 步骤2、对步骤1的原始CT数据计算三维的全局加权LBP,重构成新的影像数据,即全局加权LBP数据;
[0056] 步骤3、对于步骤2得到的全局加权LBP数据,使用纹理分析提取纹理特征;
[0057] 步骤4、使用锁套方法(Lasso)对步骤3的得到的纹理特征进行特征选择,选择10倍交叉验证误差最小时的λ值对应的非零系数特征,作为最重要的预后特征;
[0058] 步骤5、根据步骤4所选择的全局加权LBP特征值及其系数权重进行线性拟合,从而得到每位患者的预后分数即预后模型;
[0059] 所述步骤2中计算CT影像数据的全局加权LBP的具体过程包括:
[0060] CT影像数据有一定的噪声,为增强对噪声的鲁棒性,使用本地体素的平均灰度值,而忽略了特定的灰度值ALG。
[0061]
[0062] ALG表示某一体素的平均局部灰度值,g表示某一体素的灰度值,gi表示体素的相邻体素灰度值,即,i=1,2,3,……,26。
[0063] 我们把计算的体素设为中心体素,周围体素表示位于半径R球面上的体素,半径R为1时,共有26体素,面相邻的6个体素,边相邻的12个体素,顶点相邻的8个体素,根据实际情况选取不同数目的周围体素个数。在本次实施中半径R取值为1,取值为6。然后计算局部振幅LM,为周围体素的平均局部灰度值与中心体素的平均局部灰度值的差值,计算公式为:
[0064]
[0065] ALGC表示中心体素的平均局部灰度值,ALGP,R表示周围体素的平均局部灰度值。由于肿瘤组织结构复杂,必须准确捕捉图像整个影像中的关键信息,因此引入了一个全局加权LM的来传递LM的显著成分,计算公式为:
[0066] LMGW=α(LMAVG+LMSD)   (3)
[0067] LMGW表示全局加权LM,α是加权系数。本次分别取值为1、2、3、4,可以得到四个加权阈值。
[0068] 把全局加权LM作为LBP二值化的阈值,进一步执行局部二值模式操作,实现全局加权LBP的计算,计算为:
[0069]
[0070] s(x)是一个符号函数,根据计算的幅度和阈值来判定为1或0,计算为:
[0071]
[0072] 逐个计算CT影像体素的全局加权LBP,并重构成新的全局加权LBP数据,根据α加权系数的取值为1、2、3、4,将得到四组全局加权LBP数据。
[0073] 所述步骤3提取全局加权LBP纹理分析特征的具体过程包括:
[0074] 所述灰度区域大小矩阵GLSZM用P(i,j)表示,灰度区域大小矩阵GLSZM为灰度为i的体素连续出现的区域大小j的数量。矩阵行数固定等于灰度级N,列数等于最大区域的大小。
[0075] 基于GLSZM计算16个纹理特征值,包括:小区域重点,大区域重点,灰度不均匀性,区域大小不均匀性,标准化灰度不均匀性,标准化区域大小不均匀性,区域百分比,灰度方差,区域大小方差,区域熵,低灰度区重点,高灰度区重点,小区域低灰度重点,小区域高灰度重点,大区域低灰度重点,大区域低灰度重点。根据α加权系数的取值为1、2、3、4,四组全局加权LBP数据将得到64个纹理特征值。
[0076] 所述步骤4、LASSO筛选重要预后特征的具体过程包括:
[0077] 对步骤3提取到的73个特征应用LASSO逻辑回归后,可以对高维数据执行特征选择并进行正则化,通过惩罚估计函数提高预测准确性。它将L1惩罚项添加到普通线性模型,估计为:
[0078]
[0079] 如公式(6)所示,选择交叉验证误差最小时为模型最优值,筛选出系数不为0的特征作为有价值的全局加权LBP预后特征。
[0080] 步骤5、计算患者的预后分数:
[0081] 每位患者根据步骤4所筛选的预后特征按各自系数权重及对应特征值进行线性拟合。预后分数计算公式如下:
[0082]
[0083] 如公式(7)所示,其中pi是第i个特征的系数,vi是患者第i个特征值。程序通过计算最终得到患者预后分数,构建出患者有效的预后模型。
[0084] 预后模型评估:
[0085] 根据训练集患者预后分数的中位数将患者分为高危组和低危组,并将中位数得分的患者置于高风险组。
[0086] 对比分析ESCC患预后分数的总体分布情况,探讨对生存状态的鉴别性能,并在验证队列中对其进行了验证。
[0087] 而ROC曲线及AUC作为一种来度量模型好坏的一个标准,AUC越大,说明特征预测效果越好,预后价值越明显。
[0088] 但是,ROC只是从该方法的特异性和敏感性考虑,追求的是准确。而临床上,准确并不一定意味着患者就能从中受益,因此再引入决策曲线分析法从患者基于两种预后分数的量化净收益角度分析,以此来帮助全面评价性能。
[0089] 进一步,将上述评估方法应用到仅传统纹理分析特征构建的预后模型上,以对比本发明提出的预后标签的性能。
[0090] 预后评估结果:
[0091] 如图2所示,根据预后分数计算公式得到全局加权LBP加入前后ESCC患者训练集和验证集的总体分布情况。
[0092] 可以看出,不管是在训练集还是测试集上,全局加权LBP预后分数更能清晰的区分ESCC患者的生存状态,即根据全局加权LBP预后分数划分为高风险患者集合中绝大多数为死亡状态,低风险患者集合中绝大多数为存活或删失状态。而纹理分析预后分数划分出的高、低风险患者集合中生存状态混乱,鉴别性能较差。
[0093] 如图3所示,进一步从两个方面来评价预后分数区分生存状态的性能,从准确性方面分析,分别计算ROC曲线及曲线下面积。加入全局加权LBP的训练集和验证集中预后分数的ROC曲线下面积分别比加入前高出11.8%和20.4%,显示出鉴别上的突出优势。
[0094] 如图4所示,从对患者的收益性方面分析,在ESCC患者的整个风险阈值范围中,加入全局加权LBP后的预后分数产生了更大的净收益,表明在全局加权LBP预后分数的指导下将使ESCC患者更加受益。
[0095] 综上可知,本发明提出的一种结合全局加权LBP和纹理分析的癌症预后模型具备了实际临床应用的能力。
[0096] 以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。