基于滑动窗口Transformer的两阶段法CT图像分割方法转让专利

申请号 : CN202211396905.6

文献号 : CN115690127B

文献日 : 2023-07-18

相似专利: 请登录后查看

一种基于滑动窗口Transformer的两阶段法CT图像分割方法，通过一种新型的两阶段式的图像分割方法，来提高模型分割的效率，并且这种方法还能去除离分割目标过远的异常分割区域，此外，本发明中，使用了基于轮廓模型的的损失函数，这种方法结合了图像的全局特征，即结合了图像的各向异性和非对称的特征，并且减少图像分割的有异常值和分割曲线容易发生泄漏问题。

1.一种基于滑动窗口Transformer的两阶段法CT图像分割方法，其特征在于，包括如下步骤：a)使用python中的glob模块读取所有训练集和测试集的CT图像的存储路径，将存储路径存入列表中，使用SimpleITk模块按照列表中每个图像的存储路径读取CT图像的信息，将读取的CT图像进行预处理操作；

b)建立图像分割网络，将经过中心剪裁的测试集的CT图像输入到图像分割网络中，得到输出Output；

c)计算得到损失函数CIoU_LOSS；

d)利用损失函数训练图像分割网络；

e)将预处理操作后的训练集的CT图像输入到训练后的图像分割网络中，输出得到最终的分割结果；

步骤a)中的预处理操作包括如下步骤：

a‑1)根据人体腹部CT值的范围为‑160‑240Hu选择CT图像的像素值范围；

a‑2)将所述像素值范围对应的CT图像进行归一化处理；

a‑3)将归一化后的CT图像使用线性插值的方法进行图像重采样，各向异性分辨率重采样为1*1；

a‑4)将重采样后的CT图像按照图像中心剪裁，CT图像及CT图像的Mask均剪裁为H*W，H为图像的高，W为图像的宽，将剪裁后的图像数据存储到npz文件中；a‑5)分别将剪裁后的每个CT图像的Mask的上、下、左、右的最靠边的像素的横坐标位置及纵坐标位置记录下来，将最上方像素的纵坐标和最左方像素的横坐标构成bounding box的左上角的点，将最下方像素的纵坐标和最右方像素的横坐标构成bounding box的右下角的点，由左上角的点和右下角的点的对角线确定包含分割目标的矩形区域X，该矩形区域X为H*W*1，1为维度大小，将矩形区域X保存到扩展名为npz的文件中，得到Model1训练集的数据；

a‑6)将YoloV5网络中的卷积块和CSP bottleneck blosks替换为block，所述block由block1和block2串联构成，所述block1依次由第一正则化层、多头注意力机制层、残差连接层、第二正则化层及两层的多层感知机构成，矩形区域X输入到第一正则化层后输出得到特i+1 i+1 i+2 i+2征图X ，将特征图X 输入到多头注意力机制层中输出得到特征图X ，将特征图X 及矩i+3 i+3形区域X输入到残差连接层后再输入到第二正则化层，输出得到特征图X ，将特征图X 输入到多层感知机中，输出得到特征图Y，所述block2依次由第一正则化层、基于滑动窗口的多头注意力机制层、残差连接层、第二正则化层及两层的多层感知机构成，将特征图Y输入i+1 i+1到block2的第一正则化层后输出得到特征图Y ，将特征图Y 输入到基于滑动窗口的多头i+2 i+2注意力机制层中输出得到特征图Y ，将特征图Y 及特征图Y输入到残差连接层后再输入i+3 i+3到第二正则化层，输出得到特征图Y ，将特征图Y 输入到多层感知机中，输出得到特征图Z；

a‑7)将YoloV5网络中的Neck部分选择PANet，将特征图Z输入到YoloV5网络中的backbone中，输出得到最终的预测bounding box的集合；

a‑8)利用NMS算法对预测bounding box的集合进行过滤，得到过滤后的一个bounding box，NMS算法的阈值为0.65；

a‑9)将步骤a‑4)中剪裁后的CT图像的切片及CT图像对应的Mask切片保存在同一个扩展名为npz的文件中，得到Model2训练集的数据；

步骤b)包括如下步骤：

b‑1)图像分割网络由缩小路径单元及扩大路径单元构成，所述缩小路径单元依次包括第一缩小模块、第二缩小模块、第三缩小模块、第四缩小模块构成，所述扩大路径单元依次包括第四扩大模块、第三扩大模块、第二扩大模块、第一扩大模块构成；

b‑2)将测试集的CT图像的矩形区域X的图像H*W*1输入到缩小路径单元的第一缩小模块中，经过Patch层和Liear Enbedding层后，图像缩小为H/4*W/4*C，C为维度，将该图像命名为Output_left1；

b‑3)将图像Output_left1输入到缩小路径单元的第二缩小模块中，经过Patch Mergering层后，图像缩小为H/8*W/8*2C，将缩小后的图像输入到步骤a‑6)中的block中得到图像Output_left2；

b‑4)将图像Output_left2输入到缩小路径单元的第三缩小模块中，经过Patch Mergering层后，图像缩小为H/16*W/16*4C，将缩小后的图像输入到步骤a‑6)中的block中得到图像Output_left3；

b‑5)将图像Output_left3输入到缩小路径单元的第四缩小模块中，经过Patch Mergering层后，图像缩小为H/32*W/32*8C，将缩小后的图像输入到步骤a‑6)中的block中得到图像Output_left4；

b‑6)将图像Output_left4输入到扩大路径单元的第四扩大模块中，经过Patch Expanding层后，图像扩大为H/16*W/16*4C，将扩大后的图像与图像Output_left3叠加操作后输入到步骤a‑6)中的block中得到图像Output_right3；

b‑7)将图像Output_right3输入到扩大路径单元的第三扩大模块中，经过Patch Expanding层后，图像扩大为H/8*W/8*2C，将扩大后的图像与图像Output_left2叠加操作后得到图像Output_right2；

b‑8)将图像Output_right2输入到扩大路径单元的第二扩大模块中，经过Patch Expanding层后，图像扩大为H/4*W/4*C，将扩大后的图像与图像Output_left1叠加操作后输入到步骤a‑6)中的block中得到图像Output_right1；

b‑9)将图像Output_right1输入到扩大路径单元的第一扩大模块中，经过Patch ‑ ‑ ‑ ‑Expanding层后，图像扩大为H *W*1，其中H 为扩大后的图像的高，W为扩大后的图像的宽，扩大后的图像为输出Output。

2.根据权利要求1所述的基于滑动窗口Transformer的两阶段法CT图像分割方法，其特征在于：步骤a‑2)中采用Z‑score方法对CT图像进行归一化。

3.根据权利要求1所述的基于滑动窗口Transformer的两阶段法CT图像分割方法，其特征在于：步骤a‑4)中H取值为160，W取值为160。

4.根据权利要求1所述的基于滑动窗口Transformer的两阶段法CT图像分割方法，其特征在于：步骤a‑5)中扩展名为npz的文件中图像数据命名为image，bounding box对应的数据命名为Bbox，步骤a‑9)中扩展名为npz的文件中CT图像的切片命名为image，Mask切片命名为lable。

5.根据权利要求4所述的基于滑动窗口Transformer的两阶段法CT图像分割方法，其特征在于，步骤c)包括如下步骤：c‑1)通过公式CIoU_LOSS＝1‑CIoU计算得到Model1的损失函数CIoU_LOSS，式中intersection为矩形区域X和输出Output的并集，union为矩形区域X和输出Output的交集，Distance_2为矩形区域X的图像的中心点和输出Output的图像的中心点之间的欧式距离，c‑2)使用Sigmoid函数将输出Output中的值处理到[0,1]的范围内，将处理后的输出Output命名为Output Sig，设置阈值为0.5，将Output Sig中值大于等于阈值的点作为分割目标，将分割目标取值为1，将Output Sig中值小于阈值的点作为背景，将背景取值为0，将由0和1构成的图像命名为Output Mask，Output Mask中0和1交界的地方为分割目标的边界；

c‑3)通过公式Ltotal＝αLDice+βLAC计算得到Model2的损失函数Ltotal，式中α、β均为权重值，α+β＝1，式中si为剪裁后的CT图像的Mask中第i个像素点的‑ ‑

值，i＝{1,2,...,N}，N为剪裁后的CT图像的Mask中像素点总数，gj为Output Mask中第j个像素点的值，j＝{1,2,...,N}，N为Output Mask中像素点总数，LAC＝∫Ωδε(x)(+g∞)dx，式中Ω为Output的积分区域，δε(x)为光滑的狄拉克函数，ε为参数，ε＞0，

S为Output Mask中值为1的点的区域，为Output

Mask分割目标的边界，时，为Output Mask分割目标的边界外边的点到的欧式距离，时，为Output Mask分割目标的边界内部的点到的欧式距

离，其中x为一个点，

为φ(x)的梯度值，

为矩形区域X的梯度值，gI为图像边缘指示器， b为常数，b＞

0，为欧几里得梯度算子，*为卷积算子，Gσ为高斯核函数，I(x)为矩形区域X。

6.根据权利要求5所述的基于滑动窗口Transformer的两阶段法CT图像分割方法，其特征在于，步骤d)包括如下步骤：d‑1)使用DataSet类加载保存到npz文件中的图像数据image及bounding box对应的数据Bbox；

d‑2)利用Model1的损失函数CIoU_LOSS通过Adam优化器训练图像分割网络中的Model1的参数，Adam优化器的学习率的改变方式采用余弦退火学习率CosineAnnealingLR、最大学习率设置为0.3、最小设置为0.001、动量因子momentum设置为0.9、权重衰减weight_decay设置为0.05，训练时使用迭代器DataLoader将DataSet封装为一个迭代器，DataLoader的参数为：batch_size设置为32，shuffle设置为True，num_workers设置为8；

d‑3)将npz文件中的image数据及Mask切片封装到DataSet，利用Model2的损失函数Ltotal通过SGD优化器训练图像分割网络中的Model2的参数，SGD优化器的动量因子momentum设置为0.9、权重衰减weight_decay设置为0.0001，训练时使用迭代器DataLoader迭代数据，DataLoader的参数设置为batch_size设置为32，shuffle设置为True，num_workers设置为8。

基于滑动窗口Transformer的两阶段法CT图像分割方法

技术领域

[0001] 本发明涉及CT图像分割方法，具体涉及一种基于滑动窗口Transformer的两阶段法CT图像分割方法。

背景技术

[0002] Transformer是当前流行的深度学习模型，最早应用在NLP(自然语言处理)领域(如：机器翻译，文本生成等)，并且已经成为自然语言处理事务的标准。经过不断发展，Transformer模型也被应用在计算机视觉领域(如：AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNIT ION AT SCALE等)，并取得不错的成绩。在医学图像领域中，越来越的先进技术把医学图像中的组织病灶或感兴趣的区域分割出来，供专业的医生查看来分析病情或提出治疗方案。但是CT图像为3D图像，像素点过多，全部放入神经网络中训练会使训练过程过于缓慢。虽然Swin中使用到了滑动窗口，但也只关注了局部的特征，没有考虑到图像的全局特征。

发明内容

[0003] 本发明为了克服以上技术的不足，提供了一种提高模型分割效率的基于滑动窗口Transformer的两阶段法CT图像分割方法。

[0004] 本发明克服其技术问题所采用的技术方案是：

[0005] 一种基于滑动窗口Transformer的两阶段法CT图像分割方法，包括如下步骤：a)使用python中的glob模块读取所有训练集和测试集的CT图像的存储路径，将存储路径存入列表中，使用SimpleITk模块按照列表中每个图像的存储路径读取CT图像的信息，将图区的CT图像进行预处理操作；

[0006] b)建立图像分割网络，将经过中心剪裁的测试集的CT图像输入到图像分割网络中，得到输出Output；

[0007] c)计算得到损失函数CIoU_LOSS；

[0008] d)利用损失函数训练图像分割网络；

[0009] e)将预处理操作后的训练集的CT图像输入到训练后的图像分割网络中，输出得到最终的分割结果。

[0010] 进一步的，步骤a)中的预处理操作包括如下步骤：

[0011] a‑1)根据人体腹部CT值的范围为‑160‑240Hu选择CT图像的像素值范围；

[0012] a‑2)将选择像素值后的CT图像进行归一化处理；

[0013] a‑3)将归一化后的CT图像使用线性插值的方法进行图像重采样，各向异性分辨率重采样为1*1；

[0014] a‑4)将重采样后的CT图像按照图像中心剪裁，图像及图像的Mask均剪裁为H*W，H为图像的高，W为图像的宽，将剪裁后的图像数据存储到npz文件中；a‑5)分别将剪裁后的每个CT图像的Mask的上、下、左、右的最靠边的像素的横坐标位置及纵坐标位置记录下来，将最上方像素的纵坐标和最左方像素的横坐标构成bounding box的左上角的点，将最下方像素的纵坐标和最右方像素的横坐标构成bounding box的右下角的点，由左上角的点和右下角的点的对角线确定包含分割目标的矩形区域X，该矩形区域X为H*W*1，1为维度大小，将矩形区域X保存到扩展名为npz的文件中，得到Model1训练集的数据；

[0015] a‑6)将YoloV5网络中的卷积块和CSP bottleneck blosks替换为block，所述block由block1和block2串联构成，所述block1依次由第一正则化层、多头注意力机制层、残差连接层、第二正则化层及两层的多层感知机构成，矩形区域X输入到第一正则化层后输i+1 i+1 i+2出得到特征图X ，将特征图X 输入到多头注意力机制层中输出得到特征图X ，将特征图i+2 i+3
X 及矩形区域X输入到残差连接层后再输入到第二正则化层，输出得到特征图X ，将特征i+3
图X 输入到多层感知机中，输出得到特征图Y，所述block2依次由第一正则化层、基于滑动窗口的多头注意力机制层、残差连接层、第二正则化层及两层的多层感知机构成，将特征图i+1 i+1
Y输入到block2的第一正则化层后输出得到特征图Y ，将特征图Y 输入到基于滑动窗口i+2 i+2
的多头注意力机制层中输出得到特征图Y ，将特征图Y 及特征图Y输入到残差连接层后i+3 i+3
再输入到第二正则化层，输出得到特征图Y ，将特征图Y 输入到多层感知机中，输出得到特征图Z；

[0016] a‑7)将YoloV5网络中的Neck部分选择PANet，将特征图Z输入到YoloV5网络中的backbone中，输出得到最终的预测bounding box的集合；

[0017] a‑8)利用NMS算法对预测bounding box的集合进行过滤，得到过滤后的一个bounding box，NMS算法的阈值为0.65；

[0018] a‑9)将步骤a‑4)中剪裁后的剪裁后的CT图像的切片及CT图像对应的Mask切片保存在同一个扩展名为npz的文件中，得到Model2训练集的数据。

[0019] 优选的，步骤a‑2)中采用Z‑score方法对CT图像进行归一化。

[0020] 优选的，步骤a‑4)中H取值为160，W取值为160。

[0021] 进一步的，步骤a‑5)中扩展名为npz的文件中图像数据命名为image，bounding box对应的数据命名为Bbox，步骤a‑9)中扩展名为npz的文件中图像切片命名为image，Mask切片命名为lable。

[0022] 进一步的，步骤b)包括如下步骤：

[0023] b‑1)图像分割网络由缩小路径单元及扩大路径单元构成，所述缩小路径单元依次包括第一缩小模块、第二缩小模块、第三缩小模块、第四缩小模块构成，所述扩大路径单元依次包括第四扩大模块、第三扩大模块、第二扩大模块、第一扩大模块构成；

[0024] b‑2)将测试集的CT图像的矩形区域X的图像H*W*1输入到缩小路径单元的第一缩小模块中，经过Patch层和Liear Enbedding层后，图像缩小为H/4*W/4*C，C为维度，将该图像命名为Output_left1；

[0025] b‑3)将图像Output_left1输入到缩小路径单元的第二缩小模块中，经过Patch Mergering层后，图像缩小为H/8*W/8*2C，将缩小后的图像输入到步骤a‑6)中的block中得到图像Output_left2；

[0026] b‑4)将图像Output_left2输入到缩小路径单元的第三缩小模块中，经过Patch Mergering层后，图像缩小为H/16*W/16*4C，将缩小后的图像输入到步骤a‑6)中的block中得到图像Output_left3；

[0027] b‑5)将图像Output_left3输入到缩小路径单元的第四缩小模块中，经过Patch Mergering层后，图像缩小为H/32*W/32*8C，将缩小后的图像输入到步骤a‑6)中的block中得到图像Output_left4；

[0028] b‑6)将图像Output_left4输入到扩大路径单元的第四扩大模块中，经过Patch Expanding层后，图像扩大为H/16*W/16*4C，将扩大后的图像与图像Output_left3叠加操作后输入到步骤a‑6)中的block中得到图像Output_right3；

[0029] b‑7)将图像Output_right3输入到扩大路径单元的第三扩大模块中，经过Patch Expanding层后，图像扩大为H/8*W/8*2C，将扩大后的图像与图像Output_left2叠加操作后得到图像Output_right2；

[0030] b‑8)将图像Output_right2输入到扩大路径单元的第二扩大模块中，经过Patch Expanding层后，图像扩大为H/4*W/4*C，将扩大后的图像与图像Output_left1叠加操作后输入到步骤a‑6)中的block中得到图像Output_right1；

[0031] b‑9)将图像Output_right1输入到扩大路径单元的第一扩大模块中，经过Patch ‑ ‑ ‑ ‑Expanding层后，图像扩大为H *W*1，其中H 为图像的高，W为图像的宽，扩大后的图像为输出Output。

[0032] 进一步的，步骤c)包括如下步骤：

[0033] c‑1)通过公式CIoU_LOSS＝1‑CIoU计算得到Model1的损失函数CIoU_LOSS，式中intersection为矩形区域X和输出Output的并集，union为矩形区域X和输出Output的交集，Distance_2为矩形区域X的图像的中心点和输出Output的图像的中心点之间的欧式距离，Distance_C为矩形区域X与输出Output交叉的图像区域，

[0034]

[0035] c‑2)使用Sigmoid函数将输出Output中的值处理到[0,1]的范围内，将处理后的输出Output命名为Output Sig，设置阈值为0.5，将Output Sig中大于等于阈值的点作为分割目标，将分割目标取值为1，将Output Sig中小于阈值的点作为背景，将背景取值为0，将由0和1构成的图像命名为Output Mask，Output Mask中0和1交界的地方为分割目标的边界；

[0036] c‑3)通过公式Ltotal＝αLDice+βLAC计算得到Model2的损失函数Ltotal，式中α、β均为权重值，α+β＝1，式中si为剪裁后的图像的Mask中第i个像素点，i＝‑ ‑
{1,2,...,N}，N为剪裁后的图像的Mask中像素点总数，gj为Output Mask中第j个像素点，j＝{1,2,...,N}，N为Output Mask中像素点总数，LAC＝∫Ωδε(x)(+g∞)dx，式中Ω为Output的积分区域，δε(x)为光滑的狄拉克函数， ε为参数，ε
＞0， S为Output Mask中值为1的点的区域，为Output
Mask分割目标的边界，为Output Mask分割目标的边界外边的点到的欧式距离，为Output Mask分割目标的边界内部的点到的欧式距离，其中x为一个点，

[0037] 为φ(x)的梯度值，为矩形区域X的梯度值，gI为图像边缘指示器，
b为常数，b＞0，为欧几里得梯度算子，*为卷积算子，Gσ为高斯核
函数，I为矩形区域X。

[0038] 进一步的，步骤d)包括如下步骤：

[0039] d‑1)使用DataSet类加载保存到npz的文件中图像数据image及bounding box对应的数据Bbox；

[0040] d‑2)利用Model1的损失函数CIoU_LOSS通过Adam优化器训练图像分割网络中的Model1的参数，Adam优化器的学习率的改变方式采用余弦退火学习率CosineAnnealingLR、最大学习率设置为0.3、最小设置为0.001、动量因子momentum设置为0.9、权重衰减weight_decay设置为0.05，训练时使用迭代器DataLoader将DataSet封装为一个迭代器，DataLoader的参数为：batch_size设置为32，shuffle设置为True，num_workers设置为8；

[0041] d‑3)将npz的文件中图像数据image及Mask切片封装到DataSet，利用Model2的损失函数Ltotal通过SGD优化器训练图像分割网络中的Model2的参数，SGD优化器的动量因子momentum设置为0.9、权重衰减weight_decay设置为0.0001，训练时使用迭代器DataLoader迭代数据，DataLoader的参数设置为batch_size设置为32，shuffle设置为True，num_workers设置为8。

[0042] 本发明的有益效果是：本发明通过一种新型的两阶段式的图像分割方法，来提高模型分割的效率，并且这种方法还能去除离分割目标过远的异常分割区域，此外，本发明中，使用了基于轮廓模型的的损失函数LAC，这种方法结合了图像的全局特征，即LAC结合了图像的各向异性和非对称的特征，并且减少图像分割的有异常值和分割曲线容易发生泄漏问题。

具体实施方式

[0043] 下面对本发明做进一步说明。

[0044] 一种基于滑动窗口Transformer的两阶段法CT图像分割方法，包括如下步骤：

[0045] a)使用python中的glob模块读取所有训练集和测试集的CT图像的存储路径，将存储路径存入列表中，使用SimpleITk模块按照列表中每个图像的存储路径读取CT图像的信息，将图区的CT图像进行预处理操作。

[0046] b)建立图像分割网络，将经过中心剪裁的测试集的CT图像输入到图像分割网络中，得到输出Output。

[0047] c)计算得到损失函数CIoU_LOSS。

[0048] d)利用损失函数训练图像分割网络。

[0049] e)将预处理操作后的训练集的CT图像输入到训练后的图像分割网络中，输出得到最终的分割结果。

[0050] 实施例1：

[0051] 步骤a)中的预处理操作包括如下步骤：

[0052] a‑1)因为人体组织对X射线的吸收程度不同，所以不同部位形成的CT值不同。本发明主要是分割腹部器官，腹部器官CT值常用的范围为‑160～240Hu。因此根据人体腹部CT值的范围为‑160‑240Hu选择CT图像的像素值范围。

[0053] a‑2)将选择像素值后的CT图像进行归一化处理。

[0054] a‑3)将归一化后的CT图像使用线性插值的方法进行图像重采样，以降低图像分辨率的大小，来提高网络的训练速度，各向异性分辨率重采样为1*1。

[0055] a‑4)将重采样后的CT图像按照图像中心剪裁，图像及图像的Mask均剪裁为H*W，H为图像的高，W为图像的宽，将剪裁后的图像数据存储到npz文件中。

[0056] a‑5)分别将剪裁后的每个CT图像的Mask的上、下、左、右的最靠边的像素的横坐标位置及纵坐标位置记录下来，将最上方像素的纵坐标和最左方像素的横坐标构成bounding box的左上角的点，将最下方像素的纵坐标和最右方像素的横坐标构成bounding box的右下角的点，由左上角的点和右下角的点的对角线确定包含分割目标的矩形区域X，该矩形区域X为H*W*1，1为维度大小，将矩形区域X保存到扩展名为npz的文件中，得到Model1训练集的数据。

[0057] a‑6)生成目标检测的数据和标签以后，需要训练目标检测的网络结构。检测需要预测图像的类别和位置，在医学图像分割中，知道需要识别的器官是哪个，所以我们只需要寻找目标的位置。在标准的Transformer结构中，计算时计算了当前像素跟其他所有像素之间的关系，所以时间复杂度是二次方，这种方法不适用于像素较高的图像中，时间开销太大。所以通过滑动窗口的方式，来降低时间复杂度。本发明中使用Yolov5作为Backbone，并在上边做一些改进，将基于滑动窗口的Transformer模块修改Yolov5中的一些模块，具体修改的位置为：将YoloV5网络中的卷积块和CSP bottleneck blosks替换为block(即滑动窗口的Transformer模块)，所述block由block1和block2串联构成，所述block1依次由第一正则化层、多头注意力机制层、残差连接层、第二正则化层及两层的多层感知机构成，矩形区i+1 i+1域X输入到第一正则化层后输出得到特征图X ，将特征图X 输入到多头注意力机制层中i+2 i+2
输出得到特征图X ，将特征图X 及矩形区域X输入到残差连接层后再输入到第二正则化i+3 i+3
层，输出得到特征图X ，将特征图X 输入到多层感知机中，输出得到特征图Y，所述block2依次由第一正则化层、基于滑动窗口的多头注意力机制层、残差连接层、第二正则化层及两i+1
层的多层感知机构成，将特征图Y输入到block2的第一正则化层后输出得到特征图Y ，将i+1 i+2 i+2
特征图Y 输入到基于滑动窗口的多头注意力机制层中输出得到特征图Y ，将特征图Yi+3 i+3
及特征图Y输入到残差连接层后再输入到第二正则化层，输出得到特征图Y ，将特征图Y输入到多层感知机中，输出得到特征图Z。基于滑动窗口的多头注意力机制块来自[0058] Swin transformer:Hierarchical vision transformer using shifted windows.论文中的第4页，英文名为Shifted Window based Self‑Attention，此论文2021年发表International Conference on Computer Vision上。

[0059] a‑7)将YoloV5网络中的Neck部分选择PANet，将特征图Z输入到YoloV5网络中的backbone中，输出得到最终的预测bounding box的集合。

[0060] a‑8)利用NMS算法对预测bounding box的集合进行过滤，得到过滤后的一个bounding box，NMS算法的阈值为0.65。

[0061] a‑9)将步骤a‑4)中剪裁后的剪裁后的CT图像的切片及CT图像对应的Mask切片保存在同一个扩展名为npz的文件中，得到Model2训练集的数据。

[0062] 实施例2：

[0063] 优选的，步骤a‑2)中采用Z‑score方法对CT图像进行归一化。

[0064] 实施例3：

[0065] 优选的，步骤a‑4)中H取值为160，W取值为160。

[0066] 实施例4：

[0067] 优选的，步骤a‑5)中扩展名为npz的文件中图像数据命名为image，bounding box对应的数据命名为Bbox，步骤a‑9)中扩展名为npz的文件中图像切片命名为image，Mask切片命名为lable。

[0068] 实施例5：

[0069] 步骤b)包括如下步骤：

[0070] b‑1)图像分割网络由缩小路径单元及扩大路径单元构成，所述缩小路径单元依次包括第一缩小模块、第二缩小模块、第三缩小模块、第四缩小模块构成，所述扩大路径单元依次包括第四扩大模块、第三扩大模块、第二扩大模块、第一扩大模块构成。

[0071] b‑2)将测试集的CT图像的矩形区域X的图像H*W*1输入到缩小路径单元的第一缩小模块中，经过Patch层和Liear Enbedding层后，图像缩小为H/4*W/4*C，C为维度，将该图像命名为Output_left1。

[0072] b‑3)将图像Output_left1输入到缩小路径单元的第二缩小模块中，经过Patch Mergering层后，图像缩小为H/8*W/8*2C，将缩小后的图像输入到步骤a‑6)中的block中得到图像Output_left2。Liear Enbedding，Patch Mergering来自Swin transformer:Hierarchical vision transformer using shifted windows.论文中的第3页和第4页，此论文2021年发表International Conference on Computer Vision上。

[0073] b‑4)将图像Output_left2输入到缩小路径单元的第三缩小模块中，经过Patch Mergering层后，图像缩小为H/16*W/16*4C，将缩小后的图像输入到步骤a‑6)中的block中得到图像Output_left3。

[0074] b‑5)将图像Output_left3输入到缩小路径单元的第四缩小模块中，经过Patch Mergering层后，图像缩小为H/32*W/32*8C，将缩小后的图像输入到步骤a‑6)中的block中得到图像Output_left4。

[0075] b‑6)将图像Output_left4输入到扩大路径单元的第四扩大模块中，经过Patch Expanding层后，图像扩大为H/16*W/16*4C，将扩大后的图像与图像Output_left3叠加操作后输入到步骤a‑6)中的block中得到图像Output_right3。Patch Expanding是来自论文Swin‑Unet:Unet‑like Pure Transformer for Medical Image Segmenta tion中第的7页，2021年在arxiv上发布。其中使用的算法有Liear Enbedding，Patch Mergering，Patch Expanding。Patch Mergering的作用是负责降采样和增维，Patch Expanding的作用是专门设计来执行上采样和降维的。Patch是将一个长为H1*W1的正方形中的像素叠在一起，H1和W1取各4，得到一个长度为16的序列，即得到一个H1/4*W1/4*16的图像。Liear Enbedding的作用是修改维数，将16修改为C。

[0076] b‑7)将图像Output_right3输入到扩大路径单元的第三扩大模块中，经过Patch Expanding层后，图像扩大为H/8*W/8*2C，将扩大后的图像与图像Output_left2叠加操作后得到图像Output_right2。

[0077] b‑8)将图像Output_right2输入到扩大路径单元的第二扩大模块中，经过Patch Expanding层后，图像扩大为H/4*W/4*C，将扩大后的图像与图像Output_left1叠加操作后输入到步骤a‑6)中的block中得到图像Output_right1。

[0078] b‑9)将图像Output_right1输入到扩大路径单元的第一扩大模块中，经过Patch ‑ ‑ ‑ ‑Expanding层后，图像扩大为H *W*1，其中H 为图像的高，W为图像的宽，扩大后的图像为输出Output。

[0079] 实施例6：

[0080] 步骤c)包括如下步骤：

[0081] c‑1)通过公式CIoU_LOSS＝1‑CIoU计算得到Model1的损失函数CIoU_LOSS，式中intersection为矩形区域X和输出Output的并集，union为矩形区域X和输出Output的交集，Distance_2为矩形区域X的图像的中心点和输出Output的图像的中心点之间的欧式距离，Distance_C为矩形区域X与输出Output交叉的图像区域，

[0082]

[0083] c‑2)使用Sigmoid函数将输出Output中的值处理到[0,1]的范围内，将处理后的输出Output命名为Output Sig，设置阈值为0.5，将Output Sig中大于等于阈值的点作为分割目标，将分割目标取值为1，将Output Sig中小于阈值的点作为背景，将背景取值为0，将由0和1构成的图像命名为Output Mask，Output Mask中0和1交界的地方为分割目标的边界；

[0084] c‑3)通过公式Ltotal＝αLDice+βLAC计算得到Model2的损失函数Ltotal，式中α、β均为权重值，α+β＝1，式中si为剪裁后的图像的Mask中第i个像素‑ ‑
点，i＝{1,2,...,N}，N为剪裁后的图像的Mask中像素点总数，gj为Output Mask中第j个像素点，j＝{1,2,...,N}，N为Output Mask中像素点总数，LAC＝∫Ωδε(x)(+g∞)dx，式中Ω为Output的积分区域，δε(x)为光滑的狄拉克函数， ε为
参数，ε＞0， S为Output Mask中值为1的点的区域，为
Output Mask分割目标的边界，为Output Mask分割目标的边界外边的点到的欧式距离，为Output Mask分割目标的边界内部的点到的欧式距离，其中x为一个点，矢量场N(x)对分割目标的边界进行法线处理，在水平集的表述中，它可以被定义为：

[0085] 为φ(x)的梯度值，为矩形区域X的梯度值，梯度的各向异性和不对称性
特征由矢量场V(x)保障，gI为图像边缘指示器， b为常数，b＞0，
为欧几里得梯度算子，*为卷积算子，Gσ为高斯核函数，I为矩形区域X。

[0086] 实施例7：

[0087] 步骤d)包括如下步骤：

[0088] d‑1)使用DataSet类加载保存到npz的文件中图像数据image及bounding box对应的数据Bbox。

[0089] d‑2)利用Model1的损失函数CIoU_LOSS通过Adam优化器训练图像分割网络中的Model1的参数，Adam优化器的学习率的改变方式采用余弦退火学习率CosineAnnealingLR、最大学习率设置为0.3、最小设置为0.001、动量因子momentum设置为0.9、权重衰减weight_decay设置为0.05，其他的参数采用默认参数。训练时使用迭代器DataLoader将DataSet封装为一个迭代器，DataLoader的参数为：batch_size设置为32，shuffle设置为True，num_workers设置为8。Model1训练完成后，网络结构的参数最终保存网络的参数到ph文件中[0090] d‑3)将npz的文件中图像数据image及Mask切片封装到DataSet，利用Model2的损失函数Ltotal通过SGD优化器训练图像分割网络中的Model2的参数，SGD优化器的动量因子momentum设置为0.9、权重衰减weight_decay设置为0.0001，其他的参数使用默认的参数，训练时使用迭代器DataLoader迭代数据，DataLoader的参数设置为batch_size设置为32，shuffle设置为True，num_workers设置为8。最终保存网络的参数到ph文件中。优选的，训练时Model1和Model2都开启GPU，加速网络收敛速度。

[0091] 通过ph文件，加载训练后的网络结构的参数，将预处理操作后的训练集的CT图像放入到Model1中，经过训练后的图像分割网络的预测，得到输出Output，该输出Output即最终的分割结果。将分割结果的Mask保存到nii.gz文件中。

[0092] 最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

基于滑动窗口Transformer的两阶段法CT图像分割方法转让专利

申请号 : CN202211396905.6

文献号 : CN115690127B

文献日 : 2023-07-18

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 陈达 , 李安坤 , 舒明雷 , 刘丽 , 孙玉竹

申请人 : 齐鲁工业大学 , 山东省人工智能研究院

摘要 :

权利要求 :

说明书 :

基于滑动窗口Transformer的两阶段法CT图像分割方法

技术领域

背景技术

发明内容

具体实施方式