基于注意力引导上下文校正的息肉分割方法和计算机设备转让专利

申请号 : CN202111434451.2

文献号 : CN114170167B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 施连焘李正国王玉峰郭玉宝

申请人 : 深圳职业技术学院

摘要 :

本发明提供了一种基于注意力引导上下文校正的息肉分割方法、计算机可读存储介质及计算机设备,包括:将待分割的息肉图片输入增强式上下文校正模型训练后进行下采样,再进行增强式上下文校正模型训练后进行下采样,经多次重复获得最终的语义信息图像;将最终的语义信息图像输入到渐进式上下文融合模型训练,输出特征融合后的语义信息图像;将特征融合后的语义信息图像上采样后进行增强式上下文校正模型训练得到特征映射图,再进行上采样后进行增强式上下文校正模型训练,经多次重复获得与待分割的息肉图片通道尺寸相同的最终的特征映射图;将最终的特征映射图输入到多层级特征融合模型进行训练输出息肉分割图片。从而使本发明能更准确的识别息肉。

权利要求 :

1.一种基于注意力引导上下文校正的息肉分割方法,其特征在于,包括:

获取待分割的息肉图片;

将待分割的息肉图片输入到增强式上下文校正模型训练后得到语义信息图像,再将语义信息图像进行下采样得到下采样后的语义信息图像,重新将下采样后的语义信息图像输入到增强式上下文校正模型进行训练再进行下采样,经多次重复,获得最终的语义信息图像;所述增强式上下文校正模型为将输入的待分割的息肉图片以通道维度划分成两个通道数量相等的特征图,一个特征图经过注意力机制后获得第一特征图,另一个经过深度可分离的卷积进行特征提取获得第二特征图,将第一特征图和第二特征图进行拼接,得到拼接后的特征图,再由残差连接拼接后的特征图与待分割的息肉图片的像素特征融合并输出语义信息图像;

将最终的语义信息图像输入到渐进式上下文融合模型进行训练,输出特征融合后的语义信息图像;所述渐进式上下文融合模型为分别通过空洞卷积和常规卷积对最终的语义信息图像进行特征提取获得两种特征图,再将两种特征图进行拼接后输入到上下文建模的通道注意力机制中,得到通道权重,将通道权重与所述最终的语义信息图像以通道维度进行特征融合,输出特征融合后的语义信息图像;

将所述特征融合后的语义信息图像进行上采样得到上采样后的语义信息图像,再将上采样后的语义信息图像进行增强式上下文校正模型训练得到特征映射图,重新将特征映射图进行上采样后再进行增强式上下文校正模型训练,经多次重复,获得与所述待分割的息肉图片通道尺寸相同的最终的特征映射图;

将所述最终的特征映射图输入到多层级特征融合模型进行训练,输出息肉分割图片;

所述多层级特征融合模型为将所述通道尺寸相同的最终的特征映射图逐一上采样到与待分割的息肉图片相同分辨率大小,再将上采样后的分辨率大小相同的特征映射图进行拼接后再进行特征提取得到提取后的特征映射图,将提取后的特征映射图输入到通道注意力机制中,得到通道权重,将通道权重与所述提取后的特征映射图以像素级别的乘法进行建模,获得息肉分割图片。

2.如权利要求1所述的息肉分割方法,其特征在于,所述将所述特征融合后的语义信息图像进行上采样之后,还包括:在进行增强式上下文校正模型训练时加入跳跃链接结构,用编码层浅层的表征信息补足解码层的深层语义信息的空间细粒度。

3.如权利要求1所述的息肉分割方法,其特征在于,所述将待分割的息肉图片输入到增强式上下文校正模型训练具体为:C×H×W

定义待分割的息肉图片Xin为Xin∈R ,将待分割的息肉图片经过1×1的卷积提取特征,输出通道数相等的两个特征图X1和X2, 和 并将两个特征图X1和X2分别通过注意力机制和深度可分离的卷积中得到第一特征图Xatt和第二特征图X2′,即:将第一特征图Xatt和第二特征图X′2进行拼接,再由残差连接融合得到的语义信息图像Xout为:其中, 是X1送入1×1的卷积通过批量正则化算法和RELU非线性激活函数

得到的特征图;R代表三维数组图像,C为通道数,H为长度,W为宽度,σ和 分别指sigmoid激活函数和像素级别求和, 为像素级别乘法运算,Up为常规的双线性插值上采样,Down为下采样,Cat表示通道维度上的拼接,Xout为输出特征图,F3×3代表3×3卷积批量归一化及非线性激活函数。

4.如权利要求1所述的息肉分割方法,其特征在于,所述渐进式上下文融合模型进行训练具体为:C×H×W

定义最终的语义信息图像X′为X′∈R 经过1×1的卷积进行特征提取,根据常规卷积和空洞卷积分别提取出两种特征图Xs和Xl,即:将两种特征图Xs和Xl拼接后得到拼接后的特征图Xcat,为:

Xcat=Cat(Xl,Xs);

将拼接后的特征图Xcat输入到全局上下文建模的通道注意力机制,得到通道权重,将通道权重与所述最终的语义信息图像以通道维度进行特征融合,输出特征融合后的语义信息图像yi,为:其中,Tp=H·W表示Xcat的像素位置,j代表求和符号的下界,βj表示全局注意池化权重用于上下文建模,P=S3RELU(LN(S2(·)))指代瓶颈层用于捕获通道之间的依赖关系,RELU代表非线性激活函数,S2和S3代表通道维度之间的信息交互,LN为LayerNorm被当作优化器使用。

5.如权利要求1所述的息肉分割方法,其特征在于,所述将最终的特征映射图输入到多层级特征融合模型进行训练具体为:C×H×W

定义最终的特征映射图L为L∈R ,将最终的特征映射图逐一进行上采样到相同分辨率大小再拼接,拼接后的特征映射图送入1×1的卷积W1提取特征得到提取后的特征映射图G为:G=W1(Cat(B(l1,l2,l3,l4),l0));

将G输入到通道注意力机制中,得到通道权重,将通道权重与所述最终的特征映射图以像素级别的乘法进行建模,得到息肉分割图片Y为:其中,L=(l0,l1,l2,l3,l4),l0‑l4分别代表从分辨率由大到小的解码层特征映射图,B(l1,l2,l3,l4),l0代表l1‑l4上采样到与l0分辨率大小相同再进行拼接,ξ是关于G的相关系数,g为全局平均池化,δ代表激活函数。

6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于注意力引导上下文校正的息肉分割方法的步骤。

7.一种计算机设备,包括:一个或多个处理器、存储器以及一个或多个计算机程序,所述处理器和所述存储器通过总线连接,其中所述一个或多个计算机程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于注意力引导上下文校正的息肉分割方法的步骤。

说明书 :

基于注意力引导上下文校正的息肉分割方法和计算机设备

技术领域

[0001] 本发明属于医用领域,尤其涉及一种基于注意力引导上下文校正的息肉分割方法、计算机可读存储介质及计算机设备。

背景技术

[0002] 结直肠癌是在最早期主要表现形式是肠道内所形成的息肉(肠胃通道内隆起的肿块)经过长时间以及诸多原因发展导致结直肠癌,如果能够在早期进行干预发现和切除息肉,直肠癌是可以被预防的,那么最为有效的筛查和诊断结直肠癌的方法是结直肠内窥镜检查也是目前最为主流诊断准确率最高的方法。
[0003] 然而,当前的诊断方式虽然先进和准确依旧存在一些问题,根据一些专业的研究报道,在内窥镜检查的过程中每四个息肉就会遗漏掉一个导致切除不干净留下隐患,另外息肉的形状大小不一且多变,难以通过肉眼进行每一个精细地判断,尤其在一些息肉与肠胃通道背景差异不大的情况下,最后就是不能够进行快速识别纯靠人为是需要大量的时间精力和判断在当前医疗系统之下需要增加消化科医生大量的工作量进行。

发明内容

[0004] 本发明的目的在于提供一种基于注意力引导上下文校正的息肉分割方法、计算机可读存储介质及计算机设备,旨在解决内窥镜检查息肉会遗漏掉导致切除不干净留下隐患的问题。
[0005] 第一方面,本发明提供了一种基于注意力引导上下文校正的息肉分割方法,包括:
[0006] 获取待分割的息肉图片;
[0007] 将待分割的息肉图片输入到增强式上下文校正模型训练后得到语义信息图像,再将语义信息图像进行下采样得到下采样后的语义信息图像,重新将下采样后的语义信息图像输入到增强式上下文校正模型进行训练再进行下采样,经多次重复,获得最终的语义信息图像;所述增强式上下文校正模型为将输入的待分割的息肉图片以通道维度划分成两个通道数量相等的特征图,一个特征图经过注意力机制后获得第一特征图,另一个经过深度可分离的卷积进行特征提取获得第二特征图,将第一特征图和第二特征图进行拼接,再由残差连接融合并输出语义信息图像;
[0008] 将最终的语义信息图像输入到渐进式上下文融合模型进行训练,输出特征融合后的语义信息图像;所述渐进式上下文融合模型为分别通过空洞卷积和常规卷积对最终的语义信息图像进行特征提取获得两种特征图,再将两种特征图进行拼接后输入到上下文建模的通道注意力机制中,得到通道权重,将通道权重与所述最终的语义信息图像以通道维度进行特征融合,输出特征融合后的语义信息图像;
[0009] 将所述特征融合后的语义信息图像进行上采样得到上采样后的语义信息图像,再将上采样后的语义信息图像进行增强式上下文校正模型训练得到特征映射图,重新将特征映射图进行上采样后再进行增强式上下文校正模型训练,经多次重复,获得与所述待分割的息肉图片通道尺寸相同的最终的特征映射图;
[0010] 将所述最终的特征映射图输入到多层级特征融合模型进行训练,输出息肉分割图片;所述多层级特征融合模型为将所述最终的特征映射图逐一上采样到相同分辨率大小,再将上采样后的特征映射图进行拼接后输入到通道注意力机制中,得到通道权重,将通道权重与所述最终的特征映射输出图以像素级别的乘法进行建模,获得息肉分割图片。
[0011] 进一步地,所述将所述特征融合后的语义信息图像进行上采样之后,还包括:在进行增强式上下文校正模型训练时加入跳跃链接结构,用编码层浅层的表征信息补足解码层的深层语义信息的空间细粒度。
[0012] 进一步地,所述将待分割的息肉图片输入到增强式上下文校正模型训练具体为:
[0013] 定义待分割的息肉图片Xin为Xin∈RC×H×W,将待分割的息肉图片经过1×1的卷积提取特征,输出通道数相等的两个特征图X1和X2, 和 并将两个特征图X1和X2分别通过注意力机制和深度可分离的卷积中得到第一特征图Xatt和第二特征图X′2,即:
[0014]
[0015]
[0016] 将第一特征图Xatt和第二特征图X2′进行拼接,再由残差连接融合得到的语义信息图像Xout为:
[0017]
[0018] 其中, 是X1送入1×1的卷积通过批量正则化算法和RELU非线性激活函数得到的特征图;R代表三维数组图像,C为通道数,H为长度,W为宽度,σ和 分别指sigmoid激活函数和像素级别求和, 为像素级别乘法运算,Up为常规的双线性插值上采样,Down为下采样,Cat表示通道维度上的拼接,Xout为输出特征图,F3×3代表3×3卷积批量归一化及非线性激活函数。
[0019] 进一步地,所述渐进式上下文融合模型进行训练具体为:
[0020] 定义最终的语义信息图像X′为X′∈RC×H×W经过1×1的卷积进行特征提取,根据常规卷积和空洞卷积分别提取出两种特征图Xs和Xl,即:
[0021]
[0022]
[0023] 将两种特征图Xs和Xl拼接后得到拼接后的特征图Xcat,为:
[0024] Xcat=Cat(Xl,Xs);
[0025] 将拼接后的特征图Xcat输入到全局上下文建模的通道注意力机制,得到通道权重,将通道权重与所述最终的语义信息图像以通道维度进行特征融合,输出特征融合后的语义信息图像yi,为:
[0026]
[0027] 其中,Tp=H·W表示Xcat的像素位置,j代表求和符号的下界,βj表示全局注意池化权重用于上下文建模,P=S3RELU(LN(S2(·)))指代瓶颈层用于捕获通道之间的依赖关系,RELU代表非线性激活函数,S2和S3代表通道维度之间的信息交互,LN为LayerNorm被当作优化器使用。
[0028] 进一步地,所述将最终的特征映射图输入到多层级特征融合模型进行训练具体为:
[0029] 定义最终的特征映射图L为L∈RC×H×W,将最终的特征映射图逐一进行上采样到相同分辨率大小再拼接,拼接后的特征映射图送入1×1的卷积W1提取特征得到提取后的特征映射图G为:
[0030] G=W1(Cat(B(l1,l2,l3,l4),l0));
[0031] 将G输入到通道注意力机制中,得到通道权重,将通道权重与所述最终的特征映射图以像素级别的乘法进行建模,得到息肉分割图片Y为:
[0032]
[0033] 其中,L=(l0,l1,l2,l3,l4),l0‑l4分别代表从分辨率由大到小的解码层特征映射图,B(l1,l2,l3,l4),l0代表l1‑l4上采样到与l0分辨率大小相同再进行拼接,ξ是关于G的相关系数,g为全局平均池化,δ代表激活函数。
[0034] 第二方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如第一方面所述的基于注意力引导上下文校正的息肉分割方法的步骤。
[0035] 第三方面,本发明提供了一种计算机设备,包括:一个或多个处理器、存储器以及一个或多个计算机程序,所述处理器和所述存储器通过总线连接,其中所述一个或多个计算机程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,其特征在于,所述处理器执行所述计算机程序时实现如第一方面所述的基于注意力引导上下文校正的息肉分割方法的步骤。
[0036] 在本发明中,多次重复增强式上下文校正模型训练后再进行下采样的操作,能得到更深层次的语义信息,能够有效抑制背景噪声的干扰;通过渐进式上下文融合模型训练,解决息肉识别过程中大尺度息肉的问题;通过多层级特征融合模型训练,可有效地获得精确的分割结果,提高了息肉识别结果的准确信。

附图说明

[0037] 图1是本发明一实施例提供的一种基于注意力引导上下文校正的息肉分割方法的流程图。
[0038] 图2是本发明一实施例提供的另一种基于注意力引导上下文校正的息肉分割方法的流程图。
[0039] 图3是本发明一实施例提供的增强式上下文校正模型训练的流程图。
[0040] 图4是本发明一实施例提供的渐进式上下文融合模型训练的流程图。
[0041] 图5是本发明一实施例提供的多层级特征融合模型训练的流程图。
[0042] 图6是本发明一实施例提供的计算机设备的具体结构框图。

具体实施方式

[0043] 为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0044] 为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
[0045] 请参阅图1,本发明一实施例提供的基于注意力引导上下文校正的息肉分割方法包括以下步骤:需注意的是,若有实质上相同的结果,本发明的基于注意力引导上下文校正的息肉分割方法并不以图1所示的流程顺序为限。
[0046] S1.获取待分割的息肉图片;
[0047] S2.将待分割的息肉图片输入到增强式上下文校正模型训练后得到语义信息图像,再将语义信息图像进行下采样得到下采样后的语义信息图像,重新将下采样后的语义信息图像输入到增强式上下文校正模型进行训练再进行下采样,经多次重复,获得最终的语义信息图像;所述增强式上下文校正模型为将输入的待分割的息肉图片以通道维度划分成两个通道数量相等的特征图,一个特征图经过注意力机制后获得第一特征图,另一个经过深度可分离的卷积进行特征提取获得第二特征图,将第一特征图和第二特征图进行拼接,再由残差连接融合并输出语义信息图像;
[0048] S3.将最终的语义信息图像输入到渐进式上下文融合模型进行训练,输出特征融合后的语义信息图像;所述渐进式上下文融合模型为分别通过空洞卷积和常规卷积对最终的语义信息图像进行特征提取获得两种特征图,再将两种特征图进行拼接后输入到上下文建模的通道注意力机制中,得到通道权重,将通道权重与所述最终的语义信息图像以通道维度进行特征融合,输出特征融合后的语义信息图像;
[0049] S4.将所述特征融合后的语义信息图像进行上采样得到上采样后的语义信息图像,再将上采样后的语义信息图像进行增强式上下文校正模型训练得到特征映射图,重新将特征映射图进行上采样后再进行增强式上下文校正模型训练,经多次重复,获得与所述待分割的息肉图片通道尺寸相同的最终的特征映射图;
[0050] S5.将所述最终的特征映射图输入到多层级特征融合模型进行训练,输出息肉分割图片;所述多层级特征融合模型为将所述最终的特征映射图逐一上采样到相同分辨率大小,再将上采样后的特征映射图进行拼接后输入到通道注意力机制中,得到通道权重,将通道权重与所述最终的特征映射输出图以像素级别的乘法进行建模,获得息肉分割图片。
[0051] 图2示出了本发明一实施例所述的基于注意力引导上下文校正的息肉分割方法的流程图,Input是输入待分割图片,ECC代表增强式上下文校正模型,Down×2代表下采样操作(卷积核大小为2),PCF渐进式上下文融合模型,Up×2代表上采样操作(卷积核大小为2),MPA是多层级特征融合模型,Output是输出分割结果,skip connection为残差连接。
[0052] 在本发明一实施例中,所述将所述特征融合后的语义信息图像进行上采样之后,还包括:在进行增强式上下文校正模型训练时加入跳跃链接结构,用编码层浅层的表征信息补足解码层的深层语义信息的空间细粒度。
[0053] 在本发明一实施例中,所述将待分割的息肉图片输入到增强式上下文校正模型训练具体为:
[0054] 定义待分割的息肉图片Xin为Xin∈RC×H×W,将待分割的息肉图片经过1×1的卷积提取特征,输出通道数相等的两个特征图X1和X2, 和 并将两个特征图X1和X2分别通过注意力机制和深度可分离的卷积中得到第一特征图Xatt和第二特征图X2′,即:
[0055]
[0056]
[0057] 将第一特征图Xatt和第二特征图X2′进行拼接,再由残差连接融合得到的语义信息图像Xout为:
[0058]
[0059] 其中, 是X1送入1×1的卷积通过批量正则化算法和RELU非线性激活函数得到的特征图;R代表三维数组图像,C为通道数,H为长度,W为宽度,σ和 分别指sigmoid激活函数和像素级别求和, 为像素级别乘法运算,Up为常规的双线性插值上采样,Down为下采样,Cat表示通道维度上的拼接,Xout为输出特征图,F3×3代表3×3卷积批量归一化及非线性激活函数。
[0060] 图3为增强式上下文校正模型训练流程图,其中, 为像素级别求和,⊙为像素级别乘法运算, 为sigmoid激活函数, 为下采样, 为通道维度上的拼接, 为常规的双线性插值上采样。
[0061] 在本发明一实施例中,请参阅图4,所述渐进式上下文融合模型进行训练具体为:
[0062] 定义最终的语义信息图像X′为X′∈RC×H×W经过1×1的卷积进行特征提取,根据常规卷积和空洞卷积分别提取出两种特征图Xs和Xl,即:
[0063]
[0064]
[0065] 将两种特征图Xs和Xl拼接后得到拼接后的特征图Xcat,为:
[0066] Xcat=Cat(Xl,Xs);
[0067] 将拼接后的特征图Xcat输入到全局上下文建模的通道注意力机制,得到通道权重,将通道权重与所述最终的语义信息图像以通道维度进行特征融合,输出特征融合后的语义信息图像yi,为:
[0068]
[0069] 其中,Tp=H·W表示Xcat的像素位置,j代表求和符号的下界,βj表示全局注意池化权重用于上下文建模,P=S3RELU(LN(S2(·)))指代瓶颈层用于捕获通道之间的依赖关系,RELU代表非线性激活函数,S2和S3代表通道维度之间的信息交互,LN为LayerNorm被当作优化器使用。
[0070] 在本发明一实施例中,所述将最终的特征映射图输入到多层级特征融合模型进行训练具体为:
[0071] 定义最终的特征映射图L为L∈RC×H×W,将最终的特征映射图逐一进行上采样到相同分辨率大小再拼接,拼接后的特征映射图送入1×1的卷积W1提取特征得到提取后的特征映射图G为:
[0072] G=W1(Cat(B(l1,l2,l3,l4),l0));
[0073] 将G输入到通道注意力机制中,得到通道权重,将通道权重与所述最终的特征映射图以像素级别的乘法进行建模,得到息肉分割图片Y为:
[0074]
[0075] 其中,L=(l0,l1,l2,l3,l4),l0‑l4分别代表从分辨率由大到小的解码层特征映射图,B(l1,l2,l3,l4),l0代表l1‑l4上采样到与l0分辨率大小相同再进行拼接,ξ是关于G的相关系数,g为全局平均池化,δ代表激活函数。
[0076] 图5为多层级融合模型训练流程图,其中, 为双线性插值上采样, 为像素级别乘法运算。
[0077] 本发明一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本发明一实施例提供的基于注意力引导上下文校正的息肉分割方法的步骤。
[0078] 图6示出了本发明一实施例提供的计算机设备的具体结构框图,一种计算机设备100包括:一个或多个处理器101、存储器102、以及一个或多个计算机程序,其中所述处理器
101和所述存储器102通过总线连接,所述一个或多个计算机程序被存储在所述存储器102中,并且被配置成由所述一个或多个处理器101执行,所述处理器101执行所述计算机程序时实现如本发明一实施例提供的基于注意力引导上下文校正的息肉分割方法的步骤。
[0079] 计算机设备包括服务器和终端等。该计算机设备可以是台式计算机、移动终端或车载设备,移动终端包括手机、平板电脑、个人数字助理或可穿戴设备等中的至少一种。
[0080] 在本发明实施例中,多次重复增强式上下文校正模型训练后再进行下采样的操作,能得到更深层次的语义信息,能够有效抑制背景噪声的干扰;通过渐进式上下文融合模型训练,解决息肉识别过程中大尺度息肉的问题;通过多层级特征融合模型训练,可有效地获得精确的分割结果,提高了息肉识别结果的准确信。
[0081] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
[0082] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。