图像中目标分割的方法转让专利

申请号 : CN201811478643.1

文献号 : CN109461162B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张勇东闵少波谢洪涛

申请人 : 中国科学技术大学

摘要 :

本发明公开了一种图像中目标分割的方法,包括:通过训练好的多任务全卷积网络对输入的图像进行处理,得到分割结果与形状参数预测结果;通过分离最大池化操作对形状参数预测结果进行优化;基于分段融合策略,使用优化后的形状参数预测结果来优化分割结果,从而实现目标分割。该方法能够基于形状约束的实现目标分割,通过在不同生物数据集上进行验证,可以平滑分割边缘和解决粘连问题,其分割效果明显由于传统方案。

权利要求 :

1.一种图像中目标分割的方法,其特征在于,包括:通过训练好的多任务全卷积网络对输入的图像进行处理,得到分割结果与形状参数预测结果;

通过分离最大池化操作对形状参数预测结果进行优化;

基于分段融合策略,使用优化后的形状参数预测结果来优化分割结果,从而实现目标分割;

所述多任务全卷积网络包含七组卷积层结构,每组结构中包含多个卷积层和ReLU激活函数,组与组之间插入一个最大池化层;前五组卷积块层内部的卷积核数量一样,它们依次串联,并且随着网路的加深,不同组的卷积核数量会依次递增;

通过前五组卷积块层得到特征图Xi,通过剩下两组卷积块层分别根据特征图Xi预测得到分割结果P和形状参数预测{T};

在多任务全卷积网络的训练阶段,假设以椭圆形状作为先验知识,预测到的第i个像素点的形状参数记为Ti,每次训练时得到的形状参数预测结果为{θ,μc,vc,a,b};其中θ表示椭圆的倾斜角度;μc,vc表示椭圆的中心坐标;a,b表示椭圆的长短轴长度,{μ,v}为像素点的空间坐标;

分离最大池化操作时的池化公式为:

其中,Ni为第i个像素点临近的区域,通过分离最大池化操作将Ni中最大Pi及其对应的Ti向下传播执行分段融合策略,Pi为第i个像素点的分割预测值;

反向传播过程中,对于Ti的表达式为:

其中,L表示多任务全卷积网络的目标损失函数;m为Ni窗口里面的像素个数;

反向传播过程中,对于Pi的表达式为:

其中,α表示一个超参数,P′i的内容与Pi相同;

所述基于分段融合策略,使用优化后的形状参数预测结果来优化分割结果包括:设置两个阈值τ1和τ2,对处在这两个阈值中间的像素点进行优化:其中:

dμ=cos(θ)(μ-μc)+sin(θ)(v-vc)dv=-sin(θ)(μ-μc)+cos(θ)(v-vc)。

2.根据权利要求1所述的一种图像中目标分割的方法,其特征在于,分割结果中的每一个元素是一个[0,1]的数值,如果大于0.5则表示该像素点属于目标区域,如果小于0.5则表示该像素值为背景区域。

3.根据权利要求1所述的一种图像中目标分割的方法,其特征在于,每个像素点都有会

5个形状参数,分别表示为:

其中,H和W为图像的长度与宽度。

4.根据权利要求3所述的一种图像中目标分割的方法,其特征在于,多任务全卷积网络的目标损失函数表示为:其中,N为像素点数目,Pi∈P;Tk.i表示Ti中的第k个形状参数; 和 对应的表示Pi与Tk.i的真实值;λ是平衡参数,Lcls是softmax分类损失,Lreg是目标检测中通用的L1平滑约束误差。

5.根据权利要求3所述的一种图像中目标分割的方法,其特征在于,在多任务全卷积网络的训练阶段,将数据集中的数据进行了包含翻折、伸缩和/或随机裁剪的数据增广操作,再将数据打乱、分批及固定尺寸,从而构成训练集;

训练时,采用随机梯度下降法作为优化器来训练网络参数;对于网络中所有超参数的初始值,使用MSRA初始化方法。

说明书 :

图像中目标分割的方法

技术领域

[0001] 本发明涉及图像处理技术领域,尤其涉及一种图像中目标分割的方法。

背景技术

[0002] 目标分割算法在近几年间获得了广泛的关注,其任务为在一张图像中,将感兴趣的目标区域分割出来,获得与背景不一样的标签。由于目标分割是场景理解的基础之一,因此该任务在自动驾驶,医学影像分析等领域中有广阔的应用场景。
[0003] 在众多的目标分割方法中,卷积神经网络被广泛的运用于提取图像语义信息。通过模拟人类视觉感知的结构,卷积神经网络能够根据任务要求自主学习最优的特征表达,从而达到更好的分割效果。然而,目前的方法仍然无法解决目标分割中的粗糙边缘和粘连问题。

发明内容

[0004] 本发明的目的是提供一种图像中目标分割的方法,可以平滑分割边缘和解决粘连问题。
[0005] 本发明的目的是通过以下技术方案实现的:
[0006] 一种图像中目标分割的方法,其特征在于,包括:
[0007] 通过训练好的多任务全卷积网络对输入的图像进行处理,得到分割结果与形状参数预测结果;
[0008] 通过分离最大池化操作对形状参数预测结果进行优化;
[0009] 基于分段融合策略,使用优化后的形状参数预测结果来优化分割结果,从而实现目标分割。
[0010] 由上述本发明提供的技术方案可以看出,能够基于形状约束的实现目标分割,通过在不同生物数据集上进行验证,可以平滑分割边缘和解决粘连问题,其分割效果明显优于传统方案。

附图说明

[0011] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0012] 图1为本发明实施例提供的一种图像中目标分割的方法的流程图;
[0013] 图2为本发明实施例提供的分离最大池化操作示意图;
[0014] 图3为本发明实施例提供的分段融合策略示意图。

具体实施方式

[0015] 下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
[0016] 本发明实施例是一种图像中目标分割的方法,能够显式的将目标的形状先验知识融入到网络结构中;主要包括三个部分:多任务全卷积网络,分离最大池化,以及分段融合策略。多任务全卷积网络采用全卷积网络(FCN)模型,一般是基于VGG-16的特征提取。为了能显式的在网络中表达形状约束,多任务全卷积网络能够同时对图像进行分割,以及对图像中每一个目标物体预测一组形状参数。通过对形状参数加以不同的定义,比如角度,长宽等,形状参数可以描述出一个标准的形状,比如椭圆。得到的分割结果和形状参数可以互为补充,优化彼此,最终达到平滑边缘和分开粘连的问题。然而,形状参数实际上很难预测准确,因此我们通过分离最大池化操作来提升形状参数的预测准确度。通过分析分割结果和参数预测之间的关联性,分离最大池化能够去除掉一些不可靠的形状预测,只保留更有可能准确的形状参数,从而更好的用来优化分割结果。最后通过分段融合策略来用预测的目标形状参数优化得到的分割结果。通常来说,生物数据的病变会导致目标形状明显偏离我们的形状先验。因此在这种情况下,分割结果得到的目标形状更加可靠,因为形状参数描绘出来的目标形状过于标准。而对于大部分正常数据来说,形状参数得到的形状是非常具有参考性的。基于以上考虑,本发明提出的分段融合策略,能够自适应的同时保留分割结果的可变性和形状参数的规则性,来最大可能优化最终的目标分割结果。本发明实施例的方案主要是以下三点:
[0017] 1)有效的在网络中引入了形状约束去做目标形状分割算法。
[0018] 2)分离最大池化操作能够优化多任务网络中的分割和参数预测部分。
[0019] 3)分段融合策略能够灵活地用预测的形状约束优化分割结果。
[0020] 如图1所示,本发明实施例提供的一种图像中目标分割的方法主要包括如下步骤:
[0021] 1、通过训练好的多任务全卷积网络对输入的图像进行处理,得到分割结果与形状参数预测结果。
[0022] 本发明实施例中,所述多任务全卷积网络(Multi-task FCN)包含七组卷积层结构,每组结构中包含多个卷积层和ReLU激活函数,组与组之间插入一个最大池化层;前五组卷积块层内部的卷积核数量一样,它们依次串联,并且随着网路的加深,不同组的卷积核数量会依次递增;令前五组卷积块层简化为图1中的ConvNet,他们得到的特征图定义为Xi,则分割结果P和形状参数预测{T}分别通过剩下两组卷积块层根据特征图Xi预测得到。
[0023] 示例性的,可以通过VGG-16结构实现,五组卷积结构的输出特征的通道数依次为:64,128,256,512,512。
[0024] 本发明实施例中,分割结果中的每一个元素是一个[0,1]的数值,如果大于0.5则表示该像素点属于目标区域,如果小于0.5则表示该像素值为背景区域。
[0025] 本发明实施例中,在多任务全卷积网络的训练阶段,假设以椭圆形状作为先验知识,预测到的第i个像素点的形状参数记为Ti,每次训练时得到的形状参数预测结果为{θ,μc,vc,a,b};其中θ表示椭圆的倾斜角度;μc,vc表示椭圆的中心坐标;a,b表示椭圆的长短轴长度;最终每个像素点都有会这5个形状参数,分别表示为:
[0026]
[0027] 其中,{μ,v}为像素点的空间坐标,H和W为图像的长度与宽度;其中[0028] 本发明实施例中,多任务全卷积网络的目标损失函数表示为:
[0029]
[0030] 其中,N为像素点数目,Pi为第i个像素点的分割预测值,Pi∈P;Tk.i表示Ti中的第k个形状参数; 和 对应的表示Pi与Tk.i的真实值;λ是平衡参数,Lcls是softmax分类损失,Lcls=-∑iPilnPi;Lreg是目标检测中通用的L1平滑约束误差:
[0031] 此外,在多任务全卷积网络的训练阶段,将数据集中的数据进行了翻折、缩放和随机裁剪等数据增广操作,再将数据打乱、分批(例如batch size=8)及固定尺寸,从而构成训练集。
[0032] 训练时,采用随机梯度下降法作为优化器来训练网络参数;示例性的,其学习率衰减策略选择指数型衰减,初始学习率为0.01。另外正则化操作中Dropout的比率为0.5,L2惩罚项的系数为0.0005。
[0033] 对于网络中所有超参数的初始值,使用MSRA初始化方法,其原理为将网络中每层的权重参数初始化为满足 的正态分布,其中n为该层权重参数的个数。网络中的正则化操作L2惩罚正是基于对网络参数的高斯先验假设对其进行惩罚,所以在端到端训练中该初始化方法会提高网络训练效率并提高网络性能。
[0034] 2、通过分离最大池化(Split Max Pooling)操作对形状参数预测结果进行优化。当我们得到分割结果P和形状参数预测{T}时,我们采用分离最大池化来进行优化。
[0035] 分离最大池化操作时的池化公式为:
[0036]
[0037]
[0038] 其中,Ni为第i个像素点临近的区域,示例性的Ni为像素点i附近3×3像素大小的区域。通过分离最大池化操作将Ni中最大Pi及其对应的Ti传播到下一层网络(即图1中的分段融合策略层),从而实现形状参数的优化。
[0039] 分离最大池化操作的一个示例如图2所示:输入T和P,分别用3×3大小的窗口进行滑动,只有P中窗口里面最大的数值(0.7)对应位置的T(12),可以作为输出,保留下来。
[0040] 分离最大池化操作也参与多任务全卷积网络的训练过程,其中:
[0041] 反向传播过程中,对于Ti的表达式为:
[0042]
[0043] 其中,L表示之前提到的多任务全卷积网络的目标损失函数;m为Ni窗口里面的像素个数;
[0044] 反向传播过程中,对于Pi的表达式为:
[0045]
[0046] 其中,α表示一个超参数,根据实验分析确定最优数值。注意Pi的梯度由两部分组成,一部分是图2中直接输出的P‘传导而来,一部分是从图二中的输出T传导而来。因此公式中的 表述图2中输出的P‘传导而来的梯度,后面一项 为T传导过来的梯度。
[0047] 如图2所示,P‘与P的内容相同,也即各个像素点的分割预测值完全相同(P′i的内容与Pi相同),因此,梯度 与梯度 的内容相同。
[0048] 本领域技术人员可以理解,在正向传播过程中,输入数据后会产生两个输出,一个输出为其自身,另一个输出为输入数据所影响到的数据;具体到本发明中,输入梯度 会有两个输出,一个输出即为自身(为了区分表示为 ),另一个输出为输入梯度 所影响到的形状参数预测的梯度,即
[0049] 上式为反向传播过程表达式,输入、输出对调,因而等号左侧为输出,右侧为输入,与正向传播过程相反。
[0050] 3、基于分段融合策略(Piecewise Fusion),使用优化后的形状参数预测结果来优化分割结果,从而实现目标分割。
[0051] 本发明实施例中并不对所有的分割结果P做优化,因为那样会导致所有的分割形状都趋于标准,因此,只对部分Pi使用形状参数作为优化;设置两个阈值τ1和τ2,对处在这两个阈值中间的像素点进行优化:
[0052]
[0053] 其中:
[0054]
[0055] dμ=cos(θ)(μ-μc)+sin(θ)(ν-vc)
[0056] dν=-sin(θ)(μ-μc)+cos(θ)(ν-vc)。
[0057] 分段融合策略如图3所示,其中给出的阈值τ1和τ2的值仅为举例。
[0058] 为了验证本发明实施例上述方案的效果,在两个生物基准数据集进行了实验。
[0059] 1)Synaptic vesicle dataset:该数据集包含了来自100张高分辨率(1019*1053)的神经突触电子显微镜图片,并且有专家标注的标签作为监督信息。通过数据裁剪,最终产生了7322张训练数据和1465张测试数据。我们的目标物体为神经突触中的囊泡结构。大部分囊泡结构呈现较为规则的椭圆形。
[0060] 2)Gland Segmentation Challenge Contest:该数据集包含人体腺体的图像数据,包括部分病变的和正常的。其中有85张图片用于训练,80张用于测试。正常的人体腺体形状呈椭圆形状,而病变的腺体形状则不太规则。该任务为分割目标图像中所有的腺体区域。
[0061] 经过240个epoch的训练,网络在两个生物基准数据集中都取得了当前最好的结果。其中包括两个生物医学数据集(冷冻电镜数据和腺体细胞数据),其分割结果IoU(交集面积比上并集面积)分别为83.77%和85.60%;该效果明显由于传统方案。
[0062] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0063] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。