结合完全残差与特征融合的遥感图像分割方法转让专利

申请号 : CN201811306585.4

文献号 : CN109447994B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 汪西莉张小娟洪灵刘明刘侍刚

申请人 : 陕西师范大学

摘要 :

结合完全残差与多尺度特征融合的遥感图像分割方法,包括:S100:对作为分割的主干网络卷积编码‑解码网络进行改进,具体为:S101:采用卷积编码‑解码网络作为分割的主干网络;S102:在所述主干网络中加入聚合多尺度上下文信息的特征金字塔模块;S103:在所述主干网络的编码器和解码器对应的卷积层内部加入残差单元,同时将编码器中的特征以逐像素相加的方式融合到解码器相应层中;S200:采用改进后的结合完全残差与多尺度特征融合的图像分割网络进行遥感图像的分割;S300:输出遥感图像的分割结果。该方法既简化了深层网络的训练,增强了特征融合,又能使网络提取丰富的上下文信息,应对目标尺度变化,提升分割性能。

权利要求 :

1.一种结合完全残差与多尺度特征融合的遥感图像分割方法,包括如下步骤:S100:对作为分割的主干网络:卷积编码-解码网络进行改进,具体为:S101:采用卷积编码-解码网络作为分割的主干网络,该主干网络包含两个组件:编码器和解码器;

S102:在所述主干网络中加入聚合多尺度上下文信息的特征金字塔模块;

S103:在所述主干网络的编码器和解码器对应的卷积层内部加入残差单元,同时将编码器中的特征以逐像素相加的方式融合到解码器相应层中;

S200:采用改进后的结合完全残差与多尺度特征融合的图像分割网络进行遥感图像的分割;

S300:输出遥感图像的分割结果;

所述特征金字塔模块具体为:

分别使用3x3,5x5的卷积核对编码器中第五卷积阶段的特征图提取不同尺度下的上下文信息,逐步整合,得到多尺度特征;

对第五卷积阶段的特征图进行1x1卷积并与多尺度特征以像素方式相乘;

融合全局池化信息;

其中,所述编码器包含13个卷积层,所述编码器的13个卷积层被划分为五个卷积阶段,第一个卷积阶段和第二个卷积阶段各包含两个卷积层,第三卷积阶段、第四卷积阶段和第五卷积阶段各包含三个卷积层;

所述逐步整合是以逐步逐像素相加的方式来聚合多尺度信息。

2.根据权利要求1所述的方法,其中,步骤S101中的所述编码器包含13个卷积层和5个池化层,在编码器顶部堆叠一个解码器,该解码器与编码器呈完全镜像关系,包含13个卷积层和5个解池化层。

3.根据权利要求1所述的方法,其中,在每个卷积层之后包含一个批量归一化单元和一个修正线性单元,其中批量归一化单元将提取到的特征数据进行归一化,修正线性单元用于加入非线性因素;在每个卷积阶段之后包含一个池化层。

4.根据权利要求2所述的方法,其中,所述编码器中的池化操作采用最大池化,并且保存了最大池化的索引位置。

5.根据权利要求1所述的方法,其中,在编码器中第五卷积阶段的特征融合至解码器的相应层中之前使用所述特征金字塔模块。

6.根据权利要求1所述的方法,步骤S103中所述将编码器中的特征以逐像素相加的方式融合到解码器相应层中具体是:对编码器中第一卷积阶段和编码器中第二卷积阶段只选择最后一层卷积特征图,对编码器中第三卷积阶段、编码器中第四卷积阶段和编码器中第五卷积阶段选用所有卷积特征图来做逐像素相加融合。

7.根据权利要求1所述的方法,所述残差单元学习到的残差是由一系列操作单元学习得到,所述操作单元包括卷积层、批量归一化单元、修正线性单元;所述卷积层用于提取特征,所述批量归一化单元用于将提取到的特征数据进行归一化,所述修正线性单元用于加入非线性因素。

说明书 :

结合完全残差与特征融合的遥感图像分割方法

技术领域

[0001] 本公开属于遥感图像处理技术领域,特别涉及一种结合完全残差与多尺度特征融合的遥感图像分割方法。

背景技术

[0002] 随着无人机的出现和采集传感器的改进,极端分辨率(<10厘米)的遥感图像变得可用,特别是在城市地区。与普通图像相比,随着空间分辨率的提高,遥感图像包含的光谱信息和地物信息越来越丰富,目标尺度不一且图像中存在较多遮挡、阴影等现象,这些都为高分辨率遥感图像的理解带来了挑战。因此,开展遥感图像分割的研究,对人们在遥感数据日益增长的需求处理方面,如环境建模、土地利用变化检测以及城市规划等,有着重要的意义。
[0003] 图像分割是指将图像中具有相似特征的像素集合分为多个图像子区域的过程,也可以看作是为图像中每个像素分配一个唯一的标签(或类别),进而使具有相同标签的像素具有某种共同的视觉特性,使图像更容易理解和分析。目前,深度学习方法,特别是卷积神经网络(Convolutional Neural Network,CNN)在图像处理领域取得了显著效果,并对遥感图像处理的影响越来越大。
[0004] 深度学习可以应用于图像分割,但存在一些不足。针对深度卷积神经网络而言,首先,多比例空洞卷积和空间金字塔池化结构都能够提取不同尺度下的特征信息,但空洞卷积和池化操作造成的网格现象和局部信息丢失对最终分割精度的提升有很大限制。其次,使用性能更高且层次更深的卷积神经网络作为分割的主干网络虽然在一定程度上能够提高分割精度且克服梯度消失,但是它们的网络结构过于复杂,训练以消耗大量内存为代价。我们认为各个层次的特征对语义分割都有帮助,高级特征有助于类别识别,低级特征有助于分割结果细节的提升。

发明内容

[0005] 为了解决上述问题,本公开提供了一种结合完全残差与多尺度特征融合的遥感图像分割方法,包括如下步骤:
[0006] S100:对作为分割的主干网络:卷积编码-解码网络进行改进,具体为:
[0007] S101:采用卷积编码-解码网络作为分割的主干网络,该主干网络包含两个组件:编码器和解码器;
[0008] S102:在所述主干网络中加入聚合多尺度上下文信息的特征金字塔模块;
[0009] S103:在所述主干网络的编码器和解码器对应的卷积层内部加入残差单元,同时将编码器中的特征以逐像素相加的方式融合到解码器相应层中;
[0010] S200:采用改进后的结合完全残差与多尺度特征融合的图像分割网络进行遥感图像的分割;
[0011] S300:输出遥感图像的分割结果。
[0012] 通过上述技术方案,首先在卷积编码-解码网络的基础上将编码器中的特征以逐像素相加的方式融合到解码器相应层中,该部分连接也可称为长距离的残差连接;其次在编码器和解码器相应卷积层内部引入短距离的残差连接。长距离和短距离的完全残差连接不仅为本层融入了更多的原始输入信息,增强了特征融合,而且还能够允许梯度直接传播到任何一个卷积层,简化训练过程。在将编码器中的特征融合至解码器的过程中,除了选用较浅层的最后一层特征,特别选用了较深层的所有高级特征,并在第五阶段使用聚合多尺度信息的特征金字塔模块,不同内容和不同尺度的特征融合使整个网络能够有效应对目标尺度变化,提升分割性能。

附图说明

[0013] 图1是本公开一个实施例中所提供的一种结合完全残差与多尺度特征融合的遥感图像分割方法的流程示意图;
[0014] 图2是本公开一个实施例中特征金字塔模块的结构示意图;
[0015] 图3是本公开一个实施例中残差单元的结构示意图;
[0016] 图4是本公开一个实施例中在ISPRS Vaihingen测试集上各深度网络的分割结果对比图;
[0017] 图5是本公开一个实施例中对应于图4中的不同方法在每幅图上的评价结果;
[0018] 图6(a)、图6(b)是本公开一个实施例中各深度网络在ISPRS Vaihingen测试集上的评价结果对比图;
[0019] 图7是本公开一个实施例中将本方法与目前分割性能较好的文献中的方法进行对比的对比图;
[0020] 图8是本公开一个实施例中各对比网络在无标注图像上的分割结果的对比图;
[0021] 图9是本公开一个实施例中Road Detection测试集上各深度网络的分割结果对比图;
[0022] 图10是本公开一个实施例中对应于图9的不同方法在每幅图上的评价结果;
[0023] 图11是本公开一个实施例中各深度网络在Road Detection测试集上的评价结果对比图;
[0024] 图12是本公开一个实施例中将本方法与现有道路分割的研究方法在Road Detection数据集上的对比分析的对比图;
[0025] 图13是本公开一个实施例中不同对比网络在道路图像中无标记图像上的分割结果的对比图。

具体实施方式

[0026] 在一个实施例中,如图1所示,公开了一种结合完全残差与多尺度特征融合的遥感图像分割方法,包括如下步骤:
[0027] S100:对作为分割的主干网络:卷积编码-解码网络进行改进,具体为:
[0028] S101:采用卷积编码-解码网络作为分割的主干网络,该主干网络包含两个组件:编码器和解码器;
[0029] S102:在所述主干网络中加入聚合多尺度上下文信息的特征金字塔模块;
[0030] S103:在所述主干网络的编码器和解码器对应的卷积层内部加入残差单元,同时将编码器中的特征以逐像素相加的方式融合到解码器相应层中;
[0031] S200:采用改进后的结合完全残差与多尺度特征融合的图像分割网络进行遥感图像的分割;
[0032] S300:输出遥感图像的分割结果。
[0033] 其中,结合完全残差与多尺度特征融合的图像分割网络的定义:该网络是在卷积编码-解码的基础上,通过在编码器和解码器之间以及其内部卷积层添加了完全残差连接,同时对编码器的最后一个卷积阶段的卷积特征使用了一个聚合多尺度特征的特征金字塔模块FPM来完成。
[0034] 具体为:首先,基础网络是一个卷积编码-解码网络,它由完全对称的编码器与解码器组成。其次,先在编码器和解码器各卷积层内部添加短距离的残差连接。残差连接操作的实现是首先输入一个数据,对该数据通过卷积层、批量归一化单元以及修正线性单元等一系列操作单元来学习输入数据的残差,再将此残差与输入数据相加得到输出。同时将编码器中各卷积阶段的特征以逐像素相加的方式融合到解码器的相应层中,类比残差单元的处理原理,可以将此步的连接称为长距离的残差连接,将短距离和长距离的残差连接称为完全残差连接。最后,在将编码器中各卷积阶段的特征融合到解码器中相应层时,对编码器中第五卷积阶段的特征使用了一个特征金子塔模块FPM,由此聚合了不同尺度下的上下文信息,再将得到的多尺度特征融合到解码器相应层中。以上完全残差连接与特征金子塔模块的操作是同时进行,属于同一等级的不同操作。
[0035] 上述实施例采用了改进后的结合完全残差与多尺度特征融合的图像分割网络,既简化了深层网络的训练,增强了特征融合,而且,不同尺度和方式的特征融合使网络能够提取丰富的上下文信息,应对目标尺度变化,提升分割性能。
[0036] 在另一个实施例中,步骤S101中的所述编码器包含13个卷积层和5个池化层,在编码器顶部堆叠一个解码器,该解码器与编码器呈完全镜像关系,包含13个卷积层和5个解池化层。
[0037] 就该实施例而言,编码器的实现方式是通过多种尺寸的卷积核对输入数据进行特征提取,该种实现方式可以获得良好的特征提取效果。
[0038] 在另一个实施例中,所述编码器的13个卷积层被划分为五个卷积阶段,第一个卷积阶段和第二个卷积阶段各包含两个卷积层,第三卷积阶段、第四卷积阶段和第五卷积阶段各包含三个卷积层。
[0039] 在另一个实施例中,在每个卷积层之后包含一个批量归一化单元和一个修正线性单元,其中批量归一化单元将提取到的特征数据进行归一化,修正线性单元用于加入非线性因素;在每个卷积阶段之后包含一个池化层。
[0040] 就该实施例而言,采用批量归一化单元能够解决在训练网络过程中,中间层数据分布发生改变的问题,以防止梯度消失,加快训练速度;采用修正线性单元加入非线性因素,提升网络对数据的表达能力。
[0041] 在另一个实施例中,所述编码器中的池化操作采用最大池化,并且保存了最大池化的索引位置。
[0042] 就该实施例而言,保存最大池化索引可以有利于解池化层将尺寸较小的特征图扩大以获得稀疏特征图。
[0043] 在另一个实施例中,常用的提取不同尺度上下文信息的金字塔结构如PSPNet和DeepLab网络中的空间金字塔池化或带有空洞卷积的ASPP模块,这类模块以并行通道拼接的方式聚合多尺度信息,这样一方面会使网络参数过多,另一方面池化操作和空洞卷积分别易造成局部信息丢失和网格现象,最终影响特征图的局部一致性。因此本方法中的特征金字塔模块(FPM),其结构如图2所示,先分别使用3x3,5x5的卷积核对原输入特征图(conv5)提取不同尺度下的上下文信息,再逐步整合以达到结合相邻尺度上下文特征的目的。然后对原输入特征图(conv5)进行1x1卷积并与多尺度特征以像素方式相乘。最后融合全局池化信息来提高特征金字塔模块的性能。其中,图2中的Upsample是指将特征图的大小通过反卷积操作扩大至指定分辨率。
[0044] 就该实施例而言,采用特征金字塔模块减轻计算负担,不会造成局部信息丢失和网格现象。
[0045] 在另一个实施例中,在编码器中第五卷积阶段的特征融合至解码器中相应层之前使用所述特征金字塔模块。
[0046] 就该实施例而言,由于较深层的高级特征图分辨率较小,使用较大的卷积核不会带来过多的计算负担,所以特征金字塔模块选择在conv5阶段操作。
[0047] 在另一个实施例中,所述逐步整合是以逐步逐像素相加的方式来聚合多尺度信息。
[0048] 就该实施例而言,采用逐步逐像素相加的方式来聚合多尺度信息,这样做考虑到了不同尺度下特征的层次依赖关系,保持了特征信息的局部一致性。
[0049] 在另一个实施例中,步骤S103中所述将编码器中的特征以逐像素相加的方式融合到解码器相应层中具体是:
[0050] 对编码器中第一卷积阶段和编码器中第二卷积阶段只选择最后一层卷积特征图,对编码器中第三卷积阶段、编码器中第四卷积阶段和编码器中第五卷积阶段选用所有卷积特征图来做逐像素相加融合。
[0051] 就该实施例而言,减少了特征图分辨率的损失。
[0052] 在另一个实施例中,本方法在编码器和解码器对应的卷积阶段内部加入了如图3的残差单元,称为短距离残差连接。在图3中,Xl,y表示第,个残差单元的输入和输出,F(Xl)表示该残差单元学习到的残差,其由一系列的卷积层,批量归一化单元(batch Normalization,BN),修正线性单元(rectified linear unit,RELU)等操作学习得到。所述卷积层用于提取特征,所述批量归一化单元用于将提取到的特征数据进行归一化,所述修正线性单元用于加入非线性因素。y=F(Xl)+Xl,特殊情况下,当残差F(Xl)=0时,输出等于输入。类比图3残差单元的原理,可将步骤S102中的特征融合连接称为长距离的残差连接,它与短距离残差连接共同构成了完全残差连接,一方面解决了深度网络因层次加深出现的梯度消失问题,另一方面针对深度网络因卷积操作造成的特征图信息损失,完全残差连接因为不仅融合了多尺度特征,还融合了本层的原始输入信息,从而在一定程度上对损失的信息做了补充,进一步增强了特征融合。
[0053] 就该实施例而言,采用残差单元,有效防止梯度消失。
[0054] 在另一个实施例中,使用的是配备64位Ubuntu系统的工作站,硬件配置为Intel(R)Xeon(R)CPU E5-2690 v32.6GHz处理器、256GB内存和4TB硬盘。整个网络的训练使用Caffe深度学习平台,训练过程中使用一块NVIDIA Tesla K 40c 126B显存CPU进行加速。网络参数使用在ImageNet数据集上预训练所得的VGG16来初始化,其余层参数通过He等人(2015)提出的MSRA初始化方法进行初始化,当只考虑输入个数n时,它能够使权值服从均值为0,方差为2/n的高斯分布。在训练过程中,固定学习率为0.0001,batch_size为5,gamma为1,权重衰减为0.0002,动量为0.99,最大迭代次数为100000次。
[0055] 在训练的反向传播阶段,通过交叉熵损失函数计算误差,使用随机梯度下降法更新整个网络的权值,交叉熵损失函数的定义式如下:
[0056]
[0057] li表示像素点i处的真实标签,pk,i表示像素点i属于第k类的输出概率,K表示类别总数,N表示批量图像中所有像素点的总数,σ(·)表示一个符号函数,当li=k时为1,否则为0。l表示真实标签集合,p表示解码器中最后一个卷积层的输出,θ表示损失函数中的参数集,log默认以10为底。
[0058] 深度学习领域中卷积神经网络是使用反向传播算法将网络末端的误差反传给每一层,让这些层修改更新当层的权值,最终使得卷积神经网络的每一层提取特征的能力更好。反向传播算法(Back Propagation,BP)标准步骤是包括一个前向传播阶段和一个反向传播阶段。前向传播阶段根据初始给定的权值学习输入图像的特征最终在网络的末端得到一个预测值,该预测值与真实给定的标签值之间存在一个误差,在该阶段中不涉及权值的更新。为了使网络中每一层的权值能更好的模拟图像中特征的分布,在反向传播阶段需要将以上误差层层回传到前一层来更新每一层的权值。多次前向传播与反向传播过程更新了权值之后可以使网络最终学习到的预测值更逼近于真实标签值。在更新权值时使用的是随机梯度下降算法。上述所提误差需要定义一个损失函数来计算,在本方法中使用交叉熵损失函数来计算前向传播之后与真实标签值之间的误差。
[0059] 在另一个实施例中,使用下述两个数据集来验证所提网络分割遥感图像的性能并对下述两个数据集做数据扩充,具体介绍如下:
[0060] (1)ISPRS Vaihingen Challenge Dataset:它是Vaihingen中ISPRS 2D语义标签挑战的基准数据集,由3波段IRRG(近红外、红外、绿色)图像数据和相应的数字表面网络(DSM)以及归一化数字表面网络(NDSM)数据组成。该数据集包含33张尺寸不等、地面采样距离为9cm的图像,其中有16张带标记图,每一张图像都被标记为六类,即不透水表面(Impervious surfaces)、建筑物(Building)、低矮植被(Low vegetation)、树木(Tree)、汽车(Car)、杂波或背景(Clutter/Background)。从带标记的16张图像中随机选取12张作为训练集、2张作为验证集、2张作为测试集。该数据集对于训练深度网络而言相对较小,实验中选用256x256的图像块来训练网络。上述划分的训练集和验证集数量对于训练深度网络而言相对较小,因此对于训练集和验证集,我们使用两阶段方法来扩充数据。第一阶段,对于给定图像,由于尺寸不等,先使用大小为256x256,步长为128的滑动窗口在IRRG图像与其对应的标记图上进行截取,再提取3个固定位置的图像块(即,右上角、左下角以及右下角)。第二阶段,先对所有图像块分别进行90度、180度和270度旋转,再对所有旋转所得图像块做水平垂直镜像翻转。最终分别得到15000张训练集样本和2045张验证集样本。
[0061] (2)Road Detection Dataset:该数据集由Cheng等人(2017)从Google Earth上采集并手动标记了道路分割的参考图和其相应的中心线参考图,是目前最大的道路数据集。它包含224张空间分辨率为1.2m的高分辨率图像,每幅图像至少有600x600像素,道路宽度约为12~15个像素。我们将224幅图像随机分成180张训练集、14张验证集和30张测试集。实验中选用300x300的图像块来训练网络。同理,对训练集和验证集使用两阶段方法来扩充数据。第一阶段,对于给定的图像,先提取4个固定位置的图像块(即,左上角,右上角,左下角及右下角),再使用大小为300x300的滑动窗口在原图和标记图上随机截取25个图像块。第二阶段,对所有图像块先以每90度的步长进行旋转,然后在水平和垂直方向上进行翻转。最终分别得到31320张训练集样本和2436张验证集样本。
[0062] 在另一个实施例中,为了验证本发明的图像分割网络的有效性,分别与下述网络进行了比较,具体介绍如下:
[0063] FCN8s(Long等,2015)、DeconvNet(Noh等,2015)、SegNet(Badrinarayanan等,2017)和U-Net(Ronneberger等,2015)等四种语义分割网络。
[0064] 这四种语义分割网络,从结构方面来说,FCN8s结构最简单,基于VGG16的FCN8s网络的编码部分包括15个卷积层和5个池化层,其解码部分是将第三、四和五卷积层的特征图通过反卷积操作扩大并逐层相加进行特征融合,最后再进行像素类别预测。DeconvNet、SegNet和U-Net网络可以划归为完全对称的编码-解码网络这一大类,其结构深度相当,它们的编码器都是通过卷积和池化操作完成,DeconvNet和SegNet的解码器通过解池化和反卷积(或卷积)操作完成,而U-Net网络的解码器仅仅由反卷积操作完成。相比于FCN8s,这类编码-解码网络的解码过程更深。从特征融合方面来说,FCN8s和U-Net网络都进行了特征融合,FCN8s将编码器中第三、四、五阶段的特征图进行逐层相加融合。U-Net网络是将编码器中各卷积阶段最后一层特征图全部复制融合到了解码器的相应层中,其融合的特征信息更多、融合方式更为复杂。而DeconvNet和SegNet网络在解码过程中未利用特征融合,它们只是将编码器中的高级特征逐层扩大至与输入图像大小一样的特征图,最后做像素类别预测。
[0065] 本发明的图像分割网络也可划归为编码-解码网络这一大类,其在结构上与U-Net网络非常类似,但也存在四点不同。第一点:融合方式不同,本发明的图像分割网络将编码器中的特征图以逐像素相加的方式融合到解码器的相应层中,而U-Net网络是以通道拼接的方式进行特征融合。相比通道拼接,逐像素相加的融合方式不会给网络增加额外的参数。第二点:融合内容不同,由于编码器中逐步卷积和池化操作会损失特征图分辨率,因此本发明的图像分割网络在融合时选用了第一、二阶段最后一个卷积特征和第三、四、五阶段的所有卷积特征,而U-Net网络在融合时只选用了编码器中各卷积阶段最后一层特征。第三点:
融合多尺度特征,在将第五阶段的特征图融合至相应层之前,本发明的图像分割网络利用特征金字塔模块提取多尺度特征信息,使其能够应对目标多尺度变化,而U-Net网络并未融合不同尺度特征。第四点:完全残差连接,本发明的图像分割网络在编码器与解码器相应的卷积层内部增加残差连接,它与本发明的图像分割网络中的特征融合连接一起构成了完全残差连接,该完全残差连接允许梯度能够直接传播到任何一个卷积层,简化训练过程。而U-Net网络未使用残差连接。
[0066] 在另一个实施例中,为了量化评估分割网络性能的好坏,使用了以下评估指标,它们的解释与定义式如下:
[0067] F1-值(F1-score)、整体准确率(0A)和交并比(IOU)。
[0068] F1值是精确率(P)和召回率(R)的调和均值,是一个综合性评价指标;整体准确率(0A)是衡量所有被正确标记的像素占图像像素总数的百分比,其定义式分别如下:
[0069]
[0070]
[0071] 其中: TP:true positive正类被判定为正类;FP:false positive负类被判定为正类;FN:false negative正类被判定为负类;TN:true negative负类被判定为负类。
[0072] IOU是语义分割的标准度量,表示预测值与真实标签值的交集集合的像素数和预测值与真实标签值的并集集合的像素数的比,其定义式如下:
[0073]
[0074] 其中:Pgt是真实标记图的像素集合,Pm是预测图像的像素集合,“∩”和“∪”分别表示交集和并集操作。|·|表示计算该组中的像素数。
[0075] 在另一个实施例中,在ISPRS Vaihingen测试集上实验如下:
[0076] 在ISPRS Vaihingen上,本方法与先进的深层网络的分割结果如图4所示,所有网络的输入图像尺寸均为256x256,且都仅为IRRG三通道彩色图像,输出是与输入图像大小相同的预测标签图。图4从上到下依次为IRRG图像、标签图、FCN8s分割结果、DeconvNet分割结果、SegNet分割结果、U-Net分割结果、FRes-MFDNN分割结果。
[0077] 各图中目标尺寸不等、形态各异,且都存在一定的阴影遮挡。例如,第一幅和第五幅图像中的低矮植被和树木分布比较集中,由于树木和建筑物高度的影响造成原图中存在大面积的阴影,且部分阴影对汽车和路面形成了遮挡。由图4可以看出,FCN8s和DeconvNet网络的分割结果较差,其中DeconvNet分割的结果与实际标签图相差较大,且目标边缘处的细节模糊,单个目标的内部存在分割不连续等。与FCN8s相比,SegNet网络由于加深了解码过程,并利用了池化过程中得到的位置索引值,其分割结果与实际标签图较为接近,较好地保留了目标的细节信息,错分部分也比FCN8s和DeconvNet网络的有所减少。U-Net将编码器中对应阶段的特征复制融合到解码器中相应阶段中,其分割结果与实际标签图更为接近,目标细节信息较为清晰。本方法中的网络因在编码器和解码器相应层中使用了完全残差连接,并融合了高级特征的多尺度信息,其分割结果与实际标签图非常接近,目标细节更清晰,错分更少,这体现了本方法能够在一定程度上应对原图中目标尺寸多样性以及阴影带来的影响,提升了分割准确性。
[0078] 图5给出了对应于图4的定量评价结果,粗体代表最好结果,下划线代表次好结果。其中精确率(P)和召回率(R)分别衡量了分割的完整性和正确性,理想的分割情况是精确率和召回率都高。本方法在每一幅图上的度量指标达到最高,另外,在平均精确率和平均召回率上比次好结果分别高出约3%和2%,从定性和定量结果看本方法在城市遥感图像分割方面与实际标记图更接近,效果更好。
[0079] 各深层网络与本方法在ISPRS Vaihingen测试图像上的评价结果如图6(a)和图6(b),其中,从图6(a)和图6(b)可见,虽然一些比较算法在IOU和F1值度量中具有较好的结果,但是本方法在每一类别的IOU、F1值以及测试集整体的平均性能上都达到了最优。具体而言,本方法的平均IOU比次好结果(U-Net)高约6%,平均F1值比次好结果高约4%,这充分证明了本方法在城市遥感图像分割方面的有效性。
[0080] 在图7给出了本方法与目前分割性能较好的文献中的方法的对比结果,Paisitkriangkrai等人(2015)提出将CNN与随机森林(RF)相结合的CNN+RF分割网络,CNN主要用于提取特征,RF用于分类。Volpi和Tuia(2017)提出将反卷积网络用于遥感图像分割,其网络由对称的编码器和解码器组成,编码器由八个卷积层和三个池化层完成,解码器与编码器呈镜像关系,其中用1x1卷积层链接编码与解码过程。Sherrah(2016)使用空洞卷积对遥感图像进行分割,并用CRF对分割结果做平滑处理;Maggiori等人(2016)在编码-解码网络的末端将CRF作为后处理融入到深度网络的训练过程中。Audebert等人(2017)使用对称的编码-解码网络,其编码器由卷积层和池化层组成,解码器由反卷积层和反池化层组成。以上实验结果取自文献原文中,各方法使用的训练样本数量大体相当。从图7对比结果中可以看出,在每一类的F1值和分割的整体准确率上,本方法的分割效果优于所比较方法。
[0081] 为了更好的验证本方法的分割性能,本文采用ISPRS Vaihingen数据集中area4、area31和area35等三张不含标注图,分别在各对比网络中进行实验,部分结果展示如图8,从左至右依次为原图、FRes-MFDNN分割结果、U-Net分割结果、SegNet分割结果、FCN8s分割结果和DeconvNet分割结果。
[0082] 在没有标记图参考的情况下,参照原图(第一列)可以看到,本方法在分割的正确性、完整性以及目标边界平滑性上比其它对比网络的效果好。
[0083] 在另一个实施例中,在Road Detection数据集上实验如下:
[0084] 在Road Detection Dataset上,本方法与各深层网络的分割结果如图9所示。所有网络的输入图像尺寸均为300x300的RGB三通道图像,输出是与输入图像相同大小的预测结果图,黑色代表背景,白色代表道路。图7从上到下依次为RGB图像、标签图、FRes-MFDNN分割结果、U-Net分割结果、SegNet分割结果、DeconvNet分割结果、FCN8s分割结果。
[0085] 图9第一行给出了五幅光谱信息以及背景复杂度不同的图像,部分道路被树木和汽车所遮挡,其中,第四幅图像部分居住区民房与道路在光谱信息上极其相近,第四幅图像和第五幅图像还包含被踩踏明显的黄土路面,这些因素都为分割增加了一定的挑战性。由图9可以看出,FCN8s和DeconvNet网络的分割结果与实际标签图相差较大,错分以及漏分面积较多,分割出的道路连续性较差。SegNet网络的分割结果与实际标签图较为相似,错分面积相比DeconvNet来说有较明显地减少,但是还是存在漏分现象。U-Net网络和本方法的分割结果与实际标签图最为相似,错分以及漏分也较其他网络明显降低。与U-Net网络相比,本方法的分割结果细节信息更完善,当有汽车和树木遮挡时,分割出来的道路边缘更光滑,空间一致性更高。
[0086] 图10给出了对应于图9的评价结果,粗体代表最好值,下划线代表次优值。同样地,虽然一些比较方法在精确率或召回率上取得了较好的结果,但是本方法在每一幅图像上的度量指标几乎能够达到最高,且平均精确率和平均召回率比次优的方法分别高出2%和3%,从定性和定量结果看本文方法在分割遥感道路图像方面与实际标记图更相近,效果更好。
[0087] 图11给出了各方法在Road Detection测试集上的平均IOU和平均F1值。可见本方法的平均IOU和平均F1值都明显高于其它方法,平均IOU更是比第二好的U-Net方法提升了4%,平均F1值达到了93%,充分体现了本方法在该数据集上良好的分割性能。
[0088] 图12是本方法与现有道路分割的研究方法在Road Detection数据集上的结果对比,包括各方法在该数据集上的平均IOU、平均F1值、训练时间(h)以及一幅图的推断时间(s/p表示秒/张)。
[0089] 在图12中,Zhang等人(2018)提出包含三层编码器和三层解码器的Res-unet网络,编码过程由卷积操作完成,解码过程通过双线性插值完成,其中将编码器各阶段最后一层特征图复制融合到了解码器的相应阶段中,并在编码器和编码器中引入了残差连接。Ronneberger等人(2015)提出用于医学图像分割的U-Net,目前许多研究有将其用于遥感图像分割的任务中。Panboonyuen等人(2017)提出ELU-SegNet结构,他在SegNet网络的基础上将RELU激活函数替换成ELU激活函数。Cheng等人(2014)提出由四层编码器和四层解码器组成的Cascaded-net结构,其中编码器由卷积和池化操作完成,解码器由反卷积和解池化完成。Res-unet、ELU-SegNet和Cascaded-net等网络都是针对道路分割应用所提出的。以上结果都是在与本方法的网络训练同配置的caffe深度学习平台上,针对Road Detection数据集实验所得。从图12可以看出,虽然本方法在训练时间以及推断时间上稍微逊色于Res-unet和U-Net网络的时间,但是差距并不大,本方法比其它方法在平均IOU和平均F1值两方面都占有优势。
[0090] 为了更好地验证各对比网络在分割遥感道路图像方面的性能,我们从谷歌地图上采集了美国圣路易斯某街区上空的图像,所有图像为三通道RGB彩色图像,空间分辨率为20米,分别送入训练好的各网络进行测试,其部分结果如图13所示,从左至右依次为原图、本方法的网络分割结果、U-Net分割结果、SegNet分割结果、DeconvNet分割结果和FCN8s分割结果。
[0091] 尽管采集的图像和用于训练网络的Road Detection数据集在背景复杂度、光谱信息以及空间分辨率方面都有所不同,但是从图13可以看出,相比于其它对比方法,本方法能够较好地分割出道路,有效剔除大部分背景干扰,克服空间分辨率不同带来的影响。这也充分证明了本方法在分割遥感道路图像方面的鲁棒性。
[0092] 尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。