基于全残差空洞卷积神经网络的道路场景语义分割方法转让专利

申请号 : CN201910664797.8

文献号 : CN110490205B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 周武杰朱家懿叶绿雷景生王海江何成

申请人 : 浙江科技学院

摘要 :

本发明公开了一种基于全残差空洞卷积神经网络的道路场景语义分割方法,其在训练阶段构建全残差空洞卷积神经网络,其包括输入层、隐藏层和输出层,隐藏层包括1个过渡卷积块、8个神经网络块、7个反卷积块、4个融合层;将训练集中的每幅原始的道路场景图像输入到全残差空洞卷积神经网络中进行训练,得到每幅原始的道路场景图像对应的12幅语义分割预测图;通过计算每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,得到全残差空洞卷积神经网络训练模型;在测试阶段利用全残差空洞卷积神经网络训练模型进行预测;优点是其分割准确度高,且鲁棒性强。

权利要求 :

1.一种基于全残差空洞卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;

所述的训练阶段过程的具体步骤为:

步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分q

割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{I (i,j)},将训练集q

中与{I (i,j)}对应的真实语义分割图像记为 然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为 其中,道路场景图像为RGB彩色q

图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{I(i,j)}的宽度,q q q

H表示{I (i,j)}的高度,I (i,j)表示{I (i,j)}中坐标位置为(i,j)的像素点的像素值,表示 中坐标位置为(i,j)的像素点的像素值;

步骤1_2:构建全残差空洞卷积神经网络:全残差空洞卷积神经网络包括输入层、隐藏层和输出层,隐藏层包括1个过渡卷积块、8个神经网络块、7个反卷积块、4个融合层;

对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层的输入端接收的输入图像的宽度为W、高度为H;

对于隐藏层,过渡卷积块的输入端为隐藏层的输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,过渡卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为G1;第1个神经网络块的输入端接收G1中的所有特征图,第1个神经网络块的输出端输出128幅宽度为 且高度为 的特征图,将这

128幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出512幅宽度为 且高度为 的特征图,将这512幅特征图构成的集合记为S3;第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出1024幅宽度为且高度为 的特征图,将这1024幅特征图构成的集合记为S4;第1个反卷积块的输入端接收S4中的所有特征图,第1个反卷积块的输出端输出512幅宽度为 且高度为 的特征图,将这512幅特征图构成的集合记为F1;第5个神经网络块的输入端接收S3中的所有特征图,第5个神经网络块的输出端输出512幅宽度为 且高度为 的特征图,将这512幅特征图构成的集合记为S5;第1个融合层的输入端接收F1中的所有特征图和S5中的所有特征图,相加融合操作后第1个融合层的输出端输出512幅宽度为 且高度为 的特征图,将这512幅特征图构成的集合记为A1;第2个反卷积块的输入端接收A1中的所有特征图,第2个反卷积块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为F2;第6个神经网络块的输入端接收S2中的所有特征图,第6个神经网络块的输出端输出256幅宽度为且高度为 的特征图,将这256幅特征图构成的集合记为S6;第3个反卷积块的输入端接收S3中的所有特征图,第3个反卷积块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为F3;第2个融合层的输入端接收F2中的所有特征图、S6中的所有特征图和F3中的所有特征图,相加融合操作后第2个融合层的输出端输出256幅宽度为且高度为 的特征图,将这256幅特征图构成的集合记为A2;第4个反卷积块的输入端接收A2中的所有特征图,第4个反卷积块的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为F4;第7个神经网络块的输入端接收S1中的所有特征图,第

7个神经网络块的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为S7;第5个反卷积块的输入端接收S2中的所有特征图,第5个反卷积块的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为F5;第3个融合层的输入端接收F4中的所有特征图、S7中的所有特征图和F5中的所有特征图,相加融合操作后第3个融合层的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为A3;第6个反卷积块的输入端接收A3中的所有特征图,第6个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为F6;第8个神经网络块的输入端接收G1中的所有特征图,第8个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为S8;第7个反卷积块的输入端接收S1中的所有特征图,第7个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为F7;第4个融合层的输入端接收F6中的所有特征图、S8中的所有特征图和F7中的所有特征图,相加融合操作后第4个融合层的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为A4,第4个融合层的输出端为隐藏层的输出端;

对于输出层,其输入端接收A4中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图,将这12幅特征图构成的集合记为O1;

所述的步骤1_2中,第1个至第4个神经网络块的结构相同,其由依次设置的第四卷积层、第一R型神经网络块和第一B型神经网络块组成,第四卷积层的输入端为其所在的神经网络块的输入端,第一R型神经网络块的输入端接收第四卷积层的输出端输出的所有特征图,第一B型神经网络块的输入端接收第一R型神经网络块的输出端输出的所有特征图,第一B型神经网络块的输出端为其所在的神经网络块的输出端;其中,第1个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步长为2,第1个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为128,第2个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步长为2,第2个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为

256,第3个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为“same”、步长为2,第3个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为512,第4个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为

1024、补零参数为“same”、步长为2,第4个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为1024;

第5个至第8个神经网络块的结构相同,其由依次设置的第二R型神经网络块和第二B型神经网络块组成,第二R型神经网络块的输入端为其所在的神经网络块的输入端,第二B型神经网络块的输入端接收第二R型神经网络块的输出端输出的所有特征图,第二B型神经网络块的输出端为其所在的神经网络块的输出端;其中,第5个神经网络块中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为512,第6个神经网络块中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为256,第7个神经网络块中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为128,第8个神经网络块中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为64;

所述的第一R型神经网络块和所述的第二R型神经网络块的结构相同,其由依次设置的第五卷积层、第四批量归一化层、第四激活层、第一空洞卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层组成,第五卷积层的输入端为其所在的R型神经网络块的输入端,第四批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图,第一空洞卷积层的输入端接收第四激活层的输出端输出的所有特征图,第五批量归一化层的输入端接收第一空洞卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端输出的所有特征图,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,将输入到第五卷积层的输入端的所有特征图与第六激活层的输出端输出的所有特征图进行跳跃连接后作为所在的R型神经网络块的输出端输出的所有特征图;其中,在第1个神经网络块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步长为1、空洞卷积参数为2;在第2个神经网络块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步长为1、空洞卷积参数为2;在第3个神经网络块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为“same”、步长为1、空洞卷积参数为2;在第4个神经网络块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为1024、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为1024、补零参数为“same”、步长为1、空洞卷积参数为2;在第5个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步长均为

1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为“same”、步长为1、空洞卷积参数为2;在第6个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步长为1、空洞卷积参数为2;在第7个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步长为1、空洞卷积参数为2;

在第8个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为“same”、步长为1、空洞卷积参数为2;第四激活层、第五激活层和第六激活层的激活方式均为“Relu”;

所述的第一B型神经网络块和所述的第二B型神经网络块的结构相同,其由依次设置的第七卷积层、第七批量归一化层、第七激活层、第二空洞卷积层、第八批量归一化层、第八激活层、第八卷积层、第九批量归一化层、第九激活层组成,第七卷积层的输入端为其所在的B型神经网络块的输入端,第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图,第二空洞卷积层的输入端接收第七激活层的输出端输出的所有特征图,第八批量归一化层的输入端接收第二空洞卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图,第八卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图,第九激活层的输出端为其所在的B型神经网络块的输出端;其中,在第1个神经网络块中的第一B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步长为1、空洞卷积参数为2;在第2个神经网络块中的第一B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步长为1、空洞卷积参数为2;在第3个神经网络块中的第一B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步长均为

1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为“same”、步长为1、空洞卷积参数为2;在第4个神经网络块中的第一B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为1024、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为1024、补零参数为“same”、步长为1、空洞卷积参数为2;在第5个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为“same”、步长为1、空洞卷积参数为2;

在第6个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步长为1、空洞卷积参数为2;在第7个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×

3、卷积核个数为128、补零参数为“same”、步长为1、空洞卷积参数为2;在第8个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为“same”、步长为1、空洞卷积参数为2;第七激活层、第八激活层和第九激活层的激活方式均为“Relu”;

步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全残差空洞卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预q

测图,将{I(i,j)}对应的12幅语义分割预测图构成的集合记为步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将 与 之间的损失函数值记为 采用负对数似然函数获得;

步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全残差空洞卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全残差空洞卷积神经网络训练best best

模型的最优权值矢量和最优偏置项,对应记为W 和b ;其中,V>1;

所述的测试阶段过程的具体步骤为:

步骤2_1:令 表示待语义分割的道路场景图像;其中,1≤i′≤W′,1≤j′≤H′,W′表示 的宽度,H′表示 的高度, 表示 中坐标位置为(i,j)的像素点的像素值;

步骤2_2:将 的R通道分量、G通道分量和B通道分量输入到全残差空洞卷积神经best best

网络训练模型中,并利用W 和b 进行预测,得到 对应的预测语义分割图像,记为 其中, 表示 中坐标位置为(i′,j′)的像素点的像素值。

2.根据权利要求1所述的基于全残差空洞卷积神经网络的道路场景语义分割方法,其特征在于所述的步骤1_2中,过渡卷积块由依次设置的第一卷积层、第一批量归一化层、第一激活层、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、第三激活层组成,第一卷积层的输入端为过渡卷积块的输入端,第一批量归一化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批量归一化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批量归一化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批量归一化层的输出端输出的所有特征图,第三激活层的输出端为过渡卷积块的输出端;其中,第一卷积层、第二卷积层和第三卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”、步长均为1,第一激活层、第二激活层和第三激活层的激活方式均为“Relu”。

3.根据权利要求1所述的基于全残差空洞卷积神经网络的道路场景语义分割方法,其特征在于所述的步骤1_2中,第1个至第7个反卷积块的结构相同,其由依次设置的反卷积层、第十批量归一化层、第十激活层组成,反卷积层的输入端为其所在的反卷积块的输入端,第十批量归一化层的输入端接收反卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批量归一化层的输出端输出的所有特征图,第十激活层的输出端为其所在的反卷积块的输出端;其中,第1个反卷积块中的反卷积层的卷积核大小为4×4、卷积核个数为512、补零参数为“same”、步长为2,第2个和第3个反卷积块中的反卷积层的卷积核大小为4×4、卷积核个数为256、补零参数为“same”、步长为2,第4个和第5个反卷积块中的反卷积层的卷积核大小为4×4、卷积核个数为128、补零参数为“same”、步长为2,第6个和第7个反卷积块中的反卷积层的卷积核大小为4×4、卷积核个数为64、补零参数为“same”、步长为

2,第十激活层的激活方式为“Relu”。

4.根据权利要求1所述的基于全残差空洞卷积神经网络的道路场景语义分割方法,其特征在于所述的步骤1_2中,输出层由依次设置的第九卷积层、第十一批量归一化层、第十一激活层组成,第九卷积层的输入端为输出层的输入端,第十一批量归一化层的输入端接收第九卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批量归一化层的输出端输出的所有特征图,第十一激活层的输出端为输出层的输出端;其中,第九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“same”、步长为1,第十一激活层的激活方式为“Relu”。

说明书 :

基于全残差空洞卷积神经网络的道路场景语义分割方法

技术领域

[0001] 本发明涉及一种深度学习的语义分割方法,尤其是涉及一种基于全残差空洞卷积神经网络的道路场景语义分割方法。

背景技术

[0002] 智能交通行业的兴起,使得语义分割在智能交通系统中有着越来越多的应用,从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术来实现。目前,最常用
的语义分割方法有支持向量机、随机森林等算法。这些传统的机器学习方法主要集中在二
分类任务上,用于检测和识别特定物体,如道路表面、车辆和行人等,而且往往需要通过高
复杂度的特征来实现。
[0003] 深度学习的语义分割方法,其直接进行像素级别端到端(end‑to‑end)的训练,其只需要将训练集中的图像输入进模型框架中训练,得到模型所对应的权重,即可对测试集
进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到
多个层次的特征。目前,基于深度学习的语义分割框架基本均为编码‑译码架构,编码过程
中通过池化层逐渐减少位置信息、抽取抽象特征;译码过程中逐渐恢复位置信息,一般译码
与编码间有直接的连接。而带孔卷积(dilated convolutions)作为分割任务中常用的方
法,其抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学
习到部分具体的特征;较大值的带孔卷积具有较大的感知域,能够学习到更加抽象的特征,
这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
[0004] 现有的道路场景语义分割方法大多采用深度学习的方法,采用深度学习来对道路场景进行语义分割简单方便,更重要的是,深度学习的应用极大地提高了道路场景图像像
素级分类任务的精度。目前,基于深度学习的道路场景语义分割方法利用卷积层与池化层
相结合的模型较多,然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表
性,从而会导致得到的图像的特征信息减少,最终会导致还原的效果信息比较粗糙,分割精
度低。

发明内容

[0005] 本发明所要解决的技术问题是提供一种基于全残差空洞卷积神经网络的道路场景语义分割方法,其分割准确度高,且鲁棒性强。
[0006] 本发明解决上述技术问题所采用的技术方案为:一种基于全残差空洞卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
[0007] 所述的训练阶段过程的具体步骤为:
[0008] 步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语q
义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{I(i,j)},将训
q
练集中与{I (i,j)}对应的真实语义分割图像记为 然后采用独热编码技术将训
练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
处理成的12幅独热编码图像构成的集合记为 其中,道路场景图像为RGB彩
q
色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{I (i,j)}的宽
q q q
度,H表示{I (i,j)}的高度,I(i,j)表示{I (i,j)}中坐标位置为(i,j)的像素点的像素值,
表示 中坐标位置为(i,j)的像素点的像素值;
[0009] 步骤1_2:构建全残差空洞卷积神经网络:全残差空洞卷积神经网络包括输入层、隐藏层和输出层,隐藏层包括1个过渡卷积块、8个神经网络块、7个反卷积块、4个融合层;
[0010] 对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层
的输入端接收的输入图像的宽度为W、高度为H;
[0011] 对于隐藏层,过渡卷积块的输入端为隐藏层的输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,过渡卷积块的输出端输出64幅宽度为W
且高度为H的特征图,将这64幅特征图构成的集合记为G1;第1个神经网络块的输入端接收G1
中的所有特征图,第1个神经网络块的输出端输出128幅宽度为 且高度为 的特征图,将
这128幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2
个神经网络块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成
的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出
端输出512幅宽度为 且高度为 的特征图,将这512幅特征图构成的集合记为S3;第4个
神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出1024幅宽度
为 且高度为 的特征图,将这1024幅特征图构成的集合记为S4;第1个反卷积块的输入
端接收S4中的所有特征图,第1个反卷积块的输出端输出512幅宽度为 且高度为 的特
征图,将这512幅特征图构成的集合记为F1;第5个神经网络块的输入端接收S3中的所有特征
图,第5个神经网络块的输出端输出512幅宽度为 且高度为 的特征图,将这512幅特征
图构成的集合记为S5;第1个融合层的输入端接收F1中的所有特征图和S5中的所有特征图,
相加融合操作后第1个融合层的输出端输出512幅宽度为 且高度为 的特征图,将这512
幅特征图构成的集合记为A1;第2个反卷积块的输入端接收A1中的所有特征图,第2个反卷积
块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为
F2;第6个神经网络块的输入端接收S2中的所有特征图,第6个神经网络块的输出端输出256
幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为S6;第3个反卷积块的
输入端接收S3中的所有特征图,第3个反卷积块的输出端输出256幅宽度为 且高度为
的特征图,将这256幅特征图构成的集合记为F3;第2个融合层的输入端接收F2中的所有特征
图、S6中的所有特征图和F3中的所有特征图,相加融合操作后第2个融合层的输出端输出256
幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为A2;第4个反卷积块的
输入端接收A2中的所有特征图,第4个反卷积块的输出端输出128幅宽度为 且高度为
的特征图,将这128幅特征图构成的集合记为F4;第7个神经网络块的输入端接收S1中的所有
特征图,第7个神经网络块的输出端输出128幅宽度为 且高度为 的特征图,将这128幅
特征图构成的集合记为S7;第5个反卷积块的输入端接收S2中的所有特征图,第5个反卷积块
的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为F5;
第3个融合层的输入端接收F4中的所有特征图、S7中的所有特征图和F5中的所有特征图,相
加融合操作后第3个融合层的输出端输出128幅宽度为 且高度为 的特征图,将这128幅
特征图构成的集合记为A3;第6个反卷积块的输入端接收A3中的所有特征图,第6个反卷积块
的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为F6;第8个
神经网络块的输入端接收G1中的所有特征图,第8个神经网络块的输出端输出64幅宽度为W
且高度为H的特征图,将这64幅特征图构成的集合记为S8;第7个反卷积块的输入端接收S1中
的所有特征图,第7个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特
征图构成的集合记为F7;第4个融合层的输入端接收F6中的所有特征图、S8中的所有特征图
和F7中的所有特征图,相加融合操作后第4个融合层的输出端输出64幅宽度为W且高度为H
的特征图,将这64幅特征图构成的集合记为A4,第4个融合层的输出端为隐藏层的输出端;
[0012] 对于输出层,其输入端接收A4中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图,将这12幅特征图构成的集合记为O1;
[0013] 步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全残差空洞卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分
q
割预测图,将{I(i,j)}对应的12幅语义分割预测图构成的集合记为
[0014] 步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损
失函数值,将 与 之间的损失函数值记为 采用
Negative Log‑liklihood函数获得;
[0015] 步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全残差空洞卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;
接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全残差空洞卷积神经网络
best best
训练模型的最优权值矢量和最优偏置项,对应记为W 和b ;其中,V>1;
[0016] 所述的测试阶段过程的具体步骤为:
[0017] 步骤2_1:令 表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示 的宽度,H'表示 的高度, 表示 中坐标位置为
(i,j)的像素点的像素值;
[0018] 步骤2_2:将 的R通道分量、G通道分量和B通道分量输入到全残差空洞卷best best
积神经网络训练模型中,并利用W 和b 进行预测,得到 对应的预测语义分割图
像,记为 其中, 表示 中坐标位置为(i',j')的像素点的像
素值。
[0019] 所述的步骤1_2中,过渡卷积块由依次设置的第一卷积层、第一批量归一化层、第一激活层、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、
第三激活层组成,第一卷积层的输入端为过渡卷积块的输入端,第一批量归一化层的输入
端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批量归一化
层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有
特征图,第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激
活层的输入端接收第二批量归一化层的输出端输出的所有特征图,第三卷积层的输入端接
收第二激活层的输出端输出的所有特征图,第三批量归一化层的输入端接收第三卷积层的
输出端输出的所有特征图,第三激活层的输入端接收第三批量归一化层的输出端输出的所
有特征图,第三激活层的输出端为过渡卷积块的输出端;其中,第一卷积层、第二卷积层和
第三卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”、步长均为1,
第一激活层、第二激活层和第三激活层的激活方式均为“Relu”。
[0020] 所述的步骤1_2中,第1个至第4个神经网络块的结构相同,其由依次设置的第四卷积层、第一R型神经网络块和第一B型神经网络块组成,第四卷积层的输入端为其所在的神
经网络块的输入端,第一R型神经网络块的输入端接收第四卷积层的输出端输出的所有特
征图,第一B型神经网络块的输入端接收第一R型神经网络块的输出端输出的所有特征图,
第一B型神经网络块的输出端为其所在的神经网络块的输出端;其中,第1个神经网络块中
的第四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步长为2,第1个
神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为128,第2个神
经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步
长为2,第2个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为
256,第3个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为512、补零参数
为“same”、步长为2,第3个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷
积核个数均为512,第4个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为
1024、补零参数为“same”、步长为2,第4个神经网络块中的第一R型神经网络块和第一B型神
经网络块的卷积核个数均为1024;
[0021] 第5个至第8个神经网络块的结构相同,其由依次设置的第二R型神经网络块和第二B型神经网络块组成,第二R型神经网络块的输入端为其所在的神经网络块的输入端,第
二B型神经网络块的输入端接收第二R型神经网络块的输出端输出的所有特征图,第二B型
神经网络块的输出端为其所在的神经网络块的输出端;其中,第5个神经网络块中的第二R
型神经网络块和第二B型神经网络块的卷积核个数均为512,第6个神经网络块中的第二R型
神经网络块和第二B型神经网络块的卷积核个数均为256,第7个神经网络块中的第二R型神
经网络块和第二B型神经网络块的卷积核个数均为128,第8个神经网络块中的第二R型神经
网络块和第二B型神经网络块的卷积核个数均为64。
[0022] 所述的第一R型神经网络块和所述的第二R型神经网络块的结构相同,其由依次设置的第五卷积层、第四批量归一化层、第四激活层、第一空洞卷积层、第五批量归一化层、第
五激活层、第六卷积层、第六批量归一化层、第六激活层组成,第五卷积层的输入端为其所
在的R型神经网络块的输入端,第四批量归一化层的输入端接收第五卷积层的输出端输出
的所有特征图,第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图,
第一空洞卷积层的输入端接收第四激活层的输出端输出的所有特征图,第五批量归一化层
的输入端接收第一空洞卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五
批量归一化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端
输出的所有特征图,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征
图,第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,将输入到第
五卷积层的输入端的所有特征图与第六激活层的输出端输出的所有特征图进行跳跃连接
后作为所在的R型神经网络块的输出端输出的所有特征图;其中,在第1个神经网络块中的
第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为
128、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数
为128、补零参数为”same”、步长为1、空洞卷积参数为2;在第2个神经网络块中的第一R型神
经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为256、补零
参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为256、补
零参数为”same”、步长为1、空洞卷积参数为2;在第3个神经网络块中的第一R型神经网络块
中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为
“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为”
same”、步长为1、空洞卷积参数为2;在第4个神经网络块中的第一R型神经网络块中,第五卷
积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为1024、补零参数均为“same”、步
长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为1024、补零参数为”same”、步
长为1、空洞卷积参数为2;在第5个神经网络块中的第二R型神经网络块中,第五卷积层和第
六卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步长均为1,
第一空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为”same”、步长为1、空
洞卷积参数为2;在第6个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层
的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”、步长均为1,第一空洞
卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为”same”、步长为1、空洞卷积参
数为2;在第7个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层的卷积核
大小均为3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,第一空洞卷积层的
卷积核大小为3×3、卷积核个数为128、补零参数为”same”、步长为1、空洞卷积参数为2;在
第8个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为
3×3、卷积核个数均为64、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小
为3×3、卷积核个数为64、补零参数为”same”、步长为1、空洞卷积参数为2;第四激活层、第
五激活层和第六激活层的激活方式均为“Relu”。
[0023] 所述的第一B型神经网络块和所述的第二B型神经网络块的结构相同,其由依次设置的第七卷积层、第七批量归一化层、第七激活层、第二空洞卷积层、第八批量归一化层、第
八激活层、第八卷积层、第九批量归一化层、第九激活层组成,第七卷积层的输入端为其所
在的B型神经网络块的输入端,第七批量归一化层的输入端接收第七卷积层的输出端输出
的所有特征图,第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图,
第二空洞卷积层的输入端接收第七激活层的输出端输出的所有特征图,第八批量归一化层
的输入端接收第二空洞卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八
批量归一化层的输出端输出的所有特征图,第八卷积层的输入端接收第八激活层的输出端
输出的所有特征图,第九批量归一化层的输入端接收第八卷积层的输出端输出的所有特征
图,第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图,第九激活层
的输出端为其所在的B型神经网络块的输出端;其中,在第1个神经网络块中的第一B型神经
网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参
数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为128、补零
参数为”same”、步长为1、空洞卷积参数为2;在第2个神经网络块中的第一B型神经网络块
中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为
“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为”
same”、步长为1、空洞卷积参数为2;在第3个神经网络块中的第一B型神经网络块中,第七卷
积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步
长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为”same”、步
长为1、空洞卷积参数为2;在第4个神经网络块中的第一B型神经网络块中,第七卷积层和第
八卷积层的卷积核大小均为3×3、卷积核个数均为1024、补零参数均为“same”、步长均为1,
第二空洞卷积层的卷积核大小为3×3、卷积核个数为1024、补零参数为”same”、步长为1、空
洞卷积参数为2;在第5个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层
的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步长均为1,第二空洞
卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为”same”、步长为1、空洞卷积参
数为2;在第6个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核
大小均为3×3、卷积核个数均为256、补零参数均为“same”、步长均为1,第二空洞卷积层的
卷积核大小为3×3、卷积核个数为256、补零参数为”same”、步长为1、空洞卷积参数为2;在
第7个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为
3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大
小为3×3、卷积核个数为128、补零参数为”same”、步长为1、空洞卷积参数为2;在第8个神经
网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积
核个数均为64、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷
积核个数为64、补零参数为”same”、步长为1、空洞卷积参数为2;第七激活层、第八激活层和
第九激活层的激活方式均为“Relu”。
[0024] 所述的步骤1_2中,第1个至第7个反卷积块的结构相同,其由依次设置的反卷积层、第十批量归一化层、第十激活层组成,反卷积层的输入端为其所在的反卷积块的输入
端,第十批量归一化层的输入端接收反卷积层的输出端输出的所有特征图,第十激活层的
输入端接收第十批量归一化层的输出端输出的所有特征图,第十激活层的输出端为其所在
的反卷积块的输出端;其中,第1个反卷积块中的反卷积层的卷积核大小为4×4、卷积核个
数为512、补零参数为“same”、步长为2,第2个和第3个反卷积块中的反卷积层的卷积核大小
为4×4、卷积核个数为256、补零参数为“same”、步长为2,第4个和第5个反卷积块中的反卷
积层的卷积核大小为4×4、卷积核个数为128、补零参数为“same”、步长为2,第6个和第7个
反卷积块中的反卷积层的卷积核大小为4×4、卷积核个数为64、补零参数为“same”、步长为
2,第十激活层的激活方式为”Relu”。
[0025] 所述的步骤1_2中,4个融合层均为Add融合层。
[0026] 所述的步骤1_2中,输出层由依次设置的第九卷积层、第十一批量归一化层、第十一激活层组成,第九卷积层的输入端为输出层的输入端,第十一批量归一化层的输入端接
收第九卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批量归一化
层的输出端输出的所有特征图,第十一激活层的输出端为输出层的输出端;其中,第九卷积
层的卷积核大小为1×1、卷积核个数为12、补零参数为“same”、步长为1,第十一激活层的激
活方式为”Relu”。
[0027] 与现有技术相比,本发明的优点在于:
[0028] 1)本发明方法构建了全残差空洞卷积神经网络,用步长为2的卷积层取代了现阶段常用的池化层,由于池化层会对图像造成不可逆的特征损失,且语义分割对预测精度的
要求很高,因此选择了步长为2的卷积层进行替代,该卷积层可以得到与池化层相同的效
果,并能有效避免池化造成的不可逆的信息损失,即有效保证了图像特征不会有过大损失。
[0029] 2)本发明方法采用空洞卷积层扩大了网络感受野,由于池化层的优点不只是能有效缩减图像尺寸,还可有效扩大感受野以保证提取到更多的全局信息,因此在用步长为2的
卷积层替代池化层时,感受野没有得到有效扩充,损失了部分全局信息,故加入空洞卷积
层,以保证网络感受野不变甚至增大,空洞卷积层与步长为2的卷积层相结合,可以保证全
残差空洞卷积神经网络提取到最多的局部特征与全局特征。
[0030] 3)本发明方法在搭建全残差空洞卷积神经网络时采用了跳跃连接作为主要的连接方式,以构成全残差网络,残差网络在语义分割方向上一直具有很优秀的表现,因此在本
发明方法中加入跳跃连接,可以有效补偿图像在编码过程中的损失,以保证最后的预测精
度,并且跳跃连接更好地融合了高级特征和低级特征,且避免了梯度消失或梯度爆炸,从而
提高了全残差空洞卷积神经网络训练模型的鲁棒性。

附图说明

[0031] 图1为本发明方法中构建的全残差空洞卷积神经网络的组成结构示意图;
[0032] 图2a为同一场景的第1幅原始的道路场景图像;
[0033] 图2b为利用本发明方法对图2a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
[0034] 图3a为同一场景的第2幅原始的道路场景图像;
[0035] 图3b为利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
[0036] 图4a为同一场景的第3幅原始的道路场景图像;
[0037] 图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
[0038] 图5a为同一场景的第4幅原始的道路场景图像;
[0039] 图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。

具体实施方式

[0040] 以下结合附图实施例对本发明作进一步详细描述。
[0041] 本发明提出的一种基于全残差空洞卷积神经网络的道路场景语义分割方法,其包括训练阶段和测试阶段两个过程。
[0042] 所述的训练阶段过程的具体步骤为:
[0043] 步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语q
义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{I(i,j)},将训
q
练集中与{I (i,j)}对应的真实语义分割图像记为 然后采用现有的独热编码技
术(one‑hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅
独热编码图像,将 处理成的12幅独热编码图像构成的集合记为 其中,道路
场景图像为RGB彩色图像,Q为正整数,Q≥200,如取Q=367,q为正整数,1≤q≤Q,1≤i≤W,1
q q q
≤j≤H,W表示{I (i,j)}的宽度,H表示{I (i,j)}的高度,如取W=480、H=360,I (i,j)表示
q
{I (i,j)}中坐标位置为(i,j)的像素点的像素值, 表示 中坐标位置为
(i,j)的像素点的像素值。
[0044] 在此,原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。
[0045] 步骤1_2:构建全残差空洞卷积神经网络:如图1所示,全残差空洞卷积神经网络包括输入层、隐藏层和输出层,隐藏层包括1个过渡卷积块、8个神经网络块、7个反卷积块、4个
融合层。
[0046] 对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层
的输入端接收的输入图像的宽度为W、高度为H。
[0047] 对于隐藏层,过渡卷积块的输入端为隐藏层的输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,过渡卷积块的输出端输出64幅宽度为W
且高度为H的特征图,将这64幅特征图构成的集合记为G1;第1个神经网络块的输入端接收G1
中的所有特征图,第1个神经网络块的输出端输出128幅宽度为 且高度为 的特征图,将
这128幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2
个神经网络块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成
的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出
端输出512幅宽度为 且高度为 的特征图,将这512幅特征图构成的集合记为S3;第4个
神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出1024幅宽度
为 且高度为 的特征图,将这1024幅特征图构成的集合记为S4;第1个反卷积块的输入
端接收S4中的所有特征图,第1个反卷积块的输出端输出512幅宽度为 且高度为 的特
征图,将这512幅特征图构成的集合记为F1;第5个神经网络块的输入端接收S3中的所有特征
图,第5个神经网络块的输出端输出512幅宽度为 且高度为 的特征图,将这512幅特征
图构成的集合记为S5;第1个融合层的输入端接收F1中的所有特征图和S5中的所有特征图,
相加融合操作后第1个融合层的输出端输出512幅宽度为 且高度为 的特征图,将这512
幅特征图构成的集合记为A1;第2个反卷积块的输入端接收A1中的所有特征图,第2个反卷积
块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为
F2;第6个神经网络块的输入端接收S2中的所有特征图,第6个神经网络块的输出端输出256
幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为S6;第3个反卷积块的
输入端接收S3中的所有特征图,第3个反卷积块的输出端输出256幅宽度为 且高度为
的特征图,将这256幅特征图构成的集合记为F3;第2个融合层的输入端接收F2中的所有特征
图、S6中的所有特征图和F3中的所有特征图,相加融合操作后第2个融合层的输出端输出256
幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为A2;第4个反卷积块的
输入端接收A2中的所有特征图,第4个反卷积块的输出端输出128幅宽度为 且高度为
的特征图,将这128幅特征图构成的集合记为F4;第7个神经网络块的输入端接收S1中的所有
特征图,第7个神经网络块的输出端输出128幅宽度为 且高度为 的特征图,将这128幅
特征图构成的集合记为S7;第5个反卷积块的输入端接收S2中的所有特征图,第5个反卷积块
的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为F5;
第3个融合层的输入端接收F4中的所有特征图、S7中的所有特征图和F5中的所有特征图,相
加融合操作后第3个融合层的输出端输出128幅宽度为 且高度为 的特征图,将这128幅
特征图构成的集合记为A3;第6个反卷积块的输入端接收A3中的所有特征图,第6个反卷积块
的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为F6;第8个
神经网络块的输入端接收G1中的所有特征图,第8个神经网络块的输出端输出64幅宽度为W
且高度为H的特征图,将这64幅特征图构成的集合记为S8;第7个反卷积块的输入端接收S1中
的所有特征图,第7个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特
征图构成的集合记为F7;第4个融合层的输入端接收F6中的所有特征图、S8中的所有特征图
和F7中的所有特征图,相加融合操作后第4个融合层的输出端输出64幅宽度为W且高度为H
的特征图,将这64幅特征图构成的集合记为A4,第4个融合层的输出端为隐藏层的输出端。
[0048] 对于输出层,其输入端接收A4中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图,将这12幅特征图构成的集合记为O1。
[0049] 步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全残差空洞卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分
q
割预测图,将{I(i,j)}对应的12幅语义分割预测图构成的集合记为
[0050] 步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损
失函数值,将 与 之间的损失函数值记为 采用
Negative Log‑liklihood(NLLLoss)函数获得。
[0051] 步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全残差空洞卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;
接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全残差空洞卷积神经网络
best best
训练模型的最优权值矢量和最优偏置项,对应记为W 和b ;其中,V>1,在本实施例中取
V=500。
[0052] 所述的测试阶段过程的具体步骤为:
[0053] 步骤2_1:令 表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示 的宽度,H'表示 的高度, 表示 中坐标位置为
(i,j)的像素点的像素值。
[0054] 步骤2_2:将 的R通道分量、G通道分量和B通道分量输入到全残差空洞卷best best
积神经网络训练模型中,并利用W 和b 进行预测,得到 对应的预测语义分割
图像,记为 其中, 表示 中坐标位置为(i',j')的像素点的
像素值。
[0055] 在此具体实施例中,步骤1_2中,过渡卷积块由依次设置的第一卷积层(Convolution,Conv)、第一批量归一化层(Batch Normalization,BN)、第一激活层
(Activation,Act)、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归
一化层、第三激活层组成,第一卷积层的输入端为过渡卷积块的输入端,第一批量归一化层
的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批量
归一化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出
的所有特征图,第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图,
第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图,第三卷积层的输
入端接收第二激活层的输出端输出的所有特征图,第三批量归一化层的输入端接收第三卷
积层的输出端输出的所有特征图,第三激活层的输入端接收第三批量归一化层的输出端输
出的所有特征图,第三激活层的输出端为过渡卷积块的输出端;其中,第一卷积层、第二卷
积层和第三卷积层的卷积核大小(kernel_size)均为3×3、卷积核个数(filters)均为64、
补零(padding)参数均为“same”、步长(stride)均为1,第一激活层、第二激活层和第三激活
层的激活方式均为“Relu”。
[0056] 在此具体实施例中,步骤1_2中,第1个至第4个神经网络块的结构相同,其由依次设置的第四卷积层、第一R型神经网络块和第一B型神经网络块组成,第四卷积层的输入端
为其所在的神经网络块的输入端,第一R型神经网络块的输入端接收第四卷积层的输出端
输出的所有特征图,第一B型神经网络块的输入端接收第一R型神经网络块的输出端输出的
所有特征图,第一B型神经网络块的输出端为其所在的神经网络块的输出端;其中,第1个神
经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步
长为2,第1个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为
128,第2个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为256、补零参数
为“same”、步长为2,第2个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷
积核个数均为256,第3个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为
512、补零参数为“same”、步长为2,第3个神经网络块中的第一R型神经网络块和第一B型神
经网络块的卷积核个数均为512,第4个神经网络块中的第四卷积层的卷积核大小为3×3、
卷积核个数为1024、补零参数为“same”、步长为2,第4个神经网络块中的第一R型神经网络
块和第一B型神经网络块的卷积核个数均为1024。
[0057] 在此具体实施例中,第5个至第8个神经网络块的结构相同,其由依次设置的第二R型神经网络块和第二B型神经网络块组成,第二R型神经网络块的输入端为其所在的神经网
络块的输入端,第二B型神经网络块的输入端接收第二R型神经网络块的输出端输出的所有
特征图,第二B型神经网络块的输出端为其所在的神经网络块的输出端;其中,第5个神经网
络块中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为512,第6个神经网络
块中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为256,第7个神经网络块
中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为128,第8个神经网络块中
的第二R型神经网络块和第二B型神经网络块的卷积核个数均为64。
[0058] 在此具体实施例中,第一R型神经网络块和所述的第二R型神经网络块的结构相同,其由依次设置的第五卷积层、第四批量归一化层、第四激活层、第一空洞卷积层、第五批
量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层组成,第五卷积层的
输入端为其所在的R型神经网络块的输入端,第四批量归一化层的输入端接收第五卷积层
的输出端输出的所有特征图,第四激活层的输入端接收第四批量归一化层的输出端输出的
所有特征图,第一空洞卷积层的输入端接收第四激活层的输出端输出的所有特征图,第五
批量归一化层的输入端接收第一空洞卷积层的输出端输出的所有特征图,第五激活层的输
入端接收第五批量归一化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激
活层的输出端输出的所有特征图,第六批量归一化层的输入端接收第六卷积层的输出端输
出的所有特征图,第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征
图,将输入到第五卷积层的输入端的所有特征图与第六激活层的输出端输出的所有特征图
进行跳跃连接后作为所在的R型神经网络块的输出端输出的所有特征图;其中,在第1个神
经网络块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷
积核个数均为128、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×
3、卷积核个数为128、补零参数为”same”、步长为1、空洞卷积(dilation)参数为2;在第2个
神经网络块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、
卷积核个数均为256、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3
×3、卷积核个数为256、补零参数为”same”、步长为1、空洞卷积参数为2;在第3个神经网络
块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个
数均为512、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积
核个数为512、补零参数为”same”、步长为1、空洞卷积参数为2;在第4个神经网络块中的第
一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为
1024、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数
为1024、补零参数为”same”、步长为1、空洞卷积参数为2;在第5个神经网络块中的第二R型
神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为512、补
零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为512、
补零参数为”same”、步长为1、空洞卷积参数为2;在第6个神经网络块中的第二R型神经网络
块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均
为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数
为”same”、步长为1、空洞卷积参数为2;在第7个神经网络块中的第二R型神经网络块中,第
五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为
“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为”
same”、步长为1、空洞卷积参数为2;在第8个神经网络块中的第二R型神经网络块中,第五卷
积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”、步长
均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为”same”、步长为
1、空洞卷积参数为2;第四激活层、第五激活层和第六激活层的激活方式均为“Relu”。
[0059] 在此具体实施例中,第一B型神经网络块和所述的第二B型神经网络块的结构相同,其由依次设置的第七卷积层、第七批量归一化层、第七激活层、第二空洞卷积层、第八批
量归一化层、第八激活层、第八卷积层、第九批量归一化层、第九激活层组成,第七卷积层的
输入端为其所在的B型神经网络块的输入端,第七批量归一化层的输入端接收第七卷积层
的输出端输出的所有特征图,第七激活层的输入端接收第七批量归一化层的输出端输出的
所有特征图,第二空洞卷积层的输入端接收第七激活层的输出端输出的所有特征图,第八
批量归一化层的输入端接收第二空洞卷积层的输出端输出的所有特征图,第八激活层的输
入端接收第八批量归一化层的输出端输出的所有特征图,第八卷积层的输入端接收第八激
活层的输出端输出的所有特征图,第九批量归一化层的输入端接收第八卷积层的输出端输
出的所有特征图,第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征
图,第九激活层的输出端为其所在的B型神经网络块的输出端;其中,在第1个神经网络块中
的第一B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均
为128、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个
数为128、补零参数为”same”、步长为1、空洞卷积(dilation)参数为2;在第2个神经网络块
中的第一B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数
均为256、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核
个数为256、补零参数为”same”、步长为1、空洞卷积参数为2;在第3个神经网络块中的第一B
型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为512、
补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为
512、补零参数为”same”、步长为1、空洞卷积参数为2;在第4个神经网络块中的第一B型神经
网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为1024、补零参
数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为1024、补零
参数为”same”、步长为1、空洞卷积参数为2;在第5个神经网络块中的第二B型神经网络块
中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为
“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为”
same”、步长为1、空洞卷积参数为2;在第6个神经网络块中的第二B型神经网络块中,第七卷
积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”、步
长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为”same”、步
长为1、空洞卷积参数为2;在第7个神经网络块中的第二B型神经网络块中,第七卷积层和第
八卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,
第二空洞卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为”same”、步长为1、空
洞卷积参数为2;在第8个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层
的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”、步长均为1,第二空洞卷
积层的卷积核大小为3×3、卷积核个数为64、补零参数为”same”、步长为1、空洞卷积参数为
2;第七激活层、第八激活层和第九激活层的激活方式均为“Relu”。
[0060] 在此具体实施例中,步骤1_2中,第1个至第7个反卷积块的结构相同,其由依次设置的反卷积层、第十批量归一化层、第十激活层组成,反卷积层的输入端为其所在的反卷积
块的输入端,第十批量归一化层的输入端接收反卷积层的输出端输出的所有特征图,第十
激活层的输入端接收第十批量归一化层的输出端输出的所有特征图,第十激活层的输出端
为其所在的反卷积块的输出端;其中,第1个反卷积块中的反卷积层的卷积核大小为4×4、
卷积核个数为512、补零参数为“same”、步长为2,第2个和第3个反卷积块中的反卷积层的卷
积核大小为4×4、卷积核个数为256、补零参数为“same”、步长为2,第4个和第5个反卷积块
中的反卷积层的卷积核大小为4×4、卷积核个数为128、补零参数为“same”、步长为2,第6个
和第7个反卷积块中的反卷积层的卷积核大小为4×4、卷积核个数为64、补零参数为
“same”、步长为2,第十激活层的激活方式为”Relu”。
[0061] 在此具体实施例中,步骤1_2中,4个融合层均为Add融合层。
[0062] 在此具体实施例中,步骤1_2中,输出层由依次设置的第九卷积层、第十一批量归一化层、第十一激活层组成,第九卷积层的输入端为输出层的输入端,第十一批量归一化层
的输入端接收第九卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一
批量归一化层的输出端输出的所有特征图,第十一激活层的输出端为输出层的输出端;其
中,第九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“same”、步长为1,第十
一激活层的激活方式为”Relu”。
[0063] 为了进一步验证本发明方法的可行性和有效性,进行实验。
[0064] 使用基于python的深度学习框架Pytorch0.4.1搭建全残差空洞卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法预测道路场景图像
(取233幅道路场景图像)的分割效果如何。这里,利用评估语义分割方法的3个常用客观参
量作为评价指标,即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy,
MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union,MIoU)来
评价预测语义分割图像的分割性能。
[0065] 利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效
果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1
所列。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表
明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行且有效的。
[0066] 表1利用本发明方法在测试集上的预测结果
[0067]
[0068]
[0069] 图2a给出了同一场景的第1幅原始的道路场景图像;图2b给出了利用本发明方法对图2a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图3a给出了同一
场景的第2幅原始的道路场景图像;图3b给出了利用本发明方法对图3a所示的原始的道路
场景图像进行预测,得到的预测语义分割图像;图4a给出了同一场景的第3幅原始的道路场
景图像;图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的
预测语义分割图像;图5a给出了同一场景的第4幅原始的道路场景图像;图5b给出了利用本
发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。对比图
2a和图2b、对比图3a和图3b、对比图4a和图4b、对比图5a和图5b,可以看出利用本发明方法
得到的预测语义分割图像的分割精度较高。