一种基于语义分割的双目场景流确定方法及系统转让专利

申请号 : CN201810809498.4

文献号 : CN108986136B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈震马龙张聪炫黎明陈昊危水根

申请人 : 南昌航空大学

摘要 :

本发明公开了一种基于语义分割的双目场景流确定方法及系统,该方法先对双目图像中的场景进行语义分割,通过添加语义分割的标签信息计算语义光流,通过半全局匹配算法计算视差信息,然后结合语义光流和视差信息拟合计算无数个小平面区域的运动参数并优化。在优化运动过程中,先由超像素分割求得初始场景流,然后在语义分割的标签内部进行优化,使得语义标签内部的超像素块的运动趋于一致,同时很好地保护了运动物体的边缘信息。本发明在光流信息中加入语义信息,使得物体的边缘得到保护,大大简化了遮挡问题的推理过程;此外,语义标签层面的运动推理使得同一个运动物体的表面像素点的场景流近似一致,最终达到了优化场景流的目的。

权利要求 :

1.一种基于语义分割的双目场景流确定方法,其特征在于,所述双目场景流确定方法包括:建立语义分割模型;所述语义分割模型是根据深度卷积神经网络和全连接条件随机场确定的;所述语义分割模型的输入为当前帧双目图像和下一帧双目图像;所述语义分割模型的输出为按照类别分割成的图像区域;所述类别包括物体类别、平面类别以及第三类别;

所述第三类别包含的图像区域为双目图像除了所述物体类别和所述平面类别包含的图像区域以外的图像区域;

获取双目图像序列;所述双目图像序列包括多帧图像;每帧图像均包括左目图像和右目图像;

将所述双目图像序列中任意连续两帧的双目图像输入到所述语义分割模型中,输出不同的图像区域,并根据不同的图像区域建立不同的运动模型;

根据所有所述运动模型综合确定所述双目图像的语义光流;

采用半全局匹配算法计算所述双目图像的左右目的视差信息;

根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数;

采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流。

2.根据权利要求1所述的双目场景流确定方法,其特征在于,所述物体类别包括:飞机、火车、汽车、摩托车、人;所述平面类别包括天空、水;所述第三类别包括建筑物、植被。

3.根据权利要求1所述的双目场景流确定方法,其特征在于,所述建立语义分割模型,具体包括:采用Caffe深度学习框架训练所述语义分割模型;所述深度卷积神经网络是通过将VGG-16中的全连接层调整为卷积层得到的;在所述深度卷积神经网络后面连接一个全连接条件随机场;所述全连接条件随机场的能量函数为:其中,x是像素的标签分配,i和j表示图像中两个不同的像素;

ξi(xi)=-logP(xi)表示一元势能,是定义在像素i的状态特征函数,用于描述像素i对标签类别的影响;P(xi)是DCNN计算的像素i处的标签分配概率;

表示二元势能,定义为不同像素点

上的转移特征函数,用于描述像素之间的相关关系,并当xi≠xj,μ(xi,xj)=1,否则,μ(xi,xj)=0;K表示高斯核的个数,ωm表示高斯核的加权参数,km是提取特征的高斯核,fi和fj表示像素i和j提取的特征;

高斯核表示为:

其中,ω1和ω2表示高斯加权系数;pi和pj表示像素i和j的位置,Ii和Ij表示像素i和j的颜色强度;σα、σβ、σγ表示控制高斯核的尺度;第一个高斯核取决于像素位置和像素颜色强度;第二个核只取决于像素位置。

4.根据权利要求3所述的双目场景流确定方法,其特征在于,所述根据不同的图像区域建立不同的运动模型,具体包括:当所述图像区域属于所述物体类别时,对应的运动为添加仿射形变的仿射运动,则属于所述物体类别的图像区域的运动模型为:其中,u代表水平方向的运动分量;v代表垂直方向的运动分量;g代表物体所属的标签类别;θ表示输出运动模型的参数;I表示输入图像的灰度;代表输入图像的标签类别;k表示像素所在的图层,k∈{1,2};t表示当前帧时间序号,t+1表示下一帧时间序号;λmotion表示运动项系数;λtime表示时间项系数;λlayer表示层支持项系数;λspace表示空间项系数;utk代表当前帧到下一帧的水平方向的运动分量;vtk代表当前帧到下一帧的垂直方向的运动分量;

gtk代表当前帧像素的语义标签层数;It代表当前帧图像的灰度,It+1代表下一帧图像的灰度;θtk代表运动模型的参数,运动模型的参数取决于所处的语义类别;

Edata数据项表示为:

其中,p表示当前帧的像素点;q表示像素p在下一帧的匹配像素;ρD表示鲁棒惩罚函数;

表示当前帧像素p的灰度值; 表示下一帧像素q的灰度值;λD表示对遮挡像素的恒定惩罚; 表示指示函数; 表示当前帧像素p的语义标签, 表示下一帧像素q的语义标签,并当 时,表示像素p与像素q处于不同的语义标签,发生遮挡,此时 Edata同时施加外观一致性和遮挡惩罚;当 时,表示像素p与经过运动后的匹配像素q处于相同的语义标签,未发生遮挡,此时Edata仅施加外观一致性;

Emotion包含相似运动一致项和全局运动项,表示为:其中,r表示像素p的相邻像素;

第一项中Np包含像素p的四个最近邻域,ρ表示运动项惩罚函数, 表示当前帧像素p的运动向量, 表示当前帧像素r的运动向量, 表示当前帧像素p的语义标签, 表示当前帧像素r的语义标签,当 时,表明像素p与相邻像素r处于同一语义标签,则像素p与相邻像素r具有相似的运动,施加相似运动一致项;

第二项中λaff表示仿射运动的平滑系数,ρaff表示添加形变后的仿射运动惩罚函数;

表示全局运动模型;

Etime时间项鼓励随着时间的推移相应的像素具有相同的层标签,表示为:其中, 表示当前帧像素p的语义标签, 表示下一帧像素q的语义标签,当时,指示函数 当 时,指示函数

Elayer实现了前景层分割和语义分割之间的相似性,表示为:其中, 表示当前帧像素p的语义标签, 表示前景物体的分割标签,当 时,当 时,

Espace鼓励分层的空间邻接性,对非相邻空间的像素施加惩罚,表示为:其中, 表示空间项的权重系数; 表示当前帧像素p的语义标签; 表示当前帧像素r的语义标签,当 时, 不是相邻空间的像素,施加空间惩罚项;当 时, 像素处于相邻空间;

当所述图像区域属于所述平面体类别时,使用单应性将平面运动建模为uplane(x;hi);

其中,x是图像序列中的像素点;给定区域i中的初始流向量 使用随机抽样一致性算法来鲁棒地估计单应性参数hi;

当图像区域属于所述第三类别时所对应的运动模型为 每个属于所述第三类别的图像区域中的流场设置为初始流向量。

5.根据权利要求4所述的双目场景流确定方法,其特征在于,所述根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数,具体包括:采用预选设定的超像素分割数目对所述双目图像进行分割,得到多个平面;

利用洛伦兹惩罚优化能量函数结合所述语义光流和所述视差信息,使用最小二乘法求解所述洛伦兹惩罚优化能量函数的最小化误差的平方和,得到每个平面的运动参数其中,每个平面的运动参数的计算公式为:其中, 表示洛伦兹惩罚优化能量函数;T表示由三维坐标到图像坐标的投影算子;p'表示像素p的匹配点;R表示旋转矩阵;t表示平移矩阵; 表示法向量;H表示由 组成运动平面的映射关系;

(K|0)为左目相机的投影矩阵,(M|m)为右目相机的投影矩阵,当运动参数的计算公式最小时,求得运动参数

6.根据权利要求5所述的双目场景流确定方法,其特征在于,所述采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流,具体包括:根据预先设定的超像素分割映射关系,确定每个平面的初始场景流;

确定平面的运动参数在所述语义标签层面内部优化的能量函数模型;

根据所述初始场景流和所述能量函数模型,添加语义分割模型中的语义标签层面,使每个平面的运动参数在所述语义标签层面内部得到优化,确定所有双目图像的场景流。

7.根据权利要求6所述的双目场景流确定方法,其特征在于,所述根据预先设定的超像素分割映射关系,确定每个平面的初始场景流,具体包括:根据预先设定的超像素分割确定像素到平面区域的映射关系S,更新平面区域到运动平面的映射关系P,得到初始场景流;

min{ED(P,S)+λER(P,S)};

其中,ED表示图像在四个视图中遵守外观一致性,可表示为:分别表示立体匹配在当前帧和下一帧的外观一致性,可表示为:ti表示当前帧和下一帧的时间序号,ρc表示单应性转换参数; 表示从当前帧左目图像到ti时刻左目图像的单应性变换, 表示从当前帧左目图像到ti时刻右目图像的单应性变换; 分别表示光流在左目、右目的外观一致性,可表示为:z表示左目相机和右目相机序号; 表示从当前帧左目图像到当前帧z目图像的单应性变换; 表示从当前帧左目图像到下一帧z目图像的单应性变换;

ER由几何项和运动项组成,可表示为:

为几何项,表示为:

当像素p和像素q表示8邻域N中两个相邻的像素,但处于两个不同的运动平面,ωp,q表示调节共享边缘长度的权重系数,ψ(·)表示鲁棒性惩罚函数,fγ(α,β)定义为一个距离函数,表示为:fγ(α,β)=||α(d1+γβdn)+(1-α)(d2+γβdn)||;

其中,α和β分别表示边界和法向量系数; 和 表示3D端点间的距离, 分别是像素p和像素q投影到两个运动平面的端点,共享边缘长度表示为端点距离的凸组合||αd1+(1-α)d2||;

由于平面曲率引入法向量np和nq,dn=np-nq表示法向量的差;设定γ=1,此时距离函数fγ(α,β)优于当平面存在曲率变化时的情况;

为运动项,表示为:

其中, 表示

经过旋转、平移运动后的端点间的距离,考虑到平面曲率,表示法向量经过旋转后的差。

8.根据权利要求7所述的双目场景流确定方法,其特征在于,所述根据所述初始场景流和所述能量函数模型,添加语义分割模型中的语义标签层面,使每个平面的运动参数在所述语义标签层面内部得到优化,确定所有双目图像的场景流,具体包括:所述平面的运动参数在所述语义标签层面内部优化的能量函数模型为:E(P,S)=ED(P,S)+λER(P,S)+μES(S);

其中,S表示像素到平面区域的映射,将每个像素p分配给平面区域;P表示平面区域到运动平面的映射,将每个平面区域分配给一个3D刚性移动平面 ED(P,S)+λER(P,S)表示数据项和正则化项;ES表示分割项,表示为:其中,第一项up,q表示为考虑图像结构和边缘信息的权重参数,p和q表示图像中分割段的两个像素点,Sse表示语义分割段; 表示当前帧的左目图像;第二项e表示一个分割段的种子点,ε表示超像素分割段区域,NS表示限制分割段大小的尺寸;

根据所述初始场景流和所述能量函数模型,优化像素到平面区域的映射关系S,确定最终场景流;所述最终场景流的确定公式为:min{ED(P,S)+λER(P,S)+μES(S)}。

9.一种基于语义分割的双目场景流确定系统,其特征在于,所述双目场景流确定系统包括:语义分割模型建立模块,用于建立语义分割模型;所述语义分割模型是根据深度卷积神经网络和全连接条件随机场确定的;所述语义分割模型的输入为当前帧双目图像和下一帧双目图像;所述语义分割模型的输出为按照类别分割成的图像区域;所述类别包括物体类别、平面类别以及第三类别;所述第三类别包含的图像区域为双目图像除了所述物体类别和所述平面类别包含的图像区域以外的图像区域;

双目图像序列获取模块,用于获取双目图像序列;所述双目图像序列包括多帧图像;每帧图像均包括左目图像和右目图像;

运动模型建立模块,用于将所述双目图像序列中任意连续两帧的双目图像输入到所述语义分割模型中,输出不同的图像区域,并根据不同的图像区域建立不同的运动模型;

语义光流确定模块,用于根据所有所述运动模型综合确定所述双目图像的语义光流;

视差信息计算模块,用于采用半全局匹配算法计算所述双目图像的左右目的视差信息;

运动参数计算模块,用于根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数;

场景流确定模块,采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流。

说明书 :

一种基于语义分割的双目场景流确定方法及系统

技术领域

[0001] 本发明涉及场景流优化技术领域,特别涉及一种基于语义分割的双目场景流确定方法及系统。

背景技术

[0002] 场景流是空间中场景的三维运动所形成的三维运动场,场景流的提出将对物体的运动估计由二维拓展到三维,其在3D重构、视觉导航等方面处于核心位置。常见的场景流确定方法为基于双目视觉的场景流计算方法,原理为利用立体匹配模块中获取的图像像素的深度信息结合传统光流感知模型获取的图像像素的二维速度矢量信息,构建对应图像像素点在三维空间中的运动场景,即场景流。场景流包含三维场景的结构和运动特征,是诸多视觉应用中的核心问题,如视频跟踪与监控,自主机器人导航,虚拟现实,三维视频压缩与显示等。场景流确定方法的准确性正在稳步提高,数据集排行榜中的结果证明了这一点。然而,即使是目前最先进的场景流方法在运动边缘和物体遮挡边界附近仍然表现不佳,运动边缘模糊和遮挡问题一直是场景流估计算法中的难题。

发明内容

[0003] 本发明的目的是提供一种基于语义分割的双目场景流确定方法及系统,通过添加语义分割信息,准确估计物体运动边缘信息,从而有效地解决遮挡问题,最终达到提高场景流准确度的目的。
[0004] 为实现上述目的,本发明提供了如下方案:
[0005] 一种基于语义分割的双目场景流确定方法,所述双目场景流确定方法包括:
[0006] 建立语义分割模型;所述语义分割模型是根据深度卷积神经网络和全连接条件随机场确定的;所述语义分割模型的输入为当前帧双目图像和下一帧双目图像;所述语义分割模型的输出为按照类别分割成的图像区域;所述类别包括物体类别、平面类别以及第三类别;所述第三类别包含的图像区域为双目图像除了所述物体类别和所述平面类别包含的图像区域以外的图像区域;
[0007] 获取双目图像序列;所述双目图像序列包括多帧图像;每帧图像均包括左目图像和右目图像;
[0008] 将所述双目图像序列中任意连续两帧的双目图像输入到所述语义分割模型中,输出不同的图像区域,并根据不同的图像区域建立不同的运动模型;
[0009] 根据所有所述运动模型综合确定所述双目图像的语义光流;
[0010] 采用半全局匹配算法计算所述双目图像的左右目的视差信息;
[0011] 根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数;
[0012] 采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流。
[0013] 可选的,所述物体类别包括:飞机、火车、汽车、摩托车、人;所述平面类别包括天空、水;所述第三类别包括建筑物、植被。
[0014] 可选的,所述建立语义分割模型,具体包括:
[0015] 采用Caffe深度学习框架训练所述语义分割模型;所述深度卷积神经网络是通过将VGG-16中的全连接层调整为卷积层得到的;在所述深度卷积神经网络后面连接一个全连接条件随机场;所述全连接条件随机场的能量函数为:
[0016]
[0017] 其中,x是像素的标签分配,i和j表示图像中两个不同的像素;
[0018] ξi(xi)=-log P(xi)表示一元势能,是定义在像素i的状态特征函数,用于描述像素i对标签类别的影响;P(xi)是DCNN计算的像素i处的标签分配概率;
[0019] 表示二元势能,定义为不同像素点上的转移特征函数,用于描述像素之间的相关关系,并当xi≠xj,μ(xi,xj)=1,否则,μ(xi,xj)=0;K表示高斯核的个数,ωm表示高斯核的加权参数,km是提取特征的高斯核,fi和fj表示像素i和j提取的特征;
[0020] 高斯核表示为:
[0021]
[0022] 其中,ω1和ω2表示高斯加权系数;pi和pj表示像素i和j的位置,Ii和Ij表示像素i和j的颜色强度;σα、σβ、σγ表示控制高斯核的尺度;第一个高斯核取决于像素位置和像素颜色强度;第二个核只取决于像素位置。
[0023] 可选的,所述根据不同的图像区域建立不同的运动模型,具体包括:
[0024] 当所述图像区域属于所述物体类别时,对应的运动为添加仿射形变的仿射运动,则属于所述物体类别的图像区域的运动模型为:
[0025]
[0026] 其中,u代表水平方向的运动分量;v代表垂直方向的运动分量;g代表物体所属的标签类别;θ表示输出运动模型的参数;I表示输入图像的灰度; 代表输入图像的标签类别;k表示像素所在的图层,k∈{1,2};t表示当前帧时间序号,t+1表示下一帧时间序号;λmotion表示运动项系数;λtime表示时间项系数;λlayer表示层支持项系数;λspace表示空间项系数;utk代表当前帧到下一帧的水平方向的运动分量;vtk代表当前帧到下一帧的垂直方向的运动分量;gtk代表当前帧像素的语义标签层数;It代表当前帧图像的灰度,It+1代表下一帧图像的灰度;θtk代表运动模型的参数,运动模型的参数取决于所处的语义类别;
[0027] Edata数据项表示为:
[0028]
[0029] 其中,p表示当前帧的像素点;q表示像素p在下一帧的匹配像素;ρD表示鲁棒惩罚函数; 表示当前帧像素p的灰度值; 表示下一帧像素q的灰度值;λD表示对遮挡像素的恒定惩罚; 表示指示函数; 表示当前帧像素p的语义标签, 表示下一帧像素q的语义标签,并当 时,表示像素p与像素q处于不同的语义标签,发
生遮挡,此时 Edata同时施加外观一致性和遮挡惩罚;当
时,表示像素p与经过运动后的匹配像素q处于相同的语义标签,未发生遮挡,此时Edata仅施加外观一致性;
[0030] Emotion包含相似运动一致项和全局运动项,表示为:
[0031]
[0032] 其中,r表示像素p的相邻像素;
[0033] 第一项中Np包含像素p的四个最近邻域,ρ表示运动项惩罚函数, 表示当前帧像素p的运动向量, 表示当前帧像素r的运动向量, 表示当前帧像素p的语义标签, 表示当前帧像素r的语义标签,当 时,表明像素p与相邻像素r处于同一语义标签,则像素p与相邻像素r具有相似的运动,施加相似运动一致项;
[0034] 第二项中λaff表示仿射运动的平滑系数,ρaff表示添加形变后的仿射运动惩罚函数; 表示全局运动模型;
[0035] Etime时间项鼓励随着时间的推移相应的像素具有相同的层标签,表示为:
[0036]
[0037] 其中, 表示当前帧像素p的语义标签, 表示下一帧像素q的语义标签,当时,指示函数 当 时,指示函数
[0038] Elayer实现了前景层分割和语义分割之间的相似性,表示为:
[0039]
[0040] 其中, 表示当前帧像素p的语义标签, 表示前景物体的分割标签,当时, 当 时,
[0041] Espace鼓励分层的空间邻接性,对非相邻空间的像素施加惩罚,表示为:
[0042]
[0043] 其中, 表示空间项的权重系数; 表示当前帧像素p的语义标签; 表示当前帧像素r的语义标签,当 时, 不是相邻空间的像素,施加空间惩罚项;当 时, 像素处于相邻空间;
[0044] 当所述图像区域属于所述平面体类别时,使用单应性将平面运动建模为uplane(x;hi);
[0045] 其中,x是图像序列中的像素点;给定区域i中的初始流向量 使用随机抽样一致性算法来鲁棒地估计单应性参数hi;
[0046] 当图像区域属于所述第三类别时所对应的运动模型为 每个属于所述第三类别的图像区域中的流场设置为初始流向量。
[0047] 可选的,所述根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数,具体包括:
[0048] 采用预选设定的超像素分割数目对所述双目图像进行分割,得到多个平面;
[0049] 利用洛伦兹惩罚优化能量函数结合所述语义光流和所述视差信息,使用最小二乘法求解所述洛伦兹惩罚优化能量函数的最小化误差的平方和,得到每个平面的运动参数其中,每个平面的运动参数的计算公式为:
[0050]
[0051]
[0052] 其中, 表示洛伦兹惩罚优化能量函数;T表示由三维坐标到图像坐标的投影算子;p'表示像素p的匹配点;R表示旋转矩阵;t表示平移矩阵; 表示法向量;H表示由 组成运动平面的映射关系;
(K|0)为左目相机的
投影矩阵,(M|m)为右目相机的投影矩阵,当运动参数的计算公式最小时,求得运动参数[0053] 可选的,所述采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流,具体包括:
[0054] 根据预先设定的超像素分割映射关系,确定每个平面的初始场景流;
[0055] 确定平面的运动参数在所述语义标签层面内部优化的能量函数模型;
[0056] 根据所述初始场景流和所述能量函数模型,添加语义分割模型中的语义标签层面,使每个平面的运动参数在所述语义标签层面内部得到优化,确定所有双目图像的场景流。
[0057] 可选的,所述根据预先设定的超像素分割映射关系,确定每个平面的初始场景流,具体包括:
[0058] 根据预先设定的超像素分割确定像素到平面区域的映射关系S,更新平面区域到运动平面的映射关系P,得到初始场景流;
[0059] min{ED(P,S)+λER(P,S)};
[0060] 其中,ED表示图像在四个视图中遵守外观一致性,可表示为:
[0061]
[0062] 分别表示立体匹配在当前帧和下一帧的外观一致性,可表示为:
[0063]
[0064] ti表示当前帧和下一帧的时间序号,ρc表示单应性转换参数; 表示从当前帧左目图像到ti时刻左目图像的单应性变换, 表示从当前帧左目图像到ti
时刻右目图像的单应性变换; 分别表示光流在左目、右目的外观一致性,可表
示为:
[0065]
[0066] z表示左目相机和右目相机序号; 表示从当前帧左目图像到当前帧z目图像的单应性变换; 表示从当前帧左目图像到下一帧z目图像的单应性变换;
[0067] ER由几何项和运动项组成,可表示为:
[0068]
[0069] 为几何项,表示为:
[0070]
[0071] 当像素p和像素q表示8邻域N中两个相邻的像素,但处于两个不同的运动平面,ωp,q表示调节共享边缘长度的权重系数,ψ(·)表示鲁棒性惩罚函数,fγ(α,β)定义为一个距离函数,表示为:
[0072] fγ(α,β)=||α(d1+γβdn)+(1-α)(d2+γβdn)||;
[0073] 其中,α和β分别表示边界和法向量系数; 和 表示3D端点间的距离, 分别是像素p和像素q投影到两个运动平面的端点,共享边缘
长度表示为端点距离的凸组合||αd1+(1-α)d2||;
[0074] 由于平面曲率引入法向量np和nq,dn=np-nq表示法向量的差;设定γ=1,此时距离函数fγ(α,β)优于当平面存在曲率变化时的情况;
[0075] 为运动项,表示为:
[0076]
[0077] 其中, 表示经过 旋转 、平 移运 动 后的端 点间 的 距离 ,考 虑到 平面曲 率 ,
表示法向量经过旋转后的差。
[0078] 可选的,所述根据所述初始场景流和所述能量函数模型,添加语义分割模型中的语义标签层面,使每个平面的运动参数在所述语义标签层面内部得到优化,确定所有双目图像的场景流,具体包括:
[0079] 所述平面的运动参数在所述语义标签层面内部优化的能量函数模型为:
[0080] E(P,S)=ED(P,S)+λER(P,S)+μES(S);
[0081] 其中,S表示像素到平面区域的映射,将每个像素p分配给平面区域;P表示平面区域到运动平面的映射,将每个平面区域分配给一个3D刚性移动平面 ED(P,S)+λER(P,S)表示数据项和正则化项;ES表示分割项,表示为:
[0082]
[0083] 其中,第一项up,q表示为考虑图像结构和边缘信息的权重参数,p和q表示图像中分割段的两个像素点,Sse表示语义分割段; 表示当前帧的左目图像;第二项e表示一个分割段的种子点,ε表示超像素分割段区域,NS表示限制分割段大小的尺寸;
[0084] 根据所述初始场景流和所述能量函数模型,优化像素到平面区域的映射关系S,确定最终场景流;所述最终场景流的确定公式为:
[0085] min{ED(P,S)+λER(P,S)+μES(S)}。
[0086] 本发明还提供了一种基于语义分割的双目场景流确定系统,所述双目场景流确定系统包括:
[0087] 语义分割模型建立模块,用于建立语义分割模型;所述语义分割模型是根据深度卷积神经网络和全连接条件随机场确定的;所述语义分割模型的输入为当前帧双目图像和下一帧双目图像;所述语义分割模型的输出为按照类别分割成的图像区域;所述类别包括物体类别、平面类别以及第三类别;所述第三类别包含的图像区域为双目图像除了所述物体类别和所述平面类别包含的图像区域以外的图像区域;
[0088] 双目图像序列获取模块,用于获取双目图像序列;所述双目图像序列包括多帧图像;每帧图像均包括左目图像和右目图像;
[0089] 运动模型建立模块,用于将所述双目图像序列中任意连续两帧的双目图像输入到所述语义分割模型中,输出不同的图像区域,并根据不同的图像区域建立不同的运动模型;
[0090] 语义光流确定模块,用于根据所有所述运动模型综合确定所述双目图像的语义光流;
[0091] 视差信息计算模块,用于采用半全局匹配算法计算所述双目图像的左右目的视差信息;
[0092] 运动参数计算模块,用于根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数;
[0093] 场景流确定模块,采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流。
[0094] 根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0095] 本发明提供了一种基于语义分割的双目场景流确定方法及系统。该方法包括建立语义分割模型;所述语义分割模型是根据深度卷积神经网络和全连接条件随机场确定的;所述语义分割模型的输入为当前帧双目图像和下一帧双目图像;所述语义分割模型的输出为按照类别分割成的图像区域;所述类别包括物体类别、平面类别以及第三类别;所述第三类别包含的图像区域为双目图像除了所述物体类别和所述平面类别包含的图像区域以外的图像区域;获取双目图像序列;所述双目图像序列包括多帧图像;每帧图像均包括左目图像和右目图像;将所述双目图像序列中任意连续两帧的双目图像输入到所述语义分割模型中,输出不同的图像区域,并根据不同的图像区域建立不同的运动模型;根据所有所述运动模型综合确定所述双目图像的语义光流;采用半全局匹配算法计算所述双目图像的左右目的视差信息;根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数;采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流。应用本发明提供的方法或者系统,通过添加语义分割信息,准确估计物体运动边缘信息,从而有效地解决遮挡问题,最终达到提高场景流准确度的目的。

附图说明

[0096] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0097] 图1为本发明实施例基于语义分割的双目场景流确定方法的流程示意图;
[0098] 图2为本发明实施例基于语义分割的双目场景流确定系统的结构示意图;
[0099] 图3为本发明KITTI2015图像序列左右目连续两帧图像;其中:图3a是左目第一帧图像,图3b是左目第二帧图像,图3c是右目第一帧图像,图3d是右目第二帧图像;
[0100] 图4为本发明参考视图的语义分割图;其中:图4a是左目第一帧语义分割图像,图4b是左目第二帧语义分割图像;
[0101] 图5为本发明计算得到的语义光流图;
[0102] 图6为本发明计算得到的视差图;
[0103] 图7为本发明由光流场和视差场两部分组成的场景流图。

具体实施方式

[0104] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0105] 与场景流一样,语义分割领域也在卷积神经网络(CNN)和大量标记数据的驱动下快速发展。由于有关深度的推理通常具有挑战性,本发明使用语义信息来简化这一点,改善遮挡边界处的流量估计。因此,本发明的目的是提供一种基于语义分割的双目场景流确定方法及系统,通过添加语义分割信息,准确估计物体运动边缘信息,从而有效地解决遮挡问题,最终达到提高场景流准确度的目的。
[0106] 目前,现有的双目场景流计算方法还没能实现通过语义信息进行深度的推理来解决遮挡问题。
[0107] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0108] 图1为本发明实施例基于语义分割的双目场景流确定方法的流程示意图,如图1所示,本发明实施例提供的基于语义分割的双目场景流确定方法包括以下几个步骤。
[0109] 步骤101:建立语义分割模型;所述语义分割模型是根据深度卷积神经网络和全连接条件随机场确定的;所述语义分割模型的输入为当前帧双目图像和下一帧双目图像;所述语义分割模型的输出为按照类别分割成的图像区域;所述类别包括物体类别、平面类别以及第三类别;所述第三类别包含的图像区域为双目图像除了所述物体类别和所述平面类别包含的图像区域以外的图像区域。所述物体类别包括:飞机、火车、汽车、摩托车、人等;所述平面类别包括天空、水等;所述第三类别包括建筑物、植被等。
[0110] 步骤102:获取双目图像序列;所述双目图像序列包括多帧图像;每帧图像均包括左目图像和右目图像。
[0111] 步骤103:将所述双目图像序列中任意连续两帧的双目图像输入到所述语义分割模型中,输出不同的图像区域,并根据不同的图像区域建立不同的运动模型。
[0112] 步骤104:根据所有所述运动模型综合确定所述双目图像的语义光流。
[0113] 步骤105:采用半全局匹配算法计算所述双目图像的左右目的视差信息。
[0114] 步骤106:根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数。
[0115] 步骤107:采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流。
[0116] 步骤101具体包括:
[0117] Caffe(Convolutional Architecture for Fast Feature Embedding)是一个清晰高效的深度学习框架。采用Caffe深度学习框架训练所述语义分割模型;深度卷积神经网络(DCNNs)由调整VGG-16模型得到。VGG-16是牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司一起研发的深度卷积神经网络,16表示构筑了16层深的卷积神经网络。本发明使用的深度卷积神经网络(DCNNs)通过将VGG-16中的FC层(全连接层)调整为卷积层得到。原本的VGG-16有5个池化层,在经过第5层池化层后输出的特征图会非常稀疏,因此将第4、5池化层的步长由2改为1。感受野是某一层输出结果中一个元素所对应的输入层的区域大小,为了避免感受野因步长改变而发生变化,此模型提出空洞卷积,空洞卷积在原始图和特征图之间做了一个双线性插值,在卷积中间插入0,使得卷积核扩大,在对特征图进行卷积的时候,进行隔像素地卷积,从而使得感受野保持不变。
[0118] 深度卷积神经网络(DCNNs)可以预测是否存在物体以及物体出现的大致位置,但不能真正描绘它们的边界,为了准确地估计物体的边界,在深度卷积神经网络(DCNNs)后面接了一个全连接条件随机场(Fully-Connected Conditional Random Fields);所述全连接条件随机场的能量函数为:
[0119]
[0120] 式(1)中,x是像素的标签分配,i和j表示图像中两个不同的像素。
[0121] ξi(xi)=-log P(xi)表示一元势能,是定义在像素i的状态特征函数,用于描述像素i对标签类别的影响;P(xi)是DCNN计算的像素i处的标签分配概率。
[0122] 表示二元势能,定义为不同像素点上的转移特征函数,用于描述像素之间的相关关系,并当xi≠xj,μ(xi,xj)=1,否则,μ(xi,xj)=0;K表示高斯核的个数,ωm表示高斯核的加权参数,km是提取特征的高斯核,fi和fj表示像素i和j提取的特征。
[0123] 高斯核表示为:
[0124]
[0125] 式(2)中,ω1和ω2表示高斯加权系数;pi和pj表示像素i和j的位置,Ii和Ij表示像素i和j的颜色强度;σα、σβ、σγ表示控制高斯核的尺度;第一个高斯核取决于像素位置和像素颜色强度;第二个核只取决于像素位置。
[0126] 步骤103:具体包括:
[0127] 采用步骤101语义分割模型对双目图像序列中的物体进行区域划分,不同区域采取不同运动的建模方式,计算双目图像序列相邻两帧间的语义光流。
[0128] 当所述图像区域属于所述物体类别时,对应的运动为添加仿射形变的仿射运动,则属于所述物体类别的图像区域的运动模型为:
[0129]
[0130] 式(3)中,u代表水平方向的运动分量;v代表垂直方向的运动分量;g代表物体所属的标签类别;θ表示输出运动模型的参数;I表示输入图像的灰度; 代表输入图像的标签类别;k表示像素所在的图层,k∈{1,2};t表示当前帧时间序号,t+1表示下一帧时间序号;λmotion表示运动项系数;λtime表示时间项系数;λlayer表示层支持项系数;λspace表示空间项系数;utk代表当前帧到下一帧的水平方向的运动分量;vtk代表当前帧到下一帧的垂直方向的运动分量;gtk代表当前帧像素的语义标签层数;It代表当前帧图像的灰度,It+1代表下一帧图像的灰度;θtk代表运动模型的参数,运动模型的参数取决于所处的语义类别。
[0131] 式(3)中,Edata数据项表示为:
[0132]
[0133] 式(4),p表示当前帧的像素点;q表示像素p在下一帧的匹配像素;ρD表示鲁棒惩罚函数; 表示当前帧像素p的灰度值; 表示下一帧像素q的灰度值;λD表示对遮挡像素的恒定惩罚; 表示指示函数; 表示当前帧像素p的语义标签, 表示下一帧像素q的语义标签,并当 时,表示像素p与像素q处于不同的语义标签,发
生遮挡,此时 Edata同时施加外观一致性和遮挡惩罚;当
时,表示像素p与经过运动后的匹配像素q处于相同的语义标签,未发生遮挡,此时Edata仅施加外观一致性。
[0134] 式(3)中,Emotion包含相似运动一致项和全局运动项,表示为:
[0135]
[0136] 式(5)中,r表示像素p的相邻像素。
[0137] 第一项中Np包含像素p的四个最近邻域,ρ表示运动项惩罚函数, 表示当前帧像素p的运动向量, 表示当前帧像素r的运动向量, 表示当前帧像素p的语义标签, 表示当前帧像素r的语义标签,当 时,表明像素p与相邻像素r处于同一语义标签,则像素p与相邻像素r具有相似的运动,施加相似运动一致项。
[0138] 第二项中λaff表示仿射运动的平滑系数,ρaff表示添加形变后的仿射运动惩罚函数; 表示全局运动模型。
[0139] 式(3)中,Etime时间项鼓励随着时间的推移相应的像素具有相同的层标签,表示为:
[0140]
[0141] 式(6)中, 表示当前帧像素p的语义标签, 表示下一帧像素q的语义标签,当 时,指示函数 当 时 ,指示函数
[0142] 式(3)中,Elayer实现了前景层分割和语义分割之间的相似性,表示为:
[0143]
[0144] 式(7)中, 表示当前帧像素p的语义标签, 表示前景物体的分割标签,当时, 当 时,
[0145] 式(3)中,Espace鼓励分层的空间邻接性,对非相邻空间的像素施加惩罚,表示为:
[0146]
[0147] 式(8)中, 表示空间项的权重系数; 表示当前帧像素p的语义标签; 表示当前帧像素r的语义标签,当 时, 不是相邻空间的像素,施加空间惩罚项;当 时, 像素处于相邻空间。
[0148] 当所述图像区域属于所述平面体类别时,使用单应性将平面运动建模为uplane(x;hi),其中x∈Ri;给定区域i中的初始流向量 使用随机抽样一致性算法来鲁棒地估计单应性参数hi。
[0149] 当所述图像区域属于所述第三类别时,对应的运动模型为 其中x∈Ri;每个属于所述第三类别的图像区域中的流场设置为初始流向量。
[0150] 步骤104具体包括:使用不同的流动模型来表示场景的不同部分的运动,结合不同模型的流场得到最终的语义光流。
[0151] 步骤106具体包括:
[0152] 采用预选设定的超像素分割数目对所述双目图像进行分割,得到多个平面。
[0153] 利用洛伦兹惩罚优化能量函数结合所述语义光流和所述视差信息,使用最小二乘法求解所述洛伦兹惩罚优化能量函数的最小化误差的平方和,得到每个平面的运动参数其中,每个平面的运动参数的计算公式为:
[0154]
[0155]
[0156] 式(9)、式(10)中, 表示洛伦兹惩罚优化能量函数;T表示由三维坐标到图像坐标的投影算子;p'表示像素p的匹配点;R表示旋转矩阵;t表示平移矩阵; 表示法向量;H表示由 组成运动平面的映射关系;
(K|0)为左目相机的
投影矩阵,(M|m)为右目相机的投影矩阵,当运动参数的计算公式最小时,求得运动参数[0157] 步骤107具体包括:
[0158] 根据预先设定的超像素分割映射关系,确定每个平面的初始场景流。
[0159] 确定平面的运动参数在所述语义标签层面内部优化的能量函数模型。
[0160] 根据所述初始场景流和所述能量函数模型,添加语义分割模型中的语义标签层面,使每个平面的运动参数在所述语义标签层面内部得到优化,确定所有双目图像的场景流。
[0161] 其中,平面的运动参数在所述语义标签层面内部优化的能量函数模型为:
[0162] E(P,S)=ED(P,S)+λER(P,S)+μES(S)(11);
[0163] 式(11)中,S表示像素到平面区域的映射,将每个像素p分配给平面区域;P表示平面区域到运动平面的映射,将每个平面区域分配给一个3D刚性移动平面 ED(P,S)+λER(P,S)表示数据项和正则化项;ES表示分割项,表示为:
[0164]
[0165] 其中,第一项up,q表示为考虑图像结构和边缘信息的权重参数,p和q表示图像中分割段的两个像素点,Sse表示语义分割段; 表示当前帧的左目图像;第二项e表示一个分割段的种子点,ε表示超像素分割段区域,NS表示限制分割段大小的尺寸。
[0166] 优化过程如下:
[0167] 根据预先设定的超像素分割确定像素到平面区域的映射关系S,更新平面区域到运动平面的映射关系P,得到初始场景流;初始场景流确定公式如下,
[0168] min{ED(P,S)+λER(P,S)}   (12);
[0169] 式(12)中,ED表示图像在四个视图中遵守外观一致性,可表示为:
[0170]
[0171] 式(13)中, 分别表示立体匹配在当前帧和下一帧的外观一致性,可表示为:
[0172]
[0173] ti表示当前帧和下一帧的时间序号,ρc表示单应性转换参数; 表示从当前帧左目图像到ti时刻左目图像的单应性变换, 表示从当前帧左目图像到ti
时刻右目图像的单应性变换; 分别表示光流在左目、右目的外观一致性,可表
示为:
[0174]
[0175] z表示左目相机和右目相机序号; 表示从当前帧左目图像到当前帧z目图像的单应性变换; 表示从当前帧左目图像到下一帧z目图像的单应性变换。
[0176] 式(12)中,ER由几何项和运动项组成,可表示为:
[0177]
[0178] 式(14)中, 为几何项,表示为
[0179]
[0180] 假设像素p和像素q表示8邻域N中两个相邻的像素,但处于两个不同的运动平面,ωp,q表示调节共享边缘长度的权重系数,ψ(·)表示鲁棒性惩罚函数,fγ(α,β)定义为一个距离函数,表示为:
[0181] fγ(α,β)=||α(d1+γβdn)+(1-α)(d2+γβdn)||;
[0182] 其中,α和β分别表示边界和法向量系数; 和 表示3D端点间的距离, 分别是像素p和像素q投影到两个运动平面的端点,共享边缘
长度表示为端点距离的凸组合||αd1+(1-α)d2||。
[0183] 由于平面曲率引入法向量np和nq,dn=np-nq表示法向量的差;设定γ=1,此时距离函数fγ(α,β)优于当平面存在曲率变化时的情况。
[0184] 式(14)中, 为运动项,表示为:
[0185]
[0186] 式(16)中, 表示经过旋转、平移运动后的端点间的距离,考虑到平面曲率,
表示法向量经过旋转后的差。
[0187] 根据所述初始场景流和所述能量函数模型,优化像素到平面区域的映射关系S,确定最终场景流;所述最终场景流的确定公式为:
[0188] min{ED(P,S)+λER(P,S)+μES(S)}。
[0189] 为实现上述目的本发明还提供了一种基于语义分割的双目场景流确定系统。
[0190] 图2为本发明实施例基于语义分割的双目场景流确定系统的结构示意图,如图2所示,本发明实施例提供的一种双目场景流确定系统包括:
[0191] 语义分割模型建立模块100,用于建立语义分割模型;所述语义分割模型是根据深度卷积神经网络和全连接条件随机场确定的;所述语义分割模型的输入为当前帧双目图像和下一帧双目图像;所述语义分割模型的输出为按照类别分割成的图像区域;所述类别包括物体类别、平面类别以及第三类别;所述第三类别包含的图像区域为双目图像除了所述物体类别和所述平面类别包含的图像区域以外的图像区域。
[0192] 双目图像序列获取模块200,用于获取双目图像序列;所述双目图像序列包括多帧图像;每帧图像均包括左目图像和右目图像。
[0193] 运动模型建立模块300,用于将所述双目图像序列中任意连续两帧的双目图像输入到所述语义分割模型中,输出不同的图像区域,并根据不同的图像区域建立不同的运动模型。
[0194] 语义光流确定模块400,用于根据所有所述运动模型综合确定所述双目图像的语义光流。
[0195] 视差信息计算模块500,用于采用半全局匹配算法计算所述双目图像的左右目的视差信息。
[0196] 运动参数计算模块600,用于根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数。
[0197] 场景流确定模块700,采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流。
[0198] 下面采用KITTI2015图像序列进行实验说明。
[0199] 1)图3a、图3b、图3c和图3d是KITTI2015图像序列左右目连续两帧图像。其中:图3a是左目第一帧图像,图3b是左目第二帧图像,图3c是右目第一帧图像,图3d是右目第二帧图像。2)使用Caffe训练语义分割模型DeepLab,得到参考视图的语义分割图,如图4所示,图4a是左目第一帧语义分割图像,图4b是左目第二帧语义分割图像。3)由语义信息计算图像序列连续两帧间的语义光流,图5是添加语义信息后计算得到的参考视图的语义光流图。4)由半全局匹配计算得到第一帧左右目的视差图,图6是计算得到第一帧的视差图。5)结合语义光流和视差信息,经过二次伪布尔优化算法优化,得到更新后的视差图图7,即得到由光流场和视差场两部分组成的运动场即场景流。
[0200] 本发明的方法通过添加语义信息,更加精准地估计运动物体的边缘信息,并通过判断像素与匹配点是否处于同一图层,从而在深度层次上大大简化了遮挡问题的推理。在优化运动过程中,由全局像素的优化改进为在语义分割的标签内部进行优化,使得语义标签内部的超像素块的运动趋于一致,同时很好地保护了运动物体的边缘信息,从而大大提高了场景流算法的准确性。
[0201] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0202] 本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。