一种单目深度估计方法及其装置、设备和存储介质转让专利
申请号 : CN201810496541.6
文献号 : CN108961327B
文献日 : 2021-03-30
发明人 : 郭晓阳 , 李鸿升 , 伊帅 , 任思捷 , 王晓刚
申请人 : 深圳市商汤科技有限公司
摘要 :
权利要求 :
1.一种单目深度估计方法,其特征在于,所述方法包括:获取待处理图像;
将所述待处理图像输入至经过训练得到的单目深度估计网络模型,得到所述待处理图像的分析结果,其中,所述单目深度估计网络模型是通过第一双目匹配神经网络模型输出的视差图进行监督训练的;所述第一双目匹配神经网络模型是通过根据获取的合成样本数据训练第二双目匹配神经网络模型,并根据获取的真实样本数据对训练后的第二双目匹配神经网络模型的参数进行调整得到的;
输出所述待处理图像的分析结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取有深度标记的合成的双目图片作为所述合成样本数据,其中,所述合成的双目图片包括合成的左图和合成的右图。
3.根据权利要求2所述的方法,其特征在于,所述根据获取的合成样本数据训练第二双目匹配神经网络模型,包括:
根据所述合成的双目图片对第二双目匹配神经网络模型进行训练,得到训练后的第二双目匹配神经网络模型,其中,所述训练后的第二双目匹配神经网络模型的输出为视差图和遮挡图,所述视差图描述了所述左图中每个像素点与所述右图中对应的像素点的视差距离,所述视差距离以像素为单位;所述遮挡图描述了所述左图中每个像素点在所述右图中对应的像素点是否被物体遮挡。
4.根据权利要求1所述的方法,其特征在于,所述根据获取的真实样本数据对训练后的第二双目匹配神经网络模型的参数进行调整,得到第一双目匹配神经网络模型,包括:根据获取的带深度标记的真实双目数据对训练后的第二双目匹配神经网络模型进行监督训练,以调整所述训练后的第二双目匹配神经网络模型的权值,得到第一双目匹配神经网络模型。
5.根据权利要求1所述的方法,其特征在于,所述根据获取的真实样本数据对训练后的第二双目匹配神经网络模型的参数进行调整,得到第一双目匹配神经网络模型,还包括:根据获取的不带深度标记的真实双目数据对训练后的第二双目匹配神经网络模型进行无监督训练,以调整所述训练后的第二双目匹配神经网络模型的权值,得到第一双目匹配神经网络模型。
6.根据权利要求5所述的方法,其特征在于,所述根据获取的不带深度标记的真实双目数据对训练后的第二双目匹配神经网络模型进行无监督训练,以调整所述训练后的第二双目匹配神经网络模型的权值,得到第一双目匹配神经网络模型,包括:使用损失函数,根据所述不带深度标记的真实双目数据对训练后的第二双目匹配神经网络模型进行无监督训练,以调整所述训练后的第二双目匹配神经网络模型的权值,得到第一双目匹配神经网络模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:利用公式Lstereo-unsupft=Lphoto+γ1Labs+γ2Lrel确定所述损失函数,其中,所述Lstereo-unsupft表示损失函数,所述Lphoto表示重建误差,所述Labs表示所述第一双目匹配网络模型输出的视差图与所述训练后的第二双目匹配网络模型输出的视差图相比偏离较小,所述Lrel表示约束所述第一双目匹配网络模型的输出梯度与所述训练后的第二双目匹配网络模型的输出梯度一致,所述γ1和γ2表示强度系数。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:利用公式 或,
确定所述重建误差,其中,所述N表示图片中像素的个数,所述 表示所述训练后的第二双目匹配网络模型输出的遮挡图的像素值,所述 表示不带深度标记的真实双目数据中的左图的像素值,所述 表示不带深度标记的真实双目数据中的右图的像素值,所述 表示将右图采样后合成的图片的像素值,所述 表示将左图采样后合成的图片的像素值,所述 表示不带深度标记的真实双目数据中的左图经第一双目匹配网络模型输出的视差图的像素值,所述 表示不带深度标记的真实双目数据中的右图经第一双目匹配网络模型输出的视差图的像素值,所述ij表示像素点的像素坐标。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:利用公式 或,
确定所述第一双目匹配网络模型输出的视差图与所述训练后的第二双目匹配网络模型输出的视差图相比偏离较小,其中,所述N表示图片中像素的个数,所述 表示所述训练后的第二双目匹配网络模型输出的遮挡图的像素值,所述 表示不带深度标记的真实双目数据中的左图经第一双目匹配网络模型输出的视差图的像素值,所述 表示不带深度标记的真实双目数据中的右图经第一双目匹配网络模型输出的视差图的像素值,所述 表示左图经训练后的第二双目匹配网络模型输出的视差图的像素值,所述 表示右图经训练后的第二双目匹配网络模型输出的视差图的像素值,所述ij表示像素点的像素坐标,所述γ3表示强度系数。
10.根据权利要求7所述的方法,其特征在于,所述方法还包括:利用公式 或, 确定所述第一双目匹配网络模型的输出梯度与所述第二双目匹配网络模型的输出梯度一致,其中,所述N表示图片中像素的个数,所述 表示不带深度标记的真实双目数据中的左图经第一双目匹配网络模型输出的视差图的梯度,所述 表示不带深度标记的真实双目数据中的右图经第一双目匹配网络模型输出的视差图的梯度,所述 表示左图经训练后的第二双目匹配网络模型输出的视差图的梯度,所述 表示右图经训练后的第二双目匹配网络模型输出的视差图的梯度,所述ij表示像素点的像素坐标。
11.根据权利要求4所述的方法,其特征在于,所述带深度标记的真实双目数据包括左图和右图,对应地,所述单目深度估计网络模型的训练过程,包括:获取所述带深度标记的真实双目数据中的左图或右图作为训练样本;
根据所述带深度标记的真实双目数据中的左图或右图对单目深度估计网络模型进行训练。
12.根据权利要求5至10任一项所述的方法,其特征在于,所述不带深度标记的真实双目数据包括左图和右图,对应地,所述单目深度估计网络模型的训练过程,包括:将所述不带深度标记的真实双目数据输入到所述第一双目匹配神经网络模型,得到对应的视差图;
根据所述对应的视差图、拍摄所述不带深度标记的真实双目数据的摄像机的镜头基线距离和拍摄所述不带深度标记的真实双目数据的摄像机的镜头焦距,确定所述视差图对应的深度图;
将所述不带深度标记的真实双目数据中的左图或右图作为样本数据,根据所述视差图对应的深度图对单目深度估计网络模型进行监督,从而训练所述单目深度估计网络模型。
13.根据权利要求12所述的方法,其特征在于,所述待处理图像的分析结果包括所述单目深度估计网络模型输出的视差图,对应地,所述方法还包括:根据所述单目深度估计网络模型输出的视差图、拍摄输入所述单目深度估计网络模型的图片的摄像机的镜头基线距离和拍摄输入所述单目深度估计网络模型的图片的摄像机的镜头焦距,确定所述视差图对应的深度图;
输出所述视差图对应的深度图。
14.一种单目深度估计装置,其特征在于,所述装置包括:获取模块、执行模块和输出模块,其中:
所述获取模块,用于获取待处理图像;
所述执行模块,用于将所述待处理图像输入至经过训练得到的单目深度估计网络模型,得到所述待处理图像的分析结果,其中,所述单目深度估计网络模型是通过第一双目匹配神经网络模型输出的视差图进行监督训练的;
第一训练模块,用于根据获取的合成样本数据训练第二双目匹配神经网络模型;
第二训练模块,用于根据获取的真实样本数据对训练后的第二双目匹配神经网络模型的参数进行调整,得到第一双目匹配神经网络模型;
所述输出模块,用于输出所述待处理图像的分析结果。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:第一获取模块,用于获取有深度标记的合成的双目图片作为所述合成样本数据,其中,所述合成的双目图片包括合成的左图和合成的右图。
16.根据权利要求15所述的装置,其特征在于,所述第一训练模块,包括:第一训练单元,用于根据所述合成的双目图片对第二双目匹配神经网络模型进行训练,得到训练后的第二双目匹配神经网络模型,其中,所述训练后的第二双目匹配神经网络模型的输出为视差图和遮挡图,所述视差图描述了所述左图中每个像素点与所述右图中对应的像素点的视差距离,所述视差距离以像素为单位;所述遮挡图描述了所述左图中每个像素点在所述右图中对应的像素点是否被物体遮挡。
17.根据权利要求14所述的装置,其特征在于,所述第二训练模块,包括:第二训练单元,用于根据获取的带深度标记的真实双目数据对训练后的第二双目匹配神经网络模型进行监督训练,以调整所述训练后的第二双目匹配神经网络模型的权值,得到第一双目匹配神经网络模型。
18.根据权利要求14所述的装置,其特征在于,所述第二训练单元,还用于:根据获取的不带深度标记的真实双目数据对训练后的第二双目匹配神经网络模型进行无监督训练,以调整所述训练后的第二双目匹配神经网络模型的权值,得到第一双目匹配神经网络模型。
19.根据权利要求18所述的装置,其特征在于,所述第二训练单元,包括:第二训练部件,用于使用损失函数,根据所述不带深度标记的真实双目数据对训练后的第二双目匹配神经网络模型进行无监督训练,以调整所述训练后的第二双目匹配神经网络模型的权值,得到第一双目匹配神经网络模型。
20.根据权利要求19所述的装置,其特征在于,所述装置还包括:第一确定模块,用于利用公式Lstereo-unsupft=Lphoto+γ1Labs+γ2Lrel确定所述损失函数,其中,所述Lstereo-unsupft表示损失函数,所述Lphoto表示重建误差,所述Labs表示所述第一双目匹配网络模型输出的视差图与所述训练后的第二双目匹配网络模型输出的视差图相比偏离较小,所述Lrel表示约束所述第一双目匹配网络模型的输出梯度与所述训练后的第二双目匹配网络模型的输出梯度一致,所述γ1和γ2表示强度系数。
21.根据权利要求20所述的装置,其特征在于,所述装置还包括:第二确定模块,用于利用公式
或, 确定所述重建误差,其中,所述N表示图片中像素的个数,所述 表示所述训练后的第二双目匹配网络模型输出的遮挡图的像素值,所述 表示不带深度标记的真实双目数据中的左图的像素值,所述 表示不带深度标记的真实双目数据中的右图的像素值,所述 表示将右图采样后合成的图片的像素值,所述 表示将左图采样后合成的图片的像素值,所述 表示不带深度标记的真实双目数据中的左图经第一双目匹配网络模型输出的视差图的像素值,所述 表示不带深度标记的真实双目数据中的右图经第一双目匹配网络模型输出的视差图的像素值,所述ij表示像素点的像素坐标。
22.根据权利要求20所述的装置,其特征在于,所述装置还包括:第三确定模块,用于利用公式 或,确定所述第一双目匹配网络模型输出的视差图与所述训练后的第二双目匹配网络模型输出的视差图相比偏离较小,其中,所述N表示图片中像素的个数,所述 表示所述训练后的第二双目匹配网络模型输出的遮挡图的像素值,所述 表示不带深度标记的真实双目数据中的左图经第一双目匹配网络模型输出的视差图的像素值,所述 表示不带深度标记的真实双目数据中的右图经第一双目匹配网络模型输出的视差图的像素值,所述 表示左图经训练后的第二双目匹配网络模型输出的视差图的像素值,所述 表示右图经训练后的第二双目匹配网络模型输出的视差图的像素值,所述ij表示像素点的像素坐标,所述γ3表示强度系数。
23.根据权利要求20所述的装置,其特征在于,所述装置还包括:第四确定模块,用于利用公式 或,确定所述第一双目匹配网络模型的输出梯度与所述第二双目匹配网络模型的输出梯度一致,其中,所述N表示图片中像素的个数,所述 表示不带深度标记的真实双目数据中的左图经第一双目匹配网络模型输出的视差图的梯度,所述 表示不带深度标记的真实双目数据中的右图经第一双目匹配网络模型输出的视差图的梯度,所述 表示左图经训练后的第二双目匹配网络模型输出的视差图的梯度,所述 表示右图经训练后的第二双目匹配网络模型输出的视差图的梯度,所述ij表示像素点的像素坐标。
24.根据权利要求17所述的装置,其特征在于,所述带深度标记的真实双目数据包括左图和右图,对应地,所述装置还包括:第三训练模块,用于获取所述带深度标记的真实双目数据中的左图或右图作为训练样本;根据所述带深度标记的真实双目数据中的左图或右图对单目深度估计网络模型进行训练。
25.根据权利要求18至23任一项所述的装置,其特征在于,所述不带深度标记的真实双目数据包括左图和右图,对应地,所述装置还包括:第三训练模块,用于将所述不带深度标记的真实双目数据输入到所述第一双目匹配神经网络模型,得到对应的视差图;根据所述对应的视差图、拍摄所述不带深度标记的真实双目数据的摄像机的镜头基线距离和拍摄所述不带深度标记的真实双目数据的摄像机的镜头焦距,确定所述视差图对应的深度图;将所述不带深度标记的真实双目数据中的左图或右图作为样本数据,根据所述视差图对应的深度图对单目深度估计网络模型进行监督,从而训练所述单目深度估计网络模型。
26.根据权利要求25所述的装置,其特征在于,所述待处理图像的分析结果包括所述单目深度估计网络模型输出的视差图,对应地,所述装置还包括:第五确定模块,用于根据所述单目深度估计网络模型输出的视差图、拍摄输入所述单目深度估计网络模型的图片的摄像机的镜头基线距离和拍摄输入所述单目深度估计网络模型的图片的摄像机的镜头焦距,确定所述视差图对应的深度图;
第一输出模块,用于输出所述视差图对应的深度图。
27.一种单目深度估计设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至13任一项所述单目深度估计方法中的步骤。
28.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至13任一项所述单目深度估计方法中的步骤。
说明书 :
一种单目深度估计方法及其装置、设备和存储介质
技术领域
背景技术
目深度估计对于自动驾驶中的障碍物检测、三维场景重建,场景立体分析有着重要的意义。
另外单目深度估计可以间接地提高其他计算机视觉任务的性能,比如物体检测、目标跟踪
与目标识别。
数据是非常稀疏的,用这样的标记数据训练得到的单目深度估计网络没有清晰的边缘以及
不能捕捉细小物体的正确深度信息。
发明内容
输出的视差图进行监督训练的;
差图和遮挡图,所述视差图描述了所述左图中每个像素点与所述右图中对应的像素点的视
差距离,所述视差距离以像素为单位;所述遮挡图描述了所述左图中每个像素点在所述右
图中对应的像素点是否被物体遮挡。
配神经网络模型。
目匹配神经网络模型。
型的权值,得到第一双目匹配神经网络模型,包括:
得到第一双目匹配神经网络模型。
模型输出的视差图与所述训练后的第二双目匹配网络模型输出的视差图相比偏离较小,所
述Lrel表示约束所述第一双目匹配网络模型的输出梯度与所述训练后的第二双目匹配网络
模型的输出梯度一致,所述γ1和γ2表示强度系数。
图片中像素的个数,所述 表示所述训练后的第二双目匹配网络模型输出的遮挡图的
像素值,所述 表示不带深度标记的真实双目数据中的左图的像素值,所述 表示不带深
度标记的真实双目数据中的右图的像素值,所述 表示将右图采样后合成的图片的像素
值,所述 表示将左图采样后合成的图片的像素值,所述 表示不带深度标记的真实双目
数据中的左图经第一双目匹配网络模型输出的视差图的像素值,所述 表示不带深度标
记的真实双目数据中的右图经第一双目匹配网络模型输出的视差图的像素值,所述ij表示
像素点的像素坐标。
述训练后的第二双目匹配网络模型输出的视差图相比偏离较小,其中,所述N表示图片中像
素的个数,所述 表示所述训练后的第二双目匹配网络模型输出的遮挡图的像素值,所
述 表示不带深度标记的真实双目数据中的左图经第一双目匹配网络模型输出的视差图
的像素值,所述 表示不带深度标记的真实双目数据中的右图经第一双目匹配网络模型
输出的视差图的像素值,所述 表示左图经训练后的第二双目匹配网络模型输出的视
差图的像素值,所述 表示右图经训练后的第二双目匹配网络模型输出的视差图的像
素值,所述ij表示像素点的像素坐标,所述γ3表示强度系数。
表示图片中像素的个数,所述 表示不带深度标记的真实双目数据中的左图经第一双目
匹配网络模型输出的视差图的梯度,所述 表示不带深度标记的真实双目数据中的右图
经第一双目匹配网络模型输出的视差图的梯度,所述 表示左图经训练后的第二双目
匹配网络模型输出的视差图的梯度,所述 表示右图经训练后的第二双目匹配网络模
型输出的视差图的梯度,所述ij表示像素点的像素坐标。
对应的深度图;
型。
像机的镜头焦距,确定所述视差图对应的深度图;
匹配神经网络模型输出的视差图进行监督训练的;
络模型的输出为视差图和遮挡图,所述视差图描述了所述左图中每个像素点与所述右图中
对应的像素点的视差距离,所述视差距离以像素为单位;所述遮挡图描述了所述左图中每
个像素点在所述右图中对应的像素点是否被物体遮挡。
值,得到第一双目匹配神经网络模型。
目匹配神经网络模型。
经网络模型的权值,得到第一双目匹配神经网络模型。
双目匹配网络模型输出的视差图与所述训练后的第二双目匹配网络模型输出的视差图相
比偏离较小,所述Lrel表示约束所述第一双目匹配网络模型的输出梯度与所述训练后的第
二双目匹配网络模型的输出梯度一致,所述γ1和γ2表示强度系数。
表示图片中像素的个数,所述 表示所述训练后的第二双目匹配网络模型输出的遮挡
图的像素值,所述 表示不带深度标记的真实双目数据中的左图的像素值,所述 表示不
带深度标记的真实双目数据中的右图的像素值,所述 表示将右图采样后合成的图片的
像素值,所述 表示将左图采样后合成的图片的像素值,所述 表示不带深度标记的真实
双目数据中的左图经第一双目匹配网络模型输出的视差图的像素值,所述 表示不带深
度标记的真实双目数据中的右图经第一双目匹配网络模型输出的视差图的像素值,所述ij
表示像素点的像素坐标。
述训练后的第二双目匹配网络模型输出的视差图相比偏离较小,其中,所述N表示图片中像
素的个数,所述 表示所述训练后的第二双目匹配网络模型输出的遮挡图的像素值,
所述 表示不带深度标记的真实双目数据中的左图经第一双目匹配网络模型输出的视差
图的像素值,所述 表示不带深度标记的真实双目数据中的右图经第一双目匹配网络模型
输出的视差图的像素值,所述 表示左图经训练后的第二双目匹配网络模型输出的视
差图的像素值,所述 表示右图经训练后的第二双目匹配网络模型输出的视差图的像
素值,所述ij表示像素点的像素坐标,所述γ3表示强度系数。
配网络模型的输出梯度一致,其中,所述N表示图片中像素的个数,所述 表示不带深度
标记的真实双目数据中的左图经第一双目匹配网络模型输出的视差图的梯度,所述 表
示不带深度标记的真实双目数据中的右图经第一双目匹配网络模型输出的视差图的梯度,
所述 表示左图经训练后的第二双目匹配网络模型输出的视差图的梯度,所述
表示右图经训练后的第二双目匹配网络模型输出的视差图的梯度,所述ij表示像素
点的像素坐标。
行训练。
实双目数据的摄像机的镜头基线距离和拍摄所述不带深度标记的真实双目数据的摄像机
的镜头焦距,确定所述视差图对应的深度图;将所述不带深度标记的真实双目数据中的左
图或右图作为样本数据,根据所述视差图对应的深度图对单目深度估计网络模型进行监
督,从而训练所述单目深度估计网络模型。
网络模型的图片的摄像机的镜头焦距,确定所述视差图对应的深度图;
所述单目深度估计方法中的步骤。
待处理图像的分析结果,其中,所述单目深度估计网络模型是通过第一双目匹配神经网络
模型输出的视差图进行监督训练的;输出所述待处理图像的分析结果;如此,能够使用更少
或者不使用有深度图标记的数据训练单目深度估计网络,并且提出了一种更有效的无监督
微调双目视差网络的方法,从而间接提高了单目深度估计的效果。
附图说明
具体实施方式
来限制本发明的范围。
地使用。
计方法使用神经网络训练得到,训练数据来自双目匹配输出的视差图数据,而不需要昂贵
的深度采集设备如激光雷达。提供训练数据的双目匹配算法也是通过神经网络实现,该网
络通过渲染引擎渲染的大量虚拟双目图片对进行预训练即可达到很好的效果,另外可以在
真实数据上再进行微调训练以达到更好的效果。
机存储介质中,可见,该服务器至少包括处理器和存储介质。图1A为本发明实施例单目深度
估计方法的实现流程示意图一,如图1A所示,该方法包括:
导航仪、数字电话、视频电话、智能手表、智能手环、可穿戴设备、平板电脑等。服务器在实现
的过程中可以是移动终端如手机、平板电脑、笔记本电脑,固定终端如个人计算机和服务器
集群等具有信息处理能力的计算设备。
经网络模型输出的视差图进行监督训练的;
真实场景的数据对第一步得到的双目匹配神经网络进行微调训练;第三步是使用第二步得
到的双目匹配神经网络对单目深度估计网络提供监督,从而训练得到单目深度估计网络。
督的方法训练单目深度估计网络又无法处理遮挡区域的深度估计,得到的效果较差。而本
发明中所述单目深度估计网络模型的样本数据来自第一双目匹配神经网络模型输出的视
差图,也就是说,本发明利用了双目视差来指导单目深度的预测。因此,本发明中的方法无
需大量的标记数据,并且可以得到较好的训练效果。
深度估计网络模型一般输出的是所述待处理图像对应的视差图,而不是深度图;因此,还需
要根据所述单目深度估计网络模型输出的视差图、拍摄待处理图像的摄像机的镜头基线距
离和拍摄待处理图像的摄像机的镜头焦距,确定所述待处理图像对应的深度图。
其中,所述单目深度估计网络模型是通过第一双目匹配神经网络模型输出的视差图进行监
督训练的;输出所述待处理图像的分析结果;如此,能够使用更少或者不使用有深度图标记
的数据训练单目深度估计网络,并且提出了一种更有效的无监督微调双目视差网络的方
法,从而间接提高了单目深度估计的效果。
的输出为视差图和遮挡图,所述视差图描述了所述左图中每个像素点与所述右图中对应的
像素点的视差距离,所述视差距离以像素为单位;所述遮挡图描述了所述左图中每个像素
点在所述右图中对应的像素点是否被物体遮挡。
为标号为11的左图图片11中包含的所有像素点的像素值,IR为标号为12的右图图片12中包
含的所有像素点的像素值;标号为13的图片13为第二双目匹配神经网络模型经过训练后输
出的遮挡图,标号为14的图片14为第二双目匹配神经网络模型经过训练后输出的视差图,
标号为15的图片15为第二双目匹配神经网络模型。
第一双目匹配神经网络模型。
述训练后的第二双目匹配神经网络模型的权值,进一步提高训练后的第二双目匹配神经网
络模型的效果,得到第一双目匹配神经网络模型。
得到第一双目匹配神经网络模型。
值,得到第一双目匹配神经网络模型。这里无监督训练指的是在没有深度数据标记的情况
下,仅仅使用双目数据进行训练,可以使用无监督微调方法对此过程进行实现。
实双目数据中的左图或右图对单目深度估计网络模型进行训练,其中,所述带深度标记的
真实双目数据为步骤S1131a中使用的带深度标记的真实双目数据。
定所述视差图对应的深度图;
估计网络模型。
不带深度标记的真实双目数据中的左图或右图作为样本数据,也是步骤S1141b中使用的不
带深度标记的真实双目数据中的左图或右图作为样本数据,根据步骤S1141b中输出的视差
图对应的深度图对单目深度估计网络模型进行监督,从而训练所述单目深度估计网络模
型,得到训练后的单目深度估计网络模型。
号为13的视差图图片13,其中,所述不带深度标记的真实双目数据包括标号为11的左图图
片11和标号为12的右图图片12,标号为15的图片15为第一双目匹配神经网络模型。图1D中
的图(b)表示了将所述不带深度标记的真实双目数据中的左图或右图作为样本数据,根据
所述标号为13的视差图图片13对应的深度图对单目深度估计网络模型进行监督,从而训练
所述单目深度估计网络模型,其中所述样本数据经过所述单目深度估计网络模型的输出为
标号为14的视差图图片14,标号为16的图片16为单目深度估计网络模型。
经网络模型输出的视差图进行监督训练的;
的图片的摄像机的镜头焦距,确定所述视差图对应的深度图;
网络模型输出的视差图相比偏离较小;所述Lrel表示约束所述第一双目匹配网络模型的输
出梯度与所述训练后的第二双目匹配网络模型的输出梯度一致;所述γ1和γ2表示强度系
数。
素值;所述 表示不带深度标记的真实双目数据中的右图的像素值;所述 表示将右图采
样后合成的图片的像素值,即重建的左图;所述 表示将左图采样后合成的图片的像素
值,即重建的右图;所述 表示不带深度标记的真实双目数据中的左图经第一双目匹配网
络模型输出的视差图的像素值;所述 表示不带深度标记的真实双目数据中的右图经第
一双目匹配网络模型输出的视差图的像素值;所述ij表示像素点的像素坐标;所述old表示
训练后的第二双目匹配网络模型的输出;所述R表示右图或右图的相关数据,所述L表示左
图或左图的相关数据;所述I表示图片像素点的RGB(Red Green Blue,红色、绿色和蓝色)
值。
匹配网络输出的视差图的像素值,所述 表示样本数据中的右图经训练后的第二双目
匹配网络输出的视差图的像素值,所述 表示不带深度标记的真实双目数据中的左图经第
一双目匹配网络输出的视差图的像素值,所述 表示不带深度标记的真实双目数据中的
右图经第一双目匹配网络输出的视差图的像素值,所述ij表示像素点的像素坐标,所述old
表示训练后的第二双目匹配网络模型的输出,所述R表示右图或右图的相关数据,所述L表
示左图或左图的相关数据,所述γ3表示强度系数。
目数据中的右图经第一双目匹配网络输出的视差图的梯度,所述 表示样本数据中的
左图经训练后的第二双目匹配网络输出的视差图的梯度,所述 表示样本数据中的右
图经训练后的第二双目匹配网络输出的视差图的梯度,所述old表示训练后的第二双目匹
配网络模型的输出,所述R表示右图或右图的相关数据,所述L表示左图或左图的相关数据。
网络模型的权值,得到第一双目匹配神经网络模型。
题,提高了微调得到的第一双目匹配网络的效果,从而间接提高了第一双目匹配网络监督
得到的单目深度网络的效果。
的图(c)为将图(a)和图(b)组成的不带深度标记的真实双目图片输入至经过训练后的第二
双目匹配神经网络模型输出的视差图;图1E中的图(d)为将图(b)表示的右图进行采样后,
结合图(c)表示的视差图,对左图进行重建后的图片;图1E中的图(e)为将图(a)表示的左图
中的像素与图(d)表示的重建后的左图中的对应像素做差得到的图片,即左图的重建误差
图;图1E中的图(f)为将图(a)和图(b)组成的不带深度标记的真实双目图片输入至经过训
练后的第二双目匹配神经网络模型输出的遮挡图。其中,图(d)中所有的红框11表示所述重
建后的左图与图(a)标识的真实左图有差异的部分,图(e)中所有的红框12表示所述重建误
差图中有误差的部分,即被遮挡的部分。
误训练信号来提高无监督微调训练的效果。
样本图片,则通过公式(1)、公式(2)、公式(4)和公式(6)来确定损失函数;如果使用右图作
为样本图片,则通过公式(1)、公式(3)、公式(5)和公式(7)来确定损失函数。
第一双目匹配神经网络模型输出的视差图对应的深度图对所述单目深度估计网络模型进
行监督,也即使提供监督信息,从而训练所述单目深度估计网络模型。
经网络模型输出的视差图进行监督训练的;
的图片的摄像机的镜头焦距,确定所述视差图对应的深度图;
遮挡图。其中,视差图用于描述左图中每个像素点与右图中对应的像素点的视差距离,以像
素为单位;遮挡图用于描述左图每个像素在右图中对应的像素点是否被其他物体遮挡。由
于视角的变化,左图中的一些区域在右图中会被其他物体遮挡,遮挡图则是用于标记左图
中的像素是否在右图中被遮挡。
从而获得合成数据,同时正确的深度数据和相机焦距等数据也可以从渲染引擎中得到,所
以双目匹配网络可以直接通过这些标记数据进行监督训练。
记的情况下,仅仅使用双目数据进行训练。本发明实施例提出了一种新的无监督微调方法,
即使用上述实施例中的损失函数进行无监督微调。本发明实施例提出的损失函数的主要目
的是希望在不降低预训练效果的情况下在真实双目数据上对双目视差网络进行微调,微调
过程中借助了步骤S201得到的预训练双目视差网络的初步输出进行指导和正则化。
损失函数时得到的视差图。现有技术的损失函数没有单独考虑遮挡区域,会将遮挡区域的
图像重建误差也优化为零,这样会导致遮挡区域的预测视差错误,视差图的边缘也会模糊,
而本发明中的损失函数用遮挡图来清理这一部分的错误训练信号来提高无监督微调训练
的效果。
目图片,双目视差网络预测得到视差图,通过视差图D、双目镜头基线距离b以及镜头焦距f,
可以计算得到视差图对应的深度图,即通过公式(8),可以计算得到视差图对应的深度图d:
深度网路,得到最终结果。
督微调方法提高了双目视差网络的性能。
目图片数据上对步骤S201得到的双目匹配网络进行微调;使用步骤S202得到的双目匹配网
络在真实数据上对单目深度估计进行监督,最终得到单目深度估计网络;如此,能够使用更
少或者不使用有深度图标记的数据训练单目深度估计网络,并且提出了一种更有效的无监
督微调双目视差网络的方法,从而间接提高了单目深度估计的效果。
些问题,本发明实施例提出了一种新的单目深度估计方法,解决了现有技术中监督和无监
督深度估计方法存在的局限性。
而不是从语义特征中提取,因此,双目匹配网络可以很好地从合成数据泛化到真实数据。本
发明实施例的方法主要包括三个步骤。第一,用合成数据对双目匹配网络进行训练,从双目
图片中预测遮挡图和视差图。第二,根据可用的真实数据,在有监督或者无监督的情况下,
对训练后的双目匹配网络有选择性地进行调整。第三,在第二步得到的用真实数据微调训
练后的双目匹配网络的监督下,训练单目深度估计网络。这样可以间接利用双目匹配网络
来使单目深度估计更好地利用合成数据来提高性能。
深度估计对输入场景的语义信息非常敏感。合成数据和真实数据之间的巨大模态差距使得
使用合成数据辅助训练变得毫无用处。然而,双目匹配网络有更好的泛化能力,使用合成数
据训练的双目匹配网络在真实数据上也能得到较好的视差图输出。因此,本发明实施例将
双目匹配网络训练作为在合成数据和真实数据之间的桥梁来提高单目深度训练的性能。
正确的图像中,左侧图像像素的在右图中的对应像素点是否被其他物体遮挡。在接下来的
步骤中,无监督的微调方法会使用到所述遮挡图,以避免错误的估计。
图重建后的左图的视差图是一致的。一致性检查的阈值设置为1。遮挡图在遮挡区域为0,非
遮挡区域为1。
差Locc。双目视差网络的多尺度中间层也产生了视差和遮挡预测,并直接应用于多尺度预测
的损失权重wm, 表示每一层对应的视差图估计误差, 表示每一层对应的遮挡图估计
误差,m表示第m层:
类任务来训练遮挡图:
有RGB值的像素匹配的歧义性导致的。因此,本发明实施例引入额外的正则项约束来提高性
能。
的,本发明实施例提出的无监督的微调损失函数,即损失函数Lstereo-unsupft的获取可以参见
前面实施例中的描述。
后的双目匹配网络预测的视差图提供训练数据。单目深度估计的损失Lmono由以下几个部分
给出,参见公式(13):
络输出的视差图。
的双目匹配网络。
度图,其中,第一行为单目深度估计网络的输入,即三幅不同的街景图片;第二行为使用最
近邻算法对稀疏激光雷达深度图插值得到的深度数据,第三行至第五行为现有技术中的三
种不同的单目深度估计方法分别得到的三幅输入图片对应的深度图;本发明的结果见最后
三行,直接利用本发明实施例中第一步得到的使用合成数据训练得到的双目匹配网络,对
单目深度估计网络进行监督,得到的单目深度网络的三幅输入图片对应的深度图,即标号
为21的图片21、标号为22的图片22、标号为23的图片23;利用本发明实施例提出的无监督损
失函数,对训练后的双目匹配网络进行微调,将微调后的网络输出的视差图,作为单目深度
估计网络的训练数据,得到的单目深度网络的三幅输入图片对应的深度图,即标号为24的
图片24、标号为25的图片25、标号为26的图片26;对训练后的双目匹配网络进行有监督的微
调,将微调后的网络输出的视差图,作为单目深度估计网络的训练数据,得到的单目深度网
络的三幅输入图片对应的深度图,即标号为27的图片27、标号为28的图片28、标号为29的图
片29;从标号为21的图片21至标号为29的图片29可以看出,本发明实施例中的单目深度估
计方法获得的模型可以捕捉到更细节的场景结构。
块303,其中:
双目匹配神经网络模型输出的视差图进行监督训练的;
络模型的输出为视差图和遮挡图,所述视差图描述了所述左图中每个像素点与所述右图中
对应的像素点的视差距离,所述视差距离以像素为单位;所述遮挡图描述了所述左图中每
个像素点在所述右图中对应的像素点是否被物体遮挡。
值,得到第一双目匹配神经网络模型。
目匹配神经网络模型。
经网络模型的权值,得到第一双目匹配神经网络模型。
图相比偏离较小,所述Lrel表示约束所述第一双目匹配网络模型的输出梯度与所述训练后
的第二双目匹配网络模型的输出梯度一致,所述γ1和γ2表示强度系数。
素值,所述 表示不带深度标记的真实双目数据中的右图的像素值,所述 表示将右图采
样后合成的图片的像素值,所述 表示将左图采样后合成的图片的像素值,所述 表示不
带深度标记的真实双目数据中的左图经第一双目匹配网络模型输出的视差图的像素值,所
述 表示不带深度标记的真实双目数据中的右图经第一双目匹配网络模型输出的视差图
的像素值,ij表示像素点的像素坐标。
输出的视差图的像素值,所述γ3表示强度系数。
目匹配网络模型输出的视差图的梯度,所述 表示样本数据中的左图经训练后的第二
双目匹配网络模型输出的视差图的梯度,所述 表示样本数据中的右图经训练后的第
二双目匹配网络模型输出的视差图的梯度。
焦距,确定所述视差图对应的深度图;
单目深度估计网络模型。
网络模型的图片的摄像机的镜头焦距,确定所述视差图对应的深度图;
本发明方法实施例的描述而理解。
理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品
的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台
计算设备执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移
动硬盘、ROM(Read Only Memory,只读存储器)、磁碟或者光盘等各种可以存储程序代码的
介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
深度估计方法中的步骤。
披露的技术细节,请参照本发明方法实施例的描述而理解。
其中,
或RAM(Random Access Memory,随机访问存储器)实现。
且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该
要素的过程、方法、物品或者装置中还存在另外的相同要素。
前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质
(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服
务器,空调器,或者网络设备等)执行本发明各个实施例所描述的方法。
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
术领域,均同理包括在本发明的专利保护范围内。