一种基于深度学习的场景深度补全系统及方法转让专利

申请号 : CN202111070656.7

文献号 : CN114004754B

文献日 : 2022-07-26

本发明公开了一种基于深度学习的场景深度补全系统及方法，涉及计算机视觉技术领域。该方法包括获取KITTI数据集中不同模态的场景深度图的特征，所述不同模态的场景深度图包括稀疏深度图与RGB图片；采用基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片的特征；建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别根据稀疏深度图和RGB图片的特征进行图像恢复，以得到低频深度图和高频深度图；根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图，完成场景深度补全。本发明可大大提高场景深度补全精度。

1.一种基于深度学习的场景深度补全系统，其特征在于，包括图像获取模块、特征提取模块、图像恢复模块以及深度补全模块，其中：图像获取模块，用于获取KITTI数据集中不同模态的场景深度图，所述不同模态的场景深度图包括稀疏深度图与RGB图片；

特征提取模块，用于采用基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片的特征；

图像恢复模块，用于建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别根据稀疏深度图和RGB图片的特征进行图像恢复，以得到低频深度图和高频深度图；

所述图像恢复模块包括低频处理子模块，用于根据稀疏深度图的特征构建图模型，包括：将图片原始分辨率上的每个像素点都视为一个节点，稀疏深度图的特征图Fs作为输入，先通过一层标准卷积输出一张粗糙的深度图Dcoarse，然后基于深度图Dcoarse计算每一个节点的三维空间位置XYZ，将表示XYZ的位置图记作PXYZ，将PXYZ与RGB图片的特征图Frgb相连，经过标准卷积并取整后得到表示节点连接关系的GE，进而得到图模型；

并将图模型输入到基于注意力的图卷积网络中，采用标准卷积层聚合图卷积输出的特征图，以得到低频深度图；包括：采用公式进行图卷积，以输出图卷积的特征

图，其中，PXYZ是位置图，表示节点的三维空间坐标；Fs是从稀疏深度图提取的特征图，表示i,j节点的初始状态；||表示连接特征图；MLP表示多层感知器；α 表示节点i与节点j之间的注意力值；分别表示在第t+1次图卷积时信息的聚合与状态的更新；表示与节点i相连接的节点的集合；采用标准卷积层聚合图卷积输出的特征图，以得到低频深度图；

所述图像恢复模块包括高频处理子模块，用于基于注意力的自卷积融合网络根据稀疏深度图和RGB图片的特征自适应地选择信息融合区域，通过空间异变卷积让网络自适应地控制稀疏深度图和RGB图片的特征的融合程度，以得到高频深度图；来自不同模态的特征图F首先通过卷积生成空间注意力图Fatt，然后将注意力图与特征图相乘，用注意力自适应地选择信息融合区域，得到F'；F'一方面通过通道混合得到异态信息在通道上分布均匀的特征图F′CS；另一方面通过卷积获得一系列空间异变的卷积核W，该卷积核被用来对多模态信息进行分组卷积；分组卷积的结果Ffuse即为多模态信息融合后的特征图，该特征图被用来继续与其他尺度上的多模特信息融合；

深度补全模块，用于根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图，完成场景深度补全。

2.根据权利要求1所述的一种基于深度学习的场景深度补全系统，其特征在于，还包括补全评估模块，用于将稠密深度图和预置的对比图进行对比，生成对比评估结果。

3.一种基于深度学习的场景深度补全方法，其特征在于，包括以下步骤：

获取KITTI数据集中不同模态的场景深度图，所述不同模态的场景深度图包括稀疏深度图与RGB图片；

采用基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片的特征；

建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别根据稀疏深度图和RGB图片的特征进行图像恢复，以得到低频深度图和高频深度图；包括：根据稀疏深度图的特征构建图模型，包括：将图片原始分辨率上的每个像素点都视为一个节点，稀疏深度图的特征图Fs作为输入，先通过一层标准卷积输出一张粗糙的深度图Dcoarse，然后基于深度图Dcoarse计算每一个节点的三维空间位置XYZ，将表示XYZ的位置图记作PXYZ，将PXYZ与RGB图片的特征图Frgb相连，经过标准卷积并取整后得到表示节点连接关系的GE，进而得到图模型；

基于注意力的自卷积融合网络根据稀疏深度图和RGB图片的特征自适应地选择信息融合区域，通过空间异变卷积让网络自适应地控制稀疏深度图和RGB图片的特征的融合程度，以得到高频深度图；来自不同模态的特征图F首先通过卷积生成空间注意力图Fatt，然后将注意力图与特征图相乘，用注意力自适应地选择信息融合区域，得到F'；F'一方面通过通道混合得到异态信息在通道上分布均匀的特征图F′CS；另一方面通过卷积获得一系列空间异变的卷积核W，该卷积核被用来对多模态信息进行分组卷积；分组卷积的结果Ffuse即为多模态信息融合后的特征图，该特征图被用来继续与其他尺度上的多模特信息融合；

根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图，完成场景深度补全。

4.根据权利要求3所述的一种基于深度学习的场景深度补全方法，其特征在于，还包括以下步骤：将稠密深度图和预置的对比图进行对比，生成对比评估结果。

5.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求3‑4中任一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求3‑4中任一项所述的方法。

一种基于深度学习的场景深度补全系统及方法

技术领域

[0001] 本发明涉及计算机视觉技术领域，具体而言，涉及一种基于深度学习的场景深度补全系统及方法。

背景技术

[0002] 近年来，随着计算机视觉技术的发展，自动驾驶、虚拟现实、位姿估计、目标检测等领域都出现了令人瞩目的成就，而深度也逐渐成为了研究热点。但受限于RGB‑D相机、激光雷达等传感器的局限性，精确稠密的深度信息的获取依旧是一件困难的事情。激光雷达虽然精度很高，但其本身成本昂贵，且获得的深度信息稀疏不规律。RGB‑D相机虽然能获得稠密的深度信息，但它的感知范围有限，效果受到环境影响比较严重。为了获得稠密的精确深度图，克服传感器本身的缺陷，已经有大量的工作开始研究补全给定的稀疏深度图来获得稠密深度图的方法，被称为深度补全。

[0003] 由于稀疏深度测量丢失了大量的环境信息，尤其是物体几何信息，所以早期只基于稀疏深度图的深度补全效果较差，物体边界模糊，深度混叠严重。为了弥补稀疏深度采样过程中丢失的信息，引入额外信息就成为一种必要手段。RGB图像包含了场景丰富的颜色纹理信息且获取成本低，所以近年来深度补全主要都以RGB图片为引导，补全来自激光雷达的稀疏深度图。

[0004] 随着深度学习的发展，数据驱动的方法在深度补全领域取得了远超传统方法的成果。现有的基于深度神经网络的深度补全基本上可以分为两种策略，第一种策略是“单一分支结构”，简单而言就是将稀疏深度图与RGB图一起送入网络中，经过一个编码解码网络回归出稠密深度图。这种方法存在的缺点是不能很好地处理异态数据融合的问题，对RGB图片中的几何信息利用不足。另一种策略是“多分支结构”，这种方法本质上是多模型集成，即每一个分支都可以视为单一的深度补全模型，通过将来自不同分支的稠密深度图进行集成，最终可以获得效果更好的结果。因为一般深度补全中只引入RGB图片这一种额外数据，所以“多分支结构”常被设计为“双分支结构”，每一分支侧重处理一种模态的信息。

[0005] 尽管现有方法都取得了不错的结果，但它们将注意力集中在不同模态特征融合或构建差异性分支上，忽略了不同模态数据的特殊性对结果的影响。事实上，稀疏深度信息作为场景深度值的降采样，它的高频信息缺失且混杂大量噪声，而低频信息就准确很多。彩色图却相反，它包含大量与高频信息相关的场景几何信息，但在低频区域，彩色图片丰富的纹理与颜色变化却可能在这些区域的深度估计结果中引入噪声。又因为在稠密深度图中，低频成分占绝大部分，这就导致学习到的模型对稀疏深度信息存在“数据偏好”，使模型在高低频信息的恢复过程中都偏好利用稀疏深度信息，RGB图片信息利用不足，最终获得一个次优解。

发明内容

[0006] 为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种基于深度学习的场景深度补全系统及方法，可大大提高场景深度补全精度。

[0007] 本发明的实施例是这样实现的：

[0008] 第一方面，本发明实施例提供一种基于深度学习的场景深度补全系统，包括图像获取模块、特征提取模块、图像恢复模块以及深度补全模块，其中：

[0009] 图像获取模块，用于获取KITTI数据集中不同模态的场景深度图，上述不同模态的场景深度图包括稀疏深度图与RGB图片；

[0010] 特征提取模块，用于采用基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片的特征；

[0011] 图像恢复模块，用于建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别根据稀疏深度图和RGB图片的特征进行图像恢复，以得到低频深度图和高频深度图；

[0012] 深度补全模块，用于根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图，完成场景深度补全。

[0013] 为了解决现有技术中将注意力集中在不同模态特征融合或构建差异性分支上，忽略了不同模态数据的特殊性对结果的影响，导致补全结果精度低的技术问题，本系统首先通过图像获取模块在KITTI数据集中选取不同模态的场景深度图，然后通过特征提取模块采用独立的基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片这两个异构数据的特征，然后通过图像恢复模块建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别恢复稠密深度图的高频成分和低频成分，达到在低频成分恢复过程中稀疏深度信息占优，高频成分恢复过程RGB图片信息占优的目的，最后通过深度补全模块将两者进行结合，以得到一个稠密深度图，进而有效提高深度补全结果的精度。

[0014] 基于第一方面，在本发明的一些实施例中，上述图像恢复模块包括低频处理子模块，用于根据稀疏深度图的特征构建图模型，并图模型输入到基于注意力的图卷积网络中，采用标准卷积层聚合图卷积输出的特征图，以得到低频深度图。

[0015] 基于第一方面，在本发明的一些实施例中，上述图像恢复模块包括高频处理子模块，用于基于注意力的自卷积融合网络根据稀疏深度图和RGB图片的特征自适应地选择信息融合区域，通过空间异变卷积让网络自适应地控制稀疏深度图和RGB图片的特征的融合程度，以得到高频深度图。

[0016] 基于第一方面，在本发明的一些实施例中，该基于深度学习的场景深度补全系统还包括补全评估模块，用于将稠密深度图和预置的对比图进行对比，生成对比评估结果。

[0017] 第二方面，本发明实施例提供一种基于深度学习的场景深度补全方法，包括以下步骤：

[0018] 获取KITTI数据集中不同模态的场景深度图，上述不同模态的场景深度图包括稀疏深度图与RGB图片；

[0019] 采用基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片的特征；

[0020] 建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别根据稀疏深度图和RGB图片的特征进行图像恢复，以得到低频深度图和高频深度图；

[0021] 根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图，完成场景深度补全。

[0022] 为了解决现有技术中将注意力集中在不同模态特征融合或构建差异性分支上，忽略了不同模态数据的特殊性对结果的影响，导致补全结果精度低的技术问题，本方法首先在KITTI数据集中选取不同模态的场景深度图，然后采用独立的基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片这两个异构数据的特征，然后建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别恢复稠密深度图的高频成分和低频成分，达到在低频成分恢复过程中稀疏深度信息占优，高频成分恢复过程RGB图片信息占优的目的，最后将两者进行结合，以得到一个稠密深度图，进而有效提高深度补全结果的精度。

[0023] 基于第二方面，在本发明的一些实施例中，上述建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别根据稀疏深度图和RGB图片的特征进行图像恢复，以得到低频深度图和高频深度图的方法包括以下步骤：

[0024] 根据稀疏深度图的特征构建图模型，并图模型输入到基于注意力的图卷积网络中，采用标准卷积层聚合图卷积输出的特征图，以得到低频深度图。

[0025] 基于第二方面，在本发明的一些实施例中，上述建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别根据稀疏深度图和RGB图片的特征进行图像恢复，以得到低频深度图和高频深度图的方法包括以下步骤：

[0026] 基于注意力的自卷积融合网络根据稀疏深度图和RGB图片的特征自适应地选择信息融合区域，通过空间异变卷积让网络自适应地控制稀疏深度图和RGB图片的特征的融合程度，以得到高频深度图。

[0027] 基于第二方面，在本发明的一些实施例中，该基于深度学习的场景深度补全方法还包括以下步骤：

[0028] 将稠密深度图和预置的对比图进行对比，生成对比评估结果。

[0029] 第三方面，本申请实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当一个或多个程序被处理器执行时，实现如上述第二方面中任一项的方法。

[0030] 第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第二方面中任一项的方法。

[0031] 本发明实施例至少具有如下优点或有益效果：

[0032] 本发明实施例提供一种基于深度学习的场景深度补全系统及方法，为了解决现有技术中将注意力集中在不同模态特征融合或构建差异性分支上，忽略了不同模态数据的特殊性对结果的影响，导致补全结果精度低的技术问题，本方法首先在KITTI数据集中选取不同模态的场景深度图，然后采用独立的基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片这两个异构数据的特征，然后建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别恢复稠密深度图的高频成分和低频成分，达到在低频成分恢复过程中稀疏深度信息占优，高频成分恢复过程RGB图片信息占优的目的，最后将两者进行结合，以得到一个稠密深度图，进而有效提高深度补全结果的精度。

附图说明

[0033] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

[0034] 图1为本发明实施例一种基于深度学习的场景深度补全方法的流程图；

[0035] 图2为本发明实施例一种基于深度学习的场景深度补全系统的原理框图；

[0036] 图3为本发明实施例编码解码网络的结构示意图；

[0037] 图4为本发明实施例低频分支结构示意图；

[0038] 图5为本发明实施例图生成网络的结构示意图；

[0039] 图6为本发明实施例高频分支结构示意图；

[0040] 图7为本发明实施例基于注意力的自卷积融合示意图；

[0041] 图8为本发明实施例提供的一种电子设备的结构框图。

[0042] 图标：100、图像获取模块；200、特征提取模块；300、图像恢复模块；310、低频处理子模块；320、高频处理子模块；400、深度补全模块；500、补全评估模块；101、存储器；102、处理器；103、通信接口。

具体实施方式

[0043] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

[0044] 因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0045] 应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

[0046] 需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0047] 实施例

[0048] 如图1所示，第一方面，本发明实施例提供一种基于深度学习的场景深度补全系统，包括图像获取模块100、特征提取模块200、图像恢复模块300以及深度补全模块400，其中：

[0049] 图像获取模块100，用于获取KITTI数据集中不同模态的场景深度图，上述不同模态的场景深度图包括稀疏深度图与RGB图片；

[0050] 特征提取模块200，用于采用基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片的特征；

[0051] 图像恢复模块300，用于建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别根据稀疏深度图和RGB图片的特征进行图像恢复，以得到低频深度图和高频深度图；

[0052] 深度补全模块400，用于根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图，完成场景深度补全。

[0053] 为了解决现有技术中将注意力集中在不同模态特征融合或构建差异性分支上，忽略了不同模态数据的特殊性对结果的影响，导致补全结果精度低的技术问题，本系统首先通过图像获取模块100在KITTI数据集中选取不同模态的场景深度图，然后通过特征提取模块200采用独立的基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片这两个异构数据的特征，然后通过图像恢复模块300建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别恢复稠密深度图的高频成分和低频成分，达到在低频成分恢复过程中稀疏深度信息占优，高频成分恢复过程RGB图片信息占优的目的，最后通过深度补全模块400将两者进行结合，以得到一个稠密深度图，进而有效提高深度补全结果的精度。

[0054] 如图1所示，基于第一方面，在本发明的一些实施例中，上述图像恢复模块300包括低频处理子模块310，用于根据稀疏深度图的特征构建图模型，并图模型输入到基于注意力的图卷积网络中，采用标准卷积层聚合图卷积输出的特征图，以得到低频深度图。

[0055] 在进行图像恢复处理时，采用双分支结构分别恢复稠密深度图的高频成分和低频成分，双分支结构包括低频分支和高频分支。

[0056] 在低频分支，提出了自适应建图的基于注意力的图卷积网络作为低通滤波器，充分提取稀疏深度信息中包含的低频信息。通过低频处理子模块310采用基于注意力的图卷积网络利用稀疏深度数据中的低频信息，恢复稠密深度图的低频成分，以得到低频深度图。

[0057] 如图1所示，基于第一方面，在本发明的一些实施例中，上述图像恢复模块300包括高频处理子模块320，用于基于注意力的自卷积融合网络根据稀疏深度图和RGB图片的特征自适应地选择信息融合区域，通过空间异变卷积让网络自适应地控制稀疏深度图和RGB图片的特征的融合程度，以得到高频深度图。

[0058] 通过高频处理子模块320采用基于注意力的自卷积融合网络利用RGB图像数据中的高频信息，缓解模型对稀疏深度信息过度偏好而造成的彩色信息利用不充分的问题，以得到高频深度图。在高频分支，提出了基于注意力的自卷积融合模型，来有选择性地、自适应地、以空间异变方式融合不同模态数据，相比之前的数据融合方式更加有效。

[0059] 如图1所示，基于第一方面，在本发明的一些实施例中，该基于深度学习的场景深度补全系统还包括补全评估模块500，用于将稠密深度图和预置的对比图进行对比，生成对比评估结果。

[0060] 为了对深度补全的效果进行有效把控，通过补全评估模块500将稠密深度图和预置的对比图进行对比，采用损失函数评估图像深度补全的效果，生成对比评估结果。

[0061] 如图2‑7所示，第二方面，本发明实施例提供一种基于深度学习的场景深度补全方法，包括以下步骤：

[0062] S1、获取KITTI数据集中不同模态的场景深度图，上述不同模态的场景深度图包括稀疏深度图与RGB图片；

[0063] S2、采用基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片的特征；

[0064] 在本发明的一些实施例中，稀疏深度图与RGB图片属于不同模态的信息，与让异态信息直接在低阶融合后提取特征的策略不同，本方法先使用两个独立的“编码解码网络”EDs和EDrgb分别对它们进行特征提取，这有助于避免不同模态数据在特征提取过程中相互干扰。其中“编码解码网络”使用了UNet网络架构，如图3所示，图中(a)表示用于特征提取的“编码解码网络”的具体结构，(b)表示用于提取RGB图片特征的网络EDrgb，(c)表示用于提取稀疏深度图特征的网络EDs，EDs和EDrgb不共享参数。

[0065] S3、建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别根据稀疏深度图和RGB图片的特征进行图像恢复，以得到低频深度图和高频深度图；

[0066] 进一步地，根据稀疏深度图的特征构建图模型，并图模型输入到基于注意力的图卷积网络中，采用标准卷积层聚合图卷积输出的特征图，以得到低频深度图。

[0067] 进一步地，基于注意力的自卷积融合网络根据稀疏深度图和RGB图片的特征自适应地选择信息融合区域，通过空间异变卷积让网络自适应地控制稀疏深度图和RGB图片的特征的融合程度，以得到高频深度图。

[0068] 在本发明的一些实施例中，采用双分支结构分别恢复稠密深度图的高频成分和低频成分，双分支结构包括低频分支和高频分支。其中低频分支的目的是充分利用稀疏深度数据中的低频信息，恢复稠密深度图的低频成分，低频分支结构如图4所示。低频分支本质上是一个低通滤波器。虽然标准卷积可以看作一个滤波器，但它的参数是网络在数据驱动下学习的结果，很难约束其成为特定的滤波器，如低通滤波器。为了实现这个目的，本发明设计了“基于注意力的图卷积网络”来等效“低通滤波器”，并且提出了“图生成网络”，如图5所示，用学习的方法自适应地构建图模型的边。“图生成网络”：构建边的最直接做法是计算点云的三维空间坐标，按最近邻关系生成边。但这种方法会受到点云空间位置(深度值)准确性的影响，而这恰是我们要优化的目标。所以我们提出了自适应学习边的策略，即“边”的构建不是简单通过不准确的位置关系确定，而是通过神经网络学习得到。

[0069] 图模型通常可以表示为G＝{V,E}，其中V表示节点，E表示边。每一个节点v∈V都与其邻域内的部分节点存在连接关系，我们将这些与节点v相连接的节点的集合称为Nv，将它们之间的连接关系称为边ev。此外，节点v的初始状态及它在t时刻的状态分别称为节点状态会随着图卷积的进行动态变化。

[0070] 在本发明中，我们将图片原始分辨率上的每个像素点都视为一个节点，每个节点v∈V的初始状态是“编码解码网络”EDs输出的特征图Fs对应的n维特征向量，它的邻接结点Nv及其对应的边ev都是通过“图生成网络”获得。需要注意的是，这里提到的边都是有向边，即我们构建的图模型是一个有向无环图。

[0071] 具体的，将特征图Fs作为输入，先通过一层标准卷积输出一张粗糙的深度图Dcoarse，然后按照相机内参K计算每一个节点的三维空间位置：Z＝Dcoarse、将表示XYZ的位置图记作PXYZ。最后，将PXYZ与特征图Frgb相连，
经过标准卷积并取整后得到表示节点连接关系的GE。设置每个节点有n条边，那么GE就有2n个通道。例如有ei,j∈GE，则ei,j是一个1×2n的向量：表示(i,j)
处节点n条边的向量在xy两个方向上的分量。

[0072] 在发明中，为了用GPU并行运算来加速图卷积过程，我们将每个节点边的数量设置为8，即GE通道数为16。

[0073] 得到图模型后，我们将它作为输入，送到基于注意力的图卷积网络中。图卷积过程用公式可以表示为：

[0074]

[0075] 其中，PXYZ是位置图，表示节点的三维空间坐标；Fs是从稀疏深度图提取的特征图，i,j表示节点的初始状态；||表示连接特征图；MLP表示多层感知器；α 表示节点i与节点j之间的注意力值；分别表示在第t+1次图卷积时信息的聚合与状态的更新。

[0076] 最后，用过1×1的标准卷积层聚合图卷积输出的特征图，得到稠密深度图的低频成分图DLF。

[0077] 高频分支的目的是充分利用RGB图像数据中的高频信息，缓解模型对稀疏深度信息过度偏好而造成的彩色信息利用不充分的问题。为了达到这个目的，我们将高频成分建模成了低频深度图与稠密深度图的残差。通过这种方式，一方面，模型在低频分支估计低频成分时，可以将高频分支约束成一个高通滤波器，另一方面，高频分支的优化目标由原来的稠密深度图变成残差，这有助于缓解模型对稀疏深度数据的偏好。高频分支结构如图6所示。

[0078] 将来自不同模态的特征图进行多尺度融合，需要注意的是，因为高频信息在RGB图片及稀疏深度图中的分布是区域性的，集中在几何边界及遮挡区域，所以融合这两种模态的信息就是一个空间异变的问题，即不同空间区域需要采用不同数据融合方式。一般的信息融合策略如：将不同模态数据提取的特征图相加或连接，再用标准卷积处理。这种数据融合方法是空间不变的，难以对不同区域采用不同的融合方法。本发明提出了“基于注意力的自卷积融合网络”，即图6中的“Self‑Fusion”模块。具体来讲，我们通过注意力机制让模型自适应地选择信息融合区域，同时，空间异变卷积让网络自适应地控制不同模态数据的融合程度。从而在有效利用稀疏深度信息的同时，尽可能地高效利用RGB图片信息，获得更好的结果。

[0079] 基于注意力的自卷积融合可以表示如图7所示，来自不同模态的特征图F首先通过卷积生成空间注意力图Fatt，然后将注意力图与特征图相乘，用注意力自适应地选择信息融合区域，得到F'。F'一方面通过通道混合得到异态信息在通道上分布均匀的特征图F′CS；另一方面通过卷积获得一系列空间异变的卷积核W，该卷积核被用来对多模态信息进行分组卷积，图中分为3组。分组卷积的结果Ffuse即为多模态信息融合后的特征图，该特征图被用来继续与其他尺度上的多模特信息融合。

[0080] S4、根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图，完成场景深度补全。

[0081] 为了解决现有技术中将注意力集中在不同模态特征融合或构建差异性分支上，忽略了不同模态数据的特殊性对结果的影响，导致补全结果精度低的技术问题，本方法首先在KITTI数据集中选取不同模态的场景深度图，然后采用独立的基于UNet网络架构的编码解码网络分别提取稀疏深度图和RGB图片这两个异构数据的特征，然后建立并采用基于注意力的图卷积网络和基于注意力的自卷积融合网络分别恢复稠密深度图的高频成分和低频成分，达到在低频成分恢复过程中稀疏深度信息占优，高频成分恢复过程RGB图片信息占优的目的，最后将两者进行结合，以得到一个稠密深度图，进而有效提高深度补全结果的精度。本发明采用双分支结构分别恢复稠密深度图的高频成分和低频成分，双分支结构包括低频分支和高频分支。在低频分支，提出了自适应建图的基于注意力的图卷积网络作为低通滤波器，充分提取稀疏深度信息中包含的低频信息。在高频分支，提出了基于注意力的自卷积融合模型，来有选择性地、自适应地、以空间异变方式融合不同模态数据，相比之前的数据融合方式更加有效。

[0082] 基于第二方面，在本发明的一些实施例中，该基于深度学习的场景深度补全方法还包括以下步骤：

[0083] 将稠密深度图和预置的对比图进行对比，生成对比评估结果。

[0084] 为了对深度补全的效果进行有效把控，将稠密深度图和预置的对比图进行对比，采用损失函数评估图像深度补全的效果，生成对比评估结果。

[0085] 本发明采用的损失函数是：

[0086] 其中D表示半稠密的真实深度图，表示估计出的稠密深度图，Hd和Wd分别表示图片的长宽；如果像素值在D中可获得，则取为1，否则为0；v表示所有非0的像素点的数量。

[0087] 本发明使用室外数据集KITTI作为我们的实验数据，对发明提出的高低频分别估计的深度补全方法进行实验验证。KITTI数据集是一个大型户外自动驾驶数据集，也是深度补全的主要基准。它由超过85000幅彩色图像和相应的稀疏深度图，半密集深度真值图组成，79000张用于训练，6000张用于验证，1000张用于测试。我们使用官方推荐的100张验证图像在训练期间评估所有图像并将其裁剪为256×1216的尺寸。我们的模型使用PyTorch0框架实现，并使用4个TITANRTXGPU进行训练。为了保持通用性，我们使用ADAM优化器，β1＝‑60.9,β2＝0.99,权重衰减为10 。该模型训练了30个批次，批量大小为8，学习率从1e‑3开始，每5个批次乘以衰减系数0.2。

[0088] 我们的实验平台包括Pytorch1.0，Python3.8，Ubuntu16.04和4张24GB内存的NVIDIA TITAN RTX，训练时采用ADAM优化器，学习率取0.001，每5个epoch衰减一半，总共训练30个epoch。

[0089] 对于实验的评估指标，我们采用了以下几个常用指标：

[0090]

[0091]

[0092]

[0093]

[0094] 使用最标准指标对KITTI数据集进行评估，评估指标包括：均方根误差(RMSE)、平均绝对误差(MAE)、逆深度的均方根误差(iRMSE)和逆深度的平均绝对误差(iMAE)，通过上述指标进行合理全面的评估，以得到一个全面的评估结果，进而对深度补全的效果进行直观清晰的了解。

[0095] 本发明还进行大量消融实验来证明本方法中提出的各个单元的有效性。

[0096] 低频和高频分支的有效性分析：首先证明平衡数据偏好的高频和低频分支的有效性。由于构建高低频模型的关键是在低频分支中进行低通滤波，并将高频分支建模为残差。因此，我们逐级构建了这个模型，形成了三个实验(a)、(b)、(c)。如表1所示，单分支网络(a)仅包含一个高频分支，它通过像素级相加融合了不同模态的特征。然后，(b)通过添加一个简单的“低频分支”将高频分支建模为残差，其中Conv只是一个标准卷积层，即(b)实验中的“低频分支”并没有低通滤波功能。实验显示(b)这种“残差学习”结构缓解了数据偏好并改善了结果。此外，(c)实验添加了我们提出的低通滤波模块AGGAN，它将低频分支转换为真正具有低通滤波功能的分支，并显著提高了性能。通过比较(a)、(b)、(c)三个实验，我们可以证明低通滤波模块AGGAN的有效性，以及将高频分支建模为残差的有效性。

[0097] 基于注意力的图卷积网络(AGGAN)的有效性分析：在(c)中，我们使用最近邻(kNN)方法来根据点云的空间位置生成图模型的边。相比之下，(d)通过我们提出的图生成网络(AGN)自适应地生成图模型的边，它利用了来自稀疏深度的空间信息和来自彩色图像的几何信息。如表I所示，(d)的误差比(c)小4.6mm。这表明我们提出的“图生成网络”是一种更有效的边生成策略。另外，图注意力卷积(GAC)的层数是一个需要确定的超参数。根据(g)、(h)、(i)的误差，我们发现随着层数的增加，深度值会更加准确。然而，深层网络的改进是以显着增加模型的计算成本为代价的。考虑到准确性和效率，我们将图注意力卷积的最终层数设置为3。

[0098] 基于注意力的自卷积融合(ASF)模块分析：以前的工作通常用连接或逐像素相加的方法来融合从不同模态中提取的特征。在表1中，实验(g)，(e)，(d)，(f)比较了提出的ASF和其他简单融合策略的效果，其中(e)表示连接、(d)表示像素级相加，(f)表示没有注意机制的ASF。通过实验可以发现ASF在RMSE上达到了最低的误差，这证明了ASF策略的有效性。当我们用空间注意力对特征进行加权时，(g)的误差明显低于(f)，这表明了注意力机制的有效性。此外，我们还分析了通道维度上共享卷积核的灵活性，基于实验数据得出每16个通道共享一个卷积核是合适的，这样不仅可以保持性能，还可以降低计算成本。

[0099] 表1：

[0100]

[0101]

[0102] 如图3所示，第三方面，本申请实施例提供一种电子设备，其包括存储器101，用于存储一个或多个程序；处理器102。当一个或多个程序被处理器102执行时，实现如上述第二方面中任一项的方法。

[0103] 还包括通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

[0104] 其中，存储器101可以是但不限于，随机存取存储器101(Random Access Memory，RAM)，只读存储器101(Read Only Memory，ROM)，可编程只读存储器101(Programmable Read‑Only Memory，PROM)，可擦除只读存储器101(Erasable Programmable Read‑Only Memory，EPROM)，电可擦除只读存储器101(Electric Erasable Programmable Read‑Only Memory，EEPROM)等。

[0105] 处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器102，包括中央处理器102(Central Processing Unit，CPU)、网络处理器102(Network Processor，NP)等；还可以是数字信号处理器102(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

[0106] 在本申请所提供的实施例中，应该理解到，所揭露的方法及系统和方法，也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0107] 另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

[0108] 第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器102执行时实现如上述第二方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器101(ROM，Read‑Only Memory)、随机存取存储器101(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

[0109] 以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

[0110] 对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

一种基于深度学习的场景深度补全系统及方法转让专利

申请号 : CN202111070656.7

文献号 : CN114004754B

文献日 : 2022-07-26

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 岳昊嵩 , 刘强 , 刘中 , 王薇 , 王磊 , 陈伟海

申请人 : 北京航空航天大学

摘要 :

权利要求 :

说明书 :